Ai-je été formé ?

Vérifiez si votre contenu apparaît dans les principaux jeux de données d'entraînement d'IA. Nous vérifions les API en direct et conservons des copies indexées des jeux de données publics pour une couverture complète.

Mes actifs ont-ils été formés ?

Entrez l'URL du site Web

Comprendre les niveaux de confiance des modèles d'IA

✓ Confirmed: Officially documented by the AI company in research papers or public statements

⭐ Likely: Inferred based on model capabilities and industry standards, but not officially confirmed by the company

❓ Unknown: No public disclosure of training data sources - we cannot determine if they used this dataset

Note: Many AI companies keep training data confidential for competitive reasons. "Unknown" does not mean they didn't use your content - only that we cannot verify it.

Résultats de la vérification

Créez votre compte Opttab gratuit et voyez les résultats.

Débloquez une vérification complète des ensembles de données de formation de l'IA, protégez votre contenu et gérez vos actifs numériques avec des outils puissants.

Inscrivez-vous maintenant

Vous avez déjà un compte ? Se connecter

Comprendre les ensembles de données d'entraînement de l'IA

Découvrez les ensembles de données qui alimentent les systèmes d'IA modernes et comment protéger votre contenu

Ensembles de données de formation que nous vérifions

Common Crawl Live

Web Text Dataset

Current web crawl data

Wikipedia Live

Text Dataset

Wikipedia dumps used by virtually all LLMs

Internet Archive Live

Web Archive

Historical snapshots of web content

GitHub & Code Live

Code Dataset

Public code repositories

Reddit & Social Media Live

Conversational Dataset

Reddit posts and conversations

LAION-5B Cached

Image Dataset

5.85B image-text pairs (offline since late 2023)

C4 Corpus Static

Text Dataset

Cleaned Common Crawl text (Google T5)

OpenImages Offline

Image Dataset

9+ million labeled images (Google)

RedPajama Static

Text Dataset

1.2 trillion tokens (LLaMA replication)

Books & Literature Static

Text Dataset

Books corpus from various sources

Audio Datasets Offline

Audio Dataset

Voice and speech data (LibriSpeech, Common Voice)

DALL-E Training Data Offline

Image Dataset

Proprietary image dataset

Midjourney Training Data Offline

Image Dataset

Proprietary/secret dataset

Multimodal Web Data Cached

Multimodal Dataset

Combined text, image, and video data

Pourquoi des résultats mis en cache ?

Many AI training datasets don't offer public live APIs because:

Échelle

Les ensembles de données comme LAION-5B contiennent des milliards d'entrées

Confidentialité et coût

Les API en temps réel pour les ensembles de données massifs sont coûteuses

Nature statique

De nombreux ensembles de données de formation sont des versions figées

Nos résultats mis en cache sont basés sur des données réelles - nous conservons des copies indexées pour une vérification précise

Comment interpréter les résultats

Comprendre l'état de vérification et les niveaux de confiance

Statut de vérification

TROUVÉ

Le contenu existe dans cet ensemble de données

NON TROUVÉ

Contenu non détecté dans l'ensemble de données

ERREUR

Problème d'API temporaire

Niveaux de confiance

90-100%

Haute confiance (API en direct ou correspondance exacte)

70-89%

Bonne confiance (correspondance de base de données mise en cache)

50-69%

Modéré (détection basée sur des modèles)

Comment protéger votre contenu

Étapes pour empêcher l'entraînement de l'IA sur votre contenu

Ajouter des métabalises

<meta name="robots" content="noai, noimageai">

Mettre à jour le fichier robots.txt

User-agent: GPTBot
Disallow: /

Utiliser les en-têtes

X-Robots-Tag: noai

Demande de suppression

Contacter directement les responsables des jeux de données

Manage how you interact with AI

Ai-je été formé ?

Mes actifs ont-ils été formés ?

Numérisation de plusieurs ensembles de données...

Comprendre les niveaux de confiance des modèles d'IA

Résultats de la vérification

Sources de données vérifiées

Résultats de la vérification statique

Analyse de la protection du domaine

Créez votre compte Opttab gratuit et voyez les résultats.

Comprendre les ensembles de données d'entraînement de l'IA

Ensembles de données de formation que nous vérifions

Pourquoi des résultats mis en cache ?

Comment interpréter les résultats

Statut de vérification

Niveaux de confiance

Comment protéger votre contenu

Ajouter des métabalises

Mettre à jour le fichier robots.txt

Utiliser les en-têtes

Demande de suppression

Gérez votre présence

Manage how you interact with AI

Ai-je été formé ?

Mes actifs ont-ils été formés ?

Numérisation de plusieurs ensembles de données...

Comprendre les niveaux de confiance des modèles d&#39;IA

Résultats de la vérification

Sources de données vérifiées

Résultats de la vérification statique

Analyse de la protection du domaine

Créez votre compte Opttab gratuit et voyez les résultats.

Comprendre les ensembles de données d&#39;entraînement de l&#39;IA

Ensembles de données de formation que nous vérifions

Pourquoi des résultats mis en cache ?

Comment interpréter les résultats

Statut de vérification

Niveaux de confiance

Comment protéger votre contenu

Ajouter des métabalises

Mettre à jour le fichier robots.txt

Utiliser les en-têtes

Demande de suppression

Comprendre les niveaux de confiance des modèles d'IA

Comprendre les ensembles de données d'entraînement de l'IA