Manage how you interact with AI

Discover how you can manage, promote and monetize your digital assets.

Sign Up Now

Ai-je été formé ?

Vérifiez si votre contenu apparaît dans les principaux jeux de données d'entraînement d'IA. Nous vérifions les API en direct et conservons des copies indexées des jeux de données publics pour une couverture complète.

Mes actifs ont-ils été formés ?

Comprendre les ensembles de données d'entraînement de l'IA

Découvrez les ensembles de données qui alimentent les systèmes d'IA modernes et comment protéger votre contenu

Ensembles de données de formation que nous vérifions

Common Crawl Live

Web Text Dataset

Current web crawl data

Wikipedia Live

Text Dataset

Wikipedia dumps used by virtually all LLMs

Internet Archive Live

Web Archive

Historical snapshots of web content

GitHub & Code Live

Code Dataset

Public code repositories

Reddit & Social Media Live

Conversational Dataset

Reddit posts and conversations

LAION-5B Cached

Image Dataset

5.85B image-text pairs (offline since late 2023)

C4 Corpus Static

Text Dataset

Cleaned Common Crawl text (Google T5)

OpenImages Offline

Image Dataset

9+ million labeled images (Google)

RedPajama Static

Text Dataset

1.2 trillion tokens (LLaMA replication)

Books & Literature Static

Text Dataset

Books corpus from various sources

Audio Datasets Offline

Audio Dataset

Voice and speech data (LibriSpeech, Common Voice)

DALL-E Training Data Offline

Image Dataset

Proprietary image dataset

Midjourney Training Data Offline

Image Dataset

Proprietary/secret dataset

Multimodal Web Data Cached

Multimodal Dataset

Combined text, image, and video data

Pourquoi des résultats mis en cache ?

Many AI training datasets don't offer public live APIs because:

Échelle

Les ensembles de données comme LAION-5B contiennent des milliards d'entrées

Confidentialité et coût

Les API en temps réel pour les ensembles de données massifs sont coûteuses

Nature statique

De nombreux ensembles de données de formation sont des versions figées

Nos résultats mis en cache sont basés sur des données réelles - nous conservons des copies indexées pour une vérification précise

Comment interpréter les résultats

Comprendre l'état de vérification et les niveaux de confiance

Statut de vérification

TROUVÉ

Le contenu existe dans cet ensemble de données

NON TROUVÉ

Contenu non détecté dans l'ensemble de données

ERREUR

Problème d'API temporaire

Niveaux de confiance

90-100%

Haute confiance (API en direct ou correspondance exacte)

70-89%

Bonne confiance (correspondance de base de données mise en cache)

50-69%

Modéré (détection basée sur des modèles)

Comment protéger votre contenu

Étapes pour empêcher l'entraînement de l'IA sur votre contenu

1

Ajouter des métabalises

<meta name="robots" content="noai, noimageai">
2

Mettre à jour le fichier robots.txt

User-agent: GPTBot
Disallow: /
3

Utiliser les en-têtes

X-Robots-Tag: noai
4

Demande de suppression

Contacter directement les responsables des jeux de données