Discover how you can manage, promote and monetize your digital assets.
Sign Up NowVérifiez si votre contenu apparaît dans les principaux jeux de données d'entraînement d'IA. Nous vérifions les API en direct et conservons des copies indexées des jeux de données publics pour une couverture complète.
Découvrez les ensembles de données qui alimentent les systèmes d'IA modernes et comment protéger votre contenu
Web Text Dataset
Current web crawl data
Text Dataset
Wikipedia dumps used by virtually all LLMs
Web Archive
Historical snapshots of web content
Code Dataset
Public code repositories
Conversational Dataset
Reddit posts and conversations
Image Dataset
5.85B image-text pairs (offline since late 2023)
Text Dataset
Cleaned Common Crawl text (Google T5)
Image Dataset
9+ million labeled images (Google)
Text Dataset
1.2 trillion tokens (LLaMA replication)
Text Dataset
Books corpus from various sources
Audio Dataset
Voice and speech data (LibriSpeech, Common Voice)
Image Dataset
Proprietary image dataset
Image Dataset
Proprietary/secret dataset
Multimodal Dataset
Combined text, image, and video data
Many AI training datasets don't offer public live APIs because:
Échelle
Les ensembles de données comme LAION-5B contiennent des milliards d'entrées
Confidentialité et coût
Les API en temps réel pour les ensembles de données massifs sont coûteuses
Nature statique
De nombreux ensembles de données de formation sont des versions figées
Nos résultats mis en cache sont basés sur des données réelles - nous conservons des copies indexées pour une vérification précise
Comprendre l'état de vérification et les niveaux de confiance
Le contenu existe dans cet ensemble de données
Contenu non détecté dans l'ensemble de données
Problème d'API temporaire
90-100%
Haute confiance (API en direct ou correspondance exacte)
70-89%
Bonne confiance (correspondance de base de données mise en cache)
50-69%
Modéré (détection basée sur des modèles)
Étapes pour empêcher l'entraînement de l'IA sur votre contenu
<meta name="robots" content="noai, noimageai">
User-agent: GPTBot
Disallow: /
X-Robots-Tag: noai
Contacter directement les responsables des jeux de données