Discover how you can manage, promote and monetize your digital assets.
Sign Up NowVerifique se o seu conteúdo aparece nos principais conjuntos de dados de treinamento de IA. Verificamos APIs ativas e mantemos cópias indexadas de conjuntos de dados públicos para uma cobertura abrangente.
Aprenda sobre os conjuntos de dados que alimentam os sistemas modernos de IA e como proteger seu conteúdo
Web Text Dataset
Current web crawl data
Text Dataset
Wikipedia dumps used by virtually all LLMs
Web Archive
Historical snapshots of web content
Code Dataset
Public code repositories
Conversational Dataset
Reddit posts and conversations
Image Dataset
5.85B image-text pairs (offline since late 2023)
Text Dataset
Cleaned Common Crawl text (Google T5)
Image Dataset
9+ million labeled images (Google)
Text Dataset
1.2 trillion tokens (LLaMA replication)
Text Dataset
Books corpus from various sources
Audio Dataset
Voice and speech data (LibriSpeech, Common Voice)
Image Dataset
Proprietary image dataset
Image Dataset
Proprietary/secret dataset
Multimodal Dataset
Combined text, image, and video data
Many AI training datasets don't offer public live APIs because:
Escala
Conjuntos de dados como LAION-5B contêm bilhões de entradas
Privacidade e Custo
APIs em tempo real para grandes conjuntos de dados são caras
Natureza Estática
Muitos conjuntos de dados de treinamento são versões congeladas
Nossos resultados em cache são baseados em dados reais - mantemos cópias indexadas para verificação precisa
Compreendendo o status de verificação e os níveis de confiança
Existe conteúdo neste conjunto de dados
Conteúdo não detectado no conjunto de dados
Problema temporário de API
90-100%
Alta confiança (API ao vivo ou correspondência exata)
70-89%
Boa confiança (correspondência de banco de dados em cache)
50-69%
Moderado (detecção baseada em padrões)
Etapas para evitar treinamento de IA em seu conteúdo
<meta name="robots" content="noai, noimageai">
                    User-agent: GPTBot
Disallow: /
                    X-Robots-Tag: noai
                    Entre em contato diretamente com os mantenedores do conjunto de dados