Manage how you interact with AI

Discover how you can manage, promote and monetize your digital assets.

Sign Up Now

Eu fui treinado?

Verifique se o seu conteúdo aparece nos principais conjuntos de dados de treinamento de IA. Verificamos APIs ativas e mantemos cópias indexadas de conjuntos de dados públicos para uma cobertura abrangente.

Meus ativos foram treinados?

Compreendendo conjuntos de dados de treinamento de IA

Aprenda sobre os conjuntos de dados que alimentam os sistemas modernos de IA e como proteger seu conteúdo

Conjuntos de dados de treinamento que verificamos

Common Crawl Live

Web Text Dataset

Current web crawl data

Wikipedia Live

Text Dataset

Wikipedia dumps used by virtually all LLMs

Internet Archive Live

Web Archive

Historical snapshots of web content

GitHub & Code Live

Code Dataset

Public code repositories

Reddit & Social Media Live

Conversational Dataset

Reddit posts and conversations

LAION-5B Cached

Image Dataset

5.85B image-text pairs (offline since late 2023)

C4 Corpus Static

Text Dataset

Cleaned Common Crawl text (Google T5)

OpenImages Offline

Image Dataset

9+ million labeled images (Google)

RedPajama Static

Text Dataset

1.2 trillion tokens (LLaMA replication)

Books & Literature Static

Text Dataset

Books corpus from various sources

Audio Datasets Offline

Audio Dataset

Voice and speech data (LibriSpeech, Common Voice)

DALL-E Training Data Offline

Image Dataset

Proprietary image dataset

Midjourney Training Data Offline

Image Dataset

Proprietary/secret dataset

Multimodal Web Data Cached

Multimodal Dataset

Combined text, image, and video data

Por que resultados armazenados em cache?

Many AI training datasets don't offer public live APIs because:

Escala

Conjuntos de dados como LAION-5B contêm bilhões de entradas

Privacidade e Custo

APIs em tempo real para grandes conjuntos de dados são caras

Natureza Estática

Muitos conjuntos de dados de treinamento são versões congeladas

Nossos resultados em cache são baseados em dados reais - mantemos cópias indexadas para verificação precisa

Como interpretar resultados

Compreendendo o status de verificação e os níveis de confiança

Status de verificação

ENCONTRADO

Existe conteúdo neste conjunto de dados

NÃO ENCONTRADO

Conteúdo não detectado no conjunto de dados

ERRO

Problema temporário de API

Níveis de confiança

90-100%

Alta confiança (API ao vivo ou correspondência exata)

70-89%

Boa confiança (correspondência de banco de dados em cache)

50-69%

Moderado (detecção baseada em padrões)

Como proteger seu conteúdo

Etapas para evitar treinamento de IA em seu conteúdo

1

Adicionar meta tags

<meta name="robots" content="noai, noimageai">
2

Atualizar robots.txt

User-agent: GPTBot
Disallow: /
3

Usar cabeçalhos

X-Robots-Tag: noai
4

Solicitar remoção

Entre em contato diretamente com os mantenedores do conjunto de dados