Manage how you interact with AI

Discover how you can manage, promote and monetize your digital assets.

Sign Up Now

¿He sido entrenado?

Verifique si su contenido aparece en los principales conjuntos de datos de entrenamiento de IA. Revisamos las API activas y mantenemos copias indexadas de conjuntos de datos públicos para una cobertura completa.

¿Mis activos han sido entrenados?

Comprensión de los conjuntos de datos de entrenamiento de IA

Conozca los conjuntos de datos que impulsan los sistemas de IA modernos y cómo proteger su contenido.

Conjuntos de datos de entrenamiento que verificamos

Common Crawl Live

Web Text Dataset

Current web crawl data

Wikipedia Live

Text Dataset

Wikipedia dumps used by virtually all LLMs

Internet Archive Live

Web Archive

Historical snapshots of web content

GitHub & Code Live

Code Dataset

Public code repositories

Reddit & Social Media Live

Conversational Dataset

Reddit posts and conversations

LAION-5B Cached

Image Dataset

5.85B image-text pairs (offline since late 2023)

C4 Corpus Static

Text Dataset

Cleaned Common Crawl text (Google T5)

OpenImages Offline

Image Dataset

9+ million labeled images (Google)

RedPajama Static

Text Dataset

1.2 trillion tokens (LLaMA replication)

Books & Literature Static

Text Dataset

Books corpus from various sources

Audio Datasets Offline

Audio Dataset

Voice and speech data (LibriSpeech, Common Voice)

DALL-E Training Data Offline

Image Dataset

Proprietary image dataset

Midjourney Training Data Offline

Image Dataset

Proprietary/secret dataset

Multimodal Web Data Cached

Multimodal Dataset

Combined text, image, and video data

¿Por qué resultados almacenados en caché?

Many AI training datasets don't offer public live APIs because:

Escala

Los conjuntos de datos como LAION-5B contienen miles de millones de entradas

Privacidad y costos

Las API en tiempo real para conjuntos de datos masivos son costosas

Naturaleza estática

Muchos conjuntos de datos de entrenamiento son versiones congeladas

Nuestros resultados almacenados en caché se basan en datos reales - Mantenemos copias indexadas para una verificación precisa

Cómo interpretar los resultados

Comprender el estado de verificación y los niveles de confianza

Estado de verificación

ENCONTRÓ

El contenido existe en este conjunto de datos

EXTRAVIADO

Contenido no detectado en el conjunto de datos

ERROR

Problema temporal de API

Niveles de confianza

90-100%

Alta confianza (API en vivo o coincidencia exacta)

70-89%

Buena confianza (coincidencia de base de datos en caché)

50-69%

Moderado (detección basada en patrones)

Cómo proteger su contenido

Pasos para evitar el entrenamiento de IA en tu contenido

1

Agregar metaetiquetas

<meta name="robots" content="noai, noimageai">
2

Actualizar robots.txt

User-agent: GPTBot
Disallow: /
3

Usar encabezados

X-Robots-Tag: noai
4

Solicitar eliminación

Contacte directamente con los mantenedores del conjunto de datos