Ben ik opgeleid?

Controleer of uw content voorkomt in belangrijke AI-trainingsdatasets. We controleren live API's en onderhouden geïndexeerde kopieën van openbare datasets voor een volledige dekking.

Zijn mijn activa getraind?

Voer de URL van uw website in

Inzicht in de betrouwbaarheidsniveaus van AI-modellen

✓ Confirmed: Officially documented by the AI company in research papers or public statements

⭐ Likely: Inferred based on model capabilities and industry standards, but not officially confirmed by the company

❓ Unknown: No public disclosure of training data sources - we cannot determine if they used this dataset

Note: Many AI companies keep training data confidential for competitive reasons. "Unknown" does not mean they didn't use your content - only that we cannot verify it.

Verificatieresultaten

Maak uw gratis Opttab-account aan en bekijk de resultaten.

Profiteer van uitgebreide verificatie van AI-trainingsdatasets, bescherm uw content en beheer uw digitale activa met krachtige tools.

Registreer nu

Heeft u al een account? Inloggen

Inzicht in AI-trainingsdatasets

Leer meer over de datasets die moderne AI-systemen aandrijven en hoe u uw content kunt beschermen

Trainingsdatasets die we verifiëren

Common Crawl Live

Web Text Dataset

Current web crawl data

Wikipedia Live

Text Dataset

Wikipedia dumps used by virtually all LLMs

Internet Archive Live

Web Archive

Historical snapshots of web content

GitHub & Code Live

Code Dataset

Public code repositories

Reddit & Social Media Live

Conversational Dataset

Reddit posts and conversations

LAION-5B Cached

Image Dataset

5.85B image-text pairs (offline since late 2023)

C4 Corpus Static

Text Dataset

Cleaned Common Crawl text (Google T5)

OpenImages Offline

Image Dataset

9+ million labeled images (Google)

RedPajama Static

Text Dataset

1.2 trillion tokens (LLaMA replication)

Books & Literature Static

Text Dataset

Books corpus from various sources

Audio Datasets Offline

Audio Dataset

Voice and speech data (LibriSpeech, Common Voice)

DALL-E Training Data Offline

Image Dataset

Proprietary image dataset

Midjourney Training Data Offline

Image Dataset

Proprietary/secret dataset

Multimodal Web Data Cached

Multimodal Dataset

Combined text, image, and video data

Waarom gecachte resultaten?

Many AI training datasets don't offer public live APIs because:

Schaal

Datasets zoals LAION-5B bevatten miljarden vermeldingen

Privacy en kosten

Realtime API's voor enorme datasets zijn duur

Statische aard

Veel trainingsdatasets zijn bevroren versies

Onze gecachte resultaten zijn gebaseerd op echte gegevens - Wij onderhouden geïndexeerde kopieën voor nauwkeurige verificatie

Hoe resultaten te interpreteren

Inzicht in verificatiestatus en betrouwbaarheidsniveaus

Verificatiestatus

GEVONDEN

Er bestaat inhoud in deze dataset

NIET GEVONDEN

Inhoud niet gedetecteerd in dataset

FOUT

Tijdelijk API-probleem

Vertrouwensniveaus

90-100%

Hoge betrouwbaarheid (live API of exacte match)

70-89%

Goede betrouwbaarheid (gecachte database-match)

50-69%

Matig (patroongebaseerde detectie)

Hoe u uw inhoud beschermt

Stappen om AI-training op uw content te voorkomen

Metatags toevoegen

<meta name="robots" content="noai, noimageai">

Robots.txt bijwerken

User-agent: GPTBot
Disallow: /

Gebruik headers

X-Robots-Tag: noai

Verwijdering aanvragen

Neem rechtstreeks contact op met de beheerders van de dataset

Manage how you interact with AI

Ben ik opgeleid?

Zijn mijn activa getraind?

Meerdere datasets scannen...

Inzicht in de betrouwbaarheidsniveaus van AI-modellen

Verificatieresultaten

Geverifieerde gegevensbronnen

Statische verificatieresultaten

Domeinbeschermingsanalyse

Maak uw gratis Opttab-account aan en bekijk de resultaten.

Inzicht in AI-trainingsdatasets

Trainingsdatasets die we verifiëren

Waarom gecachte resultaten?

Hoe resultaten te interpreteren

Verificatiestatus

Vertrouwensniveaus

Hoe u uw inhoud beschermt

Metatags toevoegen

Robots.txt bijwerken

Gebruik headers

Verwijdering aanvragen

Beheer uw aanwezigheid

Manage how you interact with AI

Ben ik opgeleid?

Zijn mijn activa getraind?

Meerdere datasets scannen...

Inzicht in de betrouwbaarheidsniveaus van AI-modellen

Verificatieresultaten

Geverifieerde gegevensbronnen

Statische verificatieresultaten

Domeinbeschermingsanalyse

Maak uw gratis Opttab-account aan en bekijk de resultaten.

Inzicht in AI-trainingsdatasets

Trainingsdatasets die we verifiëren

Waarom gecachte resultaten?

Hoe resultaten te interpreteren

Verificatiestatus

Vertrouwensniveaus

Hoe u uw inhoud beschermt

Metatags toevoegen

Robots.txt bijwerken

Gebruik headers

Verwijdering aanvragen