Manage how you interact with AI

Discover how you can manage, promote and monetize your digital assets.

Sign Up Now

我受过训练吗?

验证您的内容是否出现在主要的 AI 训练数据集中。我们会检查实时 API,并维护公共数据集的索引副本,以确保全面覆盖。

我的资产接受过培训吗?

了解人工智能训练数据集

了解支持现代 AI 系统的数据集以及如何保护您的内容

我们验证的训练数据集

Common Crawl Live

Web Text Dataset

Current web crawl data

Wikipedia Live

Text Dataset

Wikipedia dumps used by virtually all LLMs

Internet Archive Live

Web Archive

Historical snapshots of web content

GitHub & Code Live

Code Dataset

Public code repositories

Reddit & Social Media Live

Conversational Dataset

Reddit posts and conversations

LAION-5B Cached

Image Dataset

5.85B image-text pairs (offline since late 2023)

C4 Corpus Static

Text Dataset

Cleaned Common Crawl text (Google T5)

OpenImages Offline

Image Dataset

9+ million labeled images (Google)

RedPajama Static

Text Dataset

1.2 trillion tokens (LLaMA replication)

Books & Literature Static

Text Dataset

Books corpus from various sources

Audio Datasets Offline

Audio Dataset

Voice and speech data (LibriSpeech, Common Voice)

DALL-E Training Data Offline

Image Dataset

Proprietary image dataset

Midjourney Training Data Offline

Image Dataset

Proprietary/secret dataset

Multimodal Web Data Cached

Multimodal Dataset

Combined text, image, and video data

为什么要缓存结果?

Many AI training datasets don't offer public live APIs because:

规模

LAION-5B 等数据集包含数十亿个条目

隐私和成本

海量数据集的实时 API 成本高昂

静态性质

许多训练数据集都是冻结版本

我们的缓存结果基于真实数据 - 我们保留索引副本以便准确验证

如何解读结果

了解验证状态和置信度

验证状态

成立

此数据集中存在内容

未找到

数据集中未检测到内容

错误

临时 API 问题

置信水平

90-100%

高置信度(实时 API 或精确匹配)

70-89%

良好的信心(缓存数据库匹配)

50-69%

中等(基于模式的检测)

如何保护您的内容

防止 AI 对您的内容进行训练的步骤

1

添加元标记

<meta name="robots" content="noai, noimageai">
2

更新 robots.txt

User-agent: GPTBot
Disallow: /
3

使用标题

X-Robots-Tag: noai
4

请求删除

直接联系数据集维护者