Discover how you can manage, promote and monetize your digital assets.
Sign Up Nowİçeriğinizin önemli yapay zeka eğitim veri kümelerinde yer alıp almadığını doğrulayın. Canlı API'leri kontrol ediyor ve kapsamlı bir kapsam sağlamak için herkese açık veri kümelerinin dizinlenmiş kopyalarını tutuyoruz.
Modern yapay zeka sistemlerini destekleyen veri kümeleri ve içeriğinizi nasıl koruyacağınız hakkında bilgi edinin
Web Text Dataset
Current web crawl data
Text Dataset
Wikipedia dumps used by virtually all LLMs
Web Archive
Historical snapshots of web content
Code Dataset
Public code repositories
Conversational Dataset
Reddit posts and conversations
Image Dataset
5.85B image-text pairs (offline since late 2023)
Text Dataset
Cleaned Common Crawl text (Google T5)
Image Dataset
9+ million labeled images (Google)
Text Dataset
1.2 trillion tokens (LLaMA replication)
Text Dataset
Books corpus from various sources
Audio Dataset
Voice and speech data (LibriSpeech, Common Voice)
Image Dataset
Proprietary image dataset
Image Dataset
Proprietary/secret dataset
Multimodal Dataset
Combined text, image, and video data
Many AI training datasets don't offer public live APIs because:
Ölçek
LAION-5B gibi veri kümeleri milyarlarca giriş içerir
Gizlilik ve Maliyet
Büyük veri kümeleri için gerçek zamanlı API'ler pahalıdır
Statik Doğa
Birçok eğitim veri kümesi dondurulmuş versiyonlardır
Önbelleğe alınmış sonuçlarımız gerçek verilere dayanmaktadır - doğru doğrulama için indeksli kopyalar tutuyoruz
Doğrulama durumunu ve güven düzeylerini anlama
Bu veri kümesinde içerik mevcut
Veri setinde içerik algılanmadı
Geçici API sorunu
90-100%
Yüksek güvenilirlik (canlı API veya tam eşleşme)
70-89%
İyi güven (önbelleğe alınmış veritabanı eşleşmesi)
50-69%
Orta (desen tabanlı algılama)
İçeriğinizde yapay zeka eğitimini önleme adımları
<meta name="robots" content="noai, noimageai">
User-agent: GPTBot
Disallow: /
X-Robots-Tag: noai
Veri kümesi bakımcılarıyla doğrudan iletişime geçin