6 Sumber Data Pelatihan AI Seperti Perayapan Umum Untuk Pengembangan NLP dan LLM Skala Besar

Model bahasa berskala besar tidak berguna hanya karena model tersebut memiliki lebih banyak parameter; mereka menjadi berguna karena mereka belajar dari teks yang luas, beragam, dan diproses dengan cermat. Perayapan Umum terkenal karena menawarkan gambaran besar tentang web publik, namun ini hanyalah salah satu bagian dari teka-teki data pelatihan. Untuk pengembangan NLP dan LLM yang serius, tim sering kali menggabungkan penjelajahan web dengan corpora yang dikurasi, pengetahuan ensiklopedis, teks akademis, kode, buku, dan kumpulan data multibahasa untuk meningkatkan cakupan, penalaran, faktualitas, dan kinerja domain.

TLDR: Jika Common Crawl adalah lautan teks web, kumpulan data LLM terbaik adalah sungai, danau, dan waduk yang menambah struktur, kualitas, dan keragaman. Alternatif dan pelengkap yang kuat meliputi C4, Tumpukan, Piyama Merah, OSCAR, Data Wikipedia dan WikimediaDan dolma. Masing-masing sumber memiliki kelebihan yang berbeda: beberapa lebih baik untuk cakupan multibahasa, beberapa untuk bahasa akademis dan teknis, dan yang lainnya untuk pelatihan model terbuka yang dapat direproduksi. Pendekatan paling cerdas bukanlah memilih satu kumpulan data, namun membangun campuran data yang transparan, tersaring, dan ditinjau secara hukum.

Mengapa Sumber Data Penting Seperti Arsitektur Model

Dalam pengembangan LLM, data pelatihan menentukan sebagian besar hal yang dapat dipahami, dihasilkan, dan dipikirkan oleh suatu model. Model yang sebagian besar dilatih di halaman web biasa mungkin bersifat percakapan, namun mungkin kesulitan dengan penulisan ilmiah, nuansa hukum, kode, atau bahasa dengan sumber daya rendah. Model yang dilatih berdasarkan materi teknis yang dikurasi dengan baik mungkin akurat dalam bidang yang sempit namun kurang dapat beradaptasi dalam dialog terbuka.

Inilah sebabnya tim AI modern membangun campuran data. Mereka mengambil sampel dari korpora yang berbeda, menghapus duplikat, memfilter spam, mengidentifikasi bahasa, menyunting informasi pribadi jika memungkinkan, dan sering kali mempertimbangkan ulang sumber yang berkualitas lebih tinggi. Hasilnya bukan sekadar “lebih banyak teks”, namun lingkungan belajar yang lebih seimbang.

1. C4: Versi Web yang Dibersihkan

C4kependekan dari Corpus Merangkak Bersih Kolosaladalah salah satu kumpulan data turunan Perayapan Umum yang paling terkenal. Itu diperkenalkan oleh Google sebagai bagian dari penelitian T5 dan pada dasarnya adalah versi teks web berbahasa Inggris yang dibersihkan dan disaring dari Common Crawl.

Pentingnya hal ini berasal dari ide sederhana: data web mentah itu berantakan. Ini berisi teks navigasi boilerplate, artikel duplikat, spam, konten dewasa, markup rusak, halaman placeholder, dan sampah buatan mesin. C4 menerapkan aturan pemfilteran untuk menghilangkan sebagian gangguan tersebut, sehingga lebih nyaman untuk pra-pelatihan model bahasa.

Mengapa ini berguna:

Lebih bersih dari Perayapan Umum mentah: Ini menghapus banyak halaman berkualitas rendah dan fragmen berulang.
Terbukti dalam penelitian besar: Ini telah digunakan dalam penelitian berpengaruh seputar model transformator teks-ke-teks.
Baik untuk bahasa Inggris umum: Ini menyediakan cakupan luas bahasa gaya web.

Namun, C4 tidak sempurna. Para peneliti mencatat bahwa penyaringan yang agresif dapat menghilangkan dialek, pola bahasa minoritas, dan konten dari komunitas yang kurang terwakili. Untuk pengembangan LLM, C4 paling baik diperlakukan sebagai a dasar yang kuatbukan representasi lengkap dari bahasa manusia.

2. The Pile: Kumpulan Data Beragam Untuk Bahasa Umum Dan Teknis

Tumpukandibuat oleh EleutherAI, adalah kumpulan data terbuka sebesar 800 GB yang dirancang untuk melatih model bahasa besar. Tidak seperti kumpulan data yang sebagian besar bergantung pada halaman web yang dirayapi, The Pile menyatukan banyak sumber berbeda, termasuk makalah akademis, buku, kode, subjudul, forum, dokumen hukum, dan teks web.

Keberagaman ini menjadikannya sangat menarik. Model yang dilatih di The Pile dapat menghadapi segala hal mulai dari abstrak ilmiah formal hingga diskusi online informal. Rentang tersebut dapat membantu meningkatkan generalisasi, terutama bila tujuannya adalah membangun model yang berkinerja baik di banyak tugas.

Komponen penting meliputi:

ArXiv: Berguna untuk bahasa matematika, ilmiah, dan teknis.
Pusat PubMed: Berharga untuk NLP biomedis dan berorientasi penelitian.
GitHub: Bermanfaat untuk pemahaman dan pembuatan kode.
OpenWebTeks2: Konten web dikurasi dengan cara yang terinspirasi oleh halaman tertaut dengan keterlibatan tinggi.
Hukum Bebas: Teks hukum yang dapat mendukung pemahaman bahasa domain hukum.

Tumpukan ini sangat populer dalam penelitian LLM terbuka karena mendorong reproduktifitas. Tim dapat mempelajari bagaimana berbagai kategori data memengaruhi perilaku model, daripada mengandalkan deskripsi yang tidak jelas tentang campuran pelatihan yang dimiliki.

3. RedPajama: Menciptakan Campuran Pelatihan LLM Terbuka

Piyama Merah adalah proyek data terbuka yang dibuat untuk mereproduksi kumpulan data yang serupa dengan yang digunakan untuk LLM terkemuka. Ini mencakup data dari Common Crawl, C4, GitHub, Wikipedia, buku, arXiv, dan Stack Exchange. Proyek ini menjadi penting karena membantu pengembang sumber terbuka melatih model dengan campuran data yang lebih transparan dan lebih mudah untuk diperiksa.

Keunggulan utama RedPajama bukan hanya ukurannya, namun juga ukurannya struktur seperti resep. Alih-alih menyajikan data sebagai satu kumpulan besar yang tidak dapat dibedakan, ia memisahkan sumber berdasarkan kategori. Hal ini membantu peneliti mengontrol proporsi kode, tulisan akademis, teks ensiklopedis, dan teks web yang digunakan selama pelatihan.

Mengapa pengembang menyukai RedPajama:

Transparansi: Kategori sumber didokumentasikan dengan lebih jelas dibandingkan di banyak kumpulan data tertutup.
Reproduksibilitas: Ini mendukung eksperimen terbuka dan pelatihan model yang sebanding.
Cakupan luas: Ini menggabungkan bahasa web umum dengan sumber khusus.

Untuk pengembangan NLP skala besar, RedPajama berguna jika tujuannya adalah membangun atau mengevaluasi ekosistem model terbuka. Ini juga merupakan titik awal yang baik untuk memahami bagaimana campuran pelatihan modern dirangkai dalam praktik.

4. OSCAR: Data Web Multibahasa Dalam Skala Besar

OSCARatau Buka korpus Agregat Perayapan Super Besaradalah kumpulan data multibahasa yang berasal dari Common Crawl. Kekuatan utamanya adalah cakupan bahasa. Meskipun banyak kumpulan data LLM awal sangat berfokus pada bahasa Inggris, OSCAR menyediakan teks dalam banyak bahasa, menjadikannya berharga untuk NLP multibahasa dan pengembangan model lintas bahasa.

Bagi pengembang yang mengerjakan terjemahan, chatbot multibahasa, pencarian global, atau pemahaman bahasa untuk pasar non-Inggris, OSCAR dapat menjadi sumber daya yang ampuh. Hal ini membantu mengurangi bias yang berpusat pada bahasa Inggris yang muncul dalam banyak model yang dilatih terutama pada data web berbahasa Inggris.

Aplikasi yang berguna meliputi:

Pra-pelatihan multibahasa: Membangun model yang memahami dan menghasilkan teks dalam banyak bahasa.
Penelitian identifikasi bahasa: Mempelajari bagaimana model membedakan antara bahasa dan skrip.
Eksperimen dengan sumber daya rendah: Menemukan data untuk bahasa-bahasa yang kurang terwakili di korpora arus utama.

Tantangan utama OSCAR adalah variasi kualitas. Beberapa bahasa memiliki banyak teks bersih, sementara bahasa lain mungkin mengandung ekstraksi yang lebih berisik, masalah pengkodean, atau kesalahan klasifikasi konten. Setiap jalur pelatihan yang serius harus mencakup pemfilteran khusus bahasa, deduplikasi, dan evaluasi oleh penutur asli atau alat otomatis yang andal.

5. Data Wikipedia dan Wikimedia: Terstruktur, Faktual, dan Multibahasa

Wikipedia jauh lebih kecil dari Common Crawl, tetapi ini adalah salah satu corpora paling berharga di NLP. Artikel-artikelnya diedit, disusun, ditautkan, dikategorikan, dan tersedia dalam banyak bahasa. Untuk LLM, Wikipedia berguna untuk mempelajari gaya ensiklopedis, ringkasan faktual, hubungan entitas, dan konsep multibahasa.

Di luar artikel Wikipedia, semakin luas Wikimedia ekosistem termasuk Wikidata, Wikibooks, Wikisource, Wikinews, dan sumber daya lainnya. Wikidata sangat penting karena menyimpan fakta terstruktur dalam bentuk yang dapat dibaca mesin. Meskipun teks mentah mengajarkan pola bahasa, pengetahuan terstruktur dapat mendukung penautan entitas, augmentasi pengambilan, konstruksi grafik pengetahuan, dan evaluasi faktual.

Kekuatan sumber Wikimedia:

Rasio signal-to-noise yang tinggi: Konten umumnya lebih koheren daripada halaman web acak.
Penyelarasan multibahasa: Banyak topik tersedia dalam berbagai bahasa, mendukung pembelajaran lintas bahasa.
Metadata yang kaya: Halaman berisi tautan, kategori, referensi, dan riwayat revisi.
Berguna untuk evaluasi: Data Wikimedia dapat membantu menciptakan QA faktual dan tolok ukur pengenalan entitas.

Namun, Wikipedia memiliki keterbatasan. Ini mencerminkan kebijakan editorial, demografi kontributor, dan popularitas topik. Budaya pop dan teknologi mungkin banyak diliput, sementara pengetahuan lokal, tradisi lisan, dan komunitas marginal mungkin kurang terwakili. Penggunaan terbaik Wikipedia adalah sebagai bahan berkualitas tinggi, bukan sebagai satu-satunya sumber kebenaran.

6. Dolma: Korpus Terbuka Modern Untuk Pra-Pelatihan Model Bahasa

dolmadirilis oleh Allen Institute for AI, adalah korpus terbuka besar yang dikembangkan untuk melatih model bahasa seperti OLMo. Ini mencakup halaman web, makalah akademis, kode, buku, data ensiklopedis, dan kategori teks lainnya. Apa yang membuat Dolma menonjol adalah penekanannya pada keterbukaan, dokumentasi, dan kegunaan penelitian.

Banyak LLM yang kuat dilatih berdasarkan kumpulan data yang hanya dijelaskan secara luas. Pengembang mungkin mengetahui bahwa model tersebut menggunakan “data web, buku, dan kode”, tetapi tidak mengetahui proporsi, filter, atau daftar sumber yang tepat. Dolma bertujuan untuk membuat detail tersebut lebih terlihat, membantu peneliti memahami hubungan antara data pelatihan dan perilaku model.

Mengapa Dolma penting:

Ilmu terbuka: Ini mendukung reproduktifitas dan analisis data pelatihan yang lebih mendalam.
Campuran yang dikurasi: Ini menggabungkan berbagai jenis teks alih-alih mengandalkan satu sumber.
Keterhubungan model: Ini dirancang bersamaan dengan pengembangan model terbuka, sehingga praktis untuk alur kerja pelatihan nyata.

Dolma sangat relevan bagi tim yang peduli mendokumentasikan proses pengembangan model mereka. Di era meningkatnya pengawasan terhadap sistem AI, mengetahui apa yang dimasukkan ke dalam suatu model sama pentingnya dengan skor tolok ukur model tersebut.

Cara Memilih Sumber Data Pelatihan yang Tepat

Tidak ada kumpulan data “terbaik” yang universal. Chatbot untuk dukungan pelanggan, model penjawab pertanyaan biomedis, mesin pencari multibahasa, dan asisten kode semuanya memerlukan strategi data yang berbeda. Pilihan yang tepat bergantung pada cakupan bahasa, persyaratan lisensi, kebutuhan domain, anggaran komputasi, dan toleransi risiko.

Saat membandingkan sumber, pertimbangkan:

Lisensi dan izin: Pastikan data dapat digunakan untuk tujuan yang Anda inginkan.
Kualitas data: Periksa spam, duplikasi, artefak pemformatan, dan halaman bernilai rendah.
Cakupan domain: Sertakan data khusus jika model harus menangani bidang kedokteran, hukum, keuangan, sains, atau kode etik.
Keseimbangan bahasa: Hindari secara tidak sengaja membuat model yang berkinerja baik hanya dalam bahasa Inggris.
Bias dan representasi: Evaluasi suara, wilayah, dan komunitas mana yang kurang atau terlalu terwakili.
Privasi dan keamanan: Gunakan filter dan ulasan untuk mengurangi data pribadi, konten beracun, dan materi berbahaya.

Kualitas Lebih Penting Daripada Skala Mentah

Perkembangan awal LLM sering kali merayakan ukuran kumpulan data: miliaran token, lalu ratusan miliar, lalu triliunan. Skala masih penting, namun lapangan telah mempelajarinya kualitas, deduplikasi, dan desain campuran dapat secara signifikan mempengaruhi kinerja model. Pelatihan berulang kali pada halaman duplikat dapat membuang-buang komputasi dan menyebabkan hafalan. Pelatihan tentang spam tanpa filter dapat membuat model menjadi kurang dapat diandalkan. Mengabaikan keseimbangan multibahasa dan domain dapat menciptakan titik buta.

Saluran data yang kuat biasanya mencakup beberapa tahapan: pengumpulan, ekstraksi, normalisasi, deteksi bahasa, pemfilteran dokumen, deduplikasi, pemfilteran toksisitas, penanganan informasi identitas pribadi, pengambilan sampel, dan validasi campuran akhir. Setiap langkah mengubah kepribadian dan kemampuan model yang dihasilkan.

Pikiran Terakhir

Perayapan Umum tetap menjadi salah satu sumber daya terpenting dalam pelatihan AI karena menawarkan cakupan skala web yang tak tertandingi. Namun pengembangan LLM modern jarang bergantung pada data perayapan mentah saja. Kumpulan data seperti C4, Tumpukan, Piyama Merah, OSCAR, Data Wikipedia dan WikimediaDan dolma menunjukkan betapa beragamnya lanskap data pelatihan.

Sistem AI terbaik dibangun dari campuran data yang dipilih dengan cermat dan mencerminkan tujuan model. Bagi kecerdasan umum, keberagaman itu penting. Untuk keandalan faktual, kurasi penting. Untuk kegunaan global, cakupan multibahasa penting. Dan demi kepercayaan, dokumentasi itu penting. Pada akhirnya, data pelatihan bukan hanya bahan bakar untuk LLM; ini adalah lingkungan di mana model mempelajari seperti apa bahasa, pengetahuan, dan komunikasi manusia.