Tekno

Meta Perkenalkan Llama 4 Scout dan Maverick, Model Bahasa dengan Kemampuan Pemrosesan Teks dan Visual Lebih Dahsyat

Ilustrasi Perusahaan Meta. Foto: dok. xiaomitodayit

Ilustrasi Perusahaan Meta. Foto: dok. xiaomitodayit

Jakarta, gradasigo – Meta Platforms, Inc., perusahaan teknologi raksasa di balik platform media sosial Facebook, Instagram, dan WhatsApp, kembali menunjukkan komitmennya dalam pengembangan kecerdasan buatan (Artificial Intelligence/AI).

Pada hari Sabtu, 5 April 2025, Meta secara resmi mengumumkan penambahan dua anggota baru ke dalam keluarga model bahasa besar (Large Language Model/LLM) Llama 4 series, yaitu Llama 4 Scout dan Llama 4 Maverick. Kedua model ini hadir dengan sejumlah peningkatan signifikan, terutama dalam kemampuan memproses jumlah teks yang lebih besar dan pemahaman visual yang lebih mendalam.

Pengumuman ini disampaikan langsung oleh Meta melalui situs resminya, yang menyatakan bahwa Llama 4 Scout dan Llama 4 Maverick merupakan model natif open-weight pertama yang dikembangkan dengan arsitektur Mixture of Experts (MoE).

Istilah open-weight sendiri merujuk pada ketersediaan parameter atau "bobot" model LLM yang dapat diakses secara terbuka oleh publik, memungkinkan para peneliti dan pengembang untuk mempelajari, memodifikasi, dan menggunakan model ini dalam berbagai aplikasi dan penelitian.

Salah satu inovasi kunci yang diusung oleh Llama 4 Scout dan Llama 4 Maverick adalah penggunaan arsitektur Mixture of Experts (MoE).

Teknik ini melibatkan penggunaan beberapa sub-model khusus atau "ahli" yang masing-masing dilatih untuk menangani berbagai bagian input dari perintah teks. Ketika model menerima input, sistem akan secara cerdas memilih dan mengaktifkan sub-model yang paling relevan untuk memproses bagian input tersebut.

Arsitektur MoE menawarkan beberapa keuntungan signifikan. Pertama, memungkinkan model untuk memiliki kapasitas parameter yang sangat besar secara keseluruhan, namun hanya sebagian kecil parameter yang aktif digunakan untuk setiap input.

Hal ini membuat pemrosesan komputasional menjadi lebih efisien, baik dalam tahap pelatihan model maupun saat model digunakan untuk menjawab pertanyaan atau menghasilkan teks. Kedua, arsitektur ini memungkinkan model untuk mengembangkan spesialisasi dalam berbagai jenis tugas atau domain pengetahuan, karena setiap "ahli" dapat dilatih secara terpisah untuk tugas tertentu.

Meta mengklaim bahwa dengan arsitektur MoE, Llama 4 Maverick dan Scout menjadi lebih efisien dalam hal sumber daya komputasional yang dibutuhkan untuk pelatihan dan inferensi (proses menjawab pertanyaan atau menghasilkan teks). Efisiensi ini sangat penting mengingat besarnya skala dan kompleksitas model bahasa modern.

Selain peningkatan dalam arsitektur, Meta juga mengungkapkan bahwa seluruh model LLM terbarunya, termasuk Scout dan Maverick, dilatih menggunakan sejumlah besar data yang tidak berlabel, termasuk teks, gambar, dan video.

Pendekatan pelatihan multimodal ini bertujuan untuk memberikan model pemahaman yang lebih komprehensif terhadap cakupan visual. Dengan kemampuan untuk memproses dan memahami informasi dari berbagai jenis data, model-model ini diharapkan dapat memberikan respons yang lebih relevan dan akurat dalam berbagai konteks.

Kemampuan untuk memahami dan memproses data visual membuka berbagai kemungkinan aplikasi baru untuk LLM, seperti kemampuan untuk menjawab pertanyaan tentang gambar, menghasilkan deskripsi gambar yang detail, atau bahkan memahami konteks dari video.

Langkah Meta ini menunjukkan tren yang semakin kuat dalam pengembangan AI menuju model yang lebih holistik dan mampu berinteraksi dengan dunia seperti manusia, melalui berbagai indera.

Meskipun keduanya merupakan bagian dari keluarga Llama 4 dan menggunakan arsitektur MoE, Llama 4 Scout dan Llama 4 Maverick memiliki spesifikasi teknis yang berbeda, yang mencerminkan perbedaan dalam kemampuan dan target penggunaan masing-masing model.

Llama 4 Scout:

  • Dapat berjalan menggunakan satu unit Graphics Processing Unit (GPU) Nvidia H100.
  • Memiliki total 109 miliar parameter.
  • Dari jumlah tersebut, 17 miliar parameter aktif digunakan untuk setiap input.
  • Terdiri dari 16 sub-model "ahli".
  • Unggul dalam pengerjaan tugas-tugas yang lebih ringan seperti meringkas dokumen dan penalaran berbasis kode dalam skala besar.
  • Memiliki "jendela" konteks yang sangat besar, mencapai 10 juta token. Token dalam konteks LLM merujuk pada unit dasar teks yang diproses oleh model. Jendela konteks yang besar memungkinkan Scout untuk memproses dan merespons dokumen yang sangat panjang atau sejumlah besar teks sekaligus.
  • Mampu mengolah gambar dan menyelaraskan petunjuk pengguna dengan konsep visual yang relevan, serta memberikan respons yang relevan dalam konteks visual.

Llama 4 Maverick:

  • Membutuhkan sumber daya komputasional yang lebih besar, yakni satu sistem Nvidia H100 DGX atau model GPU yang setara.
  • Memiliki total 400 miliar parameter.
  • Dari jumlah tersebut, hanya 17 miliar parameter yang aktif digunakan pada satu waktu, dengan 128 sub-model "ahli" yang tersedia.
  • Diposisikan sebagai model LLM yang lebih unggul daripada Scout.
  • Dari hasil pengujian internal Meta, Maverick sangat cocok untuk dijadikan sebagai asisten virtual dan dalam percakapan santai (casual chat).
  • Diklaim mampu menghasilkan penulisan kreatif yang lebih unggul dibandingkan dengan GPT-4o milik OpenAI dan Gemini 2.0 dari Google.
  • Menunjukkan keunggulan dalam pemecahan masalah, penalaran, kemampuan multibahasa, menjawab pertanyaan kompleks dengan konteks yang panjang, pengkodean, hingga menjadi indikator dalam melihat gambar tertentu (kemampuan pemahaman visual yang lebih mendalam).

Dalam konteks model bahasa besar, parameter aktif merujuk pada variabel internal dalam model yang disesuaikan selama proses pelatihan. Penyesuaian ini bertujuan untuk meningkatkan kinerja model dalam menghasilkan teks yang relevan, koheren, dan akurat. Jumlah parameter aktif seringkali menjadi indikator kompleksitas dan kapasitas model.

Konsep "ahli" (experts) dalam arsitektur MoE merujuk pada sub-model khusus yang memiliki spesialisasi dalam jenis tugas atau domain tertentu. Dengan memiliki banyak "ahli", model dapat memanfaatkan pengetahuan dan kemampuan yang berbeda-beda untuk menangani berbagai jenis input dengan lebih efektif.

Meta secara eksplisit menyatakan bahwa dari hasil pengujian internal mereka, Llama 4 Maverick menunjukkan performa yang lebih unggul dalam berbagai tugas dibandingkan dengan model-model terkemuka lainnya seperti GPT-4o dari OpenAI dan Gemini 2.0 dari Google.

Keunggulan ini mencakup kemampuan dalam penulisan kreatif, pemecahan masalah yang kompleks, penalaran logis, pemahaman dan generasi teks dalam berbagai bahasa (multibahasa), menjawab pertanyaan yang rumit dengan konteks yang panjang, kemampuan pengkodean (coding), serta pemahaman dan interpretasi gambar.

Klaim ini tentu sangat menarik dan menunjukkan bahwa Meta terus berupaya untuk mengejar dan bahkan melampaui para pesaingnya dalam perlombaan pengembangan AI. Jika klaim ini terbukti benar dalam pengujian independen dan aplikasi dunia nyata, Llama 4 Maverick berpotensi menjadi salah satu model bahasa paling canggih yang tersedia saat ini.

Meskipun Maverick diposisikan sebagai model yang lebih unggul secara keseluruhan, Llama 4 Scout juga memiliki keunggulan tersendiri, terutama dalam pengerjaan tugas-tugas yang lebih ringan namun membutuhkan pemahaman konteks yang luas.

Kemampuannya dalam meringkas dokumen yang panjang dan melakukan penalaran berbasis kode dalam skala besar menjadikannya alat yang sangat berguna untuk berbagai aplikasi, seperti analisis data, pengembangan perangkat lunak, dan manajemen pengetahuan.

Jendela konteks Scout yang mencapai 10 juta token adalah salah satu fitur yang sangat menonjol. Dengan kemampuan untuk memproses teks dalam skala jutaan kata, Scout dapat memahami dan merespons informasi yang terkandung dalam dokumen-dokumen yang sangat besar, yang sebelumnya sulit dilakukan oleh model bahasa dengan jendela konteks yang lebih kecil. Kemampuan ini juga memungkinkannya untuk mengolah gambar dan menghubungkannya dengan petunjuk teks dari pengguna.

Selain Scout dan Maverick, Meta juga tengah mengembangkan model LLM lain yang diberi nama Behemoth. Model ini masih dalam tahap pengembangan dan diposisikan untuk menjadi yang paling unggul dalam keluarga Llama 4 series, melampaui kemampuan Maverick dan Scout.

Spesifikasi yang diungkapkan untuk Behemoth sangat mengesankan, dengan total 2 triliun parameter, di mana 288 miliar parameter aktif digunakan, dan terdiri dari 16 sub-model "ahli". Dengan skala yang jauh lebih besar ini, Meta mengklaim bahwa Behemoth akan mampu mengungguli model-model AI kompetitor saat ini, termasuk GPT-4.5 (yang belum dirilis secara resmi), Claude 3.7 Sonnet, dan Gemini 2.0 Pro.

Pengembangan Behemoth menunjukkan ambisi besar Meta untuk terus mendorong batas-batas kemampuan AI dan menciptakan model bahasa yang semakin cerdas dan serbaguna. Jika berhasil, Behemoth berpotensi untuk merevolusi berbagai aplikasi yang mengandalkan pemahaman dan generasi bahasa alami.

Peluncuran Llama 4 Scout dan Maverick, serta pengembangan Behemoth, memiliki implikasi yang signifikan bagi perkembangan teknologi AI secara keseluruhan. Dengan merilis model open-weight, Meta memungkinkan para peneliti dan pengembang di seluruh dunia untuk mengakses dan memanfaatkan teknologi canggih ini, yang dapat mempercepat inovasi dan pengembangan aplikasi AI di berbagai bidang.

Peningkatan kemampuan dalam pemrosesan teks dan pemahaman visual juga membuka peluang baru untuk menciptakan aplikasi AI yang lebih cerdas, intuitif, dan bermanfaat bagi masyarakat luas. Mulai dari asisten virtual yang lebih canggih, sistem pemahaman bahasa alami yang lebih akurat, hingga alat bantu kreatif untuk penulisan, desain, dan berbagai bidang lainnya, potensi aplikasi LLM terus berkembang seiring dengan kemajuan teknologi ini.

Namun, perkembangan pesat dalam teknologi LLM juga menimbulkan berbagai pertanyaan dan tantangan terkait etika, keamanan, dan dampak sosial. Penting bagi para pengembang, regulator, dan masyarakat luas untuk terus berdiskusi dan mencari solusi yang bertanggung jawab untuk memastikan bahwa teknologi ini digunakan untuk kebaikan bersama.

Meta telah menjadi salah satu pemain kunci dalam riset dan pengembangan kecerdasan buatan, terutama dalam bidang model bahasa. Keluarga model Llama telah mendapatkan perhatian luas dari komunitas AI karena performanya yang kompetitif dan ketersediaannya sebagai model open-weight. Langkah Meta dalam mengembangkan model-model yang semakin canggih menunjukkan komitmen perusahaan untuk tetap menjadi yang terdepan dalam inovasi AI.

Dengan sumber daya yang besar dan tim peneliti yang berbakat, Meta memiliki potensi untuk terus memberikan kontribusi signifikan terhadap kemajuan teknologi AI di masa depan. Peluncuran Llama 4 Scout dan Maverick adalah bukti terbaru dari upaya berkelanjutan mereka dalam mencapai tujuan tersebut.

Related Post