LLM Ensembles & MoA: Kolaborasi AI untuk Respons Lebih Akurat

Rita Puspita Sari
•
06 Mar 2025 20.32 WIB

Dalam dunia Artificial Intelligence (AI), model bahasa besar atau Large Language Models (LLM) menjadi alat yang sangat kuat untuk menangani berbagai tugas, mulai dari pemrosesan bahasa alami hingga penyelesaian masalah kompleks.

Namun, ada cara untuk meningkatkan performa LLM lebih jauh, yaitu dengan menggabungkan beberapa model dalam satu sistem. Teknik ini dikenal sebagai LLM ensembles, yang bertujuan untuk meningkatkan kualitas respons melalui kombinasi berbagai model. Salah satu pendekatan paling canggih dalam LLM ensembles adalah Mixture-of-Agents (MoA), yang memungkinkan model bekerja secara kolaboratif untuk menghasilkan jawaban yang lebih akurat dan relevan.

Artikel ini akan membahas konsep dasar LLM ensembles, bagaimana teknik ini berbeda dari multiple sampling, serta bagaimana Mixture-of-Agents bekerja dan berkembang, termasuk metode terbaru seperti self-MoA dan self-MoA-seq.

Apa Itu LLM Ensembles?

LLM ensembles adalah pendekatan di mana beberapa large language models (LLM) digabungkan untuk meningkatkan performa dan akurasi dalam menghasilkan respons. Konsep ini diadaptasi dari ensemble learning dalam machine learning, yang bertujuan menggabungkan beberapa model agar mendapatkan hasil yang lebih baik daripada hanya menggunakan satu model tunggal.

Dalam dunia AI, pendekatan ensembles sudah terbukti efektif dalam berbagai bidang, seperti klasifikasi gambar, analisis sentimen, dan penerjemahan bahasa. Teknik ini memungkinkan sistem mengatasi kelemahan satu model dengan memanfaatkan keunggulan model lainnya.

Manfaat LLM Ensembles

Beberapa manfaat utama dari LLM ensembles meliputi:

Peningkatan Akurasi
Salah satu manfaat terbesar dari LLM ensembles adalah peningkatan akurasi dalam menghasilkan jawaban atau respons. Setiap model dalam ensemble memiliki kelebihan dan kekurangan tersendiri. Dengan menggabungkan hasil dari beberapa model, sistem dapat mengevaluasi berbagai kemungkinan jawaban dan memilih yang paling sesuai.

Contohnya, jika suatu tugas memerlukan pemahaman konteks yang lebih dalam, salah satu model mungkin lebih unggul dalam memahami nuansa bahasa, sementara model lainnya lebih baik dalam logika atau pemrosesan numerik. Dengan teknik seperti weight averaging, sistem dapat menyaring respons yang kurang relevan dan memilih jawaban dengan tingkat kepercayaan (confidence score) tertinggi.
Reduksi Bias
Model bahasa tunggal sering kali menunjukkan kecenderungan atau bias tertentu berdasarkan data yang digunakan dalam pelatihannya. Bias ini bisa berupa bias bahasa, bias budaya, atau bias algoritmik, yang dapat menyebabkan jawaban yang tidak objektif atau kurang representatif.

Dengan menggunakan LLM ensembles, bias dalam satu model dapat dikompensasi oleh model lain yang memiliki perspektif berbeda. Sebagai contoh, jika satu model memiliki kecenderungan untuk menghasilkan jawaban yang terlalu teknis, sementara model lainnya lebih berfokus pada bahasa yang mudah dipahami, kombinasi keduanya dapat menghasilkan jawaban yang lebih seimbang dan inklusif.

Selain itu, metode diversifikasi model dalam ensemble memungkinkan sistem untuk mendapatkan wawasan yang lebih luas dan mengurangi risiko kesalahan sistematis akibat bias yang melekat pada satu model tertentu.
Diversifikasi Jawaban
LLM ensembles tidak hanya meningkatkan akurasi, tetapi juga memberikan diversifikasi dalam jawaban yang dihasilkan. Berbagai model dalam ensemble dapat menafsirkan pertanyaan dengan cara yang berbeda, menghasilkan respons yang lebih kaya dan bervariasi.

Hal ini sangat bermanfaat dalam situasi di mana tidak ada satu jawaban benar yang mutlak, seperti dalam diskusi ilmiah, pembuatan konten kreatif, atau analisis opini. Misalnya:
- Dalam penulisan artikel, satu model dapat menghasilkan teks yang lebih faktual, sementara model lainnya lebih fokus pada gaya bahasa yang menarik.
- Dalam analisis sentimen, satu model mungkin lebih peka terhadap nuansa emosional, sedangkan model lain lebih logis dalam menyusun respons.
Teknik seperti self-consistency atau Mixture-of-Agents (MoA) memungkinkan sistem untuk menyaring dan menggabungkan berbagai perspektif menjadi jawaban akhir yang lebih kaya dan mendalam.

LLM Ensembles vs Multiple Sampling

Ada perbedaan mendasar antara LLM ensembles dan multiple sampling, meskipun keduanya sering dianggap serupa.

Multiple Sampling: Dalam metode ini, satu atau lebih LLM diberikan perintah (prompt) yang sama beberapa kali untuk menghasilkan sejumlah respons. Kemudian, respons-respons tersebut dievaluasi untuk memilih jawaban terbaik.
- Jika jawaban dapat diverifikasi secara objektif (misalnya melalui interpreter kode), maka sistem akan memilih jawaban yang paling akurat.
- Jika jawaban bersifat subjektif, maka metode seperti majority voting atau self-consistency digunakan untuk menentukan jawaban final.
LLM Ensembles: Sementara multiple sampling hanya menghasilkan beberapa variasi dari satu atau lebih model, LLM ensembles mengombinasikan berbagai model dengan cara yang lebih kompleks, termasuk metode seperti:
- Weight Averaging: Memberikan bobot pada setiap respons berdasarkan keunggulan model dalam tugas tertentu atau tingkat kepercayaan terhadap jawaban tersebut.
- Routing: Menentukan model mana yang paling cocok untuk suatu tugas tertentu dan mengarahkannya ke model tersebut.

Metode LLM ensembles ini lebih menyerupai tim kerja, di mana berbagai model berkolaborasi untuk menghasilkan jawaban terbaik. Namun, teknik ini juga lebih sulit diterapkan dan lebih mahal dibandingkan metode multiple sampling.

Mixture-of-Agents (MoA): Mengoptimalkan Kolaborasi LLM

Salah satu teknik paling canggih dalam LLM ensembles adalah Mixture-of-Agents (MoA). Pendekatan ini memungkinkan berbagai model bekerja bersama dalam sistem yang lebih terorganisir.

Bagaimana MoA Bekerja?
Pada Mixture-of-Agents, ada dua peran utama dalam sistem:

Proposers: Beberapa model LLM bertugas untuk menghasilkan berbagai kemungkinan respons terhadap suatu pertanyaan atau tugas.
Aggregator: Model lain yang bertindak sebagai penyusun dan penyaring jawaban terbaik dari berbagai respons yang telah dihasilkan oleh para proposers.

Analoginya, MoA bekerja seperti sebuah tim eksekutif, di mana berbagai pihak memberikan proposal, dan keputusan akhir dibuat berdasarkan rangkuman terbaik dari semua proposal tersebut.

Beberapa penelitian menunjukkan bahwa MoA yang menggunakan berbagai model kecil namun spesialis dalam tugas tertentu bisa lebih efektif dibandingkan dengan satu model besar. Namun, penelitian dari Princeton University mengungkapkan bahwa terlalu banyak variasi dalam proposers dapat menurunkan kualitas keseluruhan jawaban. Oleh karena itu, mereka mengembangkan metode baru yang disebut Self-MoA.

Self-MoA: Menggunakan Satu Model untuk Berperan Ganda

Dalam metode Self-MoA, sistem tidak menggunakan berbagai model berbeda sebagai proposers, tetapi hanya menggunakan satu model yang sama. Dengan menggunakan parameter yang berbeda (misalnya pengaturan temperatur tinggi atau pendekatan stokastik), satu model dapat menghasilkan berbagai variasi jawaban.

Prosesnya adalah sebagai berikut:

Satu model LLM menghasilkan beberapa variasi respons terhadap satu prompt.
Model yang sama kemudian bertindak sebagai aggregator, memilih dan merangkum respons terbaik menjadi jawaban final.

Eksperimen menunjukkan bahwa metode Self-MoA dapat menghasilkan jawaban yang lebih akurat dibandingkan metode MoA klasik yang menggabungkan berbagai model berbeda. Bahkan, metode ini terbukti unggul dalam berbagai pengujian, termasuk dataset AlpacaEval 2.0.

Self-MoA-Seq: Solusi untuk Keterbatasan Context Window

Dalam pengembangannya, para peneliti memperkenalkan teknik Self-MoA-Seq, yang dirancang untuk mengatasi keterbatasan context window pada LLM.

Metode ini menggunakan pendekatan sliding window, yaitu:

Hanya sejumlah kecil respons yang diproses dalam satu waktu dan diberikan ke aggregator.
Setelah aggregator menghasilkan jawaban sementaranya, batch baru dari respons diambil dan digabungkan dengan jawaban sebelumnya.
Proses ini berulang hingga jawaban akhir terbentuk atau hingga batas iterasi tertentu tercapai.

Dengan pendekatan ini, model yang memiliki batasan dalam menangani konteks besar tetap dapat menggunakan MoA secara efisien.

Kesimpulan
LLM ensembles dan Mixture-of-Agents (MoA) adalah teknik yang digunakan untuk meningkatkan kualitas keluaran (output) large language model dengan menggunakan lebih banyak sumber daya komputasi.

Beberapa metode yang digunakan dalam LLM ensembles termasuk:

Weight Averaging untuk memberikan bobot pada setiap jawaban berdasarkan kepercayaannya.
Routing untuk memilih model terbaik dalam suatu tugas tertentu.

Di sisi lain, MoA menawarkan cara yang lebih terorganisir dalam mengelola berbagai model, dengan menggunakan proposers untuk menghasilkan respons dan aggregator untuk menyaring jawaban terbaik.

Penelitian terbaru menunjukkan bahwa metode Self-MoA dan Self-MoA-Seq dapat meningkatkan akurasi tanpa perlu mengandalkan terlalu banyak variasi model.

Meskipun metode LLM ensembles dan MoA lebih kompleks dan membutuhkan daya komputasi yang lebih besar, pendekatan ini memiliki potensi besar dalam meningkatkan performa sistem berbasis kecerdasan buatan. Dalam perkembangan AI ke depan, teknik ini dapat menjadi standar baru dalam menciptakan model bahasa yang lebih akurat, adaptif, dan andal.