Mixture of Experts: Solusi Cerdas untuk Efisiensi AI Modern

Rita Puspita Sari
•
4 jam yang lalu

Dalam dunia kecerdasan buatan (Artificial Intelligence/AI) yang terus berkembang pesat, muncul berbagai pendekatan inovatif untuk meningkatkan efisiensi dan performa model. Salah satu pendekatan yang kini menjadi sorotan utama dalam pengembangan AI berskala besar adalah Mixture of Experts (MoE) atau Campuran Para Pakar. Tapi, apa sebenarnya yang dimaksud dengan MoE dan mengapa pendekatan ini begitu penting dalam lanskap AI saat ini?

Apa Itu Mixture of Experts?

Mixture of Experts (MoE) adalah arsitektur dalam machine learning yang memecah model AI menjadi beberapa sub-jaringan terpisah, yang disebut "pakar". Masing-masing pakar ini memiliki spesialisasi dalam subset data tertentu. Dengan kata lain, setiap pakar dirancang untuk menjadi ahli dalam bidang tertentu dari keseluruhan tugas yang diberikan kepada model.

Model MoE tidak mengaktifkan seluruh jaringannya setiap kali memproses data, melainkan hanya mengaktifkan pakar tertentu yang dianggap paling relevan untuk input tersebut. Pendekatan ini memungkinkan penghematan besar dalam komputasi dan waktu inferensi (proses menghasilkan output atau prediksi dari input).

Sejarah Singkat MoE

Walaupun implementasi MoE banyak berkembang dalam satu dekade terakhir, ide dasarnya sebenarnya sudah muncul sejak lama. Konsep awal ini diperkenalkan pada tahun 1991 melalui makalah berjudul Adaptive Mixtures of Local Experts. Dalam makalah tersebut, diusulkan sistem AI yang terdiri dari beberapa jaringan terpisah yang masing-masing dilatih secara khusus untuk subset data tertentu. Sebuah jaringan tambahan, yang disebut jaringan gerbang (gating network), bertugas memilih pakar mana yang paling sesuai digunakan untuk setiap kasus.

Hasil dari pendekatan ini sangat menjanjikan: dibandingkan dengan model konvensional, sistem ini bisa mencapai tingkat akurasi yang sama dengan waktu pelatihan hanya separuhnya.

Mengapa MoE Semakin Penting?

Seiring berkembangnya teknologi, terutama dalam bidang deep learning dan AI generatif, ukuran model AI pun menjadi semakin besar. Model bahasa besar (Large Language Models/LLM) seperti GPT dan Mixtral kini memiliki miliaran parameter. Namun, semakin besar model, semakin besar pula kebutuhan akan sumber daya komputasi.

Di sinilah MoE memainkan peran penting. MoE menawarkan solusi cerdas untuk mengatasi dilema antara kapasitas model yang besar dan efisiensi komputasi. Dengan hanya mengaktifkan sebagian kecil dari model untuk setiap input, kita bisa mendapatkan kekuatan model besar tanpa harus membayar harga komputasi yang tinggi.

Cara Kerja Mixture of Experts

Untuk memahami cara kerja MoE, mari kita bayangkan model AI sebagai kumpulan pakar dalam sebuah tim. Setiap pakar memiliki keahlian unik. Saat sebuah tugas datang, sistem akan menentukan pakar mana yang paling cocok untuk menyelesaikan tugas tersebut. Hanya pakar terpilih yang diaktifkan, sementara yang lain tetap diam.

Secara teknis, hal ini dilakukan melalui sebuah router atau jaringan gerbang yang memilih pakar berdasarkan input yang diterima. Router ini berfungsi untuk memetakan input ke pakar tertentu secara efisien dan selektif.

Dalam MoE, pengganti lapisan padat (dense feed-forward layers) dalam neural network tradisional adalah blok-blok MoE yang lebih ringan dan terfokus. Setiap blok MoE bisa terdiri dari satu atau lebih pakar. Router akan memilih, misalnya, dua dari delapan pakar untuk memproses input, lalu hasilnya digabung dan diteruskan ke lapisan berikutnya.

Sebagai contoh konkret, dalam model Mixtral 8x7B dari Mistral, setiap lapisan memiliki 8 pakar yang masing-masing terdiri dari 7 miliar parameter. Tapi, hanya dua dari delapan pakar yang diaktifkan untuk setiap token input. Hasil dua pakar tersebut dikombinasikan sebelum dilanjutkan ke proses berikutnya. Dengan demikian, model tetap punya kapasitas besar, tapi hanya menggunakan sebagian kecil tenaga pada satu waktu.

Keunggulan Mixture of Experts

Ada beberapa keuntungan utama dari pendekatan MoE yang membuatnya begitu populer dalam pengembangan model AI modern:

Efisiensi Komputasi
Karena tidak semua bagian dari model dijalankan pada setiap proses, maka sumber daya yang digunakan jauh lebih efisien dibandingkan model padat konvensional. Hal ini sangat penting untuk mengurangi biaya dan waktu pelatihan model berskala besar.
Kapasitas Model Lebih Besar
Dengan menggunakan banyak pakar spesialis, model MoE bisa memiliki jumlah parameter yang sangat besar, yang artinya kapasitasnya untuk menyimpan dan mengenali pola juga jauh lebih luas.
Kinerja Inferensi Lebih Cepat
Karena hanya sebagian kecil dari jaringan yang aktif pada satu waktu, proses inferensi (pengambilan kesimpulan dari input) menjadi lebih cepat dan ringan.
Fleksibilitas Arsitektur
MoE bisa disesuaikan untuk berbagai jenis tugas, mulai dari natural language processing (NLP), visi komputer, hingga model multimodal. Struktur modularnya membuat MoE mudah diadaptasi sesuai kebutuhan.

Jumlah Parameter: Antara Kapasitas dan Efisiensi

Ketika kita mendengar istilah seperti "8x7B" dalam model Mixtral, banyak orang berpikir bahwa model tersebut memiliki 56 miliar parameter (karena 8 pakar x 7 miliar). Namun, sebenarnya tidak sesederhana itu. Dalam praktiknya, banyak parameter digunakan bersama oleh seluruh pakar, sehingga jumlah total parameter sebenarnya sekitar 47 miliar, bukan 56.

Yang penting untuk dipahami adalah bahwa tidak semua parameter ini digunakan sekaligus saat model bekerja. Dalam kasus Mixtral, meskipun ia memiliki total 46,7 miliar parameter, hanya sekitar 12,9 miliar yang benar-benar aktif untuk memproses satu input. Inilah yang disebut parameter aktif, yaitu jumlah parameter yang benar-benar dihitung saat proses berlangsung.

Hal ini membuat MoE jauh lebih efisien daripada model tradisional. Sebagai contoh, Mixtral mampu mengalahkan performa LLaMA 2 (model AI buatan Meta) yang memiliki 70 miliar parameter, padahal Mixtral sendiri hanya menggunakan sekitar 20% lebih banyak parameter aktif saat proses inferensi (pengambilan keputusan AI).

Rahasia Efisiensi MoE: Sparsitas

Sparsitas atau kelangkaan adalah prinsip inti dari MoE. Dalam arsitektur ini, hanya beberapa pakar yang aktif pada satu waktu. Ini disebut juga sebagai komputasi bersyarat, karena model hanya mengaktifkan parameter tertentu tergantung dari input yang diterima.

Teknologi ini mulai benar-benar berhasil diterapkan setelah makalah dari Shazeer dkk. pada tahun 2017 yang memperkenalkan konsep MoE yang efisien dan dapat diandalkan. Mereka menunjukkan bahwa dengan hanya mengaktifkan sebagian kecil dari pakar pada satu waktu, performa tetap bisa dipertahankan bahkan meningkat sementara konsumsi daya komputasi bisa ditekan drastis.

MoE sangat cocok untuk tugas-tugas yang kompleks seperti Natural Language Processing (NLP), di mana tidak semua bagian input (kata) berhubungan langsung dengan bagian lainnya. Dengan hanya menggunakan pakar-pakar yang dibutuhkan, sistem menjadi lebih cepat dan hemat.

Peran Router: Menentukan Pakar yang Tepat

Dalam sistem MoE, ada bagian penting yang disebut router atau perute. Tugasnya adalah memilih pakar mana yang digunakan untuk suatu input tertentu. Biasanya, router menggunakan metode top-k, yaitu memilih k pakar teratas yang paling cocok berdasarkan input. Dalam kasus Mixtral, digunakan top-2, artinya router akan memilih dua pakar terbaik dari total delapan pakar yang tersedia.

Namun, jika router salah memilih pakar, maka performa model bisa terganggu. Oleh karena itu, desain router harus cerdas dan presisi.

Model Switch Transformers dari Google bahkan menggunakan versi ekstrem dari strategi ini, yaitu hanya mengaktifkan satu pakar (top-1) dari 128 pakar yang tersedia. Hasilnya? Kecepatan pelatihan meningkat hingga 400% meskipun modelnya sangat besar.

Tantangan dalam Penerapan MoE

Tantangan: Menyeimbangkan Beban
Salah satu masalah utama dalam MoE adalah ketidakseimbangan beban. Kadang-kadang, router cenderung terus-menerus memilih pakar tertentu yang performanya paling baik. Akibatnya, pakar lain menjadi jarang digunakan dan tidak berkembang. Ini bisa menyebabkan performa keseluruhan menurun karena tidak semua pakar dilatih dengan optimal.
Untuk mengatasi ini, peneliti memperkenalkan metode noisy top-k, yaitu dengan menambahkan sedikit acakan (noise) ke pilihan pakar. Tujuannya agar pakar lain juga punya kesempatan untuk dilatih. Selain itu, digunakan teknik regularisasi untuk memaksa sistem menggunakan semua pakar secara merata.

Google juga memperkenalkan metode routing acak, di mana salah satu dari dua pakar dipilih secara semi-acak. Mereka juga membatasi kapasitas maksimal pakar untuk menghindari kelebihan beban.
Tantangan Lanjutan: Penyempurnaan Model
MoE memang menawarkan banyak keuntungan, tetapi penerapannya juga menantang, terutama saat menyempurnakan (fine-tuning) model. Model MoE cenderung lebih rentan terhadap overfitting, yaitu ketika model terlalu menyesuaikan diri pada data pelatihan dan kurang fleksibel terhadap data baru.
Dalam penelitian oleh Zoph dkk., mereka menguji beberapa metode penyempurnaan:
- Menyempurnakan semua parameter
- Menyempurnakan hanya parameter non-MoE
- Menyempurnakan hanya parameter MoE
- Menyempurnakan parameter perhatian
- Menyempurnakan hanya lapisan FFN
Hasilnya, hanya metode penyempurnaan pada lapisan FFN yang memberikan peningkatan kinerja. Sementara menyempurnakan hanya bagian MoE justru menurunkan performa. Hal ini menunjukkan bahwa tidak semua bagian dari MoE cocok untuk disempurnakan secara terpisah. Karena hanya sebagian kecil pakar yang aktif di tiap lapisan, pembaruan parameternya menjadi kurang menyeluruh, sehingga model bisa lebih mudah overfitting.
Tantangan dalam Implementasi MoE
Meski banyak keunggulan, implementasi MoE bukan tanpa tantangan. Salah satunya adalah dalam pelatihan jaringan gerbang atau router. Jika router tidak dapat memilih pakar yang tepat untuk input tertentu, maka performa model bisa turun drastis.
Selain itu, distribusi beban kerja antar pakar harus dikelola dengan baik. Jika hanya satu atau dua pakar yang terus-menerus dipilih, maka akan terjadi ketidakseimbangan yang berujung pada pelatihan yang tidak optimal atau bahkan kegagalan model.

Namun, tantangan ini mulai diatasi dengan teknik-teknik baru seperti load balancing, expert dropout, dan optimalisasi pemilihan pakar selama pelatihan.

MoE dalam Dunia Nyata

MoE telah mulai diterapkan dalam berbagai model AI kelas dunia. Beberapa contohnya:

Mixtral 8x7B dari Mistral, yang menggunakan delapan pakar per lapisan, dengan dua yang aktif per token.
GPT-4 dari OpenAI, yang menurut beberapa laporan juga menerapkan arsitektur MoE, meskipun detailnya belum diumumkan secara publik.
Google dan DeepMind juga telah mengeksplorasi dan mengimplementasikan MoE dalam model berskala besar seperti GShard dan Switch Transformer.

Penggunaan MoE sangat menjanjikan untuk aplikasi seperti terjemahan mesin, chatbot, penulisan otomatis, dan berbagai sistem AI lainnya yang membutuhkan pemrosesan kompleks dengan efisiensi tinggi.

Masa Depan MoE

Mixture of Experts mewakili masa depan pengembangan AI yang lebih hemat energi, lebih cepat, namun tetap mampu menangani kompleksitas tugas yang tinggi. Dengan kemampuan untuk menskalakan model tanpa membebani sistem, MoE menjadi pilihan arsitektur yang sangat relevan di era AI generatif dan model berukuran raksasa.

Penting untuk memahami bahwa inovasi seperti MoE bukan hanya tentang efisiensi teknis, tetapi juga tentang membuka kemungkinan baru dalam pengembangan AI yang lebih inklusif, adaptif, dan bermanfaat bagi banyak sektor mulai dari pendidikan hingga industri.