Hasil Studi: Model AI Masih Sering Halusinasi Fakta
- Abd. Rofik Budin
- •
- 16 Agt 2024 18.57 WIB
Studi terbaru yang dilakukan oleh para peneliti dari berbagai universitas dan lembaga penelitian AI mengungkapkan bahwa semua model AI generatif, seperti Gemini dari Google, Claude dari Anthropic, dan GPT-4o dari OpenAI, memiliki kecenderungan untuk menghasilkan informasi yang tidak akurat atau sepenuhnya salah, sebuah fenomena yang dikenal sebagai 'halusinasi'. Meskipun sering kali kesalahan ini mengundang tawa, dalam situasi tertentu bisa menimbulkan masalah serius. Meski demikian, frekuensi dan jenis halusinasi yang terjadi bervariasi antar model, tergantung pada sumber data yang digunakan selama pelatihan.
Penelitian yang dilakukan oleh tim dari Cornell, Universitas Washington, dan Waterloo, serta lembaga penelitian nirlaba AI2 bertujuan untuk mengevaluasi tingkat keakuratan jawaban yang dihasilkan oleh model-model AI. Mereka membandingkan respons model-model tersebut dengan sumber-sumber otoritatif di berbagai bidang, seperti hukum, kesehatan, sejarah, dan geografi. Hasilnya menunjukkan bahwa tidak ada model yang tampil sempurna di semua topik. Bahkan, model yang tampaknya lebih akurat sering kali mencapai hasil tersebut dengan menolak menjawab pertanyaan yang mereka yakini akan dijawab dengan salah.
Wenting Zhao, seorang mahasiswa doktoral di Cornell, menjelaskan bahwa "hasil dari model AI generatif saat ini masih belum dapat sepenuhnya dipercaya." Penelitian ini menemukan bahwa bahkan model AI terbaik hanya dapat menghasilkan jawaban yang benar sekitar 35% dari waktu. Penelitian sebelumnya sering kali menggunakan pertanyaan yang jawabannya mudah ditemukan di Wikipedia. Namun, dalam penelitian ini, para peneliti sengaja memilih pertanyaan yang tidak memiliki referensi di Wikipedia untuk lebih mencerminkan jenis pertanyaan yang mungkin dihadapi oleh model AI dalam penggunaan sehari-hari.
Pertanyaan-pertanyaan yang digunakan dalam penelitian ini mencakup berbagai topik seperti budaya, geografi, astronomi, budaya pop, keuangan, kedokteran, ilmu komputer, dan selebritas. Tim peneliti menguji lebih dari selusin model AI generatif, termasuk GPT-4o dari OpenAI, Meta Llama 3 70B, Mistral’s Mixtral 8x22B, dan Cohere’s Command R+. Selain itu, mereka menilai model-model yang memerlukan akses melalui API, seperti Perplexity’s Sonar Large, yang berbasis pada Llama, Google’s Gemini 1.5 Pro, dan Anthropic’s Claude 3 Opus. Meski ada klaim dari beberapa perusahaan AI tentang pengurangan halusinasi, hasil penelitian menunjukkan bahwa model-model ini masih sering menghasilkan informasi yang tidak akurat.
Dalam hal persentase jawaban yang benar secara faktual, GPT-4o dan GPT-3.5 dari OpenAI menunjukkan kinerja yang hampir setara, dengan GPT-4o sedikit lebih unggul. Namun, model-model ini mengalami kesulitan dalam menjawab pertanyaan yang berkaitan dengan selebritas dan keuangan, meskipun lebih baik dalam topik seperti geografi dan ilmu komputer. Kemungkinan ini terjadi karena data pelatihan model AI lebih banyak mengandung informasi tentang topik-topik tersebut.
Meskipun beberapa model, seperti Command R dan Perplexity's Sonar, memiliki kemampuan untuk mencari informasi di web, mereka tetap mengalami kesulitan dalam menjawab pertanyaan yang tidak terkait dengan Wikipedia. Ukuran model AI juga tidak selalu menjadi indikator kinerja yang lebih baik; model yang lebih kecil seperti Claude 3 Haiku dari Anthropic berhalusinasi dengan frekuensi yang hampir sama dengan model yang lebih besar seperti Claude 3 Opus.
Hasil penelitian ini menunjukkan bahwa masalah halusinasi pada model AI generatif mungkin akan tetap ada untuk waktu yang lama. Zhao mencatat bahwa meskipun ada berbagai metode yang dijanjikan untuk mengurangi halusinasi, peningkatan yang dicapai masih sangat terbatas. Salah satu solusi sementara yang disarankan adalah memprogram model AI untuk lebih sering menolak menjawab pertanyaan yang tidak mereka yakini kebenarannya.
Dalam uji coba yang dilakukan, Claude 3 Haiku, misalnya, menolak menjawab sekitar 28% dari pertanyaan yang diajukan. Meskipun hal ini membuat model tersebut tampak lebih akurat, Zhao mempertanyakan apakah pengguna akan menyukai model AI yang sering menolak menjawab. Ia menyarankan bahwa vendor AI perlu lebih fokus pada penelitian yang bertujuan untuk mengurangi halusinasi, seperti pengecekan fakta oleh manusia selama pengembangan model.
Zhao juga menekankan pentingnya melibatkan ahli manusia dalam proses verifikasi informasi yang dihasilkan oleh model AI generatif. Dengan keterlibatan manusia, halusinasi pada model AI mungkin tidak bisa sepenuhnya dihilangkan, tetapi setidaknya bisa diminimalisir secara signifikan.