Truthful QA: Menguji Keakuratan Jawaban Model AI
- Mutiara Aisyah
- •
- 21 Mar 2025 15.37 WIB

Ilustrasi Truthful QA
Ketika teknologi kecerdasan buatan berkembang pesat, banyak yang berharap model bahasa seperti GPT-3 bisa menjadi sumber informasi yang dapat dipercaya. Namun, harapan ini harus diuji dengan pertanyaan mendasar: Seberapa sering model ini benar-benar memberikan jawaban yang akurat? Jika AI diposisikan sebagai asisten digital atau bahkan penasihat dalam bidang-bidang kritis seperti kesehatan dan hukum, maka kesalahan informasi yang dihasilkannya bisa berdampak besar. Kepercayaan terhadap AI bukan hanya tentang kefasihan dalam berbicara, tetapi juga tentang keakuratan dan keandalan jawaban yang diberikan. Sayangnya, kenyataan menunjukkan bahwa model bahasa canggih masih jauh dari sempurna dan sering kali memberikan jawaban yang salah dengan tingkat keyakinan tinggi.
Penelitian Truthful QA mencoba menjawab pertanyaan ini dengan menguji AI dalam berbagai kategori, mulai dari kesehatan hingga politik. Dari hasil pengujian, model terbaik hanya mencapai tingkat kebenaran 58%, dibandingkan manusia yang bisa menjawab dengan benar hingga 94%. Fakta ini menimbulkan pertanyaan besar: Mengapa AI, yang seharusnya “lebih pintar” dengan miliaran parameter, masih sering salah? Ketika kita melihat hasil ini, kita harus mempertanyakan kembali bagaimana AI belajar dan bagaimana kita dapat memperbaiki model ini agar lebih bertanggung jawab terhadap jawaban yang diberikannya. Apakah ukuran model yang lebih besar justru memperparah masalah ini? Ataukah ada metode lain yang bisa diterapkan untuk memperbaiki kesalahan yang terjadi?
AI & Kecenderungannya untuk Mengulangi Kesalahan Manusia
Salah satu temuan menarik dari penelitian ini adalah inverse scaling—semakin besar model AI, semakin sering ia menghasilkan jawaban yang salah. Bagaimana bisa? Jawabannya terletak pada cara AI belajar, yang hingga saat ini masih bergantung pada teks yang diambil dari berbagai sumber di internet tanpa penyaringan ketat terhadap keakuratan informasinya. AI tidak memiliki kemampuan untuk secara mandiri membedakan antara fakta yang didukung bukti ilmiah dan mitos populer yang beredar di masyarakat. Dengan demikian, semakin banyak data yang dikonsumsi oleh AI, semakin besar kemungkinan ia menyerap informasi yang salah, terutama jika informasi tersebut sering muncul dalam teks yang digunakan untuk pelatihannya.
Ada beberapa faktor yang membuat AI terus mengulangi kesalahan manusia:
- AI meniru teks manusia tanpa filter kebenaran. Jika sebuah kesalahan sering muncul dalam data latihnya, AI akan menganggapnya sebagai “kebenaran” yang layak diulang. Bahkan, semakin sering sebuah kesalahan dikatakan dalam berbagai konteks, semakin besar kemungkinan AI menganggapnya sebagai sesuatu yang valid. Ini seperti ketika hoaks atau teori konspirasi semakin dipercaya karena terus diulang-ulang, baik oleh individu maupun media sosial.
- AI tidak memahami konsep benar dan salah. Model hanya melihat pola dalam bahasa, bukan fakta yang mendasarinya. AI tidak memiliki mekanisme internal untuk mempertanyakan apakah suatu informasi sudah diverifikasi atau tidak. Jika pola bahasa sebuah jawaban sesuai dengan apa yang sering muncul di dataset pelatihannya, model akan menganggapnya sebagai jawaban yang valid, meskipun sebenarnya salah.
- AI lebih fokus pada kelancaran komunikasi. Model lebih memilih jawaban yang terdengar alami dibandingkan jawaban yang benar secara faktual. Ini adalah masalah mendasar dalam arsitektur model bahasa, di mana model dirancang untuk memberikan jawaban yang menarik dan terdengar “pintar” daripada jawaban yang secara obyektif benar. Dengan kata lain, AI lebih mementingkan gaya dibandingkan isi.
Membangun AI yang Lebih Dapat Dipercaya
Jika AI ingin benar-benar menjadi sumber informasi yang kredibel, ada beberapa langkah yang harus dilakukan. Pertama, melatih AI dengan data terverifikasi. Artinya, alih-alih hanya menggunakan teks dari berbagai sumber di internet, model harus dilatih menggunakan data yang telah melalui proses verifikasi ketat, seperti jurnal ilmiah, dokumen hukum resmi, atau ensiklopedia terpercaya. Langkah ini dapat mengurangi kemungkinan model menyerap informasi salah yang tersebar luas di dunia maya.
Kedua, mengembangkan sistem pengecekan fakta yang bisa berjalan otomatis. Model AI harus dilengkapi dengan mekanisme yang dapat memeriksa kebenaran pernyataan sebelum menyampaikannya sebagai jawaban. Ini bisa dilakukan dengan menghubungkan model ke database referensi tepercaya atau menggunakan sistem berbasis fact-checking yang dapat mengonfirmasi atau menolak informasi berdasarkan sumber yang kredibel. Sebuah AI yang dapat melakukan cross-checking terhadap jawaban sebelum memberikan respons akan lebih sulit untuk terjebak dalam kesalahan umum yang sering terjadi.
Ketiga, memasukkan lebih banyak umpan balik manusia dalam proses pelatihan. Model bahasa harus terus dikalibrasi dan dievaluasi oleh manusia yang memahami bidang tertentu. Dengan adanya umpan balik dari para ahli, model dapat lebih akurat dalam menjawab pertanyaan-pertanyaan yang memerlukan pemahaman mendalam. Selain itu, AI juga dapat diajarkan untuk mengenali situasi di mana ia tidak memiliki jawaban yang cukup akurat, sehingga dapat memilih untuk tidak menjawab daripada memberikan informasi yang salah.
Meski kita masih jauh dari model AI yang benar-benar “jujur”, penelitian seperti Truthful QA adalah langkah penting dalam memahami kelemahan AI saat ini dan mencari solusi yang lebih baik. Dengan terus mengembangkan metode pelatihan dan evaluasi yang lebih baik, kita bisa berharap bahwa AI di masa depan tidak hanya akan berbicara dengan lancar, tetapi juga berbicara dengan kebenaran yang lebih terjamin.