Mengenal FAD, KL, dan CLAP Score dalam Musik AI
- Mutiara Aisyah
- •
- 07 Mar 2025 22.41 WIB

Ilustrasti FAD Scoring
AI generative music adalah bidang yang berkembang pesat dalam kecerdasan buatan (AI) dan musik. Dengan menggunakan model AI, musik dapat dihasilkan secara otomatis tanpa campur tangan manusia secara langsung. Namun, menilai kualitas musik yang dihasilkan oleh AI menjadi tantangan tersendiri. Oleh karena itu, berbagai metrik telah dikembangkan untuk mengevaluasi kualitas musik yang dihasilkan oleh model AI generatif, termasuk FAD Score, KL Score, dan CLAP Score.
1. FAD Score (Fréchet Audio Distance)
Definisi
FAD Score (Fréchet Audio Distance) adalah metrik yang digunakan untuk mengukur kesamaan antara distribusi fitur audio dari musik yang dihasilkan AI dengan musik referensi yang nyata.
Cara Kerja
- Ekstraksi Fitur Audio: Menggunakan model deep learning seperti VGGish atau OpenL3 untuk mengekstrak fitur dari musik.
- Perhitungan Mean dan Covariance Matrix: Menggunakan fitur yang diekstrak untuk menghitung rata-rata dan matriks kovarians dari dua distribusi fitur.
- Menghitung Fréchet Distance: Menggunakan rumus matematika yang melibatkan rata-rata dan matriks kovarians untuk menghitung jarak antara dua distribusi.
Kelebihan dan Kekurangan
- Kelebihan: Metrik yang lebih akurat dibandingkan perhitungan statistik sederhana.
- Kekurangan: Memerlukan komputasi yang relatif tinggi.
2. KL Score (Kullback-Leibler Divergence)
Definisi
KL Score menggunakan Kullback-Leibler (KL) Divergence untuk mengukur perbedaan antara distribusi probabilitas dari musik yang dihasilkan oleh AI dengan dataset referensi musik nyata.
Cara Kerja
KL Divergence dihitung dengan rumus matematika yang membandingkan distribusi probabilitas antara musik asli dan musik AI.
Kelebihan dan Kekurangan
- Kelebihan: Memberikan indikasi seberapa "alami" musik yang dihasilkan oleh AI.
- Kekurangan: Tidak simetris dan sangat bergantung pada distribusi probabilitas yang dipilih.
3. CLAP Score (Contrastive Language-Audio Pretraining)
Definisi
CLAP Score adalah metrik yang mengukur keselarasan antara audio dan deskripsi tekstualnya menggunakan model Contrastive Language-Audio Pretraining (CLAP).
Cara Kerja
- Pretraining Model CLAP: Model dilatih menggunakan pasangan data audio dan teks deskriptif.
- Encoding Audio dan Teks: Model mengonversi audio dan teks ke dalam ruang vektor yang sama.
- Menghitung Similarity Score: Cosine similarity dihitung untuk mengukur kesamaan antara embedding audio dan teks.
Kelebihan dan Kekurangan
- Kelebihan: Memungkinkan evaluasi berbasis teks yang lebih intuitif.
- Kekurangan: Bergantung pada dataset pelatihan CLAP.
Implementasi dalam AI Generative Music
FAD Score, KL Score, dan CLAP Score digunakan dalam berbagai proyek AI generative music seperti:
- Magenta (Google AI) – Menggunakan FAD Score untuk mengevaluasi kualitas model musik berbasis AI.
- Jukebox (OpenAI) – Menggunakan KL Score untuk membandingkan musik yang dihasilkan dengan dataset musik nyata.
- Mubert & AIVA – Menggunakan CLAP Score untuk memastikan kesesuaian antara deskripsi teks dengan musik yang dihasilkan.
Kesimpulan
Menilai kualitas musik yang dihasilkan AI memerlukan metrik yang dapat mengukur berbagai aspek. FAD Score sangat berguna untuk mengukur kesamaan fitur audio, KL Score mengevaluasi distribusi probabilitasnya dengan musik asli, dan CLAP Score memungkinkan penilaian berbasis teks. Ketiga metrik ini saling melengkapi dalam mengembangkan AI generative music yang lebih realistis.