Baca berita dengan sedikit iklan, klik disini
PERUSAHAAN teknologi Meta merilis fitur kecerdasan buatan mereka, Meta AI, di berbagai media sosial milik mereka seperti Facebook, Instagram, dan WhatsApp. Hal ini membuat fitur kecerdasan buatan milik Meta menawarkan keunggulan berupa akses langsung bagi penggunanya.
Baca berita dengan sedikit iklan, klik disini
Namun, Meta AI mendapat sorotan lantaran jawaban yang dihasilkannya seringkali tidak akurat. Salah satu penyebab ketidakakuratan Meta AI karena model ini belum sepenuhnya terintegrasi dengan data terbaru atau web. AI ini tidak mampu melakukan pencarian web secara efisien seperti mesin pencari lainnya.
Baca berita dengan sedikit iklan, klik di sini
Baca berita dengan sedikit iklan, klik disini
Untuk mengetahui penilaian pengguna terkait berbagai LLM kecerdasan buatan, para peneliti SkyLab dan LMArena pun mendirikan sebuah situs urun daya (crowdsourcing) bernama Chatbot Arena yang melibatkan para pengguna kecerdasan buatan untuk menilai akurasi LLM yang mereka gunakan.
Berdasarkan leaderboard dalam situs tersebut, beberapa LLM buatan Google dan OpenAI menempati 10 model bahasa terbaik versi para pengguna. Dua model bahasa milik Google, Gemini-Exp-1206 dan Gemini-2.0-Flash-Thinking-Exp-1219, menempati peringkat teratas dengan skor masing-masing 1.372 dan 1.368. Keduanya pun telah dinilai oleh masing-masing 14.652 dan 8.003 pengguna.
Di antara dominasi para LLM milik Google dan OpenAI di ranking 10 besar, terdapat model bahasa Grok-2-08-13 milik xAI–perusahaan rintisan milik Elon Musk–yang mendapat skor 1.288 dari hampir 61 ribu pengguna. Skor yang didapat LLM tersebut hanya unggul satu poin dari LLM Yi-Lightning yang dimiliki pengembang kecerdasan buatan asal Cina, 01.AI, yang telah dinilai 29.185 pengguna.
Chatbot Arena menggunakan metodologi perbandingan berpasangan untuk mengevaluasi berbagai LLM. Para pengguna dilibatkan dengan diminta mengajukan pertanyaan dan menerima jawaban dari dua LLM anonim. Setelah meninjau respons tersebut, pengguna memberikan suara untuk LLM yang mereka pilih. Identitas LLM hanya diungkapkan setelah proses pemungutan suara selesai.
Untuk menganalisis data yang dikumpulkan, Chatbot Arena memanfaatkan serangkaian teknik statistik, termasuk model Bradley & Terry dan E-values, untuk memperkirakan peringkat model secara efisien dan dapat diandalkan. Platform ini telah beroperasi sejak April 2023 dan telah mengumpulkan lebih dari 240 ribu suara dari sekitar 90 ribu pengguna dan lebih dari 100 ribu bahasa.