Evaluasi Performansi Transformer Whisper pada Dataset Bahasa Indonesia

Authors

  • Ratna Atika Politeknik Negeri Sriwijaya
  • Suci Dwijayanti Universitas Sriwijaya
  • Bhakti Yudho Suprapto Universitas Sriwijaya

Keywords:

Whisper, Transformer, Speech recognition, Bahasa Indonesia, Robot

Abstract

Untuk mendukung interaksi manusia-robot secara alami, pengembangan teknologi robot memerlukan kemampuan pemrosesan suara yang handal. Salah satu model mutakhir dalam Automatic Speech Recognition (ASR) adalah Whisper, sebuah arsitektur Transformer yang dikembangkan oleh OpenAI. Namun, performansi Whisper untuk bahasa Indonesia, khususnya dalam konteks aplikasi robotika, masih terbatas untuk dievaluasi secara mendalam. Penelitian ini bertujuan untuk mengevaluasi performansi model Whisper dalam mengenali ucapan berbahasa Indonesia dengan memanfaatkan dataset Mozilla model Common Voice Corpus 20.0. Metode yang digunakan meliputi pengujian model Whisper terhadap data audio berbahasa Indonesia dengan variasi panjang rekaman, aksen, serta kebisingan latar. Evaluasi dilakukan dengan mengukur Word Error Rate (WER) dan Character Error Rate (CER) sebagai indikator akurasi. Hasil pengujian menunjukkan bahwa Whisper mampu mencapai rata-rata WER sebesar 14,2% dan CER sebesar 13,9% pada kondisi audio bersih. Sehingga dapat disimpulkan bahwa Whisper memiliki potensi tinggi untuk diimplementasikan pada sistem robot berbahasa Indonesia, meskipun perlu dilakukan adaptasi lebih lanjut terhadap kondisi realtime yang bervariasi. Hasil ini memberikan kontribusi penting dalam pengembangan interaksi manusia dengan robot yang mendukung komunikasi berbasis suara dalam bahasa Indonesia.

Downloads

Published

2025-08-28