EVALUATION OF VIETNAMESE SPEECH RECOGNITION PLATFORMS (VAIS, VIETTEL, ZALO, FPT AND GOOGLE) IN NEWS
Nguyễn Thị Mỹ Thanh, Phan Xuân Dũng,
Nguyễn Ngọc Hay, Lê Ngọc Bích, Đào Xuân Quy
Trường Đại học Quốc tế Miền Đông, Việt Nam
Ngày toà soạn nhận bài 20/10/2020, ngày phản biện đánh giá 12/11/2020, ngày chấp nhận đăng 5/2/2021
TÓM TẮT
Bài báo này giới thiệu kết quả đánh giá các hệ thống nhận dạng giọng nói tiếng Việt (VASP-Vietnamese Automatic Speech Recognition) trong bản tin từ các công ty hàng đầu của Việt Nam như Vais (Vietnam AI System), Viettel, Zalo, Fpt và công ty hàng đầu thế giới Google. Để đánh giá các hệ thống nhận dạng giọng nói, chúng tôi sử dụng hệ số Word Error Rate (WER) với đầu vào là văn bản thu được từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP. Ở đây, chúng tôi sử dụng tập tin âm thanh là các bản tin và API từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP để đưa ra văn bản được nhận dạng tương ứng. Kết quả so sánh WER từ Vais, Viettel, Zalo, Fpt và Google cho thấy hệ thống nhận dạng tiếng nói tiếng Việt trong các bản tin từ Viettel, Zalo, Fpt và Google đều có kết quả tốt, trong đó Vais cho kết quả vượt trội hơn.
Từ khóa: Xử lý ngôn ngữ tự nhiên; Nhận dạng tiếng nói; WER; tin tức; Api.
ABSTRACT
This article introduces an evaluation of Vietnamese Automatic Speech Recognition (VASR) in the news domain from top Vietnamese speech recognition companies such as Vais, Viettel, Zalo, Fpt and top world company such as Google. To evaluate speech recognition systems, Word Error Rate (WER) coefficient with recognized text inputs from Vais VASP, Viettel VASP, Zalo VASR, Fpt VASP and Google VASP platforms were utilized. The recognized texts were acquired by using audio files in the news domain and APIs from Vais VASP, Viettel VASP, Zalo VASR, Fpt VASP and Google VASP platforms to convert from speech to text. The evaluation results obtained from WER which was applied for Vais, Viettel, Zalo, Fpt and Google, show that VASP from Viettel, Zalo, FPT and Google are adequate in which Vais is superior.
Keywords: Natural language processing; Speech recognition; WER; News; Api.
Full text (Click here)