Tác giả :
EVALUATION OF VIETNAMESE SPEECH RECOGNITION PLATFORMS (VAIS, VIETTEL, ZALO, FPT AND GOOGLE) IN NEWS
Nguyễn Thị Mỹ Thanh, Phan Xuân Dũng, 
Nguyễn Ngọc Hay, Lê Ngọc Bích, Đào Xuân Quy
Trường Đại học Quốc tế Miền Đông, Việt Nam
Ngày toà soạn nhận bài 20/10/2020, ngày phản biện đánh giá 12/11/2020, ngày chấp nhận đăng 5/2/2021
TÓM TẮT
Bài báo này giới thiệu kết quả đánh giá các hệ thống nhận dạng giọng nói tiếng Việt (VASP-Vietnamese Automatic Speech Recognition) trong bản tin từ các công ty hàng đầu của Việt Nam như Vais (Vietnam AI System), Viettel, Zalo, Fpt và công ty hàng đầu thế giới Google. Để đánh giá các hệ thống nhận dạng giọng nói, chúng tôi sử dụng hệ số Word Error Rate (WER) với đầu vào là văn bản thu được từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP. Ở đây, chúng tôi sử dụng tập tin âm thanh là các bản tin và API từ các hệ thống Vais VASP, Viettel VASP, Zalo VASP, Fpt VASP và Google VASP để đưa ra văn bản được nhận dạng tương ứng. Kết quả so sánh WER từ Vais, Viettel, Zalo, Fpt và Google cho thấy hệ thống nhận dạng tiếng nói tiếng Việt trong các bản tin từ Viettel, Zalo, Fpt và Google đều có kết quả tốt, trong đó Vais cho kết quả vượt trội hơn. 
Từ khóa: Xử lý ngôn ngữ tự nhiên; Nhận dạng tiếng nói; WER; tin tức; Api.
ABSTRACT
This article introduces an evaluation of Vietnamese Automatic Speech Recognition (VASR) in the news domain from top Vietnamese speech recognition companies such as Vais, Viettel, Zalo, Fpt and top world company such as Google. To evaluate speech recognition systems, Word Error Rate (WER) coefficient with recognized text inputs from Vais VASP, Viettel VASP, Zalo VASR, Fpt VASP and Google VASP platforms were utilized. The recognized texts were acquired by using audio files in the news domain and APIs from Vais VASP, Viettel VASP, Zalo VASR, Fpt VASP and Google VASP platforms to convert from speech to text. The evaluation results obtained from WER which was applied for Vais, Viettel, Zalo, Fpt and Google, show that VASP from Viettel, Zalo, FPT and Google are adequate in which Vais is superior.
Keywords: Natural language processing; Speech recognition; WER; News; Api. 
Full text (Click here)
Góp ý
Họ và tên: *  
Email: *  
Tiêu đề: *  
Mã xác nhận:
 
 
RadEditor - HTML WYSIWYG Editor. MS Word-like content editing experience thanks to a rich set of formatting tools, dropdowns, dialogs, system modules and built-in spell-check.
RadEditor's components - toolbar, content area, modes and modules
   
Toolbar's wrapper  
Content area wrapper
RadEditor's bottom area: Design, Html and Preview modes, Statistics module and resize handle.
It contains RadEditor's Modes/views (HTML, Design and Preview), Statistics and Resizer
Editor Mode buttonsStatistics moduleEditor resizer
 
 
RadEditor's Modules - special tools used to provide extra information such as Tag Inspector, Real Time HTML Viewer, Tag Properties and other.
   
 *
Copyright © Tạp Chí Khoa Học Giáo Dục Kỹ Thuật - Trường Đại Học Sư Phạm Kỹ Thuật - TP.HCM  
Địa chỉ: Phòng 601B, 1 Võ Văn Ngân, Quận Thủ Đức, Thành Phố Hồ Chí Minh. 
Điện thoại: 08-3722.1223 (8168)
Email:
tapchikhgdkt@hcmute.edu.vn

                                      
                                

Truy cập tháng: 72,577

Tổng truy cập:1,174,506