Trợ lý ảo tiếng Việt trong giảng dạy trực tuyến

Trong bài báo này, chúng tôi đề xuất một nền tảng học trực tuyến với trợ lý ảo tiếng Việt

giao tiếp bằng văn bản và giọng nói. Trợ lý ảo hỗ trợ giáo viên trong việc trình bày nội dụng bài học

cũng như kiểm tra và đánh giá người học. Khác với các nền tảng học trực tuyến hiện có với nội dung

bài học là các video được quay sẵn, chúng tôi tiếp cận theo hướng trợ lý ảo tiếng Việt trình bày nội

dung bài học thông qua slide trình chiếu (định dạng pdf) kết hợp với giọng nói của giáo viên được

tổng hợp từ văn bản và khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói. Kết quả thực

tế được đánh giá thông qua hình thức khảo sát các đối tượng liên quan bao gồm sinh viên, giảng viên

và bộ phận quản lý đào tạo. Kết quả khảo sát trên 200 mẩu cho thấy trên 85% hài lòng với chất lượng

và hiệu quả của nền tảng học trực tuyến được đề xuất.

9 trang | Chia sẻ: Thục Anh | Lượt xem: 761 | Lượt tải: 1Free

Nội dung tài liệu Trợ lý ảo tiếng Việt trong giảng dạy trực tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy Trợ Lý Ảo Tiếng Việt Trong Giảng Dạy Trực Tuyến Nguyễn Thị Mỹ Thanh1, Diệp Thanh Hải1, Trịnh Ngọc Đức1, Ngô Thị Kim Linh1, Lê Ngọc Bích1, Đào Xuân Quy1 1 School of Engineering – Eastern International University, Binh Duong New City {thanh.nguyenthimy,quy.dao}@eiu.edu.vn Tóm tắt. Trong bài báo này, chúng tôi đề xuất một nền tảng học trực tuyến với trợ lý ảo tiếng Việt giao tiếp bằng văn bản và giọng nói. Trợ lý ảo hỗ trợ giáo viên trong việc trình bày nội dụng bài học cũng như kiểm tra và đánh giá người học. Khác với các nền tảng học trực tuyến hiện có với nội dung bài học là các video được quay sẵn, chúng tôi tiếp cận theo hướng trợ lý ảo tiếng Việt trình bày nội dung bài học thông qua slide trình chiếu (định dạng pdf) kết hợp với giọng nói của giáo viên được tổng hợp từ văn bản và khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói . Kết quả thực tế được đánh giá thông qua hình thức khảo sát các đối tượng liên quan bao gồm sinh viên, giảng viên và bộ phận quản lý đào tạo. Kết quả khảo sát trên 200 mẩu cho thấy trên 85% hài lòng với chất lượng và hiệu quả của nền tảng học trực tuyến được đề xuất. Từ khóa: tổng hợp giọng nói, nhận dạng giọng nói, giọng nói điều chỉnh chuyển động khuôn mặt, trợ lý ảo, trả lời tự động, học trực tuyến. Abstract. This paper presents a design of Vietnamese text and voice Virtual assistant for online learn- ing platforms. Virtual assistant support instructors, learners and administrators in teaching, learning and managing. In addition, Virtual assistant may replace the instructors in teachning by using deep learning to create video lecture with instructor’s voice and face based on AI technologies such as text to speech, speech recognition and speech driven face. This approach allows us to display the best quality of video lecture. Experimental results show the effectiveness of our proposed system design and deployment approach. Keywords: text-to-speech, speech-to-text, speech-driven-face, chatbots, online learning. 1 Giới thiệu Công nghệ phát triển đã làm thay đổi nhiều mặt của cuôc sống, từ kinh tế, xã hội đến giáo dục. Ngày nay, các nền tảng học trực tuyến phát triển nhanh chóng bởi tính linh hoạt về không gian và thời gian. Nhất là trong diễn biến phức tạp của dịch COVID-19, học trực tuyến đang là giải pháp tối ưu nhằm hạn chế việc gián đoạn việc học. Có thể thấy học trực tuyến có hai hình thức. Hình thức đầu tiên, giáo viên phát trực tiếp nội dụng bài học theo thời gian thực, đây là hình thức chuyển lớp học vật lý thành lớp học ảo trên nền tảng Internet với sự hỗ trợ của các nền tảng như Zoom, Google Hangout. Hình thức thứ hai, giáo viên quay nội dung bài học thành video và phát lại, điển hình là các nền tảng học trực tuyến mở cho đại chúng MOOC (Masive Open Online Course) như Coursera [2], edX [4], Edumall [3] và Hocmai [5]. MOOC ngày càng phát triển vì nó không những hỗ trợ nhiều khóa học khác nhau trong nhiều lĩnh vực mà còn giúp người học có nhiều lựa chọn về không gian và thời gian. Trí tuệ nhân tạo (AI-Artificial Intelligence) đang đóng vai trò quan trọng trong sự phát triển của xã hội loài người vì những tiềm năng ứng dụng to lớn mà nó mang lại trong những năm gần đây. Những ứng dụng AI thông minh nhất trên thế giới là những trợ lý ảo (Virtual Assistant) như Siri (Apple), Google Assistant (Google), Cortana (Microsoft), Alexa (Amazon) và Watson (IBM). Những trợ lý ảo này giao tiếp và hỗ trợ con người thông qua văn bản và giọng nói. Trong những ứng dụng thực tế, trợ lý ảo đã được triển khai trong nhiều lĩnh vực như: xe tự hành, tổng đài ảo, báo nói, dịch tự động và cả trong giáo dục [1]. 187 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Hai công nghệ lõi quan trọng trong việc xây dựng trợ lý ảo là xử lý ngôn ngữ tự nhiên (NLP-Natural Language Processing) và hiểu ngôn ngữ tự nhiên (NLU-Natural Language Understanding). Để trợ lý ảo giao tiếp được với con người, trước hết trợ lý ảo cần nhận biết con người nói gì (công nghệ nhận dạng giọng nói: Automatic Speech Recognition (ASR)). Sau khi nhận biết con người nói gì, trợ lý ảo phải hiểu và trả lời con người (công nghệ tổng hợp giọng nói Text-to-Speech (TTS)). Đối với tiếng Anh, ASR của Google đã đạt được WER (Word Error Rate: đại lượng đánh giá chất lượng ASR) dưới 5% (4.7% vào năm 2017) và TTS của Google có điểm MOS (Mean Opinion Score: đại lượng đánh giá chất lượng TTS) là 4.53 (so với 4.58 từ giọng nói tự nhiên của con người) [11]. Đối với tiếng Việt, trong Hội thảo Xử lý ngôn ngữ tiếng Việt năm 2019 (VLSP 2019), VASR (Vietnamese ASR) của Vais đạt được WER 13.7% [8] và VTTS (Vietnamese TTS) của Zalo có điểm MOS là 3.94 (so với 4.44 từ giọng nói tự nhiên của con người) [15]. Những kết quả này cho phép trợ lý ảo nhận dạng được giọng nói tiếng Việt của người sử dụng và trả lời bằng giọng tiếng Việt như con người. Thực sự, những công ty công nghệ hàng đầu Việt Nam như Vais, Zalo, Fpt và Viettel đã ứng dụng xử lý ngôn ngữ tiếng Việt để triển khai nhiều ứng dụng trong thực tế (báo nói: baomoi.com, dantri.com; tổng đài tự động: Fpt, Viettel, VNPT; chuyển giọng nói thành văn bản trong các cuộc họp Quốc hội, HĐND các tỉnh). Điều này đảm bảo triển khai trợ lý ảo tiếng Việt với độ tin cậy cao. Ngoài ra, với sự phát triển nhanh của trí tuệ nhân tạo, đặc biệt là trong lĩnh vực học sâu (DL-Deep Learning), các mô hình học sâu cho phép hiểu và trả lời con người với độ chính xác cao như Siri, Google Assistant, Alexa, Cortena và Watson. Trong các nền tảng học trực tuyến như Coursera [2], edX [4], Edumall [3] và Hocmai [5], việc quay video nội dụng bài học và phát lại, giúp giáo viên tiết kiệm được thời gian khi chỉ trình bày nội dung bài học một lần và người học có thể xem lại nhiều lần. Tuy nhiên, để các khóa học trực tuyến đạt chất lượng cao, giáo viên mất nhiều thời gian trong việc quay và chỉnh sửa video nội dung bài học. Ngoài ra, khi nội dung bài học thay đổi, các video nội dung bài học cần được quay và chỉnh sửa lại. Một số kết quả về AI gần đầy về học chuyển tiếp trong NLP [7], [6] cho phép sao chép giọng nói với thời gian rất ngắn và trong xử lý hình ảnh [12], [14] và [13] cho phép xây dựng chuyển động khuôn mặt theo giọng nói. Vì vậy, dựa trên những công nghệ hiện có, chúng tôi đề xuất một nền tảng học trực tuyến với trợ lý ảo tiếng Việt cho phép trình bày nội dung bài học thông qua (1) slide trình chiếu (pdf) kết hợp với (2) giọng nói của giáo viên được tổng hợp từ văn bản (TTS: Text To Speech) và (3) khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói (SDF: Speech-driven-Face). Phần tiếp theo của bài báo này được trình bày như sau: Mục 2 đề xuất nền tảng học trực tuyến với trợ lý ảo tiếng Việt; Mục 3 trình bày những kết quả đạt được. Cuối cùng là một số kết luận cũng như định hướng nghiên cứu tiếp theo. 2 Mô tả trợ lý ảo trong nền tảng học trực tuyến Trong mục này, chúng tôi trình bày các công nghệ lõi đang được áp dụng trong ASR và TTS tiếng Việt và đề xuất mô hình tương ứng để triển khai nền tảng học trực tuyến tích hợp trợ lý ảo giao tiếp bằng văn bản và giọng nói tiếng Việt. 2.1 Nhận dạng giọng nói tiếng Việt Hệ thống VASR cơ bản được trình bày như trong Hình 1. Hệ thống VASR hoạt động như sau: đầu tiên, giọng nói được trích xuất thành các đặc trưng; sau đó, các trích xuất đặc trựng được giải mã (decoder) thành chuỗi từ dựa trên mô hình âm thanh, mô hình từ vựng, và mô hình ngôn ngữ như trong Hình 1. Hình 1. Cấu trúc cơ bản hệ thống VASR. Bảng 1 mô tả công nghệ VASR mới nhất năm 2019 của các công ty công nghệ hàng đầu Việt Nam. Trích xuất đặc trưng Giọng nói Mô hình âm thanh Mô hình từ vựng Bộ giải mã Mô hình ngôn ngữ Chuỗi từ 188 Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy Bảng 1. Công nghệ sử dụng trong VASR Đặc điểm Vais Zalo Viettel (Vtcc) Đặc trưng đầu vào MFCC+Pitch MFCC+Pitch MFCC+Pitch Tăng cường dữ liệu Noise+RIR Noise+RIR Noise+RIR Mô hình âm học TDNN TDNN+LSTM TDNN+BLSTM Ngôn ngữ News+Conv News+YouTube News Từ vựng 16k từ 17k từ 11k từ Để đánh giá chất lượng của các hệ thống VASR, chúng ta sử dụng Chỉ số hiệu quả chuyển đổi WER hoặc WA được tính bằng công thức hoặc Trong đó S là số từ thay thế, D là số từ bỏ đi, I là số từ chèn vào và N là tổng số từ tham khảo. Kết quả cuộc thi VASR trong Hội thảo VLSP 2019, WER của Vais, Zalo và Viettel lần lượt tương ứng là 13.7%, 14.36% và 27.11% đối với bộ dữ liệu được huấn luyện. Kết quả này thể hiện Vais có kết quả tốt nhất cho VASR. Trong mô tả hệ thống VASR, Vais khẳng định có độ chính xác với WER = 5% (WA=95%), tức là hệ thống VASR nhận diện giọng nói gần tương đương như con người (WER = 5%). Kết quả này đảm bảo trợ lý ảo xây dựng trên VASR có thể triển khai trong thực tế. Hơn nữa, VASR của Vais, Viettel và Fpt đã được triển khai thực tế và cung cấp API (Application Programming Interface – phương thức trung gian kết nối các ứng dụng và thư viện khác nhau) cho phép tích hợp VASR vào các nền tảng thứ ba. Do đó, chúng tôi tích hợp VASR vào nền tảng học trực tuyến sử dụng thông qua API được cung cấp bởi Vais, Zalo và Viettel. Ngoài ra, trong nền tảng học trực tuyến đề xuất, chúng tôi cũng tích hợp API của Google để hỗ trợ cả tiếng Anh và tiếng Việt. 2.2 Tổng hợp giọng nói tiếng Việt Hệ thống VTTS cơ bản gồm hai hệ thống: (1) Hệ thống tổng hợp (Synthesizer) và (2) Hệ thống phát âm (Vocoder) như mô tả trong Hình 2. Trong đó, hệ thống synthesizer có nhiệm vụ chuyển văn bản thành phổ âm Log-mel (Log-mel Spectrogram) (có thể là tần số cơ bản F0 và một số đặc trưng ngôn ngữ khác) và Hệ thống vocoder có nhiệm vụ chuyển phổ âm Log-mel thành các mẫu âm thanh (audio samples). Đối với hệ thống TTS gần đây, cả hai hệ thống synthesizer và vocoder thường được xây dựng dựa trên cấu trúc của mạng thần kinh hồi quy (Recurrent Neural Networks - RNN). Hình 2. Cấu trúc cơ bản hệ thống VTTS. Để đánh giá các hệ thống TTS, chúng ta sử dụng điểm Chỉ số chất lượng bài đọc MOS với thang điểm gồm năm mức: 1 – rất tệ (bad), 2 – tệ (poor), 3 – khá (pair), 4 – tốt (good), 5 – rất tốt (excellent). Chất lượng TTS được gọi là “đạt” nếu có điểm đánh giá ở mức khá. Hình 3 mô tả điểm Chỉ số chất lượng bài đọc MOS của các công ty và công nghệ tương ứng mới nhất [15]. Hình 3. Điểm MOS của các hệ thống VTTS. Tổng hợp Phát âm Bộ tạo tín hiệu tiếng nói Văn bản Phổ âm Log-Mel 189 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” VTSS có Hệ thống synthesizer được xây dựng trên mô hình Tacotron 2, đây là mạng thần kinh đạt được điểm MOS cao nhất. Nhiều hệ thống vocoder sử dụng mạng Wavenet [9] (2016), trong khi Zalo sử dụng mạng WaveGlow mới hơn do Nvidia đề xuất năm 2019 [10] (WaveGlow có cấu trúc đơn giản và dễ huấn luyện, triển khai và cũng đạt được kết quả tương tự như WaveNet). Tương tự như VASR, triển khai VTTS cho nền tảng học trực tuyến cũng có thể sử dụng thông qua API của Zalo, Viettel, Fpt và cả Google. VTTS hiện tại chỉ hỗ trợ một số giọng nói tham khảo như Zalo (6 giọng), Viettel (6 giọng) và Google (4 giọng). Do đó, trong phần tiếp theo, chúng tôi đề xuất mô hình cho phép triển khai VTTS với giọng nói của giáo viên và khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói. 2.3 Tạo giọng nói và khuôn mặt giáo viên Với những kết quả gần đây của Trí tuệ nhân tạo (AI), đặc biệt là Học sâu (DL) trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) cho phép sao chép giọng nói giáo viên trong thời gian rất ngắn và xử lý hình ảnh cho phép điều chỉnh chuyển động khuôn mặt theo giọng nói. Trong mục này, chúng tôi đề xuất mô hình tạo giọng nói và khuôn mặt giáo viên. Đối với giọng nói của giáo viên, kết quả trong [7], [6] cho phép tổng hợp giọng nói của giáo viên với thời gian tham khảo trong thời gian rất ngắn, chỉ 5s, gần như là thời gian thực. Hình 4 so sánh giữa TTS cơ bản và TTS được hiệu chỉnh với giọng nói tham khảo của giáo viên được đưa vào mô hình huấn luyện mạng Tacotron 2. Công nghệ lõi của mô hình này là học chuyển tiếp (Transfer learning) giúp tích hợp giọng nói của giáo viên vào trong mô hình huấn luyện theo thời gian thực. Hình 4. TTS cơ bản (trái) và TTS với tạo giọng nói giáo viên (phải) sử dụng Tacotron 2. Đối với khuôn mặt của giáo viên, kết quả [12], [14], [13] cho phép xây dựng video khuôn mặt của giáo viên chuyển động tương ứng với giọng nói (tương ứng với văn bản). Do đó, chúng tôi đề xuất mô hình tạo khuôn mặt giáo viên (Speech-driven-Face) như trong Hình 5. Trong phần tiếp theo, chúng tôi giới thiệu cấu trúc của Chatbots, một phần của trợ lý ảo trong nền tảng học trực tuyến. 2.4 Trả lời tự động (Chatbot) Chatbot được áp dụng trong nền tảng học trực tuyến vì nhiều lợi ích mà nó mang lại như: Chatbot trả lời ngay lập tức câu hỏi của người học, trong một chủ đề rộng; Chatbots hỗ trợ không giới hạn số lượng người học; Chatbot hỗ trợ 24/7, không mất tính kiên nhẫn, không mệt mỏi; Chatbot hỗ trợ đa ngôn ngữ. Dựa trên câu trả lời mà Chatbot đưa ra, chúng ta có thể chia Chatbot thành hai dạng chính. Đầu tiên, Chatbot có câu trả lời dựa trên quy tắc trả lời (Rule-based Chatbot). Thứ hai, Chatbots có câu trả lời được tạo bởi AI (AI-based Chatbot). Cấu trúc cơ bản của Chatbot được xây dựng dựa trên NLP, NLU, NLG (Natural Language Generation – Tạo ngôn ngữ tự nhiên), Cơ sở tri thức - Knowledgebase/Hệ thống quản lý nội dung - Content management System (CMS) và Bộ nhớ dữ liệu - Data Storage như trong Hình 6. Trong đó, NLU giúp Chatbot hiểu yêu cầu của Người dùng (User) và NLG sử dụng cơ sở tri thức và bộ nhớ để tạo ra câu trả lời. Tổng hợp Phát âm Bộ tạo tín hiệu tiếng nói Văn bản Phổ âm Log-Mel Bộ mã hoá Giọng giáo viên 190 Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy Hình 5. Khuôn mặt của giáo viên được điều khiển tương ứng với giọng nói. Hình 6. Thành phần cơ bản trong cấu trúc Chatbots. Hình 7. Người học (U: user) tương tác với Chatbots (B: Bot) trong một bài học. Hình 7 mô tả tương tác giữa Người sử dụng và Chatbot trong một bài học. Người sử dụng có thể hỏi Chatbot nội dung bài học hoặc kiểm tra kiến thức bằng cách tham gia bài tập - Quiz/trả lời câu hỏi - QA. Hình 8 mô tả thiết kế hội thoại giữa Chatbot và Người sử dụng trong hai trường hợp: Người sử dụng hỏi và Chatbot trả lời; Chatbot hỏi và người sử dụng trả lời. User NLP NLU NLG Cơ sở tri thức/CMS Bộ nhớ quay lại Chat kiểm tra U: tương tác B U: câu hỏi U: chọn U: xem bài học tiếp tục quay lại Chat 191 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Hình 8. Hội thoại giữa Chatbot và người sử dụng (User) trong hai trường hợp. 2.5 Nền tảng học trực tuyến với Chatbot Có nhiều nghiên cứu áp dụng AI vào giáo dục trong ba nhóm: hỗ trợ người học trong học tập; hỗ trợ giáo viên trong giảng dạy như giảm khối lượng công việc của giáo viên, giúp giáo viên đánh giá học sinh; hệ thống quản lý và giám sát cho nhà quản lý. Nhiều nghiên cứu tập trung vào hai nhóm đầu, hỗ trợ người học và giáo viên. Trong bài báo này, chúng tôi đề xuất một nền tảng học trực tuyến ứng dụng Trí tuệ nhân tạo hỗ trợ cả ba nhóm. Hình 9 minh họa cấu trúc nền tảng học trực tuyến do chúng tôi đề xuất theo định hướng Chatbot hỗ trợ: giáo viên, người học và nhà quản lý. Hình 9. Chatbot tương tác với người học, giáo viên và nhà quản lý. Người học: Chatbot hỗ trợ người học theo mong muốn cá nhân của người học; Chatbot không những giao tiếp với người học bằng văn bản và giọng nói mà còn hỗ trợ đa ngôn ngữ (tùy chỉnh ngôn ngữ một cách dễ dàng); Chatbot giúp giáo viên kiểm tra, đánh giá người học một cách công bằng không dựa vào cảm xúc và ý kiến chủ quan. Từ đó Chatbot đề xuất lộ trình học tập phù hợp. Chatbot cung cấp kết quả đánh giá người học và giáo viên theo thời gian thực; Giáo viên: Chatbot đóng vai trò như một giáo viên ảo trong việc giảng dạy và kiểm tra, đánh giá người học; Chatbot thay giáo viên thực hiện các công việc lặp lại, hỗ trợ nhiều người học cùng một thời điểm. Mô hình chúng tôi đề xuất được mô tả trong Hình 10, trong đó, giáo viên chỉ cần thực hiện Slide trình chiếu và mô tả nội dung bài học, Chatbot tự động tạo ra nội dung bài học với giọng nói và khuôn mặt của giáo viên. Giáo viên không cần quay video nội dung bài học. Đặc biệt, mô hình đề xuất cho phép chỉnh sửa nội dung bài học bằng cách chỉ cần thao tác trên Slide và mô tả nội dung Slide. hoàn thành kết thúc B: chúc mừng B: khen B: làm lạiU: trả lời Sai B: hỏi B: chào tiếp tục đúng hoàn thành thử lại Chatbot hỏi User trả lời hoàn thành B: Thank! Bye B: trả lời U: hỏi tiếp tục User hỏi Chatbot trả lời Người học Nhà quản lý Giáo viên Chatbots Cơ sở dữ liệu Nền tảng học trực tuyến 192 Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy Nhà quản lý: Chatbot giúp người quản lý giảm chi phí nhân sự trong việc vận hành; Chatbot giúp người quản lý giám sát nội dung giảng dạy bằng cách lưu nội dung giảng dạy thành văn bản và đưa ra báo cáo đánh giá. Hình 10. So sánh công việc tạo nội dung bài học giữa nền tảng MOOC truyền thống và chúng tôi đề xuất. 3 Kết quả Nền tảng học trực tuyến được phát triển dựa trên các ngôn ngữ như trong Hình 11. Trong đó, phần Front- end: Html và Javascript; và phần back-end: Python với Django Framework Web và Sql là PostgreSQL. Phát triển nền tảng học trực tuyến với Javascript và Python đảm bảo nâng cao trải nghiệm của người dùng cũng như hỗ trợ công nghệ về AI, đặc biệt NLU, NLP và DL. Hình 11. Ngôn ngữ xây dựng nền tảng học trực tuyến Giao diện người dùng UI (User Interface) của bài học được đưa ra trong Hình 12. Với hai phần chính là Slide trình chiếu và Chatbot. Phần Slide trình chiếu hiển thị nội dụng bài học và Nút Change Button để thay đổi Slide trình chiếu ở chế độ thủ công - manual. Phần cửa sổ Chatbot Popup gồm: Nút Voice Button là chế độ người dùng giao tiếp với Chatbot bằng giọng nói, Nút STT Record là chế độ Chatbot chuyển giọng nói của giáo viên thành văn bản, tự động ghi chép lại nội dung trong trường hợp giáo viên trực tiếp giới thiệu nội dung bài học; Nút Subtitle hiển thị lời nói của người học, giáo viên hoặc hỗ trợ chuyển đa ngôn ngữ; Vùng nhập văn bản - Text Input là chế độ người dùng giao tiếp với Chatbot bằng văn bản. Trợ lý ảo STT TTS SDF Slide + mô tả nội dung Giáo viên Giọng nói tạo mới chỉnh sửa Slide Mặt Giáo viên Slide + mô tả nội dung quay Video Video bài học tạo mới chỉnh sửa User HTML JavaScript Front-end Python SQL Back-end 193 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Hình 12. Giao diện người dùng UI Trong mục này chúng tôi trình bày kết quả khảo sát việc triển khai nền tảng học trực tuyến với Trợ lý ảo tiếng Việt. Phiên bản thử nghiệm chưa hỗ trợ giọng nói và khuôn mặt của giảng viên. Khảo sát đánh giá chất lượng giọng nói của Chatbot: Mục đích của cuộc khảo sát là đánh giá khả năng giao tiếp bằng giọng nói tiếng Việt của Chatbot sử dụng API từ Vais, Zalo, VTCC và Google. Kết quả khảo sát từ 200 sinh viên, giảng viên và nhà quản lý được đưa ra: mức độ hài lòng về chất lượng xử lý ngôn ngữ tự nhiên đạt được trên 75%, mức độ này đảm bảo độ tin cậy trong việc triển khai hệ thống Trợ lý ảo giao tiếp giọng nói tiếng Việt. Khảo sát đánh giá hiệu quả học trực tuyến với Trợ lý ảo tiếng Việt: Trên 85% sinh viên hài lòng với sự hỗ trợ theo thời gian thực từ Trợ lý ảo. Trên 90% giảng viên hài lòng về sự hỗ trợ của Trợ lý ảo do giảng viên tiết kiệm được thời gian trong giảng dạy và đánh giá sinh viên. Đồng thời, trên 90% bộ phận đào tạo hài lòng trong việc giám sát nội dung bài học thông qua báo cáo đánh giá từ Chatbot thay vì cử nhân viên giám sát. 4 Kết luận Trong bài báo này, chúng tôi đã đề xuất nền tảng học trực tuyến với Trợ lý ảo tiếng Việt. Mô hình đề xuất đảm bảo hiện thị nội dung với chất lượng cao nhất và cho phép chỉnh sửa nội dung bài học trực tiếp từ văn bản. Kết quả khảo sát việc sử dụng Trợ lý ảo tiếng Việt giao tiếp bằng giọng nói đảm bảo hỗ trợ giảng dạy trực tuyến. Trong bài báo tiếp theo, chúng tôi giới thiệu kết quả tổng hợp giọng nói và điều khiển chuyển động khuôn mặt giảng viên theo giọng nói. Tài liệu tham khảo 1. Cognii, https://www.cognii.com, truy cập 10/8/2020 2. Coursera, https://www.coursera.org, truy cập 10/8/2020 3. Edumaill, https://www.edumall.vn, truy cập 10/8/2020 4. edx, https://www.edx.org, truy cập 10/8/2020 5. Hocmai, https://hocmai.vn, truy cập 10/8/2020 6. Real time voice cloning, https://github.com/CorentinJ/Real-Time-Voice-Cloning 7. Jia, Y., Zhang, Y., Weiss, R., Wang, Q., Shen, J., Ren, F., Nguyen, P., Pang, R., Moreno, I.L., Wu, Y., et al.: Transfer learning from speaker verification to multispeaker text-to-speech synthesis. PDF Slide 1 3 2 4 5 194 Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy In: Advances in neural information processing systems. pp. 44804490 (2018) 8. Mai, L.C., Truong, D.Q.: Report on the speech-to-text shared task in vlsp campaign 2019. In: Vietnamese Language Signal Processing. VLSP (2019) 9. Oord, A.v.d., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., Ka- vukcuoglu, K.: Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499 (2016) 10. Prenger, R., Valle, R., Catanzaro, B.: Waveglow: A flow-based generative network for speech synthesis. In: ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 36173621. IEEE (2019) 11. Shen, J., Pang, R., Weiss, R.J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang, Y., Skerrv-Ryan, R., et al.: Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. In: 2018 IEEE International Conference on Acoustics, Speech and Signal Pro- cessing (ICASSP). pp. 47794783. IEEE (2018) 12. Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG) 36(4), 113 (2017) 13. Thies, J., Elgharib, M., Tewari, A., Theobalt, C., Nießner, M.: Neural voice puppetry: Audio-driven facial reen- actment. arXiv preprint arXiv:1912.05566 (2019) 14. Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., Nießner, M.: Face2face: Real-time face capture and reenactment of rgb videos. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 23872395 (2016) 15. Trang, N.T.T., Tung, N.X.: Text-to-speech shared task in vlsp campaign 2019: Evaluating vietnamese speech synthesis on common datasets. In: Vietnamese Language Signal Processing. VLSP (2019) 195

Các file đính kèm theo tài liệu này:

tro_ly_ao_tieng_viet_trong_giang_day_truc_tuyen.pdf