Ứng dụng kỹ thuật nhận dạng tiếng nói tự động vào hỗ trợ hoạt động kiểm soát không lưu

Kiểm soát không lưu là một hoạt động mang ý nghĩa cực kỳ quan trọng nhằm đảm bảo sự an toàn và duy trì sự thông suốt của các chuyến bay. Một trong các nhiệm vụ của kiểm soát viên không lưu là hiệp đồng với phi công để hướng dẫn phi công tuân thủ lộ trình bay và tránh xung đột giữa các tàu bay. Nhằm hỗ trợ cho kiểm soát viên không lưu, bài báo đề xuất ứng dụng kỹ thuật nhận dạng tiếng nói tự động vào việc phát hiện lỗi do thông tin sai lệch giữa kiểm soát viên và phi công. Trong giai đoạn nghiên cứu ban đầu, hệ thống hỗ trợ tập trung vào khai thác dịch vụ điện toán đám mây Azure thuộc tập đoàn Microsoft. Hệ thống đề xuất gồm có hai phần: trước tiên, tiếng nói của phi công và kiểm soát viên được chuyển đổi thành văn bản dựa trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đối tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện ra lỗi lặp lại và lỗi nghe lại. Các thí nghiệm được tiến hành với 10 mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trong môi trường bay giả lập và thực tế. Kết quả thí nghiệm bước đầu đã cho tỷ lệ nhận dạng chấp nhận được và tỷ lệ phát hiện lỗi rất khả quan

pdf8 trang | Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 298 | Lượt tải: 0download
Nội dung tài liệu Ứng dụng kỹ thuật nhận dạng tiếng nói tự động vào hỗ trợ hoạt động kiểm soát không lưu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
nghiệm thứ nhất, chúng tôi cần thực hiện hai thí nghiệm con để so sánh mô hình có sẵn của Azura với mô hình được huấn luyện mới bằng dữ liệu điều hành bay đã mô tả ở Bảng 1. 1. Thí nghiệm đánh giá mô hình chuyển đổi tín hiệu tiếng nói sang văn bản có sẵn Việc đánh giá mô hình có sẵn của Azure được thực hiện thông qua hai thí nghiệm sau đây: Trong thí nghiệm thứ nhất, 100 đoạn tiếng nói giả lập chỉ mực bay FL220 được đưa vào mô hình có sẵn của Azure để thực hiện chuyển đổi sang văn bản. Mô hình được chọn là Model 20191202 là phiên bản mới nhất của dịch cụ đám mây Azure tính đến tháng 9/2020 [13]. Kết quả thu được tỷ lệ WER là 36,47 %. Trong thí nghiệm thứ hai, 100 đoạn tiếng nói chỉ mực bay thực tế FL150 được đưa vào mô hình có sẵn của Azure với cùng phiên bản Model 20191202. Kết quả chuyển đổi sang văn bản thu được tỷ lệ WER là 63,41 %. Ta thấy lỗi nhận dạng dữ liệu thực tế cao hơn đáng kể so với lỗi nhận dạng dữ liệu giả lập (cao hơn đến 27 %). Nguyên nhân là do dữ liệu tiếng nói của phi công thực được thu âm trong môi trường nhiễu VHF, dữ liệu của KSVKL thực được thu âm trong môi trường có nhiều tiếng ồn do KSVKL lân cận, tiếng hiệp đồng tới các tàu bay khác, ... Như vậy rõ ràng là chất lượng tiếng nói (được quyết định bởi tỷ lệ nhiễu) ảnh hưởng rất lớn đến chất lượng của mô hình nhận dạng. Kết quả thí nghiệm đặt ra tầm quan trọng của việc cải thiện chất lượng thiết bị thu phát và khử nhiễu. Giả sử bằng các biện pháp kỹ thuật và công nghệ, ta có thể khử nhiễu đến mức tối đa, để có thể thu thập được dữ liệu thực tế có chất lượng tốt như dữ liệu giả lập thì tỷ lệ lỗi WER ở mức 36,47 %. Tỷ lệ lỗi này là quá cao, không thể chấp nhận được cho bài toán hỗ trợ kiểm soát không lưu, vốn đòi hỏi nghiêm ngặt về mức độ chính xác để đảm bảo tính an toàn tối đa. Lê Văn Vũ, Hoàng Lê Uyên Thục 647 Có lẽ một trong số nguyên nhân gây ra tỷ lệ lỗi cao như thế là do dữ liệu huấn luyện mô hình Azure có sự khác biệt quá lớn (nghĩa là tương quan thống kê quá thấp) so với dữ liệu trong môi trường điều hành bay. Do đó việc huấn luyện mới mô hình là thật sự cần thiết. 2. Thí nghiệm đánh giá mô hình chuyển đổi tín hiệu tiếng nói sang văn bản được huấn luyện mới Trong thí nghiệm này, mô hình mới được ước lượng sử dụng tập dữ liệu điều hành bay như mô tả trong Bảng 1. Việc đánh giá mô hình được thực hiện bằng phương pháp k-fold cross validation với k = 10. Hiệu quả nhận dạng của mô hình mới được đánh giá dựa theo tiêu chí tỷ lệ nhận dạng như công thức (4). Toàn bộ dữ liệu được chia ngẫu nhiên thành 10 nhóm khác nhau, sau đó thực hiện 10 lần huấn luyện và kiểm tra mô hình theo kiểu xoay vòng, mỗi lần huấn luyện bằng 9 nhóm dữ liệu và kiểm tra bằng nhóm dữ liệu còn lại. Tỷ lệ nhận dạng cuối cùng được tính là trung bình cộng của 10 lần kiểm tra mô hình. Kết quả thí nghiệm này được thể hiện ở Bảng 2. Ngoài ra, để thuận tiện trong việc so sánh hai mô hình, mô hình có sẵn cũng được đánh giá thêm dựa theo tiêu chí tỷ lệ nhận dạng (4). Kết quả này được thể hiện chung trong Bảng 2. Bảng 2. So sánh tỷ lệ nhận dạng (%) của mô hình có sẵn và mô hình mới trên 10 mực bay FL220 FL200 FL210 FL250 FL160 FL180 FL140 FL240 FL230 FL150 Trung bình Mô hình có sẵn 87,00 75,00 85,00 88,00 59,00 59,20 63,00 43,93 44,29 40,00 64,44 Mô hình mới 92,00 78,00 92,00 98,00 91,00 72,30 92,00 64,00 59,21 74,00 81,25 Hiệu suất cải thiện 5,00 3,00 7,00 10,00 32,00 13,10 29,00 20,07 14,92 34,00 16,81 So sánh hai mô hình có sẵn và mô hình mới như trên Bảng 2, ta nhận thấy tỷ lệ nhận dạng được cải thiện rõ rệt ở tất cả các mực bay, bất kể các yếu tố bất lợi như nhiễu VHF, chất lượng tín hiệu tiếng nói, tiếng ồn do môi trưởng làm việc hay phát âm không quy chuẩn. Như vậy, vấn đề tăng khối lượng dữ liệu huấn luyện là hết sức cần thiết và ảnh hưởng quyết định đến hiệu quả nhận dạng. Bên cạnh việc gia tăng khối lượng, vấn đề gia tăng tính đa dạng của dữ liệu cũng rất quan trọng: dữ liệu cần thu thập từ nhiều Đài điều hành bay khác nhau, môi trường làm việc của KSVKL khác nhau, phi công đến từ nhiều quốc gia khác nhau, Tiếp tục phân tích kết quả thí nghiệm ta thấy: các lỗi nhận dạng khác nhau là do những nguyên nhân khác nhau, do đó cần có các giải pháp khác nhau cho từng loại lỗi. Cụ thể như: lỗi sai từ có thể do phát âm không chuẩn nên cần huấn luyện thêm với dữ liệu là những từ bị sai, lỗi thêm từ có thể do tập dữ liệu chứa nhiều từ không liên quan đến từ cần nhận dạng nên cần loại bỏ các từ đó trong tập dữ liệu huấn luyện, lỗi thiếu từ có thể do tín hiệu âm tần của tập dữ liệu có cường độ yếu nên cần nâng cao cường độ âm tần trong các thiết bị thu phát và truyền dẫn âm tần. 3. Thí nghiệm mô phỏng so khớp mực bay Thí nghiệm này mô phỏng bước tiếp theo sau khi đã chuyển đổi hội thoại giữa KSVKL và phi công thành văn bản. Các bước thực hiện bao gồm: chọn các cặp văn bản được chuyển đổi từ hội thoại giữa KSVKL và phi công lấy từ kết quả thí nghiệm sử dụng mô hình mới, hiển thị văn bản lên màn hình đồng thời trích các con số trong văn bản để so sánh, xuất ra cảnh báo. Hình 4 là ba kết quả mô phỏng cho ba tình huống là dương tính giả (cảnh báo nhầm), âm tính thật (phi công lặp lại đúng, không cảnh báo) và dương tính thật (cảnh báo đúng). Hình 4. Một số kết quả mô phỏng phát hiện lỗi lặp lại Tiếp tục chọn thêm các cặp hội thoại giữa KSVKL và phi công để so khớp, chúng tôi nhận thấy có 3 tình huống xảy ra như minh họa trên Hình 4 và không xảy ra tình huống bỏ sót lỗi. Từ các tình huống được chọn ta nhận thấy: Giá trị recall cao tuyệt đối (=1) chứng tỏ toàn bộ lỗi lặp lại đều được phát hiện, không có lỗi nào bị bỏ sót. Số trường hợp bị cảnh báo giả còn cao (thể hiện qua precision còn thấp). Tuy cảnh báo giả không gây ảnh hưởng trực tiếp đến an toàn bay nhưng làm mất tập trung, tăng thêm áp lực không cần thiết cho KSVKL. Phân tích cho thấy một trong các nguyên nhân gây cảnh báo giả đến từ mô hình nhận dạng tiếng nói, trong đó nhiều 648 ỨNG DỤNG KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG VÀO HỖ TRỢ HOẠT ĐỘNG KIỂM SOÁT KHÔNG LƯU nhất là do mô hình ngôn ngữ. Vì vậy ngoài các biện pháp đã nêu như cải thiện dữ liệu, khử nhiễu, ta cần xây dựng lại mô hình ngôn ngữ với bộ từ điển chỉ giới hạn ở nhóm từ vựng chuyên ngành điều hành bay. IV. KẾT LUẬN Tóm lại, bài báo đã thực hiện nhận dạng tiếng nói là các giá trị mực bay bằng mô hình có sẵn của Microsoft và mô hình mới được huấn luyện bằng dữ liệu thu thập tại Đài điều hành bay thuộc Công ty Quản lý bay miền Trung, từ đó phát hiện lỗi giao tiếp giữa phi công và KSVKL. Từ các thí nghiệm, bài báo đã rút ra một số đề xuất để ứng dụng nhận dạng tiếng nói tự động vào điều khiển không lưu như sau: (1) chuẩn hóa phát âm trong hoạt động điều hành bay, (2) nâng cao chất lượng thiết bị thu phát âm tần, chuyển mạch thoại, thu phát tín hiệu cao tần, giảm tiếng ồn tại nơi làm việc của KSVKL, (3) huấn luyện lại mô hình nhận dạng tiếng nói với dữ liệu đảm bảo về số lượng và chất lượng và dùng các thuật toán học sâu phù hợp hơn. Hệ thống nghiên cứu ban đầu đảm bảo khả năng phát hiện lỗi lặp lại khá tốt, thể hiện qua tỷ số precision chấp nhận được và tỷ số recall cao tuyệt đối. Đây là cơ sở để tiếp tục phát triển các nghiên cứu tiếp theo trong tương lai trên quy mô rộng rãi hơn để có thể xây dựng hệ thống hỗ trợ điều hành bay ứng dụng cho ngành hàng không ở Việt Nam. V. TÀI LIỆU THAM KHẢO [1] E. Mazareanu, “Global air traffic - annual growth of passenger demand”, Statista, 2020. [2] Federal Aviation Administration, “Air traffic control: chapter 2, session 1”, 2010, URL: truy cập 01/08/2010. [3] Hunter D. Kopald, Ari Chanen, Shuo Chen, Elida C. Smith, and Robert M. Tarakan, "Applying automatic speech recognition technology to Air Traffic Management", 2013 IEEE/AIAA 32 nd Digital Avionics Systems Conference (DASC), East Syracuse, 2013. [4] Shuo Chen, Hunter Kopald, Dr. Ronald S. Chong, Dr. Yuan-Jun Wei, and Zachary Levonian, “Read back error detection using automatic speech recognition”, 12th USA/Europe Air Traffic Management Research and Development Seminar, 2017. [5] ICAO, “Aeronautical telecommunication”, Anex 10, Volume II, Sixth Edition, 2001. [6] O. Prinzo, A. M. Hendrix, and R. Hendrix, “The outcome of ATC message length and complexity on en route pilot readback performance”, Federal Aviation Administration- Department of Transportation, 2009. [7] Thomas Pellegrini, Jerome Farinas, Estelle Delpech, and Francois Lancelot, “The Airbus Air Traffic Control speech recognition 2018 challenge: towards ATC automatic transcription and call sign detection”, Airbus, 2018. [8] Công ty Quản lý bay miền Trung, “Quy định hiệp đồng điều hành bay giữa vị trí kiểm soát tiếp cận tầng cao Đà Nẵng và vị trí kiểm soát tiếp cận Đà Nẵng”, quy định 2/2018. [9] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, and Raj Foreword By-Reddy. Spoken language processing: A guide to theory, algorithm, and system development. Prentice Hall PTR, 2001. [10] Van Nhan Nguyen and Harald Holone, “Possibilities, challenges and the state of the art of automatic speech recognition in air traffic control”, International Journal of Soft Computing and Engineering, 2015. [11] Samudravijaya K, “Automatic speech recognition”, Tata Institute of Fundamental Research [chưa xuất bản]. [12] Microsoft Corporation, “Azure data architecture guide”, documentation, 2018. [13] Microsoft Corporation, “Speech service documentation”, documentation, 2019. [14] W. Xiong, L. Wu, F. Alleva, J. Droppo, X. Huang, and A. Stolcke, “The Microsoft 2017 conversational speech recognition system”, IEEE International Conference on Acoustics, Speech and Signal Processing, 2018. APPLICATION OF AUTOMATIC SPEECH RECOGNITION TO SUPPORT AIR TRAFFIC CONTROL Le Van Vu, Hoang Le Uyen Thuc ABSTRACT: Air traffic control activity plays a critical role in accomplishing the safety and maintaining the orderly flow of air flights. One responsibility of the controller is to instruct the pilot to follow the planned flight route and to resolve aircraft conflicts. In order to decrease the workload of air traffic controllers we propose the application of the automatic speech recognition to detect controller-pilot voice miscommunication errors. In the very beginning stage, the support system focuses on using Azure, a cloud computing service created by Microsoft group. The system consists of two phases: firstly, pieces of speech of the pilot and the controller are converted into texts based on long short term memory (LSTM) network; secondly, these speech pieces are compared to each other based on comparing the two corresponding texts; then read back and hear back errors are detected. The conducted experiments are implemented on 10 flight levels in the airspace between 15,000 feet and 25,000 feet, via simulated and realistic air environments. Initially experimental results give acceptable recognition rate and promissing error detection rate.

Các file đính kèm theo tài liệu này:

  • pdfung_dung_ky_thuat_nhan_dang_tieng_noi_tu_dong_vao_ho_tro_hoa.pdf