Ba lĩnh vực (1) nhận dạng và tổng hợp tiếng nói, (2) nhận dạng chữ, và (3) 
xửlý ngôn ngữtựnhiên có liên quan mật thiết với nhau, và là nền tảng cho sựphát 
triển và ứng dụng công nghệthông tin của mọi quốc gia 
Nhận dạng tiếng nói nhằm chuyển thông tin từtiếng nói con người vào máy 
tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính. 
Cùng với sựphát triển nhanh chóng của công nghệthông tin nói chung và mạng 
Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trởnên là một 
xu hướng tất yếu cho những máy tính thếkỉ21. Trong vòng 50 năm qua, rất nhiều 
thuật toán được đềxuất và triển khai trên các hệtự động nhận dạng và tổng hợp 
tiếng nói. Trên thếgiới đã có nhiều bộphần mềm thương mại dành cho tiếng Anh 
nhưIBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Những phần 
mềm này cung cấp các chức năng chủyếu như: nhập văn bản vào máy, đọc văn 
bản thành lời, duyệt Web bằng giọng nói. Gần đây nhất hãng Microsoft đã công bố
việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) 
truyền thống vào phiên bản hệ điều hành Windows thếhệmới với mật danh 
8
Whistler. Kết quảnày có ý nghĩa rất lớntrong giao tiếp người-máy: thay vì giao 
tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ
giao tiếp với con người bằng những mệnh lệnh đơn giản. Nhận dạng và tổng hợp 
tiếng nói có vai trò quan trọng đối với việc phát triển các hệ thông tin di động thế
hệthứ3 (3G), với các tính năng ưu việt tập trung trong chiếc máy điện thoại di 
động mà một trong các dịch vụ điển hình là hệthống thông điệp hợp nhất (Unified 
Messaging System - UMS). Sản phẩm vềcác bo mạch của Dialogic đã tích hợp 
các công nghệtổng hợp và nhận dạng tiếng nói qua điện thoại cho nhiều ngôn ngữ
hệLatinh. Ngoài ra, một trong những ứng dụng điển hình và mang tính chất kinh 
điển từtrước tới nay của nhận dạng tiếng phục vụcho điều khiển bằng giọng nói 
và bảo mật, cho tự động hoá văn phòng, những ứng dụng rộng rãi trong viễn 
thông, bảo tồn văn hoá, hỗtrợngười khuyết tật. 
              
                                            
                                
            
 
            
                 121 trang
121 trang | 
Chia sẻ: luyenbuizn | Lượt xem: 1533 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang nội dung tài liệu Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xửlý ngôn ngữ Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 
VIỆN CÔNG NGHỆ THÔNG TIN 
18 Hoàng Quốc Việt, Hà Nội 
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI 
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ 
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ 
TIẾNG VIỆT 
Thời gian thực hiện: 2001- 6/2004 
Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang 
HÀ NÔI, 12/2004 
Bản quyền 2004 thuộc Viện Công nghệ thông tin 
Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến 
Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng 
với mục đích nghiên cứu
 2
VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM 
VIỆN CÔNG NGHỆ THÔNG TIN 
18 Hoàng Quốc Việt, Hà Nội 
BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI 
NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ 
NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ 
TIẾNG VIỆT 
Thời gian thực hiện: 2001- 6/2004 
Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang 
HÀ NỘI, 12/2004 
Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện 
Đề tài cấp Nhà nước mã số KC01-03 
 3
DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH 
TT Họ và tên Chức vụ, 
học vị 
Đơn vị công 
tác 
Nhiệm vụ thuộc đề tài 
1 Bạch Hưng Khang GS.TSKH 
NCVCC 
Viện CNTT Chủ nhiệm đề tài 
2 Ngô Cao Sơn KS Viện CNTT Thư ký 
3 Lương Chi Mai TS. NCVC Viện CNTT Chủ trì nhánh nghiên cứu 
4 Ngô Quốc Tạo PGS. TS. 
NCVC 
Viện CNTT Chủ trì nhánh nghiên cứu 
5 Lê Khánh Hùng TS. Viện 
NCUDCN 
Chủ trì nhánh nghiên cứu 
6 Vũ Kim Bảng TS Trung tâm 
Ngữ âm học 
thực nghiệm 
Chủ trì nhánh nghiên cứu 
7 Hồ Tú Bảo GS. TSKH Viện CNTT Chủ trì nhánh nghiên cứu 
8 Nguyễn Thị Minh 
Huyền 
Thạc sĩ ĐHKHTN 
Hà nội 
Chủ trì nhánh nghiên cứu 
9 Đàm Hiếu Dũng KS Trung tâm 
kỹ thuật 
thông tấn 
Chủ trì nhánh nghiên cứu 
10 Ngô Hoàng Huy KS Viện CNTT Trưởng nhóm 
Đơn vị phối hợp 
 Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án 
TT Tên tổ chức Địa chỉ Hoạt động/đóng góp cho đề tài 
1 Trung tâm Ngữ âm học thực 
nghiệm, Viện Ngôn ngữ học, 
Trung tâm khoa học xã hội 
và nhân văn. 
22 Lý Thái 
Tổ 
Xây dựng CSDL ngữ âm, phân 
tich các đặc trưng ngôn ngữ, ngữ 
âm, thanh điệu cho tiếng Việt: 
- Phân tích phổ của các âm vị 
khó. 
- Nghiên cứu cấu trúc nguyên 
âm. 
- Nghiên cứu cấu trúc âm tiếng 
Việt, tổng hợp giọng nói. 
2 Trug tâm nghiên cứu ứng 
dụng quang điện tử, Viện 
nghiên cứu ứng dụng công 
nghệ. 
C6 Thanh 
xuân bắc, 
Hà nội 
Nghiên cứu và phát triển phương 
pháp dịch tự động Việt - Anh 
3 Khoa Toán – Cơ – Tin học, 
Bộ môn Tin học, ĐHKHTN 
Hà nội 
Nguyễn 
Trãi, Hà nội 
Nghiên cứu phương pháp dóng 
hàng trong các văn bản song ngữ 
Pháp - Việt / Việt – Pháp 
4 Trung tâm kỹ thuật thông tấn 
– TTXVN 
5 Lý 
Thường 
Kiệt 
Xây dựng công nghệ Coding ngữ 
nghĩa của âm thanh 
 4
5 Nhóm nghiên cứu triển khai 
của Công ty NetNam 
18 Đường 
Hoàng Quốc 
Việt 
Tích hợp công nghệ tổng hợp và 
nhận dạng tiếng Việt với các 
dịch vụ số của INTERNET thế 
hệ hai và ứng dụng. 
6 GS John-Paul Hosom, 
CSLU- Center of Spoken 
Language Understanding, 
OGI, USA 
Cascade 
Building 
20000 N.W. 
Walker 
Road 
Beaverton, 
OR 97006 
Cung cấp công cụ và phương 
pháp nhận dạng bằng HMM và 
ANN, CSDL tiếng Việt qua 
mạng điện thoại. 
7 GS Hansjoerg Mixdorff, 
University of Applied 
Science, Berlin 
Steinstr. 27 
A, 12307 
Berlin 
Germany 
Phương pháp và mô hình 
Fujisaki cho các ngôn ngữ có 
thanh điệu 
8 GS Hiroya Fujisaki, Frontier 
Informatics, School of 
Frontier Science, University 
of Tokyo 
7-3-1 
Hongo 
Bunkyo-ku, 
Tokyo 
113003 
Japan 
Phương pháp và mô hình 
Fujisaki cho các ngôn ngữ có 
thanh điệu 
 5
TÓM TẮT 
Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệ đã ý 
thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy 
và người có thể giao tiếp với nhau bằng ngôn ngữ tự nhiên. Trong đó có rất nhiều 
vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp 
người máy là xử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết, 
dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số 
phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn 
ngữ đơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả. 
Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả 
cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt. Ba nội dung chính quan hệ 
chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là: 
1. Nhận dạng và tổng hợp tiếng Việt 
2. Nhận dạng chữ Việt in và viết tay có hạn chế 
3. Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự 
nhiên tiếng Việt, nhằm tới mục đích dịch tự động). 
Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh 
điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận 
dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài 
vừa phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước 
tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều 
có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0, 
phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng 
đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận 
dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần 
mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn 
có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương 
pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô 
hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên. Đề tài cũng đã đóng góp các bài 
nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong 
phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh 
điệu, một mảng chưa có thật nhiều kết quả trên thế giới. 
 6
MỤC LỤC 
1. Lời mở đầu ................................................................................................... 7 
2. Nội dung chính của báo cáo......................................................................... 7 
2.1 Tổng quan tình hình nghiên cứu trong và ngoài nước ......................... 7 
2.2 Những nội dung đã thực hiện ...............................................................10 
2.2.1 Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt ........10 
2.2.1.1 Các kết quả nghiên cứu .......................................................10 
Khảo sát về ngữ âm tiếng Việt...................................................10 
Tổng hợp tiếng Việt ...................................................................11 
Nhận dạng tiếng Việt .................................................................12 
2.2.1.2 Sản phẩm phần mềm ..........................................................17 
Hệ thống Tổng hợp tiếng nói VnVoice 2.0 ...............................17 
Chương trình nhận dạng lệnh VnCommand..............................18 
Chương trình đọc chính tả VnDictator .....................................18 
Chương trình xây dựng công nghệ coding 
ngữ nghĩa của âm thanh .............................................................19 
2.2.1.3 Về triển khai ứng dụng........................................................20 
Ứng dụng của tổng hợp tiếng nói ..............................................20 
2.2.2 Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và 
viết tay tiếng Việt.......................................................................20 
Nhận dạng chữ Việt in VnDOCR 3.0 ........................................22 
Nhận dạng chữ viết tay có hạn chế ............................................22 
2.2.3 Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ 
tự nhiên tiếng Việt ....................................................................24 
2.2.3.1 Dịch tự độngViệt – Anh ......................................................24 
2.2.3.2 Dóng hàng văn bản song ngữ Pháp-Việt.............................26 
2.2.3.2 Mô hình từ điển điện tử .......................................................28 
2.3 Tổng quát hoá và đánh giá kết quả thu được........................................28 
2.4 Kết luận và kiến nghị............................................................................29 
2.5 Tài liệu tham khảo................................................................................31 
 7
1. LỜI MỞ ĐẦU 
Nhận dạng và xử lý ngôn ngữ nói và viết tiếng Việt là nhu cầu thiết yếu của phát 
triển và ứng dụng công nghệ thông tin ở Việt nam. Giới nghiên cứu và công 
nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng 
chục năm qua, gần đây đã thu được nhiều thành tựu quan trọng. Khác với các sản 
phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, chữ viết và ngôn ngữ 
Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở 
tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi thực 
hiện lâu dài. Những năm qua trong khuôn khổ chương trình trọng điểm nhà nước, 
một số kết quả nghiên cứu và sản phẩm về nhận dạng và xử lý tiếng Việt - tập 
trung cho nhận dạng chữ Việt in - đã thành công và bắt đầu được sử dụng rộng rãi. 
Đề tài này nhằm theo đuổi những nghiên cứu và phát triển phải thực hiện lâu dài 
về tiếng Việt trên máy tính với sự triển khai một số phương hướng mới. Mục tiêu 
của đề tài là nghiên cứu làm chủ các phương pháp, kỹ thuật tiên tiến trong một số 
lĩnh vực của trí tuệ nhân tạo và lý thuyết nhận dạng trên thế giới để xây dựng các 
phương pháp hiệu quả cho nhận dạng tiếng nói, chữ viết, và xử lý ngôn ngữ tự 
nhiên tiếng Việt. Đề tài vừa tiếp tục xây dựng các phương pháp và công cụ cơ bản 
vừa từng bước tạo ra một số sản phẩm thiết thực nhằm giải quyết một số bài toán 
cấp bách trong phát triển và ứng dụng công nghệ thông tin ở Việt nam. Ba nội 
dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài là: 
1. Nhận dạng và tổng hợp tiếng Việt 
2. Nhận dạng chữ Việt in và viết tay 
3. Xử lý ngôn ngữ tự nhiên tiếng Việt 
2. NỘI DUNG CHÍNH CỦA BÁO CÁO 
2.1. Tổng quan tình hình nghiên cứu trong và ngoài nước 
Ba lĩnh vực (1) nhận dạng và tổng hợp tiếng nói, (2) nhận dạng chữ, và (3) 
xử lý ngôn ngữ tự nhiên có liên quan mật thiết với nhau, và là nền tảng cho sự phát 
triển và ứng dụng công nghệ thông tin của mọi quốc gia 
Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy 
tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính. 
Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng 
Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một 
xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều 
thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp 
tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh 
như IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Những phần 
mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn 
bản thành lời, duyệt Web bằng giọng nói. Gần đây nhất hãng Microsoft đã công bố 
việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) 
truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh 
 8
Whistler. Kết quả này có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao 
tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ 
giao tiếp với con người bằng những mệnh lệnh đơn giản. Nhận dạng và tổng hợp 
tiếng nói có vai trò quan trọng đối với việc phát triển các hệ thông tin di động thế 
hệ thứ 3 (3G), với các tính năng ưu việt tập trung trong chiếc máy điện thoại di 
động mà một trong các dịch vụ điển hình là hệ thống thông điệp hợp nhất (Unified 
Messaging System - UMS). Sản phẩm về các bo mạch của Dialogic đã tích hợp 
các công nghệ tổng hợp và nhận dạng tiếng nói qua điện thoại cho nhiều ngôn ngữ 
hệ Latinh. Ngoài ra, một trong những ứng dụng điển hình và mang tính chất kinh 
điển từ trước tới nay của nhận dạng tiếng phục vụ cho điều khiển bằng giọng nói 
và bảo mật, cho tự động hoá văn phòng, những ứng dụng rộng rãi trong viễn 
thông, bảo tồn văn hoá, hỗ trợ người khuyết tật... 
Về lĩnh vực nhận dạng chữ, các phần mềm thương phẩm nhận dạng chữ in 
cho các ngôn ngữ hệ Latinh và Slavơ đã đạt được chất lượng nhận dạng rất cao, ví 
dụ như OMNIPAGE 11.0 của Caere (Mỹ), Fine Reader 7.0 của ABBYY (Nga), 
Yonde OCR của Aisoft và KanjiScan (Nhật). Để đạt tới các phiên bản với chất 
lượng cao như vậy, từ hơn 10 năm nay, các hãng phần mềm này vẫn phải liên tục 
cho phát triển hoàn thiện các chức năng nhận dạng cũng như tiền và hậu xử lý. 
Nhưng đối với chữ viết tay trực tuyến hoặc gián tiếp, chất lượng nhận dạng thấp 
hơn nhiều và các phương pháp hiện nay mới chỉ nhận dạng được chữ viết tay có 
hạn chế. Vì vậy trên các tạp chí chuyên ngành về nhận dạng, các chủ đề này vẫn 
còn đang được đề cập đến nhiều với các cách tiếp cận khác nhau, đề cập tới các 
phương pháp cải tiến để tăng chất lượng nhận dạng, tách và cắt chữ, và kết hợp với 
ngữ nghĩa của từng ngôn ngữ cụ thể. 
Xử lý ngôn ngữ tự nhiên là lĩnh vực nhằm làm cho máy tính có thể hiểu và 
sử dụng được ngôn ngữ tự nhiên của con người (cả ngôn ngữ nói và ngôn ngữ 
viết), bao gồm các hệ dịch tự động, tìm kiếm thông tin, tổng hợp văn bản tự động, 
tính toán ngôn ngữ, v.v. 
Dịch văn bản từ một ngôn ngữ qua ngôn ngữ khác bằng máy tính là mơ ước 
từ buổi đầu của công nghệ thông tin. Với thành tựu nghiên cứu về xử lý ngôn ngữ 
tự nhiên bắt đầu từ những năm 60, cùng với sự tiến bộ nhanh chóng của kỹ thuật 
tính toán, việc dịch tự động ngôn ngữ tự nhiên đang được từng bước ứng dụng. 
Hiện nay trên thế giới đã có nhiều hệ dịch máy thương phẩm với chất lượng chấp 
nhận được (SYSTRAN, GLOBALINK, STYLUS, IBM, ...). Các cặp ngôn ngữ đã 
được thực hiện chủ yếu là những ngôn ngữ Âu châu (bao gồm Anh-Pháp, Pháp-
Anh, Anh-Đức, Anh-Tây ban nha, Anh-Nga, Anh-Nhật, Nhật-Anh, v.v. và một số 
sản phẩm dịch một chiều khác). Các sản phẩm dịch tự động được sử dụng phổ biến 
từ những phần mềm cho các hệ máy lớn, trạm làm việc và máy tính cá nhân đến 
những thiết bị dịch tự động chuyên dụng cầm tay. Trên thế giới chưa có thương 
phẩm nào biên dịch Anh-Việt hay Việt-Anh. 
Tình hình nghiên cứu trong nước: 
Nghiên cứu về nhận dạng và ứng dụng đã được tiến hành ở nước ta từ khá sớm. 
Các chương trình trọng điểm quốc gia về tin học, CNTT từ năm 1981 đến nay đều 
có nội dung nghiên cứu về nhận dạng. Đặc biệt từ năm 1991 đến nay, trong 
 9
chương trình khoa học và công nghệ KC-01 (giai đoạn 1991-1995, 1996-2000), 
các vấn đề về Nhận dạng và xử lý thông tin hình ảnh đã được quan tâm và là nội 
dung nghiên cứu chính của đề tài KC-01-10, KC-01-07. Các đề tài đều được 
nghiệm thu đánh giá xuất sắc. Tuy nhiên trong giai đoạn này mới chỉ tập trung nỗ 
lực vào vấn đề nhận dạng chữ (sản phẩm VnDOCR 1.0 và 2.0) và một phần về 
dịch tự động (sản phẩm EVETRAN 1.0), nhận dạng và tổng hợp tiếng nói mới là 
những nghiên cứu thử nghiệm. Mặc dù trên thế giới đã có những bước tiến khá dài 
trong lĩnh vực nhận dạng-tổng hợp tiếng nói, và xử lý ngôn ngữ tự nhiên, ở Việt 
nam vấn đề này chỉ mới được quan tâm và chưa nhiều người nghiên cứu. Trong 
khi đó nhu cầu giao tiếp với máy tính bằng tiếng Việt đang ngày càng cấp thiết bởi 
chúng ta không thể lúc nào cũng sử dụng các phần mềm nhận dạng và tổng hợp 
tiếng nói với ngôn ngữ là tiếng Anh. Nhận dạng, tổng hợp tiếng nói Việt, nhận 
dạng chữ viết Việt, máy hiểu ngôn ngữ Việt không chỉ cần những nghiên cứu cơ 
bản và kỹ thuật chung, mà còn phải dựa trên các đặc trưng ngôn ngữ tiếng Việt. Đã 
có những bước đi ban đầu của một số cơ sở có tiến hành nghiên cứu về lĩnh vực 
này: 
- Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, 
- Trung tâm MICA, Đại học Bách khoa, Hà nội 
- Nhóm nghiên cứu của Bộ môn Khoa học Máy tính, Khoa CNTT, ĐHBK Hà 
Nội, 
- Nhóm nghiên cứu của Khoa Công nghệ Thông tin, Trường Đại học Khoa học 
Tự nhiên, TP. Hồ Chí Minh, 
- Công ty CDIT, Tổng Công ty Bưu chính Viễn thông Việt nam 
- Softext, Viện ứng dụng công nghệ 
và còn một số công trình của các cá nhân làm đề tài thạc sĩ và tiến sĩ. 
Về nhận dạng và tổng hợp tiếng Việt: Trước hết đây là vấn đề khó, đòi hỏi phải 
có tập trung nghiên cứu trong thời gian dài. Trong thời gian qua, các nghiên cứu 
còn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bước đầu tổng hợp 
tiếng Việt dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển 
bằng giọng nói với lượng từ vựng nhỏ để có thể triển khai nhanh, để minh họa và 
thực tế là chưa khai thác đặc điểm riêng của ngữ âm tiếng Việt. Trong đề tài KC-
01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt mới được tiến hành 
nghiên cứu ở hai năm cuối (1999-2000). Vì thế chưa có sản phẩm có khả năng ứng 
dụng rộng rãi chẳng hạn cho các ứng dụng văn phòng hay các ứng dụng trong viễn 
thông. 
Về nhận dạng chữ Việt: Phòng Nhận dạng và Công nghệ tri thức Viện CNTT đã 
bước đầu thành công trong lĩnh vực nhận dạng chữ Việt in, đã và đang phát triển 
phần mềm Nhận dạng VnDOCR 2.0 hiện đang thương mại hoá rộng rãi trên thị 
trường. Cũng như bất kỳ một sản phẩm phần mềm nào, VnDOCR cần được hoàn 
thiện để giải quyết các yêu cầu cao hơn về chất lượng nhận dạng trên các văn bản 
đầu vào xấu hơn, các tài liệu cũ, v.v. Ngoài ra, các khoa Công nghệ Thông tin của 
các trường đại học như Bách khoa Hà nội, Đại học Quốc gia, Đại học KHTN TP 
 10
Hồ Chí Minh cho sinh viên làm luận văn cao học hoặc cử nhân về nhận dạng chữ, 
nhưng đều ở dạng tiếp cận kiến thức, chưa thành dạng thương phẩm. Sản phẩm 
Image Scan của Công ty CadPro cũng có giới thiệu bước đầu trên thị trường. 
Ngoài ra vấn đề nhận dạng chữ viết tay tiếng Việt cũng cần được đặt ra để giải 
quyết cho từng bài toán cụ thể. 
Về xử lý ngôn ngữ tự nhiên tiếng Việt: Các nghiên cứu hướng nhiều vào dịch tự 
động. Sản phẩm phần mềm EVTRAN (Phòng thí nghiệm Công nghệ Phần mềm 
máy tính, Trung tâm Công nghệ vi điện tử và Tin học) biên dịch tự động Anh Việt 
đã có mặt trên thị trường. Hiện nay đã có phiên bản EVTRAN 2.0 với nhiều tính 
năng trợ lý ngôn ngữ thuận tiện. Đây cũng là thương phẩm duy nhất về dịch tự 
động Anh-Việt. EVTRAN đã được phát triển trên mười năm (bắt đầu từ năm 
1990). Sản phẩm đã góp phần hỗ trợ mọi người trong việc đọc hiểu văn bản tiếng 
Anh và biên dịch sang tiếng Việt. Tuy nhiên chưa có hệ dịch cho chiều ngược lại 
(Việt- Anh). Cũng như hấu hết các sản phẩm dịch tự động hiện nay trên thế giới, 
do vấn đề quá khó, EVTRAN còn phải được theo đuổi lâu dài để dần hoàn thiện. 
Điều đáng chú ý là cần chú trọng hơn đến các nghiên cứu và công cụ cơ sở của xử 
lý ngôn ngữ tự nhiên tiếng Việt, như từ điển điện tử, phân tích và hiểu tiếng Việt 
trên máy tính... 
2.2. Những nội dung đã thực hiện 
2.2.1 Kết quả về Tổng hợp và Nhận dạng tiếng Việt 
Khảo sát về ngữ âm tiếng Việt 
Để có thể tiến hành nghiên cứu về tổng hợp cũng như nhận dạng tiếng Việt, đề tài 
ban đầu phải tập trung vào nghiên cứu các khía cạnh ngữ âm của tiếng Việt. Tiếng 
Việt là ngôn ngữ đơn âm (monosyllable) và có thanh điệu (tonal). Tiếng Việt có 6 
thanh theo truyền thống (thanh không, hỏi, ngã, nặng, sắc, huyền), và 8 thanh theo 
ngữ âm học, có khoảng 6.700 âm tiết có nghĩa (trong số hơn 19.000 âm tiết có 
thể). Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định. 
Cấu trúc tổng quát của âm tiết tiếng Việt được trình bày như sau 
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2). Trong đó C1 là 
phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối. Âm đầu thường là 
phụ âm, được gọi là phụ âm đầu. Âm đệm nằm giữa âm đầu và âm chính làm thay 
đổi âm sắc của âm tiết. Âm chính luôn luôn có mặt trong mọi âm tiết và có chức 
năng qui định âm sắc chủ yếu của âm tiết. Âm chính luôn là nguyên âm. Âm cuối 
Thanh điệu
Âm đầu 
Phần vần 
Âm đệm Âm chính Âm cuối 
 11
là phụ âm hoặc là bán nguyên âm, có chức năng là cơ sở để phân chia loại hình âm 
tiết, để nhận ra sự phân bố, xuất hiện của thanh điệu. Âm đầu, âm đệm và âm cuối 
có thể khuyết trong một số trường hợp. Thanh điệu luôn có mặt trong âm tiết và có 
chức năng khu biệt âm tiết về cao độ và thanh điệu là yếu tố siêu đoạn tính. 
Để xây dựng CSDL âm (cho hai giọng Nam và Nữ chuẩn Hà nội), chia phần vần 
thành các nhóm đặc trưng, thu mẫu âm thanh, đo số liệu Pitch bằng máy 
Sonagraph, từ đó rút ra số liệu đặc trưng cho 8 thanh tiếng Việt. Đề tài đã tập trung 
phân tích âm tiết tiếng Việt, cụ thể phân tích ảnh hưởng thanh điệu của phụ âm dấu 
hữu thanh, nguyên âm chính, phụ âm cuối; phân tích các yếu tố âm như sự tắc 
họng, yếu tố định lượng như trường độ (duration). 
Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và 
155 phần vần không dấu, với các phân tích trên: 
• 22 phụ âm đầu chia thành 4 nhóm: 
+ vô thanh (stop, voiceless): p, t, k-c-q 
+ âm xát (fricative): ph, x, kh, h, v, d, đ, ch, ng-ngh, g-gh, th 
+ âm vang (resonant or cororal): m, n, nh, l 
+ âm bật đầu lưỡi (retroflex): tr, s, gi, r 
• 20 phần chính: 
+ âm đệm (zero-/u/) + nguyên âm chính: a, ă, â, e, ê, i, ia, iê, o, oa, oe, ơ, 
ô, u, uâ, uyê, uyu, uô, ư, ươ. 
• 155 phần vần: 
+ Thu phần vần với thanh không dấu và không tận cùng bởi tắc vô thanh, 
khoảng gần 100 vần 
+ Thu phần vần với các thanh sắc (acute-mark) cho các âm tận cùng là là 
p, t, k, khoảng 55 vần 
2.2.1.1 Tổng hợp tiếng Việt 
Trong thời gian thực hiện Đề tài, đã nghiên cứu 3 phương pháp tổng hợp tiếng 
Việt: 1/ghi âm thuần tuý (cho toàn bộ từ điển); 2/ kết nối các đơn vị âm cơ bản của 
ngôn ngữ (các âm cơ bản được ghi sẵn) để tạo thành một mẫu âm thanh cho âm 
tiết bất kỳ (số đơn vị cơ bản là rất nhỏ, không hạn chế số lượng từ), 3/ tái tạo lại 
tiếng trên cơ sơ phân tích các tham số âm học của tiếng nói (như các phooc măng, 
tần số cơ bản). Sau khi nghiên cứu, đề tài đã lựa chọn phương pháp kết nối các đơn 
vị âm cơ bản của ngôn ngữ (PSOLA – Pitch Synchronize OverLap Adding), là 
bước đầu nghiên cứu để tìm hiểu bản chất của âm tiết và có thể tạo ra sản phẩm 
nhằm đưa tới các định hướng ứng dụng cụ thể, đã tiến hành lựa chọn biểu diễn nhỏ 
nhất có thể cho tiếng Việt. Với cách lựa chọn giải pháp trên, vấn đề đặt ra là 
nghiên cứu tổng hợp tiếng nói ở mức từ & cụm từ tiếng Việt. Các vấn đề nghiên 
cứu và các công cụ sau đã được được thực hiện và phát triển nhằm giải quyết vấn 
đề trên: 
− Nghiên cứu các bộ đơn vị khác nhau cho tổng hợp tiếng Việt, 
− Tìm kiếm từ và gán nhãn từ loại, tích hợp phần phân đoạn từ trong câu tiếng 
Việt, 
 12
− Phân tích hiện tượng từ láy trong ngôn ngữ tiếng Việt, 
− Lập bộ các mẫu của cặp các thanh điệu của một từ, 
− Khảo sát ban đầu các quy luật về khoảng lặng giữa các từ, giữa các âm tiết, 
− Phân tích hiện tượng biến thanh khi phát âm một từ đôi, từ ba, 
− Đang tích hợp thuật toán kết nối các âm tiết trong một từ để thể hiện khả năng 
đọc dính âm. 
Kết quả của các nghiên cứu trên đã làm tăng chất lượng tiếng nói tổng hợp so với 
các phiên bản tiếng nói tổng hợp đầu tiên của đề tài. Hiện tại chất lượng tiếng nói 
tổng hợp trong phiên bản hiện tại đã đạt khoảng 75-80% tiếng nói tự nhiên (xem 
đánh giá). Trong giai đoạn nghiên cứu tiếp theo, để có thể tiến tới giải quyết vấn 
đề ngôn điệu (prosody), đề tài đang nghiên cứu mô hình Fujisaki, một mô hình đã 
được chứng tỏ có hiệu quả cho các ngôn ngữ có thanh điệu. 
− Ghi bộ dữ liệu âm cho tổng hợp tiếng Việt 
• Lựa chọn các mẫu cộng tác viên (CTV) nói giọng Hà Nội (21 người đọc); 
• Ghi âm theo tiêu chuẩn phân tích: 21 CTV x 3 lần người x 9 nguyên âm; 
• Phân tích hệ Phooc măng của 21 CTV theo tần số (Hz). 
• Tổng kết hệ Phooc măng của nguyên âm tiếng Việt phục vụ cho tổng hợp 
tiếng Việt bằng phương pháp Phooc măng. 
Sản phẩm phần mềm: Hệ thống Tổng hợp tiếng nói VnVoice 2.0 
Phương pháp 
Hệ thống tổng hợp tiếng nói (từ văn bản chữ in tiếng Việt thành tiếng nói) dựa trên 
kỹ thuật PSOLA - Pitch Synchronize OverLap Adding với bộ đơn vị âm đủ nhỏ 
cho phép thực hiện nhanh việc tạo CSDL âm và có khả năng tích hợp vào các ứng 
dụng nhúng. Với phiên bản VnVoice 2.0, CSDL âm bao gồm 19 phụ âm đầu có 
tính ngữ cảnh, 12 nguyên âm chính, hơn 700 vần với đầy đủ thanh, tổng số hơn 
900 đơn vị. Phiên bản VnVoice 1.0 có CSDL gồm 330 đơn vị, gồm 19 phụ âm đầu 
có tính ngữ cảnh 12 nguyên âm chính và 163 vần không mang thanh hoặc vần 
mang thanh sắc cho các vần kết thúc bằng p,t,c-ch, với bộ đơn vị này chương trình 
phải thay đổi F0 để tạo các thanh khác nhau từ vần gốc. 
• Dựa trên phương pháp ghép nối các đơn vị âm cơ bản, sử dụng phương 
pháp PSOLA (khoảng 900 đơn vị) dung lượng bộ nhớ 6MB RAM 
• Tổng hợp được tất cả các thanh tiếng Việt, bao gồm cả thanh ngã và thanh 
nặng. 
• Đọc các khuôn dạng phi từ: biểu thức số, ngày tháng, giờ điện tử, t
            Các file đính kèm theo tài liệu này:
 34 (1).pdf 34 (1).pdf