Xử lý ngôn ngữ tự nhiên

Vấn đề để hiểu được lời nói hành động giống như việc hiểu các vấn đề khác, tương tự

như việc hiểu hình ảnh hoặc chẩn đoán y học. Chúng ta đưa ra một tập các đầu vào đa

nghĩa và từ đó chúng ta làm ngược lại để quyết định trạng thái nào của thế giới có thể

được tạo ra đầu vào. Hiểu được vấn đề của lời nói hành động là phần đặc tả của ngôn

ngữ. Một phần của hiểu vấn đề có thể giải thích bằng các lí do logic. Chúng ta nhận thấy

rằng các chuỗi logic liên kết lại là cách tốt để mô tả cách mà các từ và các cụm từ phối

hợp để tạo ra một cụm từ lớn. Phần khác của việc hiểu vấn đề có thể chỉ được giải thích

bởi các lí do kĩ thuật không rõ ràng. Thông thường có nhiều trạng thái của thế giới mà

tất cả đều hướng dẫn đến một lời nói hành động tương tự, vì vậy người hiểu phải quyết

định cái mà nó dễ xảy ra hơn.

pdf31 trang | Chia sẻ: Mr Hưng | Ngày: 07/09/2016 | Lượt xem: 30 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Xử lý ngôn ngữ tự nhiên, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
, trong các ứng dụng xử lý tiếng nói người ta thường chia tiếng nói thành nhiều đoạn có thời gian bằng nhau được gọi là khung (frame), mỗi khung có độ dài từ 10 đến 30 ms. Phát hiện tiếng nói Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi khoảng lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong chế độ thời gian thực. Phần này trình bày ba phương pháp phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn SE (Short Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing). Xử lý ngôn ngữ tự nhiên 17/31 Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn. Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với một hàm cửa sổ W(n).Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng thời gian ngắn Em được xác định như sau: Trong đó: n: biểu thức rời rạc; m:số mẫu thử thứ m; N: là tổng số mẫu tiếng nói Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau: Thuật toán xác định điểm đầu và điểm cuối tiếng nói theo phương pháp này: Xử lý ngôn ngữ tự nhiên 18/31 Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không Thuật toán này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo-Energy) và tỷ lệ vượt quá điểm không ZCR (Zero Crossing Rate) . Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm không là điểm tại đó diễn ra sự đổi dấu cường độ tín hiệu và được mô tả bởi: sgn[x(n+1)] ≠ sgn[x(n)] trong đó, sgn(.) là hàm dấu Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh. Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử dụng hàm giả năng lượng trong tính toán. Hàm giả năng lượng được xác định bởi: trong đó; E∧(n) : là hàm giả năng lượng, N: là kích thước khung cửa sổ. Tỷ lệ vượt quá điểm không ZCR Ta thấy, khung có năng lượng càng cao thì tỷ lệ vượt quá điểm không càng thấp và ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt quá điểm không. Kí hiệu: E Up : ngưỡng năng lượng trên (cao); Edown : ngưỡng năng lượng dưới (thấp); ZCR _ T : ngưỡng tỷ lệ vượt quá điểm không. Thuật toán này được mô tả như sau : Xử lý ngôn ngữ tự nhiên 19/31 Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dò biên tiếng nói VAD (Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạn fE trên các khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có thể cả nhiễu) v [m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0. Thuật toán được mô tả như sau: Xử lý ngôn ngữ tự nhiên 20/31 Phương pháp này ngăn việc phân loại sai của phụ âm sát và tiếng nói ở cuối tín hiệu tiếng nói. Các phương pháp trích chọn tham số đặc trưng của tín hiệu tiếng nói Trích chọn các tham số đặc trưng là bước có ý nghĩa quyết định tới kết quả của các chương trình nhận dạng tiếng nói. Có nhiều phương pháp trích chọn các tham số đặc trưng nhưng nhìn chung các phương pháp này dựa trên hai cơ chế: Xử lý ngôn ngữ tự nhiên 21/31 Mô phỏng lại quá trình cảm nhận âm thanh của tai người. Mô phỏng lại quá trình tạo âm của cơ quan phát âm. Phân tích cepstral theo thang đo mel Phương pháp tính các hệ số MFCC là phương pháp trích chọn tham số tiếng nói được sử dụng rộng rãi bởi tính hiệu quả của nó thông qua phân tích cepstral theo thang đo mel. Phương pháp được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần số khác nhau. Với các tần số thấp (dưới 1000 Hz), độ cảm nhận của tai người là tuyến tính. Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến tính ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích chọn các đặc trưng âm học quan trọng của tiếng nói. Mô hình tính toán các hệ số MFCC được mô tả như Hình 7. Sơ đồ tính toán các hệ số MFCC Ý nghĩa và phương pháp xác định tham số ở các khối trong sơ đồ trên mô tả như sau: Khối 1: Bộ lọc hiệu chỉnh (Preemphasis) Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảm ảnh hưởng gây ra cho các xử lý tín hiệu sau này. Thường bộ lọc này cố định bậc một, có dạng: H(z) = 1- az 1− 0.9≤ a≤ 1.0 Quan hệ giữa tín hiệu ra với tín hiệu vào tuân theo phương trình Giá trị a thường được chọn là 0.97. Xử lý ngôn ngữ tự nhiên 22/31 Khối 2: Phân khung (Frame Blocking) Trong khối này tín hiệu hiệu chỉnh s(n) được phân thành các khung, mỗi khung có N mẫu; hai khung kề lệch nhau M mẫu. Khung đầu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu. Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M mẫu) và chờm lên khung thứ nhất N-2M mẫu. Quá trình này tiếp tục cho đến khi tất cả các mẫu tiếng nói cần phân tích thuộc về một hoặc nhiều khung. Khối 3: Lấy cửa sổ (Windowing) Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của tín hiệu tiếng nói tại đầu và cuối mỗi khung. Nếu w(n), 0 ≤ n ≤ N-1, sau khi lấy cửa sổ được: Thông thường, của sổ Hamming được sử dụng. Cửa sổ này có dạng: Khối 4: Biến đổi Fourier rời rạc (FFT) Tác dụng của FFT là chuyển đổi mỗi khung với N mẫu từ miền thời gian sang miền tần số. FFT là thuật toán tính DFT nhanh. DFT được xác định Khối 5: Biến đổi sang thang đo Mel trên miền tần số Như đã nói ở trên, tai người không cảm nhận sự thay đổi tần số của tiếng nói tuyến tính mà theo thang Mel. Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000 Mel. Do đó, công thức gần đúng biểu diễn quan hệ tần số ở thang mel và thang tuyến tính như sau: Xử lý ngôn ngữ tự nhiên 23/31 Các băng lọc tam giác theo thang tần số Mel Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc (Hình 4.6), trong đó mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20 băng. Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng nói). Nhưng cũng có thể một dải tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng để lọc đi các tần số không cần thiết cho xử lý. Chẳng hạn, trong xử lý tiếng nói qua đường điện thoại có thể lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400. Sau khi tính FFT ta thu được phổ tín hiệu (fn). Thực chất đây là một dãy năng lượng . Cho W(n) qua một dãy K băng lọc dạng tam giác, ta được một dãy các . Tính tổng của các dãy trong từng băng lọc, ta thu được một dãy các hệ số Khối 6: Biến đổi Cosine rời rạc (DCT) Trong bước này ta sẽ chuyển log của các giá trị về miền thời gian bằng cách biến đổi Cosine rời rạc (DCT). Kết quả của phép biến đổi này ta thu được các hệ số MFCC. Thông thường, chỉ có một số giá trị đầu tiên của ic được sử dụng. Trong các ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng của khung sau khi đã được chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như vậy tổng cộng có Q=13 hệ số). Khối 7: Cepstral có trọng số Vì độ nhạy của các hệ số cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc, độ nhạy của các cepstral bậc cao gây ra nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu hóa độ nhạy này. Công thức biểu diễn các hệ số cepstral có trọng số: Xử lý ngôn ngữ tự nhiên 24/31 Khối 8: Lấy đạo hàm các hệ số MFCC theo thời gian Để nâng cao chất lượng nhận dạng, người ta đưa thêm các giá trị đạo hàm theo thời gian của cácgiá trị hệ số MFCC vào vector hệ số tiếng nói. Các giá trị đó được tính theo: trong đó; θ: là độ dài cửa sổ tính delta (thường chọn là 2 hoặc 3). Kết thúc các bước trên với mỗi khung ta thu được một vector có 2Q thành phần biểu diễn tham số đặc trưng của tiếng nói. Phương pháp mã dự đoán tuyến tính LPC Mô hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng nói. Kết quả của quá trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng nói. Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học. Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ hợp tuyến tính của các mẫu trước đó. Thông qua việc tối thiểu hóa tổng bình phương sai số giữa các mẫu hiện tại với các mẫu dự đoán có thể xác định được một tập duy nhất các hệ số dự báo. Các hệ số s(n) dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính. Với dãy tín hiệu tiếng nói,giá trị dự báo được xác định bởi: trong đó;αk: là các hệ số đặc trưng cho hệ thống. Xử lý ngôn ngữ tự nhiên 25/31 Sơ đồ bộ xử lý LPC dùng trích chọn đặc trưng tiếng nói Sơ đồ khối bộ phân tích LPC dùng cho trích chọn các tham số đặc trưng của tín hiệu tiếngnói (Hình 4.7). Hàm sai số dự báo được tính theo công thức: Để cực tiểu hóa lỗi cần tìm tập giá trị {αk} phù hợp nhất. Do tín hiệu tiếng nói thay đổi theo thời gian nên các hệ số dự báo phải được ước lượng từ các đoạn tín hiệu ngắn. Vấn đề đặt ra là tìm một tập các hệ số dự báo để tối thiểu hóa sai số trung bình trên một đoạn ngắn. Hàm lỗi dự báo trong một thời gian ngắn xác định bởi: trong đó; sn(m) : là một đoạn tín hiệu tiếng nói lân cận mẫu thứ n; Tìm tập giá trị α k để tối thiểu hóa E bằng cách với I =1,2,,p từ đó nhận được phương trình: Xử lý ngôn ngữ tự nhiên 26/31 Đặt: Phương trình trên có thể viết: Phương pháp PLP Phương pháp này là sự kết hợp của hai phương pháp đã trình bày ở trên. Hình 10 mô tả các bước xác định hệ số PLP. Sơ đồ các bước xác định hệ số PLP Các khối xử lý ♦ Khối 1: Biến đổi Fourier nhanh (FFT) Tương tự như phương pháp MFCC, tín hiệu tiếng nói được chia thành các khung và được chuyển sang miền tần số bằng thuật toán FFT. ♦ Khối 2: Lọc theo thang tần số Bark Tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong trường hợp này là thang tần số Bark: Xử lý ngôn ngữ tự nhiên 27/31 ♦ Khối 3: Nhấn mạnh tín hiệu dùng hàm cân bằng đường xong cân bằng độ ồn (equal- loudnes) bằng độ ồn (Equal-Loudnes).Bước này tương tự nhấn mạnh (preemphasis) của phương pháp MFCC.Hàm này mô phỏng: ♦ Khối 4: Dùng luật cường độ nghe (Power Law of Hearing) Bước xử lý này giống như bước lấy giá trị logarit trong phương pháp MFCC. Hàm căn lập phương được dùng có dạng: ♦ Khối 5: Biến đổi Fourier ngược (Inverse DFT) Các hệ số tự tương quan được biến đổi Fourier ngược là giá trị đầu vào cho LPC. ♦ Khối 6: Thuật toán Durbin Thuật toán Durbin được sử dụng để tính các hệ số dự báo tuyến tính như phương pháp LPC . ♦ Khối 7: Tính các giá trị delta Phương pháp tính tương tự như phương pháp hệ số MFCC. Phương pháp ứng dụng trí tuệ nhân tạo cho xử lý và nhận dạng tiếng nói có thể tham khảo thêm các tai liệu trích dẫn trong tài liêu.. CÁC HỆ THỐNG HỘI THOẠI Chúng ta quan tâm đến những gì xảy ra bên trong của một đối tượng - từ khi nó nhận được một kết quả của tri thức đến khi đối tượng này quyết định một hành động. Trong phần này chúng ta tập trung vào giao diện giữa đối tượng và môi trường. Kết quả chúng ta có được sự nhận thức: thị giác, thính giác và có thể nhiều giác quan khác, ở một kết quả khác chúng ta có hành động: sự cử động của một cánh tay robot chẳng hạn. Xử lý ngôn ngữ tự nhiên 28/31 Mặc dù bao trùm lên phần này là đối thoại. Một nhóm đối tượng có thể thành công hơn, cá thể hay tập thể nếu họ đối thoại với nhau về mục tiêu và sự hiểu biết của mình. Chúng ta sẽ xem xét một cách chặt chẽ ngôn ngữ nhân loại và ngôn ngữ này được sử dụng như là một công cụ đối thoại. Con người sử dụng một số hữu hạn các ký hiệu quy ước (mỉm cười, bắt tay) để giao tiếp tương tự như hầu hết các động vật khác. Con người cũng có thể phát triển một hệ thống các kí hiệu có kiến trúc phức tạp được biết như là ngôn ngữ mà có thể sử dụng chúng để đối thoại trong hầu hết những gì mà họ biết về thế giới. Trong các hệ cơ sở tri thức, đặc biệt hẹ chuyên gia, các hệ thống đối thoai giữa ngươi và máy đươc thiết lập và là một khâu rất cần thiết để xử lý thông tin, Học viên có thể tham khảo thêm phần này ở các tài liệu trích dẫn kèm theo TỪ ĐIỂN ĐIỆN TỬ Bước đầu tiên trong việc định nghĩa ngữ pháp là định nghĩa một từ điển ngôn ngữ, hoặc danh sách các từ vựng có thể cho phép. Các từ được nhóm lại vào những phạm trù hoặc những phần của lời nói quen thuộc đến từ điển người dùng: danh từ, đại từ, và tên để biểu thị chúng, động từ để biểu thị một sự kiện, tính từ để bổ nghĩa cho danh từ, trạng từ bổ nghĩa cho động từ. Hình 11 cho một từ điển ngôn ngữ nhỏ. Từ điển ngôn ngữ Mỗi một phạm trù đều kết thúc để biểu thị rằng có những từ khác ở trong phạm trù này. Tuy nhiên chú ý rằng có hai lý do khác biệt cho việc mất từ. Đối với danh từ, động từ, tính từ và trạng từ, nó là nguyên tắc cơ bản bất khả thi để hiển thị tất cả chúng. Không những có hàng ngàn hoặc hàng chục ngàn thành viên trong mỗi lớp, mà mỗi một loại mới luôn luôn được bổ sung thêm vào. Ví dụ, ngày nay “fax” là một danh từ và động từ phổ biến nhưng nó chỉ được đặt ra trong vài nănm trước. Có bốn phạm trù được gọi là Xử lý ngôn ngữ tự nhiên 29/31 lớp mở. Những phạm trù khác (đại từ, quán từ, giới từ, và liên từ) được gọi là lớp đóng. Chúng thường có một số lượng nhỏ các từ (một vài từ đến một vài nhóm từ) mà nó có thể được liệt kê theo quy tắc. sự thay đổi lớp đóng diễn ra trong hàng thế kỷ , không phải hàng tháng. Ví dụ “thee” và “thou” thường được sử dụng làm ại từ trong thế kỷ XVII, bị suy tàn vào thế kỷ XIX, và ngày nay nó chỉ được thấy trong thơ ca và ngôn ngữ địa phuơng. Ngữ pháp Bước tiếp theo là phối hợp các từ trong cụm từ. chúng ta vẫn sử dụng năm biểu tượng nonterminal để định nghĩa sự khác nhau của cụm từ: câu (S), cụm danh từ (NP), cụm động từ (VP), cụm giới từ (PP), và mệnh đề quan hệ (Rel Clause)(4). Hình 12 xét một ngữ pháp cho ε0 với một ví dụ cho mỗi một quy luật viết lại. Ngữ pháp cho từđiển, với cụm từ ví dụ cho mỗi quy luật CÂU HỎI VÀ BÀI TẬP Không xem lại bài trả lời các câu hỏi sau: bốn lớp được nhắc đến của ngữ pháp hình thức? Thực hiện một phiên bản của giải thuật biểu đồ phân tích cú pháp mà kết quả là một cây cho tất cả cạnh mà mở rộng cho toàn bộ đầu vào. Trình bày phương pháp phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn . Xử lý ngôn ngữ tự nhiên 30/31 Trình bày phương pháp tính các hệ số MFCC: phương pháp trích chọn tham số tiếng nói được sử dụng rộng rãi bởi tính hiệu quả của nó thông qua phân tích cepstral theo thang đo mel. Trình bày phương pháp mã dự đoán tuyến tính LPC. Xử lý ngôn ngữ tự nhiên 31/31

Các file đính kèm theo tài liệu này:

  • pdfxu_ly_ngon_ngu_tu_nhien_1305.pdf
Tài liệu liên quan