Mỗi từtrong một ngôn ngữnói chung đôi khi có thểgắn với nhiều từloại và việc 
giải thích đúng nghĩa một từphụthuộc vào việc nó được xác định đúng từloại hay 
không. Công việc gán nhãn từloại cho một văn bản là xác định từloại của mỗi từ
trong phạm vi văn bản đó, tức là phân loại các từthành các lớp từloại dựa trên 
thực tiễn hoạt động ngôn ngữ[abc].Việc gán nhãn từloại thường được thểhiện 
bằng cách đánh dấu cho mỗi từmột “nhãn” có sẵn theo tập nhãn cho trước, “nhãn” có 
thể được nhận biết bằng cách viết hoa và đi liền với từmà nó xác định, hoặc phân cách 
với từmà nó xác định bằng dấu “/”. 
• Input: Một chuỗi các từvà tập nhãn từloại (Ví dụnhưchuỗi các từ“Book that 
flight.” và tập nhãn từloại Penn Treebank của tiếng Anh.) 
• Output: Một nhãn tốt nhất cho từng từtrong chuỗi từ đã được đưa ra (Ví dụ:, 
đối với chuỗi từ“Book that flight.”thì nhãn thích hợp tương ứng cho từng từsẽ
là Book/VB that/DT flight/NN ./.) 
Gán nhãn từloại là một công việc quan trọng và bắt buộc phải có đối với hầu hết 
các ứng dụng xửlý ngôn ngữtựnhiên. Nếu coi quá trình xửlý ngôn ngữtựnhiên gồm 
các bước: tiền xửlý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ
nghĩa thì gán nhãn từloại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ
phân tích câu thành một bảng các từ(hay cụm từ) riêng biệt, đồng thời kèm theo tất cả
các thông tin vềtừ đó, nhưlà: từloại (part-of-speech), phạm trù ngữpháp (category), 
các biến cách của từ, tiền tố, hậu tốcủa từ(nếu có). [abc]
              
                                            
                                
            
 
            
                 57 trang
57 trang | 
Chia sẻ: luyenbuizn | Lượt xem: 1216 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 1
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
Lê Hoàng Quỳnh 
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO 
BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY 
Ngành: Công nghệ thông tin 
HÀ NỘI - 2009 
 2
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
Lê Hoàng Quỳnh 
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO 
BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY 
Ngành: Công nghệ thông tin 
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy 
Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh 
H NI - 2009 
 3
Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 
1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ 
tự nhiên 
Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc 
giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay 
không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ 
trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên 
thực tiễn hoạt động ngôn ngữ [abc]. Việc gán nhãn từ loại thường được thể hiện 
bằng cách đánh dấu cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước, “nhãn” có 
thể được nhận biết bằng cách viết hoa và đi liền với từ mà nó xác định, hoặc phân cách 
với từ mà nó xác định bằng dấu “/”. 
• Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that 
flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.) 
• Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:, 
đối với chuỗi từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ sẽ 
là Book/VB that/DT flight/NN ./.) 
Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết 
các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm 
các bước: tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ 
nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ 
phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả 
các thông tin về từ đó, như là: từ loại (part-of-speech), phạm trù ngữ pháp (category), 
các biến cách của từ, tiền tố, hậu tố của từ (nếu có). [abc] 
1.2. Các vấn đề cơ bản của bài toán gán nhãn từ loại 
Nếu một từ chỉ có một nhãn và ta có thể xây dựng được một từ điển hữu hạn các 
từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gán nhãn từ 
loại một cách tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều hơn một 
từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có thể xuất hiện 
trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt: 
Nhập nhằng từ loại và từ mới. 
 4
Vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập 
nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể, 
nó chỉ có thể có một từ loại đúng mà thôi. [abc] 
Ví dụ: 
• Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại 
như sau: 
I/PRO can/AUX can/V a/DET can/N”. 
• Trong hai câu sau đây, từ “race” được gán nhãn khác nhau: 
- Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN 
- People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT 
race/NN for/IN outer/JJ space/NN 
Đây là một vấn đề rất phức tạp và tồn tại trong hầu như tất cả mọi ngôn ngữ mà 
ta không thể tránh được, lấy ví dụ như trong tập từ vựng Brown và tập thẻ Brown của 
nó trong tiếng Anh thì có 35340 từ không có nhập nhằng (tức là một từ chỉ có đúng 
duy nhất một nhãn trong mọi trường hợp), và 4100 từ chứa nhập nhằng (tức là một từ 
có thể có từ 2 đến 7 nhãn trong các ngữ cảnh khác nhau) – Kết quả này do Derose tổng 
kết năm 1988 [abc], chi tiết cho ở bảng 1 dưới đây: 
Bảng 1. Tổng kết số nhãn có thể có của một từ trong tập từ vựng Brown 
Số nhãn 1 2 3 4 5 6 7 
Số từ 35340 3760 264 61 12 2 1 
Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến 
ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông 
tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại. 
Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ 
“lạ” mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trong 
trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để 
chuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word) [abc]. 
 5
1.3. Tập nhãn từ loại 
Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa 
khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện 
những chức năng ngữ pháp nhất định ở trong câu (Đinh Văn Đức. Ngữ pháp tiếng Việt 
– Từ loại [abc]). Trong thực tế, các tập nhãn sử dụng cho việc gán nhãn từ loại thường 
được xây dựng và phát triển từ các lớp cơ bản là các lớp từ đóng (Closed word class, 
function word class, còn được gọi là các từ chức năng , là một tập cố định và không 
thể mở rộng, các lớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ: 
giới từ, mạo từ, đại từ, số đếm, ...) và các lớp từ mở (Open class, là các lớp từ có khả 
năng mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác. Có 4 
lớp tử mở chính là danh từ - nouns, động từ - verb, tính từ - adjective và một phần của 
phó từ - [adverb]). Thường thì một lớp từ sẽ được chia thành nhiều từ loại theo các đặc 
tính riêng nào đó. 
Chỉ xét riêng đối với Tiếng Anh, cho đến hiện nay đã có rất nhiều tập nhãn từ 
loại khác nhau được xây dựng và sử dụng [abc]. 
Hình 1. Một số tập nhãn từ loại cho Tiếng Anh 
 Có thể kể đến một số tập nhãn từ loại điển hình như: 
+ Brown corpus (Francis, 1979; Francis and Kucera, 1982): 87 nhãn 
+ Penn Treebank (Marcus et al., 1993): 45 nhãn 
 6
Bảng 2. Tập nhãn từ loại Penn Treebank 
+ Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus; 
Garside et al., 1997): 61 nhãn 
+ Lancaster C7: 145 nhãn 
Việc chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãn từ loại. 
Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể không đủ 
đáp ứng cho một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộc vào 
từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng dụng 
đó đòi hỏi. Như vậy, cần phải có sự cân đối giữa: 
• Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, 
chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt). 
• Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại 
càng ít càng dễ tiến hành). 
 7
Tức là cần phải có một sự thoả hiệp để xây dựng được một bộ nhãn (bộ chú 
thích, bộ thẻ) từ loại không quá lớn và có chất lượng. 
Đối với tiếng Việt, việc thiết kế một tập nhãn từ loại còn vấp phải một vấn đề 
lớn, đó là ngay trong tiếng Việt thì vấn đề từ loại vẫn còn gây nhiều tranh cãi. Theo 
Diệp Quang Ban [abc], việc phân định từ loại phải dựa trên các tiêu chí sau đây: 
• Tiêu chuẩn 1 - Ý nghĩa khái quát của từ. Các từ loại là những nhóm từ rất to lớn 
về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm 
chất, hành động hoặc trạng thái … Ví dụ, những từ như: nhà, bàn, học sinh, 
con, quyển, sự … được phân vào lớp danh từ, vì ý nghĩa từ vựng của chúng 
đượi khái quát hóa và trừu tượng hóa thành ý nghĩa thực thể - ý nghĩa phạm trù 
ngữ pháp của danh từ. 
• Tiêu chuẩn 2 - Khả năng kết hợp với các từ ngữ khác trong ngữ lưu. Với ý 
nghĩa khái quát, các từ có thể có khả năng tham gia vào một kết hợp có nghĩa. 
Ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế 
nhau, trong khi đó, ở các vị trí khác nhau trong kết hợp, các từ còn lại tạo ra bối 
cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên. Những từ cùng 
xuất hiện trong cùng một bối cảnh, có khả năng thay thế nhau ở cùng một vị trí, 
có tình chất thường xuyên, được tập hơn vào một lớp từ. Vận dụng vào tiếng 
Việt, những từ; nhà, bàn, cát, đá … có thể xuất hiện và thay thế nhau trong kết 
hợp kiểu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lớp danh từ. 
Chúng không thể xuất hiện và thay thế cho nhau trong kết hợp kiểu: hãy ăn, hãy 
mua, ăn xong, mua xong … vốn là kiểu kết hợp của động từ. 
• Tiêu chuẩn 3 - Chức năng ngữ pháp. Tham gia vào cấu tạo câu, các từ có thể 
đứng ở một hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở vị 
trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành 
phần khác trong cấu tạo câu, có thể phân vào một từ loại. Ví dụ, các từ; nhà, 
bàn, cát, đá … có thể đứng ở nhiều vị trí trong câu. Chúng có thể thay thế nhau 
ở những vị trí đó, và có quan hệ về chức năng giống nhau với các thành phần 
khác trong câu ở mỗi vị trí, nhưng thường ở vị trí chủ ngữ trong quan hệ với vị 
ngữ. Chủ ngữ và vị ngữlà hai chức năng cú pháp cơ bản, chức năng chủ ngữ là 
chức năng cú pháp chủ yếu để phân loại các từ nói trên vào lớp danh từ; còn 
chức năng vị ngữ lại là chức năng cú pháp chủ yếu của các động từ và tính từ 
… 
 8
Có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ 
loại tiếng Việt [abc]: 
• Loại thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được 
các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, 
động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn 
“mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại. Việc phân 
nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp 
tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ 
sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc 
nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội 
động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú 
pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ 
dừng ở mức thô hay mịn khác nhau. Hiện nay, ở Việt Nam đã có một số tập 
nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn 
VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và 
các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho 
từ không phân loại được, … Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây 
dựng bởi nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag 
gồm 48 nhãn và 01 nhãn không xác định. 
• Loại thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho 
ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn 
từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh 
sang Việt. Tiêu biểu là trong nghiên cứu “Gán nhãn từ loại tự động cho Tiếng 
Việt” của nhóm tác giả Đinh Điền xây dựng tập nhãn quy chiếu từ tập nhãn 
tiếng Anh Brown Corpus. 
1.4. Quá trình gán nhãn từ loại 
Quá trình gán nhãn từ loại có thể chia làm 3 bước [abc]: 
• Giai đoạn tiền xử lý: phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có 
thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. 
Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa 
vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây 
tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không 
 9
phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ 
ghép rất cao. 
• Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có 
thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu 
đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu 
thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong 
các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán 
nhận lớp từ loại tương ứng của từ đang xét. 
• Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa 
chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo 
nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân 
biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là 
phương pháp Brill và các phương pháp xác suất. Ngoài ra còn có các hệ thống 
sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và 
ràng buộc ngữ pháp, gán nhãn nhiều tầng. 
Hình dưới đây cho ta mô hình tổng quát cho bài toán gán nhãn từ loại [abc]: 
Hình 2. Mô hình tổng quát của bài toán gán nhãn từ loại 
Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt 
độ chính xác cao (Khoảng hơn 97%), bên cạnh việc hoàn thiện hơn nữa các bộ gán 
nhãn đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả tiến gần tới mức 
tối ưu. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình 
(như tiếng Trung Quốc, Nhật, Hàn Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập, 
Thái Lan … cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn là một thách 
 10
thức lớn, các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho 
Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả 
thấp hoặc chưa đáp ứng được nhu cầu ứng dụng. Như vậy, yêu cầu đặt ra với từng 
ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh 
hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với đặc điểm riêng của từng 
ngôn ngữ. 
1.5. Ứng dụng của bài toán gán nhãn từ loại 
• Như đã nói ở phần 1.1, gán nhãn từ loại thuộc vào bước phân tích hình thái 
trong xử lý ngôn ngữ tự nhiên. Đây là bước tiền xử lý cho các phần tiếp theo 
trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ 
nghĩa, … 
Hình 3. Các bước xử lý ngôn ngữ tự nhiên 
• Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích 
từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, 
trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng 
như trong các hệ thống dịch máy. 
• Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ 
loại là trong hệ thống dịch máy. Cho đến nay, sau hơn 50 năm phát triển, dịch 
 11
máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài 
toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Từ đầu thập 
niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là 
dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi. 
Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính 
hiệu quả và tiềm năng của nó. Trong hệ dịch dựa trên sự chuyển đổi, khối 
chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất 
lượng hệ dịch. Khối này phụ thuộc rất lớn vào sự chính xác của quá trình phân 
tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như các từ trong 
cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. 
• Gán nhãn từ loại cũng là một bước quan trọng để xây dựng hệ thống hệ thống 
text-to-speech. 
• Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho những bước đi 
tiếp theo trong việc xử lý tiếng Việt, như: xác định ranh giới ngữ (danh ngữ, 
động ngữ, …), phân tích cú pháp, phân tích ngữ nghĩa, … 
• … 
 12
Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI 
Như đã nói ở chương I, bài toán gán nhãn từ loại là một trong những bài toán cơ 
bản của xử lý ngôn ngữ tự nhiên và được quan tâm từ rất sớm, cùng với đó là sự xuất 
hiện của rất nhiều phương pháp giải quyết bài toán này, cho đến ngày nay, việc hoàn 
thiện các phương pháp đã có và xây dựng các phương pháp mới nhằm đạt được kết 
quả tốt hơn vẫn là mục đích của nhiều nghiên cứu. 
Sơ đồ dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo thời gian: 
Hình 4. Một số phương pháp giải quyết bài toán gán nhãn từ loại 
Theo [abc], hầu hết các thuật toán được sử dụng để giải quyết bài toán gán nhãn 
từ loại thuộcvào một trong hai loại: gán nhãn dựa trên luật và gán nhãn xác suất. 
2.1. Phương pháp gán nhãn thủ công 
Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai” 
đều thực hiện theo phương pháp này. Nội dung chính của phương pháp gán nhãn thủ 
công (hand-coded) là xây dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì 
vậy phương pháp này còn được gọi là phương pháp gán nhãn dựa trên hệ luật. Các luật 
được xây dựng dựa vào ngữ cảnh chứa từ đang xét nhằm loại bỏ nhập nhằng nếu từ đó 
có thể có nhiều nhãn từ loại thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau 
một từ chỉ định thì nó có xu hướng là một danh từ hơn là một động từ. 
Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là 
ENGTWOL (Voutilainen, 1995) [abc]. 
Về thực chất, phương pháp này dựa trên kỹ thuật hai bước dưới đây: 
• Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó. 
 13
Đối với ENGTWOL, việc này được thực hiện mởi một bộ phân tích hình thái hai 
mức độ (Máy chuyển hữu hạn trạng thái). 
Ví dụ: Để gán nhãn từ loại cho câu “Pavlov had shown that salivation”, ở bước 
này, bộ gán nhãn tạo một danh sách tất cả các nhãn có thể cho từng từ như sau: 
Pavlov: PAVLOV N NOM SG PROPER 
had : HAVE V PAST VFIN SVO 
 HAVE PCP2 SVOO 
shown : SHOW PCP2 SVOO SVO SG 
that : ADV 
 PRON DEM SG 
 DET CENTRAL DEM SG 
 CS 
salivation: N NOM SG 
• Bước 2: Sử dụng một danh sách các ràng buộc không có nhập nhằng (các luật 
nếu-thì), và sử dụng các thông tin về ngữ cảnh để chọn ra một nhãn thích hợp 
nhất trong số các nhãn có thể. Như vậy, ở bước này, các ràng buộc đóng vai trò 
như một bộ lọc (Filters). Với ENGTWOL, danh sách các ràng buộc gồm 
khoảng 1100 ràng buộc. 
Trên thực tế, mỗi luật trên đều chứa một số lượng lớn các ngoại lệ. Thậm chí 
ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn 
tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm. Hơn 
nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát được hết tất cả các trường 
hợp ngôn ngữ, vì vậy, hiện nay các phương pháp dựa trên luật thường chỉ được sử 
dụng bằng cách kết hợp bổ sung với các phương pháp khác. 
Đối với tiếng Việt, nhóm nghiên cứu của Nguyễn Quang Châu [abc] đề xuất một 
phương pháp gán nhãn từ loại cho TiếngViệt dựa trên văn phong và tính toán xác suất. 
Nhóm tác giả xây dựng bộ gán nhãn là một hệ thống kết hợp bộ gán nhãn tri-gram và 
bộ gán nhãn dựa trên văn phong. Văn phong là đặc trưng, cách viết văn riêng của mỗi 
người, mỗi thể loại văn bản. Phương pháp gán nhãn từ loại dựa trên văn phong thực 
chất là căn cứ vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ 
loại cho các từ, điều này bao hàm việc xác định phải đảm bảo các luật văn phạm của 
 14
các từ trong câu. Mô hình của phương pháp gán nhãn từ loại dựa trên văn phong được 
mô phỏng như sau: 
Hình 5. Mô hình của phương pháp gán nhãn từ loại dựa trên văn phong 
Trong đó, về phương pháp xây dựng hệ thống luật, nhóm tác giả dựa vào JAPE 
(Java Annotation Patterns Engine) để xây dựng được hệ thống trên 270 luật để xác 
định cho 48 từ loại (danh từ riêng, đại từ xưng hô, danh từ loại thể, .vv..) 
Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác 
~80% nếu chỉ dùng phương pháp gán nhãn bằng xác suất và đạt ~90% nếu dùng 
phương pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất. 
2.2. Các phương pháp học máy 
Như đã nói ở trên, phương pháp dựa trên luật là một phương pháp thủ công còn 
tiềm tàng rất nhiều nhập nhằng. Cùng với đó, việc xây dựng một hệ thống trích chọn 
dựa trên các luật là rất tốn công sức, thông thường để xây dựng một hệ thống như vậy 
đòi hỏi công sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ 
học. Giải pháp cho các giới hạn này là phải xây dựng một hệ thống bằng cách nào đó 
có thể “tự học”, điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và 
làm tăng tính khả chuyển cho hệ thống, các phương pháp như vậy được gọi là các 
phương pháp học máy. 
Phần này sẽ xem xét một đại diện tiêu biểu của phương pháp học máy giải quyết 
nhập nhằng bằng cách sử dụng một bộ dữ liệu huấn luyện để tính toán xác suất của 
một từ cho sẵn sẽ được gán với một nhãn nào đó trong ngữ cảnh cho trước, vì bản chất 
đó, họ các phương pháp này còn được gọi là các phương pháp xác suất. 
 15
Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp với 
một từ cho trước w được tính bằng công thức: 
(2.0) 
Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán nhãn 
điển hình sử dụng mô hình Markov ẩn (HMM). Mô hình Markov ẩn [abc] được giới 
thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay 
nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự 
nhiên. HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta 
sử dụng thuật toán Viterbi để tìm chuỗi nhãn tốt nhất đó. 
Mô hình HMM có thể được xây dựng bởi automat hữu hạn trạng thái 
(probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển trạng 
thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các trạng thái trong mô hình 
HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình. Quá trình 
sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng 
thái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc. 
Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyển 
sang trạng thái tiếp theo. Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tương 
ứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB ...và dữ liệu quan sát là các 
từ trong câu. Mặc dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán cho 
một từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó. 
Giả sử, với câu đầu vào W (w1, w2,…, wn), ta cần tìm một chuỗi các thẻ tốt nhất 
cho toàn bộ câu, trong đó mỗi thẻ tương ứng với một từ của câu đầu vào T (t1, t2,…, 
tn). Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của tích 
P(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức (2.1) 
 (2.1) 
Sử dụng luật Bayes, P(T|W) được viết theo công thức (2.2) 
(2.2) 
Ta đang quan tâm tới việc tìm chuỗi nhãn phù hợp nhất làm cực đại công thức 
(2.2) nên mẫu số trong tất cả các trường hợp là giống nhau, vì vậy ta có thể loại bỏ nó. 
Do đó, bài toán trở thành tìm chuỗi các nhãn thỏa mãn công thức (2.3) 
( , )( | )
( )
f t wP t w
f w
=
ˆ ( | )TT argmax P T Wτ∈=
( ) ( | )( | )
( )
P T P W TP T W
P W
=
 16
(2.3) 
Áp dụng luật chuỗi xác suất, ta có công thức (2.4) 
(2.4) 
Vẫn không có phương pháp hiệu quả để tính xác suất của chuỗi này một cách 
chính xác, vì nó yêu cầu quá nhiều dữ liệu. Tuy nhiên, xác suất có thể được xấp xỉ bởi 
một xác suất đơn giản hơn bằng các áp dụng các giả thiết độc lập điều kiện (giả thiết 
rằng mỗi từ đều là độc lập với các từ khác và đặc tính của một từ chỉ phụ thuộc vào 
nhãn của nó). Mặc dù các giả thiết này không đúng trong thực tế, nhưng trong thực 
hành thì việc đánh giá đó có thể được chấp nhận. Ở đây, ta sử dụng giả thiết N-gram 
để mô hình hóa xác suất chuỗi từ 
(2.5a) 
Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram. 
(2.5b) 
Đầu tiên, ta làm đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào 
nhãn của nó: 
(2.6) 
Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãn 
trước và gần nó nhất: 
(2.7) 
Vì vậy, công thức (2.1) được biến đổi tương đương với công thức (2.8) dưới đây, 
ta phải lựa chọn chuỗi nhãn làm cực đại công thức (2.8) này 
(2.8) 
Các thành phần thừa số trong công thức (2.8) có thể được tính toán từ tập dữ liệu 
huấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sửa dụng 
các kỹ thuật làm trơn. 
ˆ ( ) ( | )TT argmax P T P W Tτ∈=
( ) ( | ) ( | ... ) ( | ... )n i 1 1 i 1 i 1 i i 1 1 i 1 i 1i 1P T P W T P w w t w t t P t w t w t− − − −==∏
( | ... ) ( | )i 1 1 i 1 i 1 i i iP w w t w t t P w t− − =
( | ... ) ( | )i 1 1 i 1 i 1 i i-2 i-1P t w t w t P t t t− − =
( ) ( | ) ( | )[ ( | )]
n n
1 2 1 i i-2 i-1 i i
i 3 i 1
P t P t t P t t t P w t
= =
∏ ∏
n
1 n i i-1
i=1
P(t ,...,t )= P(t | t )∏
( ) ( ) ( )1 2 3 2 1 3 2P t ,t ,t = P t | t P t | t
 17
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau: 
Hình 6: Đồ thị có hướng mô tả mô hình HMM 
Ví dụ, mô hình HMM tiến hành gán nhãn từ loại cho câu “Fed raises interest 
rates”: 
Hình 7. Một ví dụ gán nhãn bởi mô hình HMM 
Như đã nói ở trên, thông thường trong mô hình HMM thuật
            Các file đính kèm theo tài liệu này:
 K50_Le_Hoang_Quynh_Thesis.pdf K50_Le_Hoang_Quynh_Thesis.pdf