Khóa luận Phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu

Khóa luận được tổ chức thành 5 chương với nội dung như sau:

- Chương 1: Giới thiệu tổng quan về bài toán thêm dấu tiếng Việt vào văn bản không dấu, và các công trình đã có liên quan đến đề tài.

- Chương 2: Giới thiệu các cơ sở lý thuyết tin học cần sử dụng.

- Chương 3: Nhận xét các mô hình đã có trước đây, và đưa ra mô hình cài đặt chính.

- Chương 4: Cụ thể hóa mô hình cài đặt.

- Chương 5: Tổng kết và đề ra hướng phát triển.

pdf70 trang | Chia sẻ: zimbreakhd07 | Lượt xem: 1694 | Lượt tải: 1download
Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận Phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
SV ne t.vn TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN %͘ MÔN CÔNG NGHʃ TRI THͨC PHAN QUӔC LÂN PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC TP. HCM, NĂM 2005 SV ne t.vn 1 TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN KHOA CÔNG NGHʃ THÔNG TIN %͘ MÔN CÔNG NGHʃ TRI THͨC PHAN QUӔC LÂN – 0112267 PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU KHOÁ LUҰN CӰ NHÂN TIN HӐC GIÁO VIÊN HѬӞNG DҮN Th.S PHҤM PHҤM TUYӂT TRINH NIÊN KHÓA 2001 – 2005 SV ne t.vn 2 /ӡi cҧm ѫn /ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này. Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp trong trѭӡng. Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong gia ÿình ÿã tҥo mӑi ÿLӅu kiӋn tӕt nhҩt cho con hӑc tұp và ÿӝng viên, khích lӋ con trong quá trình thӵc hiӋn luұn văn. Và cuӕi cùng, tôi xin gӱi lӡi cҧm ѫn ÿӃn tҩt cҧ bҥn bè, ÿһc biӋt là anh Toàn, bҥn Sinh, bҥn Khѭѫng …, nhӳng ngѭӡi ÿã hӛ trӧ và giúp tôi hoàn thiӋn luұn văn này. 0һc dù em ÿã cӕ gҳng hoàn thành luұn văn trong phҥm vi và khҧ năng cho phép nhѭng chҳc chҳn sӁ không tránh khӓi nhӳng thiӃu sót. Em kính mong nhұn ÿѭӧc sӵ Fҧm thông và tұn tình chӍ bҧo cӫa quý Thҫy Cô và các bҥn. TP. Hӗ Chí Minh, tháng 7 năm 2005 Phan Quӕc Lân – 0112267 SV ne t.vn 3 NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005 Giáo viên hѭӟng dүn Th.S Phҥm Phҥm TuyӃt Trinh SV ne t.vn 4 NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005 Giáo viên phҧn biӋn TS. Ĉinh ĈLӅn SV ne t.vn /ӠI NÓI ĈҪU Chӳ viӃt tiӃng ViӋt cӫa chúng ta có 1 ÿһc ÿLӇm rҩt hay là có sӵ xuҩt hiӋn cӫa các Gҩu thanh cNJng nhѭ dҩu cӫa các ký tӵ. ĈLӅu này giúp cho tiӃng ViӋt “thêm thanh, thêm ÿLӋu”. Tuy nhiên, cNJng chính viӋc “thêm thanh, thêm ÿLӋu” ÿó làm cho viӋc gõ tiӃng ViӋt trӣ nên tӕn nhiӅu thӡi gian hѫn. 1 vҩn ÿӅ khác, khi viӋc sӱ dөng Internet trӣ nên thông dөng, 1 tiӋn ích ÿѭӧc mӑi ngѭӡi ѭa chuӝng là dӏch vө Email. Nhѭng, cho ÿӃn hiӋn nay, hҫu hӃt các mail server vүn chѭa hӛ trӧ tӕt tiӃng ViӋt, do ÿó, tình trҥng các lá mail trên mҥng hҫu nhѭ không có dҩu. ViӋc phát triӇn 1 công cө giúp thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu là viӋc rҩt cҫn thiӃt và thú vӏ. ĈӅ tài này hѭӟng ÿӃn viӋc giҧi quyӃt bài toán thêm dҩu tiӃng ViӋt theo mӝt Kѭӟng mӟi, do ÿó, chѭѫng trình không chú trӑng chuyên sâu vào lƭnh vӵc nào. ViӋc thêm chӭc năng hӛ trӧ các lƭnh vӵc chuyên sâu khác không ҧnh hѭӣng nhiӅu ÿӃn cҩu trúc cӫa mô hình mà chѭѫng trình áp dөng. Luұn văn ÿѭӧc tә chӭc thành 5 chѭѫng vӟi nӝi dung nhѭ sau : § Chѭѫng 1 giӟi thiӋu tәng quan vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu, và các công trình ÿã có liên quan ÿӃn ÿӅ tài. § Chѭѫng 2 giӟi thiӋu các cѫ sӣ lý thuyӃt _ tin hӑc cҫn sӱ dөng. § Chѭѫng 3 nhұn xét các mô hình ÿã có trѭӟc ÿây, và ÿѭa ra mô hình cài ÿһt chính. § Chѭѫng 4 cө thӇ hóa mô hình cài ÿһt. § Chѭѫng 5 tәng kӃt và ÿӅ ra hѭӟng phát triӇn . SV ne t.vn 6 0ӨC LӨC Chѭѫng 1.7ӘNG QUAN....................................................................9 1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu.......10 1.1.1. Phát biӇu bài toán.........................................................................................10 1.1.2. Ĉһc ÿLӇm .......................................................................................................10 1.1.3. +ѭӟng giҧi quyӃt ..........................................................................................11 1.2. Giӟi thiӋu các công trình ÿã có ..................................................................11 1.2.1. AMPad..........................................................................................................11 1.2.2. VietPad .........................................................................................................12 1.2.3. www.EasyVn.com.........................................................................................13 1.2.4. VnMark ........................................................................................................14 Chѭѫng 2.&Ѫ SӢ LÝ THUYӂT TIN HӐC....................................15 2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc.........................................................................16 2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) ..........................................................................16 2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt ..............................................16 2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt .............................................16 2.1.1.3. Tҥi sao lҥi phҧi dùng dҩu thanh ? ............................................................17 2.1.2. 7ӯ ..................................................................................................................18 2.1.2.1. Các quan niӋm vӅ tӯ ...............................................................................18 2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt...........................................................18 2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc .................................................................19 2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung ..................................................................19 2.2. Tách tӯ ........................................................................................................20 2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching).....................................21 2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron .......................................................22 2.3. Tách câu......................................................................................................22 2.3.1. Tách câu bҵng Heristics. ..............................................................................23 2.3.1.1. Xӱ lý dҩu chҩm. .....................................................................................23 2.3.1.2. Xӱ lý dҩu chҩm trong ngoһc. ..................................................................24 Chѭѫng 3.MÔ HÌNH CÀI ĈҺT......................................................25 3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng...................................................26 3.1.1. VietPad .........................................................................................................26 3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................26 3.1.1.1.1. TiӅn xӱ lý ............................................................................................26 3.1.1.1.2. Tách token...........................................................................................27 3.1.1.1.3. Lҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu .................................27 3.1.2. VnMark ........................................................................................................28 SV ne t.vn 7 3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................28 3.1.2.1.1. TiӅn xӱ lý ............................................................................................30 3.1.2.1.2. Tách câu ..............................................................................................30 3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu ................................................30 3.1.2.2. Mô hình huҩn luyӋn................................................................................31 3.2. Mô hình ÿӅ xuҩt..........................................................................................32 3.2.1. Mô hình.........................................................................................................32 3.2.1.1. Tách câu .................................................................................................33 3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM.........................................................34 3.2.1.3. Chӑn tӯ thích hӧp ...................................................................................34 3.2.2. Mô hình huҩn luyӋn .....................................................................................36 3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ ..........................................................36 3.2.2.1.1. Xây dӵng kho ngӳ liӋu.........................................................................36 3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ .......................................................37 3.2.2.1.3. Tҥo tӯÿLӇn chuyӇn ÿәi ........................................................................38 3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng ....................................................39 3.2.3. So sánh mô hình này vӟi 2 mô hình trên .....................................................41 Chѭѫng 4.CÀI ĈҺT THӰ NGHIӊM.............................................43 4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ...............................................................44 4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ ..................................................44 4.1.2. Tách câu........................................................................................................48 4.1.3. Tách tӯ và thӕng kê......................................................................................50 4.2. 7ҥo tұp tin tӯÿLӇn chính............................................................................52 4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ .........................................................................55 4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi......................................................................55 4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ ...........................................................................58 4.4. Chѭѫng trình chính....................................................................................58 4.4.1. Chѭѫng trình VietEditor..............................................................................59 4.4.2. Chѭѫng trình thêm dҩu qua Clipboard.......................................................60 4.5. Thӱ nghiӋm ................................................................................................62 Chѭѫng 5. ӂT QUҦ, HѬӞNG PHÁT TRIӆN .............................63 5.1. +ҥn chӃ và hѭӟng phát triӇn .....................................................................64 5.2. .Ӄt luұn ......................................................................................................64 Phө lөc : Cҩu trúc kho ngӳ liӋu ......................................................67 SV ne t.vn 8 DANH MӨC HÌNH Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t t͹ÿ͡ng b̹ng AMPad......................................................12 Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad .............................................................12 Hình 1.2.2-3 : Văn b̫n sau khi th͹c hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad ...........13 Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn..............................................................14 Hình 1.2.3-5 : Văn b̫n sau khi t͹ÿ͡ng thêm ḓu trên EasyVn ..............................................14 Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t.............................................................................17 Hình 3.1.1-7 : L˱u ÿ͛ th͹c hi͏n cͯa mô hình ͱng dͭng trong VietPad...................................26 Hình 3.1.2-8 : L˱u ÿ͛ th͹c hi͏n cͯa mô hình n-gram ............................................................29 Hình 3.2-9: L˱u ÿ͛ th͹c hi͏n cͯa mô hình ÿ͉ xṷt ................................................................33 Hình 3.2-10 : T̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ ..........................................................38 Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt ..........................................................................39 Hình 3.2-12 : Trích t̵p tin CumTu.txt....................................................................................41 Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT ..............................................................44 Hình 4.1.1-14: C̭u hình cͯa ch˱˯ng trình HTML2TXT.........................................................45 Hình 4.1.1-15 : M͡t trang báo thanh niên..............................................................................47 Hình 4.1.1-16 : 'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên...................................................48 Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu..................................................................49 Hình 4.1.2-18: Tͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu............................................49 Hình 4.1.2-19: N͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu .........................................50 Hình 4.1.3-20: Giao di͏n module tách tͳ...............................................................................51 Hình4.1.3-21: N͡i dung t̵p tin th˱ mͭc ngu͛n ......................................................................51 Hình 4.1.3-22: N͡i dung t̵p tin tͳÿL͋n .................................................................................52 Hình 4.1.3-23: N͡i dung t̵p tin k͇t qu̫.................................................................................52 Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính.......................................................53 Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt.......................................................................54 Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt.................................................................54 Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt................................................................................55 Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n ...........................................56 Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt .......................................................................57 Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt.........................................................57 Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ .....................................................58 Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor .......................................................59 Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard ........................................60 Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard...........................................................61 Hình 5.2-35 : T̵p tin kho ngͷ li͏u m̳u .................................................................................69 SV ne t.vn Chѭѫng 1. 7ӘNG QUAN SV ne t.vn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 10 1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào Yăn bҧn không dҩu 1.1.1. Phát biӇu bài toán Bài toán có thӇÿѭӧc phát biӇu nhѭ sau : Cho mӝt văn bҧn tiӃng ViӋt không Gҩu. ChuyӇn văn bҧn không dҩu này thành có dҩu vӟi ÿӝ chính xác cao. ChӍ sӱ dөng tӯÿLӇn tӯ và kho ngӳ liӋu thô làm ÿҫu vào. Khái niӋm tӯӣÿây là “tӯ tӯÿLӇn” – tӭc là các tӯÿѫn, tӯ ghép và cөm tӯ ÿѭӧc lѭu trong tӯÿLӇn. ChӍ xӱ lý các văn bҧn tiӃng ViӋt có mã Unicode. 1.1.2. Ĉһc ÿLӇm Chӳ viӃt tiӃng ViӋt có 1 ÿһc ÿLӇm rҩt hay là sӵ xuҩt hiӋn cӫa các dҩu thanh FNJng nhѭ dҩu cӫa các ký tӵ. ViӋc có dҩu thanh và dҩu cӫa ký tӵ này làm phong phú thêm cho ngôn tӯ tiӃng ViӋt, và cNJng góp phҫn tăng ÿӝ biӇu cҧm cӫa tiӃng ViӋt. 'ҩu thanh là 1 thành phҫn “bҩt khҧ phân” trong âm tiӃt tiӃng ViӋt [8]. Khi loҥi bӓ dҩu thanh, viӋc hiӇu nghƭa cӫa tӯ, gӗm 1 hay nhiӅu âm tiӃt kӃt hӧp vӟi nhau, trӣ nên khó khăn và dӉ gây hiӇu lҫm. ĈӇ thêm dҩu, trѭӟc tiên, ta cҫn phҧi xác ÿӏnh ranh giӟi tӯ. Bài toán xác ÿӏnh ranh giӟi tӯÿӕi vӟi văn bҧn tiӃng ViӋt có dҩu ÿã là 1 viӋc thӱ thách, thì khi không có dҩu, viӋc nhұn diӋn ranh giӟi tӯ càng trӣ nên khó khăn hѫn. Vҩn ÿӅ này lҥi càng khó khăn, khi ranh giӟi tӯ trong tiӃng ViӋt cNJng nhѭ 1 sӕ ngôn ngӳ Châu Á khác, mӝt tӯ chính tҧ có thӇ không tѭѫng ӭng vӟi mӝt “tӯ” trên văn Eҧn. Ĉӕi vӟi các thӭ tiӃng Châu Âu, ta có thӇ dӉ dàng nhұn ra mӝt tӯ, do các tӯ ÿѭӧc phân cách bӣi khoҧng trҳng. ĈLӅu này lҥi không ÿúng vӟi tiӃng ViӋt. Trong tiӃng ViӋt, các tiӃng _ hay còn gӑi là âm tiӃt _ ÿѭӧc phân cách bӣi khoҧng trҳng, chӭ không phҧi tӯ. SV ne t.vn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 11 Sau khi ÿã nhұn diӋn ÿѭӧc ranh giӟi tӯ, ta cҫn phҧi xác ÿӏnh cho ÿúng tӯ có Gҩu nào có dҥng thӇ hiӋn không dҩu nhѭ vұy. ViӋc xác ÿӏnh này cNJng gây nhiӅu khó khăn, khi 1 tӯ không dҩu có thӇ có nhiӅu tӯ có dҩu tѭѫng ӭng vӟi nó. Ví dͭ 1-1 : Tӯ không dҩu “toi” có 3 tӯ có dҩu tѭѫng ӭng là “tôi”, “tӟi” và “tӕi”. Do ÿó, sau khi ÿã giҧi quyӃt xong bài toán tách tӯ tiӃng ViӋt không dҩu, ta Fҫn phҧi giҧi quyӃt thêm bài toán xác ÿӏnh tӯ có dҩu thích hӧp vӟi tӯ không dҩu ÿó. Ĉây chính là 2 bài toán cҫn giҧi quyӃt chính cӫa mô hình. 1.1.3. +ѭӟng giҧi quyӃt Ĉӕi vӟi tách tӯ có dҩu, có nhiӅu mô hình ÿѭӧc sӱ dөng và ÿҥt kӃt quҧ cao nhѭ MM (Maximum Matching : forward / backward hay còn gӑi là LRMM: Left Right); giҧi thuұt hӑc cҧi biӃn TBL; mҥng chuyӇn dӏch trҥng thái hӳu hҥn có trӑng sӕ WFST (Weighted finite-state Transducer); giҧi thuұt dӵa trên nén (compression) [1] …. Hѭӟng giҧi quyӃt ÿѭӧc ÿӅ xuҩt là sӱ dөng phѭѫng pháp tách tӯ LRMM [1][7] kӃt hӧp vӟi mô hình Bigram ÿã giҧi quyӃt khá hiӋu quҧ 2 Yҩn ÿӅ cӫa bài toán này. Phѭѫng pháp chӍ mӟi ÿѭӧc áp dөng cho mô hình thêm Gҩu offine, nhѭng có thӇÿѭӧc cài ÿһt ÿӇ gán dҩu online. 1.2. Giӟi thiӋu các công trình ÿã có 1.2.1. AMPad AMPad [12] (tên version cNJ và thông dөng vӟi mӑi ngѭӡi là AutoMark) Fӫa tác giҧ Trҫn TriӃt Tâm là sҧn phҭm ÿҫu tiên nghiên cӭu vӅ lƭnh vӵc này. Chѭѫng trình ÿã ÿѭӧc nhiӅu ngѭӡi biӃt ÿӃn và ÿѭӧc sӱ dөng rӝng rãi. ĈLӅu này cho thҩy viӋc phát triӇn ӭng dөng hoàn thiӋn hѫn nӳa vӅ thêm dҩu tiӃng ViӋt là có nhu cҫu, và nhu cҫu này sӁ ngày càng tăng cao. Chѭѫng trình AMPad có SV ne t.vn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 12 ÿLӇm hay là viӋc áp dөng mô hình xӱ lý thêm dҩu ӣ chӃÿӝ online, tҥo sӵ trӵc quan, thân thiӋn cho ngѭӡi sӱ dөng. Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t t͹ÿ͡ng b̹ng AMPad 1.2.2. VietPad Vietpad [11] là trình soҥn thҧo hӛ trӧ tiӃng ViӋt Unicode, ÿѭӧc phát triӇn Eӣi Quân NguyӉn và nhóm phát triӇn trên Ngoài chӭc năng thêm dҩu tӵÿӝng offline mà luұn văn ÿang nghiên cӭu, VietPad còn là 1 trình soҥn thҧo tiӃng ViӋt hӛ trӧ rҩt tӕt Unicode và là mã nguӗn mӣ. Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad SV ne t.vn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 13 Hình 1.2.2-3 : Văn b̫n sau khi th͹c hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad 1.2.3. www.EasyVn.com Trang web www.easyvn.com [10] cung cҩp dӏch vө email ÿLӋn tӱ miӉn phí trên mҥng, vӟi sӵ hӛ trӧ ngѭӡi dùng rҩt tӕt vӅ ngôn ngӳ ViӋt. 1 chӭc năng nәi Eұt cӫa www.easyvn.com là : sau khi soҥn thҧo xong bӭc mail, ngѭӡi dùng có thӇ chӑn chӭc năng Thêm dҩu tiӃng ViӋt ÿӇ biӃn văn bҧn không dҩu thành có Gҩu. Do ÿây là dӏch vөÿѭӧc cung cҩp và thu phí trên NET (cho sӱ dөng thӱ trong 2 tháng), mô hình thêm dҩu tӵÿӝng cӫa www.easyvn.comÿѭӧc giӳ kín. SV ne t.vn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 14 Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn Hình 1.2.3-5 : Văn b̫n sau khi t͹ÿ͡ng thêm ḓu trên EasyVn 1.2.4. VnMark VnMark [2] ÿѭӧc tác giҧ NguyӉn Văn Toàn phát triӇn. Do tác giҧÿã làm thҩt lҥc chѭѫng trình, do ÿó, không có hình ҧnh minh hoҥ chѭѫng trình. SV ne t.vn Chѭѫng 2. &Ѫ SӢ LÝ THUYӂT TIN HӐC SV ne t.vn Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu 16 2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc 2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) 2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt “TiӃng” là “ÿѫn vӏ cѫ bҧn” trong tiӃng ViӋt [1]. Mӝt “tiӃng” trong tiӃng ViӋt ÿѭӧc nói lên là mӝt ÿѫn vӏ ngӳ âm, và cNJng là mӝt ÿѫn vӏ ngӳ pháp. 0ӝt “tiӃng” là mӝt ÿѫn vӏ phát ngôn, và là mӝt ÿѫn vӏ cӫa lӡi nói ÿӇ tҥo ra nhӳng kӃt cҩu lӡi nói trong hoҥt ÿӝng nói năng giao tiӃp. Ĉһc tính này cӫa tiӃng chính là mӝt tính cách loҥi hình cӫa tiӃng ViӋt, trong ÿó mӛi ÿѫn vӏ phát âm trùng khít vӟi ÿѫn vӏ ngӳ pháp (hình vӏ, và tӯ). Khi xét trên bình diӋn ngӳ âm, tiӃng là mӝt ÿѫn vӏ cӫa ngӳ âm, tӭc là mӝt âm tiӃt [9]. ViӋc nhұn diӋn “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là ÿLӅu quá dӉ dàng, tӵ nhiên ÿӕi vӟi mӑi ngѭӡi mà không cҫn mӝt trình ÿӝ ngôn ngӳ gì cao, v

Các file đính kèm theo tài liệu này:

  • pdf[LVIT020] - PP thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu.pdf