Luận án tiến sĩ Kỹ thuật: Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
lượt xem 8
download
Mục đích của đề tài là tìm hiểu các đặc trưng chính tả của hệ viết tiếng Lào, các phương pháp tách từ và PLVB đã được đề xuất cho tiếng Anh, tiếng Thái và tiếng Việt, đánh giá hiệu quả của các phương pháp này, đề xuất được giải pháp tách từ hiệu quả, lựa chọn các phương pháp PLVB phù hợp và các điều kiện thử nghiệm, từ đó áp dụng giải quyết bài toán PLVB kết hợp tách từ tiếng Lào, thử nghiệm phân loại các VBHC của trường ĐH Champasack, nước CHDCND Lào và đánh giá các kết quả thử nghiệm.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận án tiến sĩ Kỹ thuật: Nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng Lào
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG, NĂM 2017
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VILAVONG SOUKSAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP TÁCH TỪ PHỤC VỤ PHÂN LOẠI VĂN BẢN TIẾNG LÀO Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học : PGS. TS. PHAN HUY KHÁNH ĐÀ NẴNG, NĂM 2017 ii
- LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu khoa học của cá nhân tôi dưới sự hướng dẫn trực tiếp của PGS.TS. Phan Huy Khánh. Các dữ liệu, ví dụ và trích dẫn tham khảo trong luận án đảm bảo độ tin cậy, chuẩn xác và trung thực. Những kết quả đóng góp về mặt lý thuyết và ứng dụng của luận án chưa từng được ai công bố trong bất kỳ công trình nào khác cho đến nay. Tác giả luận án, VILAVONG SOUKSAN iii
- MỤC LỤC LỜI CAM ĐOAN ........................................................................................... iii MỤC LỤC....................................................................................................... iv DANH MỤC CHỮ VIẾT TẮT .................................................................... vii DANH MỤC CÁC BẢNG ........................................................................... viii DANH MỤC CÁC HÌNH .............................................................................. ix MỞ ĐẦU ...........................................................................................................1 1.Mục tiêu, đối tượng và phạm vi nghiên cứu ..................................................3 2.Nhiệm vụ nghiên cứu và kết quả đạt được .....................................................4 3.Cấu trúc của luận án .......................................................................................4 4.Đóng góp của luận án .....................................................................................5 CHƯƠNG 1.VẤN ĐỀ XỬ LÝ TIẾNG LÀO.................................................6 1.1.TÌM HIỂU TIẾNG LÀO...........................................................................6 1.1.1. Giới thiệu tiếng Lào ........................................................................................ 6 1.1.2. Nguồn gốc của tiếng Lào ................................................................................ 7 1.1.3. Những yếu tố ngữ pháp tiếng Lào .................................................................. 7 1.2.SO SÁNH TIẾNG LÀO VỚI NGÔN NGỮ LÁNG GIỀNG ...............12 1.2.1. So sánh bảng chữ cái .................................................................................... 13 1.2.2. So sánh cấu trúc âm tiết ................................................................................ 14 1.2.3. So sánh cấu trúc từ vựng .............................................................................. 14 1.2.4. So sánh cấu trúc câu ..................................................................................... 15 1.3.TIẾNG LÀO TRONG BỐI CẢNH XL NNTN .....................................16 1.3.1. Giới thiệu một số kết quả xử lý tiếng Lào .................................................... 16 1.3.2. Thực trạng và thách thức trong xử lý tiếng Lào ........................................... 19 1.3.3. Đặt bài toán phân loại văn bản tiếng Lào ..................................................... 19 1.4.KẾT LUẬN CHƯƠNG 1 ........................................................................20 CHƯƠNG 2.PHÂN LOẠI VĂN BẢN VÀ BÀI TOÁN TÁCH TỪ ..........21 2.1.MỞ ĐẦU VỀ VĂN BẢN VÀ SOẠN THẢO VĂN BẢN ......................21 2.1.1. Khái niệm văn bản .......................................................................................... 21 iv
- 2.1.2. Khái niệm soạn thảo văn bản (STVB)............................................................ 23 2.1.3. Xu thế soạn thảo văn bản hiện nay ................................................................. 24 2.2.BÀI TOÁN PHÂN LOẠI VĂN BẢN .....................................................24 2.2.1. Tìm hiểu bài toán phân loại văn bản .............................................................. 24 2.2.2. Quy trình giải quyết bài toán PLVB ............................................................... 25 2.2.3. Các phương pháp giải quyết bài toán PLVB .................................................. 27 2.3.BÀI TOÁN TÁCH TỪ TRONG PHÂN LOẠI VĂN BẢN ..................30 2.3.1. Tìm hiểu bài toán tách từ ................................................................................ 30 2.3.2. Các phương pháp tách từ ................................................................................ 31 2.3.3. Đánh giá hai phương pháp.............................................................................. 35 2.4.PHÂN LOẠI VĂN BẢN TIẾNG LÀO ..................................................37 2.4.1. Bài toán phân loại văn bản tiếng Lào ............................................................. 37 2.4.2. Nhu cầu giải quyết bài toán tách từ tiếng Lào ................................................ 38 2.4.3. Đề xuất giải pháp triển khai ........................................................................... 38 2.5.KẾT LUẬN CHƯƠNG 2 ........................................................................40 CHƯƠNG 3.GIẢI PHÁP TÁCH TỪ TRONG VĂN BẢN TIẾNG LÀO ................................................................................................................41 3.1.NHẬN DIỆN TỪ SỬ DỤNG ĐẶC TRƯNG NGỮ PHÁP ...................41 3.1.1. Vấn đề nhận diện từ trong câu tiếng Lào ...................................................... 41 3.1.2. Xây dựng mô hình cấu trúc của từ đơn......................................................... 42 3.1.3. Giải pháp nhận diện từ trong câu.................................................................. 47 3.2.XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN TỪ ĐƠN ...........................50 3.2.1. Xây dựng vị từ và hàm ................................................................................. 50 3.2.2. Xây dựng cơ sở luật ...................................................................................... 53 3.2.3. Xây dựng máy suy diễn nhận diện từ đơn .................................................... 54 v
- 3.3.TRIỂN KHAI GIẢI PHÁP TÁCH TỪ .................................................56 3.2.4. Xây dựng kho ngữ vựng tiếng Lào ............................................................... 56 3.3.2. Áp dụng phương pháp so khớp tối đa........................................................... 59 3.3.3. Chiến lược kết hợp luật nhận diện từ với khử bỏ nhập nhằng...................... 59 3.4.KẾT LUẬN CHƯƠNG 3 ........................................................................62 CHƯƠNG 4.THỰC NGHIỆM PLVB VÀ ĐÁNH GIÁ KẾT QUẢ ..........63 4.1.CHUẨN BỊ DỮ LIỆU ..............................................................................63 4.1.1. Phân tích hiện trạng trường ĐH Champasak ................................................ 63 4.1.2. Thu thập dữ liệu HCVP tại trường ĐH Champasak ..................................... 64 4.1.3. Xây dựng kho văn bản HCVP của trường ĐH Champasak .......................... 65 4.2.TRIỂN KHAI CHUẨN BỊ THỬ NGHIỆM ..........................................68 4.2.1. Xây dụng mô hình thử nghiệm........................................................................ 68 4.2.2. Chuẩn bị cơ sở thử nghiệm............................................................................. 68 4.2.3. Đề xuất PLVB sử dụng hai phương pháp SVM và RBF ................................ 71 4.3.CHẠY THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................72 4.3.2. Thử nghiệm hai phương pháp tách từ CRF và MM ..................................... 73 4.3.3. Thử nghiệm tách từ sử dụng cơ sở luật để xử lý nhập nhằng ....................... 75 4.3.4. Thử nghiệm phân loại văn bản ..................................................................... 76 4.4.KẾT LUẬN CHƯƠNG 4 ........................................................................80 KẾT LUẬN .....................................................................................................81 TÀI LIỆU THAM KHẢO .............................................................................84 vi
- DANH MỤC CHỮ VIẾT TẮT 1. Tiếng Anh Chữ STT Nghĩa tiếng Anh Nghĩa tiếng Việt viết tắt 1 CRF Conditional Random Fields Trường điều kiện ngẫu nhiên 2 CL Computational Linguistics Ngôn ngữ học tính toán 3 MM Maximum Matching So khớp tối đa 5 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 7 RBF Radial BasisFunctions network Mạng hàm bán kính xuyên tâm cơ sở 8 SVM Support Vector Machine Máy vec tơ hỗ trợ 2. Tiếng Việt STT Chữ viết tắt Nghĩa 1 CHDCND Lào Cộng hoà Dân chủ Nhân dân Lào 2 CNTT Công nghệ Thông tin 3 CSDL Cơ sở dữ liệu 4 ĐHBK Đại học Bách Khoa 5 HCVP Hành chính văn phòng 6 MSD Máy suy diễn 7 NCKH Nghiên cứu Khoa học 8 NNTN Ngôn ngữ tự nhiên 9 NSD Người sử dụng 10 PLVB Phân loại văn bản 11 VBHC Văn bản hành chính 12 XL NNTN Xử lý ngôn ngữ tự nhiên vii
- DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang bảng 1.1. So sánh chữ cai. 13 1.2. So sánh cấu truc am tiết. 14 1.3. So sánh cấu trúc từ đơn. 14 1.4. So sánh cấu trúc câu. 16 4.1. Ví dụ một số từ hư trong tiếng lào. 67 4.2. Thử nghiệm phương pháp nhận diện từ đơn dùng cơ sở luật. 73 4.3. Kết quả tách từ sử dụng phương pháp mạng nơ ron. 74 4.4. Kết quả tách từ sử dụng phương pháp so khớp tối đa. 74 4.5. Tách từ sử dụng ba phương pháp CRF, MMS và dùng luật. 75 4.6. Kết quả PLVB tiếng Lào kết hợp SVM với CRF. 76 4.7. PLVB tiếng Lào kết hợp SVM với tách từ dựa cơ sở luật. 77 4.8. PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF. 77 4.9. PLVB tiếng Lào kết hợp RBF với tách từ sử dụng cơ sở luật. 78 4.10. Kết quả thực nghiệm PLVB tiếng Lào kết hợp tách từ. 78 viii
- DANH MỤC CÁC HÌNH Số hiệu Tên hình Trang hình 1.1. Cấu trúc ba tầng của chữ Lào. 10 1.2. Bàn phím gõ tiếng Lào 17 2.1. Mô hình hai giai đoạn phân loại văn bản. 26 2.2. Mô hình giai đoạn học máy. 27 2.3. Đồ thị vô hướng mô tả CRF 34 2.4. Mô hình triển khai giải pháp tách từ phục vụ PLVB tiếng Lào. 39 3.1. Cấu trúc từ đơn trong tiếng Lào. 42 3.2. Cấu trúc XML cho CSDL chữ cái tiếng Lào. 48 3.3. Mô hình nhận diện từ đơn tiếng Lào. 49 3.4. Cơ chế hoạt động của máy suy diễn nhận diện từ đơn. 56 3.5. Mô hình cập nhật dữ liệu cho kho ngữ vụng tiếng Lào. 58 3.6. Mô hình tách từ tiếng Lào dùng phương pháp so khớp tối đa. 59 3.7. Mô hình xử lý nhập nhằng khi tách từ tiếng Lào. 61 4.1. Mô hình triển khai thử nghiệm PLVB tiếng Lào. 68 4.2. Đồ thị so sánh kết quả thực nghiệm ba phương pháp tách từ. 75 4.3. Lược đồ so sánh kết quả thực nghiệm giữa mạn RBF và SVM 79 ix
- MỞ ĐẦU Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language Processing), hay Ngôn ngữ học Tính toán (CL - Computational Linguistics) thuộc lĩnh vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng các ứng dụng Tin học trên NNTN, ngôn ngữ của con người. XL NNTN là miền đất cực kỳ khó khăn cho những ai mong muốn thâm nhập và khai thác. Không những XL NNTN đòi hỏi người nghiên cứu phải am hiểu tường minh về ngôn ngữ học, hiểu thói quen giao tiếp và ứng xử của con người, mà còn phải có kiến thức chuyên sâu về nhiều lĩnh vực khác nhau của Tin học, của Khoa học Máy tính. Trong hệ thống các ngôn ngữ trên thế giới hiện nay, tiếng Lào là một trong những ngôn ngữ có sự phong phú, đa dạng và mang đậm những nét đặc trưng của các ngôn ngữ đơn tiết Vùng Nam-Á, ngôn ngữ nơi cửa Phật. Đây chính là nguyên nhân dẫn đến những khó khăn vượt bậc cho cả người nghiên cứu và người sử dụng (NSD) theo cách thông thường và cả khi xử lý trên máy tính trong lĩnh vực xử lý tiếng Lào. Những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin (CNTT) nói chung, internet nói riêng, đã làm gia tăng số lượng giao dịch thông tin trên mạng, hay trực tuyến, một cách đáng kể. Ngày mỗi ngày chứng kiến sự bùng nổ chóng mặt của các tin tức điện tử, thư viện điện tử (chẳng hạn sự phát triển của mục lục trực tuyến OPAC-Online Public Access Catalog), các trang mạng xã hội, các giao dịch đủ mọi hình thức, từ thương mại đến chính trị, quốc phòng... Đặc biệt số lượng văn bản hành chính (VBHC) trong các hoạt động chuyên môn, từ cá nhân đến các tổ chức khác nhau, được giao dịch trực tuyến cũng tăng theo nhanh chóng. Nếu như trước đây, VBHC chỉ thuần túy được lưu trữ mang tính địa phương, trong các máy tính đơn lẻ, thì ngày nay, nhờ điện toán đám mây, nhờ các khả năng lưu trữ trực tuyến với các kho dữ liệu gần như vô hạn, từ miễn phí đến có chi phí nhưng giá rẻ, tạo ra cơ hội mới cho sự gia tăng các VBHC. Với thực trạng khối lượng thông tin đồ sộ cần xử lý, một vấn đề lớn đặt ra là làm sao tổ chức và tìm kiếm thông tin một cách có hiệu quả ? Giải quyết bài toán phân loại thông tin/dữ liệu, cụ thể là phân loại hay phân lớp văn bản (PLVB), là một trong 1
- những câu trả lời hợp lý. Dĩ nhiên việc phân loại bằng cách thủ công là điều không thể thực hiện, một khi thông tin trực tuyến không những có khối lượng lớn, mà còn không được kiểm soát, thậm chí thiếu chất lượng, thiếu độ tin cậy, kể cả bị sai lạc... Hướng giải quyết là nghiên cứu xây dựng một chương trình máy tính tự động phân loại. Hiện nay, tại trường Đại học Champasak, một trường Đại học tương đối lớn của nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn ra các hoạt động giao dịch hành chính, văn phòng rất khẩn trương và tấp nập. Hàng ngày, cán bộ viên chức bận rôn thực hiện phân loại, lưu trữ các VBHC xuất hiện mọi lúc mọi nơi, sau đó lại phải tìm kiếm, xử lý các văn bản đó. Việc phân loại thực tế là phân chia các văn bản theo đơn vị, theo lĩnh vực chuyên ngành đào tạo, khoa học công nghệ, kinh tế, pháp luật, văn hóa-xã hội…, theo thể loại như : nghị định, quyết định, báo cáo, đơn từ..., v.v… Hệ quả thường thấy là việc xử lý văn bản thủ công luôn gặp sai sót, nhầm lẫn và nhiều khi không kịp tiến độ yêu cầu. Từ nhu cầu thực tiễn cần đổi mới hiệu quả hoạt động hành chính văn phòng (HCVP) tại trường Đại học Champasak, luận án đã nhằm đến mục tiêu giải quyết bài toán PLVB tiếng Lào tự động trên cơ sở giải quyết bài toán XL NNTN cho tiếng Lào. Hiện nay ở Lào, có rất ít công trình nghiên cứu thuộc lĩnh vực XL NNTN được áp dụng thực tiễn. Luận án không tìm cách phân tích nguyên nhân của những hạn chế này. Tuy nhiên, có thể nêu ra một số nguyên nhân chính mà chúng tôi phải tìm cách khắc phục. Trước hết là thực trạng hoạt động khoa học công nghệ tại nước CHDCND Lào chưa thực sự phát triển, nếu so sánh với các nước trong khối ASEAN, hay so sánh với nước láng giềng Việt Nam. Điều này dẫn đến có rất ít chuyên gia về lĩnh vực XL NNTN, đặc biệt là XL tiếng Lào. Mặc dù đã có nhiều hoạt động Tin học hóa, sử dụng internet và các phương tiện truyền thông hiện đại trong mọi khía cạnh của cuộc sống, nhưng chưa thật đều khắp nước Lào và vắng thiếu sự trao đổi chuyên môn, hợp tác nghiên cứu khoa học. Một nguyên nhân nữa là những đặc điểm chính tả của tiếng Lào trong vấn đề xử lý văn bản. Nếu trong hệ thống chữ viết tiếng Việt, có thể xem mỗi từ có thể có ba tầng, trong đó tầng giữa là các phụ âm và/hoặc nguyên âm, tầng trên và tầng dưới là các dấu thanh, thì chính tả của tiếng Lào, kể cả tiếng Thái và tiếng Khmer, cũng sử dụng ba tầng (chân, thân và tóc) nhưng phức tạp hơn nhiều (xem hình 1 minh họa dưới đây). Chữ viết Lào khác về kiểu chữ nhưng có cấu trúc tương tự chữ viết Thái và Khmer. Cả ba ngôn 2
- ngữ này đều không sử dụng dấu khoảng cách (Space) giữa các từ trong câu. Chính sự vắng mặt của các dấu khoảng trống để phân cách các từ, hay âm tiết, đã dẫn đến hiện tượng nhập nhằng, đa nghĩa… gây khó khăn không nhỏ trong lĩnh vực XL NNTN nói chung, xử lý tiếng Lào trên máy tính nói riêng [38][45][47][49]. Cho đến thời điểm hoàn thành luận án này, vẫn chưa có những kết quả nào mới liên quan đến nội dung thực hiện của đề tài là tách từ và phân loại văn bản tiếng Lào. Tra trên google với từ khóa tiếng Anh “ Lao document Segmentation” hay “ Lao document Classification” hoặc tiếng Lào “ ”, “ ຈແ ເອ ະ ”. Có rất ít kết quả liên quan trong những năm gần đây. 1. Mục tiêu, đối tượng và phạm vi nghiên cứu Mục đích của đề tài : Đề tài tìm hiểu các đặc trưng chính tả của hệ viết tiếng Lào, các phương pháp tách từ và PLVB đã được đề xuất cho tiếng Anh, tiếng Thái và tiếng Việt, đánh giá hiệu quả của các phương pháp này, đề xuất được giải pháp tách từ hiệu quả, lựa chọn các phương pháp PLVB phù hợp và các điều kiện thử nghiệm, từ đó áp dụng giải quyết bài toán PLVB kết hợp tách từ tiếng Lào, thử nghiệm phân loại các VBHC của trường ĐH Champasack, nước CHDCND Lào và đánh giá các kết quả thử nghiệm. Đối tượng nghiên cứu : 1. Các bài toán liên quan đến lĩnh vực xử lý NNTN, XL tiếng Lào và đặc trưng chính tả và ngữ pháp của hệ thống chữ viết Lào. 2. Các phương pháp giải quyết bài toán tách từ và PLVB nói chung, giải quyết cho bài toán tách từ và PLVB tiếng Lào nói riêng. 3. Các hoạt động HCVP mang tính thực tiễn tại trưởng Đại học Champasak, nước CHDCND Lào. Phạm vi nghiên cứu : 1. Lĩnh vực trí tệ nhân tạo, XL NNTN, XL tiếng Lào, ngôn ngữ Lào và ba ngôn ngữ láng giềng là tiếng Việt, tiếng Thái và tiếng Khmer. 2. Vấn đề mã hoá và soạn thảo văn bản, các giải pháp xây dựng kho ngữ liệu, giải pháp tách từ, PLVB, học máy và Toán học thống kê. 3. Môi trường, công cụ lập trình để thử nghiệm giải quyết bài toán tách từ, PLVB HCVP tại trưởng Đại học Champasak. 3
- 2. Nhiệm vụ nghiên cứu và kết quả đạt được Để đạt được mục đích đã đề ra trên đây, luận án hướng đến ba nhiệm vụ chính như sau : 1. Nghiên cứu chuyên sâu về XL NNTN, các đặc trưng ngôn ngữ và chính tả tiếng Lào. Phân tích, đánh giá những kết quả xử lý tiếng Lào đã được công bố cho đến nay và phân tích hiện trạng các hoạt động HCVP mang tính thực tiễn tại trưởng Đại học Champasak. 2. Đề xuất giải pháp phân tách từ hiệu quả trong một văn bản tiếng Lào trên cơ sở xây dựng kho ngữ liệu từ đơn và cụm từ tiếng Lào, xây dựng cơ sở luật và máy suy diễn dựa trên các đặc trưng ngữ pháp của hệ viết Lào. 3. Tìm chọn các phương pháp PLVB hiệu quả cho tiếng Lào, đề xuất mô hình thử nghiệm PLVB kết hợp tách từ tiếng Lào sử dụng các giải pháp đề xuất và các kho ngữ vựng đã xây dựng. 3. Cấu trúc của luận án Sau phần mở đầu, nội dung của luận án gồm bốn chương như sau : Chương 1 giới thiệu nguồn gốc và một số đặc trưng cơ bản của tiếng Lào, so sánh đặc điểm ngôn ngữ với một số ngôn ngữ láng giềng Việt Nam, Thái và Khmer, phân tích bối cảnh XL NNTN và xử lý tiếng Lào và đặt bài toán PLVB kết hợp giải quyết bài toán tách từ tiếng Lào. Chương 2 trình bày tổng quan về lý thuyết phân tách từ, PLVB, trong đó, luận án tập trung giới thiệu các thuật toán phân tách từ, PLVB và các hướng nghiên cứu liên quan, từ đó đề xuất giải pháp và các bước triển khai thử nghiệm PLVB tiếng Lào áp dụng thử nghiệm phục vụ các hoạt động HCVP tại trường Đại học Champasak, nước CHDCND Lào. Chương 3 tập trung đề xuất giải pháp xây dựng mô hình nhận diện từ giải quyết bài toán tách từ trong văn bản tiếng Lào dựa trên cơ sở luật về đặc trưng ngữ pháp và tính chất của nguyên âm, phụ âm, xây dựng cơ sở dữ liệu (CSDL) chữ cái, các kho ngữ vựng từ đơn và cụm từ, xây dựng máy suy diễn (MSD) phục vụ giải quyết bài toán tách từ kết hợp xử lý nhập nhằng. Chương 4 phân tích hoạt động HCVP tại trường Đại học Champasak, xây dựng kho văn bản HCVP theo một số lĩnh vực được chọn, trình bày các bước thử nghiệm từ kho VBHC tiếng Lào đã xây dựng, đánh giá kết quả thử nghiệm PLVB dựa trên hướng 4
- tiếp cận SVM và sử dụng mạng nơ ron RBF kết hợp sử dụng các phương pháp tách từ CRF và sử dụng cơ sở luật, tiến hành đánh giá so sánh các kết quả thử nghiệm. Sau bốn chương trên là phần kết luận và hướng phát triển của đề tài. Phần cuối luận án là danh mục các tài liệu tham khảo, danh mục các công trình khoa học đã được công bố và các phụ lục liên quan. 4. Đóng góp chính của luận án 1. Đề xuất mô hình cấu trúc từ đơn dựa trên đặc trưng của hệ viết tiếng Lào, từ đó xây dựng cơ sở luật và máy suy diễn cho phép nhận diện và bóc tách từ đơn trong một văn bản để giải quyết bài toán tách từ và PLVB tiếng Lào. 2. Xây dựng kho ngữ vựng từ đơn và từ ghép, kho văn bản HCVP tiếng Lào trên cơ sở phân tích hiện trạng tại trường Đại học Champasack, CHDCND Lào để phục vụ thử nghiệm tách từ và PLVB tiếng Lào. 3. Đề xuất giải pháp tách từ sử dụng phương pháp so khớp tối đa kết hợp sử dụng cơ sở luật để xử lý nhập nhằng từ các kho ngữ vựng đã xây dựng mới. 4. Cài đặt hệ thống thử nghiệm, đánh giá kết quả sử dụng các phương pháp PLVB kết hợp các phương pháp tách từ tiếng Lào, cho phép ứng dụng thực tiễn phục vụ các hoạt động HCVP tại trường Đại học Champasack. 5
- CHƯƠNG 1 VẤN ĐỀ XỬ LÝ TIẾNG LÀO 1.1. TÌM HIỂU TIẾNG LÀO 1.1.1. Giới thiệu tiếng Lào Nước CHDCND Lào có bốn dòng ngôn ngữ chính là Lào-Tai, Mon-Khơme, Chin-Tybệt và H'Mông-Miền thuộc 49 dân tộc khác nhau[46]. Dòng ngôn ngữ Lào-Tai (hay hệ ngôn ngữ Lào-Thái) có 8 dân tộc là Lào, Xaek, Nhouan, Tai, Thai-Neua, Phouthai, Yang và Lue, chiếm 55% dân số cả nước. Tám dân tộc này sinh sống ở các vùng đồng bằng dọc sông Mê Kông, các nhánh sông đổ về Mê Kông, có nghề nghiệp chủ yếu là trồng lúa nước và đánh bắt cá. Dòng ngôn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang, Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, Ta- Oy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong, Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou và Harak, chiếm 27% của dân số cả nước. Những dân tộc này thường sống ở vùng đồng bằng và trung du, có nghề nghiệp chủ yếu là trồng lúa và làm nương. Dòng ngôn ngữ Chin-Tybệt có 7 dân tộc : Singsily, Sila, Lahu, LoLo, Hor, Akha, Hanyi, chiếm 11% của dân số cả nước. Những dân tộc này thường sống ở phía Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu là làm nương rẫy. Dòng ngôn ngữ H'Mông-Miền chỉ có hai dân tộc là Hmong và Iewmien, chỉ chiếm 7% của dân số cả nước. Hai dân tộc này sinh sống ở vùng núi cao miền Bắc, có nghề nghiệp chủ yếu là làm nương rẫy và chăn nuôi gia súc. Tiếng Lào-Tai là Quốc ngữ, được dùng trong giao tiếp chính thống và trong các VBHC của nhà nước. Luận án tập trung xử lý tiếng Lào-Tai, ngôn ngữ chính thức được dùng trong nước Lào, gọi là tiếng Lào, tương tự tiếng Việt Kinh ở Việt Nam. 6
- 1.1.2. Nguồn gốc của tiếng Lào Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai, chịu ảnh hưởng của tiếng Phạn (梵 語; sa. saṃskṛtā vāk संस्कृता वाक् , một ngôn ngữ cổ của Ấn Độ), ra đời từ khoảng thế kỷ XVI, là ngôn ngữ truyền thống của Hoàng tộc Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo, một ngôn ngữ hỗn hợp ở bán đảo Đông Nam Á. Tiếng Lào, là ngôn ngữ đơn âm có thanh điệu, đa số vay mượn từ những ngôn ngữ cổ của Ấn Độ, như Paly, Sansakit của Đạo Phật, được phát triển rõ ràng vào giữa thế kỷ XX. Cũng có những vay mượn từ tiếng Khơme, tiếng Pháp, tiếng Anh và cả các ngôn ngữ khác trong khu vực. Căn cứ vào nhiều tài liệu của các nhà ngôn ngữ Lào, người Lào đã sử dụng chữ cái Lào từ thế kỷ I (thời đại nước Lào cổ điển). Chữ cái mà người Lào đã sử dụng trong thời kỳ này là một kiểu chữ kế thừa từ chữ Sansakit của Đạo Phật trường phái Đại Thừa. Tiếng Lào có những thanh điệu và phát âm gần gũi với tiếng Thái. Khác với tiếng Việt, tiếng Anh và các ngôn ngữ Châu Âu, tiếng Lào không sử dụng các dấu khoảng trống (Space) giữa các chữ viết. Chữ viết Lào tương tự một số ngôn ngữ thuộc nhóm Mon-Khơme, Mông-Dao…, như tiếng Thái, tiếng Khmer, tiếng Mianma. Hệ thống chữ viết Lào phát triển trong một thời gian lâu dài, pha trộn với nhiều hệ ngôn ngữ khác như Thái, Ấn Độ,... nhưng phần lớn thuộc dòng ngôn ngữ Lào-Tai. Nhiều nhà ngôn ngữ, nhiều nhóm nghiên cứu đã thực hiện nhiều công việc để phát triển và giữ gìn chữ cái Lào. Năm 1975, Bộ Giáo dục Lào công bố sử dụng tiếng Lào chính thức. Vào lúc này chữ cái Lào mới được phát triển rõ ràng, hiện đại và dễ sử dụng đối với người dân và tồn tại cho đến ngày nay [34][46][47][49]. 1.1.3. Những yếu tố ngữ pháp tiếng Lào 1. Bảng chữ cái tiếng Lào Bảng chữ cái tiếng Lào gồm 3 nhóm : phụ âm, nguyên âm và dấu thanh và chữ số [6][39][47][49]. 1. Phụ âm : Có 33 phụ âm được chia ra hai loại : phụ âm đơn và phụ âm ghép. Các phụ âm đơn gồm : 7
- ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ໝ, ໜ, ຫວ, ຫ, ຫງ, ຫຍ. Được chia 3 nhóm thấp, trung và cao. Các phụ âm cao và trung có sự phát âm gần giống như nhau. Nhóm thấp gồm : ຂ, ສ, ຖ, ຜ, ຝ, ຫ. Nhóm trung gồm : ກ, ຈ, ດ, ຕ, ບ, ປ, ຢ, ອ. Nhóm cao gồm : ງ, ຄ, ຊ, ຍ, ທ, ນ, ພ, ຟ, ມ, ລ, ວ, ຮ, ຣ. 2. Nguyên âm : Có 28 nguyên âm được chia ra hai loại : nguyên âm dài và nguyên âm ngắn. Các nguyên âm dài gồm : າ, ີ, ີ, ີ, ເ, ໂ, ີ, ໄ, ເີາ, ີາ, ໃ, ແ, ີວ, ເີ, ເ ອ, ເ-ຍ, ເີຍ. Các nguyên âm ngắn gồm : ະ, ີ, ີ, ີ, ເ-ະ, ແ-ະ, ໂ-ະ, ເ-າະ, ວະ, ເີ, ເີອ. 3. Dấu thanh : Tiếng Lào có 4 dấu thanh : ີ, ີ, ີ, ີ và 3 dấu cuối : ຯ, ໆ, ີ. Ví dụ mái ệc ໄມເອກ, mái thô ໄມໂທ, mái tri ໄມຕ, mái chặt -ta -wa ໄມຈດຕະວາ. Khi viết, vị trí thanh điệu được đặt ở phụ âm hoặc ở nguyên âm tùy vào vị trí của nguyên âm trong âm tiết (khác với tiếng Việt chỉ đặt ở nguyên âm). Ngoài ra, âm sắc thanh điệu tiếng Lào không hoàn toàn trùng khớp với thanh điệu tiếng Việt. 4. Chữ số : Có 10 chữ số tương ứng với các số từ 0 đến 9 : ໐, ໑, ໒, ໓, ໔, ໕, ໖, ໗, ໘, ໙. Cách viết chữ số Lào tuân theo hệ thống số chuẩn thông thường. Ví dụ : ໒໐໐໖ (2006), ໑໙,໗໕ (+19.75), -໗,໕ (-7,5), v.v… (luận án quy ước đặt nghĩa tiếng Việt của một từ, hay câu tiếng Lào giữa cặp ngoặc đơn). 8
- 2. Hệ thống từ vựng tiếng Lào Tiếng Lào là ngôn ngữ đơn âm (một từ chỉ có một âm tiết). Cách tạo từ cũng tương tự tiếng Việt, mỗi từ được tổ hợp từ các chữ cái (phụ âm, nguyên âm) và các dấu thanh. Từ vựng tiếng Lào có hai loại là từ đơn (giản) và từ phức (hợp). Từ phức gồm từ ghép, từ láy. 1. Từ đơn : Từ đơn chỉ có một âm tiết. Một âm tiết có ít nhất 2 ký tự gồm có phụ âm và nguyên âm. Âm tiết dài nhất có 7 ký tự. Ví dụ từ đơn có 2 ký tự (quy ước đặt phát âm IPA của một từ tiếng Lào giữa cặp gạch chéo) gồm một âm tiết : ຂ / khor / (điều khoản) gồm phụ âm ຂ và nguyên âm Ví dụ từ có 2 âm tiết : ໂຮງຮຽນ (trường học) /ໂຮງ/ຮຽນ/ Từ có 6 âm tiết : ມະຫາວທະຍາໄລ (đại học) /ມະ/ຫາ/ວ/ທະ/ຍາ/ໄລ/ Trong cấu tạo từ đơn, có tám phụ âm : ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ vừa là phụ âm đầu vần vừa được sử dụng làm phụ âm cuối từ, phụ âm khác chỉ xếp đầu vần của từ. Khi tám phụ âm này dùng làm phụ âm cuối vần, cần đặt sau các nguyên âm lần lượt từ -າ , ີ, ີ,… đến ເ-ຍ, không đứng cuối vần với các nguyên âm : ໄ, ເີາ, ີາ, ໃ. Các từ có các phụ âm hỗn hợp đứng đầu vần như : ກວ, ຂວ, ຄວ, ງວ được xếp sau các từ có phụ âm cuối vần chót của từ đó. Cuối từ nếu ghép với nguyên âm và hai dấu đặc biệt như : ີ, ີ thì trở thành nguyên âm ghép như : າກ, ີກ, ີກ, ີກ, ເີກ, ເີກ, າງ, ີງ, ີງ ,ີງ, v.v… Có thể mô hình hoá cấu trúc từ tiếng Lào theo ba tầng lần lượt từ dưới lên là chân (tầng 3), thân (tầng 2) và tóc (tầng 1). Tầng 1 gồm dấu thanh điệu và các nguyên âm trên . Tầng 2 gồm có các phụ âm trung tâm và phụ âm ghép ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ຫນ, ຫມ, ຫວ, ຫງ, ຫຍ, ຫລ. 9
- Tầng 3 là một nguyên âm dưới trong số nguyên âm . Hình dưới đây minh hoạ cấu trúc ba tầng của một từ (hay âm tiết) tiếng Lào. Dấu thanh Tóc (tầng 1) Nguyên âm trên ຫ Thân (tầng 2) Thân chữ ກ, ຂ, ຄ,… ຈ, ສ, Chân (tầng 3) Nguyên âm dưới . Hình 1.1. Cấu trúc ba tầng của chữ Lào. 2. Từ ghép : Từ ghép được ghép lại từ hai từ đơn trở lên, mang một nghĩa nào đó xác định. Có năm dạng ghép : ghép hai từ đơn có nghĩa khác nhau, ghép hai từ đơn có nghĩa tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn (cụm/nhóm từ), ghép các từ của tiếng Pali và Sansakit. Ví dụ ghép hai từ đơn có nghĩa khác nhau : /ຂ/ຕກ/ລງ/ /khor tốc lông/ (nghị định) được ghép từ hai từ ຂ / khor / (cầu) và ຕກລງ / tốc lông / (đồng ý). Ví dụ ghép hai từ đơn có nghĩa tương đương : /ແຈງ/ການ/ /cheng karn/ (thông báo) được ghép từ hai từ ແຈງ /cheng/ (sang ) và ການ /karn/ (các việc). Ví dụ ghép hai từ đơn có nghĩa gần giống nhau : /ລາຍ/ງານ/” /lai ngan/ (thông báo) được ghép từ hai từ ລາຍ /lai/ (sóc) và ງານ /ngan/ (việc). Ví dụ ghép nhiều từ đơn : /ກ ນປ ກ ດ ຕງຕງ /Lễ công bố quyết định bổ nhiệm cán bộ / Ví dụ ghép các từ của tiếng Pali và Sansakit : /ປ ກ ສ ນຍ ບດ / Bằng tốt nhiệp 3. Từ láy : Từ láy có hai dạng tiêu biểu : láy bộ phận và láy hoàn toàn. Ví dụ láy bộ phận : 10
- ໜອຍໜງ /ໜອຍ/ໜງ/ /noi noeng/ (một ít) ຈຈ” /ຈ//ຈ /chùu chìi/ (quấy rầy) Ví dụ láy hoàn toàn : ໄວໄວ /ໄວ/ໄວ /wai wai/ (nhanh nhanh) ຊາຊາ /ຊາ/ຊ/າ /xàa xàa/ (chậm chậm),... Ngoài ra còn có từ vay mượn của ngôn ngữ khác Ví dụ từ vay mượn : ເຝ /fờơ/ (Phở) ໂອໂຕມາຕກ”/ໂອ/ໂຕ/ມາ/ຕກ/ /ô-tô-ma-tic/ (tự động) 3. Cấu trúc câu trong tiếng Lào Tiếng Lào có hai loại câu : câu đơn và câu ghép. 1. Câu đơn Tương tự quan điểm ngữ pháp tiếng Việt, trong ngữ pháp tiếng Lào, câu đơn đơn gồm ba phần : chủ ngữ (danh từ hay đại từ), vị ngữ (động từ) và bổ ngữ. Ví dụ câu đơn : ກ ນລງທ ບຽນຮຽນພາສາວຽດນາມທມ ຫ ວທ ຍ ລຈ ປ ສກ (Sinh viên đăng ký học tiếng Việt tại trường Đại học Champasack). Được phân tách tương ứng như sau : | ກ ນ|ລງທ ບຽນ|ຮຽນ|ພາສາວຽດນາມ|ທ|ມ ຫ ວທ ຍ ລ|ຈ ປ ສກ | (| Sinh viên | đăng ký | học | tiếng Việt | tại | trường Đại học Champasack |). 2. Câu ghép : Câu ghép có nhiều vế câu ghép lại với nhau để mở rộng ý nghĩa của câu. Vế câu trong câu ghép thường có cấu tạo giống câu đơn. Giữa các vế câu ghép có những mối quan hệ nhất định để nối với nhau. Tương tự tiếng Việt, có ba cách nối : nối bằng từ ngữ có tác dụng nối, nối trực tiếp, không dùng từ ngữ có tác dụng nối, mà dùng dấu phẩy, dấu chấm phẩy hoặc dấu hai chấm và nối bằng quan hệ từ. Có hai cách nối bằng quan hệ từ : - Dùng các từ : và, rồi, thì, nhưng, hay, hoặc. Ví dụ : 11
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Tích hợp GIS và kỹ thuật tối ưu hóa đa mục tiêu mở để hỗ trợ quy hoạch sử dụng đất nông nghiệp
30 p | 178 | 27
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu lựa chọn một số thông số hợp lý của giá khung thủy lực di động dùng trong khai thác than hầm lò có góc dốc đến 25 độ vùng Quảng Ninh
27 p | 201 | 24
-
Luận án Tiến sĩ Kỹ thuật: Thuật toán ước lượng các tham số của tín hiệu trong hệ thống thông tin vô tuyến
125 p | 125 | 11
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu tác động của quá trình đô thị hóa đến cơ cấu sử dụng đất nông nghiệp khu vực Đông Anh - Hà Nội
27 p | 139 | 10
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu định lượng kháng sinh Erythromycin trong tôm, cá bằng kỹ thuật sóng vuông quét nhanh trên cực giọt chậm và khả năng đào thải
27 p | 152 | 8
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu ứng dụng công nghệ trắc địa hiện đại trong xây dựng và khai thác đường ô tô ở Việt Nam
24 p | 165 | 7
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu chế độ cháy do nén hỗn hợp đồng nhất (HCCI) sử dụng nhiên liệu n-heptan/ethanol/diesel
178 p | 12 | 6
-
Luận án Tiến sĩ Kỹ thuật xây dựng công trình giao thông: Nghiên cứu ứng xử cơ học của vật liệu và kết cấu áo đường mềm dưới tác dụng của tải trọng động trong điều kiện Việt Nam
162 p | 14 | 6
-
Luận án Tiến sĩ Kỹ thuật năng lượng: Nghiên cứu mô hình dự báo ngắn hạn công suất phát của nhà máy điện mặt trời sử dụng mạng nơ ron hồi quy
120 p | 12 | 6
-
Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu giải pháp nâng cao an toàn thông tin trong các hệ thống điều khiển công nghiệp
145 p | 10 | 5
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu và phát triển một số kỹ thuật che giấu thông tin nhạy cảm trong khai phá hữu ích cao
26 p | 10 | 4
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu tối ưu hóa một số thông số công nghệ và bôi trơn tối thiểu khi phay mặt phẳng hợp kim Ti-6Al-4V
228 p | 8 | 4
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu áp dụng công nghệ dầu từ trường trong hệ thống phanh bổ trợ ô tô
202 p | 7 | 2
-
Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu thiết kế hệ điều khiển ổ từ dọc trục có xét ảnh hưởng dòng xoáy
161 p | 9 | 2
-
Luận án Tiến sĩ Kỹ thuật hóa học: Nghiên cứu tổng hợp một số hợp chất furan và axit levulinic từ phế liệu gỗ keo tai tượng
119 p | 8 | 2
-
Luận án Tiến sĩ Kỹ thuật ô tô: Nghiên cứu điều khiển hệ thống động lực nhằm cải thiện hiệu quả sử dụng năng lượng cho ô tô điện
150 p | 6 | 1
-
Luận án Tiến sĩ Kỹ thuật: Nghiên cứu ứng dụng lý thuyết độ tin cậy phân tích ổn định hệ vỏ hầm thủy điện và môi trường đất đá xung quanh
157 p | 8 | 1
-
Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu hệ thống thông tin quang sử dụng điều chế đa mức dựa trên hỗn loạn
141 p | 2 | 1
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn