Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên
lượt xem 4
download
Bài viết Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đề xuất giải pháp kết hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên
- 120 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING Đặng Đại Thọ1, Huỳnh Công Pháp1, Doãn Hằng Diệu2 1 Trường Cao Đẳng Công nghệ Thông tin, Đại học Đà Nẵng; Email: ddtho.dt@gmail.com, hcphap@gmail.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: doanhangdieu@gmail.com Tóm tắt - Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ Abstract - Extraction and classification of named entities from liệu, phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề corpora in Natural Language Processing (NLP) is an important cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ initial step for extending and building semantic oriented corpora. nghĩa. Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện Though there have been many researches on the extraction and với nhiều ngôn ngữ. Tuy nhiên, đến nay vẫn chưa có công trình nào classification of information from internet resources in foreign nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ languages, no research has dealt with corpora in NLP. Moreover, liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa, các phương pháp trích information extraction and classification methods currently used rút và phân loại thông tin đã sử dụng như nêu trên đều có những nhược such as rule based, machine learning or hidden Markov have điểm riêng của nó. Trong bài báo này, chúng tôi đề xuất giải pháp kết shown some drawbacks. In this paper, we propose a solution hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan combining Maximum Matching method and contextual relation hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại analysis of entities in the text for extracting and classifying named các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự entities from corpora in NLP. In the first stage of our research, this nhiên. Giải pháp này bước đầu đã mang lại kết quả rất đáng khích lệ. proposed solution has given positive results. Từ khóa - trích rút thông tin; phân loại thông tin; kho ngữ liệu; trích Key words - Information extraction; information classification; rút tên riêng; phân loại tên riêng. named entity extraction; named entity classification; corpora. ngữ liệu, các kho ngữ liệu cần được mở rộng theo hướng 1. Giới thiệu ngữ nghĩa bằng cách xây dựng thêm tầng ngữ nghĩa cho Trích rút thông tin là bài toán quan trọng trong lĩnh vực kho ngữ liệu. Tầng ngữ nghĩa có thể đơn giản là các chú xử lý ngôn ngữ tự nhiên, trong đó trích rút thực thể danh từ thích, các từ/ cụm từ đồng nghĩa, các từ/cụm từ trái riêng theo thể loại có ý nghĩa thiết thực nhằm phục vụ cho nghĩa,… Ở mức độ phức tạp, tầng ngữ nghĩa được xây nhiều bài toán khác nhau như hỗ trợ web ngữ nghĩa, xây dựng mạng lưới ontology, trong đó mỗi ontology gồm tập dựng hệ thống hỏi đáp, xây dựng các máy tìm kiếm hướng hợp các lớp thuộc một lĩnh vực hẹp nào đó [1]. thực thế theo các đặc trưng riêng biệt… Như vậy, để có được các kho ngữ liệu theo hướng ngữ Theo đó, bài toán trích rút và phân loại các thực thể nghĩa thì mỗi tài liệu trong đó phải được tổ chức, biểu diễn danh từ riêng đã được quan tâm nghiên cứu và thực hiện dạng dữ liệu “thông minh”, tức là chỉ khả năng kết hợp, phổ biến trên thế giới và trong nước [2], [3]. Tuy nhiên, đa phân lớp và khả năng suy diễn trên dữ liệu đó [3]. Bài toán số các công trình này nhằm khai thác và trích rút tên riêng trích rút và phân loại các thực thể danh từ riêng mà chúng từ các nguồn dữ liệu Internet và các văn bản thông thường. tôi đề cập trong bài báo này với mục đích làm tiền đề cho Việc áp dụng bài toán này để khai thác và trích rút thực thể việc giải quyết và đặt nền móng cho việc xây dựng kho ngữ danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ liệu theo hướng ngữ nghĩa. tự nhiên là rất cần thiết nhưng vẫn chưa được quan tâm nghiên cứu. 2. Một số hướng tiếp cận trích chọn thực thể danh từ riêng Việc xây dựng và mở rộng các kho ngữ liệu theo hướng ngữ nghĩa là rất quan trọng, bởi vì đa số các kho ngữ liệu Trong tiếng Việt, danh từ riêng là những danh từ để gọi phục vụ xử lý ngôn ngữ tự nhiên nói chung và dịch tự động riêng từng người, từng tổ chức, từng địa phương,… Ví dụ nói riêng đều tồn tại dưới dạng tập hợp các văn bản phi cấu như Nguyễn Trãi, Võ Nguyên Giáp, Hội người cao tuổi, trúc, có định dạng hoặc không định dạng (thuần túy văn Hà Nội,... Trích chọn thực thể danh từ riêng là tìm kiếm và bản). Điều này gây nên những hạn chế rất lớn cho các hệ phân lớp các từ vào lớp (nhóm) đối tượng như tên người, thống khai thác các kho ngữ liệu (hệ tìm kiếm, máy dịch,...) tổ chức, địa danh,…Trích chọn thực thể danh từ riêng chính trong việc so khớp, tìm kiếm thông tin. Bởi lẽ, đối với các là một trong những yêu cầu đầu tiên của hầu hết các hệ kho ngữ liệu loại này, các giải thuật tìm kiếm, so khớp đã thống trích chọn các thông tin phức tạp [3]. Các nghiên cứu được xây dựng cho các hệ thống khai thác chỉ dừng lại ở về rút trích thông tin được phân thành ba hướng tiếp cận mức so khớp dạng chuổi ký tự hoặc văn bản như tính như sau: khoảng cách hai chuỗi hoặc tính xác suất,… [1]. 2.1. Hướng tiếp cận thủ công sử dụng hệ luật [2], [3] Do đó, để nâng cao hơn nữa hiệu quả khai thác các kho Sử dụng hệ luật là một trong những phương pháp truyền ngữ liệu hay cải tiến hiệu quả và tính chính xác của quá thống khi xây dựng các hệ thống rút trích thông tin. Những trình so khớp và tìm kiếm của các hệ thống khai thác kho hệ thống này thường dựa trên các đặc trưng như cú pháp
- ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 1 121 của thông tin (ví dụ từ loại của từ), ngữ cảnh của thông tin (từ đứng trước, từ đứng sau,…), hình thái của thông tin (chữ hoa, chữ thường, số,...) kết hợp với một bộ từ điển để viết thành các luật. Ưu điểm của phương pháp này là hệ thống xử lý trên dữ liệu thô mà không cần thực hiện tiền xử lý dữ liệu. Bên cạnh đó, hệ thống có thể hoạt động và thu được kết quả Hình 2. Maximum Entropy Markov Models [10] ngay khi hình thành các luật. Tuy vậy, để xây dựng một hệ Tuy nhiên khi áp dụng vào thực tế, với tập dữ liệu huấn luật đạt chất lượng, hiệu quả là một công việc rất khó khăn, luyện khá lớn, khả năng phân nhánh của các trạng thái cao mất nhiều chi phí về thời gian và công sức và tiền bạc, đặc thì tính chính xác của mô hình bị ảnh hưởng rất lớn. Đây biệt là khi xây dựng hệ luật từ ban đầu. chính là hạn chế lớn nhất của mô hình MEMMs. Trong khi 2.2. Tiếp cận sử dụng các phương pháp học máy đó, do tách riêng xác suất chuyển trạng thái và xác suất sinh 2.2.1. Mô hình Markov ẩn (Hidden Markov Models - quan sát nên mô hình HMM không gặp phải vấn đề này. HMM) [2], [5] 2.2.3. Mô hình ngẫu nhiên (Conditional Random Fields - Mô hình sử dụng khái niệm các trạng thái ẩn và khái CRFs) [2], [7] niệm quan sát – các đối tượng dữ liệu được sinh ra bởi trạng thái ẩn. Trong trường hợp trích chọn thông tin, mỗi từ hoặc mỗi đoạn trong câu được xem như một quan sát Xi, các trạng thái ẩn Yi chính là các nhãn cần gắn cho từ hay quan sát Xi. Nhãn cần gán cho từ có thể là từ loại (danh từ, động từ, tính từ,…), hay định danh người, địa danh,…. HMM là Hình 3. Mô hình Conditional Random Fields [10] một mô hình sinh, mô tả quá trình sinh ra các dữ liệu quan sát bằng cách xác định xác suất đồng thời của chuỗi quan CRFs là mô hình dựa trên xác xuất điều kiện, chúng có sát và chuỗi trạng thái. Chuỗi quan sát được sinh ra theo thể tích hợp được các thuộc tính đa dạng của chuỗi dữ kiệu quá trình bắt đầu từ trạng thái đầu tiên, sinh ra một quan quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác sát tương ứng với trạng thái đó, chuyển tới trạng thái thiếp với MEMMs, CRFs là một mô hình đồ thị vô hướng. Điều theo, sinh ra một quan sát tương ứng với trạng thái đó, này cho phép CRFs có thể định nghĩa phân phối xác suất chuyển tới trạng thái tiếp theo,…. của toàn bộ trạng thái thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên. Khác với mô hình MEMM, CRF là mô hình đồ thị vô hướng. Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mô hình MEMMs. Chính vì cách mô hình hóa Hình 1. Mô hình Markov ẩn [10] như vậy mà CRFs giải quyết được vấn đề mà MEMMs gặp HMM được sử dụng rộng rãi cho việc trích chọn thông phải. Tuy nhiên,với CRFs, thời gian tính toán tương đối tin văn bản. Tuy vậy, do tập quan sát là các từ nên khó tích chậm trong trường hợp dữ liệu huấn luyện tương đối lớn. hợp các đặc trưng phụ thuộc hoặc liên quan lẫn nhau như 2.3. Hướng tiếp cận lai [4] vị trí các từ trong câu, chữ cái đầu tiên viết hoa hay không, cả từ có viết hoa hay không, vị trí các từ trong văn bản, từ Tiếp cận lai là kết hợp sử dụng hệ luật và các phương có bắt đầu bằng số hay không,…Mặt khác, trong các bài pháp học máy, nhằm sử dụng được ưu điểm của cả hai toán tập quan sát thường rất lớn, khó liệt kê hết dược, điều hướng tiếp cận này. Đến nay chưa có một nghiên cứu nào đó làm giảm sự chính xác khi thực hiện, đồng thời làm tăng về hướng tiếp cận này đối với tiếng Việt nhưng cũng đã có độ phức tạp của bài toán. Bên cạnh đó, trong mô hình một vài nghiên cứu có kết quả khả quan với tiếng Trung MHH, quan sát thời điểm t chỉ phụ thuộc vào trạng thái t, Quốc, ngôn ngữ được xem là khá gần gũi với tiếng Việt. mỗi quan sát được xử lý như một đơn vị riêng biệt, không Đây có thể sẽ là hướng quan trọng trong tương lai. phụ thuộc vào các quan sát trong chuỗi. Tuy nhiên, trong 3. Giải pháp đề xuất thực tế hầu hết các chuỗi dữ liệu không được biểu diễn chính xác như tập hợp các đối tượng riêng biệt. Từ phân tích trên cho thấy các mô hình HMM, MEMM, CRFs đều có những ưu nhược điểm nhất định. Một trong 2.2.2. Mô hình Maximum Entropy Markov Models những nhược điểm đó là phải tiến hành tiền xử lý dữ liệu. (MEMMs) [2], [6] Cả ba mô hình đều phải sử dụng các công cụ để thực hiện Giống như HMM, MEMMs cũng là mô hình hữu hạn phân lớp dữ liệu trước khi đưa chúng vào xử lý, việc đó trạng thái theo xác suất. Tuy vậy, trong khi HMM quan sát khiến cho hệ thống trở nên cồng kềnh, tốn nhiều công sức, hiện tại chỉ phụ thuộc vào trạng thái hiện tại thì MEMMs thời gian và tiền bạc hơn. quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện Để khắc phục tình trạng trên, chúng tôi hướng đến giải tại mà còn phụ thuộc vào các trạng thái trước đó. Điều đó pháp nhận diện danh từ riêng ngay trên dữ liệu thô. Giải giúp cho MEMMs giải quyết được hai hạn chế nói trên của pháp đề xuất là sự kết hơp giữa thuật toán Maximum mô hình HMM.
- 122 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu Matching và phân tích mối quan hệ giữa các thành tố văn - Nếu không, tiếp tục kiểm tra cụm t1t2 có trong từ điển bản, cụ thể là quan hệ của thực thể cần kiểm tra với các không? thực thể tiền tố và hậu tố của nó. Việc sử dụng thuật toán o Nếu có, dịch chuyển khuôn sang phải 2 vị trí, khuôn Maximum Matching cần chuẩn bị một bộ từ điển tiếng sẽ chứa 3 tiếng t3, t4, t5. Tiếp tục kiểm tra cụm t3t4t5 có trong Việt. Dựa vào thuật toán này, chương trình so khớp thực từ điển không? thể cần kiểm tra với tập hợp từ vựng có trong từ điển nhằm t1 t2 t3 t4 t5 t6 t7 … tn loại bỏ những từ không phải danh từ riêng. Mục đích của bước này là loại bỏ tất cả các từ trong văn bản trùng khớp o Nếu không, kiểm tra t1 có trong từ điển không với các từ có trong từ điển bằng cách áp dụng hướng đi của Nếu có, dịch chuyển khuôn sang phải 1 vị trí, một trong những phương pháp phân đoạn từ là Maximum khuôn sẽ chứa 3 từ tố t2, t3, t4. Tiếp tục kiểm tra t2t3t4 có Matching [2], [8], [9]. Các từ còn lại sẽ là danh từ riêng. trong từ điển không? Ngoài ra, danh từ riêng hầu hết bắt đầu bằng chữ hoa, đây t1 t2 t3 t4 t5 t6 t7 … tn là một dấu hiệu dễ nhận dạng nhất. Nếu không, thêm t1 vào danh sách các từ tố Sau khi có danh sách các danh từ riêng, chúng ta tiến không có nghĩa rồi dịch chuyển khuôn sang phải 1 vị hành nhận biết các danh từ riêng đó thuộc lớp danh từ riêng trí. Lúc này khuôn sẽ chứa 3 từ tố t2, t3, t4. Tiếp tục kiểm nào. Chẳng hạn, Trần Hưng Đạo, Võ Nguyên Giáp, tra cụm 3 từ tố t2t3t4 có tồn tại trong từ điển không? Nguyễn Hoàng thuộc lớp Tên người; Hà Nội, Huế, Đà t1 t2 t3 t4 t5 t6 t7 … tn Nẵng thuộc lớp Địa danh. Việc nhận biết, phân loại danh từ riêng này dựa vào quan hệ giữa các thực thể trong văn Quá trình này sẽ lặp đi lặp lại cho đến hết danh sách từ bản và so khớp các thực thể tiền tố và hậu tố với tập hợp tố. các từ ngữ cảnh nhằm chỉ địa danh hoặc con. Kết thúc, chúng ta có một danh sách chứa các từ tố không có nghĩa. Kho ngữ liệu Bước 3: Gộp các từ tố đứng cạnh nhau trong danh sách từ tố không có nghĩa thành một cụm từ và lưu vào danh sách các cụm từ tố không có nghĩa. Tách từ i=0,j=i+1,k=i+2 Từ điển i
- ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 1 123 người,… Tên địa điểm thường đi sau các từ như: ở, đến, riêng của lớp danh từ riêng đang xét và xóa cụm từ tố đó trong, xã, huyện, thành phố,…. và đi trước các từ như: là khỏi danh sách cụm từ tố không có nghĩa. nơi, là địa danh, nằm ở, được xây dựng,…. Như vậy, việc o Nếu không, tìm ra hai từ tố nằm sát sau cụm từ tố phân lớp danh từ riêng theo các lớp danh từ riêng tên người đó trong văn bản, đây gọi là hậu tố hai từ tố. Tiếp tục kiểm hay địa điểm là quá trình phân tích quan hệ ngữ cảnh giữa tra hậu tố hai từ tố này có trong từ điển hậu tố hai từ tố hay thực thể cần kiểm tra với các thực thể tiền tố, hậu tố của nó không như đối với hậu tố một từ tố. theo ngữ cảnh. Nếu có, thêm cụm từ tố đó vào danh sách danh Việc phân tích quan hệ ngữ nghĩa và theo ngữ cảnh giữa từ riêng của lớp đang xét và đưa cụm từ đó ra khỏi danh các thực thể trong văn bản cần đến quá trình xây dựng từ sách cụm từ tố không có nghĩa. điển tập hợp các từ quan hệ ngữ cảnh nhằm chỉ địa danh và Nếu không, tiến hành tìm ra ba từ tố nằm sát sau con người. Mỗi lớp danh từ riêng có một từ điển tập hợp cụm từ tố đó trong văn bản. Quá trình thực hiện giống các từ quan hệ ngữ cảnh tương ứng. Quá trình nhận diện và với hậu tố hai từ tố và một từ tố. phân loại danh từ riêng gồm bốn bước sau: Tiếp tục duyệt phần tử tiếp theo trong danh sách cụm Bước 1: Kiểm tra dựa vào tiền tố. từ tố không có nghĩa cho đến hết. Từ danh sách các cụm từ tố không có nghĩa tìm được ở Bước 3: Từ danh sách cụm từ tố không có nghĩa còn trên, duyệt theo từng phần tử để kiểm tra tiền tố của nó. lại, tìm ra các cụm từ tố là chuỗi con của các cụm có trong Dựa vào danh sách các từ tố, tìm ra một từ tố nằm trước danh sách danh từ riêng của các lớp danh từ riêng. Nếu tìm phần tử đó trong văn bản (tiền tố một từ tố). Kiểm tra xem có trong danh sách danh từ riêng lớp nào thì thêm chuỗi từ tố này có nằm trong từ điển tiền tố một từ tố của lớp con đó vào danh sách danh từ riêng lớp đó và đưa nó ra danh từ riêng cần xác định hay không. khỏi danh sách cụm từ tố không có nghĩa. - Nếu có, thêm cụm từ tố đó vào trong danh sách danh Bước 4: Nhận diện các tên riêng không có tiền tố và hậu từ riêng của lớp danh từ riêng đó (tên người, địa danh, tiền tố nhưng đứng sát các tên riêng đã nhận dạng. Từ danh sách tệ,…) và đưa cụm từ đó ra khỏi danh sách cụm từ tố không các từ tố không có nghĩa còn lại, ta duyệt theo từng phần có nghĩa. tử của danh sách cụm từ tố không có nghĩa, tìm ra các phần tử đứng trước nó là khoảng trống và kế sát trước khoảng - Nếu không, kiểm tra từ tố này có trong từ điển tiền tố trống là dấu phẩy hoặc từ “và”. Nếu từ tố đứng sát trước một từ tố của các lớp danh từ riêng còn lại hay không. dấu phẩy “,” hoặc từ “và” đó là chuỗi con của một phần tử o Nếu có, thêm cụm từ tố đó vào danh sách danh từ trong danh sách danh từ riêng của lớp danh từ riêng nào thì riêng của lớp danh từ riêng đang xét và xóa cụm từ tố đó thêm nó là danh sách danh từ riêng lớp đó. khỏi danh sách cụm từ tố không có nghĩa. 3.4. Hiệu chỉnh kết quả nhận diện o Nếu không, tìm ra hai từ tố nằm sát trước cụm từ tố đó trong văn bản, đây gọi là tiền tố hai từ tố. Tiếp tục kiểm Tỉ lệ thành công phụ thuộc vào chất lượng bộ từ tra tiền tố hai từ tố này có trong từ điển tiền tố hai từ tố hay điển.Tuy nhiên, từ vựng từ tố Việt rất phong phú và đa dạng không như đối với tiền tố một từ tố. nên rất khó để xây dựng bộ từ điển đầy đủ, chính xác.Chính Nếu có, thêm cụm từ tố đó vào danh sách danh vì thế, hiệu suất của phương pháp này khó đạt được 100%. từ riêng của lớp đang xét và đưa cụm từ đó ra khỏi danh Để nâng cao hơn nữa hiểu quả của giải pháp này, hệ thống sách cụm từ tố không có nghĩa. cho phép người dùng hiệu chỉnh kết quả nhận diện bằng Nếu không, tiến hành tìm ra ba từ tố nằm sát tay. Hệ thống sẽ hiển thị danh sách các từ, cụm từ đã được trước cụm từ tố đó trong văn bản. Quá trình thực hiện nhận diện để người dùng có thể xác nhận, chỉnh sửa,… giống với tiền tố hai từ tố và một từ tố. 4. Kết quả thực nghiệm Tiếp tục duyệt phần tử tiếp theo trong danh sách cụm Dựa trên giải pháp thuật toán và quy trình trích rút và từ tố không có nghĩa cho đến hết. phân loại danh từ riêng đã nêu ở trên, chúng tôi đã tiến hành Kết thúc Bước 1, chúng ta tìm ra được các phần tử của xây dựng và cài đặt chương trình. các lớp danh từ riêng thông qua tiền tố của nó. 4.1. Đầu vào của chương trình Bước 2: Kiểm tra dựa vào hậu tố. - Tập hợp các tài liệu của các kho ngữ liệu phục vụ xử Tiếp tục tìm các phần tử của các lớp danh từ riêng từ lý ngôn ngữ tự nhiên đã được chuẩn hóa; các cụm từ tố không có nghĩa còn lại dựa vào hậu tố của - Từ điển danh sách các từ có nghĩa trong tiếng Việt; nó. Dựa vào danh sách các từ tố, xác định hậu tố một từ tố của cụm từ tố đó trong văn bản. Kiểm tra xem từ tố này có - Từ điển quan hệ ngữ cảnh chỉ địa danh và con người. nằm trong từ điển hậu tố một từ tố của lớp danh từ riêng 4.2. Đầu ra và kết quả của hệ thống cần xác định hay không. Đầu ra của hệ thống là danh sách danh sách chứa các - Nếu có, thêm cụm từ tố đó vào trong danh sách danh danh từ riêng được phân loại theo người và nơi chốn, bên từ riêng của lớp danh từ riêng đó (tên người, địa danh, tiền cạnh đó còn hiển thị một văn bản với nội dung giống như tệ,…) và đưa cụm từ đó ra khỏi danh sách cụm từ tố không văn bản đầu vào nhưng các danh từ riêng chỉ người được có nghĩa. đánh dấu màu đỏ đậm, danh từ riêng chỉ nơi chốn được - Nếu không, kiểm tra từ tố này có trong từ điển hậu tố đánh dấu màu xanh đậm. một từ tố của các lớp danh từ riêng còn lại hay không. o Nếu có, thêm cụm từ tố đó vào danh sách danh từ
- 124 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu vector hỗ trợ. Tuy nhiên các phương pháp này đều có những nhược điểm riêng của nó. Giải pháp của bài báo là kết hợp thuật toán Maximum Matching kết hợp với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản. Giải pháp này đã mang lại kết quả rất đáng khích lệ. Tuy nhiên, cũng giống như các công trình nghiên cứu tương tự, kết quả nghiên cứu còn hạn chế về việc xử lý trích rút các danh từ riêng trong một số trường hợp nhập nhằng. Hướng phát triển của bài báo là tập trung cải tiến nhằm nâng cao độ chính xác và xử lý các trường hợp nhập nhằng về danh từ riêng. TÀI LIỆU THAM KHẢO Hình 6. Kêt quả chương trình thực nghiệm [1] Đặng Đại Thọ, Huỳnh Công Pháp, Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa, Tạp chí Khoa học và Công nghệ, Đại 4.3. Đánh giá kết quả học Đà Nẵng – Số 12 (73), Quyển II, Năm 2013, Trang 110-116. Sau khi thử nghiệm chương trình trên với 12 tài liệu của [2] Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Trí Thành, Nguyễn Thu các kho ngữ liệu với các thể loại khác nhau mà bộ từ điển Trang, Nguyễn Cẩm Tú, 2009, Khai phá dữ liệu web, NXB Giáo đã đủ để nhận dạng các danh từ riêng chỉ người và nơi chốn dục. trong chúng. Chúng tôi đã thu được kết quả về độ chính [3] Lê Thu Thùy, 2009, Trích chọn thực thể tên người trong tiếng Việt, Khóa luận tốt nghiệp, ĐH Công nghệ - ĐHQG Hà Nội. xác trung bình là 84,51%, cụ thể các lần thử được thể hiện [4] Nguyễn Bá Đạt, 2009, Nhận dạng thực thể trong văn bản tiếng Việt, như Bảng 1 (Phần phụ lục). Khóa luận tốt nghiệp, ĐH Công nghệ - ĐHQG Hà Nội. [5] RaBiner, L.R (1989), A tutorial on hidden Markov models and 5. Kết luận selected applications in speech recognition, Proceeding of the IEEE, Trích rút và phân loại thực thể danh từ riêng theo tên và 77(2): 257-286, 1989. địa danh cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự [6] McCallum, A., Freitag, D., and Pereira. F., Maximum entropy Markov models for information extraction and segmentation, nhiên là một bước quan trọng và là tiền đề cho việc mở Proceeding of ICML-2000. rộng và xây dựng các kho ngữ liệu theo hướng ngữ nghĩa. [7] Lafferty, J. Mc Callum, A. and Pereira, F. (2001), Conditional Việc nghiên cứu trích rút và phân loại thông tin trong các random fields: probabilistic models for segmenting and labeling ngôn ngữ khác, đặc biệt là tiếng Anh đã được thực hiện rất sequence data, Proceedings of ICML-2001. nhiều. Tuy nhiên, đối với tiếng Việt và trên đối tượng là [8] Chih-Hao Tsai, MMSEG: A Word Identification System for các kho ngữ liệu thì chưa thực sự được quan tâm và đầu tư Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 1996. nghiên cứu. Việc trích rút và phân loại thông tin được thực [9] Md. Aminul Islam, Diana Inkpen, and Iluju Kiringa, A Generalized hiện bằng nhiều phương pháp như phương pháp dự trên hệ Approach to Word Segmentation Using Maximum Length luật (rule – based) đến các phương pháp học máy (machine Descending Frequency and Entropy Rate, University of Ottawa- learning) như mô hình Markov ẩn, mô hình cực đại hóa 2007. Entropy, mô hình ngẫu nhiên điều kiện, phương pháp máy [10] Jie Tang (2005), An Introduction for Conditional Random Fields, Literature Survey ¨C, Tsinghua. PHỤ LỤC Bảng 1. Bảng kết quả thử nghiệm trích rút và phân loại danh từ riêng theo tên người và nơi chốn Lần Tên văn Số lượng cần tìm Số lượng đã tìm Số lượng nhầm lẫn Số lượng không tìm ra Hiệu suất thử bản Người Nơi chốn Người Nơi chốn Người Nơi chốn Người Nơi chốn (%) 1 dl1 13 7 13 7 0 0 0 0 100 2 dl2 3 10 3 10 0 0 0 0 100 3 dl3 2 3 1 3 0 0 1 0 80 4 dl4 10 8 10 8 0 0 0 0 100 5 dl5 8 7 8 6 0 0 0 1 93,33 6 dl6 22 4 22 4 0 0 0 0 100 7 dl7 3 11 3 8 0 0 0 3 78,57 8 dl8 14 0 14 0 0 0 0 0 100 9 dl9 4 1 4 1 0 0 0 0 100 10 dl10 2 0 2 0 0 0 0 0 100 11 dl11 26 9 26 5 1 0 0 4 85,7 12 dl12 11 6 13 4 1 1 0 2 76,47 Hiệu suất trung bình 84,51 (BBT nhận bài: 25/09/2014, phản biện xong: 17/10/2014)
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Nghiên cứu giải pháp xây dựng hệ thống tổng hợp và hỗ trợ tư vấn việc làm
5 p | 23 | 6
-
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5c - Viện Công nghệ Thông tin và Truyền thông
64 p | 18 | 3
-
Giải pháp nhận dạng bệnh trên lúa từ thiết bị di động thông minh
6 p | 26 | 2
-
Rút gọn tập luật mờ trích xuất từ máy học Véc-tơ hỗ trợ bằng cách tích hợp thuật toán phân cụm k-Means
7 p | 25 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn