Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

15
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đề xuất giải pháp kết hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên

120 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING Đặng Đại Thọ1, Huỳnh Công Pháp1, Doãn Hằng Diệu2 1 Trường Cao Đẳng Công nghệ Thông tin, Đại học Đà Nẵng; Email: ddtho.dt@gmail.com, hcphap@gmail.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: doanhangdieu@gmail.com Tóm tắt - Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ Abstract - Extraction and classification of named entities from liệu, phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề corpora in Natural Language Processing (NLP) is an important cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ initial step for extending and building semantic oriented corpora. nghĩa. Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện Though there have been many researches on the extraction and với nhiều ngôn ngữ. Tuy nhiên, đến nay vẫn chưa có công trình nào classification of information from internet resources in foreign nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ languages, no research has dealt with corpora in NLP. Moreover, liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa, các phương pháp trích information extraction and classification methods currently used rút và phân loại thông tin đã sử dụng như nêu trên đều có những nhược such as rule based, machine learning or hidden Markov have điểm riêng của nó. Trong bài báo này, chúng tôi đề xuất giải pháp kết shown some drawbacks. In this paper, we propose a solution hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan combining Maximum Matching method and contextual relation hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại analysis of entities in the text for extracting and classifying named các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự entities from corpora in NLP. In the first stage of our research, this nhiên. Giải pháp này bước đầu đã mang lại kết quả rất đáng khích lệ. proposed solution has given positive results. Từ khóa - trích rút thông tin; phân loại thông tin; kho ngữ liệu; trích Key words - Information extraction; information classification; rút tên riêng; phân loại tên riêng. named entity extraction; named entity classification; corpora. ngữ liệu, các kho ngữ liệu cần được mở rộng theo hướng 1. Giới thiệu ngữ nghĩa bằng cách xây dựng thêm tầng ngữ nghĩa cho Trích rút thông tin là bài toán quan trọng trong lĩnh vực kho ngữ liệu. Tầng ngữ nghĩa có thể đơn giản là các chú xử lý ngôn ngữ tự nhiên, trong đó trích rút thực thể danh từ thích, các từ/ cụm từ đồng nghĩa, các từ/cụm từ trái riêng theo thể loại có ý nghĩa thiết thực nhằm phục vụ cho nghĩa,… Ở mức độ phức tạp, tầng ngữ nghĩa được xây nhiều bài toán khác nhau như hỗ trợ web ngữ nghĩa, xây dựng mạng lưới ontology, trong đó mỗi ontology gồm tập dựng hệ thống hỏi đáp, xây dựng các máy tìm kiếm hướng hợp các lớp thuộc một lĩnh vực hẹp nào đó [1]. thực thế theo các đặc trưng riêng biệt… Như vậy, để có được các kho ngữ liệu theo hướng ngữ Theo đó, bài toán trích rút và phân loại các thực thể nghĩa thì mỗi tài liệu trong đó phải được tổ chức, biểu diễn danh từ riêng đã được quan tâm nghiên cứu và thực hiện dạng dữ liệu “thông minh”, tức là chỉ khả năng kết hợp, phổ biến trên thế giới và trong nước [2], [3]. Tuy nhiên, đa phân lớp và khả năng suy diễn trên dữ liệu đó [3]. Bài toán số các công trình này nhằm khai thác và trích rút tên riêng trích rút và phân loại các thực thể danh từ riêng mà chúng từ các nguồn dữ liệu Internet và các văn bản thông thường. tôi đề cập trong bài báo này với mục đích làm tiền đề cho Việc áp dụng bài toán này để khai thác và trích rút thực thể việc giải quyết và đặt nền móng cho việc xây dựng kho ngữ danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ liệu theo hướng ngữ nghĩa. tự nhiên là rất cần thiết nhưng vẫn chưa được quan tâm nghiên cứu. 2. Một số hướng tiếp cận trích chọn thực thể danh từ riêng Việc xây dựng và mở rộng các kho ngữ liệu theo hướng ngữ nghĩa là rất quan trọng, bởi vì đa số các kho ngữ liệu Trong tiếng Việt, danh từ riêng là những danh từ để gọi phục vụ xử lý ngôn ngữ tự nhiên nói chung và dịch tự động riêng từng người, từng tổ chức, từng địa phương,… Ví dụ nói riêng đều tồn tại dưới dạng tập hợp các văn bản phi cấu như Nguyễn Trãi, Võ Nguyên Giáp, Hội người cao tuổi, trúc, có định dạng hoặc không định dạng (thuần túy văn Hà Nội,... Trích chọn thực thể danh từ riêng là tìm kiếm và bản). Điều này gây nên những hạn chế rất lớn cho các hệ phân lớp các từ vào lớp (nhóm) đối tượng như tên người, thống khai thác các kho ngữ liệu (hệ tìm kiếm, máy dịch,...) tổ chức, địa danh,…Trích chọn thực thể danh từ riêng chính trong việc so khớp, tìm kiếm thông tin. Bởi lẽ, đối với các là một trong những yêu cầu đầu tiên của hầu hết các hệ kho ngữ liệu loại này, các giải thuật tìm kiếm, so khớp đã thống trích chọn các thông tin phức tạp [3]. Các nghiên cứu được xây dựng cho các hệ thống khai thác chỉ dừng lại ở về rút trích thông tin được phân thành ba hướng tiếp cận mức so khớp dạng chuổi ký tự hoặc văn bản như tính như sau: khoảng cách hai chuỗi hoặc tính xác suất,… [1]. 2.1. Hướng tiếp cận thủ công sử dụng hệ luật [2], [3] Do đó, để nâng cao hơn nữa hiệu quả khai thác các kho Sử dụng hệ luật là một trong những phương pháp truyền ngữ liệu hay cải tiến hiệu quả và tính chính xác của quá thống khi xây dựng các hệ thống rút trích thông tin. Những trình so khớp và tìm kiếm của các hệ thống khai thác kho hệ thống này thường dựa trên các đặc trưng như cú pháp
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 1 121 của thông tin (ví dụ từ loại của từ), ngữ cảnh của thông tin (từ đứng trước, từ đứng sau,…), hình thái của thông tin (chữ hoa, chữ thường, số,...) kết hợp với một bộ từ điển để viết thành các luật. Ưu điểm của phương pháp này là hệ thống xử lý trên dữ liệu thô mà không cần thực hiện tiền xử lý dữ liệu. Bên cạnh đó, hệ thống có thể hoạt động và thu được kết quả Hình 2. Maximum Entropy Markov Models [10] ngay khi hình thành các luật. Tuy vậy, để xây dựng một hệ Tuy nhiên khi áp dụng vào thực tế, với tập dữ liệu huấn luật đạt chất lượng, hiệu quả là một công việc rất khó khăn, luyện khá lớn, khả năng phân nhánh của các trạng thái cao mất nhiều chi phí về thời gian và công sức và tiền bạc, đặc thì tính chính xác của mô hình bị ảnh hưởng rất lớn. Đây biệt là khi xây dựng hệ luật từ ban đầu. chính là hạn chế lớn nhất của mô hình MEMMs. Trong khi 2.2. Tiếp cận sử dụng các phương pháp học máy đó, do tách riêng xác suất chuyển trạng thái và xác suất sinh 2.2.1. Mô hình Markov ẩn (Hidden Markov Models - quan sát nên mô hình HMM không gặp phải vấn đề này. HMM) [2], [5] 2.2.3. Mô hình ngẫu nhiên (Conditional Random Fields - Mô hình sử dụng khái niệm các trạng thái ẩn và khái CRFs) [2], [7] niệm quan sát – các đối tượng dữ liệu được sinh ra bởi trạng thái ẩn. Trong trường hợp trích chọn thông tin, mỗi từ hoặc mỗi đoạn trong câu được xem như một quan sát Xi, các trạng thái ẩn Yi chính là các nhãn cần gắn cho từ hay quan sát Xi. Nhãn cần gán cho từ có thể là từ loại (danh từ, động từ, tính từ,…), hay định danh người, địa danh,…. HMM là Hình 3. Mô hình Conditional Random Fields [10] một mô hình sinh, mô tả quá trình sinh ra các dữ liệu quan sát bằng cách xác định xác suất đồng thời của chuỗi quan CRFs là mô hình dựa trên xác xuất điều kiện, chúng có sát và chuỗi trạng thái. Chuỗi quan sát được sinh ra theo thể tích hợp được các thuộc tính đa dạng của chuỗi dữ kiệu quá trình bắt đầu từ trạng thái đầu tiên, sinh ra một quan quan sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác sát tương ứng với trạng thái đó, chuyển tới trạng thái thiếp với MEMMs, CRFs là một mô hình đồ thị vô hướng. Điều theo, sinh ra một quan sát tương ứng với trạng thái đó, này cho phép CRFs có thể định nghĩa phân phối xác suất chuyển tới trạng thái tiếp theo,…. của toàn bộ trạng thái thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên. Khác với mô hình MEMM, CRF là mô hình đồ thị vô hướng. Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mô hình MEMMs. Chính vì cách mô hình hóa Hình 1. Mô hình Markov ẩn [10] như vậy mà CRFs giải quyết được vấn đề mà MEMMs gặp HMM được sử dụng rộng rãi cho việc trích chọn thông phải. Tuy nhiên,với CRFs, thời gian tính toán tương đối tin văn bản. Tuy vậy, do tập quan sát là các từ nên khó tích chậm trong trường hợp dữ liệu huấn luyện tương đối lớn. hợp các đặc trưng phụ thuộc hoặc liên quan lẫn nhau như 2.3. Hướng tiếp cận lai [4] vị trí các từ trong câu, chữ cái đầu tiên viết hoa hay không, cả từ có viết hoa hay không, vị trí các từ trong văn bản, từ Tiếp cận lai là kết hợp sử dụng hệ luật và các phương có bắt đầu bằng số hay không,…Mặt khác, trong các bài pháp học máy, nhằm sử dụng được ưu điểm của cả hai toán tập quan sát thường rất lớn, khó liệt kê hết dược, điều hướng tiếp cận này. Đến nay chưa có một nghiên cứu nào đó làm giảm sự chính xác khi thực hiện, đồng thời làm tăng về hướng tiếp cận này đối với tiếng Việt nhưng cũng đã có độ phức tạp của bài toán. Bên cạnh đó, trong mô hình một vài nghiên cứu có kết quả khả quan với tiếng Trung MHH, quan sát thời điểm t chỉ phụ thuộc vào trạng thái t, Quốc, ngôn ngữ được xem là khá gần gũi với tiếng Việt. mỗi quan sát được xử lý như một đơn vị riêng biệt, không Đây có thể sẽ là hướng quan trọng trong tương lai. phụ thuộc vào các quan sát trong chuỗi. Tuy nhiên, trong 3. Giải pháp đề xuất thực tế hầu hết các chuỗi dữ liệu không được biểu diễn chính xác như tập hợp các đối tượng riêng biệt. Từ phân tích trên cho thấy các mô hình HMM, MEMM, CRFs đều có những ưu nhược điểm nhất định. Một trong 2.2.2. Mô hình Maximum Entropy Markov Models những nhược điểm đó là phải tiến hành tiền xử lý dữ liệu. (MEMMs) [2], [6] Cả ba mô hình đều phải sử dụng các công cụ để thực hiện Giống như HMM, MEMMs cũng là mô hình hữu hạn phân lớp dữ liệu trước khi đưa chúng vào xử lý, việc đó trạng thái theo xác suất. Tuy vậy, trong khi HMM quan sát khiến cho hệ thống trở nên cồng kềnh, tốn nhiều công sức, hiện tại chỉ phụ thuộc vào trạng thái hiện tại thì MEMMs thời gian và tiền bạc hơn. quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện Để khắc phục tình trạng trên, chúng tôi hướng đến giải tại mà còn phụ thuộc vào các trạng thái trước đó. Điều đó pháp nhận diện danh từ riêng ngay trên dữ liệu thô. Giải giúp cho MEMMs giải quyết được hai hạn chế nói trên của pháp đề xuất là sự kết hơp giữa thuật toán Maximum mô hình HMM.
122 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu Matching và phân tích mối quan hệ giữa các thành tố văn - Nếu không, tiếp tục kiểm tra cụm t1t2 có trong từ điển bản, cụ thể là quan hệ của thực thể cần kiểm tra với các không? thực thể tiền tố và hậu tố của nó. Việc sử dụng thuật toán o Nếu có, dịch chuyển khuôn sang phải 2 vị trí, khuôn Maximum Matching cần chuẩn bị một bộ từ điển tiếng sẽ chứa 3 tiếng t3, t4, t5. Tiếp tục kiểm tra cụm t3t4t5 có trong Việt. Dựa vào thuật toán này, chương trình so khớp thực từ điển không? thể cần kiểm tra với tập hợp từ vựng có trong từ điển nhằm t1 t2 t3 t4 t5 t6 t7 … tn loại bỏ những từ không phải danh từ riêng. Mục đích của bước này là loại bỏ tất cả các từ trong văn bản trùng khớp o Nếu không, kiểm tra t1 có trong từ điển không với các từ có trong từ điển bằng cách áp dụng hướng đi của  Nếu có, dịch chuyển khuôn sang phải 1 vị trí, một trong những phương pháp phân đoạn từ là Maximum khuôn sẽ chứa 3 từ tố t2, t3, t4. Tiếp tục kiểm tra t2t3t4 có Matching [2], [8], [9]. Các từ còn lại sẽ là danh từ riêng. trong từ điển không? Ngoài ra, danh từ riêng hầu hết bắt đầu bằng chữ hoa, đây t1 t2 t3 t4 t5 t6 t7 … tn là một dấu hiệu dễ nhận dạng nhất.  Nếu không, thêm t1 vào danh sách các từ tố Sau khi có danh sách các danh từ riêng, chúng ta tiến không có nghĩa rồi dịch chuyển khuôn sang phải 1 vị hành nhận biết các danh từ riêng đó thuộc lớp danh từ riêng trí. Lúc này khuôn sẽ chứa 3 từ tố t2, t3, t4. Tiếp tục kiểm nào. Chẳng hạn, Trần Hưng Đạo, Võ Nguyên Giáp, tra cụm 3 từ tố t2t3t4 có tồn tại trong từ điển không? Nguyễn Hoàng thuộc lớp Tên người; Hà Nội, Huế, Đà t1 t2 t3 t4 t5 t6 t7 … tn Nẵng thuộc lớp Địa danh. Việc nhận biết, phân loại danh từ riêng này dựa vào quan hệ giữa các thực thể trong văn Quá trình này sẽ lặp đi lặp lại cho đến hết danh sách từ bản và so khớp các thực thể tiền tố và hậu tố với tập hợp tố. các từ ngữ cảnh nhằm chỉ địa danh hoặc con. Kết thúc, chúng ta có một danh sách chứa các từ tố không có nghĩa. Kho ngữ liệu Bước 3: Gộp các từ tố đứng cạnh nhau trong danh sách từ tố không có nghĩa thành một cụm từ và lưu vào danh sách các cụm từ tố không có nghĩa. Tách từ i=0,j=i+1,k=i+2 Từ điển i
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 1 123 người,… Tên địa điểm thường đi sau các từ như: ở, đến, riêng của lớp danh từ riêng đang xét và xóa cụm từ tố đó trong, xã, huyện, thành phố,…. và đi trước các từ như: là khỏi danh sách cụm từ tố không có nghĩa. nơi, là địa danh, nằm ở, được xây dựng,…. Như vậy, việc o Nếu không, tìm ra hai từ tố nằm sát sau cụm từ tố phân lớp danh từ riêng theo các lớp danh từ riêng tên người đó trong văn bản, đây gọi là hậu tố hai từ tố. Tiếp tục kiểm hay địa điểm là quá trình phân tích quan hệ ngữ cảnh giữa tra hậu tố hai từ tố này có trong từ điển hậu tố hai từ tố hay thực thể cần kiểm tra với các thực thể tiền tố, hậu tố của nó không như đối với hậu tố một từ tố. theo ngữ cảnh.  Nếu có, thêm cụm từ tố đó vào danh sách danh Việc phân tích quan hệ ngữ nghĩa và theo ngữ cảnh giữa từ riêng của lớp đang xét và đưa cụm từ đó ra khỏi danh các thực thể trong văn bản cần đến quá trình xây dựng từ sách cụm từ tố không có nghĩa. điển tập hợp các từ quan hệ ngữ cảnh nhằm chỉ địa danh và  Nếu không, tiến hành tìm ra ba từ tố nằm sát sau con người. Mỗi lớp danh từ riêng có một từ điển tập hợp cụm từ tố đó trong văn bản. Quá trình thực hiện giống các từ quan hệ ngữ cảnh tương ứng. Quá trình nhận diện và với hậu tố hai từ tố và một từ tố. phân loại danh từ riêng gồm bốn bước sau: Tiếp tục duyệt phần tử tiếp theo trong danh sách cụm Bước 1: Kiểm tra dựa vào tiền tố. từ tố không có nghĩa cho đến hết. Từ danh sách các cụm từ tố không có nghĩa tìm được ở Bước 3: Từ danh sách cụm từ tố không có nghĩa còn trên, duyệt theo từng phần tử để kiểm tra tiền tố của nó. lại, tìm ra các cụm từ tố là chuỗi con của các cụm có trong Dựa vào danh sách các từ tố, tìm ra một từ tố nằm trước danh sách danh từ riêng của các lớp danh từ riêng. Nếu tìm phần tử đó trong văn bản (tiền tố một từ tố). Kiểm tra xem có trong danh sách danh từ riêng lớp nào thì thêm chuỗi từ tố này có nằm trong từ điển tiền tố một từ tố của lớp con đó vào danh sách danh từ riêng lớp đó và đưa nó ra danh từ riêng cần xác định hay không. khỏi danh sách cụm từ tố không có nghĩa. - Nếu có, thêm cụm từ tố đó vào trong danh sách danh Bước 4: Nhận diện các tên riêng không có tiền tố và hậu từ riêng của lớp danh từ riêng đó (tên người, địa danh, tiền tố nhưng đứng sát các tên riêng đã nhận dạng. Từ danh sách tệ,…) và đưa cụm từ đó ra khỏi danh sách cụm từ tố không các từ tố không có nghĩa còn lại, ta duyệt theo từng phần có nghĩa. tử của danh sách cụm từ tố không có nghĩa, tìm ra các phần tử đứng trước nó là khoảng trống và kế sát trước khoảng - Nếu không, kiểm tra từ tố này có trong từ điển tiền tố trống là dấu phẩy hoặc từ “và”. Nếu từ tố đứng sát trước một từ tố của các lớp danh từ riêng còn lại hay không. dấu phẩy “,” hoặc từ “và” đó là chuỗi con của một phần tử o Nếu có, thêm cụm từ tố đó vào danh sách danh từ trong danh sách danh từ riêng của lớp danh từ riêng nào thì riêng của lớp danh từ riêng đang xét và xóa cụm từ tố đó thêm nó là danh sách danh từ riêng lớp đó. khỏi danh sách cụm từ tố không có nghĩa. 3.4. Hiệu chỉnh kết quả nhận diện o Nếu không, tìm ra hai từ tố nằm sát trước cụm từ tố đó trong văn bản, đây gọi là tiền tố hai từ tố. Tiếp tục kiểm Tỉ lệ thành công phụ thuộc vào chất lượng bộ từ tra tiền tố hai từ tố này có trong từ điển tiền tố hai từ tố hay điển.Tuy nhiên, từ vựng từ tố Việt rất phong phú và đa dạng không như đối với tiền tố một từ tố. nên rất khó để xây dựng bộ từ điển đầy đủ, chính xác.Chính  Nếu có, thêm cụm từ tố đó vào danh sách danh vì thế, hiệu suất của phương pháp này khó đạt được 100%. từ riêng của lớp đang xét và đưa cụm từ đó ra khỏi danh Để nâng cao hơn nữa hiểu quả của giải pháp này, hệ thống sách cụm từ tố không có nghĩa. cho phép người dùng hiệu chỉnh kết quả nhận diện bằng  Nếu không, tiến hành tìm ra ba từ tố nằm sát tay. Hệ thống sẽ hiển thị danh sách các từ, cụm từ đã được trước cụm từ tố đó trong văn bản. Quá trình thực hiện nhận diện để người dùng có thể xác nhận, chỉnh sửa,… giống với tiền tố hai từ tố và một từ tố. 4. Kết quả thực nghiệm Tiếp tục duyệt phần tử tiếp theo trong danh sách cụm Dựa trên giải pháp thuật toán và quy trình trích rút và từ tố không có nghĩa cho đến hết. phân loại danh từ riêng đã nêu ở trên, chúng tôi đã tiến hành Kết thúc Bước 1, chúng ta tìm ra được các phần tử của xây dựng và cài đặt chương trình. các lớp danh từ riêng thông qua tiền tố của nó. 4.1. Đầu vào của chương trình Bước 2: Kiểm tra dựa vào hậu tố. - Tập hợp các tài liệu của các kho ngữ liệu phục vụ xử Tiếp tục tìm các phần tử của các lớp danh từ riêng từ lý ngôn ngữ tự nhiên đã được chuẩn hóa; các cụm từ tố không có nghĩa còn lại dựa vào hậu tố của - Từ điển danh sách các từ có nghĩa trong tiếng Việt; nó. Dựa vào danh sách các từ tố, xác định hậu tố một từ tố của cụm từ tố đó trong văn bản. Kiểm tra xem từ tố này có - Từ điển quan hệ ngữ cảnh chỉ địa danh và con người. nằm trong từ điển hậu tố một từ tố của lớp danh từ riêng 4.2. Đầu ra và kết quả của hệ thống cần xác định hay không. Đầu ra của hệ thống là danh sách danh sách chứa các - Nếu có, thêm cụm từ tố đó vào trong danh sách danh danh từ riêng được phân loại theo người và nơi chốn, bên từ riêng của lớp danh từ riêng đó (tên người, địa danh, tiền cạnh đó còn hiển thị một văn bản với nội dung giống như tệ,…) và đưa cụm từ đó ra khỏi danh sách cụm từ tố không văn bản đầu vào nhưng các danh từ riêng chỉ người được có nghĩa. đánh dấu màu đỏ đậm, danh từ riêng chỉ nơi chốn được - Nếu không, kiểm tra từ tố này có trong từ điển hậu tố đánh dấu màu xanh đậm. một từ tố của các lớp danh từ riêng còn lại hay không. o Nếu có, thêm cụm từ tố đó vào danh sách danh từ
124 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu vector hỗ trợ. Tuy nhiên các phương pháp này đều có những nhược điểm riêng của nó. Giải pháp của bài báo là kết hợp thuật toán Maximum Matching kết hợp với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản. Giải pháp này đã mang lại kết quả rất đáng khích lệ. Tuy nhiên, cũng giống như các công trình nghiên cứu tương tự, kết quả nghiên cứu còn hạn chế về việc xử lý trích rút các danh từ riêng trong một số trường hợp nhập nhằng. Hướng phát triển của bài báo là tập trung cải tiến nhằm nâng cao độ chính xác và xử lý các trường hợp nhập nhằng về danh từ riêng. TÀI LIỆU THAM KHẢO Hình 6. Kêt quả chương trình thực nghiệm [1] Đặng Đại Thọ, Huỳnh Công Pháp, Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa, Tạp chí Khoa học và Công nghệ, Đại 4.3. Đánh giá kết quả học Đà Nẵng – Số 12 (73), Quyển II, Năm 2013, Trang 110-116. Sau khi thử nghiệm chương trình trên với 12 tài liệu của [2] Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Trí Thành, Nguyễn Thu các kho ngữ liệu với các thể loại khác nhau mà bộ từ điển Trang, Nguyễn Cẩm Tú, 2009, Khai phá dữ liệu web, NXB Giáo đã đủ để nhận dạng các danh từ riêng chỉ người và nơi chốn dục. trong chúng. Chúng tôi đã thu được kết quả về độ chính [3] Lê Thu Thùy, 2009, Trích chọn thực thể tên người trong tiếng Việt, Khóa luận tốt nghiệp, ĐH Công nghệ - ĐHQG Hà Nội. xác trung bình là 84,51%, cụ thể các lần thử được thể hiện [4] Nguyễn Bá Đạt, 2009, Nhận dạng thực thể trong văn bản tiếng Việt, như Bảng 1 (Phần phụ lục). Khóa luận tốt nghiệp, ĐH Công nghệ - ĐHQG Hà Nội. [5] RaBiner, L.R (1989), A tutorial on hidden Markov models and 5. Kết luận selected applications in speech recognition, Proceeding of the IEEE, Trích rút và phân loại thực thể danh từ riêng theo tên và 77(2): 257-286, 1989. địa danh cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự [6] McCallum, A., Freitag, D., and Pereira. F., Maximum entropy Markov models for information extraction and segmentation, nhiên là một bước quan trọng và là tiền đề cho việc mở Proceeding of ICML-2000. rộng và xây dựng các kho ngữ liệu theo hướng ngữ nghĩa. [7] Lafferty, J. Mc Callum, A. and Pereira, F. (2001), Conditional Việc nghiên cứu trích rút và phân loại thông tin trong các random fields: probabilistic models for segmenting and labeling ngôn ngữ khác, đặc biệt là tiếng Anh đã được thực hiện rất sequence data, Proceedings of ICML-2001. nhiều. Tuy nhiên, đối với tiếng Việt và trên đối tượng là [8] Chih-Hao Tsai, MMSEG: A Word Identification System for các kho ngữ liệu thì chưa thực sự được quan tâm và đầu tư Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 1996. nghiên cứu. Việc trích rút và phân loại thông tin được thực [9] Md. Aminul Islam, Diana Inkpen, and Iluju Kiringa, A Generalized hiện bằng nhiều phương pháp như phương pháp dự trên hệ Approach to Word Segmentation Using Maximum Length luật (rule – based) đến các phương pháp học máy (machine Descending Frequency and Entropy Rate, University of Ottawa- learning) như mô hình Markov ẩn, mô hình cực đại hóa 2007. Entropy, mô hình ngẫu nhiên điều kiện, phương pháp máy [10] Jie Tang (2005), An Introduction for Conditional Random Fields, Literature Survey ¨C, Tsinghua. PHỤ LỤC Bảng 1. Bảng kết quả thử nghiệm trích rút và phân loại danh từ riêng theo tên người và nơi chốn Lần Tên văn Số lượng cần tìm Số lượng đã tìm Số lượng nhầm lẫn Số lượng không tìm ra Hiệu suất thử bản Người Nơi chốn Người Nơi chốn Người Nơi chốn Người Nơi chốn (%) 1 dl1 13 7 13 7 0 0 0 0 100 2 dl2 3 10 3 10 0 0 0 0 100 3 dl3 2 3 1 3 0 0 1 0 80 4 dl4 10 8 10 8 0 0 0 0 100 5 dl5 8 7 8 6 0 0 0 1 93,33 6 dl6 22 4 22 4 0 0 0 0 100 7 dl7 3 11 3 8 0 0 0 3 78,57 8 dl8 14 0 14 0 0 0 0 0 100 9 dl9 4 1 4 1 0 0 0 0 100 10 dl10 2 0 2 0 0 0 0 0 100 11 dl11 26 9 26 5 1 0 0 4 85,7 12 dl12 11 6 13 4 1 1 0 2 76,47 Hiệu suất trung bình 84,51 (BBT nhận bài: 25/09/2014, phản biện xong: 17/10/2014)