Luận văn Thạc sĩ Công nghệ thông tin: Phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức

Chia sẻ: Nhân Nhân | Ngày: | Loại File: PDF | Số trang:79

Thêm vào BST

Báo xấu

28
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn giới thiệu một phương pháp hiệu quả để giải quyết bài toán phân loại thực thể có tên trên phiên bản Wikipedia tiếng Việt dựa trên máy véc- tơ hỗ trợ (Support Vector Machine). Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Phân loại thực thể có tên trên wikipedia để phục vụ cho bài toán xây dựng hệ tri thức

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LƯU MẠNH HÀ PHÂN LOẠI THỰC THỂ CÓ TÊN TRÊN WIKIPEDIA ĐỂ PHỤC VỤ CHO BÀI TOÁN XÂY DỰNG HỆ TRI THỨC LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cán bộ hướng dẫn: PGS. TS. Phạm Bảo Sơn HÀ NỘI - 2019
i Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo: Phó giáo sư - Tiến sĩ Phạm Bảo Sơn và thầy giáo: Tiến sĩ Nguyễn Bá Đạt, đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin bày tỏ lời cảm ơn chân thành tới Trường Đại học Công nghệ - ĐHQG Hà Nội và những thầy cô giáo đã giảng dạy, truyền thụ kiến thức cho tôi trong thời gian qua, cùng với các anh chị em tại Công ty cổ phần NERD, đã hỗ trợ cho tôi trong suốt thời gian thực hiện luận văn này. Tôi cũng cảm ơn các lãnh đạo của Tập đoàn Công nghiệp Viễn thông Quân đội Viettel và các đồng nghiệp đã tạo điều kiện để tôi hoàn thành việc học cao học và bảo vệ luận văn thạc sĩ. Cuối cùng, tôi xin cảm ơn tất cả gia đình, bạn bè đã luôn động viên giúp đỡ tôi trong thời gian nghiên cứu đề tài. Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên luận văn còn nhiều thiếu sót và hạn chế. Kính mong nhận được sự góp ý của quý thầy cô và các bạn.
ii Lời cam đoan Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của Phó giáo sư - Tiến sĩ Phạm Bảo Sơn và Tiến sĩ Nguyễn Bá Đạt, và được thực hiện trong quá trình hợp tác nghiên cứu giữa Đại học Công Nghệ và Công ty cổ phần NERD. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 12/11/2019 Học viên Lưu Mạnh Hà
iii Mục lục Lời cảm ơn ........................................................................................................... i Lời cam đoan ...................................................................................................... ii Danh sách bảng .................................................................................................. v Danh sách hình vẽ ............................................................................................. vi Lời mở đầu ......................................................................................................... 1 Chương 1 Giới thiệu........................................................................................ 2 1.1. Phạm vi bài toán và mục tiêu nghiên cứu .............................................. 2 1.2. Đóng góp của luận văn........................................................................... 4 1.3. Cấu trúc của luận văn ............................................................................. 5 Chương 2 Hệ thống kiểu của thực thể có tên ................................................ 7 2.1. Khái niệm ............................................................................................... 7 2.1.1. Hệ tri thức ....................................................................................... 7 2.1.2. Thực thể ........................................................................................... 9 2.1.3. Thực thể có tên .............................................................................. 10 2.1.4. Kiểu của thực thể........................................................................... 10 2.2. Các hệ thống kiểu thực thể ................................................................... 11 2.2.1. Các hệ thống kiểu chi tiết cho Tiếng Anh ..................................... 11 2.2.2. Hệ thống kiểu thực thể NERD-TS ................................................. 13 2.2.3. Điểm khác biệt giữa NERD-TS với hệ thống kiểu trong bài toán NER truyền thống................................................................................................ 14 Chương 3 Phân loại thực thể có tên trên Wikipedia tiếng Việt ................ 18 3.1. Học máy ............................................................................................... 18 3.1.1. Tổng quan về học máy................................................................... 18
iv 3.1.2. Phân nhóm các thuật toán học máy dựa trên phương thức học ... 20 3.2. Mô hình SVM ...................................................................................... 25 3.2.1. Tổng quan...................................................................................... 25 3.2.2. Mô hình SVM với nhân tuyến tính ................................................. 27 3.2.3. Phân loại đa lớp (Multiclass classification) ................................. 29 3.3. Bộ công cụ Sklearn .............................................................................. 31 3.3.1. Thư viện Sklearn Linear SVC (Linear Support Vector Classification) 32 3.3.2. Trích chọn đặc trưng (Feature extraction) ................................... 34 3.3.3. Lựa chọn đặc trưng (Feature selection) ....................................... 36 3.3.4. Kiểm định chéo (Cross-validation) ............................................... 38 3.4. Tiền xử lý dữ liệu ................................................................................. 41 3.4.1. Giới thiệu về VnCoreNLP ............................................................. 43 3.4.2. Phân tách từ .................................................................................. 43 3.4.3. Gán nhãn từ loại (POS tagging) ................................................... 46 3.5. Tập đặc trưng ....................................................................................... 47 Chương 4 Thực nghiệm ................................................................................ 49 4.1. Tập dữ liệu ........................................................................................... 49 4.2. Tiến hành thực nghiệm ........................................................................ 50 4.3. Độ đo .................................................................................................... 52 4.4. Kết quả ................................................................................................. 52 4.5. Phân tích đóng góp của từng loại đặc trưng ......................................... 54 Kết luận và hướng phát triển.......................................................................... 57 Tham khảo ........................................................................................................ 59 Phụ lục .............................................................................................................. 62 Phụ lục 1. Một số ví dụ trong tập dữ liệu 10,000 trang Wikipedia được gán nhãn thủ công .......................................................................................................... 62 Phụ lục 2. Một số luật gán kiểu thực thể dựa trên infobox template .............. 66 Phụ lục 3: Mô tả nội dung tệp dữ liệu sau tiền xử lý...................................... 69
v Danh sách bảng Bảng 2.1: Một vài ví dụ về thực thể có tên ........................................................ 10 Bảng 2.2: Các kiểu được sử dụng trong hệ thống FIGER [9] ........................... 12 Bảng 3.1: Cách biểu diễn cụ thể cho từng loại đặc trưng .................................. 48 Bảng 4.1: Thống kê số lượng thực thể theo từng loại trên tập dữ liệu thực nghiệm ............................................................................................................................ 50 Bảng 4.2: Kết quả chi tiết của phương pháp cơ sở ............................................ 53 Bảng 4.3: Kết quả của mô hình học máy được đề xuất so với phương pháp cơ sở. ............................................................................................................................ 53 Bảng 4.4: Kết quả chi tiết của mô hình học máy với từng loại thực thể. .......... 53 Bảng 4.5: Kết quả của mô hình học máy khi thử loại bỏ từng loại đặc trưng. .. 54 Bảng 4.6: Kết quả chi tiết với việc loại bỏ đặc trưng F1 ................................... 54 Bảng 4.7: Kết quả chi tiết với việc loại bỏ đặc trưng F2. ................................. 55 Bảng 4.8: Kết quả chi tiết với việc loại bỏ đặc trưng F3 ................................... 55 Bảng 4.9: Kết quả chi tiết với việc loại bỏ đặc trưng F4 ................................... 55 Bảng 4.10: Kết quả chi tiết với việc loại bỏ đặc trưng F5 ................................ 56
vi Danh sách hình vẽ Hình 1.1: Trang Wikipedia tiếng Việt về Đại học Quốc Gia Hà Nội ................... 4 Hình 2.1 Kiến trúc của hệ tri thức ........................................................................ 7 Hình 2.2 Biểu diễn dữ liệu trong hệ tri thức dưới dạng knowledge graph ........... 8 Hình 2.3: Các ý nghĩa khác nhau của từ “đá” ....................................................... 9 Hình 2.4 Kiến trúc của hệ thống kiểu trong hệ tri thức Dbpedia ........................ 12 Hình 2.5: Công cụ nhận dạng thực thể của Đại học Stanford ............................ 15 Hình 2.6: Trang Wikipedia tiếng Việt về Tôn Ngộ Không ................................ 16 Hình 3.1: Mối quan hệ giữa AI, Machine Learning và Deep Learning .............. 19 Hình 3.2: MNIST – bộ cơ sở dữ liệu của chữ số viết tay ................................... 21 Hình 3.3: AlphaGo chơi cờ vây với Lee Sedol .................................................. 24 Hình 3.4: Ví dụ về phân loại SVM với lề cực đại (đường H3) ............................ 26 Hình 3.5: Sử dụng kernel trick để ánh xạ dữ liệu lên không gian nhiều chiều hơn ............................................................................................................................ 27 Hình 3.6 Ví dụ về lề phân lớp cực đại 𝑤. 𝑥 = 𝑏 ................................................ 28 Hình 3.7: Ví dụ về Linear SVC trong thư viện Sklearn ..................................... 32 Hình 3.8: Biểu điễn của hành vi kiển định chéo 3-fold Stratified CV ................ 40 Hình 3.9 Các bước tiền xử lý dữ liệu .................................................................. 41 Hình 3.10 Một trang wikipedia điển hình ........................................................... 42 Hình 3.11: Kiến trúc tổng thể của VNCoreNLP [23] ......................................... 43 Hình 3.12: Phân loại các phương pháp tiếp cận Phân tách từ. ........................... 45 Hình 3.13: Ví dụ về sự tương ứng giữa bài toán tách từ và bài toán gán nhãn chuỗi [28] ...................................................................................................................... 45 Hình 3.14: Các đặc trưng được trích xuất từ một thực thể có tên trên Wikipedia. ............................................................................................................................ 48 Hình 4.1: Phương pháp tiến hành thực nghiệm .................................................. 51
1 Lời mở đầu Phân loại thực thể có tên là bài toán quan trọng trong lĩnh vực trích xuất thông tin (Information Extraction), và xây dựng hệ tri thức (Knowledge Base Construction). Cùng với nhu cầu ngày càng nhiều của các ứng dụng trí tuệ nhân tạo, đặc biệt là các ứng dụng trợ lý ảo như của Google, Apple, Amazon, nhu cầu xây dựng các hệ tri thức ngày càng lớn và cấp thiết. Theo đó, tầm quan trọng của bài toán phân loại thực thể ngày càng được nâng cao. Trong luận văn này, học viên giới thiệu một phương pháp hiệu quả để giải quyết bài toán phân loại thực thể có tên trên phiên bản Wikipedia tiếng Việt dựa trên máy véc-tơ hỗ trợ (Support Vector Machine). Đặc biệt, luận văn cũng hoàn thành xây dựng một công cụ để thực thi bài toán này với độ chính xác cao trên 94%. Bên cạnh đó, luận văn cũng đóng góp cho cộng đồng nghiên cứu một tập dữ liệu lớn gồm 10,000 thực thể được gán nhãn thủ công và một công cụ để thực hiện tiền xử lý dữ liệu, có thể được tái sử dụng để phục vụ cho các bài toán có nội dung liên quan. Học viên tin tưởng rằng những đóng góp của luận văn sẽ đẩy nhanh quá trình xây dựng hệ tri thức tiếng Việt giàu có về thông tin. Qua đó, học viên sẽ trực tiếp hoặc gián tiếp đóng góp vào các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) và trí tuệ nhân tạo (Artificial Intelligence) như hỏi đáp tự động (Question Answering), tổng hợp và trích xuất thông tin (Information Extraction).
2 Chương 1 Giới thiệu 1.1. Phạm vi bài toán và mục tiêu nghiên cứu Hiện nay, với nhu cầu ngày càng nhiều của các ứng dụng trí tuệ nhân tạo, đặc biệt là các ứng dụng trợ lý ảo như Google Assistant (Google), Alexa (Amazon), Siri (Apple), v.v. thì nhu cầu xây dựng hệ tri thức để phục vụ cho các ứng dụng này ngày càng cấp bức và thiết yếu. Trong việc xây dựng hệ tri thức thì việc xây dựng một cơ sở dữ liệu các thực thể có tên và phân loại các thực thể có tên này là bước quan trọng nhất. Bài toán phân loại thực thể có tên để phục vụ cho xây dựng hệ tri thức là bài toán sử dụng thông tin từ một nguồn dữ liệu để trích lọc ra các thực thể có tên, từ đó phân loại các thực thể có tên thành các kiểu thực thể như người (Person), tổ chức (Organization), Địa điểm (Place), Sự kiện (Event), v.v. hoặc các kiểu chi tiết hơn như kiểu FIGER [9], NERD, v.v. để phục vụ cho việc xây dựng các hệ tri thức. Đây là bài toán quan trọng trong lĩnh vực trích xuất thông tin (Information Extraction), và xây dựng hệ tri thức (Knowledge Base Construction), phân loại thực thể có tên trên miền Wikipedia thu hút được sự quan tâm lớn của giới học thuật trên thế giới [14], [16], [19]. Tại Việt Nam, trong bối cảnh nhiều công ty công nghệ như FPT1, NERD2, v.v. và các tổ chức phi lợi nhuận như Đề án hệ tri thức Việt số hóa3 đã và đang nỗ lực xây dựng một hệ tri thức lớn cho thị trường Việt, việc xây dựng và nghiên cứu một công cụ phân loại thực thể có tên cho tiếng Việt là cần thiết. Một số nghiên cứu liên quan có thể kể đến như công cụ dự đoán kiểu của thực thể trong hệ tri thức Dbpedia của tác giả Nguyễn Thị Như và cộng sự [12], [13]. Đây có thể coi là bước khởi đầu cho bài toán này đối với tiếng Việt. Tuy nhiên, kết quả thu được chưa thực sự tốt do dữ liệu Dbpedia phiên bản tiếng Việt còn rất khiêm tốn. Hơn nữa, do các công cụ trích xuất thông tin của hệ tri thức Dbpdia 1 https://fpt.ai/ 2 https://www.nerd.vn/ 3 https://itrithuc.vn/
3 không được tối ưu cho tiếng Việt, vì thế một số lượng lớn nhiễu vẫn còn tồn tại trong đó. Trong khuôn khổ của luận văn này, học viên nghiên cứu và xây dựng một công cụ dự đoán kiểu của thực thể có tên sử dụng dữ liệu lấy từ các trang Wikipedia tiếng Việt4. Nhờ đó, công cụ này có khả năng tận dụng nhiều kiểu đặc trưng hữu ích khác nhau từ một trang Wikipedia như: • kiểu đặc trưng có cấu trúc, ví dụ: hộp thông tin (infobox properties), tiêu đề (heading); • kiểu đặc trưng phi cấu trúc, ví dụ: từ khóa bao gồm thể loại (categories) và các cụm danh từ quan trọng thường xuất hiện ở đầu trang, v.v. Theo sự hiểu biết và tìm kiếm thông tin của học viên, hiện nay chưa có nghiên cứu nào tương tự cho tiếng Việt. Để đạt được mục tiêu trên, luận văn sẽ tập trung triển khai các nội dung nghiên cứu chính như sau: • Tải dữ liệu từ Wikipedia tiếng Việt và tiền xử lý, lọc bỏ nhiễu (html, redirect pages, template pages, v.v.). • Lựa chọn ngẫu nhiên 10,000 bài viết và gán nhãn thủ công cho 10,000 bài viết này. Đồng thời luận văn cũng đã xây dựng được một bộ luật từ thông tin Infobox template được thực hiện thủ công. • Xây dựng một công cụ để trích chọn các đặc trưng từ các trang Wikipedia này để phục vụ cho bài toán chính. Trong đó, luận văn có tái sử dụng lại công cụ VNCoreNLP, là một công cụ rất phổ biến trong việc phân tách từ và gán nhãn từ loại tiếng Việt. • Tiếp theo, luận văn xây dựng một mô hình học máy, lựa chọn phương pháp Máy véc tơ hỗ trợ (SVM) để phân loại các thực thể sau khi đã thử nghiệm với một vài phương pháp khác dựa trên một tập dữ liệu nhỏ. Trong phần này học viên sử dụng thư viện Sklearn để thực thi các bài toán học máy cụ thể. Mô hình này nhận dữ liệu đầu vào là thực thể có tên và các đặc trưng được trích chọn từ một trang Wikipedia tiếng Việt đã được tiền xử như trên, ví dụ: Đại học Quốc Gia Hà Nội, và cho ra kết quả là một kiểu của thực thể trong danh sách các kiểu đã được định nghĩa trước, ví dụ: tổ chức (Organization). 4 Luận văn được thực hiện trong quá trình hợp tác nghiên cứu giữa Đại học Công Nghệ và Công ty cổ phần NERD.
4 • Cuối cùng, luận văn đánh giá kết quả của phương pháp này và so sánh với phương pháp sơ sở (baseline) để chứng minh cho độ ưu việt của giải pháp. • Đồng thời, học viên cũng đưa ra các đề xuất để phát triển tiếp công cụ này trong tương lai. Lý do luận văn lựa chọn Wikipedia do đây là một nền tảng tri thức đa ngôn ngữ, có cộng đồng phát triển đông đảo ở hầu hết các quốc gia trên thế giới. Đây chính là nguồn dữ liệu cơ bản giúp xây dựng các hệ tri thức lớn trên thế giới như Dbpedia [2], Wikidata [20], Yago [18], v.v. Hiện nay, phiên bản Wikipedia có hơn 52 triệu bài viết trên 309 ngôn ngữ, riêng tiếng Việt5 có khoảng 1.24 triệu bài viết với hơn 1.7 triệu thực thể bao gồm các khái niệm như Cầu thủ bóng đá, Trường đại học, v.v., và các thực thể có tên như Đoàn Văn Hậu, Đại học Quốc gia Hà Nội, v.v. Hình 1.1 thể hiện một phần trang Đại học Quốc Gia Hà Nội trên miền Wikipedia tiếng Việt. Hình 1.1: Trang Wikipedia tiếng Việt về Đại học Quốc Gia Hà Nội 1.2. Đóng góp của luận văn Luận văn này đã đóng góp cho cộng đồng nghiên cứu: • một công cụ có khả năng phân loại thực thể có tên trên miền Wikipedia tiếng Việt đạt độ chính xác 𝐹'.( = 94%, • một bộ dữ liệu với 10,000 thực thể được gán nhãn thủ công. 5 https://vi.wikipedia.org
5 • một công cụ tiền xử lý dữ liệu có thể tái sử dụng cho các bài toán và nghiên cứu liên quan. Học viên tin tưởng rằng những đóng góp trên sẽ đẩy nhanh quá trình xây dựng hệ tri thức tiếng Việt giàu có về thông tin. Qua đó, luận văn sẽ trực tiếp hoặc gián tiếp đóng góp vào các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing) và trí tuệ nhân tạo (Artificial Intelligence) như hỏi đáp tự động (Question Answering), tổng hợp và trích xuất thông tin (Information Extraction), v.v. 1.3. Cấu trúc của luận văn Các phần còn lại của luận văn được tổ chức như sau: các khái niệm cơ bản và quan trọng của bài toán xây dựng hệ tri thức và phân loại thực thể được trình bày trong chương 2 như khái niệm hệ tri thức, thực thể, thực thể có tên, kiểu thực thể và các hệ thống kiểu thực thể phổ biến. Luận văn cũng sẽ phân tích những điểm khác biệt giữa bài toán này với bài toán nhận dạng thực thể có tên (Named Entity Recognization – NER) để làm rõ tính cần thiết của bài toán này. Trong chương 3, luận văn sẽ giới thiệu cụ thể về các công cụ và phương pháp được sử dụng trong bài toán. Luận văn sẽ giới thiệu tổng quan về các phương pháp học máy, và phân tích chi tiết hơn về phương pháp máy véc tơ hỗ trợ (Support vector machine – SVM) là phương pháp học máy chính được học viên sử dụng trong luận văn. Đồng thời luận văn cũng giải thích chi tiết về thư viện Sklearn được sử dụng để thực thi mô hình học máy trong luận văn và một số công cụ của thư viện được sử dụng để phân chia dữ liệu thành tập huấn luyện và tập kiểm tra để kiểm định chéo (Stratified K-folds cross validation), trích chọn đặc trưng (Feature extraction), lựa chọn đặc trưng (Feature selection). Luận văn cũng giới thiệu sơ lược về VNCoreNLP, một công cụ rất phổ biến và hiệu quả để phân tách từ và gán nhãn từ loại, được sử dụng trong khâu tiền xử lý dữ liệu và trích chọn đặc trưng. Luận văn cũng mô tả các đặc trưng sẽ sử dụng, cũng như cách biểu diễn các đặc trưng này trong bài toán. Tiếp theo, mô hình thực nghiệm và kết quả của thực nghiệm sẽ được trình bày ở chương 4. Trong chương này, luận văn sẽ mô tả sơ bộ về tập dữ liệu được sử dụng, các bước thực hiện thực nghiệm. Đồng thời luận văn cũng trình bày về mô hình được sử dụng trong thực nghiệm và các cài đặt trong mô hình (chiến lược phân loại, phương pháp phân chia dữ liệu, lựa chọn đặc trưng, v.v.). Luận văn cũng nêu ra phương pháp đánh giá hiệu quả của mô hình và so sánh với phương pháp cơ sở để chứng minh tính ưu việt của phương pháp.
6 Cuối cùng, toàn bộ các công việc đã thực hiện được tổng kết và trình bày trong phần kết luận. Đồng thời, trong phần này cũng trình bày hướng nghiên cứu, mở rộng tiếp theo của luận văn trong tương lai.
7 Chương 2 Hệ thống kiểu của thực thể có tên 2.1. Khái niệm 2.1.1. Hệ tri thức Hệ tri thức là một nhánh của ngành trí tuệ nhân tạo. Nó chứa đựng tri thức về giải quyết vấn đề của con người trong một lĩnh vực hẹp được định trước và có khả năng mở rộng kho tri thức này thông qua công cụ suy luận và hệ thống truy vấn của nó [25]. Một hệ tri thức (knowledge-based system) là một chương trình máy tính sử dụng một cơ sở tri thức (knowledge base) với một công cụ suy luận (inference engine) để giải quyết các vấn đề thường đòi hỏi tư duy đặc biệt của con người. Hình 2.1 mô tả kiến trúc chung của một hệ tri thức Hình 2.1 Kiến trúc của hệ tri thức6 6 https://searchcio.techtarget.com/definition/knowledge-based-systems-KBS
8 Công cụ giao diện hoạt động như công cụ tìm kiếm và cơ sở tri thức đóng vai trò là kho lưu trữ kiến thức. Học máy là một thành phần thiết yếu của các hệ tri thức và mô hình học giúp cải thiện hệ thống. Các hệ tri thức có thể được phân loại thành các hệ dựa trên CASE, hệ dạy học thông minh (Intelligent tutoring systems), hệ chuyên gia (Expert systems), hệ thao tác siêu văn bản (Hypertext manipulation systems ) và cơ sở dữ liệu với giao diện người dùng thông minh7. So với các hệ thống thông tin dựa trên máy tính truyền thống, các hệ tri thức có nhiều ưu việt hơn. Chúng có thể cung cấp tài liệu hiệu quả và cũng xử lý một lượng lớn dữ liệu phi cấu trúc theo cách thông minh. Các hệ tri thức có thể hỗ trợ trong việc ra quyết định chuyên sâu và cho phép người dùng làm việc ở mức độ chuyên môn cao hơn và thúc đẩy năng suất và tính nhất quán. Các hệ thống này rất hữu ích khi không có chuyên môn hoặc khi dữ liệu cần được lưu trữ để sử dụng trong tương lai hoặc cần được nhóm với chuyên môn khác nhau ở một nền tảng chung, do đó cung cấp tích hợp kiến thức quy mô lớn. Cuối cùng, các hệ thống dựa trên tri thức có khả năng tạo ra kiến thức mới bằng cách tham khảo nội dung được lưu trữ. Hình 2.2 Biểu diễn dữ liệu trong hệ tri thức dưới dạng knowledge graph8 7 https://www.techopedia.com/definition/7969/knowledge-based-system-kbs 8 https://yashuseth.blog/2019/10/08/introduction-question-answering-knowledge-graphs-kgqa
9 Hình 2.2 thể hiện biểu diễn của dữ liệu trong hệ tri thức dưới dạng Knowledge graph, trong đó các nút là các thực thể có tên, được phân loại (quan hệ “is a”) và có các mối quan hệ với nhau (như “is located in”, “painted”, v.v.). Ngày nay, các ứng dụng với hệ tri thức ngày càng nhiều, đặc biệt là với các ứng dụng trợ lý ảo, không thể hoạt động nếu thiếu các hệ tri thức. Việc xây dựng hệ tri thức thu hút được rất nhiều mối quan tâm của cộng đồng nghiên cứu và các doanh nghiệp công nghệ lớn. Các hệ tri thức lớn và phổ biến hiện nay gồm Dbpedia [2], Wikidata [20], Yago [18], v.v.Tuy nhiên, các hệ tri thức tiếng Việt vẫn còn ít và còn tương đối hạn chế. 2.1.2. Thực thể Thực thể (entity) là một đối tượng (ví dụ: Đoàn Văn Hậu, Đại học Quốc gia Hà Nội, v.v.), hoặc một lớp đối tượng (ví dụ: Cầu thủ bóng đá, Trường đại học, v.v.) trong thế giới tự nhiên [18], [19]. Mỗi thực thể mang một ý nghĩa rõ ràng, không còn sự mập mờ của ngôn ngữ. Hình 2.3 thể hiện ba ý nghĩa khác nhau của từ “đá” trong ngôn ngữ tự nhiên: • Nước đá: là tên gọi khác của nước đóng băng; • Đá (võ thuật): là cách sử dụng chân trong võ thuật, thể thao và thi đấu; • Chia tay (tình cảm): là hành động rời bỏ, cắt đứt quan hệ về mặt tình cảm. Hình 2.3: Các ý nghĩa khác nhau của từ “đá” Nhờ loại bỏ sự nhập nhằng của ngôn ngữ tự nhiên, thực thể giúp máy móc có khả năng phân tích và hiểu ngôn ngữ như người. Thực thể là đơn vị nhỏ nhất và là đơn vị cơ bản cấu thành hệ tri thức.
10 2.1.3. Thực thể có tên Tuy mỗi thực thể mang một và chỉ một ý nghĩa, vẫn có những thực thể ám chỉ không chỉ một mà là một nhóm đối tượng. Ví dụ, Trường đại học là một tập hợp bao gồm Đại học Quốc gia Hà Nội, Đại học Bách Khoa Hà Nội, Đại học Ngoại Thương, v.v. Thực thể có tên (named entity) là một thực thể được biểu diễn dưới dạng tên riêng và chỉ duy nhất một đối tượng [5], [6], [18]. Trong các ví dụ ở Bảng 2.1 là ví dụ phân biệt giữa thực thể có tên và nhóm thực thể, cụ thể: • Đoàn Văn Hậu, Đại học Quốc gia Hà Nội, Hà Nội là thực thể có tên; • Cầu thủ bóng đá, Trường đại học không phải là thực thể có tên. Một số nghiên cứu trên thế giới, như [18], [19], sử dụng thuật ngữ thực thể (entity) để chỉ thực thể có tên, và lớp thực thể (class) để chỉ những thực thể khác. 2.1.4. Kiểu của thực thể Kiểu của thực thể có tên (named entity type) là loại của một thực thể như người (Person), tổ chức (Organization), địa điểm (Place), v.v. [5], [6], [21]. Bảng 2.1 mô tả một vài ví dụ về các loại thực thể khác nhau. Theo đó, các thực thể có tên như Donal Trump, Đại học Quốc gia Hà Nội là các thực thể có tên và kiểu tương ứng của chúng. Trong khi đó, Trường đại học, Thành phố không phải một thực thể duy nhất mà chỉ một lớp đối tượng, và vì thế không có kiểu tương ứng. Bảng 2.1: Một vài ví dụ về thực thể có tên Thực thể Là thực thể có tên Kiểu Đoàn Văn Hậu ü Person Donal Trump ü Person Đại học Quốc gia Hà Nội ü Organization Tập đoàn Viettel ü Organization Hà Nội ü Place Vientiane ü Place Tây du ký ü Creative Work Sea Game ü Event Tôn Ngộ Không ü Character Cầu thủ bóng đá û - Trường đại học û - Thành phố û -
11 2.2. Các hệ thống kiểu thực thể Khái niệm về kiểu của thực thể và số lượng kiểu phụ thuộc vào từng bài toán, từng lĩnh vực khác nhau. Trong khi những nghiên cứu chung [3], [5] chỉ quan tâm đến một vài loại thực thể (số lượng thường không quá 10 loại), một số nghiên cứu đặc thù cần quan tâm sâu hơn tới kiểu của thực thể, ví dụ: • hệ tri thức[10], [18] cần biết một thực thể chỉ người là một người thật (Person) hay một nhân vật hư cấu (Character); • ứng dụng bản đồ9 cần biết một thực thể chỉ địa điểm là một tòa nhà (Building) hay một ngọn núi (Mountain), v.v. Trong bài toán xây dựng hệ tri thức, ngoài các kiểu chung, thì cần có các hệ thống kiểu chi tiết, trong đó các kiểu như Person, Organization, v.v. được chia nhỏ thành các kiểu chi tiết. Sau đây, luận văn sẽ giới thiệu một số hệ thống kiểu chi tiết phổ biến. 2.2.1. Các hệ thống kiểu chi tiết cho Tiếng Anh Các hệ thống kiểu chi tiết (fine-grained type system) được sử dụng rộng rãi trong các hệ tri thức như Dbpedia [2], Wikidata [20], Yago [18], v.v. Gần đây, nhiều công cụ nhận dạng thực thể có tên mới cho tiếng Anh cũng áp dụng các hệ thống kiểu chi tiết này [4], [9], [17]. Bảng 2.2 chứa hơn 100 kiểu của thực thể được sử dụng trong hệ thống nhận dạng tên riêng FIGER [9], ví dụ: kiểu Person chứa các kiểu: • Actor: chỉ diễn viên; • Athlete: chỉ vận động viên; • Musician: chỉ nhạc sĩ, v.v. Hình 2.4 mô tả phân cấp của hệ thống kiểu trong hệ tri thức Dbpedia. Theo đó, kiểu Person được chia nhỏ thành các cấp thấp chi tiết hơn như Artist, Engineer, Athlete, Farmer, Scientist. Tiếp tục, các kiểu này lại được chia nhỏ hơn nữa, ví dụ Artist được chia thành Dancer, Actor và Comedian. 9 https://www.google.com/maps
12 Hình 2.4 Kiến trúc của hệ thống kiểu trong hệ tri thức Dbpedia Bảng 2.2: Các kiểu được sử dụng trong hệ thống FIGER [9]