Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Chia sẻ: Yi Yi | Ngày: | Loại File: DOCX | Số trang:27

Thêm vào BST

Báo xấu

57
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 Công trình được hoàn thành tại: Trương Đai hoc Công ̀ ̣ ̣ ̣ ̣ ̣ ̀ ̣ nghê, Đai hoc Quôc gia Ha Nôi ́ Người hướng dẫn khoa học: PGS.TS. Hà Quang Thụy PGS.TS. Nguyễn Lê Minh Phản biện: PGS.TS Lương Chi Mai Phản biện: PGS.TS. Lê Thanh Hương Phản biện: PGS.TS Nguyễn Đình Hóa
Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại vào hồi 9 giờ ngày 07 tháng 02 năm 2018 Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thông tin Thư viện, Đại học Quốc gia Hà Nội
a. DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 1. [CTLA1] Nigel Collier, Ferdinand Paster, MaiVu Tran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014. 2. [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh Le, QuangThuy Ha, Anika Oellrich, Dietrich Rebholz Schuhmann (2013). Learning to Recognize Phenotype Candidates in the AutoImmune Literature Using SVM ReRanking. PLoS ONE 8(10): e72965, October 2013. 3. [CTLA3] MaiVu Tran, DucTrong Le (2013). vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop. 4. [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012). A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662. 5. [CTLA5] MaiVu Tran, DucTrong Le, XuanTu Tran and TienTung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012. 6. [CTLA6] HoangQuynh Le, MaiVu Tran, NhatNam Bui, NguyenCuong Phan, QuangThuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115118. 7. [CTLA7] HoangQuynh Le, MaiVu Tran, Thanh Hai Dang, Nigel Collier (2015). The UETCAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015. 3
4
MỞ ĐẦU b. Lý do chọn đề tài Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là “nhận dạng thực thể định danh”) là một bài toán chính thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa. Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet, bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây. c. Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông thường trong văn bản tiếng Anh chuẩn tuy nhiên những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định nghĩa hình thức về kiểu thực thể cần nhận dạng… Luận án này sẽ tiếp nối những nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo. d. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh học. 5
Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên. Cụ thể, luận án giải đáp các vấn đề nghiên cứu sau đây: • Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh học trong văn bản tiếng Anh. • Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu trước đó và tiếp cận giải quyết được những đặc điểm riêng biệt của miền dữ liệu đang xem xét. • Xây dựng bộ dữ liệu phục vụ cho thực nghiệm. • Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề xuất. • Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan. • Định hướng phát triển nâng cấp nghiên cứu. e. Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các hệ thống chạy thực tế. f. Các kết quả nghiên cứu lý thuyết trên đây được công bố trong một số ấn phẩm khoa học có uy tín là minh chứng cho ý nghĩa khoa học của luận án. 6
g. Về triển khai ứng dụng, luận án đã đề xuất thực mô hình hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [CTLA6]. Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ http://phenominer.mml.cam.ac.uk/). h. Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn. i. Cấu trúc của luận án Chương 1 của luận án hệ thống lại các lý thuyết cơ bản về nhận dạng thực thể cũng như khảo sát lịch sử nghiên cứu và điểm lại một số nghiên cứu tiêu biểu. Chương 2 trình bày về bài toán nhận dạng thực thể và ứng dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếng Việt. Chương 3 trình bày một mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan cũng như vấn đề thích nghi miền giữa các tập dữ liệu y sinh học Chương 4 , luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mô hình đề xuất trong chương 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựa trên tri thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh. Phần kết luận tổng hợp các kết quả đạt được cũng như nêu lên một số hạn chế của luận án, và đồng thời trình bày một số định hướng nghiên cứu trong tương lai. 7
CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ j. 1.1. Một số khái niệm cơ bản k. 1.1.1. Định nghĩa bài toán nhận dạng thực thể Luận án sử dụng định nghĩa của bài toán nhận dạng thực thể được phát biểu bởi Aggarwal và Zhai [AZ12]: “Bài toán nhận dạng thực thể (Named entity recognition, NER) là bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa trước như người, tổ chức và địa điểm.” l. 1.1.2. Thách thức Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít thách thức cần giải quyết do sự phong phú và các nhập nhằng của ngôn ngữ. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy”, địa điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó. Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể "JFK" hay “Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem xét đến ngữ cảnh chứa nó. Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữ cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Một số ngôn ngữ như tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải thực hiện một số bài toán con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực thể. Ngoài ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng. 8
m. 1.1.3. Độ đo đánh giá Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính xác (precision P), độ hồi tưởng (recall R) và độ đo F1 (F1measure). Độ chính xác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương của hệ thống. n. 1.1.4. Ứng dụng của nhận dạng thực thể Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng sau: • Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai thực thể hay giữa một thực thể và một khái niệm [GLR06]. Thành phần nhận diện thực thể là pha đầu tiên trước khi giải quyết vấn đề xác định quan hệ. • Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách và tại sao. Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các thành phần cấu thành nên sự kiện. • Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như là một yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong hệ thống [HWY05]. o. 1.2. Lịch sử nghiên cứu và một số hướng tiếp cận giải quyết bài toán Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 90 [RA91], nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC6 với tư cách là một bài toán con của trích xuất thông tin [GS96]. Kể từ đó, NER đã thu hút nhiều sự chú ý của cộng đồng nghiên cứu. Đã có khá nhiều 9
hệ thống và chương trình được xây dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction 1, các công bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language Learning (CoNLL) năm 2002 và 2003 [TD03], và chuỗi nhiệm nhận dạng thực thể y sinh tại hội thảo BioCreative2 (Critical Assessment of Information Extraction Systems in Biology). Các nghiên cứu đạt hiệu quả cao đối với nhận dạng thực thể thường dựa trên các kỹ thuật học máy thống kê và hầu hết trong số đó xử lý bài toán này như một bài toán gán nhãn chuỗi (sequence labeling). Một trong những phương pháp học máy đầu tiên được áp dụng cho NER là mô hình Markov ẩn (Hidden Markov Models, HMM). Các phương pháp học máy cho NER được xây dựng sau đó đã có một sự chuyển dịch từ mô hình sinh như HMM sang mô hình mô hình rời rạc (discriminative models) nhằm khắc phục các nhược điểm của HMM. Một mô hình rời rạc thông dụng được sử dụng trong nhận dạng thực thể là mô hình entropy cực đại (Maximum Entropy Model, MaxEnt) [BPP96]. Kết hợp mô hình MEM với một giả định Markov, được gọi là mô hình Markov entropy cực đại (Maximum Entropy Markov Models, MEMM). Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một mô hình rời rạc tiêu biểu khác để xử lý bài toán gán nhãn chuỗi. Phương pháp này được giới thiệu 1 Automatic content extraction (ACE) evaluation. http://www.itl.nist.gov/iad/mig/tests/ace/ 2 http://www.biocreative.org/ 10
bởi Lafferty và các cộng sự cho bài toán gán nhãn chuỗi [LMP01]. p. 1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu liên quan Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các văn bản tiếng Việt cũng ngày càng xuất hiện nhiều dưới dạng văn bản điện tử, và cùng với đó chính là sự phát sinh nhu cầu khai thác thông tin có giá trị từ các văn bản này. Nhận dạng thực thể đóng một vai trò chủ chốt trong khai phá văn bản, chính vì thế nó cũng nhanh chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa học trong nước quan tâm. Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩa với việc đặt một nền tảng quan trọng trong việc xây dựng được các hệ thống ứng dụng cho nhiều lĩnh vực khác như tài chính, kinh tế, xã hội, y sinh học, v.v.. phù hợp với tình hình trong nước. q. 1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số nghiên cứu liên quan Hiện nay, số lượng các văn bản y tế và sinh học dưới dạng điện tử trên Internet cũng như được lưu trữ trong các hệ thống y tế đang tăng với tốc độ chóng mặt. Việc khai thác hiệu quả nguồn tài nguyên này có thể đưa tới nguồn tri thức hữu ích cho người dùng như phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa bệnh, nghiên cứu các cơ chế di truyền, tuyên truyền và nâng cao sức khỏe cộng đồng, v.v.. Những nghiên cứu liên quan đến xử lý ngôn ngữ tự nhiên cho văn bản y sinh học (Biomedical Natural Language Processing; BioNLP) đã mang đến nhiều lợi ích cho việc khai thác nguồn dữ liệu y sinh học, có thể kể đến những cơ sở dữ liệu hay ontology y sinh được xây dựng tự động hỗ trợ cho 11
những nhà nghiên cứu sinh và hay bác sĩ hay những hệ thống theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đang phát triển trên thế giới. Trong những hệ thống đấy, nhận dạng thực thể y sinh là một thành phần quan trọng trong quá trình phân tích và tổng hợp thông tin từ văn bản y sinh học. Đây là một bài toán khó vì mỗi một loại thực thể y sinh lại bao hàm nhiều tính chất đặc thù khác nhau về ngôn ngữ và y sinh học đòi hỏi người nghiên cứu cần phải có sự kết hợp kiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh học mới có thể đưa ra một phương pháp hay mô hình nhận dạng thực thể hiệu quả. Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN TIẾNG VIỆT r. 2.1. Giới thiệu Tên người và những thông tin liên quan đến người là một trong những từ khóa được tìm kiếm thường xuyên nhất trên các công cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về đôi khi còn rất mơ hồ. Vì vậy, nhu cầu về một hệ thống đầy đủ thông tin, chính xác và tập trung vào thực thể người là rất lớn. Thực thể tên người luôn gắn liền với một số các thuộc tính [SJ09, JAJ10], đó là các đặc trưng hoặc tính chất của một thực thể và trích chọn thuộc tính là trích chọn các đặc trưng hoặc tính chất tương ứng với một thực thể từ dữ liệu văn bản [GR08]. Do đó, trích chọn 12
thuộc tính đóng một vai trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra, việc trích chọn thực thể tên người cùng với các thuộc tính của chúng cũng góp một phần quan trọng để mở rộng các cơ sở dữ liệu và ontology. s. 2.2. Cơ sở lý thuyết và mô hình đề xuất t. 2.2.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) Mô hình Entropy cực đại (Maximum Entropy Model, Maxent Model) [BPP96] là một thuật toán học máy thông dụng dựa trên xác suất có điều kiện được sử dụng trong nhiều nghiên cứu về nhận dạng thực thể y sinh học [CN02, BON03, CC03, LTC04]. Trong đó, entropy là độ đo về tính đồng đều hay tính không chắc chắn của một phân phối xác suất, một phân phối xác suất có Entropy càng cao thì phân phối của nó càng đều. u. 2.2.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF) Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một là một mô hình rời rạc dựa trên ý tưởng gốc từ mô hình Markov ẩn (Hidden Markov Model, HMM) [RA89] và được cải thiện để khắc phục các nhược điểm của HMM cũng như mô hình markov entropy cực đại (Maximum Entropy Markov Model, MEMM) [MFP00]. CRF được giới thiệu bởi Lafferty và các cộng sự cho bài toán trích xuất thông tin [LMP01]. Tính ưu việt của CRF so với HMM thể hiện ở việc nó ước lượng các phân phối xác suất có điều kiện theo trình tự gán nhãn, tính ưu việt này đã được chứng minh qua nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn đang là một trong những phương pháp học máy được ứng dụng nhiều trong lĩnh vực NLP. 2.3.3. Mô hình đề xuất 13
Mô hình được đề xuất gồm có ba pha chính, được mô hình hóa trong hình 2.3. Đầu vào của mô hình là từng câu trong văn bản và đầu ra là các câu đã được gán nhãn dựa trên mô hình nhận dạng. Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người Pha 1: Huấn luyện mô hình Pha 2: Gán nhãn dữ liệu dựa trên mô hình nhân dạng thực thể và thuộc tính Pha 3 Lọc câu lọc dữ liệu đã được gán nhãn thu được ở pha 2 và chỉ giữ lại các câu nhãn phù hợp. v. 2.2.3. Tập đặc trưng Bảng 2.3. Tập đặc trưng được sử dụng ST Đặc trưng Ký hiệu 14
T 1 Từ đang xét W0 2 Nhãn từ loại của từ đang xét (POS) POS (W0) Is_Lower(0,0) Từ đang xét là chữ thường, viết hoa đầu từ hay viết hoa 3 Is_Initial_Cap (0,0) toàn bộ? Is_All_Cap (0,0) 4 Ngữ cảnh Wi (i = 2,1,1,2)) 5 Liên kết từ vựng Syllable_Conj (2,2)) 6 Biểu thức chính quy Regex(0,0) 7 Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0) dict:name, dict:first_name 8 Từ điển dict:vname dict:vfirst_name prefix:per 9 Tiền tố prefix:loc prefix:org 2.4. Thực nghiệm, kết quả và đánh giá Thực nghiệm được tiến hành trên 10.000 câu được thu thập từ Wikipedia3 tiếng Việt. Các câu này được gán nhãn thủ công để phục vụ cho huấn luyện và kiểm thử. Đánh giá dựa trên các độ đo chính xác (P), độ đo hồi tưởng (R) và độ đo F với phương pháp kiểm thử chéo 10 lần. Kết quả được xem xét ở cả mức tổng thể và cho từng thuộc tính. Kết quả thực nghiệm đánh giá trên toàn hệ thống: Bảng 2.4. Kết quả đánh giá toàn hệ thống trên hai phương pháp MEM+BS và CRF 3 http://vi.wikipedia.org/ 15
Độ chính Độ hồi Đô đo xác tưởng F MEM + BS (beam=3) 83.72 82.54 83.13 CRF 84 82.56 83.39 Kết quả thực nghiệm đánh giá trên từng nhãn Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn STT Nhãn P (%) R (%) F (%) STT Nhãn P (%) R (%) F (%) 1 OPer 91.35 90.33 90.84 2 NickPer 89.88 90.44 90.16 12 R_OtherName 91.67 85.19 88.31 3 RPer 80.46 78.65 79.54 13 R_Relationship 81.98 83.30 82.63 4 VBornLoc 83.45 87.91 85.62 14 R_WhereBorn 80.89 81.74 81.31 5 VDeadLoc 80.35 80.09 80.22 15 R_WhereDead 80.23 85.36 82.72 6 VHomeLoc 93.39 91.77 92.57 16 R_WhenDead 85.65 85.99 85.82 7 VJobOrg 78.25 83.69 80.88 17 R_Job 77.35 75.64 76.49 8 VJob 81.49 78.22 79.82 18 R_WhereJob 75.92 73.21 74.54 9 VSex 90.45 87.56 88.98 19 R_Sex 73.29 65.30 69.06 10 VBornTime 83.77 90.39 86.95 20 R_WhenBorn 85.75 83.22 84.47 11 VDeadTime 80.40 87.28 83.70 21 R_WhenDead 76.10 72.77 74.40 w. 2.3. Một mô hình hỏi đáp tên người áp dụng nhận dạng thực thể tiếng Việt x. 2.3.1. Khái quát bài toán Trong tiếng Việt, câu hỏi về người thường chứa các từ để hỏi như: là ai, ai là, của ai, do ai, vì ai, người nào… Hệ thống QA được xây dựng trong luận án yêu cầu đầu vào là các câu hỏi đơn giản (factoid question) tiếng Việt với kết quả trả lời là tên người. Có thể xem các câu hỏi đầu vào của hệ thống là dạng các câu hỏi WHO/WHOM/WHOSE trong tiếng Anh. Các khái niệm liên quan đến câu hỏi đơn giản và 16
đặc trưng của câu hỏi trong tiếng Việt sẽ được giới thiệu trong phần 3.3.1. y. 2.3.2. Đặc trưng câu hỏi liên quan đến thực thể người trong tiếng Việt Dạng hai lớp tân ngữ có các câu trúc sau: Chủ thể + Hành động + Tân ngữ trực tiếp Tân ngữ trực tiếp + Chủ thể + Hành động Tân ngữ trực tiếp + Hành động + Chủ thể Dạng ba lớp tân ngữ có các cấu trúc sau: Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp + Tân ngữ gián tiếp Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp z. 2.3.3. Mô hình đề xuất Mô hình hỏi đáp thực thể tên người cho tiếng Việt được đề xuất và đặt tên là VPQA. Mô hình sử dụng phương pháp phân tích câu hỏi bằng kỹ thuật học máy CRF cùng với chiến lược trả lời tự động dựa trên thông tin được truy vấn từ máy tìm kiếm. Mô hình tổng quát của hệ thống được nêu ra trong hình 2.4. Hình 2.4. Mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt 17
aa. 2.3.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi đáp tự động, ở đây nghiên cứu sinh chọn phương pháp đánh giá phổ biến nhất là nhóm ba độ đo gồm độ đo chính xác, độ đo hồi tưởng và độ đo F, đây cũng là độ đo được sử dụng tại chuỗi nhiệm vụ TREC [Vo03]. Tập dữ liệu đánh giá bao gồm 1000 câu hỏi được xây dựng và gán nhãn thủ công. Các câu hỏi là dạng câu hỏi đơn giản hỏi về thực thể người và được gán các nhãn thành. ab. 2.3.5. Thực nghiệm và đánh giá a. Thực nghiệm đánh giá hiệu quả phân tích câu hỏi 18
Bảng 2.10. Kết quả đánh giá thành phần phân tích câu hỏi Độ chính xác Độ hồi tưởng Độ đo F Fold 1 89.7 90.2 89.95 Fold 2 94.1 95.05 94.57 Fold 3 96.4 96.83 96.61 Fold 4 93.07 94.23 93.64 Fold 5 94.58 96.11 95.33 Fold 6 92.43 93.45 92.93 Fold 7 91.3 92.67 91.98 Fold 8 88.35 89.45 88.89 Fold 9 91.5 92.11 91.80 Fold 10 93.32 95.01 94.15 Trung bình 92.475 93.51 92.99 a. Thực nghiệm đánh giá hiệu quả trả lời tự động của mô hình hỏi đáp Bảng 2.11. Kết quả đánh giá của hệ thống trả lời tự động Top Top Top 5 1 3 T P R F P R F P R F (ms) Baselin 62 54.3 42.1 47.4 60.1 45.5 51.8 62.7 50.1 55.7 e 6 3 7 9 9 8 8 2 4 KLB 58 79.6 55.6 65.5 89.3 60.3 72.0 90.0 60.2 72.1 8 0 9 2 3 5 SEB 2805 71.4 90 79.6 72.1 91.3 80.6 73.1 91.7 81.3 9 4 5 8 2 7 9 KLB+S 1163 74.6 87.9 80.7 79.6 89.3 84.1 80.0 91.1 85.2 EB 0 3 2 2 8 2 0 19
Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH ac. 3.1. Giới thiệu Dưới đây là định nghĩa về nhận dạng thực thể y sinh [CTLA5]. “Nhận dạng thực thể y sinh (Biomedical NER) là một (nhóm) kỹ thuật tính toán được dùng để nhận dạng và phân lớp các chuỗi văn bản chỉ đến các khái niệm quan trọng trong văn bản y sinh học.” ad. 3.2. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh Một thách thức lớn nữa đối với bài toán NER trong dữ liệu y sinh và vấn đề thích ứng khi thích nghi miền dữ liệu. Các nghiên cứu NER y sinh học thường sử dụng một tập nhỏ các dữ liệu được gán nhãn để nghiên cứu và thực nghiệm. Vì tính chất phong phú và hướng chuyên ngành của dữ liệu y sinh học, một bộ dữ liệu thường sẽ chỉ hướng về một chủ đề hay có cùng tính chất nào đó. Hệ thống được xây dựng phù hợp cho dữ liệu thuộc về chủ đề này chưa chắc có thể hoạt động hiệu quả khi chuyển sang tập dữ liệu thuộc chủ đề khác hay các tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc dù chúng đều là dữ liệu y sinh học và có nhiều điểm tương đồng. ae. 3.3. Mô hình nhận dạng thực thể biểu hiện và một số thực thể liên quan af. 3.3.1. Dữ liệu đánh giá và tài nguyên hỗ trợ a. Tập dữ liệu Phenominer A về các bệnh tự miễn dịch di truyền (autoimmune diseases) Tập dữ liệu Phenominer A (gọi tắt là Phenominer A) được thu thập dựa trên hai tiêu chí sau: 20