Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa

Chia sẻ: Vivi Vivi | Ngày: | Loại File: PDF | Số trang:28

Thêm vào BST

Báo xấu

96
lượt xem 10
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa" tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh học, nhằm đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên. Mời các bạn cùng tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Học máy dựa trên đồ thị trích chọn quan hệ ngữ nghĩa

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ HỌC MÁY DỰA TRÊN ĐỒ THỊ TRÍCH CHỌN QUAN HỆ NGỮ NGHĨA Chuyên ngành: Hệ thống thông tin Mã số: 62.48.05.01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 Công trình được hoàn thành tại: Trường Đại họ Công nghệ Đại họ Quố gi H Nội Người hướng dẫn khoa học: PGS.TS. Hà Quang Thụy PGS.TS. Nguyễn Lê Minh Phản biện:……………………………………………….. Phản biện:……………………………………………….. Phản biện:……………………………………………….. Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại vào hồi giờ ng y tháng năm Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN [TMV1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014). The impact of near domain transfer on biomedical named entity recognition. LOUHI 2014, EACL 2014, Sweden, 2014. [TMV2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, QuangThuy Ha, Anika Oellrich, Dietrich Rebholz-Schuhmann (2013). Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking. PLoS ONE 8(10): e72965, October 2013. [TMV3] Mai-Vu Tran, Nigel Collier, Hoang-Quynh Le, VanThuy Phi and Thanh-Binh Pham (2013). Exploing a Probabilistic Earley Parser for Event Composition in Biomedical Texts, BIONLP-ST:130-134. [TMV4] Mai-Vu Tran, Duc-Trong Le (2013). vTools: Chunker and Part-of-Speech tools, RIVF- VLSP 2013 Workshop. [TMV5] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich RebholzSchuhmann (2012). A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647662. [TMV6] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and TienTung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012. i [TMV7] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, Xuan-Hieu Phan (2012). VnLoc (2012). A Real–time News Event Extraction Framework for Vietnamese, KSE'2012:161-166, Da Nang, August 17-19, 2012. [TMV8] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha (2011). A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews. APSCC 2011: 503-508. [TMV9] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115-118. [TMV10] Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen, Hoang-Quynh Le (2010). Automatic Named Entity Set Expansion Using Semantic Rules and Wrappers for Unary Relations. IALP 2010: 170-173. [TMV11] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis with Hidden Topic in News Recommendation System. IALP 2010: 211-214. [TMV12] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015). The UET-CAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain. ii MỞ ĐẦU Lý do chọn đề tài Nhận dạng thực thể (Named entity recognition; NER) là một bài toán chính thuộ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây l một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá văn bản như hệ thống trích xuất sự kiện, hệ thống hỏi đáp tự động, hệ thống tìm kiếm ngữ nghĩ . Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet b i toán n y ũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây. Mặ dù đã ó khá nhiều công trình nghiên cứu tuy nhiên hầu hết các nghiên cứu này đều tập trung cho một số loại thực thể thông thường trong văn bản tiếng Anh chuẩn. Những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khá như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền h y á định nghĩ hình thức về kiểu thực thể cần nhận dạng… Luận án này sẽ tiếp nối những nghiên cứu trướ đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh học. 1