ĐẠI HỌC QUỐC GIA HÀ NỘI<br />
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ<br />
<br />
TRẦN MAI VŨ<br />
<br />
HỌC MÁY DỰA TRÊN ĐỒ THỊ<br />
TRÍCH CHỌN QUAN HỆ NGỮ NGHĨA<br />
<br />
Chuyên ngành: Hệ thống thông tin<br />
Mã số: 62.48.05.01<br />
<br />
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN<br />
<br />
Hà Nội – 2016<br />
<br />
Công trình được hoàn thành tại: Trường Đại họ Công nghệ<br />
Đại họ Quố gi H Nội<br />
<br />
Người hướng dẫn khoa học: PGS.TS. Hà Quang Thụy<br />
PGS.TS. Nguyễn Lê Minh<br />
Phản biện:………………………………………………..<br />
<br />
Phản biện:………………………………………………..<br />
<br />
Phản biện:………………………………………………..<br />
<br />
Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc<br />
gia chấm luận án tiến sĩ họp tại<br />
vào hồi<br />
<br />
giờ<br />
<br />
ng y<br />
<br />
tháng<br />
<br />
năm<br />
<br />
Có thể tìm hiểu luận án tại:<br />
Thư viện Quốc gia Việt Nam<br />
Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội<br />
<br />
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ CÓ LIÊN<br />
QUAN ĐẾN LUẬN ÁN<br />
[TMV1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014).<br />
The impact of near domain transfer on biomedical named<br />
entity recognition. LOUHI 2014, EACL 2014, Sweden,<br />
2014.<br />
[TMV2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, QuangThuy Ha, Anika Oellrich, Dietrich Rebholz-Schuhmann<br />
(2013). Learning to Recognize Phenotype Candidates in the<br />
Auto-Immune Literature Using SVM Re-Ranking. PLoS<br />
ONE 8(10): e72965, October 2013.<br />
[TMV3] Mai-Vu Tran, Nigel Collier, Hoang-Quynh Le, VanThuy Phi and Thanh-Binh Pham (2013). Exploing a<br />
Probabilistic Earley Parser for Event Composition in<br />
Biomedical Texts, BIONLP-ST:130-134.<br />
[TMV4] Mai-Vu Tran, Duc-Trong Le (2013). vTools: Chunker<br />
and Part-of-Speech tools, RIVF- VLSP 2013 Workshop.<br />
[TMV5] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika<br />
Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich RebholzSchuhmann (2012). A Hybrid Approach to Finding<br />
Phenotype Candidates in Genetic Texts, COLING 2012: 647662.<br />
[TMV6] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and TienTung Nguyen (2012). A Model of Vietnamese Person<br />
Named Entity Question Answering System, PACLIC 2012,<br />
Bali, Indonesia, October 2012.<br />
<br />
i<br />
<br />
[TMV7] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen,<br />
Minh-Tien Nguyen, Xuan-Hieu Phan (2012). VnLoc (2012).<br />
A Real–time News Event Extraction Framework for<br />
Vietnamese, KSE'2012:161-166, Da Nang, August 17-19,<br />
2012.<br />
[TMV8] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran,<br />
Quang-Thuy<br />
<br />
Ha<br />
<br />
(2011).<br />
<br />
A<br />
<br />
Solution<br />
<br />
for<br />
<br />
Grouping<br />
<br />
Vietnamese Synonym Feature Words in Product Reviews.<br />
APSCC 2011: 503-508.<br />
[TMV9] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui,<br />
Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated<br />
Approach Using Conditional Random Fields<br />
<br />
for Named<br />
<br />
Entity Recognition and Person Property Extraction in<br />
Vietnamese Text. IALP 2011:115-118.<br />
[TMV10] Mai-Vu Tran, Tien-Tung Nguyen, Thanh-Son Nguyen,<br />
Hoang-Quynh Le (2010). Automatic Named Entity Set<br />
Expansion Using Semantic Rules and Wrappers for Unary<br />
Relations. IALP 2010: 170-173.<br />
[TMV11] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010).<br />
User Interest Analysis with Hidden Topic in News<br />
Recommendation System. IALP 2010: 211-214.<br />
[TMV12] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang,<br />
Nigel Collier (2015). The UET-CAM System in the<br />
BioCreAtIvE V CDR Task.<br />
<br />
In Proceedings of the fifth<br />
<br />
BioCreative challenge evaluation workshop, Sevilla, Spain.<br />
<br />
ii<br />
<br />
MỞ ĐẦU<br />
Lý do chọn đề tài<br />
Nhận dạng thực thể (Named entity recognition; NER) là một<br />
bài toán chính thuộ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây l<br />
một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá<br />
văn bản như hệ thống trích xuất sự kiện, hệ thống hỏi đáp tự động, hệ<br />
thống tìm kiếm ngữ nghĩ . Chính vì vậy, cùng với sự phát triển của<br />
dữ liệu văn bản trên Internet b i toán n y ũng nhận được sự quan<br />
tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây.<br />
Mặ dù đã ó khá nhiều công trình nghiên cứu tuy nhiên hầu<br />
hết các nghiên cứu này đều tập trung cho một số loại thực thể thông<br />
thường trong văn bản tiếng Anh chuẩn. Những nghiên cứu liên quan<br />
đến các thực thể trong ngôn ngữ khá như tiếng Việt hay các miền dữ<br />
liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và<br />
thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn<br />
chuẩn, tài nguyên ngôn ngữ về tri thức miền h y á định nghĩ hình<br />
thức về kiểu thực thể cần nhận dạng… Luận án này sẽ tiếp nối những<br />
nghiên cứu trướ đó nhằm giải quyết một phần những hạn chế được<br />
nêu ra ở trên.<br />
Mục tiêu cụ thể và phạm vi nghiên cứu của luận án<br />
Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai<br />
loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ<br />
liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh<br />
học.<br />
<br />
1<br />
<br />