ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phí Văn Thủy
TRÍCH CHN S KIN Y SINH PHC HP
DA VÀO MÔ HÌNH PHÂN TÍCH CÂY PH THUC
TRONG VĂN BẢN V BỆNH UNG THƯ DI TRUYỀN
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
NI - 2013
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phí Văn Thủy
TRÍCH CHN S KIN Y SINH PHC HP
DA VÀO MÔ HÌNH PHÂN TÍCH CÂY PH THUC
TRONG VĂN BẢN V BỆNH UNG THƯ DI TRUYỀN
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b ng dn: TS. Phan Xuân Hiếu
Cán b đồng ng dn: ThS. Trần Mai Vũ
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Phi Van Thuy
A COMPLEX EVENT EXTRACTION METHOD
BASED ON DEPENDENCY PARSING
FOR CANCER GENETICS DATASET
Major: Information Technology
Supervisor: Dr. Xuan-Hieu Phan
Co-Supervisor: MSc. Mai-Vu Tran
HA NOI - 2013
Li cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn lòng biết ơn sâu sắc nhất tới Phó Giáo
Tiến Quang Thụy, Tiến Phan Xuân Hiếu, Thạc Trần Mai những
người đã tận tình chỉ bảo ớng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi xin gửi lời cảm ơn chân thành tới Phó Giáo Tiến Nigel H. Collier,
thuộc Viện Thông tin quốc gia Nhật Bản (NII), người đã tận tình hỗ trợ về kiến thức
chuyên môn, giúp đỡ tôi hoàn thành khóa luận.
Tôi chân thành cảm ơn các thầy, cán bộ của trường Đại Học Công Nghệ
đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm KT-Lab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình bạn bè, những người thân
yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 15 tháng 5 năm 2013
Sinh viên
Phí Văn Thy
i
TRÍCH CHN S KIN Y SINH PHC HP
DA VÀO MÔ HÌNH PHÂN TÍCH CÂY PH THUC
TRONG VĂN BN V BỆNH UNG THƯ DI TRUYN
Phí Văn Thủy
Khóa QH-2009-I/CQ , ngành Công ngh thông tin
Tóm tt Khóa lun tt nghip:
Thuật ngữ trích chn s kiện y sinh hc được sdụng đđề cập đến bài toán trích
chọn sự mô tả về các hoạt động và quan hệ giữa một hoc nhiều thực th t tài liệu y sinh học.
Vic t động nhn dng bất đối tượng ca mt lp s kin riêng, trích chn các tham s
liên quan của chúng biu diễn thông tin được trích chn vào mt dng cu trúc t các
công trình khoa hc giúp cộng đồng nghiên cu y sinh hc nhanh chóng thu nhận được các
kết qu nghiên cu mi nhất trong lĩnh vực liên quan mật thiết tới việc đảm bảo sức khe con
người.
Các kết qu mi nht cho thy hiệu năng khi trích chn các s kin phc hp (s kin
th nhn tham s thc th hoc s kin khác) ch đạt khong 40-50% F1 ti BioNLP
Shared Task 2011. Khóa luận này đề xuất một hình học máy cho bài toán trích chn s
kiện y sinh phc hp áp dụng vào Cancer Genetics (CG) task một bài toán trích chọn
thông tin trong BioNLP Shared Task (ST) 2013. Mục đích của CG task trích chn thông tin
t động t các văn bản v quá trình sinh học, liên quan đến s phát trin và tiến trin ca bệnh
ung thư. Mô hình của chúng tôi gồm ba thành phần chính: (1) nhận diện trigger; (2) trích chọn
ứng viên sự kiện; (3) xếp hạng và đưa ra kết quả. Khi đánh giá trên tập dữ liệu phát trin được
cung cấp bi BioNLP-ST 2013, với khoảng 1000 câu lấy t PubMed, chúng tôi thu được kết
quả bước đầu khá kh quan: độ đo F1 khi trích chọn các s kin phc hợp đạt t 50% đến
70%. hình mi phù hp vi min d liu v bệnh ung thư di truyền cho hiệu năng tt
hơn mô hình cơ s chúng tôi đưa ra.
T khóa: Event extraction, Dependency tree, Cancer Genetics Task.