ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phm Thanh Bình
MT MÔ HÌNH HỌC MÁY XÁC ĐỊNH
TÍNH CHT MODIFICATION CA CÁC S KIN
Y SINH V BỆNH UNG THƯ DI TRUYỀN
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2013
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phm Thanh Bình
MT MÔ HÌNH HỌC MÁY XÁC ĐỊNH
TÍNH CHT MODIFICATION CA CÁC S KIN
Y SINH V BỆNH UNG THƯ DI TRUYỀN
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b ng dn: TS. Phan Xuân Hiếu
Cán b đồng hướng dn: ThS. Trần Mai Vũ
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Pham Thanh Binh
A MACHINE LEARNING MODEL FOR BIOMEDICAL
EVENT MODIFICATION IDENTIFICATION ON
CANCER GENETICS DATASET
Major: Information Techlonogy
Supervisor: Dr. Phan Xuan Hieu
Co-Supervisor: MSc. Tran Mai Vu
HA NOI - 2013
i
Li cảm ơn
Trưc tiên, em xin y t li cảm ơn sâu sắc ti Phó Giáo Tiến Quang
Thy, PGiáo Tiến Nigel H. Collier (Viện Tin học Qu c gia Nhật ản (NII
Tiến Phan Xuân Hiếu đã tn tình ch bo, hướng dn em trong quá trình m hiu,
nghiên cứu để hoàn thành khóa lun t t nghipy.
Đặc bit, em xin gi li cảm ơn chân thành nhất ti Thạc Trần Mai - ngưi
đã tận tình h tr v kiến thức chuyên môn giúp đỡ em rt nhiều để hoàn thành khóa
lun.
Đồng thi, em xin cảm ơn các thy, các anh ch các bn trong Phòng Thí
nghim Công ngh Tri thc (KT-Lab đã chia sẻ nhng kinh nghim, kiến thc quý
báu cho em trong quá trình nghiên cu.
Em cũng xin gi li cảm ơn tới nhà trường thầy đã tạo cho em điều kin
thun li trong su t thời gian hoàn thành khóa lun t t nghip ti trường Đại Hc
Công Ngh - Đại Học Qu c Gia Hà Nội.
Li cu i cùng, em mu n cm ơn gia đình và bạn bè - ngun c động viên tinh
thn ln nhất giúp em t qua nhng khó khăn trong su t quá trình thc hin khóa
lun t t nghip.
Em xin chân thành cảm ơn!
Hà Nội, ngày 15 tháng 5 năm 2013
Sinh viên
Phm Thanh Bình
ii
MT MÔ HÌNH HỌC MÁY XÁC ĐNH TÍNH CHT MODIFICATION
CA CÁC S KIN Y SINH V BỆNH UNG THƯ DI TRUYN
Phm Thanh Bình
Khóa QH-2009-I/CQ, ngành Công ngh thông tin
Tóm tt Khóa lun tt nghip
Bài toán trích xut s kin y sinh đang nhận được s quan tâm rt ln ca cộng đồng
nghiên cu nhm tìm ra nhng m i quan h gia các thc th y sinh hoạt động ca chúng.
Bài toán b sung ca bài toán trích xut s kin y sinh ti BioNLP Shared Task bài toán
xác định tính cht Modification ca s kin y sinh cũng giữ mt vai trò cùng quan trng.
Mục đích của bài toán này là xác định s kin y sinh mang thông tin có tht, không chc chn
hay ph định. Hin nay, nhiều hướng tiếp cận cho bài toán y như dựa trên lut hay hc
giám sát, tuy vy kết qu thu được chưa được cao, vi độ đo F1 nh hơn 60%.
Thấy được s cn thiết quan trng của bài toán xác định tính cht Modification ca
các s kin y sinh, tác gi đã nghiên cứu, tìm hiu bài toán y trên min d liệu ung thư di
truyn. Khóa lun MT HÌNH HỌC MÁY XÁC ĐỊNH TÍNH CHT
MODIFICATION CA CÁC S KIN Y SINH V BỆNH UNG THƯ DI TRUYỀN
mu n gii thiu mt hình hc máy gii quyết i toán. Ni dung ca khóa lun tp trung
vào trình bày mt s thách thc ca bài toán, phân tích so sánh mt s hướng tiếp cn, t
sở đó xây dng mt hình hc máy giám sát cho bài toán trích chn s kin
Modification. hình gm hai thành phn: (1) Trích chn s kin; (2) Trích chn s kin
Modification. Khi tiến hành thc nghiệm trên tập dữ liệu chun được cung cấp bởi ioNLP-
ST 2013, mô hình đề xut đạt kết quả 59.47% trên độ đo F1.
T khóa: s kin, Modification, bệnh ung thư di truyền.