ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phạm Thị Quỳnh Trang
Phân tích dữ liệu văn bản
dựa trên học máy thế giới mở
và ứng dụng
LUN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
Hà Nội, 12/2019
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phm Th Qunh Trang
Phân tích dữ liệu văn bản dựa trên học máy thế giới mở
và ứng dụng
LUN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
Cán b ng dn: PGS.TS Hà Quang Thụy
HÀ NI - 2019
i
LỜI CẢM ƠN
Đu tiên, em xin gi li bit ơn chân thnh v sâu sc nht đn thy gio PGS. TS.
H Quang Thụy, ngưi đ luôn đng viên, nhit tnh hưng dn v to mi điu kin tt
nht cho em hon thnh đưc lun văn.
Em xin chân thnh cm ơn cc thy cô, cc anh ch em trong phng th nghim Công
ngh v tri thc đ luôn gip đ v đng viên tinh thn trong thi gian em hc tp v
công tc.
Em chân thnh cm ơn quý Thy, Cô trong Khoa Công Ngh Thông Tin nói riêng
trưng đi hc Công Ngh - Đi hc Quc Gia H Ni nói chung đ tn tnh truyn đt
những kin thc quý bu trong qu trnh hc tp ti Trưng.
Cui cng, em xin cm ơn những ngưi thân yêu ca em, đc bit l chng em đ
luôn đng viên, to điu kin tt nht cho em trong qu trnh hc tp v hon thnh lun
văn.
Em xin chân thnh cm ơn!
Lun văn ny đưc thực hin trong khuôn khổ đ ti Nafostef m s: 102.05-
2016.14 “Nghiên cu v pht triển cc hnh hc my tiên tin pht hin v trch xut
mi quan h tc dụng phụ ca thuc/hóa cht v bnh từ văn bn y-sinh”, năm 2016.
ii
LỜI CAM ĐOAN
Tôi xin cam đoan rằng lun văn thc công ngh thông tin “Phân tch dữ liu văn
bn dựa trên hc my th gii mở v ng dụng” l công trnh nghiên cu ca riêng tôi,
không sao chép li ca ngưi khc. Trong ton b ni dung ca lun văn, những điu đ
đưc trnh by hoc l ca chnh c nhân tôi hoc l đưc tổng hp từ nhiu ngun ti
liu. Tt c cc ngun ti liu tham kho đu có xut x rõ rng v hp php.
Tôi xin hon ton chu trch nhim v chu mi hnh thc kỷ lut theo quy đnh cho
li cam đoan ny.
H Ni, ngy 15 tháng 12 năm 2019
Hc viên
Phm Th Quỳnh Trang
Mc Lc
LI CẢM ƠN ........................................................................................................................ i
LỜI CAM ĐOAN ................................................................................................................. ii
TÓM TT ............................................................................................................................ iv
DANH SÁCH THUT NG VÀ T VIT TT .............................................................. v
DANH SÁCH BNG .......................................................................................................... vi
DANH SÁCH HÌNH NH ................................................................................................ vii
Mở đu .................................................................................................................................. 1
Chương 1. Hc my th gii mở v bi ton chuẩn hóa tên thc th bnh ........................ 3
1.1 Hc my truyn thng .................................................................................................. 3
1.2. Hc máy sut đi ........................................................................................................... 5
1.2.1 Đnh nghĩa hc máy sut đi .............................................................................. 7
1.2.2. Cc hưng nghiên cu LL ............................................................................... 12
1.3. Hc my th gii mở .................................................................................................. 12
1.4. Mc tiêu ca lun văn .................................................................................................. 15
Kt lun Chương 1 .............................................................................................................. 17
Chương 2. Hc sâu th gii mở cho văn bn ..................................................................... 18
2.1. Hc th gii m không gian đơn gin trung tâm ......................................................... 18
2.1.1 Tăng cưng cp nht mô hình hc CBS ........................................................... 18
2.1.2 Kim tra mô hình hc CBS ............................................................................... 20
2.1.3 Hc CBS cho phát hin lp chưa thy .............................................................. 20
2.2. Hc sâu th gii mở phân lp văn bn ........................................................................ 21
2.2.1 CNN và các lp chuyn tip ca DOC ............................................................. 22
2.2.2 Tng 1- vi-phn cn li ................................................................................... 23
2.2.2 Gim ri ro không gian m ............................................................................... 23
Kt lun Chương 2 .............................................................................................................. 24