-Trang 1-
BỘ GIÁO DỤC ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
DƯƠNG THỊ KIM CHI
NÂNG CAO HIU QU MÔ HÌNH HC MÁY CHO D
LIU Y SINH
LUN ÁN TIẾN SĨ KHOA HC MÁY TÍNH
Ngành: Khoa hc máy tính
Mã s ngành: 9480101
Đồng Nai, năm 2023
-Trang 2-
Công trình được hoàn thành ti: Trường Ði hc Lc Hng
Ngui hung dn khoa hc: PGS.TS. Trần Văn Lăng
Phn bin 1: ..........................................................................................
Phn bin 2: ..........................................................................................
Phn bin 3: ...........................................................................................
Lun án s đuc bo v truc Hội đồng chm lun án cp Trung hp ti
................................................................................................................
.................................................................................................................
Vào hồi …. giờ….., ngày…..tháng…..năm
Có th tìm hiu lun án tại thư viện:
- Thư viện trung Ði hc Lc Hng
- Thư viện Quc Gia
-Trang 3-
MỤC LỤC
TNG QUAN ...................................................................... 1
TNG QUAN V ĐỀ TÀI NGHIÊN CU .................................................. 1
Gii thiu ................................................................................... 1
Bài toán nghiên cu ................................................................... 1
Thách thc ca bài toán nghiên cu .......................................... 2
MC TIÊU, ĐỐI TƯỢNG, PHẠM VI VÀ PHƯƠNG PHÁP NGHIÊN CỨU ..... 2
Mc tiêu ..................................................................................... 2
Phm vi nghiên cu tp trung vào: ............................................ 3
NHIM V CA LUN ÁN .................................................................... 3
Thiết kế mô hình hc máy hiu qu cho d liu sinh hc phân
t trong các nhim v ng dng trong phát trin thuc bng k thut
tái t hp ............................................................................................. 4
Mô hình hc máy hiu qu cho d liu sinh hc phân t trong
các nhim v định danh loài sinh vt. ................................................. 4
Mô hình hc máy hiu qu trong các ng dng y sinh v chun
đoán bệnh da trên d liu lâm sàng. ................................................. 5
CÁC ĐÓNG GÓP CỦA LUN ÁN............................................................ 6
B CC CA LUN ÁN ........................................................................ 7
CƠ SỞTHUYT VÀ CÁC CÔNG TRÌNH LIÊN
QUAN .......................................................................................................... 9
CÁC KHÁI NIM TRONG Y SINH .......................................................... 9
CÁC NGHIÊN CU LIÊN QUAN CÓ S DNG THUT TOÁN HC MÁY
DÙNG TRONG CÁC BÀI TOÁN ĐỀ XUT ..................................................... 9
Các vấn đề v rút gn chiu: ...................................................... 9
Phương pháp học tp không giám sát ........................................ 9
Phương pháp học tp giám sát ................................................... 9
Phương pháp học máy hc kết hp .......................................... 10
Các thut toán dùng trong luận án để gii quyết các vấn đề đã
đặc ra trong d liu y sinh ................................................................. 10
CÁC NGHIÊN CU LIÊN QUAN........................................................... 10
D LIỆU Y SINH ĐƯỢC S DNG TRONG CÁC NHIM V CA LUN
ÁN .......................................................................................................... 11
ĐÁNH GIÁ MÔ HÌNH MÔ HÌNH HC MÁY ........................................... 11
-Trang 4-
MÔ HÌNH HC MÁY TÌM GENE CHO H THNG
BIU HIN TRONG K THUT DNA TÁI T HP ....................... 12
BÀI TOÁN TÌM GENE BIU HIN CAO (HEG- HIGHLY EXPRESSED
GENE) ..................................................................................................... 12
Kết qu thc nghim.............................................................. 12
BÀI TOÁN TÌM H THNG BIU HIN PHÙ HP VI GENE MC TIÊU
[CT3] ..................................................................................................... 13
MÔ HÌNH ĐỊNH DANH LOÀI SINH VT ................... 13
GII THIU V ĐỊNH DANH LOÀI ....................................................... 13
XÂY DNG TP Đ LIU CHO QUÁ TRÌNH HUN LUYN................... 14
THUẬT TOÁN ĐỀ XUT XÂY DỰNG MÔ HÌNH ĐỊNH DANH LOÀI DA
TRÊN HC KT HP (ENSEMBLE LEARNING) .......................................... 14
MÔ HÌNH HỌC MÁY ĐỊNH DANH LOÀI NM MI ................................ 15
KT QU THC NGHIM ................................................................... 15
KT LUN: ........................................................................................ 17
MÔ HÌNH HC MÁY CHO CHUN ĐOÁN BỆNH
DA TRÊN D LIU LÂM SÀNG. ...................................................... 18
MÔ HÌNH D ĐOÁN BỆNH DA TRÊN D LIU LÂM SÀN .................. 18
Gii thiu bài toán d đoán bệnh và mô hình đề xut ............. 18
Kết qu thc nghim ................................................................ 19
MÔ HÌNH PHÂN LOI BNH COVID-19 VÀ BNH CÚM MÙA ............. 19
Gii thiu bài toán và mô hình gii quyết ................................ 19
Hiệu năng của mô hình đề xut ................................................ 21
KT LUN ......................................................................................... 22
KT LUN VÀ NG PHÁT TRIN ....................... 23
KT LUN ......................................................................................... 23
HƯỚNG PHÁT TRIN ......................................................................... 24
-Trang 1-
TNG QUAN
Tng quan v đề tài nghiên cu
Gii thiu
Tính toán y sinh (hay còn gi tin y sinh) là một lĩnh vực nghiên cu
liên ngành gia y hc và khoa học máy tính. Đó là sự kết hợp các phương
pháp phân tích d liu, hc máy, thng thuyết thông tin để gii
quyết các vấn đề trong lĩnh vực y sinh như: phát hiện chẩn đoán bệnh,
thiết kế thuc và nghiên cu sinh hc phân t. Các nghiên cu quan trng
của lĩnh vực tin y sinh như th k đến là: d báo dch bnh, phát trin
thuc, sn xut vaccine, hay chuẩn đoán và điều tr bệnh. Phương pháp học
máy có th thúc đẩy các chương trình nghiên cứu cơ bản ng dng v
tin y sinh [2]. Các hình này th giúp xác định nguy mắc bnh,
phát hin sm bnh lý và d đoán kết qu của điều tr.
Để xây dng các mô hình hc máy có hiu qucó tính ng dng cao,
hu hết các thut toán học máy đều cn d liu cấu trúc đồng nht, d liu
các thuc tính đã được s hóa không trống. Tuy nhiên, điều này là rt
khó thc hiện đối vi d liu y sinh vì: i) phn ln d liu sinh hc phân
t thì cu trúc dng chui t dài chế sinh hc phc tp khi
ng d liu rt ln; ii) d liu ca bnh viện như h sơ y tế, kết qu xét
nghim y khoa ca các loi bnh thì b phân mnh, trùng lp, b thiếu
mt cân bng lp trong các b d liu y sinh thế gii thc. Các thách thc
này là động lực thúc đẩy lun án thc hin nghiên cu quan trng này.
Bài toán nghiên cu
Vi ngun d liu y sinh đưc to ra ngày càng nhiều và được công b
rng rãi bi các d án ln v khoa hc s sống (Life science) đã thúc đy
mnh các nhà nghiên cu v ng dng hc máy trong lĩnh vực y sinh. Mt
trong các thách thc ln của hưng nghiên cu này là d liu y sinh có đặc
tính chuyên ngành phc tp, d liu chiu cao và cha nhiu li. Vic x
lý hiu qu d liu thô t các ngun d liu y sinh giúp các thut toán hc