HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
PHẠM XUÂN THU
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY
VÀ ỨNG DỤNG TRONG PHÂN LOẠI BỆNH
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 8.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - NĂM 2021
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. VŨ VĂN THỎA
(Ghi rõ học hàm, học vị)
Phản biện 1: ……………………………………………………………
Phản biện 2: ……………………………………………………………..
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc tại Học viện
Công nghệ Bưu chính Viễn thông
o lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông.
1
MỞ ĐẦU
1. Tính cp thiết của đề tài
Công tác y tế chăm c sức khỏe nhân dân có một vị trí hết sức to lớn
quan trọng đối với phát triển của toàn hội. Ngày nay, hệ thống chăm sóc sức
khỏe phụ thuộc ngày càng nhiều vào các xét nghiệm cận lâm sàng (bao gồm xét
nghiệm, chẩn đoán hình ảnh thăm chức năng). Các xét nghiệm cận lâm sàng
đóng vai trò thiết yếu của y học hiện đại. Mục đích chung của việc thực hiện xét
nghiệm cận lâm sàng là nhằm giảm thiểu những rủi ro lâm sàng. Chúng đóng vai trò
chính trong các quyết định của các bác lâm sàng, điều dưỡng nhân viên y tế
trong toàn bộ quá trình điều trị, chăm sóc bệnh nhân.
Xut phát t thc tế mục tiêu như vy, hc viên chn thc hiện đề tài lun
văn tt nghiệp chương trình đào tạo thạc tên Nghiên cu mt s thut toán
hc máy và ng dng trong phân loi bnh”.
2. Tng quan v vấn đề nghiên cu
Học máy ứng dụng rộng khắp trong các ngành khoa học ng nghệ,
đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Qua đó thể
nhận thấy sự tương đồng giữa quá trình học máy quá trình phân lớp dữ liệu. Do
đó, hầu hết các kỹ thuật học y đều có thể sử dụng để y dựng các mô hình phân
lớp dữ liệu.
Các phương pháp phân lớp dữ liệu dựa trên kỹ thuật học máy bao gồm:
- Phương pháp Cây quyết định.
- Phương pháp Bayes (Suy luận Bayes, mạng bayes).
- Phương pháp Máy vectơ hỗ trợ (SVM).
- Phương pháp Mạng no-ron nhân tạo (Artificial Neural Network - ANN).
3. Mục đích nghiên cu
Luận văn nhằm mục đích nghiên cứu một số thuật toán học máy cho bài toán
phân loại bệnh.
2
Trên sở đó tiến nh thực nghiệm ứng dụng một số thuật toán học máy
trong phân loại bệnh dựa trên xét nghiệm hóa nghiệm.
4. Đối tƣng và phm vi nghiên cu
Đối tưng và phm vi nghiên cu ca luận văn bao gồm:
- Bài toán phân loi bnh và các vấn đề liên quan;
- Các thut toán học máy để phân lp d liu;
- Mt s công c, phn mm để th nghim đánh giá hiu qu các thut
toán hc máy trong bài toán phân loi bệnh đưa ra.
5. Phƣơng pháp nghiên cứu
- Phương pháp thuyết: Khảo sát, phân tích các tài liệu khoa học liên quan
đến các thuật toán học máy và bài toán phân loại bệnh..
- Phương pháp thực nghiệm: Sử dụng các công cụ, phần mềm để thử nghiệm
đánh giá hiệu quả phân loại bệnh của c thuật toán học máy đối với bộ
dữ liệu được lựa chọn.
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI
BỆNH VÀ HỌC MÁY
1.1. Giới thiệu bài toán phân loại bệnh và các vấn đề liên quan
1.1.1.
Khái niệm về phân lớp dữ liệubài toán phân loại bệnh
Phân lớp (classification) dữ liệu [7] một tiến trình xử nhằm xếp các dữ
liệu vào một trong các lớp đã được định nghĩa trước. Các dữ liệu được xếp o các
lớp dựa vào giá trị của các thuộc tính (attributes) của chúng. Sau khi đã xếp tất của
các dữ liệu đã biết trước vào các lớp tương ứng, mỗi lớp được đặc trưng bởi tập các
thuộc tính của các dữ liệu chứa trong lớp đó. Sau đó, thể sử dụng chúng trong
ᴠiệᴄ phân lớp cho các dữ liệu mới. Như vậy, quá trình phân lớp đượᴄ tiến hành bao
gồm 2 giai đoạn: giai đoạn xâу dựng hình phân lớp ᴠà giai đoạn sử dụng
hình. phân lớp.
3
1.1.2.
Quy trình thực hiện phân loại bệnh
Đối với bài toán phân lớp dữ liệu nói chung thường được thực hiện theo 2
giai đoạn: Giai đoạn học để y dựng nh phân lớp giai đoạn phân lớp để
kiểm tra đánh giá mô hình phân lớp [7]. Đối với bài toán phân loại bệnh có thể thực
hiện theo các bước sau đây.
Bƣớc 1: Thu thập dữ liệu bệnh;
Bƣớc 2: Tiền xử lý dữ liệu;
Bƣớc 3: Phân chia dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng;
Bƣớc 4: y dựng hình phân lớp theo phương pháp lựa chọn phợp trên tập
huấn luyện;
Bƣớc 5: Sử dụng hình phân lớp được để phân loại với tập dữ liệu kiểm
chứng và đánh giá kết quả của mô hình.
Các độ đo Sensitivity, Specitivity, Accuracy, FP rate, FN rate thường được
sử dụng trong lĩnh vực y tế để giải thích lâm sàng các kết quả xét nghiệm chẩn đoán
để ước tính mức độ tốt phù hợp khi chỉ định xét nghiệm [8]. vậy luận n
sử dụng các độ đo Sensitivity nhạy), Specitivity (độ đặc hiệu) và Accuracy (độ
chính xác) để đánh giá mô hình phân lớp cho bài toán phân loại bệnh
1.1.3.
Các ứng dụng của bài toán phân loại bệnh
Bài toán phân loại bệnh được ứng dụng rộng rãi trong y học. Gần đây việc
ứng dụng bài toán phân loại bệnh trong y học ngày càng hoàn thiện trong việc tìm
ra mối liên hệ giữa các triệu chứng lâm sàng, cận lâm sàng, giữa các bệnh với nhau
để hỗ trợ chẩn đoán, điều trị và tiên lượng bệnh.
Trong điều trị, bài toán phân loại bệnh ng đưa ra các dự đoán về kết quả
điều trị, phẫu thuật dựa trên những kết quả điều trị trước đó tình trạng hiện tại
của người bệnh.