
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
PHẠM XUÂN THU
NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY
VÀ ỨNG DỤNG TRONG PHÂN LOẠI BỆNH
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 8.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - NĂM 2021

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. VŨ VĂN THỎA
(Ghi rõ học hàm, học vị)
Phản biện 1: ………………………………………………………………
Phản biện 2: ………………………………………………………………..
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông.

1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Công tác y tế chăm sóc sức khỏe nhân dân có một vị trí hết sức to lớn và
quan trọng đối với phát triển của toàn xã hội. Ngày nay, hệ thống chăm sóc sức
khỏe phụ thuộc ngày càng nhiều vào các xét nghiệm cận lâm sàng (bao gồm xét
nghiệm, chẩn đoán hình ảnh và thăm dò chức năng). Các xét nghiệm cận lâm sàng
đóng vai trò thiết yếu của y học hiện đại. Mục đích chung của việc thực hiện xét
nghiệm cận lâm sàng là nhằm giảm thiểu những rủi ro lâm sàng. Chúng đóng vai trò
chính trong các quyết định của các bác sĩ lâm sàng, điều dưỡng và nhân viên y tế
trong toàn bộ quá trình điều trị, chăm sóc bệnh nhân.
Xuất phát từ thực tế và mục tiêu như vậy, học viên chọn thực hiện đề tài luận
văn tốt nghiệp chương trình đào tạo thạc sĩ có tên “Nghiên cứu một số thuật toán
học máy và ứng dụng trong phân loại bệnh”.
2. Tổng quan về vấn đề nghiên cứu
Học máy có ứng dụng rộng khắp trong các ngành khoa học và công nghệ,
đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Qua đó có thể
nhận thấy sự tương đồng giữa quá trình học máy và quá trình phân lớp dữ liệu. Do
đó, hầu hết các kỹ thuật học máy đều có thể sử dụng để xây dựng các mô hình phân
lớp dữ liệu.
Các phương pháp phân lớp dữ liệu dựa trên kỹ thuật học máy bao gồm:
- Phương pháp Cây quyết định.
- Phương pháp Bayes (Suy luận Bayes, mạng bayes).
- Phương pháp Máy vectơ hỗ trợ (SVM).
- Phương pháp Mạng no-ron nhân tạo (Artificial Neural Network - ANN).
3. Mục đích nghiên cứu
Luận văn nhằm mục đích nghiên cứu một số thuật toán học máy cho bài toán
phân loại bệnh.

2
Trên cơ sở đó tiến hành thực nghiệm ứng dụng một số thuật toán học máy
trong phân loại bệnh dựa trên xét nghiệm hóa nghiệm.
4. Đối tƣợng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của luận văn bao gồm:
- Bài toán phân loại bệnh và các vấn đề liên quan;
- Các thuật toán học máy để phân lớp dữ liệu;
- Một số công cụ, phần mềm để thử nghiệm và đánh giá hiệu quả các thuật
toán học máy trong bài toán phân loại bệnh đưa ra.
5. Phƣơng pháp nghiên cứu
- Phương pháp lý thuyết: Khảo sát, phân tích các tài liệu khoa học liên quan
đến các thuật toán học máy và bài toán phân loại bệnh..
- Phương pháp thực nghiệm: Sử dụng các công cụ, phần mềm để thử nghiệm
và đánh giá hiệu quả phân loại bệnh của các thuật toán học máy đối với bộ
dữ liệu được lựa chọn.
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI
BỆNH VÀ HỌC MÁY
1.1. Giới thiệu bài toán phân loại bệnh và các vấn đề liên quan
1.1.1.
Khái niệm về phân lớp dữ liệu và bài toán phân loại bệnh
Phân lớp (classification) dữ liệu [7] là một tiến trình xử lý nhằm xếp các dữ
liệu vào một trong các lớp đã được định nghĩa trước. Các dữ liệu được xếp vào các
lớp dựa vào giá trị của các thuộc tính (attributes) của chúng. Sau khi đã xếp tất của
các dữ liệu đã biết trước vào các lớp tương ứng, mỗi lớp được đặc trưng bởi tập các
thuộc tính của các dữ liệu chứa trong lớp đó. Sau đó, có thể sử dụng chúng trong
ᴠiệᴄ phân lớp cho các dữ liệu mới. Như vậy, quá trình phân lớp đượᴄ tiến hành bao
gồm 2 giai đoạn: giai đoạn xâу dựng mô hình phân lớp ᴠà giai đoạn sử dụng mô
hình. phân lớp.

3
1.1.2.
Quy trình thực hiện phân loại bệnh
Đối với bài toán phân lớp dữ liệu nói chung thường được thực hiện theo 2
giai đoạn: Giai đoạn học để xây dựng mô hình phân lớp và giai đoạn phân lớp để
kiểm tra đánh giá mô hình phân lớp [7]. Đối với bài toán phân loại bệnh có thể thực
hiện theo các bước sau đây.
Bƣớc 1: Thu thập dữ liệu bệnh;
Bƣớc 2: Tiền xử lý dữ liệu;
Bƣớc 3: Phân chia dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng;
Bƣớc 4: Xây dựng mô hình phân lớp theo phương pháp lựa chọn phù hợp trên tập
huấn luyện;
Bƣớc 5: Sử dụng mô hình phân lớp có được để phân loại với tập dữ liệu kiểm
chứng và đánh giá kết quả của mô hình.
Các độ đo Sensitivity, Specitivity, Accuracy, FP rate, FN rate thường được
sử dụng trong lĩnh vực y tế để giải thích lâm sàng các kết quả xét nghiệm chẩn đoán
và để ước tính mức độ tốt và phù hợp khi chỉ định xét nghiệm [8]. Vì vậy luận văn
sử dụng các độ đo Sensitivity (độ nhạy), Specitivity (độ đặc hiệu) và Accuracy (độ
chính xác) để đánh giá mô hình phân lớp cho bài toán phân loại bệnh
1.1.3.
Các ứng dụng của bài toán phân loại bệnh
Bài toán phân loại bệnh được ứng dụng rộng rãi trong y học. Gần đây việc
ứng dụng bài toán phân loại bệnh trong y học ngày càng hoàn thiện trong việc tìm
ra mối liên hệ giữa các triệu chứng lâm sàng, cận lâm sàng, giữa các bệnh với nhau
để hỗ trợ chẩn đoán, điều trị và tiên lượng bệnh.
Trong điều trị, bài toán phân loại bệnh dùng đưa ra các dự đoán về kết quả
điều trị, phẫu thuật dựa trên những kết quả điều trị trước đó và tình trạng hiện tại
của người bệnh.

