
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Lê Bích Phượng
ÁP DỤNG CÁC PHƯƠNG PHÁP GIẢI TÍCH
VÀ TỐI ƯU TOÁN HỌC VÀO PHÂN LỚP NHỊ PHÂN
VÀ PHÂN ĐOẠN HÌNH ẢNH TRONG HỌC MÁY
Ngành: Toán học
Mã số: 9460101
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2023

Công trình được hoàn thành tại:
ĐẠI HỌC BÁCH KHOA HÀ NỘI
Người hướng dẫn khoa học:
1. PGS.TS. NGUYỄN XUÂN THẢO
2. GS. TSKH. NGUYỄN TIẾN DŨNG
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp
Đại học Bách khoa Hà Nội, họp tại Đại học Bách khoa Hà Nội
Vào hồi...............giờ..........., ngày.............tháng..............năm 2023
Có thể tìm hiểu luận án tại:
1. Thư viện Tạ Quang Bửu-ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam

MỞ ĐẦU
1. Lịch sử vấn đề và lí do lựa chọn đề tài
Vấn đề phân lớp (phân loại) trong học máy là quá
trình phân lớp một đối tượng dữ liệu vào một hay nhiều
lớp đã cho trước nhờ mô hình phân lớp. Quá trình phân
lớp là quá trình gán nhãn cho đối tượng dữ liệu. Phân
loại đối tượng vào n-lớp khác nhau được gọi là quá trình
phân lớp n-phân. Mọi vấn đề phân lớp n-phân (n > 2)
đều có thể đưa về vấn đề phân lớp nhị phân (binary
classsification).
Nghiên cứu các thước đo độ chính xác nói chung và
các thước đo độ chính xác trong phân lớp nhị phân nói
riêng là vấn đề quan trọng. Chính vì thế mà các thước
đo độ chính xác trong bài toán phân lớp nhị phân đã
được nghiên cứu nhiều, nhưng chỉ nghiên cứu từng thước
đo một cách riêng biệt. Trong đề tài này, tác giả muốn
nghiên cứu về mối quan hệ giữa một số thước đo độ chính
xác phổ biến, liệu chúng có thể thay thế được cho nhau
trong quá trình học máy hay không? Ngoài ra, luận án
cũng nghiên cứu đến vấn đề thế nào là máy tối ưu trong
phân lớp nhị phân. Hơn nữa, đường cong đặc trưng hoạt
động của máy thu (ROC-Receiver Operating Curve) từ
quan điểm thực nghiệm được cho là lồi (hoặc tương đối
lồi) khi mô hình học máy hiệu quả. Trong luận án này, tác
giả muốn nghiên cứu về mặt lí thuyết tính lồi của đường
cong ROC của máy tối ưu trong phân lớp nhị phân.
Trong học máy, hàm mất mát (loss function) là hàm
1

dùng để đo xem một máy cho ra kết quả khác với “sự
thật cơ bản” hay khác với “máy lí tưởng” chừng nào, để
rồi phản hồi (feedback) lại thông tin đó cho máy, tìm
cách thay đổi các tham số của máy nhằm giảm mất mát
đi, khiến cho máy trở nên chính xác hay hiệu quả hơn.
Trong phân lớp nhị phân, các hàm mất mát hay được
dùng là hàm mất mát bình phương và hàm mất mát
cross-entropy, các hàm mất mát này có tính chất gì đặc
biệt mà khi sử dụng nó, chúng ta thường thu được mô
hình học máy như mong muốn? Dựa vào tính chất đó,
liệu có nguyên tắc chung nào cho việc xây dựng các hàm
mất mát mới hay không?
Với những lí do trên đây, tác giả muốn nghiên cứu ứng
dụng các phương pháp của giải tích và tối ưu vào vấn đề
phân lớp nhị phân, cụ thể là về: Các thước đo độ chính
xác và các hàm mất mát trong phân lớp nhị phân.
Phân đoạn hình ảnh (Image Segmentation) trong
thị giác máy tính là một kĩ thuật quan trọng, giúp giải
nhiều bài toán thuộc các lĩnh vực khác nhau như: phát
hiện và nhận dạng đối tượng, hệ thống camera thông
minh, xe tự lái, xử lí ảnh y tế, xử lí ảnh vệ tinh v.v..
Trong phân đoạn tự động cũng như phân đoạn thủ công,
người ta thường tạo ra nhiều bộ phân đoạn (segmentor)
cho cùng một bài toán. Sau đó người ta hợp các bộ phân
đoạn bằng một phương pháp biểu quyết (voting method)
với mong muốn tạo ra được một bộ phân đoạn chính
xác hơn so với từng bộ phân đoạn riêng lẻ trong chúng.
Phương pháp biểu quyết hiển nhiên nhất là biểu quyết số
học.Tác giả cho rằng các phương pháp biểu quyết số học
chưa tính đến cấu trúc của hình ảnh nên muốn đề xuất
2

một phương pháp biểu quyết mới, gọi là phương pháp
biểu quyết tô-pô. Cùng với các kết quả thực nghiệm tác
giả muốn sử dụng các kiến thức giải tích, xác suất và tối
ưu toán học để chứng minh phương pháp biểu quyết này
là hợp lý và cho kết quả tốt hơn phương pháp biểu quyết
số học thông thường.
Chính vì lí do đó, tác giả chọn nghiên cứu áp dụng các
phương pháp giải tích và tối ưu vào vấn đề biểu quyết
trong phân đoạn hình ảnh.
2. Mục đích, đối tượng và phạm vi nghiên cứu
Mục đích nghiên cứu là ứng dụng các phương pháp
giải tích như cực tiểu hóa và tối ưu toán học như tối ưu
dựa trên gradient vào bài toán phân lớp nhị phân và phân
đoạn hình ảnh, nhằm hiểu hơn các tính chất toán học của
các máy AI và tăng cường hiệu quả của việc học máy, tối
ưu hóa các máy.
Đối tượng nghiên cứu là
- Vấn đề phân lớp nhị phân,
- Vấn đề phân đoạn hình ảnh.
Phạm vi nghiên cứu là
- Độ chính xác trong phân lớp nhị phân,
- Hàm mất mát trong phân lớp nhị phân,
- Biểu quyết tăng độ chính xác trong phân đoạn hình ảnh.
3. Phương pháp và công cụ nghiên cứu
Phương pháp nghiên cứu bao gồm cả lý thuyết (các
công cụ toán học, mệnh đề và định lý được chứng minh
chặt chẽ) và thực nghiệm (sử dụng nền tảng Tensorflow
3

