intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Toán học: Áp dụng các phương pháp giải tích và tối ưu toán học vào phân lớp nhị phân và phân đoạn hình ảnh trong học máy

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:120

14
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của luận án "Áp dụng các phương pháp giải tích và tối ưu toán học vào phân lớp nhị phân và phân đoạn hình ảnh trong học máy" là ứng dụng các phương pháp giải tích như cực tiểu hóa và tối ưu toán học như tối ưu dựa trên gradient vào bài toán phân lớp nhị phân và phân đoạn hình ảnh, nhằm hiểu hơn các tính chất toán học của các máy AI và tăng cường hiệu quả của việc học máy, tối ưu hóa các máy.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Áp dụng các phương pháp giải tích và tối ưu toán học vào phân lớp nhị phân và phân đoạn hình ảnh trong học máy

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI LÊ BÍCH PHƯỢNG ÁP DỤNG CÁC PHƯƠNG PHÁP GIẢI TÍCH VÀ TỐI ƯU TOÁN HỌC VÀO PHÂN LỚP NHỊ PHÂN VÀ PHÂN ĐOẠN HÌNH ẢNH TRONG HỌC MÁY LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2023
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI LÊ BÍCH PHƯỢNG ÁP DỤNG CÁC PHƯƠNG PHÁP GIẢI TÍCH VÀ TỐI ƯU TOÁN HỌC VÀO PHÂN LỚP NHỊ PHÂN VÀ PHÂN ĐOẠN HÌNH ẢNH TRONG HỌC MÁY Ngành: Toán học Mã số: 9460101 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC HD1: PGS.TS. NGUYỄN XUÂN THẢO HD2: GS.TSKH. NGUYỄN TIẾN DŨNG Hà Nội - 2023
  3. LỜI CAM ĐOAN Luận án này được viết dựa trên những nghiên cứu của tác giả tại Đại học Bách khoa Hà Nội, dưới sự hướng dẫn của thầy PGS.TS. Nguyễn Xuân Thảo và thầy GS.TSKH. Nguyễn Tiến Dũng. Các kết quả trong luận án này là mới và chưa từng công bố trong bất kỳ công trình khoa học nào của tác giả khác. Hà Nội, ngày 24 tháng 3 năm 2023 Nghiên cứu sinh Lê Bích Phượng TM. Tập thể hướng dẫn PGS. TS. Nguyễn Xuân Thảo
  4. LỜI CẢM ƠN Luận án được hoàn thành tại Đại học Bách khoa Hà Nội, dưới sự hướng dẫn khoa học tận tình của thầy PGS.TS. Nguyễn Xuân Thảo và thầy GS.TSKH. Nguyễn Tiến Dũng. Tác giả xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới các thầy. Tác giả xin chân thành cảm ơn Viện Toán ứng dụng và Tin học cũng như Phòng Đào tạo - Đại học Bách khoa Hà Nội đã tạo mọi điều kiện thuận lợi cho tác giả trong suốt quá trình học tập và nghiên cứu tại đây. Tác giả xin bày tỏ lòng biết ơn sâu sắc đến GS.TSKH. Nguyễn Hùng Sơn (Đại học Tổng hợp Warszawa, Ba Lan) và TS. Nguyễn Thị Thúy Nga (Torus Actions SAS) người thầy và người bạn đã luôn động viên tác giả trong quá trình học tập, nghiên cứu và có những ý kiến đóng góp sâu sắc về nội dung khi tác giả hoàn thành luận án. Tác giả xin chân thành cảm ơn Ban Giám hiệu, các thầy cô trong Khoa Khoa học Cơ bản, Bộ môn Toán, Trường Đại học Mỏ - Địa chất, nơi tác giả đang công tác, đã tạo mọi điều kiện thuận lợi cho tác giả trong quá trình hoàn thành luận án. Cuối cùng và đặc biệt quan trọng, tác giả xin gửi lời cảm ơn từ tận đáy lòng đến gia đình mình, nơi luôn dành cho tác giả tình yêu thương vô hạn. Trong quá trình học tập và hoàn thành luận án, các thành viên trong gia đình đã luôn sát cánh, động viên và ủng hộ tác giả, đó chính là nguồn động lực to lớn giúp tác giả hoàn thành luận án của mình. Tác giả Lê Bích Phượng
  5. MỤC LỤC LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 DANH MỤC CÁC KÍ HIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 DANH MỤC CÁC CHỮ VIẾT TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 DANH MỤC CÁC THUẬT NGỮ CƠ BẢN . . . . . . . . . . . . . . . . . . . . . . . . 8 DANH MỤC CÁC ĐỊNH NGHĨA QUAN TRỌNG . . . . . . . . . . . . . . . . . . . . 10 MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Chương 1. KIẾN THỨC CHUẨN BỊ 20 1.1 Mô hình chung của quá trình học máy . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2 Dữ liệu cho học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3 Các “đặc trưng” trong học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.4 Kiểm tra hiệu quả của máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.5 Biểu quyết và kiểm định chéo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.6 Tối ưu dựa trên Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.7 Phép tích chập và mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . 35 1.8 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Chương 2. ĐỘ CHÍNH XÁC CỦA MÁY PHÂN LOẠI NHỊ PHÂN 38 2.1 Các thước đo độ chính xác của máy phân loại nhị phân . . . . . . . . . . . . . . . . 38 2.1.1 Âm tính, dương tính và ba tỉ lệ cơ bản . . . . . . . . . . . . . . . . . . . . . . 38 2.1.2 Độ chính xác có trọng số (weighted accuracy) . . . . . . . . . . . . . . . . . . 41 2.1.3 Độ chính xác cân bằng (balanced accuracy) . . . . . . . . . . . . . . . . . . . 42 2.1.4 Điểm số F (F-score) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.2 Đường cong ROC và các thước đo độ chính xác của các máy phân loại nhị phân mềm 45 2.3 Phép chiếu thông tin, hàm sigmoid và máy tối ưu . . . . . . . . . . . . . . . . . . . . 50 2.4 Cải thiện độ chính xác bằng biểu quyết . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.5 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Chương 3. ẢNH HƯỞNG CỦA HÀM MẤT MÁT ĐẾN CÁC BÀI TOÁN PHÂN LOẠI NHỊ PHÂN 57 3.1 Tổng quan về các hàm mất mát (loss function) . . . . . . . . . . . . . . . . . . . . . 57 3.1.1 Các hàm mất mát hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.1.2 Các hàm mất mát phân loại (phân lớp) . . . . . . . . . . . . . . . . . . . . . 59 3.1.3 Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh . . . . . 60 3.2 Học máy vi phân và hàm mất mát . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.3 Hàm mất mát lồi và xác suất bị bóp méo . . . . . . . . . . . . . . . . . . . . . . . . 67 3.4 Các hàm mất mát không lồi và các bẫy ngẫu nhiên . . . . . . . . . . . . . . . . . . . 69 3.5 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 1
  6. Chương 4. TỐI ƯU HÓA PHÂN ĐOẠN HÌNH ẢNH BẰNG BIỂU QUYẾT TÔ-PÔ 76 4.1 Phương pháp biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.1.1 Phân đoạn hình ảnh và khoảng cách Jaccard . . . . . . . . . . . . . . . . . . 77 4.1.2 Biểu quyết số học . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.1.3 Biểu quyết tô-pô: Dạng đơn giản nhất . . . . . . . . . . . . . . . . . . . . . . 80 4.1.4 Biểu quyết tô-pô địa phương . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.1.5 Biểu quyết kết hợp (biểu quyết lai): tô-pô và số học . . . . . . . . . . . . . . 83 4.2 Tính hợp lý của biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2.1 Trường hợp một chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.2.2 Trường hợp hai chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.3 Các kết quả thực nghiệm của biểu quyết tô-pô . . . . . . . . . . . . . . . . . . . . . 93 4.3.1 Phân đoạn muối trong các hình ảnh địa chấn . . . . . . . . . . . . . . . . . . 93 4.3.2 Phân đoạn khuôn mặt người . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.3.3 Phân đoạn mạch máu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.4 Kết luận và bình luận cuối chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN . . . . . . . . . . . . 109 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2
  7. DANH MỤC CÁC KÍ HIỆU Kí hiệu Ý nghĩa ≫ Lớn hơn đáng kể ≈ Xấp xỉ ∇x f (x) Gradient của hàm số f ∂ ∂xi f (x) Đạo hàm riêng của hàm số f theo biến xi uT Vec-tơ chuyển vị của vec-tơ u ∗ Tích chập Σ Tổng ∼ Tuân theo quy luật phân phối (trong xác suất) ∼ Tương đương (trong giải tích) P(X > x) Xác suất để biến ngẫu nhiên X lớn hơn giá trị x exp Hàm e mũ +∞ x Tích phân từ x đến +∞ ◦ Phép hợp thành ϕ−1 Ánh xạ ngược của ánh xạ ϕ P (Y (x) = 1|ϕ(x) = φ) Xác suất của Y (x) = 1 với điều kiện ϕ(x) = φ R Tập hợp các số thực Tích ∩ Giao của hai tập hợp ||u|| Chuẩn của véc-tơ u f (a)da Tích phân trên toàn bộ miền xác định của a Ω f (x)dx Tích phân trên tập Ω (0, 1) Khoảng từ 0 đến 1 [0, 1] Đoạn từ 0 đến 1 3
  8. DANH MỤC CÁC CHỮ VIẾT TẮT Viết tắt Ý nghĩa Từ gốc tiếng Anh AI Trí tuệ nhân tạo Artificial Intelligence ANN Mạng nơ-ron nhân tạo Artificial Neural Network AUC Diện tích dưới đường cong Area Under the Curve BA Độ chính xác cân bằng Balanced Accuracy CNN Mạng nơ-ron dạng tích chập Convolutional Neural Network DL Học sâu Deep Learning FN Tỷ lệ âm tính giả False Negative rate FP Tỷ lệ dương tính giả False Positive rate hb Nửa mù half blind IoT Internet kết nối vạn vật Internet of Things IOU Giao chia cho hợp Intersection Over Union LF Hàm mất mát Loss Function MAE Trung bình giá trị tuyệt đối độ lỗi Mean Absolute Error MBA Độ chính xác cân bằng cao nhất Maximal Balanced Accuracy MBE Trung bình độ lỗi thiên vị Mean Bias Error ML Học máy Machine Learning MOM Tối thiểu trên tối đa Min Over Max MSE Trung bình bình phương độ lỗi Mean Square Error MWA Độ chính xác có trọng cao nhất Maximally Weighted Accuracy PR Tỉ lệ chính xác Precision Rate RNN Mạng nơ-ron hồi quy Recurrent Neural Network ROC Đường cong đặc trưng hoạt động Receiver Operating Characteristic SVM Máy vec-tơ hỗ trợ Support Vector Machine TP Tỷ lệ dương tính thật True Positive rate TN Tỷ lệ âm tính thật True Negative rate WA Độ chính xác có trọng Weighted Accuracy 4
  9. DANH MỤC CÁC BẢNG Bảng Tên bảng Trang Bảng 2.1 Bảng tổng kết về các thước đo độ chính xác 44 Bảng 3.1 Máy bay với không phải máy bay 72 Bảng 3.2 Chó với không phải chó 73 Bảng 4.1 So sánh các phương pháp biểu quyết trên 5 fold của tập dữ liệu muối 94 Bảng 4.2 So sánh các phương pháp biểu quyết trên 10 fold của tập dữ liệu muối 97 Bảng 4.3 So sánh các phương pháp biểu quyết trên 10 fold của tập dữ liệu muối sử dụng binary accuracy 98 Bảng 4.4 So sánh các phương pháp biểu quyết trên 10 fold của tập dữ liệu khuôn mặt người 103 Bảng 4.5 So sánh các phương pháp biểu quyết trên 15 fold của tập dữ liệu DRIVE 106 5
  10. DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Chú thích Trang Hình 1.1 Một ví dụ sơ đồ mạng nơ-ron: các nút tròn là “nơ-ron”, các đường nối là “axon”. 21 Hình 1.2 Một quá trình huấn luyện điển hình. 24 Hình 1.3 Một phần fresco của Mantegna tại nhà thờ Emeritani 29 Hình 1.4 Mô tả phương pháp k-fold Cross Validation 31 Hình 1.5 Trượt Gradient 33 Hình 1.6 Các loại điểm tới hạn 33 Hình 1.7 Xấp xỉ giá trị cực tiểu 34 Hình 2.1 Cách chia tập dữ liệu Ω 39 Hình 2.2 Đường cong ROC và đường tiếp tuyến tại điểm mà trung bình có trọng lớn nhất. 48 Hình 3.1 Các hàm mất mát thường dùng trong bài toán phân đoạn hình ảnh. 61 Hình 3.2 Dáng điệu một số hàm mất mát lồi. Hàm mất mát cross-entropy (hàm log) đã được điều chỉnh bằng cách cho thêm một số dương epsilon rất nhỏ để tránh tình huống ln0. 63 Hình 3.3 Một số hàm mất mát được sử dụng cho thí nghiệm học máy phân loại nhị phân trên tập CIFAR-10. 70 Hình 3.4 Rơi vào bẫy sau đó thoát ra sau các bước học máy. Vấn đề phân loại “Mèo và không phải mèo” trên CIFAR-10, huấn luyện với VGG16 và hàm brokenloss1. Khi ở trong bẫy, máy lấy mọi ảnh mèo (sensitivity = 1, specificity = 0 tại mức threshold σ = 0.5). 74 Hình 3.5 Rơi vào bẫy và không thoát ra được, brokenloss1, c=1, r=9. 74 Hình 3.6 Một ví dụ khác về rơi vào bẫy rồi thoát ra, brokenloss3, c=2, r=9. 75 Hình 4.1 Một ví dụ cho biểu quyết tô-pô địa phương với s = 1. 83 Hình 4.2 Một ví dụ về bỏ phiếu kết hợp. Tại vòng 1, segmentator 5 and segmentator 7 sẽ bị loại trừ vì chúng cách xa những cái khác, phần còn lại vào vòng 2 sử dụng biểu quyết số học (có thể mềm hoặc cứng) 84 Hình 4.3 So sánh biểu quyết số học (biểu quyết trung bình) và phương pháp biểu quyết tô-pô trong trường hợp 1 chiều (a) {Si }n độc lập và tuân theo i=1 quy luật N (0, 1); (b) {Si }n độc lập và tuân theo quy luật U(0, 1). i=1 87 Hình 4.4 So sánh trong trường hợp 2 chiều với cùng một phân phối của xi nhưng khác f . (a) xi ∼ U(0, 1) với mọi i, f (x) = 1/(1 + x); (b) xi ∼ U(0, 1) với mọi i, f (x) = x2 . 91 Hình 4.5 So sánh khi f là hàm đối xứng, xi ∼ U(−1, 1), f (x) = x3 . (a) Hiển thị cho tất cả các mẫu; (b) Phóng to một phần của các mẫu. 92 6
  11. Hình 4.6 So sánh các mức độ không chắc chắn khác nhau của các annotation xi , f (x) = x2 . 93 Hình 4.7 Ví dụ thứ nhất: Biểu quyết tô-pô so với biểu quyết số học trong phân đoạn muối. 95 Hình 4.8 Ví dụ thứ hai: Biểu quyết tô-pô so với biểu quyết số học trong phân đoạn muối. 95 Hình 4.9 Ví dụ thứ ba: Biểu quyết tô-pô so với biểu quyết số học trong phân đoạn muối. 96 Hình 4.10 Ví dụ thứ tư: Biểu quyết tô-pô so với biểu quyết số học trong phân đoạn muối. 96 Hình 4.11 Ví dụ thứ nhất: So sánh các phương pháp biểu quyết cho bài toán nhận diện khuôn mặt người 100 Hình 4.12 Ví dụ thứ hai: So sánh các phương pháp biểu quyết cho bài toán nhận diện khuôn mặt người 101 Hình 4.13 Ví dụ thứ ba: So sánh các phương pháp biểu quyết cho bài toán nhận diện khuôn mặt người 102 Hình 4.14 So sánh các phương pháp biểu quyết cho vấn đề phân đoạn mạch máu. 105 7
  12. DANH MỤC CÁC THUẬT NGỮ CƠ BẢN Khoa học máy tính: Khoa học máy tính (tiếng Anh: computer science) là ngành nghiên cứu các cơ sở lý thuyết về thông tin và tính toán cùng sự thực hiện và ứng dụng của chúng trong các hệ thống máy tính. Trí tuệ nhân tạo: Trong khoa học máy tính, trí tuệ nhân tạo hay AI (tiếng Anh: Artificial Intelligence), đôi khi được gọi là trí thông minh nhân tạo, là trí thông minh được thể hiện bằng máy móc, trái ngược với trí thông minh tự nhiên của con người. Thông thường, thuật ngữ “trí tuệ nhân tạo” thường được sử dụng để mô tả các máy móc (hoặc máy tính) có khả năng bắt chước các chức năng “nhận thức” mà con người thường phải liên kết với tâm trí, như “học tập” và “giải quyết vấn đề”. Học máy: Học máy hay ML (tiếng Anh: Machine Learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể “học” cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Thị giác máy tính: Thị giác máy tính (tiếng Anh: computer vision) là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng, ví dụ trong các dạng quyết định. Mạng nơ-ron nhân tạo: Hay thường gọi ngắn gọn là mạng neural (tiếng Anh: Artificial Neural Network-ANN) là một mô hình toán học hay mô hình tính toán được xây dựng dựa trên các mạng neural sinh học. Nó gồm có một nhóm các neural nhân tạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính toán). Mạng nơ-ron dạng tích chập: Trong học sâu, một mạng nơ-ron dạng tích chập (tiếng Anh: Convolutional Neural Network-CNN) là một lớp của mạng nơ-ron sâu, áp dụng phổ biến nhất để phân tích hình ảnh trực quan. CNN có nhiều ứng dụng trong thị giác máy tính, hệ thống gợi ý, phân loại hình ảnh, tính toán hình ảnh y tế (điện toán hình ảnh y tế), xử lý ngôn ngữ tự nhiên, và chuỗi thời gian tài chính. Mạng nơ-ron hồi quy: Mạng nơ-ron hồi quy (tiếng Anh: recurrent neural network, viết tắt RNN) là một lớp của mạng nơ-ron nhân tạo, nơi kết nối giữa các nút để tạo thành đồ thị có hướng dọc theo một trình tự thời gian. Điều này cho phép mạng thể hiện hành vi động tạm thời. RNN có thể dùng xử lý các chuỗi đầu vào có độ dài thay đổi nên nó có thể áp dụng để nhận dạng chữ viết tay (handwriting recognition) hay nhận dạng tiếng nói. Học sâu: Học sâu (tiếng Anh: deep learning) là một nhánh máy học sử dụng nhiều lớp mạng nơ-ron để đưa ra một mô hình toán học trên dữ liệu có sẵn. Học sâu thường được nhắc đến cùng với Dữ liệu lớn (Big Data) và Trí tuệ nhân tạo (AI) Đã có nhiều ứng dụng trong thực tế , đang phát triển mạnh theo sự phát triển của tốc độ máy tính đặc biệt là khả năng tính toán trên GPU và sự tăng nhanh của dữ liệu cùng với các framework (TensorFlow hay Pytorch) làm việc xây dựng model trở nên dễ dàng hơn. 8
  13. Vận trù học: Vận trù học là một nhánh liên ngành của toán học ứng dụng và khoa học hình thức, sử dụng các phương pháp giải tích tiên tiến như mô hình toán học, giải tích thống kê, và tối ưu hóa để tìm ra được lời giải tối ưu hoặc gần tối ưu của những vấn đề ra quyết định phức tạp. Bài toán thường đề cập đến xác định kết quả cực đại (của lợi nhuận, hoạt động, hoặc sản lượng) hay cực tiểu (của lãng phí, rủi ro, hoặc chi phí) của một số đối tượng trong thực tế. Lí thuyết trò chơi: Lý thuyết trò chơi là một phân nhánh mới của toán học hiện đại, cũng là một môn học trọng yếu của vận trù học, tác phẩm Lý thuyết trò chơi và hành vi kinh tế do John von Neumann viết chung với Oskar Morgenstern vào năm 1944, đã đánh dấu sự hình thành sơ bộ của hệ thống lí thuyết trò chơi hiện đại, do đó ông được gọi là "cha đẻ của lí thuyết trò chơi". Máy vec-tơ hỗ trợ: Máy vectơ hỗ trợ (tiếng Anh: Support Vector Machine-SVM) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loại nhị phân. Phân đoạn (hay phân vùng) hình ảnh : Trong lĩnh vực thị giác máy tính (computer vision), phân vùng ảnh (Image Segmentation) là một quá trình chia một bức ảnh số thành nhiều phần khác nhau (tập hợp các điểm ảnh, hay có thể gọi là superpixels). Mục tiêu của phân vùng ảnh là để đơn giản hóa và hoặc thay đổi biểu diễn của một tấm ảnh vào điều gì đó có ý nghĩa hơn và dễ dàng để phân tích. Phân vùng ảnh thường được sử dụng để xác định vị trí các đối tượng, đường biên (đường thẳng, cong, v.v.). Hay nói cách khác phân vùng ảnh là một quá trình gán nhãn (assigning a lablel) cho mỗi điểm ảnh trong một bức ảnh, các điểm ảnh trong cùng một nhãn sẽ có những đặc tính giống nhau về màu sắc, cường độ hoặc kết cấu của ảnh. Thước đo độ chính xác: Thước đo độ chính xác là công thức, cách thức đo mức độ gần của giá trị tính toán hoặc đo lường được so với giá trị thực tế. 9
  14. DANH MỤC CÁC ĐỊNH NGHĨA QUAN TRỌNG Hàm mất mát, Định nghĩa 1.1, trang 23. Đường cong ROC, Định nghĩa 2.2, trang 45. Độ chính xác AUC, Định nghĩa 2.3, trang 46. Độ chính xác MWA, Định nghĩa 2.4, trang 46. Độ chính xác MBA, Định nghĩa 2.5, trang 46. Máy xác suất thực, Định nghĩa 2.6, trang 51. Hàm mất mát bình phương, Định nghĩa 3.1, trang 62. Hàm mất mát cross-entropy nhị phân, Định nghĩa 3.2, trang 62. Biểu quyết tô-pô dạng đơn giản nhất, Định nghĩa 4.1, trang 80. Biểu quyết tô-pô địa phương, Định nghĩa 4.2, trang 82. Biểu quyết tô-pô kết hợp, Định nghĩa 4.3, trang 83. 10
  15. MỞ ĐẦU 1. Lịch sử vấn đề và lí do lựa chọn đề tài Cụm từ Artificial Intelligence chính thức xuất hiện từ năm 1955, do John McCarthy (1927-2011) đề xuất. Phương pháp chính để tạo ra AI là tạo ra những máy “biết học” để “thông minh dần lên”. Vào năm 1959, một trong những nhà tiên phong khác trong lĩnh vực AI tên là Arthur Samuel đưa ra cụm từ Machine Learning để chỉ việc cho máy học đó. Khi học máy còn chưa phổ biến, chúng ta đã có các chương trình máy tính giúp làm rất nhiều việc như tính toán, soạn thảo văn bản, điều khiển tự động, v.v., nhưng chúng là các chương trình cố định, không tự tốt lên theo thời gian. Học máy đã tạo ra những đột phá về khoa học và công nghệ trên nhiều mặt và ở nhiều nơi khác nhau. Có thể kể ra hàng loạt các ứng dụng tiện ích quan trọng được tạo ra nhờ học máy, như xe ô tô tự lái, máy chẩn đoán bệnh tự động, máy hỏi đáp tự động, máy dịch tự động giữa các ngôn ngữ, trợ lý ảo, hệ thống gợi ý sản phẩm, máy sáng tác nhạc họa, v.v.. Những công ty công nghệ lớn nhất thế giới ngày nay, chẳng hạn Apple, Amazon, Microsoft, Alphabet (Google), Meta (Facebook), Nvidia, Tencent, Samsung, v.v., đều là những công ty liên quan mật thiết tới ML và AI. Vấn đề phân lớp (phân loại) trong học máy là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ mô hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện). Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu. Phân loại đối tượng vào n-lớp khác nhau được gọi là quá trình phân lớp n-phân. Mọi vấn đề phân lớp n-phân (n > 2) đều có thể đưa về vấn đề phân lớp nhị phân (binary classsification), tức là vấn đề gán nhãn cho đối tượng dữ liệu vào một trong hai lớp khác nhau dựa vào dữ liệu đó có hay không có các đặc trưng (feature) của bộ phân lớp. Vấn đề phân lớp nhị phân có rất nhiều ứng dụng như nhận dạng khuôn mặt người, nhận diện giọng nói, phát hiện email spam v.v.. 11
  16. Nghiên cứu các thước đo độ chính xác nói chung và các thước đo độ chính xác trong phân lớp nhị phân nói riêng là vấn đề quan trọng. Bởi điều đầu tiên và dễ hiểu nhất là chúng ta đo lường độ chính xác để thay đổi các tham số nhằm tăng độ chính xác. Khi chúng ta cố gắng để tăng cường độ chính xác thì hầu hết các thước đo độ chính xác đều có thể sử dụng, miễn là các thước đo được định nghĩa rõ ràng. Nhưng điều đáng quan tâm là liệu thước đo độ chính xác này có thực sự cải thiện mô hình hay làm xấu mô hình. Điều thứ hai là nếu ta đo lường độ chính xác theo cách không hợp lí thì có thể ta đang thực hiện các thay đổi có vẻ như cải thiện mô hình nhưng thực chất lại làm cho mô hình quá phù hợp với dữ liệu đang đo lường, trường hợp này gọi là overfitting (tức là mô hình đoán đúng với hầu hết các trường hợp nó được học nhưng không có khả năng đoán trong các trường hợp mới, giống như mô hình học thuộc lòng), hay nói cách khác là mô hình thu được không có tính khái quát hoá. Điều thứ ba và cũng là điều quan trọng nhất là mô hình không bao giờ chỉ là một phần của toán học (math) và mã (code) mà mô hình phải hoạt động trong thế giới thực, tác động vào cuộc sống của mọi người. Các bên liên quan khi sử dụng mô hình cần phải hiểu độ chính xác của thuật toán trong mô hình, các trường hợp mắc sai lầm điển hình và tỉ lệ mắc sai lầm trong khoảng bao nhiêu để có những ứng phó phù hợp. Độ chính xác có thể ảnh hưởng đến ngân sách, cuộc sống và sức khoẻ của con người trong thế giới thực. Hay nói một cách ngắn gọn là độ chính xác dùng để giao tiếp (communicating) với các bên liên quan khi sử dụng mô hình. Chính vì thế mà các thước đo độ chính xác trong bài toán phân lớp nhị phân đã được nghiên cứu nhiều (xem trong [1, 2, 3, 4]), nhưng chỉ nghiên cứu từng thước đo một cách riêng biệt. Trong đề tài này, tác giả muốn nghiên cứu về mối quan hệ giữa một số thước đo độ chính xác phổ biến, liệu chúng có thể thay thế được cho nhau trong quá trình học máy hay không? Ngoài ra, luận án cũng nghiên cứu đến vấn đề thế nào là máy tối ưu trong phân lớp nhị phân. Hơn nữa, đường cong đặc trưng hoạt động của máy thu (ROC-Receiver Operating Curve) từ quan điểm thực nghiệm được cho là lồi (hoặc tương đối lồi) khi mô hình học máy hiệu quả. Theo quan điểm lí thuyết thì Định lí 3 trong bài báo [5] đã chứng minh rằng nếu có một số điều kiện hợp lí thì đường cong ROC là lồi. Trong luận án này, 12
  17. tác giả muốn chứng minh tính lồi của đường cong ROC của máy tối ưu trong phân lớp nhị phân theo một cách khác đơn giản và ngắn gọn hơn. Trong học máy, hàm mất mát (loss function) là hàm dùng để đo xem một máy cho ra kết quả khác với “sự thật cơ bản” hay khác với “máy lí tưởng” chừng nào, để rồi phản hồi (feedback) lại thông tin đó cho máy, tìm cách thay đổi các tham số của máy nhằm giảm mất mát đi, khiến cho máy trở nên chính xác hay hiệu quả hơn. Khi kết quả mà máy cho ra là Ypredict và sự thật cơ bản là Ytrue , thì hàm mất mát là một hàm dạng l(Ytrue , Ypredict ) đo khoảng cách hay độ chênh lệch giữa Ypredict và Ytrue . Ngay cả khi kết quả do máy tạo ra có tính chất sáng tạo (ví dụ như một bản nhạc) và không có sự thật cơ bản nào cả, thì vẫn cần có cách phản hồi cho máy, dựa trên các hàm mất mát gián tiếp, kiểu như l(ϕ(Youtput ), ϕreference ) trong đó Youtput là kết quả đầu ra của máy, ϕ là một hàm tính một số đặc trưng của kết quả đó, còn ϕreference là các giá trị đặc trưng dùng làm chuẩn (xem trong [6, 7, 8, 9, 10, 11]). Như vậy hàm mất mát đóng vai trò quan trọng trong học máy. Có một số hàm mất mát cổ điển được dùng từ cách đây một vài thập kỉ cho đến ngày nay, như hàm mất mát cross-entropy dựa trên Kullback-Leibler divergence (khái niệm này có từ năm 1951), xem trong ([12]), hàm Dice hay hệ số Sorensen-Dice (khái niệm này có từ những năm 1940), xem trong ([13]). Gần đây hơn xuất hiện khái niệm focal function được nhiều người nghiên cứu như Lin Goyal, xem trong ([14]). Một loại hàm mất mát khác cũng được nhiều người quan tâm đó là hàm Lovasz mang tên nhà toán học Lovasz, tuy nhiên theo tác giả biết thì chưa có giải thích toán học nào về hiệu quả của hàm này. Phần lớn các nghiên cứu mang tính thực nghiệm (chứng tỏ hiệu quả qua thực nghiệm) và còn thiếu lập luận, chứng minh về lý thuyết toán học. Trong phân lớp nhị phân, các hàm mất mát thường được dùng là hàm mất mát bình phương và hàm mất mát cross-entropy, các hàm mất mát này có tính chất gì đặc biệt mà khi sử dụng nó, chúng ta hay thu được mô hình học máy hiệu quả? Dựa vào tính chất đó, liệu có nguyên tắc chung nào cho việc xây dựng các hàm mất mát mới hay không? Hơn nữa, vì trong thực tế các vấn đề được nghiên cứu thường có dữ liệu mất cân bằng nên điểm cực tiểu của hàm mất mát có thể lệch đi rất nhiều so với bộ tham số tốt nhất cho mô hình AI đã thiết kế. Ví dụ như chỉ có 1% 13
  18. các trường hợp bị bệnh so với 99% không bị bệnh máy dễ chạy theo xu hướng đoán tất cả thành không bị bệnh và cũng có tỷ lệ đoán đúng là 99%, nhưng sự chính xác này là vô nghĩa. Để khắc phục vấn đề này không những phải thay đổi phân bố đầu vào mà còn cần phải thiết kế hàm mất mát sao cho cân bằng, cụ thể như: phạt nặng hơn khi “có bệnh” đoán thành “không có bệnh”. Với những lí do trên đây, tác giả muốn nghiên cứu ứng dụng các phương pháp của giải tích và tối ưu vào vấn đề phân lớp nhị phân, cụ thể là về: Các thước đo độ chính xác và các hàm mất mát trong phân lớp nhị phân. Phân đoạn (phân vùng) hình ảnh (Image Segmentation) trong thị giác máy tính là một kĩ thuật quan trọng, giúp giải nhiều bài toán thuộc các lĩnh vực khác nhau như: phát hiện và nhận dạng đối tượng, hệ thống camera thông minh, xe tự lái, xử lí ảnh y tế, xử lí ảnh vệ tinh v.v.. Phân đoạn hình ảnh là phương pháp mà trong đó hình ảnh kĩ thuật số được chia thành nhiều nhóm con khác nhau. Mục tiêu của phân đoạn hình ảnh là giảm độ phức tạp của ảnh, giúp cho quá trình xử lí hoặc phân tích ảnh sau đó trở nên đơn giản hơn, tức là nó dán nhãn cho từng điểm ảnh (pixel) (xem trong [7, 10, 15, 16, 17, 18, 19]). Trong phân đoạn tự động cũng như phân đoạn thủ công, người ta thường tạo ra nhiều bộ phân đoạn (segmentor) cho cùng một bài toán. Các phân đoạn này được tạo ra bằng cách sử dụng các kĩ thuật khác nhau như: phân đoạn dựa trên ngưỡng (Threshold Based Segmentation), phân đoạn dựa trên cạnh (Edge Based Segmentation), phân đoạn dựa trên khu vực (Region-Based Segmentation), phân đoạn dựa trên kỹ thuật phân cụm (Clustering Based Segmentation), phân đoạn dựa trên mạng nơ-ron nhân tạo (Artificial Neural Network Based Segmentation) hoặc sử dụng các tập dữ liệu huấn luyện khác nhau, hay các phương pháp tăng cường dữ liệu khác nhau v.v.(xem trong [20]). Sau đó người ta hợp các bộ phân đoạn bằng một phương pháp biểu quyết (voting method) với mong muốn tạo ra được một bộ phân đoạn chính xác hơn so với từng bộ phân đoạn riêng lẻ trong chúng. Phương pháp biểu quyết hiển nhiên nhất là biểu quyết đa số: Đối với mỗi điểm ảnh và mỗi phân đoạn sẽ có một phiếu bầu và giá trị có thể là 0 hoặc 1, giá trị nào có nhiều phiếu bầu hơn thì thắng. Phương pháp biểu quyết này được gọi là phương pháp biểu quyết số học cứng (hard arithmetical voting) hay còn gọi 14
  19. tắt là biểu quyết cứng (xem trong [21, 22]). Cũng có một kiểu khác của biểu quyết số học khác, gọi là “biểu quyết số học mềm” (soft voting) (xem trong [20, 23]). Tác giả cho rằng các phương pháp biểu quyết số học chưa tính đến cấu trúc của hình ảnh nên muốn đề xuất một phương pháp biểu quyết mới, gọi là phương pháp biểu quyết tô-pô. Cùng với các kết quả thực nghiệm tác giả muốn sử dụng các kiến thức giải tích, xác suất và tối ưu toán học để chứng minh phương pháp biểu quyết này là hợp lý và cho kết quả tốt hơn phương pháp biểu quyết số học thông thường. Chính vì lí do đó, tác giả chọn nghiên cứu áp dụng các phương pháp giải tích và tối ưu vào vấn đề biểu quyết tăng cường độ chính xác trong phân đoạn hình ảnh. 2. Mục đích, đối tượng và phạm vi nghiên cứu Mục đích nghiên cứu của tác giả là ứng dụng các phương pháp giải tích như cực tiểu hóa và tối ưu toán học như tối ưu dựa trên gradient vào bài toán phân lớp nhị phân và phân đoạn hình ảnh, nhằm hiểu hơn các tính chất toán học của các máy AI và tăng cường hiệu quả của việc học máy, tối ưu hóa các máy. Việc học máy bao gồm cả học có giám sát (supervised) (học có “sự thật cơ bản” (ground truth) làm cơ sở để phân biệt đúng sai để điều chỉnh mô hình cho giảm sai tăng đúng) và học không có giám sát (unsupervised) (học cho các vấn đề có tính sáng tạo khi không có sự thật cơ bản). Trong phạm vi của luận án này chúng tôi nghiên cứu các vấn đề học máy có giám sát, cụ thể hơn là hai loại vấn đề phổ biến sau: - Vấn đề phân lớp nhị phân, - Vấn đề phân đoạn hình ảnh. Trong hai loại vấn đề đó, chúng tôi đã nghiên cứu các vấn đề chính sau: 1. Độ chính xác của máy phân loại nhị phân (Chương 2) • Các thước đo độ chính xác và mối liên hệ giữa chúng. • Tính lồi của đường cong ROC và tính tối ưu của máy xác suất thực. 2. Các hàm mất mát cho máy phân loại nhị phân (Chương 3) 15
  20. • Mô hình toán học đơn giản nhưng đủ tính tổng quát cho việc học máy kiểu vi phân (differential machine learning) và nguyên tắc chung để xây dựng hàm mất mát cho các mô hình đó. • Các điểm cực tiểu của các hàm mất mát: với những điều kiện nào thì các điểm cực tiểu đó chính là các máy tối ưu và xử lý được vấn đề mất cân bằng dữ liệu. 3. Các phương pháp biểu quyết để tăng cường độ chính xác trong phân đoạn hình ảnh(Chương 4) • Phương pháp biểu quyết tô-pô (biểu quyết không theo kiểu từng điểm ảnh độc lập, mà tính đến cả dáng điệu hình học ở mức toàn cục hay địa phương) ở dạng đơn giản nhất và các biến thể của nó. • So sánh tính hiệu quả của phương pháp biểu quyết tô-pô với phương pháp biểu quyết số học cổ điển bằng cả lý thuyết và thực nghiệm, nhằm chỉ ra rằng phương pháp biểu quyết tô-pô là hợp lí và có thể cho kết quả tốt hơn phương pháp biểu quyết số học, đặc biệt khi các hình cần được phân đoạn có các quy tắc hay dáng điệu hình học nhất định. 3. Phương pháp và công cụ nghiên cứu Các phương pháp nghiên cứu mà chúng tôi đã dùng trong luận án này bao gồm cả lý thuyết (các công cụ toán học và các mệnh đề, định lý toán học được chứng minh chặt chẽ) và thực nghiệm (tạo ra các chương trình học máy và các phép biểu quyết, sử dụng nền tảng tensorflow và các mạng nơ-ron dạng tích chập (hay gọi tắt là mạng tích chập) (CNN-Convolutional Neural Network), đo đạc và so sánh hiệu quả của chúng). Chúng tôi đã áp dụng các phương pháp nghiên cứu khoa học thông dụng như tìm hiểu các kết quả đã có và các vấn đề còn mở, thu thập dữ liệu, làm thí nghiệm, phân tích dữ liệu, mô hình hóa các quá trình, đặt ra các giả thuyết và tìm cách chứng minh, khẳng định hoặc phủ định chúng bằng lập luận toán học hoặc/và bằng phân tích thống kê các kết quả thực nghiệm, tìm tòi để sáng tạo ra những thứ mới (định lý toán học mới, hàm mất mát mới, phương pháp biểu quyết mới, v.v.). 16
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0