Nghiên cứu phương pháp chống nhãn nhiễu trong học liên kết: Đồ án tốt nghiệp cho ứng dụng phân loại đối tượng

ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG ĐIỆN - ĐIỆN TỬ

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

Đề tài:

NGHIÊN CỨU PHƯƠNG PHÁP CHỐNG NHÃN NHIỄU TRONG HỌC LIÊN KẾT CHO ỨNG DỤNG PHÂN LOẠI ĐỐI TƯỢNG

Sinh viên thực hiện:

GIÁP THÀNH TRUNG

Lớp HT Nhúng & IoT 02 - K65

Giảng viên hướng dẫn: PGS.TS. LÊ THỊ LAN

Hà Nội, 8 tháng 7, 2024

ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG ĐIỆN - ĐIỆN TỬ

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

Đề tài:

NGHIÊN CỨU PHƯƠNG PHÁP CHỐNG NHÃN NHIỄU TRONG HỌC LIÊN KẾT CHO ỨNG DỤNG PHÂN LOẠI ĐỐI TƯỢNG

Sinh viên thực hiện:

GIÁP THÀNH TRUNG

Lớp HT Nhúng & IoT 02 - K65

Giảng viên hướng dẫn: PSG.TS. LÊ THỊ LAN

Cán bộ phản biện:

Hà Nội, 8 tháng 7, 2024

ĐÁNH GIÁ QUYỂN ĐỒ ÁN TỐT NGHIỆP (Dùng cho giảng viên hướng dẫn)

Tên giảng viên đánh giá: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Họ và tên sinh viên: . . . . . . . . . . . . . . . . . . . . . . . . . . . MSSV: . . . . . . . . . . . . . . . . . . . . . . . . . . . Tên đồ án: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chọn các mức điểm phù hợp cho sinh viên trình bày theo các tiêu chí dưới đây: Rất kém (1); Kém(2); Đạt(3); Giỏi(4); Xuất sắc(5)

Có sự kết hợp giữa lý thuyết và thực hành (20)

Nêu rõ tính cấp thiết và quan trọng của đề tài, các vấn đề và các giả thuyết (bao gồm mục đích và tính phù hợp) cũng như phạm vi ứng dụng của đồ án

Cập nhật kết quả nghiên cứu gần đây nhất (trong nước/quốc tế)

Nêu rõ và chi tiết phương pháp nghiên cứu/giải quyết vấn đề

Có kết quả mô phỏng/thực nghiệm và trình bày rõ ràng kết quả đạt được

Có khả năng phân tích và đánh giá kết quả (15)

Kế hoạch làm việc rõ ràng bao gồm mục tiêu và phương pháp thực hiện dựa trên kết quả nghiên cứu lý thuyết một cách có hệ thống

Kết quả được trình bày một cách logic và dễ hiểu, tất cả kết quả đều được phân tích và đánh giá thỏa đáng

Trong phần kết luận, tác giả chỉ rõ sự khác biệt (nếu có) giữa kết quả đạt được và mục tiêu ban đầu đề ra đồng thời cung cấp lập luận để đề xuất hướng giải quyết có thể thực hiện trong tương lai

Kỹ năng viết quyển đồ án (10)

Đồ án trình bày đúng mẫu quy định với cấu trúc các chương logic và đẹp mắt (bảng biểu, hình ảnh rõ ràng, có tiêu đề, được đánh số thứ tự và được giải thích hay đề cập đến; căn lề thống nhất, có dấu cách sau dấu chấm, dấu phảy v.v.), có mở đầu chương và kết luận chương, có liệt kê tài liệu tham khảo và có trích dẫn đúng quy định

Kỹ năng viết xuất sắc (cấu trúc câu chuẩn, văn phong khoa học, lập luận logic và có cơ sở, từ vựng sử dụng phù hợp v.v.)

Thành tựu nghiên cứu khoa học (5) (chọn 1 trong 3 trường hợp)

10a

Có bài báo khoa học được đăng hoặc chấp nhận đăng/Đạt giải SVNCKH giải 3 cấp Viện trở lên/Có giải thưởng khoa học (quốc tế hoặc trong nước) từ giải 3 trở lên/Có đăng ký bằng phát minh, sáng chế

10b

Được báo cáo tại hội đồng cấp Viện trong hội nghị SVNCKH nhưng không đạt giải từ giải 3 trở lên/Đạt giải khuyến khích trong các kỳ thi quốc gia và quốc tế khác về chuyên ngành (VD: TI contest)

10c Không có thành tích về nghiên cứu khoa học

Điểm tổng

/50

Điểm tổng quy đổi về thang 10

Nhận xét khác (về thái độ và tinh thần làm việc của sinh viên) ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................

Ngày: ... / ... / 20...

Người nhận xét (Ký và ghi rõ họ tên)

ĐÁNH GIÁ QUYỂN ĐỒ ÁN TỐT NGHIỆP (Dùng cho cán bộ phản biện)

Giảng viên đánh giá: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Họ và tên sinh viên: . . . . . . . . . . . . . . . . . . . . . . . . . . . MSSV: . . . . . . . . . . . . . . . . . . . . . . . . . . . Tên đồ án: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chọn các mức điểm phù hợp cho sinh viên trình bày theo các tiêu chí dưới đây: Rất kém (1); Kém(2); Đạt(3); Giỏi(4); Xuất sắc(5)

Có sự kết hợp giữa lý thuyết và thực hành (20)

Cập nhật kết quả nghiên cứu gần đây nhất (trong nước/quốc tế)

Nêu rõ và chi tiết phương pháp nghiên cứu/giải quyết vấn đề

Có kết quả mô phỏng/thực nghiệm và trình bày rõ ràng kết quả đạt được

Có khả năng phân tích và đánh giá kết quả (15)

Kế hoạch làm việc rõ ràng bao gồm mục tiêu và phương pháp thực hiện dựa trên kết quả nghiên cứu lý thuyết một cách có hệ thống

Kết quả được trình bày một cách logic và dễ hiểu, tất cả kết quả đều được phân tích và đánh giá thỏa đáng

Kỹ năng viết quyển đồ án (10)

Kỹ năng viết xuất sắc (cấu trúc câu chuẩn, văn phong khoa học, lập luận logic và có cơ sở, từ vựng sử dụng phù hợp v.v.)

Thành tựu nghiên cứu khoa học (5) (chọn 1 trong 3 trường hợp)

10a

10b

10c Không có thành tích về nghiên cứu khoa học

Điểm tổng

/50

Điểm tổng quy đổi về thang 10

Nhận xét khác của cán bộ phản biện ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................ ................................................................................................................................................................

Ngày: ... / ... / 20...

Người nhận xét (Ký và ghi rõ họ tên)

LỜI NÓI ĐẦU

Huấn luyện mô hình học sâu cùng nhãn nhiễu đang là một lĩnh vực nghiên cứu tiềm năng với nhiều thách thức còn chưa được giải quyết trong những năm gần đây. Trong các chiến lược huấn luyện mô hình học máy tập trung, đã có nhiều công trình khắc phục được thách thức này với những kết quả khá tốt. Tuy nhiên đặc điểm chung của các chiến lược này là đòi hỏi lượng dữ liệu lớn được thu thập và truyền đến tập trung tại một chỗ. Mặt khác, trong bối cạnh hiện tại, với sự phát triển không ngừng nghỉ của AI và đặc biệt là sự trỗi dậy của các mô hình học sâu, việc dữ liệu cá nhân được thu thập và truyền đi dễ dàng vi phạm các vấn đề liên quan đến quyền riêng tư cá nhân, dẫn đến rò rỉ dữ liệu riêng tư cá nhân ra bên ngoài. Bên cạnh đó, các chiến lược huấn luyện tập trung cho thấy sự khó khăn trong việc mở rộng khi có những dữ liệu mới được cập nhật thêm vào. Trong tình huống đó, một câu hỏi được đặt ra: "Liệu chúng ta có thể huấn luyện mô hình với dữ liệu nhãn nhiễu mà không cần thu thập dữ liệu đến một máy chủ trung tâm và vẫn có thể hoạt động tốt với dữ liệu mới ?". May mắn thay, câu trả lời cho thách thức trên là sự kết hợp giữa học liên kết cùng với các chiến lược huấn luyện cùng nhãn nhiễu. Học liên kết là một chiến lược huấn luyện mô hình sử dụng các thiết bị có nguồn tài nguyên tính toán thấp cùng đóng góp cho việc huấn luyện mô hình mà không chia sẻ dữ liệu cục bộ cá nhân của chúng. Đứng trước thách thức về việc phát triển những chiến lược giúp giải quyết cả 3 vấn đề là: huấn luyện cùng nhãn nhiễu, đảm bảo quyền riêng tư và khả năng hoạt động với dữ liệu mới, đồ án này sẽ nghiên cứu về bài toán "Nghiên cứu phương pháp chống nhiễu nhãn trong mô hình học liên kết cho ứng dụng phân loại đối tượng", khám phá những khía cạnh về kỹ thuật, đạo đức của nó, nhằm tìm ra giải pháp giải quyết được cả 3 vấn đề trên. Đồ án này không chỉ đánh dấu việc phát hiện ra và giải quyết một thách thức mới trong việc mở rộng các hệ thống AI mà nó còn mang lại những đóng góp cho việc xây dựng một xã hội an toàn giúp bảo vệ dữ liệu cá nhân trong bối cảnh hiện nay.

Cuối cùng, em xin gửi lời cảm ơn đến cô PGS.TS Lê Thị Lan và các thầy cô, anh chị trong phòng nghiên cứu thị giác máy tính Comvis và Phòng thí nghiệm nghiên cứu Xử lý tín hiệu, thông tin và nội dung đa phương tiện (SigM lab), Trường Điện - Điện Tử đã tận tình hướng dẫn và giúp đỡ em để có thể hoàn thành đồ án tốt nghiệp này. Em cũng xin gửi lời cảm ơn Viện nghiên cứu Quốc tế (MICA), Trường Điện - Điện Tử đã cho em cơ hội được tiếp thu những kiến thức vô cùng hữu ích trong quá trình học tập, nghiên cứu và trong công việc trong tương lai. Trong quá trình làm đồ án do thời gian và kiến thức còn hạn chế nên không thể tránh khỏi những thiếu sót, em rất mong nhận được ý kiến nhận xét quý báu từ thầy cô và các bạn. Một lần nữa xin gửi lời cảm ơn và lời chúc sức khỏe, hạnh phúc tới thầy cô và gia đình. Em xin chân thành cảm ơn.

LỜI CAM ĐOAN

Tôi tên là GIÁP THÀNH TRUNG, mã số sinh viên 20200639, sinh viên lớp HT Nhúng & IoT 02, khóa K65. Người hướng dẫn là PGS.TS LÊ THỊ LAN. Tôi xin cam đoan toàn bộ nội dung được trình bày trong đồ án "Nghiên cứu phương pháp chống nhiễu nhãn trong mô hình học liên kết cho ứng dụng phân loại đối tượng" là kết quả tìm hiểu nghiên cứu của tôi. Mọi thông tin trích dẫn đều tuân thủ các quy định về sở hữu trí tuệ; các tài liệu tham khảo được liệt kê rõ ràng. Tôi xin chịu hoàn toàn trách nhiệm với những nội dung được viết trong đồ án này.

Hà Nội, 8 tháng 7, 2024

Người cam đoan

GIÁP THÀNH TRUNG

MỤC LỤC

DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT i

DANH MỤC HÌNH VẼ iii

DANH MỤC BẢNG BIỂU iv

TÓM TẮT ĐỒ ÁN v

MỞ ĐẦU 1

Đặt vấn đề 1

Bố cục của đồ án 4

CHƯƠNG 1. TỔNG QUAN CHUNG VỀ HUẤN LUYỆN CÙNG NHÃN NHIỄU TRONG HỌC LIÊN KẾT 5

1.1 Bài toán huấn luyện cùng nhãn nhiễu trong học liên kết . . . . . . . . . 5

1.1.1 Học liên kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2 Huấn luyện cùng nhãn nhiễu . . . . . . . . . . . . . . . . . . . 8

1.2 Thách thức của bài toán huấn luyện cùng nhãn nhiễu trong học liên kết . 10

1.2.1 Bảo mật dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2.2 Dữ liệu không đồng nhất giữa các Client . . . . . . . . . . . . . 10

1.2.3 Nhiễu không đồng nhất giữa các Client . . . . . . . . . . . . . 12

1.2.4 Tối ưu chi phí truyền thông . . . . . . . . . . . . . . . . . . . . 13

1.2.5 Client mới tham gia . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3 Các phương pháp đã có cho bài toán huấn luyện cùng nhãn nhiễu trong . . học liên kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3.1 Các phương pháp theo hướng học tập trung . . . . . . . . . . . 15

1.3.2 Các phương pháp theo hướng học liên kết . . . . . . . . . . . . 16

1.4 Tóm tắt chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

CHƯƠNG 2. PHƯƠNG PHÁP ĐỀ XUẤT CHO HUẤN LUYỆN CÙNG NHÃN NHIỄU TRONG HỌC LIÊN KẾT VỚI CLIENT MỚI THAM GIA 20

2.1 Khái quát phương pháp đề xuất: . . . . . . . . . . . . . . . . . . . . . 20

2.2 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.1 Mô hình của hệ thống học liên kết . . . . . . . . . . . . . . . . 22

2.2.2 Cơ sở lý thuyết của điểm LID . . . . . . . . . . . . . . . . . . 23

2.2.3 Thuật toán GMM . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3.1 Giai đoạn thứ nhất (Tiền xử lý) . . . . . . . . . . . . . . . . . . 30

2.3.2 Giai đoạn thứ hai (Tinh Chỉnh) . . . . . . . . . . . . . . . . . . 38

2.3.3 Giai đoạn thứ ba (Huấn luyện thông thường) . . . . . . . . . . . 39

2.4 Tóm tắt chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ 41

3.1 Thiết lập thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.1.1 Ngôn ngữ lập trình và thư viện hỗ trợ . . . . . . . . . . . . . . 41

3.1.2 Môi trường lập trình . . . . . . . . . . . . . . . . . . . . . . . 43

3.1.3 Cơ sở dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.1.4 Mô phỏng phân bố dữ liệu và nhãn nhiễu nhân tạo . . . . . . . 44

3.1.5 Các siêu tham số . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2 Kết quả thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.1 Kết quả so sánh với phương pháp nền tảng FedCorr và các phương . . pháp khác . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.2 Đánh giá khả năng tổng quát của phương pháp đề xuất . . . . . 51

3.2.3 Đánh giá khả năng sửa lại nhãn nhiễu . . . . . . . . . . . . . . 51

3.3 Thảo luận về các khía cạnh khác . . . . . . . . . . . . . . . . . . . . . 53

3.4 Tóm tắt chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

KẾT LUẬN 55

Kết luận chung 55

Hướng phát triển 55

TÀI LIỆU THAM KHẢO 57

DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Tên tiếng Anh đầy đủ Tên tiếng Việt

Federated Learning Local Intrinsic Dimensionality Independent and Identically Distributed Đồ án tốt nghiệp Học liên kết Không gian nội tại cục bộ Phân phối độc lập và đồng nhất

ĐATN FL LID I.I.D Non-I.I.D Non Independent and Identically Distributed Phân phối không độc lập

GMM EM CE MSLE Gaussian Mixture Model Expectation-Maximization Cross-Entropy Mean Squared Logarithmic Error

và không đồng nhất Mô hình trộn Gaussian Kỳ vọng tối đa Entropy chéo hàm Logarithm sai số bình phương trung bình

DANH MỤC HÌNH VẼ

Hình 0.1 Một hệ thống của Federated Learning với nhiễu nhãn . . . . . . . 2

Hình 1.1 Ứng dụng của Học liên kết trong dự đoán từ tiếp theo trên điện . . thoại di động[1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Hình 1.2 Quy trình huấn luyện của một hệ thống Học liên kết . . . . . . . . 7

Hình 1.3 Hai dạng nhiễu trong thực tế: Nhiễu đóng và nhiễu mở . . . . . . 9

Hình 1.4 Hai dạng nhiễu mô phỏng: nhiễu hỗn hợp và nhiễu đối xứng (với . . tỉ lệ nhiễu 40%) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Hình 1.5 Hai dạng phân bố dữ liệu trong học liên kết: dữ liệu I.I.D và dữ . . liệu Non-I.I.D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Hình 1.6 Minh họa về tính phân kì của mô hình học sâu trong học liên kết . với cả hai phân phối dữ liệu I.I.D và Non-I.I.D . . . . . . . . . . . . . 11

Hình 2.1 Tổng quát về phương pháp FedDC đề xuất . . . . . . . . . . . . . 20

Hình 2.2 Một ví dụ cho thấy LID có thể phát hiện các mẫu dữ liệu bất thường . . như thế nào . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Hình 2.3 Tính điểm LID của một điểm dữ liệu với c=10 . . . . . . . . . . . 24

Hình 2.4 Đánh giá bằng thực nghiệm với điểm LID (bên trái) và điểm LID tích lũy (bên phải) với bộ dữ liệu CIFAR-10 và phân bố dữ liệu I.I.D. . . 25

Hình 2.5 Phân phối Gaussian đa chiều với ba cụm đối với các bộ dữ liệu một . . chiều, hai chiều và ba chiều. . . . . . . . . . . . . . . . . . . . . . 26

Hình 2.6 Hai bước E-Step và M-Step của thuật toán EM. . . . . . . . . . . 29

Hình 2.7 Quá trình hội tụ tổng quát của thuật toán GMM . . . . . . . . . . 30

Hình 2.8 Giai đoạn thứ nhất: Tiền xử lý trong FedDC . . . . . . . . . . . . 31

Hình 2.9 Kỹ thuật tăng cường dữ liệu Mixup . . . . . . . . . . . . . . . . . 33

Hình 2.10 Phân phối xác suất Beta . . . . . . . . . . . . . . . . . . . . . . . 34

Hình 2.11 Tác động của learning rate tuần hoàn . . . . . . . . . . . . . . . . 35

Hình 2.12 Giai đoạn thứ hai: Tinh chỉnh trong FedDC . . . . . . . . . . . . 39

Hình 3.1 Tỉ lệ công trình nghiên cứu sử dụng framework PyTorch các năm . . gần đây[2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Hình 3.2 Ba cơ sở dữ liệu: CIFAR10, CIFAR100, Clothing1M . . . . . . . 44

Hình 3.3 Mô phỏng phân bố dữ liệu Non-I.I.D trên cơ sở dữ liệu CIFAR-10 . . với 100 Client . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Hình 3.4 Kết quả phân loại các client nhiễu mới bằng cách sử dụng ngưỡng giá trị mất mát. So sánh độ chính xác (%) giữa FedDC và FedCorr trong quá trình huấn luyện. Các thí nghiệm được đánh giá với (ρ, τ, σ ) = (0.6, 0.5, 0.6). Đường nét đứt màu đỏ trong hình (b) chia quá trình huấn . . . luyện thành ba giai đoạn. . . . . . . . . . . . . . . . . . . . . . . 48

Hình 3.5 Đánh giá sự hội tụ của mô hình cục bộ trên các client nhiễu mới giữa FedDC và FedCorr trên CIFAR-10 với phân bố dữ liệu IID bằng kỹ . . thuật trực quan hóa t-SNE. . . . . . . . . . . . . . . . . . . . . . . 48

Hình 3.6 Độ chính xác (%) của FedDC và FedCorr trên các bộ dữ liệu CIFAR-10 và CIFAR-100 với phân vùng dữ liệu IID/non-IID trong giai đoạn tiền xử lý với σ khác nhau và cố định (ρ, τ) = (0.6, 0.5). Các thiết lập non-IID được thiết lập với (p, αDir) = (0.7, 10). Màu đậm: Độ chính xác cao nhất. Màu nhạt: Độ chính xác trung bình của tất cả các client. . 50

Hình 3.7 Đánh giá quy trình sửa nhãn trên bốn Client ngẫu nhiên khác nhau, được thực hiện trên CIFAR-10 với phân bố dữ liệu IID và cài đặt nhiễu (ρ, τ) = (0, 6, 0, 5). Đối với mỗi Client, em biểu diễn hai ma trận nhầm lẫn, được tạo với các nhãn thật có trước khi đào tạo, các nhãn đã sửa sau . khi hoàn thành quá trình sửa nhãn cuối cùng. . . . . . . . . . . . . . 52

iii

DANH MỤC BẢNG BIỂU

Bảng 3.1 Danh sách siêu tham số và mô hình sử dụng trong các thử nghiệm. 47

Bảng 3.2 Độ chính xác cao nhất (%) của FedDC so với các phương pháp khác trên CIFAR-10 và CIFAR-100 sau khi hoàn thành ba giai đoạn huấn luyện với cố định (ρ, τ, σ ) = (0.6, 0.5, 0.6) trong các phân bố dữ . liệu IID và non-IID. Độ chính xác cao nhất được in đậm. . . . . . . . 49

Bảng 3.3 Độ chính xác tốt nhất (%) trên cơ sở dữ liệu Clothing1M với phân . bố dữ liệu Non-I.I.D. Độ chính xác cao nhất được in đậm. . . . . . . . 51

Bảng 3.4 Độ chính xác tốt nhất (%) của FedDC khi kết hợp với FedNoRo sử . dụng cơ sở dữ liệu CIFAR-10 . Độ chính xác cao nhất được in đậm. . . 52

Bảng 3.5 Kết quả MSLE giữa các điểm số LID được gán và các điểm số LID thực tế của các client mới. Bốn phương pháp gán được so sánh: gán một cách đơn giản các điểm số LID nhỏ nhất, trung bình hoặc lớn nhất cho tất cả các client mới và kỹ thuật gán được đề xuất. Giá trị MSLE nhỏ . . nhất được in đậm. . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

TÓM TẮT ĐỒ ÁN

Bài toán huấn luyện cùng nhãn nhiễu (learning with noisy label) là một lĩnh vực trong thị giác máy tính và trí tuệ nhân tạo, nghiên cứu về các chiến lược nhằm giải quyết được thách thức về nhãn nhiễu trong các bối cảnh khác nhau. Khi chúng ta nói đến "nhãn nhiễu", điều đó có nghĩa là nhãn của mẫu dữ liệu đã cố tình bị gán xóa trộn bởi một nhãn khác dẫn đến một phân bố dữ liệu khác. Hiện tượng nhãn nhiễu này có thể do nhiều nguyên nhân khác nhau, có thể do sai sót của người gán nhãn hoặc cũng có thể do các cuộc tấn công dữ liệu từ bên ngoài,... Hiện nay, các chiến lược giải quyết thách thức này thường được nghiên cứu trong huấn luyện tập trung - lĩnh vực đòi hỏi việc tập trung dữ liệu tại một chỗ gây ra những lo ngại về bảo mật dữ liệu. Với những lo ngại về bảo mật dữ liệu, học liên kết nổi lên là một cách huấn luyện các mô hình mà không chia sẻ dữ liệu cục bộ riêng tư. Đây là một chiến lược cho phép các thiết bị (client) cùng huấn luyện một mô hình chung và tổng hợp ra một bộ trọng số chung mà không chia sẻ tập dữ liệu cục bộ cá nhân của nhau. Nhờ đó học liên kết có điểm mạnh trong việc bảo mật dữ liệu và mở rộng hệ thống với dữ liệu không đồng nhất. Với sự xuất hiện của học liên kết, bài toán huấn luyện cùng nhãn nhiễu mà không chia sẻ dữ liệu cá nhân có thể được giải quyết bằng cách kết hợp giữa học liên kết và các chiến lược huấn luyện cùng nhãn nhiễu. Tuy nhiên, trong dữ liệu thế giới thực, lượng dữ liệu được cập nhật mới liên tục nhưng các công trình nghiên cứu về việc xử lý, tối ưu quá quá trình huấn luyện khi xuất hiện client với dữ liệu mới lại chưa được chú ý.

Đồ án tốt nghiệp của em thực hiện đề xuất cải tiến phương pháp giải quyết bài toán huẫn luyện cùng nhãn nhiễu trong hệ thống học liên kết trong bối cảnh có sự xuất hiện của client mới. Dựa trên chiến lược cơ sở FedCorr là chiến lược nhắm đến giải quyết bài toán huấn luyện cùng nhãn nhiễu trong học liên kết sử dụng giá trị Local Intrinsic Dimensionality(LID) cùng cơ chế phát hiện và sửa lại nhãn sai, em đã đề xuất chiến lược cải tiến trong đó sử dụng một ngưỡng giá trị mất mát và cơ chế gán giá trị LID để giải quyết các trường hợp có sự xuất hiện của client mới. Với nhiều mức độ nhiễu khác nhau, kết quả của chiến lược đề xuất đạt kết quả tốt hơn chiến lược cơ sở. Kết quả về độ chính xác tốt nhất của chiến lược đề xuất đạt lần lượt 92.35%, 71.87% với hai tập dữ liệu cho mục đích thử nghiệm CIFAR10 và CIFAR100 với cấu hình dữ liệu đồng nhất và 89.24%, 68.46% với cấu hình dữ liệu không đồng nhất. Bên cạnh đó với tập dữ liệu thế giới thực Clothing1M, phương pháp cũng đạt 72.49% độ chính xác, cao hơn chiến lược cơ sở. Ngoài ra phương pháp đề xuất cũng cho thấy sự linh hoạt khi có thể kết hợp các chiến lược cơ sở khác như FedNoRo và vẫn đạt được kết quả tốt hơn. Trong tương lai, em sẽ tiếp tục nghiên cứu để cải thiện thuật toán, tập trung vào việc tối ưu hóa chi phí truyền thông, nâng cao độ chính xác và cải thiện khả năng sửa lại nhãn nhiễu.

MỞ ĐẦU

Đặt vấn đề

Trong thời đại ngày nay, việc huấn luyện các mô hình máy học tập trung gây ra những lo ngại lớn về quyền riêng tư của người dùng, vì dữ liệu cá nhân phải được gửi lên một máy chủ trung tâm. Trong các tình huống thực tế, như dịch vụ chăm sóc sức khỏe, quản lý thiết bị IoT, hay thậm chí trong lĩnh vực tài chính, việc thu thập và huấn luyện mô hình từ dữ liệu phân tán là rất quan trọng và giúp bảo mật thông tin của người dùng. Để giải quyết vấn đề này, Học liên kết (Federated Learning) được phát triển nhằm cho phép huấn luyện mô hình trên dữ liệu phân tán mà không cần thu thập dữ liệu tập trung. Tuy nhiên, phương pháp này cũng gặp nhiều khó khăn, đặc biệt là khi dữ liệu ngày càng đa dạng và các thiết bị (Client) thường xuyên thay đổi. Trong bối cảnh đó, bài toán huấn luyện cùng nhiễu nhãn với Client mới tham gia xuất hiện như một lĩnh vực nghiên cứu quan trọng nhằm giải quyết các thách thức này trong các các ứng dụng thực tế.

Tuy nhiên, đối mặt với những thách thức như chất lượng của dữ liệu, sự biến đổi về phân phối dữ liệu, sự khác biệt về tính toán và băng thông của các thiết bị và đặc biệt là sự thay đổi liên tục của các Client tham gia, bài toán huấn luyện cùng nhiễu nhãn trở thành một nhiệm vụ phức tạp và đòi hỏi sự đổi mới trong các phương pháp và mô hình.

Mục tiêu chính của đồ án là phát triển phương pháp trong học liên kết cho phép huấn luyện mô hình từ dữ liệu phân tán một cách hiệu quả và chính xác, ngay cả khi các Client tham gia liên tục thay đổi và có chứa nhãn nhiễu. Điều này đặt ra nhiều thách thức như làm thế nào để xử lý hiện tượng nhãn nhiễu với sự biến đổi trong phân phối dữ liệu, làm thế nào để đối mặt với hạn chế về tài nguyên tính toán của các thiết bị, và làm thế nào để đảm bảo tính chất bảo mật dữ liệu và chính xác của mô hình Học liên kết trong môi trường thực tế.

Hình 0.1 mô tả cách một hệ thống Federated Learning hoạt động trong trường hợp tập dữ liệu cục bộ của Client có nhiễn nhãn. Trong một hệ thống Federated Learning thông thường, quy trình huấn luyện bắt đầu bằng việc các Client phân tán giữ lại dữ liệu của mình mà không chia sẻ trực tiếp với server trung tâm. Mỗi Client sẽ huấn luyện mô hình cục bộ trên dữ liệu riêng của mình và sau đó gửi các tham số mô hình đã cập nhật lên server. Server sẽ thu thập và tổng hợp các tham số này để tạo ra một mô hình toàn cục. Mô hình toàn cục sau đó được gửi ngược lại cho các Client để tiếp tục cải tiến qua các vòng huấn luyện tiếp theo. Quá trình này lặp đi lặp lại cho đến khi mô hình đạt được độ chính xác mong muốn. Nếu có Client có nhiễu nhãn, điều này có thể gây ảnh hưởng tiêu cực đến hệ thống. Các mô hình cục bộ từ Client có nhiễu nhãn sẽ có tham số sai lệch, làm giảm chất lượng của mô hình toàn cục khi server tổng hợp các tham số này.

Hình 0.1 Một hệ thống cơ bản của Federated Learning với nhiễu nhãn

Kết quả là, không chỉ mô hình trên server bị ảnh hưởng mà các Client khác cũng nhận được mô hình toàn cục kém chính xác, dẫn đến hiệu suất của toàn bộ hệ thống bị suy giảm. Điều này có thể làm giảm độ tin cậy và khả năng ứng dụng của mô hình trong thực tế.

Trong đồ án này, em sẽ tập trung vào việc phát triển thuật toán xử lý cả Client nhiễu đã có trong hệ thống và Client nhiễu mới tham gia. Tuy nhiên, trên thực tế quy trình xử lý hiện tượng nhiễu nhãn trong một hệ thống Federated Learning thông thường còn gặp nhiều khó khăn như sau:

• Chất lượng dữ liệu huấn luyện: Dữ liệu nhiễu nhãn có thể xuất hiện dưới nhiều hình thức khác nhau và ảnh hưởng tiêu cực đến chất lượng huấn luyện. Đặc biệt khi dữ liệu đến từ nhiều nguồn Client khác nhau, việc đồng nhất và lọc bỏ nhiễu trở nên khó khăn do khó tiếp cân trực tiếp vào dữ liệu người dùng.

• Sự thay đổi liên tục của Client: Hệ thống phải đối mặt với sự thay đổi liên tục của các Client, điều này làm tăng độ phức tạp trong việc tổng hợp và cập nhật mô hình.

• Phân bố dữ liệu không đồng nhất: Dữ liệu phân tán trên các Client có thể không

đồng nhất, dẫn đến khó khăn trong việc đảm bảo tính đồng nhất và hiệu quả của mô hình tổng thể.

• Chi phí tối ưu hóa quá trình huấn luyện: Quá trình huấn luyện phải tối ưu hóa chi phí để đảm bảo thuật toán xử lý nhiễu không tốn kém, đồng thời vẫn đảm bảo hiệu quả và hiệu suất của hệ thống.

Những thách thức này đặt ra nhiều yêu cầu về cải tiến các phương pháp và mô hình hiện tại để xử lý dữ liệu từ các Client nhiễu và mới tham gia, đảm bảo tính hiệu quả và chính xác của hệ thống trong môi trường thực tế.Vì vây trong đồ án tốt nghiệp này, em quyết định tìm hiểu và nghiên cứu một phương pháp xử lý thách thức về nhãn nhiễu đồng thời cho cả những Client đã có sẵn trong hệ thống và các Client mới sẽ tham gia vào sau này.

Mục tiêu và đóng góp của đồ án

Cho đến hiên tại, đã có nhiều phương pháp xử lý hiện tượng nhãn nhiễu theo nhiều hướng tiếp cận khác nhau nhưng các phương pháp này có một hạn chế chung là chưa xử lý hiện tượng nhãn nhiễu trong trường hợp số lượng Client là không cố định. Do đó mục tiêu của em trong đồ án này là xây dựng một phương pháp có khả năng xử lý hiện tượng nhiễu nhãn với cả các Client đã có và các Client mới tham gia sau này.

Sau khi khảo sát nhiều phương pháp, thuật toán giải quyết thách thức nhiễu nhãn nói chung trong trường hợp số lượng Client là cố định, em lựa chọn phương pháp FedCorr[3] làm thuật toán nền tảng. Thuật toán FedCorr[3] được lựa chọn do thuật toán này đã đạt kết quả SOTA trong lĩnh vực huấn luyện cùng nhiễu nhãn trong Federated Learning. FedCorr sử dụng cách tiếp cận bằng mọt giá trị gọi là LID (Local Intrinsic Dimensionality) để đánh giá dữ liệu của một Client có chứa nhiễu nhãn hay không. Sau khi thử nghiệm thuật toán trong trường hợp có xuất hiện Client mới có nhiễu nhãn, em nhận thấy độ chính xác của thuật toán giảm đảng kể, do đó thuật toán vẫn còn có thể cải thiện để xứ lý được những trường hợp như vậy. Em đã trực quan hóa các đặc trưng liên quan các Client và nhận thấy có sự biến động trong giá trị mất mát của các Client mới tham gia vào hệ thống. Từ đó em đã cải tiến thuật toán FedCorr để xử lý các Client mới này bằng cách sử dụng kết hợp hai thuật toán mới là thông qua một ngưỡng giá trị mất mát và một kỹ thuật gán điểm LID.

Các kết quả cho thấy với ba cơ sở dữ liệu gồm hai cơ sở dữ liệu thí nghiệm CI- FAR10, CIFAR100 và cơ sở dữ liệu nhiễu nhãn thực tế Clothing1M, phương pháp đề xuất có kết quả tốt hơn phương pháp gốc ban đầu. Phương pháp mới còn cho thấy sự linh hoạt khi có thể kết hợp với phương pháp nền tảng khác để giải quyết hiện tượng nhiễu nhãn trong trường hợp số lượng Client không cố định.

Phương pháp đề xuất trong đồ án này được em viết thành một bài báo khoa học có tên "FedDC: Label Noise Correction with Dynamic Client for Federated Learning, Thanh-Trung Giap, Tuan-Dung Kieu, Thi-Lan Le, Thanh-Hai Tran" và hiện đang nằm trong vòng đánh giá thứ hai của tạp chí IEEE Internet of Things.

Bố cục của đồ án

Nội dung của đồ án gồm có 3 chương như sau:

Chương 1: Tổng quan chung về huấn luyện cùng nhãn nhiễu trong học liên kết

Trong chương này, em sẽ tập trung vào giới thiệu bài toán huấn luyện cùng nhãn nhiễu trong học liên kết bao gồm bài toán học liên kết kết hợp với bài toán huấn luyện cùng nhãn nhiễu đã có trong học tập trung. Bên cạnh đó, em sẽ trình bày về các thách thức trong bài toán và thống kê cũng như trình bày các công trình đã có liên quan đến bài toán huấn luyện cùng nhãn nhiễu trong cộng đồng nghiên cứu thế giới.

Chương 2: Phương pháp đề xuất huấn luyện cùng nhãn nhiễu trong học liên

kết với Client mới tham gia

Trong chương này, em sẽ trình bày phương pháp đề xuất cho bài toán huấn luyện cùng nhãn nhiễu trong trường hợp số lượng Client là không cố định, tập trung vào việc cải thiện thuật toán FedCorr[3] giúp xử lý đồng thời cả các Client nhiễu sẵn có trong hệ thống và các Client nhiễu mới sau này. Trong đó, em tập trung chủ yếu mô tả phương pháp đề xuất dựa trên phương pháp nền tảng FedCorr[3], trình bày cơ sở lý thuyết đã giúp FedCorr đạt được kết quả SOTA trong lĩnh vực này. Sau đó, phân tích về sự biến động trong giá trị hàm mất mát của các Client nhiễu và cuối cùng là đề xuất một phương pháp mới có tên FedDC giúp cải tiến FedCorr[3] trong trường hợp số lượng Client không cố định.

Chương 3: Thực nghiệm và đánh giá

Trong chương này, em sẽ trình bày quy trình làm các thử nghiệm, cơ sỏ dữ liệu sử dụng, phương pháp mô phỏng nhãn nhiễu và cấu hình dữ liệu sát thực tế trong bài toán học liên kết. Sau đó, em sẽ trình bày về các kết quả đã được giữa thuật toán đề xuất và thuật toán gốc, cũng như với các thuật toán giải quyết bài toán nhiễu nhãn trong học liên kết khác.

CHƯƠNG 1. TỔNG QUAN CHUNG VỀ HUẤN LUYỆN CÙNG NHÃN NHIỄU TRONG HỌC LIÊN KẾT

Trong chương này, em sẽ tập trung giới thiệu bài toán huấn luyện cùng nhãn nhiễu trong học liên kết bao gồm hai bài toán nhỏ kết hợp lại là huấn luyện cùng nhãn nhiễu và học liên kết. Bên cạnh đó, em sẽ trình bày các thách thức trong bài toán, đồng thời với đó em sẽ trình bày những công trình nghiên cứu khác đã giải quyết bài toán trên.

1.1 Bài toán huấn luyện cùng nhãn nhiễu trong học liên kết

1.1.1 Học liên kết

Trí tuệ nhân tạo (AI) đang phát triển với tốc độ chưa từng có, đặc biệt là với sự nổi lên của Học Sâu (Deep Learning - DL) trong một số tác vụ nhất định. Hàng loạt các bài báo nghiên cứu khoa học mới hứa hẹn và những ứng dụng đáng kinh ngạc đang xuất hiện hàng ngày, cho thấy một trí tuệ gần như đạt đến mức độ của con người. Sự thành công của học sâu chủ yếu đến từ sự có sẵn của dữ liệu lớn và sức mạnh tính toán. Tuy nhiên, một trong những thách thức chính mà các mô hình DL đang đối mặt trong thời đại số này là bảo mật dữ liệu, vì những dữ liệu này có thể rất nhạy cảm và riêng tư mà chủ sở hữu thường không muốn chia sẻ, làm trở ngại quá trình thu thập bộ dữ liệu cho DL. Do đó, AI cần đảm bảo rằng quyền riêng tư của dữ liệu người dùng không bị xâm phạm. Do đó sự cần thiết của việc nghiên cứu về các mô hình huấn luyện bảo vệ tính bảo mật dữ liệu trở nên ngày càng đòi hỏi hơn. Bên cạnh đó, với sự tiến triển nhanh chóng của công nghệ nói chung, các thiết bị cạnh (edge devices) hiện nay có khả năng tính toán mạnh mẽ hơn.

Một câu hỏi nảy sinh trong tình huống đó: "Liệu chúng ta có thể huấn luyện mô hình mà không cần thu thập toàn bộ dữ liệu về một máy chủ trung tâm không?". May mắn thay, câu trả lời chính là mô hình Học liên kết (Federated Learning - FL); đây là lĩnh vực nghiên cứu về các thuật toán để cho phép nhiều mô hình cùng huấn luyện học máy với nhau để huấn luyện ra một mô hình chung. Với FL, không chỉ bảo vệ quyền riêng tư của dữ liệu người dùng mà còn tận dụng hoàn toàn sức mạnh tính toán từ một lượng lớn thiết bị [4] .

Học liên kết, được giới thiệu lần đầu bởi các nhà khoa học tại Google vào năm 2017 [5], là một phương pháp học máy cho phép dữ liệu ở lại trên các thiết bị cục bộ trong khi một mô hình toàn cầu được huấn luyện. Đây là một phương pháp phân tán cho học máy, nơi nhiều thiết bị hợp tác để huấn luyện một mô hình chung mà không trực tiếp trao đổi dữ liệu gốc.

Ý tưởng đằng sau Học liên kết là giải quyết thách thức là đảm bảo tính riêng tư

của dữ liệu. Phương pháp này cho phép tổ chức huấn luyện mô hình trên dữ liệu phân tán trên nhiều thiết bị hoặc máy chủ mà không cần chuyển dữ liệu đến một máy chủ tập trung. Thay vào đó, chỉ các cập nhật mô hình được gửi từ các thiết bị đến một máy chủ trung tâm, nơi chúng được tổng hợp để cải thiện mô hình toàn cầu.

Hình 1.1 Ứng dụng Học liên kết trong dự đoán từ tiếp theo trên điện thoại di động[1]

Học liên kết có nhiều lợi ích so với các phương pháp học máy truyền thống tập trung và các phương pháp này đóng một vai trò quan trọng trong việc hỗ trợ các ứng dụng nhạy cảm về quyền riêng tư, nơi dữ liệu huấn luyện được phân phối trên các thiết bị cạnh. Các ví dụ về các ứng dụng tiềm năng bao gồm: học cảm xúc, vị trí ngữ nghĩa hoặc hoạt động của người dùng điện thoại di động; thích ứng với hành vi người đi bộ trong các phương tiện tự động; và dự đoán sự kiện sức khỏe như nguy cơ đau tim từ các thiết bị đeo [6, 7, 8]. Dưới đây là một số ứng dụng của Học liên kết:

• Điện thoại thông minh. Bằng cách học chung hành vi người dùng trên một lượng lớn điện thoại di động, các mô hình thống kê có thể cung cấp năng lực cho các ứng dụng như dự đoán từ tiếp theo, nhận diện khuôn mặt và nhận dạng giọng nói [9], [10]. Tuy nhiên, người dùng có thể không muốn chia sẻ dữ liệu của họ để bảo vệ quyền riêng tư cá nhân hoặc tiết kiệm băng thông / pin có hạn của điện thoại. Học liên kết có tiềm năng để kích hoạt các tính năng dự đoán trên điện thoại thông minh mà không làm giảm trải nghiệm người dùng hoặc rò rỉ thông tin riêng tư.

• Tổ chức. Các tổ chức hoặc cơ quan cũng có thể được xem xét như ’thiết bị’ trong ngữ cảnh của Học liên kết. Ví dụ, bệnh viện là các tổ chức chứa đựng một lượng lớn dữ liệu bệnh nhân cho dự đoán chăm sóc sức khỏe. Tuy nhiên, bệnh viện hoạt động dưới các quy tắc bảo mật nghiêm ngặt và có thể đối mặt với ràng buộc pháp

lý, quản trị hoặc đạo đức yêu cầu dữ liệu phải ở nguyên vị. Học liên kết là một giải pháp hứa hẹn cho những ứng dụng này [10], vì nó có thể giảm áp lực trên mạng và cho phép học tập riêng tư giữa các thiết bị / tổ chức khác nhau.

• Internet of Things (IoT). Các mạng IoT hiện đại, chẳng hạn như thiết bị đeo, phương tiện tự động hoặc nhà thông minh, có thể chứa nhiều cảm biến giúp chúng có thể thu thập, phản ứng và thích ứng với dữ liệu đến theo thời gian thực. Ví dụ, một đội xe tự động có thể yêu cầu một mô hình cập nhật về giao thông, công trình xây dựng hoặc hành vi người đi bộ để hoạt động an toàn. Tuy nhiên, việc xây dựng các mô hình tổng hợp trong các tình huống này có thể khó khăn do tính riêng tư của dữ liệu và kết nối giới hạn của từng thiết bị. Các phương pháp Học liên kết có thể giúp huấn luyện các mô hình hiệu quả thích ứng với sự thay đổi trong các hệ thống này trong khi vẫn giữ riêng tư người dùng [8], [11].

Hình 1.2 Quy trình huấn luyện của một hệ thống Học liên kết

Hình 1.2 trình bày quy trình huấn luyện của một hệ thống học liên kết. Trong một hệ thống học liên kết thông thường sẽ bao gồm 3 phần: Máy chủ (Server), các thiết bị biên (Client) và truyền thông giữa Server và Client (Communication Network). Ban đầu, từ phía Server, một mô hình toàn cục với bộ trọng số chung ban đầu ω 0 G, sẽ được gửi

, . . . ω 1 CN , ω 1 C2

xuống tất cả các Client. Sau đó trên mỗi Client, các mô hình sẽ được huấn luyện riêng biệt trên tập dữ liệu riêng tư của người dùng. Quá trình này thường được thực hiện khi thiết bị, phần cứng được sạc pin liên tục. Sau khi một mô hình cục bộ - mô hình trên thiết bị cục bộ của Client Ck hoàn tất quá trình huấn luyện, bộ trọng số ω 1 sẽ được gửi Ck lại lên phía Server tương ứng với vòng giao tiếp thứ 1. Sau khi toàn bộ các mô hình cục bộ được gửi lên Server, Server sẽ thu được danh sách các bộ trọng số {ω 1 } C1 với N là số lượng Client và từ đó thực hiện các thuật toán tổng hợp trọng số để cho ra được một bộ trọng số chung mới là ω 1 G. Sau đó bộ trọng số này lại tiếp tục được gửi xuống các Client và quá trình trên lại được thực hiện lại tiếp tục. Mỗi một chu kỳ gửi, tổng hợp, nhận như trên được gọi là một vòng giao tiếp và ω 0 G là bộ trọng số chung ban đầu của hệ thống tương ứng với trước vòng giao tiếp đầu tiên, ω 1 là bộ trọng số cục bộ Ck của Client Ck tại vòng giao tiếp thứ 1. Quá trình này sẽ được thực hiện như thế trong khoảng từ vài nghìn vòng giao tiếp cho đến hàng triệu vòng giao tiếp với mục tiêu có thể thu được một bộ trọng số chung tốt nhất.

Federated Learning mang lại nhiều lợi ích so với học máy tập trung, nhưng cũng đặt ra một số thách thức. Dưới đây là một số thách thức chính trong Học liên kết. Trong đó, khi triển khai thực tế một hệ thống FL, các tập dữ liệu người dùng trên các thiết bị cá nhân thường không được đánh giá và đảm bảo tính đúng đắn do vấn đề về quyền riêng tư. Điều này dẫn đến các vấn đề về việc xuất hiện các mô hình mạng DL không đồng nhất, có thể xuất hiện sự khác biệt trong đặc điểm về dữ liệu người dùng do các yếu tố liên quan đến kỹ năng gán nhãn, quan điểm chủ quan của người dùng, độ tin cậy từ phần cừng,. . . Dữ liệu trong các mô hình FL thường hiếm khi được phân bố theo phần bố IID và thường xuyên có hiện tượng mất cân bằng. Ngoài ra dữ liệu có người dùng có thể là sạch, trong khi người dùng khác sẽ có dữ liệu xấu như bị nhiễu nhãn có các mức độ khác nhau từ nhiễu nhẽ đến nhiễu nặng hoàn toàn. Hiện tượng này được gọi chung là nhiễu nhãn và thường do các yếu tố chủ quan đã nêu bên trên và khách quan như bị tấn công từ bên ngoài gây lên. Hiện tượng này gây ra nhiều tác hại đến các mô hình trong hệ thống FL khiến có các mô hình DL suy giảm hiệu suất cũng như độ chính xác.

1.1.2 Huấn luyện cùng nhãn nhiễu

Hiện tượng nhãn nhiễu trong dữ liệu không phải là một hiện tượng hiếm gặp. Hiện tượng này có thể xuất hiện do các tác nhân ngoại như tấn công nhãn nhiễu, sai sót của hệ thống trong việc lưu trữ dữ liệu hoặc từ các tác nhân nội như sai sót của người gán nhãn dữ liệu. Hiện tượng nhãn nhiễu này có thể phân loại theo hai dạng: nhiễu đóng và nhiễu mở. Hình 1.3 thể hiện hai loại nhiễu kể trên. Cụ thể nhiễu đóng có nghĩa nhãn thật vẫn là nhãn thuộc vào tập dữ liệu đang có, ví dụ như một tập dữ liệu hình ảnh chỉ có hai nhãn chó và mèo, có một bức ảnh chó có nhãn bị đổi sang thành mèo thì được gọi là nhiễu đóng. Nhiễu mở có nghĩa nhãn thật sẽ là một nhãn mới không thuộc vào tập

Hình 1.3 Hai dạng nhiễu trong thực tế: Nhiễu đóng và nhiễu mở

Hình 1.4 Hai dạng nhiễu mô phỏng: nhiễu hỗn hợp và nhiễu đối xứng (với tỉ lệ nhiễu 40%)

dữ liệu đang có, vẫn ví dụ trên, với một bức ảnh gấu bắc cực bị nhầm nhãn sang chó thì được gọi là nhiễu mở. Hai dạng nhiễu trên đều có tác động xấu theo những cách khác nhau đến mô hình học sâu. Ngoài hai dạng nhiễu thực tế này thì trên phương diện mô phỏng hiện tượng nhiễu nhãn trong hệ thống FL thì còn có thể phân loại theo hai kiểu mô phỏng: nhiễu hỗn hợp và nhiễu đối xứng. Hình 1.4 thể hiện ma trận nhầm lẫn giữa nhãn thật và nhãn sai trong hai loại nhiễu kể trên. Nhiễu hỗn hợp là dạng mô phỏng mà nhãn thật được gán lại một nhãn sai khác bất kỳ nằm trong tập dữ liệu đang có. Nhiễu đối xứng thì sẽ mô phỏng bằng cách cho nhãn thật được gán lại một nhãn sai khác duy nhất nằm trong tập dữ liệu đang có. Với hiện tượng nhiễu hỗn hợp, với một tỉ lệ nhiễu đáng kể, phân phối dữ liệu của tập dữ liệu chứa nhiễu nhãn sẽ bị đảo trộn lên gây khó khăn cho việc xử lý. Cũng vì vậy mà trong các công trình nghiên cứu trước đây, hiện tượng nhiễu hỗn hợp vẫn là thách thức được chú ý nhiều hơn với nhiều phương pháp giải quyết khác nhau.

1.2 Thách thức của bài toán huấn luyện cùng nhãn nhiễu trong học liên kết

Những thách thức trong bài toán huấn luyện cùng nhãn nhiễu trong học liên kết được bao gồm từ những thách thức riêng trong bài toán huấn luyện cùng nhãn nhiễu và bài toán học liên kết. Các thách thức có thể kể đến như: bảo mật dữ liệu, dữ liệu không đồng nhất giữa các Client, hiện tượng nhiễu không đồng nhất giữa các Client, chi phí truyền thông giữa Client và Server và hiện tượng Client mới tham gia. Trong vòng những năm qua, rất nhiều nhà nghiên cứu đã công bố hàng loạt các công trình nhằm giải quyết bài toán trên cùng với các thách thức đi kèm.

1.2.1 Bảo mật dữ liệu

Bảo mật dữ liệu (Data Privacy) là nguyên tắc chung của các bài toán huấn luyện mô hình trong học liên kết. Với đặc điểm phải đảm bảo khả năng bảo mật dữ liệu của mình, các thuật toán liên quan đến học liên kết phải đặc biệt tuân thủ nguyên tắc này. Trong bối cảnh đó, một Client trong hệ thống nếu có nhiễu nhãn trong dữ liệu cục bộ, do nguyên tắc bảo mật dữ liệu nên việc tiếp cận trực tiếp với dữ liệu cục bộ trở nên khó khăn. Khi đó ngay cả Server sẽ không thể tiếp xúc trực tiếp với dữ liệu cục bộ nên khó có thể xác định được một Client có dữ liệu nhiễu nhãn hay không. Ngược lại bản thân Client đó cũng khó có thể tự xác định bản thân có nhiễu nhãn hay không khi không thể chia sẻ dữ liệu của mình cho Server hay cho các Client khác. Việc này đặt ra bài toán làm sao để xác định một Client có chứa nhiễu nhãn hay không mà không biết trực tiếp dữ liệu thật như thế nào.

1.2.2 Dữ liệu không đồng nhất giữa các Client

Hình 1.5 Hai dạng phân bố dữ liệu trong học liên kết: dữ liệu I.I.D và dữ liệu Non-I.I.D

Hình 1.6 Minh họa về tính phân kì của mô hình học sâu trong học liên kết với cả hai phân phối dữ liệu I.I.D và Non-I.I.D

Dữ liệu không đồng nhất hay còn được gọi là dữ liệu Non-I.I.D (Non Independent and Identically Distributed) là dạng phân bố dữ liệu phổ biến trong thế giới thực. Ngược lại với đó là dữ liệu đồng nhất hay dữ liệu I.I.D. Dữ liệu I.I.D buộc các Client đều phải có phân phối dữ liệu gần giống nhau cũng như số lượng dữ liệu gần bằng nhau. Tuy vậy trong một hệ thống học liên kết thực tế, mỗi Client có thể có các phân bố dữ liệu khác nhau và có thể có hiện tượng mất cân bằng dữ liệu nặng. Việc này thể hiện rõ qua dữ liệu được thu thập trong thế giới thực. Trong thực tế, mỗi Client tại từng vị trí địa lý khác nhau, môi trường khác nhau, người gán nhãn khác khau, kích thước bộ nhớ dữ liệu khác nhau có thể có các dữ liệu khác nhau. Hình 1.5 thể hiện thách thức dữ liệu Non-I.I.D khác so với dữ liệu I.I.D như nào. Trong đó các Client có phân bố dữ liệu I.I.D có đầy đủ dữ liệu về số từ 0 đến 9 trong tập dữ liệu. Ngược lại, các Client có phân bố dữ liệu Non-I.I.D chỉ có dữ liệu về 2 số và khác nhau giữa các Client. Phân bố dữ liệu Non-I.I.D ảnh hưởng trực tiếp đến khả năng hội tụ của mô hình toàn cục. Cụ thể thông qua hình 1.6 thế hiện sự khác nhau trong quá trình phân kì của mô hình học sâu giữa hai loại phân bố dữ liệu I.I.D và Non-I.I.D. Nguyên nhân là do sự khác nhau về tập dữ liệu cục bộ giữa các Client, từ đó dẫn đến sự khác nhau về đặc trưng học được của các Client khác nhau khiến cho việc tổng hợp một mô hình toàn cục trở nên khó khăn. Với một thuật toán tổng hợp trọng số chung cho mô hình toàn cục không hợp lí, hướng đi của mô hình toàn cục có thể bị phân kỳ và không thể hội tụ về nghiệm toàn cục, từ đó cho hiệu suất không tốt và tốn kém về thời gian huấn luyện. Các công trình đã có giải quyết thách thức này trong học liên kết thường tập trung vào việc thay đổi thuật toán tổng hợp mô hình chung hoặc các phương pháp lựa chọn Client tối ưu. Thuật toán nền tảng đầu tiên là FedAvg ra đời cùng với sự giới thiệu về học liên kết trong [5] từ các tác giả của Google.

FedAvg[5] cập nhật trọng số chung cho mô hình toàn cục bằng cách lấy trung bình trọng số của các Client theo tỉ lệ giữa sỗ lượng mẫu dữ liệu cục bộ của từng Client và toàn bộ số lượng dữ liệu của các Client. Một thuật toán nổi tiếng khác là FedProx[12] cải thiện FedAvg trong bối cảnh dữ liệu Non-I.I.D tốt hơn bằng cách bổ sung thêm một toán tử chính quy hóa (Regularization) vào hàm mất mát nhằm điều hướng các mô hình cục bộ có cùng một hướng hội tụ giúp tăng tốc độ hội tụ của mô hình toàn cục. FedOpt và các biến thể của nó trong [13] có cách tiếp cận bằng cách cập nhật mô hình toàn cục theo Gradient dựa trên sai khác giữa trung bình sai khác giữa mô hình toàn cục và mô hình cục bộ của các Client. Ngoài ra FedOpt còn trình bày 3 phương pháp với các công thức tính Gradient của mô hình toàn cục khác nhau có tên FedAdagrad, FedYogi, FedAdam. Một hướng tiếp cận khác là sử dụng thêm lớp cá nhân hóa cùng với các lớp cơ sở tạo thành một mô hình mạng nơ-ron nền tảng. Hai công trình kinh điển với cách tiếp cận này là FedPer[14] và LG-FedAvg[15]. Trong FedPer, các lớp cơ sở là các lớp nông của mạng lưới thần kinh trích xuất các biểu diễn cấp cao và các lớp cá nhân hóa là các lớp sâu để phân loại. Ngược lại với đó, LG-FedAvg lại có lớp cá nhân hóa là các lớp nông của mạng nơ-ron và các lớp cơ sở được chia sẻ với Server là các lớp sâu để phân loại lớp. Ngoài ra LG-FedAvg còn thảo luận về tác vụ học không giám sát ( sử dụng autoencoder [16] ), tự giám sát (thuật toán Jigsaw [17]) và huấn luyện đối nghịch với một mô hình bổ sung được xây dựng cục bộ kết nối với các lớp cá nhân hóa.

1.2.3 Nhiễu không đồng nhất giữa các Client

Do các hệ thống học liên kết phải tuân theo nguyên tắc không chia sẻ dữ liệu các nhân của các Client, nên việc đánh giá mức độ nhiễu nặng, nhẹ hay các mẫu nhiễu trong hai client khác nhau có giống nhau hay không là một thách thức khó khăn. Trong các ứng dụng thế giới thực, từng Client có thế có mức độ nhiễu khác nhau rất lớn giữa nhau. Việc đánh giá và sau đó xa hơn là sửa nhiễu sẽ là một thách thức khó khăn khi phải áp dụng linh hoạt với từng Client riêng biệt. Điều này càng trở nên khó khăn hơn với phân bố dữ liệu Non-I.I.D, khi này các Client vừa có dữ liệu không nhất lẫn nhiễu không đồng nhất. Một công trình nổi tiếng gần đây có tên FedCorr[3] giải quyết bài toán này bằng cách tận dụng thông tin từ đặc trưng của dữ liệu trong quá trình huấn luyện trên từng Client để đánh giá một Client có chứa nhiễu nhãn hay không. FedCorr[3] sử dụng một kỹ thuật ước lượng giá trị LID dựa trên học nhiều-chiều không tuyến tính (Manifold Learning). Không chỉ có vậy FedCorr[3] còn xác định các mẫu nhiễu và ước lượng mức độ nhiễu của từng Client dựa trên tỉ lệ các mẫu dữ liệu có giá trị hàm mất mát cao thông qua GMM và sửa lại các mẫu nhiễu này. Một công trình khác cũng có cách tiếp cần gần tương đồng với FedCorr[3] là FedNoRo[18]. Trong đó, FedNoRo[18] xác định các Client nhiễu thông quá giá trị hàm mất mát trên từng lớp trong dữ liệu thông qua GMM tương tự như FedCorr. Bên cạnh đó FedNoRo còn trình bày một thuật toán tổng hợp

trọng số tối ưu DaAgg giữa cả các Client sạch và Client nhiễu.

1.2.4 Tối ưu chi phí truyền thông

Trong các hệ thống học liên kết, các Client thường là các thiết bị có năng lực tính toán không quá mạnh mẽ, bên cạnh đó băng thông đường truyền kết nối giữa Client và Server là có giới hạn. Vì vậy bài toán tối ưu chi phí truyền thông (Communication cost reduction) là một thách thức quan trọng. Với mỗi tập tin của Client gửi lên phía Server ngoài trọng số mô hình cục bộ, các thông tin bổ sung khác nếu được gửi lên với số lượng lớn có thể dẫn đến tắc nghẹn băng thông, khiến quá trình tổng hợp mô hình tốn nhiều thời gian và không hiệu quả. Đứng trước thách thức này, việc tối ưu khả năng khai thác các thông tin về dữ liệu nhiễu tiềm ẩn trong dữ liệu cục bộ ngay trên Client sẽ trở nên hiệu quả hơn. FedCorr[3] cũng từ đó mà đề xuất việc đánh giá một Client có chứa nhiễu nhãn hay không dựa bằng cách ước lượng điểm LID nhằm đại diện cho sự phân tán trong việc huấn luyện của mô hình cục bộ. Nhờ việc chỉ sử dụng một giá trị điểm LID mà chi phí truyền thông bổ sung thêm không bị ảnh hưởng nhiều. Một công trình khác là FedLSR[19] đề xuất việc các Client tự huấn luyện riêng biệt sử dụng học tương phản mà không gửi bất kì thông tin bổ sung nào nên Server. FedLSR thực hiện điều này nhờ sử dụng cơ chế huấn luyện đặc biệt của học tương phản và cho ra hai đầu ra để tính toán một hàm mất mát đặc biệt là sự kết hợp giữa hàm mất mát tự trích lọc và hàm mất mát học giám sát. Ngoài việc giảm số lượng thông tin để đánh giá một Client có nhiễu nhãn hay không lên Server không chỉ tối ưu hóa về mặt truyền thông mà đây còn giúp tránh lộ thông tin tiềm ẩn của Client.

1.2.5 Client mới tham gia

Trong các công trình liên quan đến học liên kết, một kịch bản thường thấy là số lượng Client huấn luyện trong hệ thống học liên kết là cố định từ vòng giao tiếp đầu tiên đến vòng giao tiếp cuối cùng. Trong các ứng dụng thực tế, điều này khó có thể xảy ra do nhiều nguyên nhân khác nhau, khi đó các Client mới có thể tham gia vào bất kỳ vòng giao tiếp nào và các Client này được gọi là các Client mới tham gia trong hệ thống. Sau đây là một số kịch bản phổ biến liên quan đến Client mới tham gia vào quá trình huấn luyện:

• Khách hàng mới tham gia: Một khách hàng mới có thể tham gia vào hệ thống học liên kết bất kỳ lúc nào. Điều này có thể xảy ra khi một thiết bị mới hoặc người dùng kết nối với mạng hoặc khi một ứng dụng hoặc dịch vụ mới được triển khai.

• Kết nối lại sau khi mất kết nối: Nếu một Client trước đó bị mất kết nối mạng hoặc tạm thời ngừng hoạt động và sau đó quay lại, các Client này có thể tham gia lại vào quá trình huấn luyện chung. Điều này thường được gọi là "tái tham gia".

• Phân phối dữ liệu động: Trong một hệ thống học liên kết với phân phối dữ liệu động, dữ liệu từ các Client có thể thay đổi theo thời gian. Client mới có thể tham gia khi có dữ liệu mới để đóng góp hoặc khi dữ liệu được thu thập đã sẵn sàng cho quá trình huấn luyện.

• Mở rộng hệ thống: Khi một hệ thống học liên kết mở rộng hoặc được phát triển thêm, các Client mới có thể được thêm vào để tăng khả năng học và đóng góp dữ liệu đa dạng cho hệ thống.

• Tham gia tạm thời: Ví dụ như một triển khai tạm thời của các thiết bị IoT cho một dự án sẽ cho phép các thiết bị này tham gia vào quá trình huấn luyện của một hệ thống học liên kết lớn trong suốt thời gian dự án cho đến khi hoàn thành, sau đó các Client này sẽ được loại bỏ.

• Hợp tác mới: Trong các ứng dụng thực tế, các hệ thống học liên kết có thể được thiết kế cùng các đối tác hoặc hợp tác với các tổ chức bên ngoài, chẳng hạn như các tổ chức khác, các viện nghiên cứu hoặc các cơ quan chính phủ. Trong những trường hợp như vậy, các Client mới từ những tổ chức bên ngoài đó có thể tham gia vào quá trình huấn luyện, chia sẻ dữ liệu cục bộ như một phần của dự án để đạt được các mục tiêu chung.

Các kịch bản có sự xuất hiện của Client mới tham gia yêu cầu các thuật toán linh hoạt hơn, giúp tối ưu hóa quá trình huấn luyện của các Client mới. Bên cạnh đó, các Client này còn có thể chất lượng dữ liệu khác nhau và khác cả với các Client đã có trong hệ thống. Điều này còn dẫn đến những thách thức mới như phân phối dữ liệu mới không đồng nhất trong hệ thống, làm phức tạp hóa việc cập nhật mô hình và học nhất quán đối với mô hình chung. Việc Việc quản lý kiến thức đã thu được từ quá trình huấn luyện trước đó sẽ trở nên phức tạp hơn và khó đồng nhất với các Client mới hơn. Các công trình đề cập đến kịch bản này hiện đa phần được nghiên cứu cùng với bài toán dữ liệu không đồng nhất hay còn được gọi là học liên kết cá nhân hóa. Một số công trình nổi bật với kịch bản này có thể kể đến như Per-FedAvg[20], pFedHN[21] và FedMint[22]. Trong đó FedMint đề cập đến các tình huống trong đó các thiết bị IoT mới tham gia và đề xuất một kỹ thuật tận dụng nhiều Server liên kết với nhau để giúp các thiết bị IoT mới đạt được độ chính xác ban đầu nhằm bù đắp cho các vòng giao tiếp ban đầu trước khi thiết bị mới tham gia. Những công trình này tập trung vào việc tối ưu hóa quá trình huấn luyện Client mới hơn là thực hiện huấn luyện lại trong khi vẫn đạt được mục tiêu cá nhân hóa được mô hình cục bộ trong học liên kết. Tuy vậy, vần đề về sự kém chất lượng của dữ liệu của các Client mới chưa được chú ý nghiên cứu. Một công trình hiếm hoi có đề cập đến vấn đề này là UPFL[23] giải quyết bằng cách sử dụng phương pháp học không giám sát trong lĩnh vực học liên kết cá nhân hóa với dữ liệu chưa được gắn

nhãn từ Client mới. Tuy vậy chưa có công trình nào đề cập đến việc các Client mới này có thể có nhãn nhiễu, do đó việc huấn luyện cùng nhãn nhiễu trong kịch bản có sự xuất hiện của các Client mới tham gia là một thách thức tiềm ẩn mới chưa được giải quyết.

1.3 Các phương pháp đã có cho bài toán huấn luyện cùng nhãn nhiễu trong

học liên kết

Những năm gần đây, bài toán huấn luyện cùng nhãn nhiễu đã được chú ý nghiên cứu nhiều hơn, với nhiều phương pháp cũng như cách tiếp cận khác nhau. Có thể chia các hướng giải quyết bài toán trên trên hai hướng là theo hướng áp dụng các phương pháp trong học tập trung lên các Client riêng biết và theo hướng phát triển các phướng pháp mới tạo ra hệ thống học liên kết có khả năng giải quyết hiện tượng nhãn nhiễu. Ngoài ra theo hướng nghiên cứu từ học liên kết, các công trình còn có thể chia ra làm 3 cách tiếp cận khác nhau: sử dụng một giá trị tự tin của từng Client, sử dụng cách trích lọc đặc trưng để xác định Client nhiễu và áp dụng các hàm mất mát tăng cường chống lại nhiễu nhãn. Trong phần này, em sẽ trình bày cụ thể các phương pháp, hướng tiếp cận đã có để giải quyết bài toán huấn luyện cùng nhãn nhiễu trong học liên kết.

1.3.1 Các phương pháp theo hướng học tập trung

Từ khi xuất hiện thách thức về nhãn nhiễu nói chung, bài toán huấn luyện cùng nhiễu nhãn trong học tập trung đã được nghiên cứu với nhiều phương pháp khác nhau. Bài toán này đã xuất hiện trong học tập trung thông thường của các mô hình DL trong [24, 25, 26, 27]. Một vài công trình nổi bật có thể kể đến như phương pháp DivideMix, Joint Optimization và Co-teaching. Trong đó DivideMix và Co-teaching có cùng cách tiếp cận thách thức nhãn nhiễu bằng cách huấn luyện song song hai mô hình. Cụ thể Co-teaching có cách tiếp cận tương đối đơn giản bằng việc huấn luyện hai mô hình song song nhau. Sau đó tại từng mini-batch dữ liệu huấn luyện, từng mô hình trong Co-teaching sẽ lấy mẫu dữ liệu với giá trị hàm mất mát nhỏ như một mẫu dữ liệu sạch để huấn luyện. Phương pháp DivideMix cũng thực hiện huấn luyện song song hai mô hình, sau đó với mỗi mô hình, DivideMix sử dụng thuật toán GMM với phân phối giá trị mất mát của từng mẫu trong tập dữ liệu để xác định mẫu sạch và mẫu nhiễu. Tuy nhiên DevideMix còn sử dụng một phương pháp tăng cường khác có tên MixMatch để thực hiện học bán giám sát cho mô hình tại mỗi Mini-batch dữ liệu huấn luyện. Cuối cùng DevideMix còn thực hiện đồng sàng lọc lại nhãn và đồng dự đoán nhãn thông qua hai mô hình trên những mẫu dữ liệu nhiễu để giúp quá trình huấn luyện hiệu quả hơn sau này. Phương pháp Joint Optimization có cách tiếp cận khác thông qua sử dụng một hàm mất mát tăng cường. hàm mất mát của Joint Optimization sử dụng kết hợp của hàm phân kỳ Kullback-Leibler và hàm cross-entropy tăng cường. Các phương pháp trong học tập trung có thể áp dụng vào học liên kết bằng cách áp dụng lên từng Client riêng lẻ. Tuy

nhiên các phương pháp trong học tập trung đòi hỏi việc huấn luyện một lượng dữ liệu lớn để các thuật toán có thể nhận ra sự nhiễu của nhãn nhiễu. Bên cạnh đó các phương pháp theo hướng huấn luyện hai mô hình song song đòi hỏi phần cứng có sức mạnh tính toán mãnh mẽ. Điều này thì khác với trong học liên kết khi mà các Client trong học liên kết không sở hữu một lượng dữ liệu lớn và có khả năng tính toán hạn chế. Điều này dẫn đến việc áp dụng các phương pháp trong học tập trung trong học liên kết tỏ ra không hiệu quả và tốn kém. Đứng trước thách thức về nhãn nhiễu trong học liên kết, nhu cầu về việc tìm ra một phương pháp thích hợp với học liên kết và hiệu quả là rất lớn.

1.3.2 Các phương pháp theo hướng học liên kết

Khi các phương pháp trong học tập trung thể hiện sự thiếu hiệu quả khi áp dụng trong học liên kết, các nhà nghiên cứu bắt đầu tìm kiếm các phương pháp mới để giải quyết bài toàn nhãn nhiễu trong học liên kết. Những năm gần đây, bài toán này nhận được rất nhiều sự chú ý với đa dạng cách thức tiếp cận khác nhau và các phương pháp đều thể hiện tính hiệu quả cũng như kết quả vượt trội. Các phương pháp giải quyết thách thức nhãn nhiễu trong học liên kết theo hướng thuần học liên kết có thể được chia làm 3 hướng tiếp cận nhỏ hơn: phương pháp sử dụng độ đo tự tin, phương pháp sử dụng đặc trưng được trích lọc, phương pháp sử dụng các hàm mất mát tăng cường. Sau đây em sẽ trình bày cụ thể các phương pháp nổi bật theo lần lượt từng các tiếp cận khác nhau.

A) Các phương pháp sử dụng độ đo tự tin

Trong bối cảnh của học liên kết khi các Client có dữ liệu không đồng nhất, lượng dữ liệu nhiễu là khác nhau, các Client có thể được đánh giá bản thân nó có nhiễu nhãn hay không bằng một độ đo tự tin. Cụ thể các phương pháp theo hướng tiếp cận này sẽ ước lượng một giá trị độ tự tin của từng Client dựa trên đặc trưng của dữ liệu hoặc hiệu suất của mô hình. Các thuật toán theo hướng này thường cho chỉ tính toán giá trị độ tự tin trên các Client, sau đó phân loại các Client sạch và nhiễu dựa trên giá trị này. Từ đó các Client sạch và nhiễu khác nhau sẽ được huấn luyện với các cách thức khác nhau để tối ưu khả năng học của mô hình. Một trong những công trình đầu tiên có cách tiếp cận này là ARFL[28] . Trong đó ARFL trình bày một thuật toán tổng hợp với cơ chế điều chỉnh lại trọng số dựa trên phần dư, kết hợp hồi quy trung bình lặp lại. Trong ARFL , một độ do tư tin được tính toán của từng client tên là độ tự tin trọng số (Parameter confidence). Từ đó, các mô hình cục bộ của các Client sẽ sử dụng giá trị độ tự tin này để điều chỉnh lại trọng số của mô hình. Một công trình khác là RHFL[29] sử dụng một tập dữ liệu công khai để căn chỉnh lại phân phối tri thức trong quá trình huấn luyện của các Client. Bên cạnh đó, RHFL tính toán một giá trị ước lượng chất lượng nhãn thông qua giá trị hàm mất mát kết hợp giữa hàm Cross-Entropy và hàm Cross-Entropy đảo. Sau đó một giá trị độ tự tin của từng Client sẽ được tính thông qua ước lượng chất lượng nhãn trên và sau đó thuật toán sẽ căn chỉnh lại trọng số giúp dữ liệu được học hiệu quả hơn từ các

Client có độ tự tin cao. Một công trình khác gần đây có tên FedNoRo[18] đề xuất một chiến lược huấn luyện đa giai đoạn gồm 2 giai đoạn: giai đoạn đầu tập trung vào việc xác định các Client nhiễu thông qua giá trị hàm mất mát theo lớp và giai đoạn thứ hai áp dụng chắt lọc tri thức (knowledge distillation) và tổng hợp mô hình giữa trên sự khác biệt thông qua cơ chế distance-aware giữa các Client để cập nhật mô hình trong học liên kết. Độ tự tin của Client trong FedNoRo chính là một vec-tơ giá trị hàm mất mát theo từng lớp trong dữ liệu. Theo đó FedNoRo còn trình bày cơ chế chắt lọc tri thức giúp huấn luyện đồng thời các Client nhiễu và Client sạch. Một công trình nổi bật gần gây là FedCorr[3] cũng đề xuất một chiến lược gồm ba giai đoạn để xử lý nhãn nhiễu. Đầu tiên, FedCorr[3] phân loại các Client với nhãn nhiễu dựa trên thuật toán học máy GMM dựa trên LID. Theo FedCorr[3] với ý tưởng từ [30], Client với nhãn nhiễu, không gian nội tại cục bộ của các Client này sẽ phân tán xa hơn so với các Client nhãn sạch, do đó các tác giả của FedCorr[3] sử dụng các điểm LID thông qua mô hình toàn cầu để phân loại Client nhiễu. FedCorr[3] cũng cung cấp việc sửa lại nhãn được xác định là nhãn nhiễu sử dụng các dự đoán từ mô hình toàn cầu làm cho việc huấn luyện sau đó chính xác hơn. Một công trình khác, TrustBCFL[31] cũng có áp dụng cách tiếp cận tương tự như FedCorr[3] bằng cách sử dụng điểm LID nhưng không theo cấu trúc khung làm việc nhiều giai đoạn như FedCorr. Các công trình kể trên đều có đặc điểm chung là sử dụng một độ đo sự tự tin của Client để điều chỉnh lại quá trình huấn luyện giúp chống lại được hiện tượng nhiễu nhãn.

B) Các phương pháp sử dụng đặc trưng được trích lọc

Các đặc trưng trong quá trình huấn luyện các mô hình học sâu chứa đựng nhiều thông tin tiềm ẩn, do đó nhiều nhà nghiên cứu đã cố gắng tận dụng lượng thông tin tiềm ẩn này để giải quyết bài toán huấn luyện cùng nhiễu nhãn trong học liên kết. Hai công trình nổi tiếng có hướng tiếp cận như vậy là RoFL[18] và FedLN[32]. Trong RoFL, sau khi huấn luyện trên Client, các đặc trưng sẽ được tổng hợp để tìm ra các đặc trưng đại diện cho từng lớp trong dữ liệu cục bộ kết hợp cùng với tâm toàn cục để cho ra các tâm cục bộ. Sau đó trên Server, các tâm toàn cục sẽ lại được tổng hợp từ tâm cục bộ cùng với độ đo tương giữa tâm cục bộ và tâm toàn cục trước đó. Thuật toán của RoFL sau đó sẽ sử dụng các tâm cục bộ này để tính toán hàm mất mát với các mẫu dữ liệu có độ tin cậy cao. Cụ thể nhãn của các mẫu dữ liệu sẽ được xem xét bằng cách so sánh với nhãn của tâm có độ tương tự cao nhất so với đặc trưng của mẫu dữ liệu đó. Nếu tâm cục bộ có nhãn trùng với mẫu dữ liệu, mẫu dữ liệu đó được coi là mẫu dữ liệu tự tin. Ngoài ra với các mẫu dữ liệu không có tự tin, một nhãn giả dựa trên mô hình toàn cầu sẽ được sử dụng thay thế cho việc huấn luyện. FedLN tuy có cùng cách tiếp cận bằng cách sử dụng đặc trưng được chắt lọc nhưng có cách triển khai phức tạp cùng 3 kỹ thuật chính: Nearest Neighbor-based Correction (NNC), Adaptive Knowledge Distillation (AKD) và Noise-Aware Federated Averaging (NA-FedAvg). Phương pháp NNC sử dụng đặc trưng

nhúng (embedding) là đặc trưng được biểu diễn từ một lớp cụ thể của mô hình mạng nơ-ron để thực hiện chỉnh sửa nhãn, dự đoán nhãn cho mỗi mẫu đầu vào dựa trên nhãn của các mẫu lân cận trong không gian embedding và tính toán mức độ nhiễu trên mỗi Client bằng cách sử dụng thuật toán kNN (k-Nearest Neighbors), sau đó tiến hành sửa nhãn bị nhiễu. AKD sử dụng phương pháp chắt lọc tri thức để khai thác embedding thay vì sửa nhãn trực tiếp, giúp giảm thiểu tác động của nhãn bị nhiễu thông qua việc học từ các mô hình đã được huấn luyện trước. NA-FedAvg điều chỉnh trọng số của các cập nhật từ Client dựa trên mức độ nhiễu ước tính, sử dụng điểm năng lượng (energy score) để đo lường độ không chắc chắn của nhãn trên dữ liệu của các Client, giúp điều chỉnh quá trình tổng hợp mô hình phía Server bằng cách ưu tiên các Client có dữ liệu ít nhiễu hơn. Hai phương pháp nổi bật đều có cách tiếp cận bằng cách tận dụng thông tin tiềm ẩn từ đặc trưng được trích lọc ra từ các mô hình học sâu giúp giải quyết bài toán huấn luyện cùng nhãn nhiễu trong học liên kết.

B) Các phương pháp sử dụng các hàm mất mát tăng cường

Từ những nghiên cứu trong học tập trung, việc sử dụng các hàm mất mát tăng cường có khả năng chống lại nhãn nhiễu đã cho thấy khả năng cũng như độ hiệu quả trong học tập trung. Cũng từ ý tưởng đó, có nhiều công trình đề xuất các hàm mất mát tăng cường cùng các cơ chế huấn luyện chống lại nhãn nhiễu trong học liên kết. Công trình sớm [33] đã đề xuất sử dụng phản hồi của người dùng để xác định nhiễu trên Client. Phương pháp này sử dụng mô hình được gửi từ Server để dự đoán một nhãn được gọi là nhãn giả (pseudo label), sau đó so sánh với nhãn do người dùng chú thích. Nếu hai nhãn này giống nhau, chúng sẽ được thêm vào tập dương tính và ngược lại, nếu khác nhau thì thêm vào tập âm tính. Sau đó, mô hình sẽ được huấn luyện với nhãn giả này như một nhãn sửa lỗi cùng với một hàm mất mát tăng cường. Một công trình nổi bật khác có tên là FedLSR[19] không chỉ đề xuất hàm mất mát tăng cường mà còn áp dụng được các kỹ thuật từ trong học tương phản (contrastive learning). FedLSR dựa trên việc điều chỉnh mô hình cục bộ của mỗi Client để giảm thiểu tác động của các nhãn nhiễu bằng cách sử dụng kỹ thuật tự điều chỉnh cục bộ (local self-regularization) thông qua quá trình tự chắt lọc kiến thức (self-distillation) với các mẫu dữ liệu cục bộ. Cụ thể, trong quá trình huấn luyện, các Client tiến hành huấn luyện mô hình trên tập dữ liệu cục bộ của mình, trong đó các mẫu dữ liệu được tăng cường bằng cách áp dụng các kỹ thuật tăng cường dữ liệu. Sau đó, các Client sử dụng 2 đầu ra để tính giá trị hàm mất mát self-distillation và áp dụng cơ chế dự đoán MixUp cho 2 đầu ra để tính giá trị hàm mất mát Cross-Entropy thông thường. Hai hàm mất mát này sau đó được kết hợp cho ra giá trị hàm mất mát cuối cùng để cập nhật mô hình cục bộ của Client. Bằng cách thiết kế các hàm mất mát tăng cường có khả năng chống chịu được hiện tượng nhãn nhiễu, các công trình trên đã đề xuất các phương pháp giúp giải quyết hiện tượng nhãn nhiễu trong học liên kết một cách hiệu quả.

Các phương pháp này đều cho thấy sự hiệu quả hơn khi áp dụng trực tiếp trong học liên kết so với áp dụng các phương pháp từ học tập trung. Tuy nhiên, các phương pháp này đều có chung một kịch bản là số lượng client cố định. Điều này khó xảy ra trong thực tế do số lượng Client là biến thiên theo thời gian do nhiều nguyên nhân khác nhau.

1.4 Tóm tắt chương 1

Trong chương này, em đã giới thiệu chung về bài toán huấn luyện cùng nhãn nhiễu trong học liên kết và các thách thức trong bài toán này. Cũng trong chương này, em đã trình bày những phương pháp đã có cho bài toán huấn luyện cùng nhãn nhiễu trong học liên kết theo hai hướng tiếp cận chính là từ học tập trung và từ học liên kết. Em cũng đã phân loại và trình bày các phương pháp mới và nổi bật theo ba hướng là sử dụng một độ đo tự tin, sử dụng đặc trưng được trích lọc và sử dụng các hàm mất mát tăng cường dành riêng cho bài toán huấn luyện cùng nhãn nhiễu trong học liên kết. Các phương pháp này đều cho thấy sự hiệu quả khi áp dụng trực tiếp trong học liên kết hơn khi áp dụng các phương pháp từ học tập trung. Tuy nhiên, các phương pháp này đều có chung một kịch bản là số lượng Client cố định. Điều này đặt ra bài toàn huấn luyện cùng nhãn nhiễu trong học liên kết với số lượng Client không cố định hay chính là các kịch bản có Client mới tham gia. Dựa vào các kiến thức tại chương 1, trong chương 2, em sẽ trình bày về phương pháp đề xuất cho bài toán huấn luyện cùng nhãn nhiễu trong học liên kết với Client mới tham gia.

CHƯƠNG 2. PHƯƠNG PHÁP ĐỀ XUẤT CHO HUẤN LUYỆN CÙNG NHÃN NHIỄU TRONG HỌC LIÊN KẾT VỚI CLIENT MỚI THAM GIA

Trong chương này, em sẽ trình bày về phương pháp đề xuất có tên FedDC cho bài toán huấn luyện cùng nhãn hiễu trong học liên kết với kịch bản có Client mới tham gia dựa trên phương pháp nền tảng là FedCorr bằng cách sử dụng một ngưỡng giá trị mất mát và kỹ thuật gán điểm LID tích lũy. Trong chương này em sẽ trình bày chi tiết từng phần trong phương pháp đề xuất, các điểm cải tiến so với phương pháp nền tảng FedCorr[3].

2.1 Khái quát phương pháp đề xuất:

Tại chương 1, em đã trình bày về nhiều phương pháp với 3 tiếp cận chính nhằm giải quyết bài toán huấn luyện cùng nhãn nhiễu trong học liên kết với điều kiện số lượng Client là cố định. Trong đó, các công trình có cách tiếp cận theo dạng sử dụng một độ đo sự tự tin của Client và cụ thể hơn là các công trình có dạng framework gồm nhiều giai đoạn huấn luyện cho thấy kết quả vượt trội hơn so với các phương pháp có cách tiếp cận khác. Dựa vào điều này, phương pháp đề xuất FedDC của em cũng được xây dựng với cấu trúc framework gồm 3 giai đoạn huấn luyện chính dựa trên phương pháp nền tảng FedCorr[3]. Hình 2.1 minh họa trực quan cho framework FedDC được đề xuất của em. Do được xây dựng dựa trên nền tảng FedCorr, FedDC cũng có 3 giai đoạn bao gồm: giai đoạn tiền xử lý, giai đoạn tinh chỉnh và giai đoạn huấn luyện thông thường. FedDC của em sẽ tập trung vào việc giải quyết bài toán Client mới tham gia vào hệ thống trong hai giai đoạn đầu tiên và giai đoạn thứ hai. So với FedCorr, FedDC sẽ khác biệt trong hai giai đoạn đầu tiên, cụ thể mỗi giai đoạn của FedDC sẽ thực hiện như sau:

Hình 2.1 Tổng quát về phương pháp FedDC đề xuất

• Giai đoạn tiền xử lý: Ở giai đoạn tiền xử lý, tất cả các Client có sẵn sẽ được huấn luyện đầy đủ về tất cả các vòng. Các Client nhiễu sẽ được xác định thông qua điểm LID tích lũy sử dụng GMM và các mẫu nhiễu của các Client bị nhiễu sẽ được xác định thông qua giá trị hàm mất mát của từng mẫu dữ liệu. Nếu có sự xuất hiện của các Client mới, các Client nhiễu mới trong số đó sẽ được xác định bằng phương pháp ngưỡng giá trị mất mát được đề xuất bởi em. Bên cạnh đó, em kết hợp ngưỡng giá trị mất mát của mình với kỹ thuật gán điểm LID tích lũy. Quá trình sửa nhãn sau đó được thực hiện trên các Client nhiễu đã được xác định. Ngoài ra, một mức độ nhiễu ước lượng cũng được tính toán vào cuối mỗi vòng ở giai đoạn này.

• Giai đoạn tinh chỉnh: Ở giai đoạn tinh chỉnh, các Client đang có trong hệ thống được chia thành hai nhóm là các Client sạch và các Client nhiễu dựa trên mức độ nhiễu ước lượng ở cuối giai đoạn đầu tiên. Những Client sạch sẽ được đào tạo bình thường trong khi những Client nhiễu sẽ được tập trung vào việc sửa nhãn. Đối với Client mới, FedDC cho phép tất cả được đào tạo trước một lần khi vừa tham gia dưới sự ràng buộc về trên mức độ nhiễu ước lượng. Sau đó, các Client nhiễu sẽ được xác định thông qua phương pháp ngưỡng giá trị mất mát như trong giai đoạn đầu tiên và được thêm vào nhóm Client nhiễu hiện tại. Các Client mới được xác định là Client sạch sẽ được thêm vào nhóm Client sạch hiện tại.

• Giai đoạn huấn luyện thông thường: Ở giai đoạn huấn luyện thông thường, tất cả Client đều được huấn luyện bình thường thông qua thông qua FedAvg[5] với nhãn đã sửa ở cuối giai đoạn thứ hai đối với Client được xác định nhiễu.

Phương pháp nền tảng FedCorr có thể xác định tương đối chính xác các Client sạch và nhiễu thông qua điểm LID tích lũy. Tuy nhiên trong kịch bản có sự xuất hiện của các Client mới, các Client này sẽ được huấn luyện chung bắt đầu từ vòng giao tiếp khi vừa tham gia, điều này dẫn đến các Client mới sẽ có số vòng giao tiếp ít hơn so với các Client đang có sẵn trong hệ thống. Như đã trình bày tại chương 1 về thách thức của các Client mới tham gia, vấn đề tối ưu hóa quá trình huấn luyện của các Client mới này cũng là một bài toán cần được giải quyết để quá trình huấn luyện chung được nhất quán và hiệu quả. Bên cạnh đó, điểm LID tích lũy của một Client được tính toán dựa trên tổng số điểm LID của từng vòng giao tiếp của Client đó, do đó với các Client mới có số vòng giao tiếp ít hơn sẽ luôn có điểm LID tích lũy thấp hơn các Client đã có. Điều này sẽ khiến cho các Client mới luôn bị xác định thành Client sạch dẫn đến suy giảm hiệu suất trong việc xác định Client nhiễu. Từ đó có thể dẫn đến việc các Client nhiễu đóng góp thông tin sai lệch cho mô hình chung và khiến giảm độ chính xác của hệ thống. Từ những nguyên nhân đó, FedDC của em được đề xuất để tối ưu hóa quá trình huấn luyện và giúp xác định các Client nhiễu mới một cách chính xác và đồng nhất với hệ thống. Ở phần sau

em sẽ trình bày chi tiết các cơ sở lý thuyết về điểm LID, thuật toán GMM, cũng như các giai đoạn huấn luyện trong FedDC.

2.2 Cơ sở lý thuyết

2.2.1 Mô hình của hệ thống học liên kết

Trong một hệ thống học liên kết, giả sử rằng có N Client, mỗi Client Ck sở hữu một

tập dữ liệu cục bộ Dk. Hệ thống của học liên kết được viết gọn lại như sau:

k=1 chứa N Client;

• Tập hợp S = {Ck}N

k=1;

• Tập dữ liệu bao quát D có M lớp phân bố trong Dk ở N Client: D = {Dk}N

k)}nk

k, yi

i=1

• Mỗi tập dữ liệu cục bộ Dk của Client Ck sẽ có nk điểm dữ liệu: Dk = {(xi

Mục tiêu của quá trình huấn luyện trong học liên kết chính là tối ưu hóa một hàm mất mát toàn cục F(w) thông qua việc huấn luyện và tổng hợp các trọng số từ các mô hình cục bộ từ nhiều Client khác nhau mà không cần chia sẻ dữ liệu cục bộ giữa các nút. Trong đó hàm mất mát toàn cục sẽ có dạng:

K ∑ k=1

F(w) = (2.1) Fk(w) |Dk| |D|

với Fk(w) = 1 |Dk| ∑i∈Dk ℓ(w; xi, yi) là hàm mất mát cục bộ của Client Ck với ℓ(w; xi, yi) là hàm mất mát cho một mẫu dữ liệu (xi, yi). Khi đó mục tiêu của học liên kết có thể được hiểu là đi tìm bộ trọng số mô hình w∗ sao cho:

F(w) (2.2) w∗ = arg min w

G tại vòng giao tiếp này sẽ được cập nhật bằng công thức sau:

Để đi tìm ra bộ trọng số tối ưu này, các mô hình trong học liên cần trải qua quá trình cập nhật mô hình cục bộ trên từng Client và tổng hợp ra một mô hình chung với hàng trăm đến hàng nghìn bước lặp hay vòng giao tiếp. Như đã trình bày ở chương 1 trong phần thách thức về dữ liệu không đồng nhất, có nhiều công trình với các thuật toán đề xuất khác nhau nhằm đưa ra cách tổng hợp mô hình hiệu quả. Dựa trên tính đơn giản và hiệu quả, trong FedDC này, em sẽ sử dụng thuật toán tổng hợp chính sẽ là FedAvg[5] kết hợp cùng một phiên bản cải tiến của thuật toán FedProx[12] để cải thiện việc tổng hợp mô hình từ cả Client nhiễu và sạch. Theo đó, trong FedAvg[5] tại cuối vòng giao tiếp thứ t, sẽ thu được một tập các trọng số của các mô hình cục bộ wt k của các Client. Khi này mô hình toàn cục wt

(2.3) wt k |Dk| ∑Ci∈St |Di| wt G ← ∑ Ck∈St

Trong đó St thuộc S là tập con gồm các Client được lựa chọn trong tất cả các Client. Cách cập nhật mô hình dựa trên mô hình của một tập con các Client giúp giảm chi phí truyền thông do không phải tất các Client đều sẽ gửi trọng số mô hình cục bộ của nó lên Server.

2.2.2 Cơ sở lý thuyết của điểm LID

Hình 2.2 Một ví dụ cho thấy LID có thể phát hiện các mẫu dữ liệu bất thường như thế nào

Trong hai công trình trước đây gồm FedCorr và TrustBCFL, thuật ngữ điểm LID đã được sử dụng để xác định khả năng các Client có thể là các Client nhiễu hay không. LID (Local Intrinsic Dimensionality) là một khái niệm trong lĩnh vực học máy và khai phá dữ liệu, dùng để mô tả tính phức tạp và cấu trúc của dữ liệu trong không gian nhiều chiều. Cụ thể, LID đo lường số lượng chiều hiệu dụng của dữ liệu xung quanh một điểm cụ thể trong không gian đặc trưng. Điều này có ý nghĩa quan trọng vì trong nhiều trường hợp, dữ liệu thực tế thường có thể biểu diễn trong không gian có chiều thấp hơn so với số chiều dữ liệu tự nhiên của nó. LID được định nghĩa dựa trên xác suất và lý thuyết thông tin. Nó có thể được ước tính bằng cách sử dụng phân phối khoảng cách của các điểm lân cận quanh một điểm dữ liệu cụ thể. Giá trị LID cung cấp cái nhìn sâu sắc về cách mà dữ liệu được phân phối và có thể giúp tối ưu hóa các thuật toán học máy, chẳng hạn như giảm chiều dữ liệu, phát hiện bất thường và phân cụm dữ liệu. Với nhiều ưu điểm trong việc cung cấp thông tin về sự bất thường trong dữ liệu, giá trị điểm LID có thể giúp phát hiện việc dữ liệu có nhiễu nhãn hay không. Hình 2.2 thể hiện giá trị LID khi xuất hiện các mẫu dữ liệu bất thường trong dữ liệu có giá trị cao hơn so với các mẫu dữ liệu bình thường khác. Dựa trên đặc điểm này có thể xác định một tập dữ liệu cục bộ của một Client có thể có nhãn nhiễu hay không dựa trên không gian dữ liệu thông qua giá trị LID hay điểm LID.

k = f (t)

k (x)x∈Dk

= { ˆy1, ˆy2, . . . , ˆynk

Theo đó, lấy cảm hứng từ [34], giá trị LID có thể biểu thị sự mở rộng không gian của một điểm dữ liệu khi tăng số lượng điểm dữ liệu lân cận lên. Tốc độ mở rộng không gian của điểm dữ liệu đó sẽ đại diện cho kích thước cục bộ. Với FedCorr, mỗi Client với các mô hình khác nhau sẽ có giá trị ước lượng LID khác nhau dựa trên quá trình huấn luyện khác nhau và tập dữ liệu cục bộ khác nhau . Điểm ước lượng LID sẽ được tính bằng công thức ước lượng khả năng tối đa (maximum likelihood estimation) theo [35]. Trong đó trên một Client Ck với tập dữ liệu cục bộ Dk và mô hình cục bộ f (t) k (·) tại vòng giao tiếp t, sẽ có được một tập các vec-tơ dự đoán của mô hình trên tập dữ liệu cục bộ : ˆY (t) } với ˆyi là một vec-tơ dự đoán cho một mãu dữ liệu trong Dk và có chiều dài bằng với số lượng lớp của hệ thống học liên kết. Khi đó điểm LID của 1 mãu dữ liệu sẽ được tính theo công thức:

(cid:32) (cid:33)−1

c ∑ i=1

= − log (2.4) (cid:100)LID( ˆy) ˆy∈ ˆYk 1 c ri( ˆy) rmax( ˆy)

với ri( ˆy) đại diện cho khoảng cách từ ˆy tới điểm dữ liệu lân cận thứ i của mãu dữ liệu đang xét đến và rmax( ˆy) đại diện cho khoảng cách lớn nhất giữa ˆy và tất cả c điểm dữ liệu lân cận gần nhất của nó. Hình 2.3 minh họa cho việc tính điểm LID của một điểm dữ liệu với 10 điểm dữ liệu lân cận của nó. Trong đó đường màu cam là giá trị rmax( ˆy) biểu thị cho khoảng cách lớn nhất giữa điểm tính giá trị LID và 10 điểm lân cận. Theo đó công thức sẽ là trung bình giá trị logarithm của tỉ lệ giữa khoảng cách của 10 điểm lân cận trên khoảng cách lớn nhất trong 10 điểm lân cận đó, sau đó lấy nghịch đảo và đổi dấu để lấy giá trị dương.

Hình 2.3 Tính điểm LID của một điểm dữ liệu với c=10

Sau khi tính được điểm LID của từng điểm dữ liệu trong tập dữ liệu cục bộ, điểm

LID đại diện cho Client sẽ được tính bằng trung bình điểm LID của tất cả các điểm dữ liệu. FedCorr và em đều nhận thấy rằng trong quá trình huấn luyện, điểm LID của từng Client tại từng vòng giao tiếp có sự biến động liên tục. Cụ thể, các Client nhiễu với nhiều dữ liệu bất thường sẽ có điểm LID cao hơn theo thời gian còn ngược lại các Client sạch sẽ có điểm LID trong từng vòng giao tiếp tương đối bằng nhau. Trên thực tế, trong bài toán huấn luyện cùng nhãn hiễu trong học sâu tổng quan qua thực nghiệm đã chỉ ra rằng khi huấn luyện các mô hình học sâu với nhãn nhiễu sẽ trải qua hai giai đoạn: giai đoạn đầu khi không gian đặc trưng dữ liệu chưa được khai phá hết là lúc mô hình có xu hướng học những đặc trưng trong phân phối dữ liệu thực sự tiềm ần và giai đoạn sau mô hình sẽ có xu hướng bị quá khớp với dữ liệu nhiễu nhãn do sự mở rộng về không gian đặc trưng dữ liệu. Do đó, về những vòng giao tiếp sau, các mô hình cục bộ có thể dần dần trở lên quá khớp với dữ liệu nhiễu nhãn, điều này dẫn đến điểm LID giữa các Client sạch và nhiễu ở các vòng giao tiếp này không có sự khác biệt đáng kể. Do đó, FedCorr và em đều sử dụng điểm LID tích lũy bằng cách cộng tất cả điểm LID của tất cả các vòng giao tiếp trước đó. Thực nghiệm cũng đã chỉ ra rằng điểm LID tích lũy cho thấy sự thể hiện rõ ràng hơn việc một Client có nhiễu nhãn hay không. Hình 2.4 minh họa cho phân phối điểm LID của riêng 1 vòng giao tiếp và điểm LID tích lũy từ nhiều vòng giao tiếp cho thấy điểm LID tích lũy giúp phân biệt các Client nhiễu và sạch rõ ràng hơn. Bên cạnh đó, còn thấy được mỗi liên hệ giữa tỉ lệ mẫu nhiễu có sự liên hệ mạnh mẽ với điểm LID tích lũy, cụ thể các Client có tỉ lệ mẫu nhiễu càng lớn thì điểm LID tích lũy của các Client này càng cao.

Hình 2.4 Đánh giá bằng thực nghiệm với điểm LID (bên trái) và điểm LID tích lũy (bên phải) với bộ dữ liệu CIFAR-10 và phân bố dữ liệu I.I.D.

2.2.3 Thuật toán GMM

Quá trình tính toán điểm LID sẽ được thực hiện trên Client, sau đó điểm LID của các Client sẽ được gửi lên Server, tại đấy điểm LID tích lũy sẽ được tính tại vòng giao tiếp tương ứng. Tại Server sẽ thu được một danh sách điểm LID tích lũy của tất cả các Client. Dựa trên quan sát đã được chỉ ra tại phần trước rằng các Client sạch có điểm LID tích lũy thấp hơn so với các Client nhiễu và khi biểu diễn phân phối của điểm LID tích lũy, có thể thấy điểm LID tích lũy tách ra thành hai phân phối xác suất. Dựa trên đó, FedCorr đã sử dụng thuật toán GMM (Gaussian Mixture Model) để xác định các Client sạch và nhiễu. Tương tự như vậy nhưng trong FedDC, thuật toán GMM được sử dụng để xác định các Client sạch và nhiễu đã có trong hệ thống. Thuật toán GMM hay còn được gọi là MoG (Mixture of Gaussians) là một mô hình phân cụm thuộc lớp bài toán học không giám sát mà phân phối xác suất của mỗi một cụm được giả định là phân phối Gassian đa chiều. Sở dĩ mô hình được gọi là Mixture Model (mô hình trộn) là vì xác suất của mỗi điểm dữ liệu không chỉ phụ thuộc vào một phân phối Gaussian duy nhất mà là kết hợp từ nhiều phân phối Gaussian khác nhau từ mỗi cụm. GMM hoạt động với giả định rằng dữ liệu được sinh ra từ một số lượng nhất định các phân phối Gaussian, mỗi phân phối Gaussian đại diện cho một cụm trong dữ liệu. Mỗi phân phối này được đặc trưng bởi một vector trung bình (mean vector) và một ma trận hiệp phương sai (covariance matrix). Thuật toán GMM được ứng dụng để giải quyết các bài toán phân cụm (clustering) và ước lượng mật độ (density estimation). Trong bài toán phân cụm, mục tiêu là phân chia tập hợp các điểm dữ liệu thành các nhóm sao cho các điểm trong cùng một nhóm có nhiều điểm chung nhất có thể. Trong ước lượng mật độ, mục tiêu là xác định hàm mật độ xác suất mà từ đó dữ liệu được tạo ra. Hình 2.5 mô tả ứng dụng của thuật toán GMM trong bài toán phân cụm với nhiều dạng dữ liệu khác nhau.

Hình 2.5 Phân phối Gaussian đa chiều với ba cụm đối với các bộ dữ liệu một chiều, hai chiều và ba chiều.

Trong FedDC, vì mục tiêu của em là xác định được các Client sạch và nhiễu nên

nhiệm vụ của GMM là sẽ phân loại các cụm Client sạch và nhiễu dựa trên dữ liệu về điểm LID tích lũy. Mục tiêu của mô hình GMM trong dạng bài toán phân cụm là ước lượng tham số phù hợp nhất cho k cụm thông qua thuật toán ước lượng hợp lý tối đa (Expectation-Maximization) mà em sẽ trình bày kĩ hơn ở phần sau. Một số giả định cụ thể hơn của mô hình GMM:

• Có k cụm cần phân chia mà mỗi cụm tuân theo phân phối Gaussian đa chiều với tập

i=1

tham số đặc trưng là {µi, Σi}k

• zk được giả định là một biến ngẫu nhiên nhận giá trị 1 nếu như quan sát x rơi vào

cụm thứ k, các trường hợp còn lại nhận giá trị 0.

• zk được coi là một biến ẩn (latent variable hoặc hidden variable) mà ta chưa biết giá trị của nó. Xác suất xảy ra p(zk = 1|x) của giúp chúng ta xác định tham số phân phối của Gaussian.

Tập hợp các giá trị của zk đối với các cụm sẽ tạo thành một phân phối xác suất sẽ tạo thành một phân phối xác suất (π1, π2, ..., πk) trong đó πk = p(zk = 1|x). Bài toán chung của thuật toán GMM dành cho nhiệm vụ phân cụm với giả sử có một tập dữ liệu X = {xi}N i=1 hãy tìm ra ước lượng hợp lý tối đa của các tham số θ sao cho lớp mô hình được giả định là GMM khớp nhất bộ dữ liệu. Như vậy θ ∗ chính là nghiệm của bài toán:

N ∏ i=1

(2.5) θ ∗ = arg max p(X|θ ) = arg max p(xi|θ )

Có hai cách tiếp cận để có thể tìm ra nghiệm cho bài toàn trên. Cách đầu tiên là giải trực tiếp phương trình đạo hàm của hàm logarithm để theo các hệ số để tìm ra nghiệm tối ưu như đã thực hiện đối với phân phối Gaussian đa biến cho 1 cụm. Tuy nhiên phương pháp này tỏ ra bất khả thi bởi đối với bài toán có nhiều cụm thì hàm mất mát trở nên phức tạp hơn nhiều. Khi này việc giải phương trình đạo hàm dường như là không thể.Cách thứ hai được sử dụng phổ biến hơn bằng cách sử dụng thuật toán EM (Expectation-Maximization) để cập nhật dần dần nghiệm của θ .

Thuật toán Expectation-Maximization (EM) là một phương pháp lặp để tìm cực đại hợp lý của hàm hợp lý, đặc biệt hữu ích khi dữ liệu có biến ẩn hoặc không quan sát được trực tiếp. Đây là một trong những phương pháp thường được sử dụng để cập nhật nghiệm theo hàm hợp lý. Với đặc điểm là một phương pháp đơn giản và hiệu quả, phù hợp với các bài toán phức tạp khi mà lời giải trực tiếp từ đạo hàm không dễ dàng tìm kiếm. Do đó EM được sử dụng để ước lượng các tham số của các phân phối Gaussian thành phần trong GMM. Thuật toán EM bao gồm hai bước chính được lặp đi lặp lại cho đến khi hội tụ:

• Expectation Step (E-step): Tính toán giá trị kỳ vọng của các biến ẩn, dựa trên các

tham số hiện tại.

• Maximization Step (M-step): Cập nhật các tham số để tối đa hóa hàm hợp lý dựa

trên giá trị kỳ vọng tính được từ E-step.

Các bước cụ thể khi sử dụng thuật toán EM trong GMM được thực hiện như sau:

• Bước 1 (Khởi tạo tham số): Trước khi bắt đầu các bước E-step và M-step, thuật toán EM cần khởi tạo các tham số của các phân phối Gaussian. Các tham số bao gồm:

– Trọng số của mỗi thành phần Gaussian: πk

– Trung bình của mỗi thành phần Gaussian: µk

– Ma trận hiệp phương sai của mỗi thành phần Gaussian: Σk

Các tham số này có thể được khởi tạo ngẫu nhiên tuy nhiên việc khởi tạo từ ngẫu nhiên có thể mang tính ngẫu nhiên cho ra các giá trị xấu từ đó thuật toán có thể hoạt động không tốt. Vì lí do này, thông thường các tham số khởi tạo sẽ được tạo bởi thuật toán K-means để cho giá trị khởi tạo tốt hơn.

• Bước 2 (E-Step): Sau khi đã có được các tham số khởi tạo, thuật toán EM sẽ bắt đầu thực hiện từ bước E-Step. Trong E-step này, giá trị kỳ vọng của các biến ẩn sẽ được tính toán dựa trên các tham số hiện tại. Kỳ vọng γik đại diện cho xác suất mà điểm dữ liệu xi được sinh ra từ thành phần Gaussian thứ k. Mục tiêu của bước E-Step là tính kỳ vọng của mỗi điểm dữ liệu dựa vào phân phối Gaussian đa chiều dựa trên tham số θ của vòng lặp gần nhất. Kỳ vọng này được tính như sau:

(2.6) γik = ∑K πkN(xi|µk, Σk) j=1 π jN(xi|µ j, Σ j)

với N(x|µ, Σ) là hàm mật độ xác suất của phân phối Gaussian với µ và Σ:

(cid:18) (cid:19) − exp (2.7) N(x|µ, Σ) = (x − µ)T Σ−1(x − µ) 1 2 1 (2π)d/2|Σ|1/2

và πklà trọng số của thành phần Gaussian thứ k và xi là trọng số của thành phần Gaussian thứ i. Bước E-Step sẽ kết thúc khi toàn bộ các điểm dữ liệu đã được tính xong giá trị kỳ vọng γik

• Bước 3(M-Step): Sau khi thực hiện xong bước E-Step, sẽ tiến hành thực hiện bước M-Step. Trong bước M-step này , các tham số πk, µk và Σk sẽ được cập nhật để tối đa hóa hàm hợp lý dựa trên các kỳ vọng γik đã được tính được từ E-step. Theo đó các tham số sẽ được cập nhật theo công thức như sau:

– Trọng số mới của mỗi thành phần Gaussian thứ k:

N ∑ i=1

(2.8) πk = γik 1 N

với N là tổng số điêm dữ liệu.

– Trung bình mới của mỗi thành phần Gaussian thứ k:

(2.9) µk = ∑N i=1 γikxi ∑N i=1 γik

– Ma trận hiệp phương sai mới của mỗi thành phần Gaussian thứ k:

i=1 γik(xi − µk)(xi − µk)T i=1 γik

∑N (2.10) Σk = ∑N

Hình 2.6 Hai bước E-Step và M-Step của thuật toán EM.

Hai bước E-Step và M-Step của thuật toán EM được em minh họa ở hình 2.6. Hình bên trái là bước E-Step. Tại bước này chúng ta tính toán phân phối xác suất tại từng điểm dữ liệu ứng với mỗi cụm theo bộ tham số phân phối trên từng cụm lúc ban đầu. Chẳng hạn tại một điểm trong hình ở phía trên chúng ta tính ra hai kỳ vọng cho hai cụm A và B là P(A) = 0.6 và P(B) = 0.4 và tại một điểm ở phía dưới tính ra kỳ vọng P(A) = 0.2 và P(B) = 0.8. Tiếp theo hình bên phải là bước M-Step thể hiện cách cập nhật lại tham số để phù hợp với phân phối của các cụm dữ liệu. Ở đây tham số trung bình của các cụm được cập nhật lại đồng nghĩa với việc dịch chuyển cụm sao cho giá trị hợp lý của phân phối lý thuyết được tối đa hoá và tiến gần tới phân phối thực ở mỗi cụm.

Các tham số đã được cập nhật ở bước M-Step sẽ tiếp tục được quay lại thực hiện bước E-Step để thực hiện tiếp. Quá trình này sẽ lặp lại các bước E-step và M-step cho đến khi hội tụ. Thuật toán EM sẽ hội tụ khi đạt được khi sự thay đổi của các tham số giữa các lần lặp nhỏ hơn một ngưỡng nhất định hoặc số lần lặp đạt đến một giá trị tối

Hình 2.7 Quá trình hội tụ tổng quát của thuật toán GMM.

đa. Hình 2.7 minh họa cho sự hội tụ của thuật toán GMM theo các bước lặp. Như vậy các tham số tối ưu của thuật toán GMM sẽ được tìm ra sau mỗi vòng lặp. Như đã trình bày ở phần trước, việc giải trực tiếp bài toán tối ưu hàm logarithm để theo các hệ số để tìm ra nghiệm tối ưu là bất khả thi trong điều kiện có nhiều cụm dữ liệu. Chính vì thế thuật toán EM được áp dụng để cập nhật dần dần tham số của mô hình từ đó giúp việc tìm nghiệm của thuật toán GMM hiệu quả hơn. Và trên thực tế, thuật toán EM này sẽ dần dần hội tụ sau một hữu hạn bước. Về mặt lý thuyết của thuật toán GMM đòi hỏi sẽ phải trải qua nhiều tính toán tương đối phức tạp, tuy nhiên để thực hành thuật toán này lại tương đối dễ dàng thông qua thư viện học máy Scikit-learn và ngôn ngữ lập trình Python. Do đó trong phần lập trình của phương pháp FedDC, em sẽ sử dụng trực tiếp thuật toán GMM từ thư viện Scikit-learn.

2.3 Phương pháp đề xuất

2.3.1 Giai đoạn thứ nhất (Tiền xử lý)

Như đã trình bày ở phần trước, phương pháp FedDC đề xuất của em là một frame- work có 3 giai đoạn và giai đoạn đầu tiên có tên là giai đoạn tiền xử lý. Tại giai đoạn thứ nhất này, FedDC của em sẽ tập trung vào việc vừa huấn luyện các Client, vừa xác

Hình 2.8 Giai đoạn thứ nhất: Tiền xử lý trong FedDC

định các Client nhiễu đã có trong hệ thống, vừa xác định các Client nhiễu mới tham gia vào và vừa tiến hành sửa lại nhãn nhiễu cho các mẫu được xác định là mẫu dữ liệu nhiễu trong các Client nhiễu. Trong đó, phương pháp nền tảng FedCorr đã đề xuất cơ chế vừa huấn luyện, xác định và sửa lại mẫu nhiễu, phương pháp FedDC của em sẽ cải tiến giai đoạn này bằng cách bổ sung khả năng xử lý linh hoạt với Client mời. Mục tiêu của giai đoạn này gồm 3 phần: thứ nhất là có thể giúp mô hình đạt đến một mức hội tụ nhất định bằng cách sử dụng thuật toán cải tiến của FedProx; thứ hai là sửa lại được các mẫu có nhãn nhiễu sau mỗi vòng lặp và thứ ba là xác định được tối đa các Client nhiễu và sạch để chuẩn bị cho giai đoạn tiếp theo. Hình 2.8 minh họa rõ hơn cho giai đoạn đầu tiên này. Theo đó trước khi bắt đầu giai đoạn thứ nhất, các giá trị ước lượng mức độ nhiễu cho từng Client sẽ được khởi tạo bằng 0 tương đương với việc coi tất cả các Client là sạch. Sau đó, các giai đoạn thứ nhất sẽ được tiến hành với T1 vòng giao tiếp. Trong đó mỗi vòng giao tiếp, sẽ có một lượng nhỏ Client được chọn để huấn luyện theo tỉ lệ γ1. Việc chỉ cho một lượng nhỏ Client được chọn giúp giảm các tác động tiêu cực giữa các Client nhiễu đến các Client sạch nếu chúng được chọn để tổng hợp cùng trong một vòng giao tiếp. Với các Client được chọn, trọng số của mô hình wt k sẽ được khởi tạo bằng trọng số của mô hình toàn cục w(t−1) tại vòng giao tiếp trước đó t − 1. Quá trình huấn luyện sau đó sẽ diễn ra trên Client. Các Client được chọn sẽ huấn luyện mô hình từ bộ trọng số wkt đã khởi tạo với tập dữ liệu cục bộ của mình. Tại đây tác dụng của hàm

mất mát cải tiến từ phương pháp FedProx sẽ giúp định hướng các Client nhiễu khỏi việc có hướng đi xa so với mô hình toàn cục – mô hình đươc cho là mô hình đúng. Sau khi huấn luyện các mô hình cục bộ, điểm LID sẽ được các Client tính toán và sau đó gửi lên Server. Tại Server, điểm LID sẽ được tính tích lũy và thông qua thuật toán GMM để xác định được Client nào là Client nhiễu. Sau khi các Client nhiễu được xác định, các Client này sẽ tiến hành tính giá trị mức độ nhiễu ước lượng và tiến hành sửa lại nhãn của các mẫu được xác định là mẫu nhiễu ở cuối vòng giao tiếp. Quy trình trên sẽ diễn ra trong 1 vòng giao tiếp tại giai đoạn một và như vậy sẽ có T1 quy trình như vậy.

2.3.1.1 hàm mất mát tăng cường và ngưỡng mất mát

Được lấy cảm hứng từ FedProx[12], trong đó FedProx đề xuất một hàm mất mát

theo dạng như dưới đây:

k) = Fk(w) +

k∥2

2 ∥w − wt

∥w − wt (2.11) hk(w; wt µ 2

với hk(w; wt k) là hàm mục tiêu hay hàm mất mát cục bộ trong hệ thống học liên kết, Fk(w) là hàm mất mát cơ bản của tác vụ huấn luyện và phần sau µ k∥2 là toán tử cục bộ (Proximal term). Từ công thức trên, tại giai đoạn thứ nhất này, hàm mất mát của FedDC sẽ được thiết kế như sau:

G ||2

k ( ˜Xb), ˜Yb) + β ˆµ (t−1)

k − w(t)

||w(t) (2.12) LCk(Xb) = LCE( f (t)

được tính theo công thức bên dưới: Với LCE là hàm mất mát Cross-Entropy thông thường; ( ˜Xb, ˜Yb) = mixup({(xi, yi)}nb i=1) là dữ liệu đã được tăng cường bằng kỹ thuật Mixup [36]; nb là batch size trong quá trình huấn luyện của Client Ck; f (t) k mà mô hình của Client Ck tại vòng giao tiếp t. Tham số ˆµ (t−1) trong phần toán tử thứ hai là ước lượng mức độ nhiễu của Client Ck tại vòng giao k tiếp trước đó t − 1. Cụ thể, ˆµ (t−1)

= (2.13) ˆµ (t−1) k |Dn k| |Dk|

k and Dk lần lượt là tâp dữ liệu cục bộ chỉ gồm mẫu nhiễu và tập dữ liệu cục bộ của Client Ck. Về dữ liệu Mixup, đây là một kỹ thuật tăng cường dữ liệu phổ biến đã được chứng minh giúp giảm ảnh hưởng tiêu cực của nhãn nhiễu đến quá trình huấn luyện trong [37, 24].

Với Dn

Hình 2.9 minh họa cho cách Mixup hoạt động. Có thể thấy sau khi sử dụng Mixup, xác suất thật nhãn của hai ảnh được trộn vào nhau là bị giảm đi nhưng sao cho tổng xác suất vẫn bằng 1. Nhờ vậy mà mô hình sẽ tránh được việc quá khớp trên các tập dữ liệu có nhãn nhiễu. Cụ thể hơn, Mixup sinh ra ảnh mới ( ˜x, ˜y) như một tổ hợp lồi của các cặp mẫu dữ liệu được chọn ngẫu nhiên (xi, yi) và (x j, y j). Theo như công thức trong ảnh 15,

Hình 2.9 Kỹ thuật tăng cường dữ liệu Mixup

ảnh mới ˜x và nhãn mới ˜y sẽ được sinh ra như sau:

˜x = λ xi + (1 − λ )x j,

˜y = λ yi + (1 − λ )y j,

với λ ∼ Beta(α, α) và α ∈ (0, ∞). Trong FedDC này, α được em chọn bằng 1. Khi đó phân phối Beta sẽ trở thành phân phối đều. Hình 2.10 minh họa cho hàm mật độ xác suất của phân phối Beta và có thể thấy khi α = 1 thì phân phối Beta trở thành phân phối đều.

Về phần thứ hai trong hàm mất mát, còn được gọi là điều chỉnh cục bộ thích ứng (local proximal regularization) được nhân tỷ lệ bởi ˆµ (t−1) là mức độ nhiễu ước lượng của Client Ck tại cuối vòng t − 1. Và tất nhiên với các Client sạch thì giá trị của ˆµ (t−1) sẽ bằng 0 nên phần toán tử thứ hai này sẽ không ảnh hưởng đến hàm mất mát. Siêu tham số β được dùng để kiểm soát mức độ ảnh hưởng của toán tử này. Nếu dữ liệu của một Client có sự khác biệt lớn so với các dữ liệu cục bộ khác, mô hình cục bộ của Client đó sẽ lệch nhiều so với mô hình toàn cầu, dẫn đến giá trị mất mát lớn hơn cho thuật ngữ điều chỉnh cục bộ. Từ hàm mất mát này, có thể thấy toán tử thứ hai sẽ giúp điều chỉnh hướng của mô hình cục bộ sao cho nó không sai lệch so với mô hình tổng thể bởi độ lớn của mức nhiễu ước tính. Với các Client đã có trong hệ thống, khi bắt đầu huấn luyện trong FedCorr, mức độ nhiễu ước lượng ban đầu sẽ được khởi tạo bằng 0, tuy vậy nếu sau này các Client mới tham gia vào và cũng được huấn luyện từ đầu như các Client đã có thì sẽ xảy ra hiện tượng “tụt dốc độ chính xác bất thường”. Đây là hiện tượng khi các Client mới vừa phải huấn luyện lại từ đầu và vừa có nhãn nhiễu trong tập dữ liệu cục bộ ảnh hưởng đến quá trình kết quả huấn luyện của các Client mới này. Để giải quyết vấn

Hình 2.10 Phân phối xác suất Beta

đề này, trước tiên em sẽ khởi tạo mức độ nhiễu ước lượng cho các Client mới bằng giá trị δ thay vì 0 như các Client ban đầu trong FedCorr. Bằng cách này, mô hình cục bộ của Client mới, dù được đào tạo trên tập dữ liệu ồn ào hay sạch sẽ, sẽ được điều chỉnh hướng để kế thừa và đi theo mô hình toàn cầu, được coi là mô hình chính xác. Điều này giúp tránh tình trạng giảm độ chính xác của từng Client khi bất ngờ tham gia vào hệ thống. Do điều chỉnh hướng mô hình khi huấn luyện, mô hình cục bộ sẽ không phù hợp với tập dữ liệu nhiễu cục bộ, khi đó giá trị hàm mất mát cục bộ của chúng sẽ lớn hơn so với huấn luyện trên tập dữ liệu nhiễu của Client nhiễu. Dựa vào nhận định điều này để xác định các máy khách gây nhiễu mới em sẽ sử dụng ngưỡng tổn thất θloss được tính như sau:

Ck∈S

(2.14) θloss = LCk 1 N ∑

Giá trị hàm mất mát của các Client mới sẽ được so sánh với giá trị θloss, nếu lớn hơn sẽ được xác định là Client nhiễu mới và ngược lại. Vì cơ chế trên nên ngoài trọng số mô hình cục bộ, điểm LID thì giá trị hàm mất mát của các Client cũng sẽ được gửi lên Server tại cuối mỗi vòng giao tiếp. Vì hai giá trị bổ sung thêm là điểm LID và giá trị hàm mất mát là các giá trị vô hướng nên chi phí truyền thông của FedDC không bị ảnh hưởng đáng kể.

2.3.1.2 Kỹ thuật learning rate tuần hoàn

Hình 2.11 Tác động của learning rate tuần hoàn

Như em đã trình bày ở trên, bằng cách gán mức ước lượng nhiễu khởi tạo khác 0 cho các Client mới tham gia, các mô hình của những Client này sẽ được định hướng theo tập dữ liệu nhiễu. Nói cách khác, mô hình của các Client mới này sẽ không bị quá khớp trên tập dữ liệu nhiễu và để giúp phân biệt giá trị hàm mất mát giữa các Client nhiễu và sạch, em sẽ sử dụng một kỹ thuật khác là learning rate tuần hoàn. Kỹ thuật này được đề xuất từ O2U-Net [38] với cơ chế giúp mô hình chuyển từ trạng thái quá khớp sang trạng thái chưa khớp bằng cách thay đổi luân phiên learning rate. Hình 2.11 mô tả tác động của kỹ thuật này trong việc chuyển trạng thái mô hình. Trong O2U-Net, mô hình khi được huấn luyện trên tập dữ liệu nhiễu sẽ dẫn đến quá khớp trên tập nhiễu và bằng cách buộc mô hình chuyển xuống trạng thái chưa khớp, O2U-Net quan sát thấy rằng khi mô hình chuyển từ quá khớp sang chưa khớp trên các tập dữ liệu nhiễu, các mẫu nhiễu có xu hướng thể hiện giá trị hàm mất mát cao hơn. Do đó, theo các khoảng thời gian đều đặn, O2U-Net loại bỏ K% mẫu có giá trị hàm mất mát cao như các mẫu nhiễu. Em cũng quan sát thấy rằng trong bối cảnh của học liên kết, các Client nhiễu mới có xu hướng có giá trị hàm mất mát cao hơn khi sử dụng kỹ thuật learning rate tuần hoàn so với khi không sử dụng, trong khi các Client sạch có xu hướng có giá trị hàm mất mát thấp hơn. Điều này ngầm định rằng các Client nhiễu được xem như các mẫu nhiễu trong bối cảnh của học tập trung. Vì vậy, em quyết định sử dụng thêm kỹ thuật learning rate tuần hoàn như một phương tiện để tăng cường biểu diễn nhiễu thông qua giá trị hàm mất mát của các Client mới, từ đó tăng độ chính xác của việc sử dụng ngưỡng giá trị mất mát bằng cách tăng sự khác biệt giữa giá trị hàm mất mát của các Client nhiễu và sạch.

Tuy nhiên, số lượng epoch ban đầu khi huấn luyện trên Client của FedCorr được lưu trữ trong tham số local_ep là 5, điều này không đủ để tạo ra một chu kỳ hoàn chỉnh

cho learning rate như đã nêu ở trên. Do đó, để tạo ra một chu kỳ cho learning rate, em sẽ cần điều chỉnh tham số local_ep lên 6 thay vì 5. Việc tăng thêm một epoch khi huấn luyện cục bộ sẽ không thay đổi kết quả huấn luyện trên Client quá nhiều. Tuy nhiên, điều này sẽ tăng khả năng phân loại dựa trên giá trị hàm mất mát như em đã đề cập ở trên. Bên cạnh đó, để tạo ra một chu kỳ learning rate, cần có giá trị learning rate tối thiểu, vì vậyem cũng thêm một tham số mới, learning rate tối thiểu trong chu kỳ, vào FedDC. Về learning rate tối thiểu, O2U-Net chọn nó là 10% của learning rate ban đầu và em cũng làm tương tự. Trong học liên kết, các Client thường trải qua một số lượng epoch cục bộ nhỏ do hạn chế về phần cứng. Thêm vào đó, theo O2U-Net, độ dài chu kỳ không ảnh hưởng đáng kể đến độ chính xác và O2U-Net chỉ yêu cầu nó đủ dài để chuyển trạng thái. Do đó, trong kỹ thuật này, em chọn độ dài chu kỳ là 2, điều này phù hợp cho việc huấn luyện trên các Client và đủ để chuyển từ trạng thái quá khớp sang trạng thái chưa khớp.

2.3.1.3 Kỹ thuật gán điểm LID

Với các Client đã có, điểm LID tích lúy và thuật toán GMM được sử dụng để xác định các Client nhiễu và sạch. Với các Client mới tham gia vào hệ thống, một ngưỡng mất mát được sử dụng như ở đã nói ở phần trên. Tuy nhiên sau khi các Client mới tham gia, các Client mới này sẽ trở thành các Client đã có trong hệ thóng, do đó sẽ vẫn cần phải thông tin về điểm LID tích lũy của các Client này. Do đó với các Client mới, một kỹ thuật gán điểm LID sẽ được sử dụng cùng với ngưỡng giá trị mất mát để giúp đồng bộ hóa với thuật toán của các Client đã có. Kỹ thuật gán điểm LID này sẽ giúp các Client mới có được một điểm LID tích lũy từ các vòng giao tiếp trước để bố sung thông tin về điểm LID tích lũy cho các vòng giao tiếp sau này. Như vậy điểm LID tích lũy được gán này được coi là điểm LID tích lũy của Client mới đó từ tất cả các vòng giao tiếp trước đó. Đối với những Client nhiễu mới, điểm LID tích lũy đủ lớn sẽ được gán cho các Client này và ngược lại đối với những sạch mới. Cụ thể hơn, theo quan sát của em về phân bố điểm LID tích lũy, điểm LID tích lũy trung bình là đủ để được xác định là một Client có phải là Client nhiễu hay không. Bên cạnh đó, những Client sạch mới với điểm LID tối thiểu được gán sẽ dễ dàng được xác định là các Client sạch mới. Vì những Client mới này tại vòng giao tiếp tham gia vào hệ thống vẫn chưa xác định được mức độ nhiễu ước lượng nên việc gán điểm LID lớn cho các Client nhiễu mới có thể ảnh hưởng đến các vòng giao tiếp tiếp theo. Theo đó, nếu sau đó các Client bị nhiễu mới được sửa lại nhãn và trở thành các Client tương đối sạch, thì việc gán điểm LID quá lớn sẽ khiến thuật toán dễ dàng nhầm lẫn trong việc xác định Client nhiễu. Điểm LID tích lũy trung bình được gán sẽ được tính bằng cách lấy trung bình điểm LID tích lũy và điểm LID tích lũy tối thiểu được gán là điểm LID tích lũy tối thiểu của Client có sẵn ở vòng giao tiếp trước đó. Kỹ thuật này giúp tạo sự nhất quán trong cách xác định các Client nhiễu mới và hiện tại trong khi vẫn sử dụng điểm LID tích lũy. Ngoài ra, nó còn giúp mang lại nhiều thông tin

hơn về điểm LID trong các vòng giao tiếp tiếp theo. Trong các vòng giao tiếp tiếp theo, hệ thống có thể tiếp tục tận dụng điểm LID được tích lũy từ điểm LID được gán và xác định các Client nhiễu mới hiệu quả hơn khi các Client mới hiện đã trở thành Client hiện tại. Do đó, các Client sạch mới và các Client nhiễu mới có thể được xác định thông qua điểm LID theo thuật toán ban đầu. Để đơn giản hóa, vòng giao tiếp t′ mà Client mới Ck tham gia, LID tích lũy của nó ở vòng trước t′ − 1 sẽ được ước tính như sau:

  = (2.15) LIDt′−1 Ck  min Pt′−1, nếu LCk < θloss average Pt′−1, nếu LCk ≥ θloss

, . . . LIDt′−1

với Pt′−1 = {LIDt′−1 N } là vectơ điểm LID tích lũy của tất cả Client có sẵn trước đó ở vòng t′ − 1 và LCk biểu thị giá trị hàm mất mát của Client mới Ck. Điểm LID tích lũy chỉ được sử dụng trong giai đoạn thứ nhất để xác định cùng lúc các Client nhiễu có sẵn trong hệ thống và các Client nhiễu mới với kỹ thuật gán điểm LID tích lũy. Tổng quát hóa về quá trình xác định các Client nhiễu trong giai đoạn thứ nhất bao gồm các Client nhiễu đã có sẽ được xác định thông qua điểm LID tích lũy và các Client nhiễu mới sẽ được xác định thông quan ngưỡng mất mát và kỹ thuật gán điểm LID.

2.3.1.4 Ước lượng mức độ nhiễu và sửa mẫu nhiễu

Mức độ nhiễu ước lượng ˆµ (t−1)

được sử dụng ở hàm mất mát trong giai đoạn thứ nhất được tính bằng cách lấy tỉ lệ giữa số lượng mẫu được xác định là mẫu nhiễu trên tổng số lượng mẫu dữ liệu cục bộ của Client Ck. Để xác định được mẫu nào là mẫu nhiễu trong tập dữ liệu cục bộ của một Client, FedCorr đã sử dụng thuật toán GMM với dữ liệu là giá trị hàm mất mát tích lũy của từng mẫu dữ liệu. Việc sử dụng giá trị hàm mất mát để xác định các mẫu nhiễu là một kỹ thuật phổ biến trong bài toán huấn luyện cùng nhãn nhiễu trong học tập trung. Phương pháp xác định này được xây dựng trên giả định rằng các mẫu dữ liệu nhiễu thường sẽ có xu hướng có giá trị hàm mất mát cao hơn các mẫu sạch. Các công trình trước đó [39, 40, 41, 24, 27, 38] đã chứng minh việc sử dụng giá trị hàm mất mát trong việc xác định các mẫu nhiễu hiệu quả. Do đó trong FedDC, em cũng sẽ sử dụng giá trị hàm mất mát để xác định các mẫu nhiễu. Cụ thể hơn, giá trị hàm mất mát tích lũy của từng mẫu trong các Client nhiễu sẽ được được sử dụng. Việc sử dụng giá trị tích lũy thay vì giá trị tại 1 thời điểm duy nhất giúp làm tăng biểu hiện giá trị hàm mất mát của các mẫu nhiễu – tương tự với mục đích của điểm LID tích lũy. Bằng cách sử dụng thuật toán GMM cùng với giá trị hàm mất mát tích lũy, em sẽ xác định các mẫu được cho là mẫu nhiễu tạo thành tập dữ liệu nhiễu cục bộ Dk n, từ đó tính được tổng số mẫu được cho là mẫu nhiễu. Từ đó tính được mức độ nhiễu ước lượng như đã trình bày ở phần trước.

Với quá trình sửa nhiễu nhãn, trước đây đã có nhiều công trình có cơ chế tương tự

như vậy theo nhiều tên gọi khác như: sử dụng nhãn giả dựa trên mô hình toàn cầu, sử dụng nhãn giả dựa trên bỏ phiểu,. . . Đặc điểm chung của cơ chế này là sẽ huấn luyện cùng một nhãn mới để thay thế nhãn của mẫu được xác định là mẫu nhiễu hoặc huấn luyện đồng thời với nhãn mới và nhãn cũ của mẫu được xác định là mẫu nhiễu. Bằng cách này có thể giảm sự ảnh hưởng có nhãn sai trong các mẫu nhiễu. Trong FedCorr, với các mẫu nhiễu, dựa trên mức độ nhiễu ước lượng mà sẽ sửa lại hoàn toàn các một tập các mẫu được xác định nhiễu dựa trên điều kiện về độ tự tin của mô hình toàn cầu. FedDC kế thừa cơ chế này của FedCorr và tuân thủ theo cách thực hiện mà không có sự thay đổi. Cụ thể, sau khi xác định các mẫu nhiễu như đã trình bày ở phần trên, một tập con của tập dữ liệu nhiễu cục bộ ˜Dk n sẽ được lấy ra theo một tỉ lệ π dựa trên thứ tự giá trị hàm mất mát của các mẫu với mô hình toàn cục. Sau đó, với mỗi mẫu trong tập dữ liệu con nhiễu cục bộ vừa xác định, mô hình toàn cầu sẽ dự đoán lại nhãn của mẫu đó và nếu độ tự tin cao nhất trong các vec-tơ dự đoán vượt qua ngưỡng độ tự tin θpred, mẫu đó sẽ được sửa lại theo nhãn dự đoán của mô hình toàn cục. Cơ chế trên có thể được mô tả lại như sau:

n = arg max ˜D⊆Dk n | ˜D|=π·|Dk n|

′

˜Dk (2.16) LCE( ˜D; f (t)G)

n | max( f (t)

G (x)) ≥ θpred}

= {(x, y) ∈ ˜Dk (2.17) ˜Dk n

G là mô hình toàn cầu tại cuối vòng giao tiếp thứ t.

Với f (t)

2.3.2 Giai đoạn thứ hai (Tinh Chỉnh)

Sau khi giai đoạn hoàn thành tất cả T1 vòng giao tiếp thì sẽ tiếp tục đến với giai đoạn tiếp theo là giai đoạn tinh chỉnh. Trong giai đoạn này, mục tiêu của quá trình huấn luyện là tăng tốc độ hội tụ, cải thiện độ chính xác của mô hình toàn cục trong hệ thống vs tập trung sửa lại nhãn nhiễu cho các Client nhiễu. Để cải thiện độ chính xác của mô hình toàn cục, phương pháp nền tảng FedCorr chọn ra các Client có mức độ nhiễu ước lượng lại cuối giai đoạn thứ nhất nhỏ hơn một giá trị ngưỡng và coi các Client này là các Client tương đối sạch. Theo đó, tại giai đoạn thứ hai này, sẽ có tập con các Client được chọn theo tỉ lệ chọn γ2 để huấn luyện thay vì toàn bộ, tuy nhiên khác với giai đoạn một, số lượng Client được chọn sẽ được tăng lên do tập các Client được chọn lúc này đã tương đối sạch. Quá trình huấn luyện với các Client tương đối sạch này sẽ diễn ra trong T2 vòng giao tiếp. Tuy nhiên trong giai đoạn thứ hai này, các Client nhiễu sẽ không được xác định, do đó nếu có Client nhiễu mới tham gia vào quá trình huấn luyện, FedCorr gốc sẽ không thể xác định được họ. Ngược lại trong FedDC, nếu các Client mới tham gia vào quá trình huấn luyện này, các Client nhiễu và sạch mới vẫn sẽ được xác định thông qua việc sử dụng ngưỡng giá trị mất mát. Trong giai đoạn này, điểm LID tích lũy không còn

Hình 2.12 Giai đoạn thứ hai: Tinh chỉnh trong FedDC

được sử dụng nên kỹ thuật gán điểm LID cũng không được sử dụng. Vì vậy các Client nhiễu và sạch mới sẽ chỉ được xác định thông qua ngưỡng giá trị mất mát. Tuy nhiên để có thông tin về giá trị hàm mất mát của các Client mới, FedDC cho phép các Client này được huấn luyện 1 lần khi tham gia vào hệ thống sau đó mới phân loại chúng. Quá trình huấn luyện này vẫn tuân thủ theo như giai đoạn thứ nhất với điều kiện về mức độ nhiễu ước lượng khởi tạo cho các Client mới. Sau khi đã có giá trị hàm mất mát của các Client mới và thông qua ngưỡng giá trị mất mát, FedDC sẽ phân loại các Client sạch và nhiễu mới ra. Theo đó, các Client sạch được giữ lại để huấn luyện tiếp trong tập các Client tương đối sạch và các Client nhiễu sẽ được loại bỏ và sẽ được sửa lại nhãn nhiễu ở cuối giai đoạn thứ hai. Quá trình sửa nhiễu tại giai đoạn thứ hai sẽ có sự khác biệt so với giai đoạn thứ nhất. Cụ thể, sẽ không còn giới hạn mẫu được sửa nhiễu trong tập mẫu nhiễu cục bộ mà thay vào đó toàn bộ các mẫu được xác định là mẫu nhiễu sẽ được sửa lại và vẫn có điều kiện về độ tự tin của mô hình như giai đoạn thứ nhất. Hình 2.12 minh họa cụ thể hơn cho giai đoạn thứ hai này. Trong đó hai tập Client sạch và nhiễu sẽ được tách ra để thực hiện các công việc khác nhau như đã trình bày ở trên.

2.3.3 Giai đoạn thứ ba (Huấn luyện thông thường)

Giai đoạn cuối cùng là giai đoạn huấn luyện thông thường trong hệ thống học liên kết. Đúng với tên gọi của giai đoạn này, đây sẽ là giai đoạn giống với thuật toán FedAvg[5]. Trong đó sẽ có một tập nhỏ Client được chọn bao gồm tất cả các Client từ

trước đến nay, kể cả Client nhiễu và sạch để huấn luyện mô hình mỗi vòng giao tiếp theo tỉ lệ chọn γ2. Với các Client nhiễu, tập dữ liệu cục bộ của các Client này sẽ sử dụng nhãn đã được sửa lại ở cuối vòng giao tiếp cuối cùng của giai đoạn thứ hai để huấn luyện. Giai đoạn thứ ba này sẽ diễn ra trong vòng T3 vòng giao tiếp. Sau khi hoàn thành xong giai đoạn thứ ba thì toàn bộ quá trình huấn luyện của FedDC sẽ kết thúc.

2.4 Tóm tắt chương 2

Trong chương này, em đã trình bày phương pháp đề xuất có tên FedDC cho bài toán huấn luyện cùng nhãn nhiễu trong học liên kết với kịch bản có Client mới tham gia. Em đã trình bày cụ thể từ cơ sở lý thuyết về giá trị LID, thuật toán GMM cùng phương pháp đề xuất để xác định Client nhiễu mới thông qua giá trị hàm mất mát và kỹ thuật gán điểm LID. Ở chương tiếp theo, em sẽ trình bày cách thiết lập các thử nghiệm trong học liên kết bao gồm phân bố dữ liệu, cách sinh nhãn nhiễu nhân tạo và đánh giá phương pháp đề xuất trong trường hợp có Client mới tham gia vào với nhiều phương pháp khác để chứng minh hiệu suất của nó.

CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ

Trong chương này, em sẽ trình bày về cách thử nghiệm phương pháp đã đề xuất bao gồm ba kịch bản: mô phỏng phân bố dữ liệu trong học liên kết, mô phỏng nhãn nhiễu, mô phỏng client mới tham gia vào hệ thống cùng với đó là các tham số cụ thể sử dụng trong các thử nghiệm. Sau đó em đánh giá và đưa ra các thảo luận về phương pháp đề xuất so sánh với các phương pháp nền tảng khác trong bối cảnh có sự xuất hiện của Client mới để chứng minh độ hiệu quả của phương pháp.

3.1 Thiết lập thử nghiệm

3.1.1 Ngôn ngữ lập trình và thư viện hỗ trợ

Trong phần thử nghiệm này, em sẽ tiến hành xây dựng phương pháp thử nghiệm. Đề tài của em có liên quan mật thiết đến với trí tuệ nhân tạo, cụ thể hơn là các thuật toán học máy và các mô hình học sâu, do đó ngôn ngữ lập trình được em sử dụng chính là Python. Python là một ngôn ngữ lập trình bậc cao được phát triển bởi Guido van Rossum vào đầu những năm 1990. Đặc điểm nổi bật của Python bao gồm cú pháp đơn giản, rõ ràng và dễ hiểu, giúp lập trình viên tập trung vào việc giải quyết vấn đề thay vì phải xử lý cú pháp phức tạp. Điều này làm cho Python trở thành một ngôn ngữ lý tưởng cho viết script, phát triển ứng dụng trên hầu hết các nền tảng cũng như nhiều lĩnh vực khác nhau từ ứng dụng web, kiểm thử, game, IoT và đặc biệt là phát triển trí tuệ nhân tạo cùng dữ liệu lớn. So với các ngôn ngữ lập trình khác như C/C++ hay Java, Python có những đặc điểm nổi bật như sau:

• Đơn giản: Cú pháp của Python rất đơn giản và dễ đọc, dễ viết hơn nhiều so với C/C++, Java, hay C#. Python giúp việc lập trình trở nên dễ dàng, cho phép lập trình viên tập trung vào giải pháp hơn là cú pháp.

• Đa nền tảng: Các chương trình Python có thể di chuyển từ nền tảng này sang nền tảng khác và chạy mà không cần thay đổi mã nguồn. Python có sẵn trên nhiều hệ điều hành như Windows, macOS và Linux.

• Khả năng mở rộng và nhúng: Python cho phép dễ dàng kết hợp mã từ các ngôn ngữ khác như C, C++ vào mã Python, cung cấp các tính năng tốt hơn và khả năng scripting mà các ngôn ngữ khác khó làm được.

• Sở hữu nhiều thư viện tiêu chuẩn: Python có một lượng lớn thư viện tiêu chuẩn và một cộng đồng phát triển thư viện phong phú, giúp tiết kiệm thời gian và công sức lập trình. Các thư viện này cho phép thực hiện các tác vụ phức tạp mà không cần xây dựng từ đầu.

• Thông dịch mạnh mẽ: Không như C/C++, Python không cần biên dịch mã nguồn thành mã máy trước khi thực thi. Trình thông dịch Python đọc và thực thi từng dòng lệnh một, mang lại sự linh hoạt trong phát triển và thử nghiệm mã nguồn, dễ dàng kiểm tra sửa lỗi và gia tăng hiệu suất phát triển.

• Lập trình hướng đối tượng: Python hỗ trợ lập trình hướng đối tượng, giúp giải quyết vấn đề phức tạp một cách trực quan và cho phép mở rộng chức năng chương trình một cách linh hoạt. OOP (Object-Oriented Programming) trong Python giúp phân chia các phần phức tạp của chương trình thành các đối tượng riêng biệt, giảm độ phức tạp và làm cho mã nguồn dễ đọc, dễ hiểu hơn.

• Mã nguồn mở miễn phí: Python là ngôn ngữ lập trình mã nguồn mở, nghĩa là mã nguồn của nó được công khai và có thể sửa đổi, phân phối và sử dụng miễn phí, ngay cả cho mục đích thương mại. Điều này làm cho Python trở thành một ngôn ngữ rất hữu ích cho hoạt động học tập và nghiên cứu.

Hình 3.1 Tỉ lệ công trình nghiên cứu sử dụng framework PyTorch các năm gần đây [2]

Trong ngôn ngữ lập trình Python, đặc biệt là liên quan đến việc phát triển trí tuệ nhân tạo có rất nhiều thư viện hỗ trợ về học máy và học sâu ví dụ như Scikit-learn, Tensorflow, PyTorch,. . . Việc sử dụng các thư viện hỗ trợ này giúp giảm thời gian thực hiện xây dựng các mô hình và tối ưu hóa quá trình huấn luyện hơn. Do đó trong phần thử nghiệm của phương pháp FedDC, ba thư viện chính được em sử dụng là PyTorch, NumPy và Scikit-learn.

PyTorch là một thư viện mã nguồn mở cho học sâu và tính toán khoa học, được

phát triển bởi Facebook’s AI Research lab (FAIR). PyTorch cung cấp một framework linh hoạt và dễ sử dụng cho việc xây dựng, huấn luyện và triển khai các mô hình học sâu. Hình 3.1 thể hiện phần trăm các công trình nghiên cứu khóa học sử dụng PyTorch trong những năm gần đây, có thể thấy PyTorch được giới nghiên cứu sử dụng phổ biến nhờ sự dễ sử dụng và phù hợp cho việc thử nghiệm các nghiên cứu. Ngoài ra PyTorch cũng tích hợp sâu với các thư viện khoa học khác như NumPy, cho phép chuyển đổi dễ dàng giữa các tensor của PyTorch và các mảng của NumPy. Với sự hỗ trợ từ các công cụ như CUDA của NVIDIA, PyTorch cho phép sử dụng GPU để tăng tốc quá trình huấn luyện, làm cho nó trở thành lựa chọn hàng đầu cho nhiều nhà nghiên cứu và chuyên gia trong lĩnh vực học sâu. Từ những ưu điểm trên, PyTorch được em sử dụng để xây dựng mô hình, thực hiện quá trình huấn luyện cục bộ trên Client.

Thư viện thứ hai là NumPy – một thư viện mã nguồn mở mạnh mẽ cho tính toán số trong Python. Được phát triển bởi Travis Oliphant vào năm 2005, NumPy cung cấp một đối tượng mảng n-dimensional (ndarray) hiệu quả và dễ sử dụng, cùng với nhiều hàm toán học cấp cao để thao tác và phân tích dữ liệu. Một trong những đặc điểm nổi bật của NumPy là khả năng xử lý các phép toán vector và ma trận với hiệu suất cao, nhờ vào việc sử dụng các phép toán vector hóa thay vì các vòng lặp thông thường. Do những đặc điểm trên, NumPy được em sử dụng trong các tác vụ tính toán như tính điểm LID.

Cuối cùng là thư viện Scikit-learn. Đây là một thư viện mã nguồn mở cho học máy trong Python, được xây dựng trên nền tảng của NumPy, SciPy và Matplotlib. Được phát triển bởi David Cournapeau vào năm 2007, Scikit-learn cung cấp một bộ công cụ phong phú cho các thuật toán học máy, bao gồm phân loại, hồi quy, phân cụm và giảm chiều. Một trong những ưu điểm lớn nhất của Scikit-learn là giao diện đơn giản và nhất quán, giúp dễ dàng áp dụng các thuật toán học máy mà không cần phải viết lại nhiều mã phức tạp. Scikit-learn được em sử dụng để thực hiện nhanh chóng thuật toán học máy như GMM giúp tối ưu quá trình huấn luyện.

3.1.2 Môi trường lập trình

Việc thực hiện lập trình về học máy, học sâu đòi hỏi nhiều yếu tố tương thích, từ phần cứng cho đến phần mềm. Do đó, để tránh xung đổi giữa các thư viện, giữa phần cứng, việc quản lý cài đặt môi trường lập trình là rất quan trọng. Em sử dụng ứng dụng Anaconda để tạo các môi trường ảo trong Python giúp việc lập trình tránh được những xung đột trên. Phiên bản Python được em sử dụng là 3.10.14 cùng các thư viện như sau: PyTorch phiên bản 2.3.1; NumPy phiên bản 1.26.4; Sciki-learn phiên bản 1.0.2. Về môi trường phần cứng, các thử nghiệm hầu hết được thực hiện trên CPU Intel i7-7700K @ 4.5Ghz, RAM 16GB và GPU Nvidia TITAN RTX 24GB. Hệ điều hành được sử dụng là Ubuntu 22.04. Thư viện song song trên GPU được sử dụng là CUDA phiên bản 12.4 cùng thư viện hỗ trợ học sâu cuDNN phiên bản 11.5.

3.1.3 Cơ sở dữ liệu

Trong quá trình thử nghiệm phương pháp, em sẽ sử dụng cơ sở dữ liệu phổ biến bao gồm CIFAR-10, CIFAR-100 [42] và Clothing1M [43]. Cụ thể CIFAR-10 và CIFAR-100 là hai cơ sở dữ liệu đều bao gồm 60.000 với hình ảnh có kích thước 32 × 32 pixel được phân loại thành 10 lớp khác nhau với CIFAR-10 và 100 lớp khác nhau với CIFAR-100. Hai cơ sở dữ liệu CIFAR-10 và CIFAR-100 ban đầu là cơ sở dữ liệu sạch không có hiện tượng nhãn nhiễu, do đó em sẽ sử dụng một thuật toán mô phỏng nhãn nhiễu để mô phỏng hiện tượng này và sẽ được trình bày ở phần sau. Không giống như CIFAR-10/100 chứa nhãn nhiễu được tạo ra một cách nhân tạo, Clothing1M là cơ sở dữ liệu nhãn nhiễu trong thế giới thực bao gồm một triệu hình ảnh quần áo gồm 14 lớp khác nhau được thu thập từ trên Internet, với các nhãn được trích xuất từ văn bản vốn có nhiễu từ bên ngoài. Trong đó, Clothing1M gồm một triệu ảnh với nhãn nhiễu trong tập huấn luyện với mức độ nhiễu nhãn khoảng 38.5% và khoảng 10000 ảnh với nhãn sạch trong tập kiểm thử. Các thử nghiệm được thực hiện với cài đặt phân bố dữ liệu I.I.D/Non-I.I.D cùng cơ sở dữ liệu CIFAR-10, CIFAR-100 và Non-I.I.D trên Clothing1M để chứng minh độ hiểu quả của phương pháp FedDC trước các Client mới tham gia. Hình 3.2 đưa ra các hình ảnh ví dụ trong ba cơ sở dữ liệu CIFAR-10, CIFAR-100 và Clothing1M.

Hình 3.2 Ba cơ sở dữ liệu: CIFAR-10, CIFAR-100 và Clothing1M

3.1.4 Mô phỏng phân bố dữ liệu và nhãn nhiễu nhân tạo

Như đã trình bày ở chương 1, dữ liệu trong học liên kết thường có hai phân bố là phân bố dữ liệu I.I.D và phân bố dữ liệu Non-I.I.D. Tuy nhiên trong môi trường thử nghiệm, sẽ cần phải mô phỏng lại 2 phân bố dữ liệu này với các Client trong hệ thống học liên kết. Theo đó giả sử có một cơ sở dữ liệu huấn luyện ban đầu D gồm |D| mẫu dữ liệu. Mỗi mẫu dữ liệu có thể đại diện cho một trường hợp hoặc quan sát trong một bài toán học máy cụ thể. Giả sử rằng dữ liệu này sẽ được phân chia cho N Client. Để tạo ra phân bố dữ liệu I.I.D, mỗi Client dùng sẽ nhận được một số lượng mẫu dữ liệu tương đối bằng nhau. Do đó, số lượng mẫu dữ liệu mà mỗi người dùng nhận được sẽ là |D| N . Để đảm bảo tính chất ngẫu nhiên và độc lập của dữ liệu I.I.D, em sẽ sử dụng phương pháp

lấy mẫu ngẫu nhiên không lặp lại từ tập dữ liệu gốc. Cụ thể, mỗi mẫu dữ liệu sẽ được chọn một cách ngẫu nhiên và mỗi mẫu chỉ được chọn một lần. Quá trình này sẽ được lặp lại cho từng Client, cho đến khi tất cả Client đều nhận đủ số lượng mẫu dữ liệu đã xác định. Sau khi quá trình lấy mẫu hoàn tất, mỗi Client sẽ có một tập dữ liệu cục bộ, bao gồm các mẫu dữ liệu được chọn ngẫu nhiên từ tập dữ liệu gốc. Điều này đảm bảo rằng mỗi Client có một tập dữ liệu cục bộ độc lập và có phân phối giống với tập dữ liệu gốc cũng như các tập dữ liệu cục bộ của các Client khác, do đó thỏa mãn tính chất I.I.D. Mỗi mẫu dữ liệu sẽ được chọn ngẫu nhiên từ tập dữ liệu gốc, đảm bảo rằng các mẫu này không bị ảnh hưởng bởi bất kỳ yếu tố nào khác ngoài.

Ngược lại, để tạo ra phân bố dữ liệu Non-I.I.D thì cần một cơ chế phức tạp hơn. FedCorr trước đó đã đề xuất một phương pháp để sinh ra dữ liệu Non-I.I.D mà có thể kiểm soát được xác suất một lớp có trong một tập dữ liệu cục bộ và kích thước của tập dữ liệu cục bộ của các Client. Theo đó để tạo ra một phân bố dữ liệu non-IID từ tập dữ liệu D, một ma trận chỉ số nhị phân Φ với kích thước N × M (N Client, M lớp) được tạo ra bằng cách lấy mẫu theo phân phối nhị thức với xác suất p. Trong đó Φi j đại diện cho việc Client Ci có chứa lớp j hay không. Từ Φ, ta thu được danh sách υ, trong đó υ j là danh sách chứa các Client có lớp j trong dữ liệu cục bộ. Sau đó, với q j là một danh sách có độ dài bằng với số Client chứa lớp j, hay nói cách khác bằng độ dài của υ j. q j sau đó sẽ được lấy mẫu từ phân phối Dirichlet bằng cách kết hợp giữa tham số αDir > 0 và độ dài danh sách v j trước đó. Như vậy, danh sách v chứa các danh sách con v j giúp kiếm soát sự không đồng nhất về phân phối các lớp trong tập dữ liệu giữa các Client khác nhau thông qua tham số xác suất p. Còn q j được lấy mẫu từ phân phối Dirichlet để kiếm soát sự không đồng nhất về số lượng dữ liệu giữa các Client khác nhau thông qua tham số αDir. q j được lấy mẫu qua độ dài danh sách v j là để v j kiếm soát số lượng dữ liệu của các lớp phân bố khác nhau trong các Client khác nhau. Với 2 tham số p và αDir, phân phối dữ liệu cục bộ và kích thước của các tập dữ liệu cục bộ trong của các Client trong hệ thống học liên kết sẽ được kiểm soát chặt chẽ. Hình 3.3 minh họa cho dữ liệu Non-I.I.D được tạo ra bởi thuật toán nêu trên. Trong cả ba hình, số lượng dữ liệu của các Client có sự khác nhau rõ rệt, bên cạnh đó phân phối dữ liệu của các Client cũng khác nhau khi có các mẫu dữ liệu có trong Client này lại không có trong Client khác giống như trong thực tế.

Cụ thể hơn, có thể thấy với giá p = 0.7 lớn ở hai hình đầu tiên thì các Client phần lớn có phân bố về lớp có sự khác nhau nhưng chưa chênh lệch mạnh. Còn với giá trị p nhỏ như p = 0.3 ở hai hình thứ ba thì phân phối giữa các lớp giữa các CLient có sự chênh lệch rất mạnh thể hiện qua màu sắc lẫn lộn hơn. Về tham số αDir = 10 ở hai hình thứ nhất và thứ ba cho thấy sự ảnh hưởng về số lượng dữ liệu của các lớp giữa các Client khác nhau không có sự chênh lệch quả mạnh. Còn tại hình thứ hai với αDir = 1 thì số lượng dữ liệu của từng lớp trong các Client có sự chênh lệch mạnh. Từ các ví dụ này

Hình 3.3 Mô phỏng phân bố dữ liệu Non-I.I.D trên cơ sở dữ liệu CIFAR-10 với 100 Client

có thể thấy hai tham số p và αDir giúp kiểm soát tốt phân bố dữ liệu và tạo ra dữ liệu Non-I.I.D giống với trong thực tế.

Để mô phỏng nhiễu nhãn thường gặp trong các tập dữ liệu thực tế, phương pháp nền tảng FedCorr đã giới thiệu một mô hình tạo nhiễu với hai tham số ρ và τ. ρ biểu thị mức độ nhiễu của hệ thống trong khi τ đại diện cho ngưỡng dưới cho mức độ nhiễu của một Client có nhiễu. Theo đó, mức độ nhiễu cục bộ cho mỗi Client được lấy ngẫu nhiên từ phân phối đồng đều U(ρ, 1). Mức độ nhiễu tương ứng với Client Ck được định nghĩa như sau:

  u ∼ U(τ, 1) , với xác suất ρ µCk = , với xác suất 1 − ρ 0 

Trong hệ thống học liên kết của FedDC, ngoài tập S bao gồm N Client ban đầu và tập dữ liệu của các Client này D, còn có một tập Q Client mới Snew = {Cnewk}N+Q k=N+1 và tập dữ liệu của các Client mới Dnew = {Dnewk}N+Q k=N+1. Hai tập Client này sẽ tách biệt nhau. Tại vòng giao tiếp t′ khi các Client mới tham gia, tập các Client hiện có Sexisting sẽ được thay đổi tương ứng. Cụ thể, các Client mới và tập dữ liệu củả các Client mới này sẽ được thêm vào cuối của tập Client hiện tại. Như đã trình bày ở chương 2, T1, T2, T3 là số vòng ở các giai đoạn tiền xử lý, tinh chỉnh và huấn luyện thông thường của FedDC. FedCorr cũng dã đề cập đến kịch bản khi các Client mới tham gia sau này sẽ có điểm LID tích lũy thấp hơn, làm cho việc xác định các Client nhiễu trở nên khó khăn. Vì vậy, trong thử nghiệm của FedDC, các Client mới sẽ được tham gia vào ngay trước vòng giao tiếp cuối cùng tương ứng với vòng giao tiếp T1 − 1, T2 − 1 cho hai giai đoạn tiền xử lý và tinh chỉnh để mô phỏng kịch bản xấu nhất và để chứng minh cách phương pháp đề xuất có thể xử lý kịch bản này. Em kế thừa mô hình nhãn nhiễu trong mô phỏng của FedCorr để tạo ra các Client nhiễu mới trong các thí nghiệm của mình. Tuy nhiên, tham số ρ sẽ được thay thế bằng σ để có thể kiểm soát tỷ lệ Client nhiễu mới. Cụ thể, mức độ nhiễu

tương ứng với Client mới Ck sẽ được xác định như sau:

  u ∼ U(τ, 1) , với xác suất σ µCk∈Snew = , với xác suất 1 − σ 0 

Việc tạo ra một mô hình tạo nhiễu riêng biệt cho các Client mới như trên giúp em có thể kiếm soát được tỉ lệ các Client mới có Client nhiễu và mức độ nhiễu của từng Client mới trong thí nghiệm. Từ đó, các thí nghiệm thể hiện được nhiều kịch bản với Client nhiễu mới tham gia hơn giúp việc đánh giá khả năng của phương pháp đề xuất tổng quát hơn.

3.1.5 Các siêu tham số

Bảng 3.1 Danh sách siêu tham số và mô hình sử dụng trong các thử nghiệm.

CIFAR-10 CIFAR-100

Cơ sở dữ liệu Số Client sẵn có Số Client mới Tỉ lệ chọn γ1 Tỉ lệ chọn γ2 Tỉ lệ Client mới tham gia Vòng Client mới tham gia Kiến trúc mô hình

90 10 0.01 0.1 0.5 3, 498 ResNet-18

45 5 0.02 0.1 0.5 8, 448 ResNet-34

Clothing1M 450 50 0.002 0.02 0.5 2, 48 pre-trained ResNet-50

Để đánh giá khả năng của phương pháp đề xuất một cách toàn diện, với mỗi cơ sở dữ liệu khác nhau, em sẽ sử dụng các mô hình khác nhau, số lượng Client khác nhau cùng các siêu tham số khác nhau; cụ thể được trình bày ở bảng 3.1. Em tuân theo cái kỹ thuật tăng cường dữ liệu từ FedCorr[3] và phương pháp đã có gồm có: chuẩn hóa dữ liệu ảnh, lật ảnh ngẫu nhiên với phần đệm padding = 4. Thuật toán cập nhật mô hình được em sử dụng là tối ưu hóa SGD cục bộ trên Client với momentum = 0.5, batch size = 10 với hai cơ sở dữ liệu CIFAR-10/100 và batch size = 16 với cơ sở dữ liệu Clothing1M. Số lượng epoch cục bộ cho mỗi Client trong tất cả các thử nghiệm là 6. Đối với tỉ lệ chọn γ1, em sử dụng γ1 = 1 N trong giai đoạn tiền xử lý là γ2 cho hai giai đoạn còn lại tương ứng với thông số của bảng 3.1 cùng các siêu tham số khác.

3.2 Kết quả thử nghiệm

3.2.1 Kết quả so sánh với phương pháp nền tảng FedCorr và các phương pháp khác

Trong phần này, em sẽ trình bày các kết quả so sánh giữa phương pháp dề xuất FedDC và phương pháp nền tảng FedCorr cùng các phương pháp khác. Cụ thể, em chứng minh phương pháp của mình để có sự cải thiện hiệu suất khi gặp các Client nhiễu mới trên hai khía cạnh. Thứ nhất là khả năng xác định các Client nhiễu mới ngay khi

(a) (b)

Hình 3.4 Kết quả phân loại các client nhiễu mới bằng cách sử dụng ngưỡng giá trị mất mát. So sánh độ chính xác (%) giữa FedDC và FedCorr trong quá trình huấn luyện. Các thí nghiệm được đánh giá với (ρ, τ, σ ) = (0.6, 0.5, 0.6). Đường nét đứt màu đỏ trong hình (b) chia quá trình huấn luyện thành ba giai đoạn.

Hình 3.5 Đánh giá sự hội tụ của mô hình cục bộ trên các client nhiễu mới giữa FedDC và FedCorr trên CIFAR-10 với phân bố dữ liệu IID bằng kỹ thuật trực quan hóa t-SNE.

vừa tham gia vào hệ thống. Thứ hai là so sánh hiệu suất giữa phương pháp FedDC được đề xuất trong đồ án và phương pháp nền tảng FedCorr. Thông qua hình 3.4a, mô tả cách ngưỡng giá trị mất mát được sử dụng phân loại các Client mới sạch và Client mới nhiễu thành hai nửa riêng biệt. Hình này đại diện cho kịch bản trong đó 60% các client mới là

nhiễu, với các giá trị hàm mất mát của các Client sạch được biểu thị bằng các chấm “o” đen và các Client nhiễu được biểu thị bằng các chấm “x” đỏ. Có thể dễ dàng quan sát cách ngưỡng màu cam biểu thị giá trị ngưỡng giá trị mất mát tách chúng thành hai nhóm riêng biệt. Các Client nhiễu mới có giá trị hàm mất mát hoàn toàn cao hơn ngưỡng giá trị mất mát của em và ngược lại với các Client sạch mới. Nói cách khác, phương pháp đề xuất có thể xác định chính xác các Client sạch và Client nhiễu mới. Hình 3.4b cho thấy phương pháp của em giảm tác động của các Client nhiễu mới lên hệ thống tốt hơn trong cùng kịch bản so với FedCorr. Các Client nhiễu mới, mặc dù số lượng ít hơn so với các client ban đầu, gây ra sự giảm độ chính xác, dẫn đến sự suy giảm hiệu suất của mô hình trong các vòng giao tiếp tiếp theo. So với FedCorr, FedDC được đề xuất ngăn chặn mô hình của hệ thống bị ảnh hưởng xấu bởi các Client nhiễu mới và tăng khả năng hội tụ tốt hơn. Cụ thể hơn, Hình 3.5 cho thấy sự hội tụ của một Client nhiễu mới sau giai đoạn đầu tiên sử dụng kỹ thuật t-SNE [44] với các vec-tơ dự đoán. Với FedCorr ban đầu, các điểm dữ liệu có xu hướng bị phân tán vì mô hình chưa hội tụ. Đối với FedDC, các điểm dữ liệu đã dần hình thành thành các nhóm cụ thể và riêng biệt hơn. Điều này cho thấy FedDC giúp mô hình của Client mới hội tụ tốt hơn.

Bảng 3.2 Độ chính xác cao nhất (%) của FedDC so với các phương pháp khác trên CIFAR-10 và CIFAR-100 sau khi hoàn thành ba giai đoạn huấn luyện với cố định (ρ, τ, σ ) = (0.6, 0.5, 0.6) trong các phân bố dữ liệu IID và non-IID. Độ chính xác cao nhất được in đậm.

CIFAR-10

CIFAR-100

Phương pháp

IID

non-IID

IID

non-IID

JointOpt(FL) [25]

74.09

66.92

44.54

59.84

DivideMix(FL) [24]

72.83

61.68

40.72

39.76

RoFL [18]

83.40

72.75

46.24

59.31

ARFL [28]

64.31

55.86

33.03

48.03

FedCorr [3]

84.94

84.46

68.57

66.84

92.35

89.24

71.87

68.46

Ours

Hiệu suất giữa FedDC và FedCorr được đánh giá, so sánh với các tỷ lệ Client nhiễu mới khác nhau σ từ 0.4 đến 0.8 và mức độ nhiễu khác nhau của mỗi Client mới dựa trên ngưỡng dưới τ như được hiển thị trong Hình 3.6. FedDC và FedCorr được so sánh dựa trên hai chỉ số: độ chính xác tốt nhất và độ chính xác trung bình của tất cả các Client ở cuối giai đoạn đầu tiên. Có thể quan sát thấy rằng với các tỷ lệ khác nhau của các Client nhiễu mới, FedDC của em vẫn duy trì sự ổn định trong cả độ chính xác tốt nhất và độ chính xác trung bình trên tất cả các client. Kết quả cũng cho thấy độ bền vững của FedDC trong các kịch bản có sự tham gia của Client mới, vượt trội hơn FedCorr trong 3

Hình 3.6 Độ chính xác (%) của FedDC và FedCorr trên các bộ dữ liệu CIFAR-10 và CIFAR-100 với phân vùng dữ liệu IID/non-IID trong giai đoạn tiền xử lý với σ khác nhau và cố định (ρ, τ) = (0.6, 0.5). Các thiết lập non-IID được thiết lập với (p, αDir) = (0.7, 10). Màu đậm: Độ chính xác cao nhất. Màu nhạt: Độ chính xác trung bình của tất cả các client.

trên 4 thí nghiệm. Trong trường hợp thí nghiệm với bộ dữ liệu CIFAR-100 và phân phối dữ liệu non-I.I.D, phương pháp của em kém hơn một chút so với FedCorr ở tỷ lệ Client nhiễu mới là 0.4 và 0.6. Do tính chất khó khăn của thử nghiệm này với bộ dữ liệu chứa số lượng lớn các lớp và phân chia dữ liệu non-I.I.D, các mô hình ở giai đoạn đầu tiên của cả FedCorr và FedDC của em đều không đủ hội tụ để đánh giá chính xác. Bên cạnh đó, các phương pháp trước đây bao gồm cả FedCorr thường chọn một kịch bản nhãn nhiễu cố định để dễ dàng thực hiện các thử nghiệm để việc so sánh và đánh giá được khách quan hơn. Vì vậy em sẽ so sánh hiệu suất của FedDC sau khi hoàn thành cả ba giai đoạn với FedCorr và các phương pháp tăng cường khác được thiết kế cho bài toán huấn luyện cùng nhãn nhiễu với tỷ lệ Client nhiễu mới (σ ) cố định ở mức 0.6 để đánh giá tổng thể trong Bảng 3.2. Ngoài ra, em cũng trình bày những kết quả của các phương pháp tăng cường huấn luyện cùng nhiễu nhãn trong học liên kết như RoFL[18] và ARFL[28], các phương pháp xử lý nhiễu nhãn trong học tập trung áp dụng cho các hệ thống học liên kết như đã trình bày tại chương 1 như JointOpt[25] và DivideMix[24] đã bị FedCorr vượt qua. Các kết quả cho thấy FedDC vượt trội hơn phương pháp nền tảng với độ chính xác

tăng từ 2% đén 7%. Ngoài dữ liệu nhãn nhiễu nhân tạo, FedDC của em cũng được thử nghiệm với tập nhãn nhiễu thực tế là Clothing1M với phân bố dữ liệu Non-I.I.D. Kết quả tại bảng 3.3 cho thấy FedDC giúp tăng ít nhất 0.7% độ chính xác. Các thử nghiệm này đều chứng minh được rằng FedDC được đề xuất có kết quả vượt trội so với nhiều phương pháp khác trong kịch bản có xuất hiện Client mới tham gia vào hệ thống.

3.2.2 Đánh giá khả năng tổng quát của phương pháp đề xuất

Ngoài FedCorr, các phương pháp tăng cường khác có cách tiếp cận bằng việc xác định các Client nhiễu cũng có thể dễ dàng áp dụng phương pháp đã đề xuất từ FedDC. Cụ thể, đề chứng mình điều này, em cũng đã trình bày sự cải thiện trong việc xử lý các client nhiễu mới khi kết hợp FedDC với FedNoRo[45]. Trong FedNoRo, quá trình huấn luyện gồm 2 giai đoạn, vì vậy em đã thử nghiệm với các Client mới tham gia trước khi kết thúc mỗi giai đoạn. Vì FedNoRo không sử dụng điểm số LID để xác định các Client nhiễu, nên đơn gian em chỉ sử dụng ngưỡng giá trị mất mát của mình mà không cần phải dùng đến kỹ thuật gán điểm số LID. Sau khi xác định các Client nhiễu mới, các Client này đơn giản được cho thêm vào tập Client nhiễu và ngược lại với các Client sạch mới. Kết quả thu được cho CIFAR-10 cho sự kết hợp của FedDC và FedNoRo được hiển thị trong Bảng 3.4. Qua đó, có thể thấy khi kết hợp FedDC với FedNoRo, độ chính xác tăng từ 0.3% đến 1.1%. Kết quả tổng quan cho thấy rằng FedDC của em giúp cả FedCorr và FedNoRo đạt được kết quả tốt hơn trong kịch bản có sự tham gia của Client mới. Điều này chứng minh rằng FedDC cũng có thể được kết hợp với nhiều phương pháp độ bền khác nhau để giải quyết các thách thức về nhiễu nhãn trong kịch bản có sự tham gia của Client mới.

Bảng 3.3 Độ chính xác tốt nhất (%) trên cơ sở dữ liệu Clothing1M với phân bố dữ liệu Non-I.I.D. Độ chính xác cao nhất được in đậm.

Phương pháp

Độ chính xác (%) trên Clothing1M

JointOpt [25]

71.78

DivideMix [24]

68.83

RoFL [18]

70.39

ARFL [28]

70.91

FedCorr [3]

71.80

72.49

Our

3.2.3 Đánh giá khả năng sửa lại nhãn nhiễu

Ngoài những kết quả về độ chính xác của mô hình trong hệ thống giữa FedDC và các phương pháp khác, em cũng trình bày về độ chính xác của cơ chế sửa nhãn. Hình 3.7a biểu diễn ma trận nhầm lẫn giữa nhãn thật và nhãn bị sai được khởi tạo bởi dữ liệu

Bảng 3.4 Độ chính xác tốt nhất (%) của FedDC khi kết hợp với FedNoRo sử dụng cơ sở dữ liệu CIFAR-10 . Độ chính xác cao nhất được in đậm.

CIFAR-10

Phương pháp

IID

non-IID

FedNoRo[18]

72.42

67.18

67.47

FedNoRo[18] + FedDC 73.54

nhãn nhiễu nhân tạo của cơ sở dữ liệu CIFAR-10 của 4 Client khác nhau trong hệ thống với các mức độ nhiễu khác nhau. Quá trình sửa nhãn sai được thực hiện tại từng vòng giao tiếp của giai đoạn thứ nhất và ở cuối giai đoạn thứ hai. Hình 3.7b biễu diễn ma trận nhầm lẫn giữa nhãn thật và nhãn bị sai sau quá trình sửa lại nhãn cuối cùng. Sau khi được xác định là Client nhiễu và được sửa lại nhãn, có thể thấy các nhãn sai trên tập dữ liệu cục bộ được chuyển dần thành nhãn đúng và có xu hướng chuyền thành ma trận đơn vị đại diện cho việc trở thành Client sạch. Trong cả 4 Client được chọn với 3 Client khởi tạo là Client nhiễu thì sau khi sửa lại nhãn mức độ nhiễu nhãn thực tế đã tiệp cận với 0. Dựa trên kết quả này có thể đánh giá cơ chế sửa lại nhãn đã thực hiện tốt việc sửa lại nhãn theo hướng đúng.

(a)

(b)

Hình 3.7 Đánh giá quy trình sửa nhãn trên bốn Client ngẫu nhiên khác nhau, được thực hiện trên CIFAR-10 với phân bố dữ liệu IID và cài đặt nhiễu (ρ, τ) = (0, 6, 0, 5). Đối với mỗi Client, em biểu diễn hai ma trận nhầm lẫn, được tạo với các nhãn thật có trước khi đào tạo, các nhãn đã sửa sau khi hoàn thành quá trình sửa nhãn cuối cùng.

3.3 Thảo luận về các khía cạnh khác

Kết quả thử nghiệm ở phần trước đã chứng minh độ bền vững của phương pháp đề xuất. Trong phần này, em muốn thảo luận về một số khía cạnh của phương pháp đề xuất.

Chi phí tính toán và truyền thông: Về chi phí tính toán, trong trường hợp kết hợp FedCorr, chi phí tính toán chính tập trung vào chi phí huấn luyện, ước lượng điểm LID và chi phí cho thuật toán GMM. So với FedDC của em, chi phí tính toán là tương đương vì em không thêm vào bất kỳ tác vụ tốn kém nào bằng cách tận dụng thông tin hiện có từ giá trị hàm mất mát trong quá trình huấn luyện và các điểm LID tích lũy trước đó. Về chi phí truyền thông, FedDC sẽ gửi thêm các giá trị hàm mất mát của các Client hiện có và các Client mới tham gia cùng với điểm LID và trọng số mô hình đến máy chủ. Vì các giá trị bổ sung gửi đi là các đại lượng vô hướng, sự khác biệt về chi phí truyền thông giữa FedDC và FedCorr và trong thực tế là không đáng kể. Trong trường hợp kết hợp phương pháp đề xuất với FedNoRo (xem Mục 3.2.2), em vẫn chỉ sử dụng thông tin về giá trị hàm mất mát của các Client hiện có. Tuy nhiên, tùy thuộc vào việc các phương pháp có sử dụng biện pháp độ tự tin tích lũy như điểm LID hay không, có thể cần một kỹ thuật tương tự để gán giá trị đo lường như em đã trình bày. Ví dụ, trong FedNoRo, kỹ thuật gán điểm LID không cần được sử dụng vì FedNoRo xác định các Client nhiễu và sạch mà không sử dụng cách tiếp cận bằng giá trị độ tự tin tích lũy cho mỗi Client. Vì vậy, về tổng thể tính toán, em hướng đến việc tối ưu hóa các chi phí bổ sung bằng cách sử dụng thông tin từ các giá trị hàm mất mát của các Client hiện có trong khi vẫn xử lý các Client mới với chi phí tương đương. Do đó, sự khác biệt về chi phí truyền thông sẽ là không đáng kể.

Việc chọn giá trị ngưỡng mất mát (θloss): Như đã trình bày ở chương 2, FedDC xác định các Client nhiễu mới và sạch mới thông qua ngưỡng mất mát (θloss) trong cả hai giai đoạn đầu tiên và thứ hai. Trên thực tế, do sự thiếu thông tin về các Client mới tham gia, việc chọn một giá trị (θloss) cố định để đạt hiệu suất tối ưu là một thách thức khó khăn. Theo quan sát của em trong quá trình huấn luyện, em thấy rằng các Client nhiễu có xu hướng có giá trị hàm mất mát cao hơn so với các Client sạch. Điều này là do ảnh hưởng của thành phần thứ hai trong hàm mất mát, nhằm giảm thiểu việc quá khớp của các Client nhiễu trên dữ liệu nhiễu của họ. Từ quan sát này, em nhận thấy rằng các giá trị hàm mất mát của các Client nhiễu mới và sạch mới được phân bố ở cả hai bên khi so sánh với các giá trị hàm mất mát trung bình của các Client hiện có, như đã chỉ ra trong Mục 3.2.1 và Hình 3.4a. Nếu chọn ngưỡng giá trị mất mát cao hơn, các Client nhiễu có thể bị phân loại sai là sạch và ngược lại khi giảm ngưỡng. Phân loại sai các Client nhiễu là sạch có thể ảnh hưởng tiêu cực đến hệ thống vì dữ liệu nhiễu của các Client nhiễu này sẽ ảnh hưởng xấu đến độ chính xác tổng thể và có thể ảnh hưởng đến độ chính xác của các Client khác khi chia sẻ thông tin tiềm ẩn từ dữ liệu nhiễu qua tổng

hợp trọng số chung. Ngược lại, nếu các Client sạch mới bị phân loại sai là nhiễu, dữ liệu sạch của các Client sạch này sẽ đóng góp ít hơn do ít bị ảnh hưởng bởi hàm mất mát, dẫn đến hội tụ chậm hơn bình thường. Do đó, em đã chọn tính toán giá trị ngưỡng giá trị mất mát dựa trên các Client hiện có, điều này làm cho thuật toán linh hoạt hơn trong các kịch bản khác nhau.

Kỹ thuật gán điểm LID: Trong giai đoạn đầu tiên, FedDC của em đã sử dụng kỹ thuật gán điểm LID và giá trị ngưỡng giá trị mất mát (θloss) để xác định Client nhiễu mới. Dựa trên quan sát, em thấy rằng các điểm LID của các Client nhiễu có xu hướng lớn hơn, trong khi các điểm LID của các Client sạch có xu hướng nhỏ hơn, tương tự như các quan sát trong FedCorr. Theo đó, em đã thử nghiệm với bốn cách gán khác nhau về giá trị LID để tìm ra phương pháp giảm thiểu hàm Logarithm sai số bình phương trung bình (MSLE) giữa các điểm được gán và các điểm LID thực tế của các Client mới (trong trường hợp tất cả các client mới tham gia từ đầu). Kết quả so sánh được liệt kê trong Bảng 3.5. Kết quả thử nghiệm cho thấy rằng kỹ thuật gán điểm đề xuất của em thể hiện độ tin cậy với giá trị MSLE nhỏ nhất.

Bảng 3.5 Kết quả MSLE giữa các điểm số LID được gán và các điểm số LID thực tế của các client mới. Bốn phương pháp gán được so sánh: gán một cách đơn giản các điểm số LID nhỏ nhất, trung bình hoặc lớn nhất cho tất cả các client mới và kỹ thuật gán được đề xuất. Giá trị MSLE nhỏ nhất được in đậm.

CIFAR-10

CIFAR-100

Phương pháp gán điểm LID

IID

non-IID IID non-IID

LID nhỏ nhất

0.041

0.08

0.37

0.52

LID trung bình

0.020

0.027

0.23

0.36

LID lớn nhất

0.021

0.060

0.21

0.34

0.009

0.015

0.14

0.2

Ours

3.4 Tóm tắt chương 3

Trong chương 3 này, em đã trình bày cách thiết lập thử nghiệm về phương pháp mô phỏng dữ liệu Non-I.I.D, nhãn nhiễu nhân tạo và các kết quả của nhiều thử nghiệm khác nhau. Các kết quả thử nghiệm cho thấy phương pháp đề xuất có kết quả cải thiện hơn phương pháp nền tảng cùng nhiều phương pháp khác trong bài toán huấn luyện cùng nhãn nhiễu trong học liên kết trong bối cảnh có xuất hiện Client mởi tham gia. Ngoài ra em còn thảo luận về các vấn đề xung quang phương pháp về chi phí huán luyện và truyền thông cùng các vấn đề về phương pháp đề xuất.

KẾT LUẬN

Kết luận chung

Trong quá trình thực hiện đồ án tốt nghiệp, em đã tìm hiểu và ứng dụng kiến thức về học máy, học sâu cùng một lĩnh vực mới là học liên kết trong lĩnh vực huấn luyện cùng nhãn nhiễu với kịch bản có sự xuất hiện của Client mới tham gia vào hệ thống. Dựa trên phương pháp nền tảng là FedCorr là phương pháp đề xuất cách xác định Client nhiễu và sạch thông qua điểm LID và thuật toán GMM, em đã đề xuất phương pháp FedDC sử dụng ngưỡng mất mát và kỹ thuật gán điểm LID để cải thiện khả năng xử lý cả những Client đã có và những Client mới sẽ tham gia vào hệ thống. Các kết quả thử nghiệm trên 3 cơ sở dữ liệu khác nhau với các phân bố dữ liệu và mức độ nhiễu khác nhau đã cho thấy phương pháp đề xuất đạt kết quả vượt trội hơn so với FedCorr nền tảng và các phương pháp khác từ ít nhất 2% đến 7%. Bên cạnh dó, phương pháp đề xuất còn cho thấy khả năng kêt hợp với nhiều phương pháp khác nhau như FedNoRo, giúp tăng độ chính xác từ 0.3% đến 1.1%.

Phương pháp đề xuất trong đồ án này được em viết thành một bài báo nghiên cứu khoa học có tên "FedDC: Label Noise Correction with Dynamic Client for Federated Learning, Thanh-Trung Giap, Tuan-Dung Kieu, Thi-Lan Le, Thanh-Hai Tran" và hiện đang nằm trong vòng đánh giá thứ hai của tạp chí IEEE Internet of Things.

Nhờ đồ án này em đã có thêm nhiều kiến thức và kinh nghiệm quý giá để nghiên cứu các phương pháp mới nhằm giải quyết bài toán huấn luyện cùng nhãn nhiễu trong học liên kết.

Hướng phát triển

Mặc dù đã đạt được một số kết quả, đồ án tốt nghiệp của em vẫn còn những hạn

chế sau:

• Phương pháp đề xuất có kết quả tốt trên loại nhãn nhiễu hỗn hợp nhân tạo, tuy nhiên theo quan sát của em thì với dữ liệu có chứa loại nhãn nhiễu lập đối xứng thì điểm LID không thể hiện rõ tính chất nhiễu của dữ liệu, qua đó hiệu suất của các phương pháp nền tảng FedCorr và FedDC của em bị suy giảm.

• Phương pháp đề xuất thể hiện khả năng kết hợp tốt với các phương pháp khác tuy nhiên hướng tiếp cận chính vẫn là sử dụng một độ đo tự tin để xác định Client nhiễu. Do đó điều này sẽ gây khó khăn nếu kết hợp FedDC với các phương pháp tăng cường theo hướng khác như FedLSR [19] và RoFL [18] khi mà các phương pháp này không theo hướng xác định Client nhiễu.

• Kết quả của cơ chế sửa nhãn cho thấy nhãn được sửa tương đối đúng, tuy nhiên các

Client nhiễu vẫn chưa thực sự được sửa đúng hoàn toàn.

Dựa vào những thiếu sót còn tồn tại nêu trên, em xin đưa ra một số đề xuất về hướng phát triển sau này:

• Thay đổi cách tiếp cận mới có thể theo hướng sử dụng đặc trưng cục bộ.

• Thay đổi cơ chế huấn luyện của hệ thống học liên kết tối ưu hơn như chọn Client

thông minh.

• Cải tiến hàm mất mát giúp tăng khả năng tăng cường của mô hình trước nhãn nhiễu

hơn.

• Cải tiến cơ chế sửa lại nhãn nhiễu để gia tăng dữ liệu sạch cho quá trình huấn luyện

TÀI LIỆU THAM KHẢO

[1] Samsung, “Personalize text predictions,” Personalize text predictions on Samsung

Galaxy device.

[2] M. González-Fierro, “An analysis of the adoption of top deep learning frame-

works,” An Analysis Of The Adoption Of Top Deep Learning Frameworks.

[3] J. Xu, Z. Chen, T. Q. Quek, and K. F. E. Chong, “Fedcorr: Multi-stage federated learning for label noise correction,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10 184–10 193.

[4] C. Zhang, Y. Xie, H. Bai, B. Yu, W. Li, and Y. Gao, “A survey on federated learn-

ing,” Knowledge-Based Systems, vol. 216, p. 106775, 2021.

[5] B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” in Artificial intelligence and statistics. PMLR, 2017, pp. 1273–1282.

[6] D. Anguita, A. Ghio, L. Oneto, X. Parra, J. L. Reyes-Ortiz et al., “A public domain dataset for human activity recognition using smartphones.” in Esann, vol. 3, 2013, p. 3.

[7] L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, “Loadaboost: Loss-based adaboost federated machine learning with reduced computational complexity on iid and non-iid intensive care data,” Plos one, vol. 15, no. 4, p. e0230706, 2020.

[8] A. Pantelopoulos and N. G. Bourbakis, “A survey on wearable sensor-based sys- tems for health monitoring and prognosis,” IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), vol. 40, no. 1, pp. 1–12, 2009.

[9] A. Hard, K. Rao, R. Mathews, S. Ramaswamy, F. Beaufays, S. Augenstein, H. Eich- ner, C. Kiddon, and D. Ramage, “Federated learning for mobile keyboard predic- tion,” arXiv preprint arXiv:1811.03604, 2018.

[10] S. Ramaswamy, R. Mathews, K. Rao, and F. Beaufays, “Federated learning for

emoji prediction in a mobile keyboard,” arXiv preprint arXiv:1906.04329, 2019.

[11] S. Samarakoon, M. Bennis, W. Saad, and M. Debbah, “Federated learning for ultra- reliable low-latency v2v communications,” in 2018 IEEE global communications conference (GLOBECOM). IEEE, 2018, pp. 1–7.

[12] T. Li, A. K. Sahu, A. Talwalkar, and V. Smith, “Federated learning: Challenges, methods, and future directions,” IEEE signal processing magazine, vol. 37, no. 3, pp. 50–60, 2020.

[13] S. J. Reddi, Z. Charles, M. Zaheer, Z. Garrett, K. Rush, J. Koneˇcnỳ, S. Kumar, and H. B. McMahan, “Adaptive federated optimization,” in International Conference on Learning Representations.

[14] M. G. Arivazhagan, V. Aggarwal, A. K. Singh, and S. Choudhary, “Federated learn-

ing with personalization layers,” arXiv preprint arXiv:1912.00818, 2019.

[15] P. P. Liang, T. Liu, L. Ziyin, N. B. Allen, R. P. Auerbach, D. Brent, R. Salakhutdi- nov, and L.-P. Morency, “Think locally, act globally: Federated learning with local and global representations,” arXiv preprint arXiv:2001.01523, 2020.

[16] M. A. Kramer, “Nonlinear principal component analysis using autoassociative neu-

ral networks,” AIChE journal, vol. 37, no. 2, pp. 233–243, 1991.

[17] M. Noroozi and P. Favaro, “Unsupervised learning of visual representations by Springer,

solving jigsaw puzzles,” in European conference on computer vision. 2016, pp. 69–84.

[18] S. Yang, H. Park, J. Byun, and C. Kim, “Robust federated learning with noisy

labels,” IEEE Intelligent Systems, vol. 37, no. 2, pp. 35–43, 2022.

[19] F. Hu, W. Zhou, K. Liao, H. Li, and D. Tong, “Toward federated learning models resistant to adversarial attacks,” IEEE Internet of Things Journal, vol. 10, no. 19, pp. 16 917–16 930, 2023.

[20] A. Fallah, A. Mokhtari, and A. Ozdaglar, “Personalized federated learning with theoretical guarantees: A model-agnostic meta-learning approach,” in Advances in Neural Information Processing Systems, H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, and H. Lin, Eds., vol. 33. Curran Associates, Inc., 2020, pp. 3557–3568. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/ 2020/file/24389bfe4fe2eba8bf9aa9203a44cdad-Paper.pdf

[21] A. Shamsian, A. Navon, E. Fetaya, and G. Chechik, “Personalized federated the 38th International learning using hypernetworks,” in Proceedings of Conference on Machine Learning, ser. Proceedings of Machine Learning Research, M. Meila and T. Zhang, Eds., vol. 139. PMLR, 18–24 Jul 2021, pp. 9489–9502. [Online]. Available: https://proceedings.mlr.press/v139/shamsian21a.html

[22] O. Wehbi, S. Arisdakessian, O. A. Wahab, H. Otrok, S. Otoum, A. Mourad, and M. Guizani, “Fedmint: Intelligent bilateral client selection in federated learning with newcomer iot devices,” IEEE Internet of Things Journal, vol. 10, no. 23, pp. 20 884–20 898, 2023.

[23] T. Ye, C. Chen, Y. Wang, X. Li, and M. Gao, “Upfl: Unsupervised personalized federated learning towards new clients,” in Proceedings of the 2024 SIAM Interna- tional Conference on Data Mining (SDM). SIAM, 2024, pp. 851–859.

[24] J. Li, R. Socher, and S. C. Hoi, “Dividemix: Learning with noisy labels as semi- supervised learning,” in International Conference on Learning Representations, 2020. [Online]. Available: https://openreview.net/forum?id=HJgExaVtwr

[25] D. Tanaka, D. Ikami, T. Yamasaki, and K. Aizawa, “Joint optimization framework for learning with noisy labels,” in Proceedings of the IEEE Conference on Com- puter Vision and Pattern Recognition (CVPR), June 2018.

[26] B. Han, Q. Yao, T. Liu, G. Niu, I. W. Tsang, J. T. Kwok, and M. Sugiyama, “A sur- vey of label-noise representation learning: Past, present and future,” arXiv preprint arXiv:2011.04406, 2020.

[27] B. Han, Q. Yao, X. Yu, G. Niu, M. Xu, W. Hu, I. Tsang, and M. Sugiyama, “Co- teaching: Robust training of deep neural networks with extremely noisy labels,” Advances in neural information processing systems, vol. 31, 2018.

[28] S. Fu, C. Xie, B. Li, and Q. Chen, “Attack-resistant federated learning with residual-

based reweighting,” arXiv preprint arXiv:1912.11464, 2019.

[29] X. Fang and M. Ye, “Robust federated learning with noisy and heterogeneous clients,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pat- tern Recognition (CVPR), June 2022, pp. 10 072–10 081.

[30] X. Ma, B. Li, Y. Wang, S. M. Erfani, S. Wijewickrema, G. Schoenebeck, M. E. Houle, D. Song, and J. Bailey, “Characterizing adversarial subspaces using local intrinsic dimensionality,” in International Conference on Learning Representations, 2018. [Online]. Available: https://openreview.net/forum?id= B1gJ1L2aW

[31] S. Zhou, K. Li, Y. Chen, C. Yang, W. Liang, and A. Y. Zomaya, “Trustbcfl: Mitigat- ing data bias in iot through blockchain-enabled federated learning,” IEEE Internet of Things Journal, pp. 1–1, 2024.

[32] V. Tsouvalas, A. Saeed, T.

¨Ozc¸elebi, and N. Meratnia, “Federated learning with noisy labels: Achieving generalization in the face of label noise,” in First Workshop on Interpolation Regularizers and Beyond at NeurIPS 2022, 2022. [Online]. Available: https://openreview.net/forum?id=gNHMC4I0Pva

[33] R. Sharma, A. Ramakrishna, A. MacLaughlin, A. Rumshisky, J. Majmudar, C. Chung, S. Avestimehr, and R. Gupta, “Federated learning with noisy user feed- back,” in Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, pp. 2726–2739.

[34] M. E. Houle, “Dimensionality, discriminability, density and distance distributions,” IEEE,

in 2013 IEEE 13th International Conference on Data Mining Workshops. 2013, pp. 468–473.

[35] L. Amsaleg, O. Chelly, T. Furon, S. Girard, M. E. Houle, K.-i. Kawarabayashi, and M. Nett, “Estimating local intrinsic dimensionality,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Min- ing, 2015, pp. 29–38.

[36] H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz, “mixup: Beyond empiri- cal risk minimization,” in International Conference on Learning Representations, 2018.

[37] E. Arazo, D. Ortego, P. Albert, N. O’Connor, and K. McGuinness, “Unsupervised label noise modeling and loss correction,” in International conference on machine learning. PMLR, 2019, pp. 312–321.

[38] J. Huang, L. Qu, R. Jia, and B. Zhao, “O2u-net: A simple noisy label detection approach for deep neural networks,” in Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp. 3326–3334.

[39] L. Jiang, Z. Zhou, T. Leung, L.-J. Li, and L. Fei-Fei, “Mentornet: Learning data- driven curriculum for very deep neural networks on corrupted labels,” in Interna- tional conference on machine learning. PMLR, 2018, pp. 2304–2313.

[40] X. Yu, B. Han, J. Yao, G. Niu, I. Tsang, and M. Sugiyama, “How does disagree- ment help generalization against label corruption?” in International conference on machine learning. PMLR, 2019, pp. 7164–7173.

[41] S. Jiang, J. Li, J. Zhang, Y. Wang, and T. Xu, “Dynamic loss for robust learning,”

IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.

[42] A. Krizhevsky, “Learning multiple layers of features from tiny images,” Master’s

thesis, University of Tront, 2009.

[43] T. Xiao, T. Xia, Y. Yang, C. Huang, and X. Wang, “Learning from massive noisy labeled data for image classification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015.

[44] L. Van der Maaten and G. Hinton, “Visualizing data using t-sne.” Journal of ma-

chine learning research, vol. 9, no. 11, 2008.

IJCAI-23, E. Elkind, Ed.

[45] N. Wu, L. Yu, X. Jiang, K.-T. Cheng, and Z. Yan, “Fednoro: Towards noise-robust federated learning by addressing class imbalance and label noise heterogeneity,” in Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, International Joint Conferences on Artificial Intelligence Organization, 8 2023, pp. 4424–4432, main Track. [Online]. Available: https://doi.org/10.24963/ijcai.2023/492