BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN ĐẮC DZỰ TRÌNH
KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN
MÔI TRƯỜNG TÍNH TOÁN SONG SONG
LUẬN ÁN TIẾN
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2025
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN ĐẮC DZỰ TRÌNH
KHAI THÁC TẬP MỤC HỮU ÍCH CAO
TRÊN MÔI TRƯỜNG TÍNH TOÁN SONG SONG
Chuyên ngành: Khoa học Máy tính
Mã số chuyên ngành: 9480101
Chủ tịch: GS. TS. Phan Thị Tươi (Trường ĐH Nguyễn Tất Thành)
Phản biện 1: PGS. TS. Nguyễn Duy Hàm (Trường ĐH Sài Gòn)
Phản biện 2: PGS. TS. Võ Thị Lưu Phương (Trường ĐH Quốc tế, ĐHQG TP.HCM)
Phản biện 3: PGS. TS. Lê Hoàng Thái (Trường ĐH Khoa học Tự nhiên, ĐHQG TP.HCM)
Ủy viên: PGS. TS. Nguyễn Thanh Bình (Trường ĐH Khoa học Tự nhiên, ĐHQG TP.HCM)
Ủy viên: PGS. TS. Phạm Thế Bảo (Trường ĐH Sài Gòn)
Thư ký: PGS. TS. Hồ Tường Nguyên (Trường ĐH Công nghiệp TP.HCM)
NGƯỜI HƯỚNG DẪN:
1. PGS. TS. Nguyễn Thị Thuý Loan (Trường ĐH Quốc tế, ĐHQG TP.HCM)
2. TS. Phạm Thị Thiết (Trường ĐH Công nghiệp TP.HCM)
NHIỆM VỤ LUẬN ÁN TIẾN
Họ tên nghiên cứu sinh: Nguyễn Đắc Dzự Trình MSHV: 20126291
Ngày, tháng, năm sinh: 13/3/1979 Nơi sinh: TP. Hồ Chí Minh
Ngành: Khoa học máy tính Mã ngành: 9480101
I. TÊN LUẬN ÁN:
Khai thác tập mục hữu ích cao trên môi trường tính toán song song
NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu định nghĩa, mục tiêu và ứng dụng của các tập mục hữu ích cao.
- Tìm hiểu định dạng cơ sở dữ liệu có sự phân cấp các hạng mục.
- Khảo sát các tiếp cận khai thác tập mục hữu ích cao trên sở dữ liệu phân
cấp hạng mục có áp dụng kỹ thuật xử lý song song.
- Đề xuất phương pháp giải quyết bài toán khai thác tập mục hữu ích cao, tập mục
hữu ích đa mức từ các sở dữ liệu sự phân cấp các hạng mục, áp dụng các
chiến lược song song hoá.
- Thực nghiệm, đánh giá hiệu năng của phương pháp được đề xuất dựa trên các tiêu
chí như thời gian thực hiện, mức độ tiêu thụ bộ nhớ, tính khả mở.
II. NGÀY GIAO NHIỆM VỤ: 13/8/2021 theo Quyết định số 1041/-ĐHCN
của Trường Đại học Công nghiệp Thành phố Hồ Chí Minh.
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 14/03/2025
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC:
- PGS. TS. Nguyễn Thị Thuý Loan (Trường Đại học Quốc tế, ĐHQG TP.HCM)
- TS. Phạm Thị Thiết (Trường Đại học Công nghiệp TP.HCM)
Tp. Hồ Chí Minh, ngày … tháng … năm 20 …
NGƯỜI HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA/VIỆN….………
(Họ tên và chữ ký)
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả nghiên
cứu và các kết luận trong luận án là trung thực, không sao chép từ bất kỳ một nguồn
nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã được
thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Tác giả luận án
NCS. Nguyễn Đắc Dzự Trình
ii
TÓM TẮT LUẬN ÁN TIẾN
Khai thác tập mục hữu ích cao (HUIM) là bài toán tìm kiếm các tập mục mang lại độ
hữu ích thỏa một ngưỡng cho trước. Mỗi hạng mục trong giao dịch một giá trị biểu
thị số lượng. Chúng còn một giá trị biểu thị đơn giá trong toàn bộ sở dữ liệu
(CSDL). Tích của hai đại lượng này biểu thị tầm quan trọng, trọng số, hay nói chung
độ hữu ích của hạng mục tương ứng. Nhiều kỹ thuật giải thuật đã được giới
thiệu để tối ưu hoá không gian tìm kiếm dựa trên các chiến lược tỉa ứng viên, giảm
chi phí quét CSDL, tăng tốc quá trình tính độ hữu ích, v.v… Ngày nay, các vi xử
đa nhân dần phổ biến với chi phí phù hợp với người dùng. Các tác vụ tính toán cũng
thế được mở rộng để tận dụng sức mạnh tính toán này nhằm cải thiện hiệu năng.
Tuy nhiên, đối với bài toán khai thác dữ liệu, các tiếp cận kết hợp mô hình xử lý song
song đa nhân hiện này vẫn còn rất hạn chế. Vì vậy, luận án nghiên cứu đề xuất các
đóng góp chính sau:
Đóng góp thứ nhất: đề xuất hình cho phép khai thác hiệu quả các tập mục hữu
ích cao đóng từ CSDL chứa các hạng mục với độ hữu ích động trong quá trình
khai thác nhằm phản ánh sát hơn nữa các CSDL trong thực tế. Đóng góp này áp dụng
mô hình độ hữu ích động kết hợp với phương pháp để giảm chi phí quét CSDL nhằm
cải thiện hiệu năng của quá trình khai thác tập mục hữu ích cao đóng. Chương 2 trình
bày nghiên cứu mô hình đề xuất thông qua hai giải thuật iEFIM-Closed [CT4]
MLC-Miner [CT1].
Đóng góp thứ hai: mở rộng bài toán để áp dụng với dạng CSDL có sự phân cấp các
hạng mục dựa trên các nghiên cứu từ Đóng góp thứ nhất, đxuất hình xử
song song đa nhân để giải quyết bài toán này thông qua việc tận dụng năng lực xử
của các CPU đa nhân để giảm chi phí về mặt thời gian. Nội dung của đóng góp được
trình bày tại Chương 3 thông qua công trình [CT3]. Thực nghiệm cho thấy mô hình
đề xuất có sự cải thiện rõ rệt về thời gian khai thác.
Đóng góp thứ ba: dựa trên các kết quả nghiên cứu từ Đóng góp thứ 1 Đóng góp
thứ 2, đóng góp này triển khai việc áp dụng mô hình xử lý song song trên nhiều giai