
DFS-Apriori: Khai Thác Nhanh Tập Phổ Biến
Áp Dụng Chiến Lƣợc Tìm Kiếm Theo Chiều Sâu
Phan Thành Huấn1,2,4, Đặng Thanh Minh1,4, Nguyễn Nhƣ Đồng3
1Khoa Toán – Tin học, Trƣờng Đại học Khoa học Tự nhiên, ĐHQG.HCM-VN
2Bộ môn Tin học, Trƣờng Đại học Khoa học Xã hội và Nhân văn, ĐHQG.HCM-VN
3Trung tâm Giáo dục Nghề nghiệp – Giáo dục Thƣờng xuyên, Tp. Thủ Đức
4Đại học Quốc gia Tp. Hồ Chí Minh
Email: huanphan@hcmussh.edu.vn; minhthanhdang1982@gmail.com; dongnhunguyen74@gmail.com
Tóm tắt - Khai thác tập phổ biến là giai đoạn cốt lõi trong khai
thác luật kết hợp từ dữ liệu giao dịch nhị phân. Agrawal cùng
đồng sự đề xuất thuật toán Apriori . Đây là thuật toán cơ sở cho
nhiều cải tiến, cũng như được sử dụng khai thác trên nhiều loại
dữ liệu khác nhau. Ngoài ra, những năm gần đây thuật toán
Apriori là thuật toán được nhiều nhà nghiên cứu lựa chọn để mở
rộng cho khai thác tập phổ biến từ dữ liệu lớn trên môi trường
phân tán. Thuật toán Apriori dựa theo chiến lược tìm kiếm theo
chiều rộng (Breadth First Search – BFS) – điều này làm hạn chế
trong thực hiện tính toán phân tán. Trong bài viết này, nhóm tác
giả khảo sát một số thuật toán Apriori cải tiến và trình bày cách
tiếp cận mới cải tiến hiệu quả thuật toán Apriori dựa theo chiến
lược tìm kiếm theo chiều sâu (Depth First Search – DFS) – dễ
dàng mở rộng trên môi trường tính toán phân tán. Đồng thời,
thuật toán đề xuất kỹ thuật rút gọn các ứng viên, tính nhanh độ
phổ biến của ứng viên và biểu diễn dữ liệu dạng bit - giúp đẩy
nhanh tốc độ tính toán và giảm thiểu truy xuất dữ liệu. Thuật
toán cải tiến được gọi là DFS-Apriori. Nhóm tác giả tiến hành
thực nghiệm thuật toán trên bộ dữ liệu thực của UCI và dữ liệu
giả lập của trung tâm nghiên cứu IBM Almaden, cho thấy thuật
toán cải tiến hiệu quả.
Từ khóa – luật kết hợp, tập phổ biến, thuật toán DFS-Apriori.
I. GIỚI THIỆU
Năm 1993, Agrawal cùng đồng sự đề xuất mô hình đầu tiên
của bài toán khai thác luật kết hợp – khai thác luật kết hợp trên
dữ liệu giao dịch (DLGD) nhị phân [1]. Khai thác luật kết hợp
là khai phá các luật kết hợp có độ phổ biến (support) cũng nhƣ
độ tin cậy (confidence) lớn hơn hoặc bằng một ngƣỡng phổ
biến tối thiểu (minsup) và ngƣỡng tin cậy tối thiểu (minconf).
Bài toán đƣợc chia thành hai pha:
Pha 1: Tìm tất cả các kết hợp thỏa ngƣỡng phổ biến tối
thiểu minsup (sinh tập phổ biến FI - Frequent Itemset);
Pha 2: Sinh luật kết hợp lần lƣợt từ các kết hợp thỏa
minsup ở pha 1 và các luật kết hợp này phải thỏa ngƣỡng tin
cậy tối thiểu minconf.
Sau đó, Agrawal cùng đồng sự tập trung hƣớng giải quyết
cho pha 1 và nhóm đã đề xuất thuật toán Apriori [2] cho khai
thác tập phổ biến. Đây là thuật toán then chốt, quan trọng trong
khai thác luật kết hợp. Thuật toán tiếp cận sinh các kết hợp phổ
biến với chiến lƣợc tìm kiếm theo chiều rộng (Breadth First
Search – BFS) dễ dàng cài đặt và song song hóa nhằm nâng
cao hiệu năng; thuật toán tốn nhiều lần quét dữ liệu và có độ
phức tạp dạng hàm mũ. Chính vì vậy, Apriori là thuật toán
đƣợc nhiều nhà nghiên cứu cải tiến và áp dụng khai phá trên
nhiều loại dữ liệu khác nhau: chuỗi [3], định lượng [4], đồ thị
[5], thuộc tính có trọng số [6],…
Qua khảo sát các nghiên cứu liên quan đến cải tiến thuật
toán Apriori khai thác tập phổ biến trên DLGD nhị phân, gồm
hai hướng tiếp cận chính:
Định dạng dữ liệu theo chiều ngang: Đây là định dạng
theo thuật toán Apriori gốc. Các thuật toán cải tiến Apriori
thƣờng sử dụng chiến lƣợc rút gọn giao dịch và rút gọn
không gian sinh các ứng viên tiềm năng k-itemset. Tuy
nhiên, vấn đề tính độ phổ biến của k-itemset vẫn chƣa thật
sự hiệu quả.
Định dạng dữ liệu theo chiều dọc: Năm 1995, Savasere
[7] cùng đồng sự đề xuất thuật toán Parition sử dụng định
dạng dữ liệu theo chiều dọc. Định dạng này, giúp tính độ
phổ biến dễ dàng và hạn chế đối với DLGD có mật độ cao.
Bảng 1. Một số công trình cải tiến thuật toán Apriori [7-16]
Tác giả
đứng đầu
Thuật toán
Định dạng
dữ liệu
Năm
A. Savasere
Partition
dọc
1995
J. Lei
HDO-Apriori
ngang
2006
W.Yu
RATT
ngang
2008
Y. Guo
IApriori
dọc
2010
J. Singh
SOT-Apriori
ngang
2013
H. Singh
MBAT
ngang
2013
M. A. Maolegi
M-Apriori
dọc
2014
V.Vijayalakshmi
CBTRA
ngang
2015
S. Aditya
LOT-Apriori
ngang
2017
L. Xu
MD-Apriori
dọc
2019
Bảng 1, liệt kê một số thuật toán cải tiến Apriori. Các đặc
trƣng của thuật toán cải tiến: i) rút gọn giao dịch dựa vào số
lƣợng items trên mỗi giao dịch – SOT-Aprioir [11], CBTRA
[14], LOT-Apriori [15] ; ii) rút gọn tập ứng viên tiềm năng –
Partition [7], HDO-Apriori [8], Iapriori [11], M-Apriori [13],
MD-Apriori [16]; iii) giảm bƣớc tính độ phổ biến – RAAT [9],
MBAT [12]; iv) phân chia dữ liệu thành nhiều phần – Parition
[7], MD-Apriori [16].
Ngoài ra, thuật toán tựa Apriori cũng đƣợc nhiều nhà
nghiên cứu quan tâm mở rộng thực hiện khai thác dữ liệu lớn
trên môi trƣờng phân tán. Gần đây, Shashi cùng đồng sự đề
xuất thuật toán EAFIM [19] khai thác trên môi trƣờng phân
tán Spark và dựa trên thuật toán Apriori gốc, thuật toán
EAFIM cũng cho thấy hiệu quả hơn thuật toán R-Apriori [18],
YAFIM [17].
Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)
ISBN 978-604-80-7468-5
135