TNU Journal of Science and Technology
226(16): 212 - 217
http://jst.tnu.edu.vn 212 Email: jst@tnu.edu.vn
ASSOCIATION RULES MINING USING APRIORI ALGORITHM,
SUPPORT FOR SALES ACTIVITIES IN SUPERMARKET
Tran Thi Xuan1*, Nguyen Van Nui2
1TNU - University of Economics and Business Administration
2TNU - University of Information and Communication Technology
ARTICLE INFO
ABSTRACT
Received:
07/10/2021
Currently, data mining is gaining popularity in the retail sector and is
an effective analytical method for detecting useful and unknown
information in retail data. The organization of goods and related
business activities towards enhancing the customer satisfaction is one
of the very important jobs. This study will focus on analyzing, mining
and finding association rules based on past data, thereby proposing
some recommendations to support the business operation of the
supermarket to be more optimized. For example, if a supermarket wants
to arrange its stores in the most reasonable way, they can look at the
purchase history and arrange the sets of products that are often bought
together into one store. Or a news website that wants to introduce users
to the most related articles, the same rule can be applied. In this paper,
we calculate and analyze the relationship between products to help a
supermarket arrange reasonable items for customers to buy goods by
using association rule mining algorithm Aprori.
Revised:
15/11/2021
Published:
15/11/2021
KEYWORDS
Data mining
Association rule mining
Association rule
Apriori
Sale activity
KHAI PHÁ LUT KT HP S DNG THUT TOÁN APRIORI,
H TR CHO HOẠT ĐỘNG BÁN HÀNG TI SIÊU TH
Trn Th Xuân1*, Nguyễn Văn Núi2
1Trường Đại hc Kinh tế và Qun tr kinh doanh ĐH Thái Nguyên
2Trường Đại hc Công ngh Thông tin và Truyn thông ĐH Thái Nguyên
THÔNG TIN BÀI BÁO
Ngày nhn bài:
07/10/2021
Ngày hoàn thin:
15/11/2021
Ngày đăng:
15/11/2021
T KHÓA
Khai phá d liu
Khai phá lut kết hp
Lut kết hp
Apriori
Hoạt động bán hàng
DOI: https://doi.org/10.34238/tnu-jst.5122
* Corresponding author. Email: tranxuantbhd@tueba.edu.vn
TNU Journal of Science and Technology
226(16): 212 - 217
http://jst.tnu.edu.vn 213 Email: jst@tnu.edu.vn
1. Gii thiu chung
Khai phá d liu là mt trong những lĩnh vực nghiên cu quan trng ngày càng phát trin
vi mục đích trích xuất thông tin t s ng ln các tp d liệu tích lũy.
S phát trin ca công ngh thông tin như hiện nay đang dần th hiện hơn vai trò định
hướng cho ngành bán l, kinh doanh sn phm ca c doanh nghip. Xu thế th trưng cnh
tranh ngày càng gay gt đòi hỏi các doanh nghip cn phi nhng chiến lược, gii pháp ca
riêng mình để đáp ng tốt hơn mong mun ca khách hàng. Các doanh nghip cn tìm hiu thông
tin giá tr chi tiết các hàng hóa đ bán tốt hơn nâng cao hiệu qu ca hoạt động th
trưng. Hin nay, doanh nghip bán l th thu thp các quy trình thông qua phân tích mu
tìm kiếm d liu vi các liên kết nhm cung cp dch v tt nhất cho người tiêu dùng. D liu ln
được hình hóa, chn lọc khai phá để thu thp thông tin th hiu hu ích cho con
người. Khai phá d liu mt trin vọng lĩnh vực cp nht mt phn ca khoa hc máy
tính. S tn ti ca d liu ln rt quan trọng để s dụng đúng cách trong việc trích xut kiến
thc n trong kho d liu data mart, hoặc kho lưu trữ. Thut toán Apriori mt trong nhng
thut toán học máy không giám sát đi vi các quy tc tìm ra lut kết hp. Thut toán apriori
th đưc áp dng cho tp hp các giao dch ca các nhóm khách hàng tìm mi liên h gia các
sn phm.
Trong những năm gần đây, k thut khai phá d liu và phân lớp đã được áp dng thành công
trong việc đề xut mô hình h tr khác nhau để nâng cao chất lượng dch v bán l [1]-[7].
Tác gi Eni Heni Hermaliani [1] đã sử dng thuật toán Apriori để h trm ra quy lut mua bán
sn phm tráiy.c gi J.Silva [2] bngch s dng thuật toán Arpriori để khai pquy tc liên
kết để phân khúc kch hàng trong khu vc doanh nghip va nh. Nhóm tác gi M. Kavitha
Subbaiah [3] đã s dng thuật toán Aprori đ trích xut sn phm trong cang tp hóa.
Mục đích nghiên cứu nhm xác định mức độ mà thut toán Apriori th giúp s phát trin
chiến lược tiếp thị, có được mô hình liên kết và xác định các sn phm bán chy nht.
Do vai trò rt quan trng trong vic phát trin chiến c tiếp th, ch đề nghiên cu để tìm
hiu sâu rng v các hình để xác định quy luật, c định đưc sn phm bán chy đã tăng
nhanh trong những năm qua. Gần đây, có một i mô hình phân lp đưc nghiên cu, đ xut đ h
tr các nhà nghn cu trong vic xây dựng mônh xác định quy lut, sn phm bán chy [1]-[15].
Tuy nhiên, thời điểm hin ti, vn còn thiếu các hình tính toán phù hp công c d đoán
với độ chính xác cao th h tr hiu qu cho vic tìm kiếm lut chính xác. Bên cạnh đó, do s
tiến b ca khoa hc k thutảnh hưởng ca cách mng công nghip 4.0, d liệu khách hàng đã
kim chng thc nghim đang ngày càng được b sung nhiều hơn. Chính vì vậy, vic thiếu ht mô
hình d đoán là mt vn đ cp thiết cn đưc quan tâm gii quyết.
Tiếp tc phát triển các ý tưởng nghiên cứu trước đây, trong bài viết này nhóm tác gi tp trung
vào vấn đề phân tích tìm quy lut liên kết gia các mt hàng trong siêu th da trên d liu quá
kh mua hàng ca khách bng thut toán Apriori, s dng b công c Weka [16].
2. Xây dng, hun luyn mô hình
2.1. Thu thp, tin x lý d liu
Bài báo s dng b d liu Kaggle [17] đánh giá hiệu qu các k thut hc máy. Kaggle
nhiu b d liệu khác nhau cho các lĩnh vực nhm h tr cho nghiên cu v hc máy và khoa hc
d liệu. Kaggle đã được các nhà nghiên cu trên thế gii s dng rng rãi. B d liu này sau
bước tin x lý, d liu bao gm 4627 thông tin v giao dch mua hàng vi 108 thuc tính các
mt hàng và tng giá tr giao dch.
2.2. Xây dng và hun luyn mô hình
Mô hình tng th ca nghiên cứu này đưc th hin chi tiết Hình 1 bên dưới.
Trong nghiên cứu này, để tìm ra các lut kết hp h tr hiu qu cho hoạt động kinh doanh ti
siêu thị, điều kiện trước tiên đó thỏa mãn 2 giá tr cho trước độ h tr cc tiu (minimum
TNU Journal of Science and Technology
226(16): 212 - 217
http://jst.tnu.edu.vn 214 Email: jst@tnu.edu.vn
support) và độ tin cy cc tiu (minimum confidence) t một cơ sở d liu có sn, công vic thc
hiện được chia làm hai bước:
Hình 1. Mô hình tng th ca h thng
(1) Tìm tt c các tp ch mc ph biến: mt tp ch mc ph biến được xác định qua vic
tính độ h tr và tho mãn độ h tr cc tiu.
(2) Sinh ra các lut kết hp mnh t các tp ch mc ph biến: Các lut phi tho mãn đ h
tr cc tiểu và độ tin cy cc tiu.
Gi s có tp ch mc ph biến Lk, Lk = {I1, I2, I3, …, Ik}, các lut kết hp ca tp ch mc
này được sinh như sau: khởi to luật đầu tiên {I1, {I1, I2, I3, …, Ik-1}, {Ik}, sau đó tiến hành
kiểm tra độ tin cậy (confidence) để xác định lut trên có tha mãn hay không.
Thc hin ct b phn t cui cùng ca vế trái, chuyn sang vế phi để to thành lut mi, ri
li kim tra độ tin cy. Q trình trên được thc hin cho ti khi vế trái tr thành tp rỗng. Do bước
th 2 k đơn giảnn hu hết các nghiên cu v khai phá lut kết hp đu tập trung vào bước mt.
Đối với bước th nht trong khai phá lut kết hp, ta li có th chia ra làm 2 bước con: sinh tp
ch mc ng viên (candidate frequent itemsets) sinh tp ch mc ph biến (frequent itemsets).
Trong đa số trường hp, s ng tp ch mc ph biến sinh ra rt ln, kéo theo s ng
lut kết hp tạo ra thường là hàng nghìn, thm chí hàng triu luật. Người dùng cui gần như
không th hiu hoặc đánh giá hết được một lượng ln lut phc tạp như trên, do đó hạn chế phn
nào giá tr ca kết qu thu được. Hiện nay đã có rất nhiu thut toán hiu qu được đưa ra để gii
quyết vấn đ này, bng cách ch sinh lut phù hp vi nhu cu của người dùng (interest rules),
sinh luật “không dư thừa” (“non-redundant” rules), hoặc ch sinh lut tha mãn mt tiêu chun c
th nào đó như coverage, leverage, lift hoặc strength.
Cho tp hp I = {I1, I2, I3, …, In} gồm n phn t khác nhau, I đưc gi là tp ch mc
(itemset), T là mt giao tác (transaction) cha mt tp các phn t thuc I (T I), D là một cơ sở
d liu cha m giao tác T khác nhau.
Mt lut kết hp mt phát biu dạng X→Y, trong đó X I, Y I X∩Y=Ø. Vế phi
X được gi là tin đề, còn vế trái Y gi là kết lun ca luật. Có hai độ đo cơ bản cho lut kết hp,
đó là độ h tr (support) và độ tin cy (confidence).
Độ h tr mt tp ch mc X trong D, kí kiệu supp(X), được tính bng phần trăm số giao tác T
trong D có cha X (hay còn gi là h tr X).
Gi s độ h tr ca mt phn t0,1%, điều đó có nghĩa là chỉ có 0,1% s giao tác có cha
phn t đó.
Độ h tr ca mt lut kết hợp r = X→Y, kí hiệu supp(r), biu th tn s lut có trong các giao
tác. Độ h tr th hin trong bao nhiêu phần trăm dữ liu thì những điều vế trái và vế phi cùng
xảy ra. Như vậy, độ h tr chính là xác sut P(XY):
TNU Journal of Science and Technology
226(16): 212 - 217
http://jst.tnu.edu.vn 215 Email: jst@tnu.edu.vn
Độ tin cy ca mt lut kết hợp r = X→Y, kí hiệu conf(r), s phần trăm các giao tác trong
D cha c X Y trên s giao tác trong D chứa X. Độ tin cy chính xác suất điều kin
P(Y|X), nó th hin nếu vế trái xy ra thì có bao nhiêu kh năng vế phải cũng xy ra:
Độ tin cy biu th độ mnh ca mt lut kết hp, gi s độ tin cy ca lut r bng 90%,
nghĩa là 90% số giao tác có chứa X thì cũng chứa Y.
Do sở d liệu kích thước lớn người dùng thường ch quan tâm ti mt tp các phn
t nhất định, do vậy người ta đưa ra các ngưỡng giá tr cho độ h tr độ tin cy nhm loi b
các lut không phù hp vi yêu cu của người dùng hoc các lut vô dụng. Hai ngưỡng này được
gi là độ h tr cc tiểu (minimum support) và độ tin cy cc tiu (minimum confidence).
Tp ch mục X supp(X) minsupp, với minsupp độ h tr cc tiểu, được gi tp ch
mc ph biến (frequent itemset hay large itemset). Mt s tính chất đin hình ca tp mc ph biến:
Nếu AB vi A, B là các tp ch mc thì supp(A) ≥ supp(B).
Mt tp cha mt tp không ph biến thì cũng là tập không ph biến.
Các tp con ca tp ph biến cũng là tập ph biến.
Các lut kết hp tho mãn c hai ngưỡng độ h tr cc tiểu (minsupp) độ tin cy cc tiu
(minconf) được gi là lut kết hp mnh (strong), tức là supp(X→Y) ≥ minsupp và conf(XY) ≥
minconf. Người ta thường viết giá tr các độ h tr độ tin cy này gia 0% và 100% thay cho
0 ti 1.
Nếu độ h tr cc tiu minsupp giá tr cao thì ta s thu được ít tp ch mc ph biến, do
vy sít lut hp l ph biến xut hiện; ngược li nếu đặt minsupp thp thì s xut hin nhiu
lut hp l hiếm.
Còn đối với độ tin cy cc tiu minconf, nếu giá tr minconf cao thì thu được ít luật, nhưng tất
c các lut này "gần như đúng". Còn nếu minconf giá tr thấp thì ta thu được rt nhiu lut
nhưng phần ln "rt không chc chn".
Trong thc tế, người ta thường đặt giá tr minsupp trong khong 2 - 10% minconf trong
khong 70 - 90%.
Hin nay, Apriori [4] thut toán khai phá lut kết hp ni tiếng, s dng chiến lược tìm
kiếm theo chiu rng (Breath-first search) để tính độ h tr ca các tp ch mc tn dng b
đề downward closure [4] để tìm ra các tp ng viên. Apriori rt hiu qu trong quá trình sinh tp
ng viên do áp dng s dụng kĩ thut ct tỉa để tránh phải đánh giá một s tp ch mc nhất định
mà vn bảo đảm tính toàn vn.
Apriori mt thuật toán do Rakesh Agrawal, Tomasz Imielinski, Arun Swami đ xut ln
đầu vào năm 1994. Thut toán Apriori dùng cách tiếp cn lp, vi các tp mục k_itemsets được
dùng để thăm các tập (k+1)_itemsets. Đầu tiên, các tp mc ph biến 1_itemsets được tìm
thy bằng cách quét s d liệu (CSDL) để đếm s ng tng item thu thp nhng item
thỏa mãn độ h tr cc tiu, tp kết qu đặt L1. Tiếp theo, L1 được dùng để tìm L2, các tp
mc ph biến 2-itemsets, lại được dùng tìm L3, và c tiếp tc cho ti khi tp mc ph biến k-
itemsets không th tìm thy. Vic tìm kiếm cho mi Lk đòi hỏi mt ln quét toàn b cơ sở d liu.
Đầu vào: CSDL, độ h tr cc tiu minsup.
Đầu ra: Tp các mc ph biến.
Thuật toán Apriori độ phc tp v thi gian O(k*(k2+t*n)) vi k kích thước tp mc
ph biến, t là kích thước cơ sở d liu và n là s tp mc ca t. Độ phc tp v thi gian ca thut
toán Apriori là O(k3+k*t*n).
3. Kết qu và mt s tho lun
Như đã trình bày trước đó, trong nghiên cứu này, chúng tôi tiến hành s dng thut toán tìm
ra lut kết hp Apriori. Kết qu thuật toán được trình bày Bng 1.
Vi tt c các quy tc thut toán tìm ra tquy tc nếu khách mua biscuits frozen thì t
l mua Bread and cake là chiếm tới hơn 91%tng s tin giao dịch đều cao. Do đó, nên đặt
các mt hàng biscuits, frozen, bread và cake cnh nhau trong ca hàng.
TNU Journal of Science and Technology
226(16): 212 - 217
http://jst.tnu.edu.vn 216 Email: jst@tnu.edu.vn
Bng 1. Kết qu thut toán Apriori
Antecedents
Consequents
Support
Confidence
lift
788
Fruit, frozen food, biscuits, total = hight
Bread and cake
0,03
0,92
1,27
760
Fruit, baking needs, biscuits, total = hight
Bread and cake
0,03
0,92
1,27
705
Fruit, baking needs, frozen foods, total = hight
Bread and cake
0,03
0,92
1,27
746
Fruit, vegestables, biscuits, total = hight
Bread and cake
0,03
0,92
1,27
779
Party snack foods, total = hight
Bread and cake
0,04
0,91
1,27
725
Vegetables, frozen foods, biscuits, total = hight
Bread and cake
0,03
0,91
1,26
701
Vegetables, baking needs, biscuits, total = hight
Bread and cake
0,03
0,91
1,26
866
Fruit, biscuits, total = hight
Bread and cake
0,04
0,91
1,26
757
Fruit vegetables, frozen foods, total = hight
Bread and cake
0,03
0,91
1,26
877
Fruit, frozen foods, total = hight
Bread and cake
0,04
0,91
1,26
4. Kết lun
Qua kết qu trên ta thy, thut toán Apriori h tr rt tt trong vic tìm ra các quy lut liên kết
gia các sn phm trong mt ca hàng.
Theo kết qu phân tích cho thy, nếu khách mua biscuits frozen thì t l khách quyết định
mua bread cake trên 91%. Do đó, ca hàng nên đặt các mt hàng này cạnh nhau để khách
hàng thun li trong vic mua hàng.
TÀI LIU THAM KHO/ REFERENCES
[1] E. H. Hermaliani et al, “Data Mining Technique to Determine the Pattern of Fruits Sales & Supplies
Using Apriori Algorithm,Journal of Physics: conference series, vol. 1641, 2020, Art. no. 012070.
[2] J. Silva et al, “Association Rules Extraction for Customer Segmentation in the SMEs Sector Using the
Apriori Algorithm, International Workshop on Web Search and Data Mining (WSDM), April 29 -
May 02, 2019, Leuven, Belgium.
[3] M. Kavitha and S. Subbaiah, “Association Rule Mining using Apriori Algorithm for Extracting Product
Sales Patterns in Groceries,” Int. J. Eng. Res. Technol., vol. 08, no. 03, pp. 1-4, 2020.
[4] I. R. V. Srinivasa Kumar, R. Renganathan, and C.VijayaBanu, “Consumer Buying Pattern Analysis
using Apriori Association Rule,” International Journal of Pure and Applied Mathematics, vol. 119,
no. 7, pp. 2341-2349, 2018.
[5] N. Verma, D. Malhotra, and S. Jatinder, “Big data analytics for retail industry using MapReduce-
Apriori framework,” J. Manag. Anal, vol. 7, pp. 424-442, 2020.
[6] P. Yazgan, Association Rules And Market Basket Analysis: A Case Study In Retail Sector, Istanbul
Commerce University, 2016.
[7] Y. Kurnia, Y. Isharianto, Y. C. Giap, A. Hermawan, and Riki, “Study of application of data mining
market basket analysis for knowing sales pattern (association of items) at the O! Fish restaurant using
apriori algorithm,” 1st International Conference on Advance and Scientific Innovation (ICASI) - IOP
Conf. Series: Journal of Physics: Conf. Series 1175, 2019, pp. 1-6.
[8] R. Husna, R. Lestari, and Y. Hendra, “Inventory model of goods availability with apriori algorithm,”
ICOMSET, IOP Conf. Series: Journal of Physics: Conf. Series 1317, vol. 2018, pp. 1-8, 2018.
[9] V. Singh and K. Kumar, “Data Mining and Knowledge Management,” Int. Res. J. Eng. Technol., vol. 4,
no. 2, pp. 200-206, 2017.
[10] J. Han, J. Pei, and M. Kamber, Data mining: concepts and techniques, Elsevier, vol. 2, 2011.
[11] S. Hussain, N. A. Dahan, F. M. Ba-Alwib, and N. Ribata, “Educational Data Mining and Analysis of
Students’ Academic Performance Using WEKA,” Indones. J. Electr. Eng. Comput. Sci., vol. 9, no. 2,
pp. 447-459, 2018.
[12] F. M. Ba-Alwi and H. M. Hintaya, “Comparative Study for Analysis the Prognostic in Hepatitis Data:
Data Mining Approach,” Int. J. Sci. Eng. Res., vol. 4, no. 8, p. 64, 2013.
[13] U. Fayyad, P. G. Shapiro, and P. Smyth, From Data Mining to Knowledge Discovery in Databases,
American Association for Artificial Intelligence Magazine, vol.17, pp. 36-54, 1996.
[14] F. Ba-Alwi, “Discovery of novel association rules based on genetic algorithms,” Br. J. Math. Comput.
Sci., vol. 4, no. 23, p. 17, 2014.