M  Đ UỞ Ầ

ỹ ữ ậ ế ợ

ọ ấ

ậ ế ợ ụ ệ ữ

ơ ở ữ ệ

ậ ậ ổ ế

ề ứ

ồ ế ợ ượ ư ướ c nhi u nhà nghiên c u trong n ề

ổ ế  truy n th ng ứ ượ ổ ế ậ ế ớ c và th  gi ố  trong th c t c nhu c u c a ng

ự ọ

ủ ừ ể ề ề ậ ổ ế  truy n th ng

ề ọ ủ

ổ ế ọ

ợ ậ ộ   Khai phá lu t k t h p là m t trong nh ng k  thu t quan ủ ữ ệ   tr ng nh t trong khai phá d  li u. M c đích chính c a khai ầ ử ố    khác phá lu t k t h p là tìm ra m i quan h  gi a các ph n t ậ ế ợ   nhau trong c  s  d  li u. Bài toán khai phá t p lu t k t h p ậ   g m hai bài toán con đó là khai phá t p ph  bi n và sinh lu t   k t h p. Trong đó, bài toán khai phá t p ph  bi n đã thu hút i quan tâm. đ   ậ ự ế ẫ    v n Nh ng khai phá t p ph  bi n ạ ườ   ầ ủ ế còn nhi uề  h n ch , không đáp  ng đ i ử ụ  nh  đánh giá s  quan tr ng c a t ng ph n t ư ầ ử  trong s  d ng   ơ ở ữ ệ . Đ  kh c ph c nh ng ừ ữ   ụ ắ ị t ng giao d ch hay trong c  s  d  li u ố , nhi u nhà ế ủ  khai phá t p ph  bi n ạ   h n ch  c a ở ộ  trong đó có tính đ nế   ấ nghiên c u đã đ  xu t mô hình m  r ng ứ ộ ơ ở ữ  ầ ử  trong c  s  d m c đ  quan tr ng khác nhau c a các ph n t ố ­ WFI; khai phá  ư ệ li u nh : khai phá t p ph  bi n có tr ng s   t p ậ l i ích cao ­ ậ HUI.

ộ ậ ứ ổ ế

ọ ậ ổ ế

ấ ấ

ứ ượ

ế ề ử ụ

ưỡ

i ích th c t

ứ ầ M t trong nh ng thách th c trong khai phá t p ph  bi n có ố ậ   i ích cao đó là t p ph  bi n có tr ng s , t p ố  ả ầ   c sinh ra và không gian tìm ki m. H u   i ích cao đ u s  d ng tính ị   i ích tr ng s  giao d ch – TWU do Liu và ẫ   ng TWU v n còn ẫ   ầ ử , do đó v n ế   t,

ộ ố ượ ờ ế ữ ọ ậ ợ ố tr ng s  và t p l ợ l i ích cao không có tính ch t đóng ­ tính ch t làm gi m s ượ ng  ng viên đ l ậ ế ậ ợ h t các thu t toán khai phá t p l ố ủ ợ ấ ch t đóng c a l ố ự ộ c ng s  công b  năm 2005. Tuy nhiên, ng ự ế ủ ậ ớ ợ  c a các t p ph n t khá cao so v i l ớ còn phát sinh m t s  l ng l n các  ng viên không c n thi ố do đó tiêu t n th i gian và không gian tìm ki m.

ứ ậ

ề ọ ữ đã  ch n đ  tài “

ố ,   trên   Nghiên c u phát tri n mô ợ   ọ i

ủ ậ ơ ở nh ng nghiên c u, nh n xét và đánh giá  ở Trên c  s   ứ ể ứ nghiên c u sinh   ậ ph n tầ ử  có tr ng s  và l ậ hình, thu t toán khai phá t p   ế ứ ề ích cao” làm đ  tài nghiên c u cho lu n án ti n sĩ c a mình.

ụ ứ M c tiêu nghiên c u

ổ ế   ­ Nghiên c u các thu t toán khai phá t p ph  bi n, ố ứ ổ ế ậ ợ ọ ậ t p ph  bi n có tr ng s  và t p l ậ i ích cao.

ự ữ ệ ấ

ề ế ơ ở ự ể

ổ ế ậ ọ ố

ằ   ệ Xây d ng mô hình, đi u ki n, c u trúc d  li u nh m ả   gi m không gian tìm ki m và d a trên c  s  đó đ  xây ự   d ng các thu t toán khai phá t p ph  bi n có tr ng s  và ậ ợ t p l ậ i ích cao.

ươ

Ổ Ế

Ch

ng 1.

T NG QUAN V  KHAI PHÁ T P PH  BI N

1.1.  Gi

ơ ệ ớ ậ  t ng h  tr

ế

ọ ấ ử

i thi u chung ổ ế ộ ậ ấ ả

ỉ ỗ ầ ử ầ ử ị

ặ ấ ệ

ớ ủ ầ

ả ặ

ậ ị

ậ ầ ử ố ươ ỉ

ầ ử ữ ệ ụ ể

ượ ọ ể ố

ậ ợ ố ầ   ầ ử ậ  có s  l n Khai phá t p ph  bi n là tìm ra các t p ph n t ỗ ợ ố ể ấ ưỡ   i thi u (minsupp). xu t hi n l n h n m t ng ứ  ữ ạ ổ ế Tuy nhiên, khai phá t p ph  bi n có nh ng h n ch . Th ư  ầ nh t, nó x  lý t  có t m quan tr ng nh t c  các ph n t ạ   ộ ứ  ch  có tr ng nhau. Th  hai, trong m t giao d ch m i ph n t ế  ệ ạ ữ ấ thái xu t hi n ho c không xu t hi n. Rõ ràng nh ng h n ch ề ổ ố   ế ậ này   làm   cho  bài   toán   khai   phá  t p   ph   bi n   truy n   th ng ụ ư ự ế ơ ở ữ ệ ợ   , ví d  nh  trong không phù h p v i các c  s  d  li u th c t ị ọ   ặ ỗ ơ ở ữ ệ c  s  d  li u c a siêu th , m i m t hàng có t m quan tr ng ỗ   ố ượ ng mua các m t hàng trong m i hay giá c  khác nhau, s  l ổ  giao d ch cũng khác nhau,… Vì v y, mô hình khai phá t p ph ữ ả ế ấ    xu t ng quan gi a các ph n t bi n ch  ph n  ánh m i t ủ   ư ơ ở ữ ệ ệ hi n trong c  s  d  li u, nh ng không ph n ánh ý nghĩa c a ữ ắ ừ   c đi m trên  d  li u. Đ  kh c ph c nh ng nh t ng ph n t ổ ế ậ có hai mô hình đ   c đ a ra: T p ph  bi n có tr ng s  ­ WFI và T p l ượ ư i ích cao ­ HUI.

ổ ế

1.2.  T p ph  bi n

ậ ậ ế

ấ ố ầ ưỡ ớ ơ

ượ c trong c  s  d  li u l n đ

ề ữ ệ

ệ ữ ậ ố ổ ế ầ   Khai phá t p ph  bi n là quá trình tìm ki m t p các ph n ệ ộ ử   t ng cho  có s  l n xu t hi n cùng nhau l n h n m t ng ơ ở ữ ệ ớ ướ   c R. Agrawal, T. Imielinski tr ầ ừ ấ  nhu c u bài toán và A. Swami đ  xu t năm 1993, xu t phát t   ệ   ể ị ơ ở ữ ệ phân tích d  li u trong c  s  d  li u giao d ch, đ  phát hi n ị   ạ i siêu th . các m i quan h  gi a các t p hàng hóa đã bán t

ệ ị ữ t s  khác nhau gi a các

ệ ự ệ ủ ự ấ Vi c xác đ nh này không phân bi ỉ ự hàng hóa mà ch  d a vào s  xu t hi n c a chúng.

ộ ố ươ ổ ế ậ M t s  ph ng pháp khai phá t p ph  bi n:

ươ ự ­ Ph ệ ế ố ng pháp d a trên quan h  k t n i

ươ ử ụ ấ ­ Ph ng pháp s  d ng c u trúc cây

ươ ưở ậ ố ệ ­ Ph ng pháp tăng tr ự ng đ  quy d a trên h u t

ộ ố ươ ­ M t s  ph ng pháp song song

ố ổ ế 1.3.  T p ph  bi n có tr ng s

ủ ư

ố ượ

ưỡ ơ

ỗ ả ộ ổ ế ộ ậ ự ổ ế ọ Năm 1998, nhóm c a Ramkumar đã đ a ra mô hình khai   ố Weight Frequent Itemsets –   ộ ọ ư   ố  có m t tr ng s  khác nhau nh : ộ ậ ng,…M t t p các i ích, giá c , đ  quan tr ng hay s  l   ố ủ   ọ ị ầ ử  là ph  bi n có tr ng s  khi giá tr  có tr ng s  c a ướ ớ   c. D a trên mô hình này ố  ậ

ượ ọ ổ ế phá  t p ph  bi n có  tr ng s  ( ầ ử WFI). Trong đó, m i ph n t ọ ợ l ọ ố ph n t ng cho tr chúng l n h n m t ng ề đã có nhi u thu t toán khai phá t p ph  bi n có tr ng s ố c công b .  đ

ộ ố ươ ọ M t s  ph ng pháp khai phá t p ậ ph  bi n ổ ế có tr ng s ố:

ự ậ ả ọ ố ­ Thu t toán d a trên kho ng tr ng s

ậ ả ử ụ ­ Thu t toán s  d ng b ng băm

ổ ế ự ậ ấ ố ỉ ọ ­ Thu t toán d a trên tr ng s  ph  bi n x p x

ậ ự ­ Thu t toán d a trên cây WIT

ẫ ề ấ 1.4.  Đ  xu t thu t toán khai phá m u ph  bi n ổ ế có tr ngọ

ậ ề ọ số theo chi u d c

ậ ể ự ữ ư

ậ ậ ấ ề ổ ế

ọ ổ ế ố ớ

ử ụ ấ

ậ ậ

ả ử ẻ ộ ệ

ẫ ớ

ầ ự ủ   D a trên nh ng  u đi m c a thu t toán VMDG khai phá ậ   t p ph  bi n, đ  xu t thu t toán khai phá t p ph  bi n có ọ tr ng s  v i tên g i VMWFP (Vertical Mining of Weighted   ừ  Frequent Patterns Using Diffset Groups) s  d ng c u trúc. T ự   thu t toán VMWFP xây d ng thu t toán song song PVMWFP ơ  ớ K t qu  th  nghi m trên các c ế trên mô hình chia s  b  nh .  ị ầ ử ớ ở ữ ệ  và 3984 giao d ch sinh ng u nhiên s  d  li u v i 52 ph n t   ậ   ậ ể ế đ  ti n hành so sánh thu t toán song song PVMWFP v i thu t ượ ế toán tu n t ả ư Hình 1.1. c k t qu  nh VMWFP đ

ế ả Hình 1.. K t qu  so sánh PVMWFP và VMWFP

ậ ợ

1.5.  T p l

i ích cao

ộ ự

ụ ắ

ậ ườ ử ụ  qua hai tr ng s

ợ ợ ậ   ư Năm 2003 Chan và c ng s  đã đ a ra mô hình khai phá t p ể ữ   ợ High Utility Itemsets – HUI), đ  kh c ph c nh ng l i ích cao ( ổ ế   ế ủ ổ ế ạ h n ch  c a mô hình khai phá t p ph  bi n và t p ph  bi n ố ọ i s  d ng đánh có tr ng s . Trong mô hình này cho phép ng   ố  ọ ầ ử ủ ừ ọ ượ ầ c t m quan tr ng c a t ng ph n t giá đ ọ i ích trong và l khác nhau g i là l i ích ngoài.

ệ ự ư ộ Năm 2005, Ying Liu và c ng s  đ a ra khái ni m l

ị ọ

ầ ử ủ ổ ị

ượ ầ ử

ố ợ i ích t

ậ ả ợ   i ích ệ     X,  ký  hi u là i ích c a các giao d ch có   ấ   ấ  X. Đây là giá tr  có tính ch t đóng, tính ch t ể   i thi u ng l ứ ậ   i ích cao ch a t p

ộ ậ ố ủ giao d ch có  tr ng  s   c a  m t  t p ph n t ợ ằ c tính b ng t ng l TWU(X) đ ị ứ ậ ch a t p ph n t ưỡ ỏ ơ ả ằ ả này đ m b o r ng TWU(X) nh  h n ng ậ ợ thì t p X không có kh  năng sinh ra t p l X.

ứ ủ ậ ợ ữ ộ M t trong nh ng thách th c c a khai phá t p l i ích cao:

ấ ấ ­ T p l

ậ ợ ủ ậ ả   i ích không có tính ch t đóng, tính ch t này đ m   i ích cao thì các t p con c a nó cũng là

ậ ợ ộ ậ ả b o m t t p là t p l ậ ợ t p l i ích cao.

ậ ậ ợ ­ Đa s  các thu t toán khai phá t p l i ích cao  đ u s

ụ ể ắ ỉ ậ ứ

ự ế ủ ớ ử  ề ưỡ   ng TWU đ  c t t a t p  ng viên. Đây là ng ng ộ ậ   ị ợ  c a m t t p i ích th c t

ầ ử d ng ng ề cao h n r t nhi u so v i giá tr  l ph n t ố ưỡ ơ ấ .

ố ượ ứ ậ Do v y, s  l ng các  ng c  viên đ

ấ ớ ứ ế ế

ẫ   ử ượ c sinh ra r t l n d n ể ờ đ n không gian tìm ki m và th i gian ki m tra các  ng viên   có chi phí cao.

M t s  ph ng pháp khai phá t p l

ộ ố ươ ư ử ụ ủ

ụ ợ

ấ i ích cây con (utility sub­tree) và và l ủ ụ ộ ả ầ   ậ ợ ệ i ích cao hi u qu  g n ợ   i   ích   (utility­list)   c a   Liu đây   nh :   s   d ng   danh   sách   l ủ ỉ ố ế ợ ả ứ ả   (2012); b ng ch  s  k t h p b ng  ng viên c a Guo (2013); ợ ướ ệ ủ ầ ử ặ  cùng xu t hi n c a Philippe   c tính l i ích các c p ph n t ợ   ử ụ i (2014); s  d ng d ng l ích c c b  (local utility) c a Zida (2016).

ươ

Ậ Ợ

Ch

ng 2.

THU T TOÁN KHAI PHÁ T P L I ÍCH   CAO  D A TRÊN MÔ HÌNH CWU

ậ ợ ệ ả 2.1.  Mô hình hi u qu  khai phá t p l i ích cao

ề ặ ấ Đ t v n đ

ố ư Nh  chúng ta đã bi

ượ ế c phân tích

ầ ử

ầ ử ủ ậ (cid:0) ậ

ố ơ

ấ ặ ằ ủ ợ ổ

ứ ứ ằ ặ ợ

ậ ợ   ậ t, đa s  các thu t toán khai phá t p l i ở ề ử ụ ích cao đ    trên đ u s  d ng mô hình TWU làm ộ   ậ ứ ơ ở ể ắ ỉ ớ ộ c  s  đ  c t t a các t p  ng viên. V i m t ph n t  a, m t ề ố ộ ậ ầ ử ậ  có a là ti n t  {aX}, ta t p ph n t    {X} và m t t p ph n t ự ươ   ,   có ng   t có   TWU({aX})  là   c n   trên   c a   AU({aX}).   T ủ   {aX}  TWU({X}) là c n trên c a AU({X}). Ta th y {X}   ị ị ố ẽ ớ ứ   nên s  giao d ch ch a {X} s  l n h n ho c b ng s  giao d ch ậ ị   i ích c a các giao d ch ch a {aX}. V y, TWU({X}) là t ng l ơ ẽ ớ ổ ch a {X} s  l n h n ho c b ng TWU({aX}) là t ng l   i ích ứ ị ủ c a các giao d ch ch a {aX}.

ậ ậ ợ Trong các thu t toán khai phá t p l

ả ử ấ ả

ề ố

ể ẫ

ề ứ ể ỉ

ệ ề   i ích cao theo chi u ầ ử   ề ố ậ  a,  là ph n t  s , {aX} là t t c  các t p có ti n t sâu. Gi ậ ấ ả ầ ử    b. Khi khai phá t c  các t p có ti n t  là ph n t {bX} là t ầ ử ư ẽ ậ  a. Nh ng khi   các t p trong {bX} s  không còn ch a ph n t ầ ử   ồ ủ ị ợ  a. tính TWU({bX}) có th  v n g m giá tr  l i ích c a ph n t ơ   ớ ủ ậ Đi u này làm TWU({bX}) là c n trên c a AU({bX}) l n h n ậ ứ   ế ầ m c c n thi t và khi dùng TWU({bX}) đ  t a các t p  ng ả ẽ viên s  không hi u qu .

ừ ữ ề ậ ấ ở T  nh ng phân tích

ậ (Candidate Weight Utility) và thu t toán HP khai phá t p l trên, lu n án đ  xu t mô hình CWU ậ ợ   i

ự ằ ả ố ượ ậ ứ   ng t p  ng

ích cao d a trên mô hình này nh m gi m s  l viên [II].

ề ấ Đ  xu t mô hình CWU

ề ể

T  nh ng nh n xét trên, lu n án đ  xu t mô hình CWU đ ắ ủ ể ừ ữ ụ kh c ph c nh ấ ậ ậ ượ c đi m c a mô hình TWU.

ị ậ [II] T p ti n t Đ nh nghĩa 2.1.

ậ ầ ộ ề ố ủ  c a m t ph n t ướ ứ   trong   t p   I   mà   đ ng   tr ầ ử ầ c   ph n   t ậ    It là t p ử     It:

ử các   ph n   t SetPrefix(It) = {j  I | j  It}.

ị [II] Ti n t ứ ự

1

ộ ậ  c a m t t p ph n t ướ ứ ầ ử ầ ử ầ c ph n t có th  t  đ u tiên y

ề ố ủ Đ nh nghĩa 2.2. ầ ử ậ Y là t p các ph n t  trong I đ ng tr ệ ủ ậ c a t p Y, kí hi u là SetPrefix(Y) và

(2.1) SetPrefix(Y) = {j  I | j  y1}

ị ố ợ Đ nh nghĩa 2.3.

ọ [II] L i ích  ng viên có tr ng s  (CWU – ầ ử  Y, ký hi u là

ượ ư ị Candidate Weighted Utility) c a t p ph n t CWU(Y) đ ứ ủ ậ ệ ặ c xác đ nh nh  sau:Đ t X = SetPrefix(Y), thì

(cid:0) ế N u X = thì .

ứ ị Đ nh nghĩa 2.4.  ể ợ [II] Khi CWU(Y)   α v i ớ α là ng ậ ợ ọ c, ta g i Y là t p l

ậ ợ ượ ứ ọ c g i là t p l i, Y đ

ọ ố   ưỡ i ng t ứ   ướ i ích  ng viên cho tr thi u l i ích  ng ố ọ   viên   có   tr ng   s   cao   (HCWU­   High   Candidate   Weighted ượ ạ Utility). Ng   c l i ích  ng viên có ố ấ tr ng s  th p (LCWU – Low Candidate Weighted Utility).

k­1,Yk

Tính ch t 2.1. ỏ ầ ử ề ố ủ I, Yk (cid:0) ậ  [II] Cho 3 t p ph n t  I và Yk­1 là ti n t

có th  t  c a Y ề ố ủ ậ ớ ứ ự  I, Y ụ ể k. C  th : Y  c a t p Y

k­1  k =  k­1) =

ấ k­1 (cid:0) th a mãn Y = {y1, y2,…, yk­1 | yi   yi+1 v i i=1..k­2} là ti n t {y1, y2,…, yk­1, yk  | yi   yi+1  v i i=1..k­1} thì SetPrefix(Y SetPrefix(Yk).

ầ ử ậ [II] Xét 2 t p ph n t

k­1 là t p (k­1)­ph n t  HCWUs.

ầ ử ậ ị Đ nh lý 2.1. ầ ử , Y có th  t  và là  ti n t ứ ự , Y ề ố ủ  c a Y ậ k là t p k­ k. N uế

ph n t Yk (cid:0) HCWUs thì Yk­1 (cid:0)

ậ ầ ử Đây là tính ch t đóng c a các t p ph n t theo mô hình

ấ ế CWU. Nghĩa là, n u CWU( ủ Yk­1) <  thì CWU(Yk) <

ồ ả ử   s .   [II]   Gi Đ nh   lý   2.2

α (cid:0) ưỡ HCWUs   g m   các   t p   Y   có ậ   là ,   HUs   g m   các   t p   Y   có   AU(Y)     ướ ồ ể ố ị CWU(Y)     ợ ng ng l ậ α ớ   v i    HCWUs. c. Khi đó HUs i thi u cho tr α i ích t

ố ứ

ơ

Đ  kh ng đ nh mô hình CWU có s   ng viên ít h n mô

ổ ề

ư hình TWU, lu n án đ a ra hai b  đ  sau.

ề ệ ấ ỳ ậ . [II] Cho t p b t k  Y, ta luôn có CWU(Y) ≤ M nh đ  2.1

TWU(Y).

ề ệ ồ

ậ (cid:0) . [II] Cho HCWUs g m các t p Y có CWU(Y) ồ  là các ố ướ ể ợ ậ M nh đ  2.2  và HTWUs g m các t p Y có TWU(Y)    ưỡ i thi u cho tr α c, thì HCWUs i ích t ng l α ng α ớ , v i   HTWUs.

ậ ự i ích cao d a trên ch ỉ

2.2.  Thu t toán HP khai phá t p l ế

ầ ậ

ế ừ ậ ớ ậ ợ ố s  hình chi u và mô hình CWU ậ Trong ph n này, lu n án trình bày thu t toán HP đ ủ  c a Gou (2013) ượ ả   c c i ộ ố ả ế  v i m t s  c i ti n sau: thu t toán PB ti n t

ế ợ ử ụ ­ S  d ng k t h p hai mô hình TWU và CWU;

ầ ử ế ­ S p các ph n t

ố ạ sau khi đã lo i các ph n t ị ừ  trong t ng giao d ch gi m d n theo AU ể ưỡ ầ ử ỏ ơ i thi u. ầ i ích t ả ợ ng l nh  h n ng

ử ụ ậ cượ  s  d ng trong thu t toán: ộ ố ấ đ a.  M t s  c u trúc

ả ứ , l

ọ ố ợ ậ k g m: các t p k­ph n t i ích th c t ứ   ầ ử ợ i ích  ng ự ế ủ ậ ứ    c a t p  ng viên ­

ồ ­ B ng  ng viên TC viên có tr ng s  ­ CWU và l AU.

ị ị ấ ệ

X g m k­ph n t

ỉ ố có th

ậ ứ ồ

ầ ử ồ ỉ ố X c a t p X g m: các giao d ch T ứ ậ   ủ ậ j ch a t p ­ B ng ch  s  IT ủ ậ ầ ử ố ủ  cu i cùng c a t p X xu t hi n trong giao   X, v  trí p c a ph n t ồ ể  ầ ử ừ ả ị d ch T j và U(X,Tj). T  b ng ch  s  IT ầ ử ớ ề ố    là  v i ti n t tính nhanh các t p  ng viên g m (k+1)­ph n t ậ t p ph n t X.

i ch a giá tr  l ị

ị ả ứ

ớ ề ố i ích cao v i ti n t ấ ả ậ ợ t c  t p l

i  s  tính  đ

ượ ự ẽ ầ   ủ ị ợ i ích c a ph n ứ j).  j ch a i và U(i, T ầ ử  i thì  là ph n t   ầ ử ớ    i  = c CWU(Y) v i  ph n t

ợ ­ B ng giao d ch l i ích ­ UT ồ ị ừ ử t  i trong t ng giao d ch g m: giao d ch T Sau khi tìm t ả d a vào  b ng UT ListItemPrefix(Y).

ệ ế ả ự K t qu  th c nghi m

ế ả ử ữ ệ ớ

ậ ộ ữ ệ

K t qu  th  nghi m, so sánh gi a thu t toán HP v i các ậ thu t toán Two Phase, PB trên b  d  li u T30I4D100K và   Mushroom.

ượ

Hình 2.. S  l

c sinh

ự ờ Hình 2.. Th i gian th c hi n trên T30I4D100K

ố ượ ứ ng  ng viên đ ra trên T30I4D100K

ượ

Hình 2.. S  l

ng  ng viên đ

c sinh

ố ượ ứ ra trên Mushroom

ự ờ Hình 2.. Th i gian th c hi n trên Mushroom

ậ ợ

ự i ích cao d a trên ch  s

ỉ ố

2.3.  Thu t toán song song PPB khai phá t p l

ế

hình chi u và danh sách l

i ích

ậ ậ ợ Thu t  toán  song  song  PPB [V]  khai  phá t p  l

ượ ệ ạ ố

ứ ể

ộ ố ớ i   ích  cao ề   c công b  trong t p chí Công ngh  Thông tin và Truy n đ ụ   ứ thông: “Các công trình nghiên c u, phát tri n và  ng d ng CNTT­TT" v i m t s  đóng góp sau:

ớ ợ

ể   i ích đ  sinh ứ   i ích cao, lo i nhanh các  ng viên và

ạ ộ ử ầ ử ừ ả ỉ ố ế ợ ­ Dùng b ng ch  s  k t h p v i danh sách l ậ ợ ậ ứ t p  ng viên, tìm t p l ộ ậ ử đ c l p x  lý các ph n t trên t ng b  x  lý.

ả ượ ư ợ ­ Gi n l ữ c thông tin l u tr  trong danh sách l i ích.

ậ ợ ự i ích cao

ậ ẻ ộ ­ Xây d ng thu t toán song song khai phá t p l ớ trên mô hình chia s  b  nh .

ộ ố ấ ượ ử ụ ồ ậ c s  d ng trong thu t toán PPB g m: a.  M t s  c u trúc đ

ự ế i ích th c t , l

ị ệ ể ộ ầ ậ ồ ầ ử ợ k g m: các t p k­ph n t  ­ AU ạ ủ ứ i c a  ng viên – RU. Các giá tr  AU, RU trong c tính trong cùng m t l n duy t đ  tính TWU,

ả ­ B ng TC ợ i ích còn l và l ượ ả b ng TC 1 đ trong đó RU(X) = TWU(X) – AU(X).

ả ị

ầ ử ủ ậ ố

ị ợ ồ ỉ ố X c a t p X g m: các giao d ch T ủ j; itutil(X, Tj) – giá tr  l

ủ ậ ầ ử ị ợ ạ ứ ậ   j ch a t p ệ ấ ủ ậ    cu i cùng c a t p X xu t hi n trong i ích c a t p X trong giao   ậ   i sau t p  còn l i ích các ph n t

j.

­ B ng ch  s  IT ị X; v  trí p c a ph n t ị giao d ch T d ch Tị j; rutil(X, Tj) – giá tr  l X trong giao d ch Tị

ế ệ ả ự K t qu  th c nghi m

ậ ệ ế ả ử

ưỡ ổ ợ i ích cao khi thay đ i ng

ượ ớ ữ ộ ữ ệ ự ố i ích t c   sinh   ra   t ng   ng   viên   đ

ứ ố i ích t i thi u khác nhau.  ự ể ệ

ưỡ ữ ậ

ươ ộ ữ ệ ể ố K t qu  th  nghi m, so sánh gi a thu t toán PPB­Miner   ớ v i   thu t   toán   HP   [II]   trên   b   d   li u   T30I4D100K   và   ậ   ệ ờ Mushroom. Hình 2.5 so sánh th i gian th c hi n khai phá t p ể Hình 2.6 so  ợ i thi u,  l ng l ứ ươ ố ượ ng   ng   v i   các sánh   s   l   ợ ưỡ Hình 2.7  và Hình 2.8  so  ng l ng ố ứ   ậ ợ ờ i ích cao và s   ng sánh th i gian th c hi n khai phá t p l ợ   ớ ứ viên sinh ra gi a hai thu t toán t ng  ng v i các ng i ng l ích t i thi u khác nhau trên b  d  li u Mushroom.

ượ

Hình 2.. S  l

c sinh

ự Hình 2.. Th i gian th c hi n trên T30I4D100K

ố ượ ứ ng  ng viên đ ra trên T30I4D100K

ượ

Hình 2.. S  l

ng  ng viên đ

c sinh

ự ờ Hình 2.. Th i gian th c hi n trên Mushroom

ố ượ ứ ra trên Mushroom

2.4.  Thu t toán CTU­PRO+

Thu t toán CTU­PRO+ [III] cho khai phá t p l  thu t toán CTU­PRO ệ ầ ử ụ ậ

ầ ử i thi u trong ph n 2.2. Thu t toán CTU­PRO+ s i ích nén, các ph n t

ẫ ợ ể i ích AU đ  các ph n t

i ích và đ

ậ ợ   i ích cao    s  d ng mô hình CWU ử  ắ    trong cây s p ẽ  ợ ầ ử i ích cao s  có l ượ ướ c. Sau đó, c khai phá tr   ủ   ợ ừ ậ ạ ằ i ích c a i b ng cách tr  đi l

ượ ượ ả ế ừ đ c c i ti n t ớ ượ c gi [II] đ ấ ụ d ng c u trúc cây m u l ợ ầ ế x p tăng d n theo l ề ố ủ ậ ợ  c a các t p l là ti n t ẽ ượ ậ ị giá tr  CWU s  đ c c p nh t l ề ố các ti n t c khai phá. đã đ

ộ ố ấ a.  M t s  c u trúc

ượ ỉ ố trong CSDL đ c đánh ch  s  1, 2, 3,… theo

ầ ử Các ph n t ầ ứ ự th  t tăng d n theo AU.

 ầ ả

ố ầ ử ứ

ế chung ọ i ích có tr ng s  cao đ ả ồ

ng   c a  ph n t

(item), l ố ượ ố ầ ử i ích th c t

ọ ỏ ỏ ế –   GlobalItemTable   g mồ   ượ ắ   c s p ỉ ố  ầ ử  ợ   i   ích ầ ử  ẫ ợ   i

ử B ng   ph n   t ợ các ph n t   ng viên l ầ x p   tăng   d n   theo   AU.   Trong   b ng   này   g m:   ch   s ộ ơ ợ ầ ử i ích trên m t đ n v  ph n t (index), ph n t ủ ổ   (quantity),  l (utility),   t ng  s   l ứ ự ế ủ ợ ng viên có tr ng s  (CWU), l  c a ph n t ố ủ (AU) và con tr  tr  đ n g c c a nhánh trong cây m u l ích nén chung (GlobalCUP­Tree).

 ủ

ị ợ ớ ng  ng v i giá tr  l

ố ủ

ứ ồ   ch  sỉ ố  ứ   i  ích  ng ỏ ứ ố ượ   ng ỏ ỏ ủ ừ ng  ng c a t ng ph n t

ỏ ỏ ế ỗ M i nút c a GlobalCUP­Tree bao g m: ứ ả ươ (index), m ng CWU t ả ậ ọ viên có tr ng s  c a 1 t p, m ng con tr  ch a s  l ươ ị ầ ử t  trong giao d ch, con tr  tr ứ ế đ n nút anh em cùng m c, con tr  tr  đ n nút cha.

 ả

M ng CWU[] ủ ậ ế ị = {T0, T1,…, Tn}, trong đó: Ti  là  ứ   ỉ ố ầ ử ừ  nút ch  s  i đ n nút ch a t

giá tr  CWU c a t p ph n t Ti.

 T p I =

ị ượ ứ

ỉ ố

ẫ ợ

ầ ắ ầ ừ i ích nén, b t đ u t ủ ỏ   PST   c a   ph n   t b i   con   tr c   tr

ầ ử  ậ ậ ợ   {i1, i2,…, in} là t p h p các ph n t ớ ạ ươ   ng  ng v i các HCWU trong giao d ch đ c ánh x  t ỉ ố   ch  s  trong GlobalItemTable sau đó chèn các ch  s  index ố ủ  nút g c c a nhánh vào cây m u l   ử 1  trong  ỏ ở ượ   i cây   đ GlobalItemTable.

ả ự

ế

K t qu  th c nghi m

ế ệ ữ

ả ử ậ ậ ề ờ

ự ờ Hình 2.. Th i gian th c hi n trên T5N5D100K

ự Hình 2.. Th i gian th c hi n trên T10N5D100K

ể ợ K t qu  th  nghi m, so sánh gi a thu t toán CTU­PRO+   ớ   v i các thu t toán TwoPhase, CTU­PRO v  so sánh th i gian ự ớ   th c hi n trên b  d  li u T5N5D100K và T10N5D100K v i ưỡ ng ộ ữ ệ ố i thi u khác nhau. ệ ng l i ích t

ươ

Ch

ng 3.

Ậ Ợ Ợ

THU T TOÁN KHAI PHÁ T P L I ÍCH CAO   TRÊN CÂY DANH SÁCH L I ÍCH  VÀ ĐI U KI N RTWU

ữ ệ ậ ợ ả ệ 3.1.  C u trúc d  li u hi u qu  cho khai phá t p l i ích

ấ cao

ậ ậ ợ Trong thu t toán khai phá t p l

ế

ạ ầ ử ẫ  trong cây đ ầ c s p x p gi m d n theo TWU nên s

ẽ ế ầ ầ

ế ố ấ ử ụ i ích cao s  d ng c u trúc   ữ ượ   ỉ ư ư ỗ ữ c cây có nh ng h n ch  nh  m i nút trên cây ch  l u tr  đ ữ ơ ế ả ộ , d n đ n kh  năng nén không cao. H n n a, các   m t ph n t ố  ả ế ượ ắ ầ ử ph n t ấ   ả ơ ắ ề nút trong cây s  nhi u h n s p x p gi m d n theo t n su t ữ ư làm t n không gian l u tr  và tìm ki m.

ộ ự ậ

ậ ợ ứ

ả ử ụ ợ s  d ng c u trúc danh sách l

ấ ủ ậ ầ ử ữ Năm 2012, Liu và c ng s  (2012) đã trình bày thu t toán ậ   i ích cao không sinh viên  ng viên. Trong thu t i ích (utility   ắ ỉ    và thông tin c t t a thông tin c a t p ph n t

khai phá t p l toán nhóm tác gi ể ư list) đ  l u tr không gian tìm ki m. ế

ấ ắ ạ ể ữ

ư ụ

ứ ậ ể ắ ỉ ư ế

ầ ầ

ầ ử ượ ắ  đ ấ ố ả ấ ế ế ệ ớ

ậ   ế ụ Đ  kh c ph c nh ng h n ch  trong c u trúc cây và t n ầ ợ ậ ủ ể   i ích, trong ph n này lu n án d ng  u đi m c a danh sách l ế ợ   ẫ ợ ộ ấ i ích nén (CUP) k t h p trình bày m t c u trúc cây m u l ầ ử ợ    và danh i ích, trong đó m i nút ch a t p ph n t danh sách l ả ậ   ệ ủ ợ i ích c a nó. C u trúc này có th  c t t a hi u qu  t p sách l ữ ả ứ ng viên làm gi m không gian tìm ki m và l u tr . Trong cây   ệ   ấ ả các ph n t c s p x p gi m d n theo t n su t xu t hi n, ệ ắ   làm gi m s  nút xu t hi n trong cây so v i vi c s p x p theo TWU.

ả ấ c u trúc cây CUP a.  Mô t

ầ ẽ ậ

ượ ả Trong ph n này, lu n án s  trình bày khái ni m, c u trúc   ế   t ệ c mô t ấ  chi ti

ậ ằ ở cây CUP. Quá trình xây d ng cây CUP đ ầ b ng thu t toán ự ố  ph n cu i.

ụ ộ Hình 3.. Ví d  m t nút trong cây CUP

ả ụ Ví d  nh ư Hình 3.1, mô t

ủ ị ợ

ạ ủ

ươ ứ ớ trong N.Itemsets t

ỏ ỏ ế ủ

đ n cha c a nút N, N.Links là danh sách con tr ầ ử

đ n các nút có cùng các ph n t ỏ ỏ ế ồ    nút N trên cây CUP bao g m: N.Itemset,   N.IUtil,   N.RUtil,   N.TList,   N.UList,   N.Parent,  ầ ử ủ    c a N.Links và N.Childs. Trong đó, N.Itemsets là t p ph n t ợ   i ích nút, N.IUtil là giá tr  l i ích c a N.Itemsets, N.RUTil là l ị còn  l i  c a  N.Itemsets,  N.TList   là   danh  sách  các  giao   d ch   ủ ừ   ợ ứ i ích c a t ng ch a N.Itemsets, N.UList là m t danh sách l ầ ử ng  ng v i N.TList, N.Parent là ph n t   ỏ  con tr  tr ỏ ế    trong cây, N.Childs là tr ủ danh sách con tr  tr  đ n các nút con c a nó.

ự ồ ả ư Quá trình xây d ng cây CUP g m các b ướ ượ c đ c mô t nh  sau:

ả ể ơ ả ỉ Đ  đ n gi n lu n án ch  mô t quá trình chèn các ph n t

ậ ầ ị

ầ ả ầ ử  vào cây, còn các ph n tính toán các giá tr  RUtil, TList, UList   ả ẽ ượ s  đ trong ph n mô t ậ  thu t toán. c mô t

ướ ộ ỗ ợ B c 1, ể ế  duy t d  li u l n 1 đ  đ m đ  h  tr  (support) và

tính TWU cho t ng ph n t ệ ữ ệ ầ ầ ử ừ .

ầ ử ư B

ố có TWU   ắ   i thi u vào danh sách. Sau đó s p

i ích t ầ ấ ầ ướ ị ệ ừ c 2,   duy t t ng giao d ch, đ a các ph n t ể ợ ưỡ ơ ớ l n h n ng ng l ầ ử ả ế x p các ph n t gi m d n theo t n su t.

ướ ự B c 3, xây d ng cây CUP.

ắ ầ ừ ằ  và chèn danh sách ph n t ị  này vào cây b t đ u t

ự ư ừ Th c hi n chèn b ng cách l u t ng giao d ch vào danh sách ầ ử ầ ử ph n t  nút ư ố g c nh  sau:

ể ệ ạ

ớ ki m tra các nút con N c a nút hi n t i và so sánh các  trong danh sách chèn còn

ủ ầ ử  trong N.Itemset v i các ph n t ả ư ả ướ B c 3.1, ầ ử ph n t ạ ớ l i v i các kh  năng x y nh  sau:

ế ấ ả ầ ử ố ỉ ­ N u t t c  các ph n t gi ng nhau thì ch  thêm tid vào

TList.

ế ề ố ­ N u không có 1 ho c nhi u ph n t

ặ ủ ầ ử ầ ệ ạ ồ đ u tiên gi ng nhau i g m: itemsets là các

ớ ạ ạ thì t o nút m i là con c a nút hi n t ầ ử ph n t i trong danh sách. còn l

ộ ề ế ầ ử ầ

ỉ ồ ố khác nhau còn l

ầ ộ ầ ử ủ ố  đ u tiên gi ng nhau thì   ạ   ầ ử i    khác nhau

ặ ­ N u có m t ho c nhi u ph n t nút N ch  g m ph n gi ng nhau, các ph n t ủ c a nút N thành m t nút con c a nút N, các ph n t ủ c a danh

ậ ợ ậ Thu t toán khai phá t p l i  HUI­Growth

ự ượ

ệ ươ ươ ậ ợ Sau khi xây d ng cây CUP thì các t p l ự ng pháp đ  quy t ng t

. Quá trình khai phá t p l ự ệ ừ ướ  d ầ ộ ầ ố a

ằ ra b ng ph ủ Growth c a Han (2000) ượ c duy t t cây CUP đ ấ Đ u   tiên,   l y   m t   ph n   t ỏ ự HeaderTable, d a vào con tr  liên k t c a a i ích cao đ   c tìm ư ậ  nh  thu t toán FP­ ậ ợ i ích cao trên   ả   i lên d a vào b ng HeaderTable. ử i  cu i   cùng   trong   b ng ả   i để  ỏ ế ủ i tr  vào nút N

ẫ ệ ế ậ t thu t toán đ ượ   c ớ ậ ố i. Chi ti  a

ả ề tìm các m u đi u ki n v i h u t ướ i.  mô t phía d

ế ệ ả ự K t qu  th c nghi m

ậ ầ ế ả ự ệ

ế

ớ ệ ớ ưỡ ờ ng l

ệ ớ ữ

ệ ớ ữ

ờ ệ

ờ Hình 3.. Th i gian th c hi n v i d ệ li u Mushroom

Hình 3.. Th i gian th c hi n v i d li u T40I4D100K

ộ ữ ệ ậ   Trong ph n này, lu n án so sánh k t qu  th c hi n thu t toán   HUI­Growth   [IV]   v i   thu t   toán:   UP­Growth,   HUI­ ả ử Miner. K t qu  th  nghi m, trong Hình 3.2 và Hình 3.3 so   ớ   ợ ệ ự i ích khác nhau v i sánh th i gian th c hi n v i các ng hai b  d  li u Mushroom và T40I4D100K.

ỉ ậ ứ

3.2.  Đi u ki n RTWU cho t a t p  ng viên

ố ậ

ấ ủ

ứ ặ ể ế ố ỏ ơ ưỡ ướ ậ ng l

ư

ạ   Thu t   toán   FHM   do   nhóm   Fournier­Viger   (2014)   đã   h n ự   ủ ế ch  các phép n i có chi phí cao c a thu t toán HUI­Miner d a   trên tính ch t đóng c a TWU (Transaction­Weighted Utility).   Đó là, không k t n i các t p sinh ra có ch a c p (x, y) mà ố ợ c. Tuy i thi u cho tr TWU(x, y) nh  h n ng   i ích t ứ ầ   ơ ưỡ nhiên, nh  đã phân tích thì TWU là ng ng cao h n m c c n thi t. ế

ể ả

ấ ậ ng pháp c t t a ố ượ Trong thu t toán FHM đ  gi m s  l ị ợ ắ ỉ ướ ượ ươ ng giá tr  l c l

ố ằ   ng phép n i b ng ệ ph   i ích xu t hi n cùng nhau  (EUCP   ­   Estimated   Utility   Co­occurrence   Pruning)   d aự

ấ ị ợ ướ ượ c l ng giá tr  l

ử ụ ể ư

ữ ấ  (a, b) có TWU(ab) nh ậ ợ ể ẽ ợ ầ ử ậ i ích t

ự ầ ử ứ ặ ố i thi u s  không ph i là t p l ố ấ ả t c  các t p ch a c p ph n t ưỡ ng l ệ ợ ệ ấ trên c u trúc  i ích xu t hi n cùng nhau     (EUCS ­ Estimated Utility Co­Occurrence Structure). M t cách ậ ụ ể ủ   c  th  là thu t toán FHM s  d ng EUCS đ  l u tr  TWU c a ủ   ặ ấ ả  (a, b). D a vào tính ch t đóng c a t t c  các c p ph n t ỏ  TWU, t ơ h n ng   i ích cao ể ừ đ  ng ng vi c ghép n i các danh sách l ả i ích.

ầ ử ượ ắ  đ ề ố

ậ ẽ

ể ẫ ử ủ i ích c a ph n t

là ph n t ứ ồ ậ

ậ ợ ậ i ích cao theo   Tuy nhiên, thu t toán FHM khai phá các t p l ế ứ ự ừ  ả ử ề c s p x p theo th  t  t  s , các ph n t chi u sâu. Gi ầ ử ấ   ậ ấ ả ể  là ph n t t  a, {bX} là t t c  các t p có ti n t đi n, {aX} là t ầ ử ứ   ậ ư ậ ề ố ả  b. Nh  v y, các t p ch a c  các t p có ti n t ầ ư   a.   Nh ng   khi   tính   không   còn   ch a   ph n   t   {bX}   s ề   ầ ử ị ợ  a. Đi u TWU({bX}) có th  v n g m giá tr  l ủ ứ   ơ ớ này làm TWU({bX}) là c n trên c a U({bX}) l n h n m c ẽ  ậ ứ ể ỉ ế ầ t và khi dùng TWU({bX}) đ  t a các t p  ng viên s c n thi ả ệ không hi u qu .

ắ ể ể ậ

ậ ề

ữ ụ Đ   kh c   ph c   nh ng   nh ấ ấ ự ầ ự ậ

ấ ậ

ừ ạ ậ ị

ủ ượ   c   đi m   trên   c a   thu t   toán FHM, lu n án đã đ  xu t c u trúc RTWU (Retail Transaction­  EAHUI­Miner Weighted Utility), xây d ng thu t toán tu n t ử ụ s  d ng c u trúc RTWU và thu t toán song song PEAHUI­ Miner theo mô hình h t m n (fine­grain) t  thu t toán EAHUI­ Miner.

ủ ợ Đ nh nghĩa 3.1.

ầ ử ượ Px ký hi u là exLstPx và đ

ỗ ở ộ ộ   i ích m  r ng c a m t ộ   ị c đ nh nghĩa là m t ố   ồ ầ ử  bao g m b n , trong đó m i ph n t

ườ ị [VI] Danh sách l ệ ậ t p ph n t ầ ử danh sách các ph n t tr tid, iutil, itemutil và rutil, trong đó: ng:

ứ ủ ị ị ­ tid là đ nh danh c a giao d ch ch a Px.

ợ ầ ử ị ­ iutil là l ủ ậ i ích c a t p ph n t ứ    P trong giao d ch tid ch a

Px.

ợ ầ ử ị ­ itemutil là l ủ i ích c a ph n t x trong giao d ch  tid

ứ ch a Px.

ợ ạ ủ ầ ử ạ ­ rutil là l i ích còn l i c a các ph n t còn l i trong

ứ ị ầ ử giao d ch tid ch a Px, tính t ừ ầ ử  ph n t sau ph n t x.

ợ ở ộ Ngoài ra, danh sách l ủ ậ i ích m  r ng c a t p Px còn có các

ườ tr ng sau:

ợ ổ ầ ử ­ ủ ậ i ích c a t p ph n t P trong các

ứ ị sumiutils  là t ng l giao d ch tid ch a Px.

ợ ầ ử ­ ủ i ích c a ph n t x trong giao

ổ sumitemutils là t ng l ứ ị d ch tid ch a Px.

ổ ị ­

ợ ắ ầ ạ ủ i c a giao d ch có th ầ ử ế ế ừ  ph n t ứ     k  ti p sau

ầ ử sumrutils là t ng l i ích còn l ứ  ự tid  ch a Px, b t đ u tính t t  x. ph n t

ị ợ i ích giao d ch còn l [VI] Giá tr  lị

Đ nh nghĩa 3.2.  ầ ử xy trong giao d ch Tị ị ầ ử xy là t ng l

ạ ị còn l ặ j ch a ứ c p ph n t i trong giao d ch có th  t T ạ ủ c pặ   i c a  ợ   ổ i   ứ ự j tính từ

j), và

ph n t ầ ử ủ ích c a các ph n t ệ  x.  ph n t ầ ử Kí hi u là RTWU(xy, T

j ch a c p ph n t

ứ ặ ầ ử

ầ ử ứ ầ ử ướ ỏ trong đó [Tj\ SetPrefix(xy)] – giao d ch Tị  x. xy b  đi các ph n t c ph n t đ ng tr

[VI] Giá tr  l

ị ợ ổ xy trong CSDL là t ng giá tr  l

ị i ích giao d ch còn l ị ợ ị ầ ử Đ nh nghĩa 3.3. ầ ử ạ ủ ặ i c a c p ph n t xy trong các giao d ch T ạ ủ   i c a ị   i ích giao d ch ứ ặ   j  ch a c p

ầ ử ệ ị ặ c p ph n t còn l ph n t xy trong CSDL. Kí hi u là RTWU(xy) và

ấ ượ [VI] C u trúc RTWU đ ằ   ị c xác đ nh b ng

ị Đ nh nghĩa 3.4.  ộ ậ ộ m t t p các b  ba: (x; y; c)  I x I x R.

Trong đó:

ầ ử ậ ­ I là t p các ph n t ộ ơ ở ữ ệ  thu c c  s  d  li u;

ứ ướ ­ thu c I (x đ ng tr ộ   c y theo m t

ầ ử ộ x, y là 2 ph n t ế ắ cách s p x p nào đó);

ậ ố ự ­ R là t p s  th c và c = RTWU(xy).

ị ở ộ

ợ ậ ở ộ ủ ậ ầ ượ

ế

ậ ợ ở ộ ủ ề [VI] Cho hai t p Px, Py là m  r ng c a t p P Đ nh lý 3.1. ủ   i ích m  r ng c a Px và Py l n l t là và hai danh sách l exLstPx   và   exLstPy.     N u   min(exLstPx.sumiutls, exLstPy.sumiutls) + RTWU(xy) < minUtil thì Pxy và các các  ậ t p m  r ng c a nó đ u là các t p l ấ . i ích th p

ị ấ ả ế ậ ậ ự Đ nh lý 3.1 , lu n án đ  xu t c i ti n thu t toán

ở ế ầ D a trên  ự ấ FHM d a trên c u trúc RTWU, đ ph n ti p. ề ượ c trình bày

ầ ự ề 3.3.  Thu t toán tu n t ệ   ự  EAHUI­Miner d a trên đi u ki n

ậ RTWU ậ ầ ồ Trong thu t toán EAHUI­Miner g m 2 ph n chính:

ự ợ ở ộ ­ Xây d ng danh sách l i ích m  r ng

ậ ợ ­ Khai phá t p l i ích cao EAHUI­Miner

ở ộ ứ

ự ớ ậ ỗ ị ầ ử ượ   ủ ậ i ích m  r ng c a t p ch a 1 ph n t  đ c Đ nh   nghĩa   3.1     v i   t p   P  là   r ng   (nghĩa   là

ợ Danh sách l xây   d ng   theo   iutil=0) khi quét CSDL l n 1.ầ

ậ 3.3.1. Thu t toán song song PEAHUI­Miner

ượ ự Thu t toán PEAHUI­Miner đ

ỗ ợ ậ l p trình song song trên môi tr ộ ng b  nh

ả ộ

ả ằ ả ề ả   c xây d ng trên n n t ng ở  ườ ạ   i đ ng theo mô hình h t ữ   i gi a các

ị ế ậ OpenMP h  tr ậ ẻ chia s . Thu t toán song song phân t ằ m n (fine­grain) nh m nâng cao kh  năng cân b ng t ti n trình.

ả ự ệ ế 3.3.2. K t qu  th c nghi m

ả ố ượ ứ S  l

ng  ng viên: ậ

B ng 3.1 th  hi n s  l ế ệ ể ệ ố ượ ấ ớ ề ậ ứ ả ơ

ậ ứ   ng t p  ng ậ   viên do hai thu t toán sinh ra. K t qu  cho th y thu t toán ậ FHM sinh ra nhi u t p  ng vi n h n so v i thu t toán   EAHUI­Miner.

FHM

ố ượ ậ ứ B ng 3.. So sánh s  l ng t p  ng viên.

minutil 2500 2500 1000 100K

153.016 153.016 259.876 1.588.018

EAHUI­Miner 125.647 125.647 258.921 1.587.927

ệ Th i gian th c hi n

ả Dataset  10I4D100K  10I4D100K  Foodmart  Mushroom

ờ ậ ệ ủ

ể ế ậ

ệ ấ ầ ử ỏ ự Th i gian th c hi n c a các thu t toán: EFIM, FHM và   ượ Hình   3.4,   Hình   3.5,   c   th   hình   trên   các   EAHUI­Miner   đ ấ ả Hình 3.6 và Hình 3.7. K t qu  này cho th y, thu t toán EFIM   ướ ủ   ơ ở ữ ệ th c hi n r t nhanh trên các c  s  d  li u mà kích th c c a ậ ậ    I nh , còn hai thu t toán FHM và EAHUI­Miner t p ph n t

ệ ự

ự ờ Hình 3.. Th i gian th c hi n trên Mushroom.

ự ờ Hình 3.. Th i gian th c hi n trên Foodmart

ự ờ Hình 3.. Th i gian th c hi n trên T10I4D100K

ự ờ Hình 3.. Th i gian th c hi n trên T10I4D200K

Hình 3.8 và Hình 3.9 so sánh th i gian th c hi n gi a thu t toán tu n t

ầ ự

ơ ở ữ ệ   EAHUI­Miner và thu t toán song song PEAHUI­Miner trên c  s  d  li u

T10I4D100K, T10I4D200K.

ướ ậ ơ ở ữ ệ   th c hi n nhanh h n thu t toán EFIM trong các c  s  d  li u  I l n.  mà kích th ậ ơ ầ ử ớ c t p ph n t

ự ờ Hình 3.. Th i gian th c hi n trên T10I4D100K

ự ờ Hình 3.. Th i gian th c hi n trên T10I4D200K

Ị K T LU N VÀ KI N NGH

ủ ế ậ ả K t qu  chính c a lu n án:

ớ ụ ấ

ằ ữ ệ ậ ậ ả

ạ ượ ậ ợ ọ ự ệ ậ i ích cao. Lu n án đã đ t đ

ả ậ   V i m c tiêu xây d ng mô hình, c u trúc d  li u và thu t ổ ế   toán nh m nâng cao hi u qu  thu t toán khai phá t p ph  bi n ế   ố có tr ng s  và t p l c các k t qu  chính sau:

ợ ứ ố ọ 1. Mô hình l i ích  ng viên có tr ng s  (CWU –

ự Candidate   Weighted   Utility)   [II]   d a   trên   phân  tích   cho

ấ ằ ượ ề ậ th y r ng mô hình TWU đ ử ụ   c nhi u thu t toán s  d ng

ể ắ ỉ ứ ệ ả đ  c t t a  ng viên là không hi u qu  vì đánh giá ng ưỡ   ng

ị ợ ề ơ ớ ự ế ừ cao h n nhi u so v i giá tr  l i ích th c t . T  mô hình

ậ ợ ề ấ ậ CWU đ  xu t hai thu t toán khai phá t p l i ích cao là

ử ụ ỉ ố HP [II]  s  d ng ch  s  hình chi u ế , CTU­PRO+ [III] sử

ố ượ ụ ấ ứ ơ d ng c u trúc cây cho s  l ờ   ng  ng viên ít h n và th i

ộ ố ự ệ ậ ơ ớ gian th c hi n nhanh h n so v i m t s  thu t toán.

ấ 2. C u   trúc   RTWU   ( Remaining   Transaction­

ị ợ ự ị Weighted Utility)  d a trên giá tr  l i ích giao d ch còn l ạ   i

ợ ủ ặ ở ộ ầ ử ế ợ ớ k t h p v i danh sách l i ích m  r ng c a c p ph n t cho

ậ ắ ỉ ậ ứ c t t a t p  ng viên. Phân tích thu t toán FHM [26]  cho

ế ố ể ấ ả ợ th y đ  làm gi m chi phí k t n i (join) danh sách l i ích

ủ ặ ầ ử ư ữ ị ự d a vào l u tr  giá tr  TWU c a c p ph n t . Tuy nhiên,

ượ ả mô hình TWU đ ắ ỉ   ệ c đánh giá không hi u qu  cho c t t a

ứ ậ ả   ề ấ ấ ng viên. Do đó, lu n án đ  xu t c u trúc RTWU làm gi m

ế ố ậ ứ ự ấ chi phí k t n i và t p  ng viên. D a trên c u trúc RTWU,

ầ ự ậ ề ấ đ  xu t thu t toán tu n t ậ    EAHUI­Miner [VI] khai phá t p

ậ ợ l i ích cao và thu t toán song song PEAHUI­Miner [VI] khai

ậ ợ ả ự ế ệ phá t p l i ích cao cho k t qu  th c nghi m có s  l ố ượ   ng

ự ệ ơ ờ ơ ậ ứ t p  ng viên ít h n và th i gian th c hi n nhanh h n khi c ơ

ư ề ị ở ữ ệ s  d  li u th a và nhi u giao d ch.

ậ ợ ậ 3. Thu t toán song song PPB khai phá t p l i ích

ế ợ ỉ ố ế ợ cao k t h p ch  s  hình chi u, danh sách l ộ   i ích và m t

ươ ư ữ ị ợ ầ ử ph ng pháp l u tr giá tr  l ủ i ích c a ph n t trên các

ể ị giao d ch đ  tính nhanh giá tr ị iutil và rutil trong danh sách

ợ l i ích.

ẫ ợ ấ 4. C u trúc cây m u l i ích nén (CUP ế ợ   ) k t h p

ớ ợ ư ỗ v i danh sách l i ích [IV]. M i nút trên cây CUP l u tr ữ

ầ ử ợ ủ ậ t p ph n t và danh sách l i ích c a nó. Các ph n t ầ ử

ượ ắ ế ệ ả ầ ầ ấ ấ đ c s p x p gi m d n theo t n su t xu t hi n cho s ố

ậ ợ ể ấ nút trên cây là ít nh t. Đ  khai phá t p l i ích cao trên cây

ề ậ ấ ậ CUP, lu n án đ  xu t thu t toán HUI­Growth [IV].

ậ ậ 5. ổ ế   Thu t toán VMWFP [I] khai phá t p ph  bi n

ừ ự ấ ậ ợ l i   ích   cao   d a   trên   c u   trúc   diffset.   T   thu t   toán

ấ ằ ớ VMWFP cho th y r ng các nhóm, l p các nhóm có th  x ể ử

ộ ậ ề ậ ậ ấ lý đ c l p nhau. Do đó, lu n án đ  xu t thu t toán song

ẻ ộ ớ song PVMWFP [I] trên mô hình chia s  b  nh .

ướ ể H ng phát tri n

ọ ậ

ố ổ ế ướ ậ Lu n án t p trung vào b ậ ậ ế ợ

ấ ụ ể ề ấ

ữ ớ

ổ ế ị ứ ạ ợ ữ ệ ấ ầ ậ ậ ậ

ướ ứ ấ c quan tr ng nh t trong khai phá   ậ ợ   ọ i lu t k t h p là khai phá t p ph  bi n có tr ng s  và t p l ậ ích cao. C  th , đ  xu t các mô hình, c u trúc, thu t toán   ậ   ố ậ ầ ự  và song song khai phá t p ph  bi n có tr ng s  và t p tu n t ố   ơ ở ữ ệ ợ i   ích   cao   trên   c   s   d   li u   giao   d ch.   Tuy   nhiên,   kh i l ượ ng d  li u ngày càng l n và ph c t p, c n có nh ng có l   ữ ẽ  nh ng c u trúc và thu t toán phù h p. Do v y, lu n án s ế ụ ti p t c các h ng nghiên c u sau:

ứ ấ

ậ ả ố ọ

(cid:0) Nghiên   c u  các  mô  hình,   c u trúc  và thu t   toán ậ   ậ ợ   ổ ế ệ hi u qu  khai t p ph  bi n có tr ng s  và t p l i ích cao.

ữ ệ ậ ờ ư (cid:0) Đ a k  thu t khai phá d  li u m  vào các thu t ậ

ề ấ ỹ toán đã đ  xu t.

(cid:0) ặ ệ ử ậ

ữ ệ ớ ữ ề ả   Cài đ t, th  nghi m các thu t toán trên n n t ng ậ l p   trình   Hadoop   và   mô   hình   Map­Reduce   cho   nh ng bài toán d  li u l n.