

Luận văn tốt nghiệp Luật kết hợp theo tiếp cận lý thuyết tập thô và khai phá dữ liệu song song

-1-

môc lôc

PhÇn më ®Çu

Néi dung Trang

Ch−¬ng 1. tæng quan vÒ khai ph¸ d÷ liÖu vµ

3

8

khai ph¸ d÷ liÖu song song 1.1. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong C¬ së d÷ liÖu

8

1.1.1. S¬ bé vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 8

1.1.2. Néi dung cña khai ph¸ d÷ liÖu 11

1.1.3. C¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn vµ lùa chän ph−¬ng ph¸p 13

1.1.4. ¦u thÕ cña khai ph¸ d÷ liÖu 15

1.1.5. Mét sè th¸ch thøc trong øng dông vµ nghiªn cøu kü thuËt khai ph¸ d÷ 17 liÖu

1.2. Khai ph¸ d÷ liÖu song song 20

1.2.1. C¸c hÖ thèng tÝnh to¸n song song 21

1.2.2. C¸c chiÕn l−îc khai ph¸ d÷ liÖu song song 26

1.2.3. C¸c m« h×nh chi phÝ 28

Ch−¬ng 2. LuËt kÕt hîp theo c¸ch tiÕp cËn cña

KÕt luËn ch−¬ng 1 31

lý thuyÕt tËp th«

32

2.1. Kh¸i niÖm luËt kÕt hîp vµ mét sè c«ng nghÖ ph¸t hiÖn 32

2.1.1. LuËt kÕt hîp 32

2.1.2. Mét sè c«ng nghÖ ph¸t hiÖn luËt kÕt hîp tuÇn tù 35

-2-

2.2. LuËt kÕt hîp theo c¸ch tiÕp cËn cña lý thuyÕt tËp th« 40

2.2.1. TËp th« 40

2.1.2. LuËt kÕt hîp theo c¸ch tiÕp cËn lý thuyÕt tËp th« 42

Ch−¬ng 3. Ph¸t hiÖn song song luËt kÕt hîp

KÕt luËn ch−¬ng 2 51

52

3.1. Kh«ng gian thiÕt kÕ song song 52

3.1.1. NÒn phÇn cøng 52

3.1.2. M« h×nh song song hãa 53

3.1.3. C¸ch thøc c©n b»ng t¶i 54

3.2. Mét sè m« h×nh ph¸t hiÖn song song luËt kÕt hîp 55

3.2.1. C¸c hÖ ph©n t¸n bé nhí 55

3.2.2. C¸c hÖ chia sÎ bé nhí 65

3.2.3. C¸c hÖ ph©n cÊp 67

3.3. M« h×nh tËp th« ph¸t hiÖn song song luËt kÕt hîp 70

3.3.1. ThuËt to¸n cho m« h×nh tËp trung 72

3.3.2. ThuËt to¸n cho m« h×nh ph©n t¸n 73

PhÇn kÕt luËn

KÕt luËn ch−¬ng 3 74

Tµi liÖu tham kh¶o

75

77

-3-

phÇn Më ®Çu

Sù ph¸t triÓn m¹nh mÏ cña c«ng nghÖ phÇn cøng ®· t¹o nªn c¸c m¸y tÝnh cã

bé xö lý tèc ®é cao, bé nhí dung l−îng lín vµ cïng víi ®iÒu ®ã, lµ sù ph¸t triÓn

kh«ng ngõng c¸c hÖ thèng m¹ng viÔn th«ng. Tõ c¸c kÕt qu¶ ®ã, nhiÒu hÖ thèng

th«ng tin phôc vô viÖc tù ®éng hãa mäi ho¹t ®éng kinh doanh còng nh− qu¶n lý ®·

®−îc triÓn khai víi tèc ®é t¨ng tr−ëng v−ît bËc. §iÒu nµy ®· t¹o ra nh÷ng dßng d÷

liÖu khæng lå trë thµnh hiÖn t−îng "bïng næ th«ng tin" nh− nhiÒu ng−êi quan niÖm.

NhiÒu hÖ qu¶n trÞ c¬ së d÷ liÖu m¹nh víi c¸c c«ng cô phong phó vµ thuËn tiÖn ®·

gióp con ng−êi khai th¸c cã hiÖu qu¶ c¸c nguån tµi nguyªn d÷ liÖu lín nãi trªn.

Cïng víi viÖc khèi l−îng d÷ liÖu ®−îc qu¶n lý t¨ng kh«ng ngõng, c¸c hÖ thèng

th«ng tin còng ®−îc chuyªn m«n hãa theo c¸c lÜnh vùc øng dông nh− s¶n xuÊt, tµi

chÝnh, kinh doanh, y häc,... Nh− vËy, bªn c¹nh chøc n¨ng khai th¸c d÷ liÖu cã tÝnh

chÊt t¸c nghiÖp, sù thµnh c«ng trong kinh doanh kh«ng chØ lµ n¨ng suÊt cña c¸c hÖ

th«ng tin mµ cßn lµ tÝnh linh ho¹t vµ s½n sµng ®¸p l¹i nh÷ng nhu cÇu trong thùc tÕ,

hay nãi kh¸c ®i, ng−êi ta cßn mong muèn c¸c c¬ së d÷ liÖu cÇn ®em l¹i tri thøc tõ

d÷ liÖu h¬n lµ chÝnh b¶n th©n d÷ liÖu. §Ó lÊy ®−îc c¸c th«ng tin mang tÝnh tri thøc

trong khèi d÷ liÖu khæng lå nh− ®· nãi, cÇn thiÕt ph¶i ph¸t triÓn c¸c kü thuËt cã kh¶

n¨ng hîp nhÊt c¸c d÷ liÖu tõ c¸c hÖ thèng giao dÞch kh¸c nhau, chuyÓn ®æi chóng

thµnh mét tËp hîp c¸c c¬ së d÷ liÖu æn ®Þnh, cã chÊt l−îng ®Ó sö dông theo mét sè

môc ®Ých nµo ®ã. C¸c kü thuËt nh− vËy ®−îc gäi chung lµ c¸c kü thuËt t¹o kho d÷

liÖu vµ m«i tr−êng c¸c d÷ liÖu nhËn ®−îc sau khi ¸p dông c¸c kü thuËt nãi trªn ®−îc

gäi lµ c¸c kho d÷ liÖu.

C¸c kho d÷ liÖu cã thÓ gióp khai th¸c th«ng tin b»ng c¸c c«ng cô truy vÊn vµ

b¸o c¸o, còng nh− ®−îc sö dông ®Ó hç trî viÖc ph©n tÝch trùc tuyÕn, kiÓm ®Þnh c¸c

gi¶ thuyÕt. Tuy nhiªn, nÕu chØ cã c¸c kho d÷ liÖu th× ch−a thÓ cã ®−îc tri thøc.

-4-

Chóng kh«ng cã kh¶ n¨ng ®−a ra c¸c gi¶ thuyÕt. NÕu d÷ liÖu ®−îc ph©n tÝch mét

c¸ch th«ng minh th× chóng sÏ lµ nguån tµi nguyªn v« cïng quý gi¸. Tõ c¸c d÷ liÖu

s½n cã, nhu cÇu t×m ra nh÷ng th«ng tin tiÒm Èn cã gi¸ trÞ (nh÷ng tµi nguyªn quý gi¸)

ch−a ®−îc ph¸t hiÖn, nh÷ng xu h−íng ph¸t triÓn vµ nh÷ng yÕu tè t¸c ®éng lªn chóng

lµ mét ®iÒu hÕt søc cÇn thiÕt. TiÕn hµnh c«ng viÖc nh− vËy chÝnh lµ thùc hiÖn qu¸

tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (Knowledge Discovery in Databases -

KDD) mµ trong ®ã kü thuËt khai ph¸ d÷ liÖu (data mining) cho phÐp ph¸t hiÖn ®−îc

c¸c tri thøc tiÒm Èn.

NÕu ph¸t hiÖn tri thøc lµ toµn bé qu¸ tr×nh rót ra tri thøc h÷u Ých tõ c¬ së d÷

liÖu th× khai ph¸ d÷ liÖu lµ giai ®o¹n chÝnh cña qu¸ tr×nh nµy [7]. Giai ®o¹n khai ph¸

d÷ liÖu ®−îc thùc hiÖn sau c¸c kh©u tinh läc vµ tiÒn xö lý d÷ liÖu, nh»m t×m ra c¸c

mÉu, c¸c xu h−íng cã ý nghÜa tõ c¸c tËp d÷ liÖu ®−îc hi väng lµ sÏ thÝch hîp víi

nhiÖm vô khai ph¸. ChØ c¸c mÉu, c¸c xu h−íng ®−îc xem lµ ®¸ng quan t©m (xÐt

theo mét ph−¬ng diÖn nµo ®ã) míi ®−îc coi lµ tri thøc, vµ tri thøc lµ cã Ých khi nã cã

thÓ gióp ®¹t ®−îc môc ®Ých cña hÖ thèng hoÆc ng−êi dïng. Ng−êi ta ®· sö dông c¸c

kü thuËt vµ c¸c kh¸i niÖm cña c¸c lÜnh vùc ®· ®−îc nghiªn cøu tõ tr−íc nh− häc

m¸y, nhËn d¹ng, thèng kª, håi quy, xÕp lo¹i, ph©n nhãm, c¸c m« h×nh ®å thÞ, m¹ng

Bayes... ®Ó khai ph¸ c¸c khèi d÷ liÖu cña kho d÷ liÖu nh»m ph¸t hiÖn ra c¸c mÉu

míi, c¸c t−¬ng quan míi, c¸c xu h−íng cã ý nghÜa.

Mét trong c¸c néi dung c¬ b¶n nhÊt trong khai ph¸ d÷ liÖu vµ rÊt phæ biÕn lµ

ph¸t hiÖn c¸c luËt kÕt hîp. Ph−¬ng ph¸p nµy nh»m t×m ra c¸c tËp thuéc tÝnh th−êng

xuÊt hiÖn ®ång thêi trong c¬ së d÷ liÖu, vµ rót ra c¸c luËt vÒ ¶nh h−ëng cña mét tËp

thuéc tÝnh ®Õn sù xuÊt hiÖn cña mét (hoÆc mét tËp) thuéc tÝnh kh¸c nh− thÕ nµo.

§iÒu ®ã cã thÓ ®−îc diÔn gi¶i nh− sau. Cho mét l−îc ®å R = {A1, A2,..., Ap} c¸c

thuéc tÝnh víi miÒn gi¸ trÞ {0, 1} vµ mét quan hÖ r trªn R, mét luËt kÕt hîp trªn r

®−îc m« t¶ d−íi d¹ng X → Y víi X ⊆ R vµ Y ∈ R \ X. VÒ mÆt trùc gi¸c, cã thÓ ph¸t

-5-

biÓu ý nghÜa cña luËt lµ: nÕu mét b¶n ghi cña b¶ng r cã gi¸ trÞ 1 t¹i mçi thuéc tÝnh

thuéc X th× gi¸ trÞ cña thuéc tÝnh Y còng lµ 1 trong b¶n ghi ®ã.

Cho W ⊆ R, ®Æt s(W, r) lµ tÇn sè xuÊt hiÖn cña W trong r ®−îc tÝnh b»ng tØ lÖ

cña c¸c hµng trong r cã gi¸ trÞ 1 t¹i mçi cét thuéc W. TÇn sè xuÊt hiÖn, cßn gäi lµ ®é

hç trî cña luËt X → Y trong r ®−îc ®Þnh nghÜa lµ s(X ∪ {Y}, r), ®é tin cËy cña luËt lµ

s(X∪ {Y}, r)/s(X, r). ë ®©y X cã thÓ gåm nhiÒu thuéc tÝnh, B lµ gi¸ trÞ kh«ng cè ®Þnh,

vµ ta thÊy kh«ng gian t×m kiÕm cã kÝch th−íc t¨ng theo hµm mò cña sè c¸c thuéc

tÝnh ë ®Çu vµo. NhiÖm vô cña viÖc ph¸t hiÖn c¸c luËt kÕt hîp lµ ph¶i t×m tÊt c¶ c¸c

luËt X → Y sao cho ®é hç trî cña luËt kh«ng nhá h¬n ng−ìng σ cho tr−íc vµ ®é tin

cËy cña luËt kh«ng nhá h¬n ng−ìng α cho tr−íc. Tõ mét c¬ së d÷ liÖu ta cã thÓ t×m

ra hµng ngh×n, thËm chÝ hµng tr¨m ngh×n c¸c luËt kÕt hîp.

Do viÖc ph¸t hiÖn luËt kÕt hîp ®ßi hái l−îng tÝnh to¸n vµ truy xuÊt d÷ liÖu

lín, cïng víi sù ph©n t¸n cña d÷ liÖu, ®Æc biÖt trªn c¸c c¬ së d÷ liÖu trùc tuyÕn, mét

gi¶i ph¸p tù nhiªn ®−îc nghÜ ®Õn lµ ¸p dông tÝnh to¸n song song, bëi c¸c m¸y tÝnh

song song vèn cã kh¶ n¨ng thùc hiÖn nhanh l−îng tÝnh to¸n lín vµ xö lý tèt l−îng

d÷ liÖu lín [4, 10, 15, 17]. C¸c thuËt to¸n ph¸t hiÖn luËt kÕt hîp cã thÓ ®−îc song

song hãa theo nhiÒu c¸ch kh¸c nhau: chóng ta cã thÓ t×m kiÕm ®éc lËp, song song

hãa hoÆc lÆp l¹i mét thuËt to¸n tuÇn tù. §Ó chän ®−îc chiÕn l−îc phï hîp, chóng ta

cÇn dùa trªn c¸c ®é ®o vÒ tÝnh phøc t¹p vµ chi phÝ cho lËp tr×nh song song víi mçi

chiÕn l−îc.

VÊn ®Ò d− thõa d÷ liÖu hoÆc d÷ liÖu kh«ng ®Çy ®ñ trong hÖ th«ng tin cã thÓ

®−îc kh¾c phôc b»ng c¸ch sö dông kh¸i niÖm tËp th« do Pawlak ®−a ra [14, 1]. TËp

th« cho phÐp chia b¶ng quyÕt ®Þnh thµnh c¸c thuéc tÝnh ®iÒu kiÖn vµ thuéc tÝnh

quyÕt ®Þnh, trong ®ã th«ng tin t−¬ng øng víi c¸c thuéc tÝnh quyÕt ®Þnh tuú thuéc

vµo th«ng tin t−¬ng øng víi c¸c thuéc tÝnh ®iÒu kiÖn, phï hîp víi c¸ch biÓu diÔn c¸c

luËt kÕt hîp. ViÖc nghiªn cøu luËt kÕt hîp th«ng qua c¸ch tiÕp c©n tËp th« ®· ®−îc

-6-

Tetsuya Murai, Yoshiharu Sato ®Ò xuÊt trong [12]. HÖ th«ng tin ®−îc ph©n ho¹ch

thµnh tËp c¸c tËp c¬ b¶n, mµ gi¸ trÞ cña tËp th« trong mçi tËp c¬ b¶n lµ gièng nhau,

tõ ®ã phÇn tö ®¹i diÖn cho mçi tËp c¬ b¶n ®−îc chän ra, ta cã ®−îc rót gän cña b¶ng

quyÕt ®Þnh ®Ó gi¶m bít khèi l−îng th«ng tin ®iÒu kiÖn d− thõa cã trong b¶ng quyÕt

®Þnh. Mèi quan hÖ cña luËt kÕt hîp trong c¸c hÖ th«ng tin con Si víi luËt kÕt hîp

trong hÖ th«ng tin hîp thµnh S = ∪ {Si} ®−îc t×m hiÓu ®Ó t×m ra ®iÒu kiÖn cho tÝnh

kh¶ t¸ch cña hÖ th«ng tin, tõ ®ã cã thÓ ph¸t hiÖn song song luËt kÕt hîp dùa trªn

ph©n t¸n theo d÷ liÖu.

LuËn v¨n víi ®Ò tµi "LuËt kÕt hîp theo tiÕp cËn lý thuyÕt tËp th« vµ khai ph¸ d÷

liÖu song song" kh¶o s¸t lÜnh vùc ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu, trong ®ã tËp

trung vµo c¸c néi dung ph¸t hiÖn luËt kÕt hîp theo c¸ch tiÕp cËn cña tËp th«. M«

h×nh song song ph¸t hiÖn luËt kÕt hîp còng ®−îc xem xÐt víi viÖc ph©n tÝch mét sè

thuËt to¸n song song ph¸t hiÖn luËt kÕt hîp.

Ph−¬ng ph¸p nghiªn cøu chÝnh yÕu cña luËn v¨n lµ kh¶o s¸t c¸c bµi b¸o khoa

häc ®−îc xuÊt b¶n trong mét vµi n¨m gÇn ®©y tõ ®ã ®−a ra ®−îc mét sè ý t−ëng

nh»m c¶i tiÕn thuËt to¸n.

Néi dung cña b¶n luËn v¨n nµy gåm cã PhÇn më ®Çu, ba ch−¬ng vµ PhÇn kÕt

luËn. Cuèi mçi ch−¬ng cña b¶n luËn v¨n cã phÇn kÕt luËn ch−¬ng tr×nh bµy tãm t¾t

nh÷ng néi dung chÝnh yÕu trong néi dung cña ch−¬ng.

Ch−¬ng mét giíi thiÖu mét sè néi dung c¬ b¶n vÒ khai ph¸ d÷ liÖu vµ ph¸t

hiÖn tri thøc trong c¬ së d÷ liÖu (môc 1.1), c¸c hÖ thèng ®a xö lý vµ tÝnh to¸n song

song (môc 1.2.1); vµ c¸c chiÕn l−îc vµ m« h×nh chi phÝ cña khai ph¸ d÷ liÖu song

song (môc 1.2.2, 1.2.3). Mét sè néi dung trong ch−¬ng nµy ®−îc trÝch dÉn tõ c¸c tµi

liÖu [2], [7], [9]. §©y lµ nh÷ng kiÕn thøc nÒn t¶ng lµm c¬ së ®Ó cho néi dung c¸c

ch−¬ng sau vµ viÖc thiÕt lËp c¸c thuËt to¸n.

-7-

Ch−¬ng hai cña b¶n luËn v¨n tr×nh bµy vÒ kh¸i niÖm vµ mét sè c«ng nghÖ

ph¸t hiÖn luËt kÕt hîp (môc 2.1); lý thuyÕt tËp th« vµ vÊn ®Ò khai ph¸ d÷ liÖu theo

c¸ch tiÕp cËn tËp th« (môc 2.1). Mét thuËt to¸n t×m tËp tèi −u c¸c luËt vµ thuËt to¸n

c¶i tiÕn cña nã ®−îc tr×nh bµy (môc 2.2.2, thuËt to¸n 2.1, 2.2) cïng víi ®é phøc t¹p

vÒ thêi gian tÝnh to¸n. Hai thuËt to¸n nµy ®−îc dïng lµm c¬ së ®Ò xuÊt ra m« h×nh

song song t−¬ng øng trong ch−¬ng 3.

Ch−¬ng thø ba tr×nh bµy tãm t¾t mét sè thuËt to¸n ph¸t hiÖn song song luËt

kÕt hîp trªn c¸c nÒn phÇn cøng kh¸c nhau vµ so s¸nh chóng (môc 3.2). Qua kh¶o s¸t

mét bµi to¸n hÖ th«ng tin cña Së Y tÕ Hµ Néi [3], luËn v¨n còng ®Ò xuÊt mét m«

h×nh ph¸t hiÖn song song luËt kÕt hîp theo c¸ch tiÕp cËn tËp th«, trong ®ã c¬ së d÷

liÖu ®−îc tr×nh bµy d−íi d¹ng mét b¶ng quyÕt ®Þnh, vµ viÖc song song hãa ®−îc thùc

hiÖn trªn c¸c b−íc d÷ liÖu (môc 3.3).

PhÇn kÕt luËn ®−a ra mét sè néi dung liªn quan ®Õn ph−¬ng h−íng nghiªn

cøu ph¸t triÓn néi dung cña luËn v¨n nµy: ph¸t triÓn m« h×nh ph¸t hiÖn luËt kÕt hîp

vµ thö nghiÖm trªn hÖ thèng tÝnh to¸n song song thùc sù.

Néi dung c¬ b¶n cña b¶n luËn v¨n ®· ®−îc tr×nh bµy t¹i xª-mi-na khoa häc

t¹i bé m«n C¸c HÖ thèng Th«ng tin, Khoa C«ng nghÖ, §¹i häc Quèc gia Hµ Néi.

LuËn v¨n nµy ®−îc thùc hiÖn d−íi sù h−íng dÉn khoa häc cña TS. Hµ Quang

Thôy. T«i xin bµy tá lßng biÕt ¬n s©u s¾c tíi ThÇy ®· cã nh÷ng chØ dÉn tËn t×nh quý

b¸u gióp t«i cã thÓ hoµn thµnh b¶n luËn v¨n. T«i xin ch©n thµnh c¶m ¬n c¸c thÇy

gi¸o vµ b¹n bÌ trong bé m«n C¸c HÖ thèng Th«ng tin ®· cã nh÷ng gãp ý h÷u Ých

trong qu¸ tr×nh thùc hiÖn b¶n luËn v¨n. T«i còng xin c¶m ¬n c¸c thÇy c« gi¸o trong

khoa, c¸n bé thuéc phßng Khoa häc vµ §µo t¹o, Khoa C«ng nghÖ, ®· t¹o ®iÒu kiÖn

thuËn lîi gióp ®ì t«i trong qu¸ tr×nh häc tËp vµ nghiªn cøu t¹i Khoa. T«i v« cïng

c¶m ¬n nh÷ng ng−êi th©n trong gia ®×nh vµ b¹n bÌ ®· lu«n ®éng viªn khÝch lÖ ®Ó t«i

cã thÓ hoµn thµnh b¶n luËn v¨n nµy.

-8-

Ch−¬ng I. Tæng quan vÒ khai ph¸ d÷ liÖu vµ

khai ph¸ d÷ liÖu song song

I.1. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu

I.1.1. S¬ bé vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu

Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu lµ qu¸ tr×nh kh¸m ph¸ nh÷ng tri thøc cã

Ých tõ mét l−îng lín d÷ liÖu ®−îc l−u trong c¸c c¬ së d÷ liÖu. Do c¸c d÷ kiÖn d¹ng

®iÖn tö ®−îc thu thËp vµ tÝch lòy ngµy cµng nhiÒu, do nhu cÇu chuyÓn c¸c d÷ liÖu ®ã

thµnh c¸c th«ng tin vµ tri thøc cã Ých cho c¸c øng dông réng r·i nh− ph©n tÝch thÞ

tr−êng, qu¶n trÞ doanh nghiÖp, hç trî quyÕt ®Þnh ngµy cµng t¨ng, cho nªn lÜnh vùc

ph¸t hiÖn tri thøc ®· ngµy cµng ®−îc quan t©m trong ngµnh c«ng nghiÖp th«ng tin

trong nh÷ng n¨m gÇn ®©y [7].

C¸c c¬ së d÷ liÖu ®−îc x©y dùng víi môc ®Ých qu¶n lý, tËp hîp c¸c d÷ liÖu cã

tæ chøc vµ theo ®ã, mét kÕt qu¶ tù nhiªn lµ con ng−êi cã ®−îc mét khèi l−îng d÷

liÖu rÊt lín. NhiÒu d÷ liÖu nghÜa lµ cã thÓ cã nhiÒu th«ng tin. C¸c chuyªn gia ®−îc

®µo t¹o vÒ ph©n tÝch hç trî quyÕt ®Þnh ®· ph©n tÝch nh÷ng d÷ liÖu ®ã vµ ph¸t hiÖn ra

th«ng tin d−íi d¹ng c¸c mÉu vµ c¸c quy luËt tiÒm Èn sau quan hÖ gi÷a c¸c thuéc tÝnh

kh¸c nhau trong d÷ liÖu. ViÖc nµy gióp cho c¸c doanh nghiÖp thÊy ®−îc kÕt qu¶ cña

c¸c ho¹t ®éng tr−íc ®©y vµ ®Þnh h−íng cho c¸c ho¹t ®éng s¾p tíi. Tuy nhiªn, l−îng

d÷ liÖu s½n cã ®· trë nªn qu¸ lín ®Ó cã thÓ dÔ dµng ph¸t hiÖn ®−îc c¸c th«ng tin nh−

vËy.

Mét øng dông kh¸c cña ph¸t hiÖn tri thøc lµ cung cÊp c¸c hç trî quyÕt ®Þnh

t¸c nghiÖp [9]. Kh«ng nh− c¸ch tiÕp cËn hç trî quyÕt ®Þnh theo chu kú, trong ®ã thêi

gian tõ thêi ®iÓm ph¸t hiÖn ra th«ng tin tíi thêi ®iÓm dïng c¸c th«ng tin ®ã trong

qu¸ tr×nh ra quyÕt ®Þnh cã thÓ mÊt nhiÒu tuÇn hoÆc nhiÒu th¸ng (chóng th−êng ®−îc

dïng ®Ó hç trî quyÕt ®Þnh dµi h¹n cho doanh nghiÖp), hç trî quyÕt ®Þnh t¸c nghiÖp

-9-

cña ph¸t hiÖn tri thøc cã thÓ diÔn ra trong vµi phót vµ ®−îc dïng ®Ó cung cÊp hç trî

quyÕt ®Þnh ng¾n h¹n hoÆc tøc th× trong mét tËp rÊt Ýt c¸c tr−êng hîp, thËm chÝ trong

mét tr−êng hîp. Cã ®−îc c¸c hç trî nh− vËy do ph¸t hiÖn tri thøc ®· cung cÊp c¸c

kü thuËt, c«ng cô ®Æc thï thao t¸c tíi d÷ liÖu.

Trong qu¸ tr×nh ph¸t hiÖn tri thøc, mét sè kiÓu ph©n tÝch kh¸c nhau cã thÓ

®−îc dïng ®Ó ph¸t hiÖn ®−îc c¸c mÉu vµ quy luËt tõ d÷ liÖu ®· cã s½n, trong mét

t×nh huèng ®−îc ®Æt ra cña doanh nghiÖp, sau ®ã th«ng tin cã thÓ ®−îc l−u l¹i nh−

mét m« h×nh to¸n häc trõu t−îng cña d÷ liÖu vèn cã, ®−îc coi nh− mét m« h×nh ph¸t

hiÖn tri thøc. Sau khi ®· t¹o ®−îc m« h×nh ph¸t hiÖn tri thøc, d÷ liÖu míi cã thÓ ®−îc

kiÓm tra trong m« h×nh ®Ó xem liÖu nã cã phï hîp víi mÉu vµ quy luËt mong muèn

kh«ng. Tõ th«ng tin nµy, cã thÓ cã c¸c hµnh ®éng ®Ó c¶i thiÖn kÕt qu¶ trong mét

t×nh huèng ®−îc doanh nghiÖp ®Æt ra.

Mét ®Þnh nghÜa kh¸c vÒ ph¸t hiÖn tri thøc lµ qu¸ tr×nh nh»m x¸c ®Þnh ra c¸c mÉu

cã gi¸ trÞ, míi, cã tiÒm n¨ng sö dông vµ dÔ hiÓu tõ d÷ liÖu [7]. C¸c néi dung sau ®©y

h×nh thøc hãa ®Þnh nghÜa nµy. NÕu coi d÷ liÖu lµ mét tËp c¸c sù kiÖn F th× mÉu lµ

mét biÓu thøc E trong ng«n ng÷ L m« t¶ c¸c sù kiÖn trong mét tËp con FE cña F,

biÓu thøc nµy ph¶i ®¬n gi¶n h¬n lµ viÖc liÖt kª tÊt c¶ c¸c sù kiÖn trong F. C¸c tÝnh

chÊt cã gi¸ trÞ, cã tiÒm n¨ng sö dông, dÔ hiÓu cña mÉu lÇn l−ît ®−îc ®o b»ng c¸c

hµm C, U, S; c¸c hµm nµy ¸nh x¹ c¸c biÓu thøc trong ng«n ng÷ L vµo c¸c kh«ng

gian ®o cã thø tù toµn phÇn hay thø tù bé phËn MC, MU, MS.

C¸c mÉu thu ®−îc lµ míi nÕu cã c¸c thay ®æi trong d÷ liÖu khi so s¸nh gi¸ trÞ

hiÖn t¹i víi gi¸ trÞ cò hoÆc gi¸ trÞ dù ®o¸n, hoÆc cho thÊy c¸c gi¸ trÞ míi t×m ®−îc

liªn quan thÕ nµo víi c¸c gi¸ trÞ cò, ký hiÖu tÝnh míi mÎ cña mÉu lµ N(E, F), nã cã

thÓ lµ mét hµm logic hoÆc mét phÐp ®o vÒ møc ®é míi hoÆc kh«ng ngê tíi cña mÉu.

Mét kh¸i niÖm quan träng kh¸c lµ tÝnh thó vÞ, th−êng ®−îc coi lµ ®é ®o tæng thÓ gi¸

trÞ cña mÉu, tÝnh thó vÞ cã thÓ ®−îc ®o b»ng mét hµm I trong kh«ng gian ®é ®o

-10-

MI: i = I(E, F, C, N, U, S). MÉu E ∈ L ®−îc gäi lµ tri thøc nÕu víi ng−ìng i do ng−êi

dïng ®Þnh nghÜa, ta cã I(E, F, C, N, U, S) > i.

Nh×n chung, qu¸ tr×nh ph¸t hiÖn tri thøc lµ mét chuçi nèi tiÕp vµ lÆp l¹i c¸c

b−íc sau:

- lµm s¹ch d÷ liÖu: xö lý c¸c d÷ liÖu cã lçi, bÞ nhiÔu, thiÕu d÷ liÖu hoÆc d÷ liÖu

kh«ng thÝch hîp;

- tÝch hîp d÷ liÖu: c¸c nguån d÷ liÖu bÞ lÆp l¹i, kh«ng ®ång nhÊt cã thÓ ®−îc

tÝch hîp lµm mét;

- lùa chän d÷ liÖu: lÊy ra c¸c d÷ liÖu liªn quan tíi c«ng viÖc ph©n tÝch;

- biÕn ®æi d÷ liÖu: d÷ liÖu ®−îc biÕn ®æi hoÆc cñng cè d−íi c¸c d¹ng thÝch hîp

®Ó khai ph¸ b»ng c¸ch thùc hiÖn c¸c thao t¸c tãm t¾t hay tËp hîp.

- khai ph¸ d÷ liÖu: qu¸ tr×nh cèt yÕu ®Ó ¸p dông c¸c ph−¬ng ph¸p th«ng minh

nh»m t¸ch ra c¸c mÉu d÷ liÖu;

- ®¸nh gi¸ mÉu: x¸c ®Þnh c¸c mÉu thùc sù thó vÞ biÓu diÔn tri thøc dùa trªn mét

sè ®é ®o tÝnh thó vÞ;

- biÓu diÔn tri thøc: dïng c¸c kü thuËt biÓu diÔn tri thøc vµ trùc quan hãa ®Ó

®−a ra tri thøc míi khai ph¸ ®−îc cho ng−êi dïng.

Tõ viÖc s½n cã c¸c hÖ c¬ së d÷ liÖu quan hÖ vµ c¸c kho d÷ liÖu, bèn b−íc ®Çu

tiªn: lµm s¹ch d÷ liÖu, tÝch hîp d÷ liÖu, lùa chän d÷ liÖu vµ biÕn ®æi d÷ liÖu cã thÓ

®−îc thùc hiÖn b»ng c¸ch x©y dùng c¸c kho d÷ liÖu vµ thùc hiÖn mét sè phÐp xö lý

ph©n tÝch trùc tuyÕn (OLAP) trªn kho d÷ liÖu ®ã. §«i khi c¸c b−íc khai ph¸ d÷ liÖu,

®¸nh gi¸ mÉu vµ biÓu diÔn tri thøc ®−îc kÕt hîp vµo lµm mét qu¸ tr×nh (th−êng lµ

lÆp l¹i), ®−îc gäi lµ khai ph¸ d÷ liÖu. ViÖc khai ph¸ d÷ liÖu nµy ®−îc tiÕn hµnh trªn

tËp d÷ liÖu cã hi väng lµ sÏ thÝch hîp víi nhiÖm vô khai ph¸ ®Ó cã ®−îc c¸c mÉu thó

vÞ, chø kh«ng ph¶i trªn toµn bé d÷ liÖu trong thêi gian ®ñ dµi ®Ó cã c¸c mÉu kh«ng

thùc sù cã Ých nh− kh¸i niÖm trong thèng kª tr−íc ®©y.

-11-

I.1.2. Néi dung cña khai ph¸ d÷ liÖu

I.1.2.1 C¸c nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu

C«ng viÖc khai ph¸ d÷ liÖu cã thÓ chia lµm hai lo¹i: khai ph¸ d÷ liÖu m« t¶ vµ

khai ph¸ d÷ liÖu dù ®o¸n [2, 7]. Lo¹i thø nhÊt m« t¶ d÷ liÖu mét c¸ch ng¾n gän, tãm

t¾t vµ tr×nh bµy c¸c tÝnh chÊt chung ®¸ng quan t©m cña d÷ liÖu. Lo¹i thø hai x©y

dùng mét hoÆc mét tËp c¸c m« h×nh, thùc hiÖn c¸c phÐp suy luËn trªn d÷ liÖu s½n cã

vµ dù ®o¸n hµnh vi cña c¸c tËp d÷ liÖu míi.

C¸c môc tiªu m« t¶ vµ dù ®o¸n ®¹t ®−îc th«ng qua c¸c c«ng viÖc khai ph¸ d÷

liÖu chÝnh sau ®©y:

- Ph©n líp lµ viÖc häc mét hµm ¸nh x¹ mét mÉu d÷ liÖu vµo mét trong sè c¸c

líp ®· x¸c ®Þnh. Qu¸ tr×nh nµy ph©n tÝch mét tËp d÷ liÖu huÊn luyÖn (tøc lµ mét tËp

c¸c ®èi t−îng mµ ta ®· biÕt tªn líp cña nã) vµ x©y dùng mét m« h×nh cho mçi líp

dùa trªn c¸c ®Æc tÝnh trong d÷ liÖu. Mét c©y quyÕt ®Þnh hoÆc mét tËp c¸c luËt ph©n

líp ®−îc t¹o ra tõ qu¸ tr×nh ph©n líp ®ã, nã cã thÓ ®−îc dïng ®Ó hiÓu râ h¬n mçi líp

trong c¬ së d÷ liÖu vµ ®Ó ph©n lo¹i d÷ liÖu trong t−¬ng lai.

VÝ dô, ng−êi ta cã thÓ ph©n lo¹i c¸c bÖnh vµ gióp dù ®o¸n bÖnh dùa trªn c¸c

triÖu chøng cña bÖnh nh©n. Ph©n líp ®−îc dïng trong viÖc ph©n nhãm kh¸ch hµng,

m« h×nh hãa doanh nghiÖp vµ ph©n tÝch tÝn dông...

- Håi quy lµ viÖc häc mét hµm ¸nh x¹ tõ mét mÉu d÷ liÖu sang mét biÕn dù

®o¸n cã gi¸ trÞ thùc. Cã rÊt nhiÒu c¸c øng dông khai ph¸ d÷ liÖu víi nhiÖm vô håi

quy, vÝ dô nh− ®¸nh gi¸ kh¶ n¨ng tö vong cña bÖnh nh©n dùa trªn c¸c kÕt qu¶ xÐt

nghiÖm chÈn ®o¸n, dù ®o¸n nhu cÇu tiªu thô mét s¶n phÈm míi b»ng mét hµm chi

tiªu qu¶ng c¸o.

- Ph©n nhãm (®o¹n) lµ viÖc m« t¶ chung ®Ó t×m ra c¸c tËp x¸c ®Þnh c¸c nhãm

®Ó m« t¶ d÷ liÖu. C¸c nhãm cã thÓ t¸ch rêi hoÆc ph©n cÊp hoÆc gèi lªn nhau, tøc lµ

-12-

mét d÷ liÖu cã thÓ võa thuéc nhãm nµy, võa thuéc nhãm kh¸c. C¸c øng dông khai

ph¸ d÷ liÖu cã nhiÖm vô ph©n nhãm nh− ph¸t hiÖn tËp kh¸ch hµng cã ph¶n øng

gièng nhau trong c¬ së d÷ liÖu tiÕp thÞ, x¸c ®Þnh c¸c lo¹i quang phæ tõ c¸c ph−¬ng

ph¸p ®o tia hång ngo¹i.

- Tãm t¾t lµ ph−¬ng ph¸p t×m kiÕm mét m« t¶ c« ®äng cho mét tËp con d÷

liÖu. VÝ dô nh− viÖc lËp b¶ng c¸c ®é lÖch chuÈn vµ trung b×nh cho tÊt c¶ c¸c tr−êng.

C¸c kü thuËt tãm t¾t th−êng ®−îc ¸p dông cho c¸c ph©n tÝch d÷ liÖu t−¬ng t¸c cã

tÝnh th¨m dß vµ t¹o b¸o c¸o tù ®éng.

- M« h×nh ho¸ phô thuéc bao gåm viÖc t×m kiÕm mét m« h×nh m« t¶ sù phô

thuéc ®¸ng kÓ gi÷a c¸c biÕn. C¸c m« h×nh phô thuéc tån t¹i d−íi hai møc: møc cÊu

tróc cña m« h×nh x¸c ®Þnh nh÷ng biÕn nµo lµ phô thuéc côc bé víi nhau, vµ møc

®Þnh l−îng cña mét m« h×nh x¸c ®Þnh ®é m¹nh cña sù phô thuéc theo mét th−íc ®o

nµo ®ã.

- Ph¸t hiÖn sù thay ®æi vµ chÖch h−íng khai th¸c nh÷ng thay ®æi ®¸ng kÓ

nhÊt trong d÷ liÖu tõ c¸c gi¸ trÞ chuÈn hoÆc ®−îc ®o tr−íc ®ã.

C¸c nhiÖm vô kh¸c nhau nµy ®ßi hái sè l−îng vµ d¹ng th«ng tin kh¸c nhau

nªn chóng th−êng ¶nh h−ëng ®Õn viÖc thiÕt kÕ vµ chän thuËt to¸n khai ph¸ d÷ liÖu

kh¸c nhau.

I.1.2.2 C¸c thµnh phÇn cña thuËt to¸n khai ph¸ d÷ liÖu

Ba thµnh phÇn chñ yÕu trong mét thuËt to¸n khai ph¸ d÷ liÖu lµ biÓu diÔn m«

h×nh, ®¸nh gi¸ m« h×nh vµ ph−¬ng ph¸p t×m kiÕm.

BiÓu diÔn m« h×nh lµ viÖc x©y dùng ng«n ng÷ L ®Ó miªu t¶ c¸c mÉu cã thÓ

ph¸t hiÖn ®−îc. NÕu sù m« t¶ nµy bÞ giíi h¹n qu¸ th× sÏ kh«ng x©y dùng ®−îc m«

h×nh chÝnh x¸c cho d÷ liÖu, v× thÕ ng−êi ph©n tÝch d÷ liÖu ph¶i hiÓu ®Çy ®ñ c¸c kh¶

n¨ng tiªu biÓu cña ph−¬ng ph¸p ®−îc dïng. Ngoµi ra ng−êi thiÕt kÕ thuËt to¸n còng

-13-

cÇn chØ râ gi¶ thiÕt m« t¶ nµo ®−îc t¹o bëi thuËt to¸n nµo. M« h×nh cã kh¶ n¨ng

miªu t¶ qu¸ m¹nh sÏ lµm t¨ng nguy c¬ d÷ liÖu huÊn luyÖn qu¸ phï hîp, dÉn ®Õn

viÖc gi¶m ®é chÝnh x¸c dù ®o¸n c¸c d÷ liÖu ch−a biÕt, thªm vµo ®ã nã cßn lµm cho

viÖc t×m kiÕm trë nªn phøc t¹p vµ viÖc gi¶i thÝch m« h×nh khã h¬n.

§¸nh gi¸ m« h×nh xem xÐt mét mÉu cã ®¸p øng ®−îc c¸c tiªu chuÈn cña qu¸

tr×nh ph¸t hiÖn tri thøc hay kh«ng. ViÖc ®¸nh gi¸ ®é chÝnh x¸c dù ®o¸n dùa trªn

®¸nh gi¸ chÐo, ®¸nh gi¸ chÊt l−îng m« t¶ liªn quan ®Õn ®é chÝnh x¸c dù ®o¸n, tÝnh

míi mÎ, tÝnh h÷u Ých vµ dÔ hiÓu cña m« h×nh. C¶ hai tiªu chuÈn thèng kª vµ logic cã

thÓ ®−îc dïng ®Ó ®¸nh gi¸ m« h×nh.

Ph−¬ng ph¸p t×m kiÕm bao gåm hai thµnh phÇn lµ t×m kiÕm tham sè vµ t×m

kiÕm m« h×nh. ThuËt to¸n ph¶i t×m ra c¸c tham sè ®Ó tèi −u ho¸ c¸c tiªu chuÈn ®¸nh

gi¸ m« h×nh víi c¸c d÷ liÖu quan s¸t ®−îc vµ mét c¸ch miªu t¶ m« h×nh ®· ®Þnh.

Trong t×m kiÕm m« h×nh, miªu t¶ m« h×nh ®−îc thay ®æi ®Ó xÐt mét hä c¸c m« h×nh

míi. Víi mçi c¸ch biÓu diÔn m« h×nh, ph−¬ng ph¸p t×m kiÕm tham sè ®−îc ¸p dông

®Ó ®Ó ®¸nh gi¸ chÊt l−îng m« h×nh. C¸c ph−¬ng ph¸p t×m kiÕm m« h×nh th−êng sö

dông c¸c kü thuËt t×m kiÕm pháng ®o¸n do kÝch th−íc lín cña kh«ng gian c¸c m«

h×nh th−êng c¶n trë viÖc t×m kiÕm toµn diÖn.

I.1.3. C¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn vµ viÖc lùa chän ph−¬ng ph¸p

Cã rÊt nhiÒu c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu, mçi ph−¬ng ph¸p cã ®Æc

®iÓm riªng vÒ biÓu diÔn m« h×nh, ®¸nh gi¸ m« h×nh vµ c¸ch t×m kiÕm, phï hîp víi

víi mét líp c¸c bµi to¸n víi c¸c d¹ng d÷ liÖu vµ miÒn d÷ liÖu nhÊt ®Þnh. D−íi ®©y lµ

mét sè ph−¬ng ph¸p phæ biÕn th−êng ®−îc dïng [9]:

- Ph−¬ng ph¸p quy n¹p

- C©y quyÕt ®Þnh vµ luËt

- Ph¸t hiÖn luËt kÕt hîp

- C¸c ph−¬ng ph¸p ph©n líp vµ quy håi phi tuyÕn

-14-

- Ph©n nhãm vµ ph©n ®o¹n

- C¸c ph−¬ng ph¸p dùa trªn mÉu

- Khai ph¸ d÷ liÖu v¨n b¶n

- M¹ng n¬-ron

- ThuËt to¸n di truyÒn.

- M« h×nh phô thuéc dùa trªn ®å thÞ x¸c suÊt.

- M« h×nh häc quan hÖ

C¸c thuËt to¸n khai ph¸ d÷ liÖu tù ®éng vÉn míi chØ ë giai ®o¹n ph¸t triÓn ban ®Çu. Ng−êi ta vÉn ch−a ®−a ra ®−îc mét tiªu chuÈn nµo trong viÖc quyÕt ®Þnh sö dông ph−¬ng ph¸p nµo vµ trong tr−êng hîp nµo th× cã hiÖu qu¶.

HÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu ®Òu míi ®èi víi lÜnh vùc kinh doanh. H¬n n÷a l¹i cã rÊt nhiÒu kü thuËt, mçi kü thuËt ®−îc sö dông cho nhiÒu bµi to¸n kh¸c nhau. Mçi ph−¬ng ph¸p ®Òu cã ®iÓm m¹nh vµ ®iÓm yÕu cña nã, nh−ng hÇu hÕt c¸c ®iÓm yÕu ®Òu cã thÓ kh¾c phôc ®−îc, v× vËy cÇn t×m c¸ch ¸p dông mçi kü thuËt mét c¸ch thËt ®¬n gi¶n, dÔ sö dông ®Ó kh«ng c¶m thÊy nh÷ng phøc t¹p vèn cã cña kü thuËt ®ã.

§Ó so s¸nh c¸c kü thuËt cÇn ph¶i cã mét tËp lín c¸c quy t¾c vµ c¸c ph−¬ng ph¸p thùc nghiÖm tèt. Th−êng th× quy t¾c nµy kh«ng ®−îc sö dông khi ®¸nh gi¸ c¸c kü thuËt míi nhÊt. V× vËy mµ nh÷ng yªu cÇu c¶i thiÖn ®é chÝnh x¸c kh«ng ph¶i lóc nµo còng thùc hiÖn ®−îc.

NhiÒu c«ng ty ®· ®−a ra nh÷ng s¶n phÈm sö dông kÕt hîp nhiÒu kü thuËt khai ph¸ d÷ liÖu kh¸c nhau víi hy väng nhiÒu kü thuËt th× sÏ tèt h¬n. Nh−ng thùc tÕ cho thÊy nhiÒu kü thuËt chØ thªm nhiÒu r¾c rèi vµ g©y khã kh¨n cho viÖc so s¸nh gi÷a c¸c ph−¬ng ph¸p vµ c¸c s¶n phÈm. Theo nhiÒu ®¸nh gi¸ cho thÊy khi ®· hiÓu ®−îc c¸c kü thuËt vµ nghiªn cøu tÝnh gièng nhau gi÷a chóng, ng−êi ta thÊy r»ng nhiÒu kü thuËt lóc ®Çu th× cã vÎ kh¸c nhau nh−ng thùc chÊt khi hiÓu ra ®−îc c¸c kü thuËt nµy th× thÊy chóng hoµn toµn gièng nhau. Tuy nhiªn, ®¸nh gi¸ nµy còng chØ ®Ó tham kh¶o v× cho ®Õn nay, khai ph¸ d÷ liÖu vÉn cßn lµ kü thuËt míi chøa nhiÒu tiÒm n¨ng mµ ng−êi ta vÉn ch−a khai th¸c hÕt.

-15-

I.1.4 ¦u thÕ cña khai ph¸ d÷ liÖu

Khai ph¸ d÷ liÖu thùc chÊt kh«ng cã g× míi mµ hoµn toµn dùa trªn c¸c ph−¬ng ph¸p c¬ b¶n ®· biÕt. VËy khai ph¸ d÷ liÖu cã g× kh¸c so víi c¸c ph−¬ng ph¸p ®ã vµ t¹i sao khai ph¸ d÷ liÖu l¹i cã −u thÕ h¬n h¼n chóng? C¸c ph©n tÝch sau ®©y sÏ gi¶i ®¸p nh÷ng c©u hái nµy [2].

Häc m¸y (Machine Learning)

Tuy ph−¬ng ph¸p häc m¸y ®· ®−îc c¶i tiÕn ®Ó nã cã thÓ phï hîp víi môc ®Ých khai ph¸ d÷ liÖu nh−ng sù kh¸c biÖt gi÷a thiÕt kÕ, c¸c ®Æc ®iÓm cña c¬ së d÷ liÖu ®· lµm nã trë nªn kh«ng phï hîp víi môc ®Ých nµy mÆc dï cho ®Õn nay phÇn lín c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu vÉn dùa trªn nÒn t¶ng c¬ së cña ph−¬ng ph¸p häc m¸y.

Trong c¸c hÖ qu¶n trÞ c¬ së d÷ liÖu, mét c¬ së d÷ liÖu lµ mét tËp hîp d÷ liÖu ®−îc tÝch hîp mét c¸ch logic, ®−îc l−u trong mét hay nhiÒu tÖp vµ ®−îc tæ chøc ®Ó l−u tr÷, söa ®æi vµ lÊy th«ng tin mét c¸ch hiÖu qu¶ vµ dÔ dµng. Trong häc m¸y, thuËt ng÷ c¬ së d÷ liÖu chñ yÕu ®Ò cËp tíi mét tËp c¸c mÉu (instance hay example) ®−îc l−u trong mét tÖp. C¸c mÉu th−êng lµ c¸c vector thuéc tÝnh cã ®é dµi cè ®Þnh, th«ng tin vÒ tªn thuéc tÝnh vµ d·y gi¸ trÞ cña chóng ®«i khi còng ®−îc l−u l¹i nh− trong tõ ®iÓn d÷ liÖu. Mét thuËt to¸n häc cßn sö dông tËp d÷ liÖu vµ c¸c th«ng tin kÌm theo tËp d÷ liÖu ®ã lµm ®Çu vµo vµ ®Çu ra biÓu thÞ kÕt qu¶ cu¶ viÖc häc.

Víi so s¸nh c¬ së d÷ liÖu th«ng th−êng vµ c¬ së d÷ liÖu trong häc m¸y nh− trªn, cã thÓ thÊy lµ häc m¸y cã kh¶ n¨ng ®−îc ¸p dông cho c¬ së d÷ liÖu, bëi v× kh«ng ph¶i häc trªn tËp c¸c mÉu mµ häc trªn tÖp c¸c b¶n ghi cña c¬ së d÷ liÖu. Tuy nhiªn, ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu lµm t¨ng thªm c¸c khã kh¨n vèn ®· lµ ®iÓn h×nh trong häc m¸y vµ ®¨ v−ît qu¸ kh¶ n¨ng cña häc m¸y. Trong thùc tÕ, c¬ së d÷ liÖu th−êng ®éng, kh«ng ®Çy ®ñ, bÞ nhiÔu vµ lín h¬n nhiÒu so víi c¸c tËp d÷ liÖu häc m¸y ®iÓn h×nh. C¸c yÕu tè nµy lµm cho hÇu hÕt c¸c thuËt to¸n häc m¸y trë nªn kh«ng hiÖu qu¶ trong hÇu hÕt c¸c tr−êng hîp. V× vËy trong khai ph¸ d÷ liÖu, cÇn tËp trung rÊt nhiÒu c«ng søc vµo viÖc v−ît qua nh÷ng vÊn ®Ò nµy trong CSDL.

-16-

Ph−¬ng ph¸p hÖ chuyªn gia

C¸c hÖ chuyªn gia cè g¾ng n¾m b¾t c¸c tri thøc thÝch hîp víi mét bµi to¸n nµo ®ã. C¸c kü thuËt thu thËp gióp cho viÖc lÊy tri thøc tõ c¸c chuyªn gia con ng−êi. Mçi ph−¬ng ph¸p ®ã lµ mét c¸ch suy diÔn c¸c luËt tõ c¸c vÝ dô vµ gi¶i ph¸p ®èi víi bµi to¸n chuyªn gia ®−a ra. Ph−¬ng ph¸p nµy kh¸c víi khai ph¸ d÷ liÖu ë chç c¸c vÝ dô cña chuyªn gia th−êng ë møc chÊt l−îng cao h¬n rÊt nhiÒu so víi c¸c d÷ liÖu trong c¬ së d÷ liÖu, vµ chóng th−êng chØ bao qu¸t ®−îc c¸c tr−êng hîp quan träng. H¬n n÷a, c¸c chuyªn gia sÏ x¸c nhËn tÝnh gi¸ trÞ vµ h÷u dông cña c¸c mÉu ph¸t hiÖn ®−îc. Còng nh− víi c¸c c«ng cô qu¶n trÞ c¬ së d÷ liÖu, ë c¸c ph−¬ng ph¸p nµy ®ßi hái cã sù tham gia cña con ng−êi trong viÖc ph¸t hiÖn tri thøc.

Ph¸t kiÕn khoa häc

Khai ph¸ d÷ liÖu rÊt kh¸c víi ph¸t kiÕn khoa häc ë chç nh÷ng khai ph¸ trong c¬ së d÷ liÖu Ýt cã chñ t©m vµ cã ®iÒu khiÓn h¬n. C¸c d÷ liÖu khoa häc cã tõ thùc nghiÖm nh»m lo¹i bá mét sè t¸c ®éng cña c¸c tham sè ®Ó nhÊn m¹nh ®é biÕn thiªn cña mét hay mét sè tham sè ®Ých. Tuy nhiªn, c¸c c¬ së d÷ liÖu th−¬ng m¹i th−êng ghi l¹i mét sè l−îng thõa th«ng tin vÒ c¸c dù ¸n cña hä ®Ó ®¹t ®−îc mét sè môc ®Ých vÒ mÆt tæ chøc. Sù d− thõa nµy cã thÓ lµ hiÓn hiÖn hay Èn chøa trong c¸c mèi quan hÖ d÷ liÖu. H¬n n÷a, c¸c nhµ khoa häc cã thÓ t¹o l¹i c¸c thÝ nghiÖm vµ cã thÓ t×m ra r»ng c¸c thiÕt kÕ ban ®Çu kh«ng thÝch hîp. Trong khi ®ã, c¸c nhµ qu¶n lý c¬ së d÷ liÖu hÇu nh− kh«ng thÓ xa xØ ®i thiÕt kÕ l¹i c¸c tr−êng d÷ liÖu vµ thu thËp l¹i d÷ liÖu.

Ph−¬ng ph¸p thèng kª

MÆc dï c¸c ph−¬ng ph¸p thèng kª cung cÊp mét nÒn t¶ng lý thuyÕt v÷ng ch¾c cho c¸c bµi to¸n ph©n tÝch d÷ liÖu nh−ng chØ cã tiÕp cËn thèng kª thuÇn tuý th«i ch−a ®ñ. Thø nhÊt, c¸c ph−¬ng ph¸p thèng kª chuÈn kh«ng phï hîp ®èi víi c¸c kiÓu d÷ liÖu cã cÊu tróc trong rÊt nhiÒu c¬ së d÷ liÖu. Thø hai, c¸c ph−¬ng ph¸p thèng kª hoµn toµn bÞ d÷ liÖu ®iÒu khiÓn, nã kh«ng sö dông tri thøc s½n cã vÒ lÜnh vùc. Thø ba, c¸c kÕt qu¶ cña ph©n tÝch thèng kª cã thÓ sÏ rÊt nhiÒu vµ khã cã thÓ lµm râ ®−îc. Cuèi cïng, c¸c ph−¬ng ph¸p thèng kª cÇn cã sù h−íng dÉn cña ng−êi dïng ®Ó x¸c ®Þnh ph©n tÝch d÷ liÖu nh− thÕ nµo vµ ë ®©u.

-17-

Sù kh¸c nhau c¬ b¶n gi÷a khai ph¸ d÷ liÖu vµ thèng kª lµ ë chç khai ph¸ d÷ liÖu lµ mét ph−¬ng tiÖn ®−îc dïng bëi ng−êi dïng cuèi chø kh«ng ph¶i lµ c¸c nhµ thèng kª. Khai ph¸ d÷ liÖu tù ®éng hãa qu¸ tr×nh thèng kª mét c¸ch hiÖu qu¶, v× vËy lµm nhÑ bít c«ng viÖc cña ng−êi dïng cuèi, t¹o ra mét c«ng cô dÔ sö dông h¬n. Nh− vËy, nhê cã khai ph¸ d÷ liÖu, viÖc dù ®o¸n vµ kiÓm tra rÊt vÊt v¶ tr−íc ®©y cã thÓ ®−îc ®−a lªn m¸y tÝnh, ®−îc tÝnh, dù ®o¸n vµ kiÓm tra mét c¸ch tù ®éng.

I.1.5. Mét sè th¸ch thøc trong øng dông vµ nghiªn cøu kü thuËt khai ph¸ d÷ liÖu

ViÖc nghiªn cøu vµ øng dông c¸c kü thuËt khai ph¸ d÷ liÖu cßn gÆp nhiÒu khã kh¨n, c¸c khã kh¨n nµy kh«ng ph¶i lµ kh«ng thÓ gi¶i quyÕt, song chóng cÇn ®−îc t×m hiÓu ®Ó cã thÓ ph¸t triÓn tèt h¬n. Nh÷ng khã kh¨n ®iÓn h×nh ®−îc tr×nh bµy d−íi ®©y.

C¸c vÊn ®Ò vÒ c¬ së d÷ liÖu

§Çu vµo chñ yÕu cña mét hÖ thèng ph¸t hiÖn tri thøc lµ c¸c d÷ liÖu th« trong

c¬ së d÷ liÖu. Nh÷ng vÊn ®Ò khã kh¨n ph¸t sinh trong khai ph¸ d÷ liÖu chÝnh tõ

nguyªn nh©n lµ d÷ liÖu trong thùc tÕ th−êng ®éng, kh«ng ®Çy ®ñ, lín vµ bÞ nhiÔu.

Trong nh÷ng tr−êng hîp kh¸c, ng−êi ta kh«ng biÕt c¬ së d÷ liÖu cã chøa c¸c th«ng

tin cÇn thiÕt cho viÖc khai th¸c hay kh«ng vµ lµm thÕ nµo ®Ó gi¶i quyÕt sù d− thõa

th«ng tin kh«ng thÝch hîp nµy.

- D÷ liÖu lín: Cho ®Õn nay, c¸c c¬ së d÷ liÖu víi hµng tr¨m tr−êng vµ b¶ng, hµng triÖu b¶n ghi vµ víi kÝch th−íc gigabyte ®· lµ chuyÖn b×nh th−êng. HiÖn nay ®· b¾t ®Çu xuÊt hiÖn c¸c c¬ së d÷ liÖu cã kÝch th−íc tíi tetrabyte. C¸c ph−¬ng ph¸p gi¶i quyÕt hiÖn nay lµ ®−a ra mét ng−ìng cho c¬ së d÷ liÖu, lÊy mÉu, c¸c ph−¬ng ph¸p xÊp xØ, xö lý song song.

- KÝch th−íc lín: Kh«ng chØ cã sè l−îng b¶n ghi mµ sè c¸c tr−êng trong c¬ së d÷ liÖu còng nhiÒu, v× vËy mµ kÝch th−íc cña bµi to¸n trë nªn lín h¬n. Mét tËp d÷ liÖu cã kÝch th−íc lín sÏ lµm t¨ng kh«ng gian t×m kiÕm. H¬n n÷a, nã còng lµm t¨ng kh¶ n¨ng mét thuËt to¸n khai ph¸ d÷ liÖu cã thÓ t×m thÊy c¸c

-18-

mÉu gi¶. BiÖn ph¸p kh¾c phôc lµ lµm gi¶m kÝch th−íc t¸c ®éng cña bµi to¸n vµ sö dông c¸c tri thøc biÕt tr−íc ®Ó x¸c ®Þnh c¸c biÕn kh«ng phï hîp.

- D÷ liÖu ®éng: §Æc ®iÓm c¬ b¶n cña hÇu hÕt c¸c c¬ së d÷ liÖu lµ néi dung cña chóng thay ®æi liªn tôc, d÷ liÖu cã thÓ thay ®æi theo thêi gian vµ viÖc khai ph¸ d÷ liÖu bÞ ¶nh h−ëng bëi thêi ®iÓm quan s¸t d÷ liÖu. ViÖc thay ®æi d÷ liÖu nhanh chãng cã thÓ lµm cho c¸c mÉu khai th¸c ®−îc tr−íc ®ã mÊt gi¸ trÞ. H¬n n÷a, c¸c biÕn trong c¬ së d÷ liÖu cña øng dông ®· cho còng cã thÓ bÞ thay ®æi, bÞ xãa hoÆc lµ t¨ng lªn theo thêi gian. VÊn ®Ò nµy ®−îc gi¶i quyÕt b»ng c¸c gi¶i ph¸p n©ng cÊp c¸c mÉu vµ coi nh÷ng thay ®æi nh− lµ c¬ héi ®Ó khai th¸c b»ng c¸ch sö dông nã ®Ó t×m kiÕm c¸c mÉu bÞ thay ®æi.

- C¸c tr−êng hîp kh«ng phï hîp: Mét ®Æc ®iÓm quan träng kh¸c lµ tÝnh kh«ng thÝch hîp cña d÷ liÖu, nghÜa lµ môc d÷ liÖu trë thµnh kh«ng thÝch hîp víi träng t©m hiÖn t¹i cña viÖc khai th¸c. Mét khÝa c¹nh kh¸c ®«i khi còng liªn quan ®Õn tÝnh phï hîp lµ sù cã gi¸ trÞ cña mét thuéc tÝnh ®èi víi mét tËp con cña c¬ së d÷ liÖu.

- C¸c gi¸ trÞ bÞ thiÕu: Sù cã mÆt hay v¾ng mÆt cña gi¸ trÞ c¸c thuéc tÝnh d÷ liÖu phï hîp cã thÓ ¶nh h−ëng ®Õn viÖc khai ph¸ d÷ liÖu. Trong hÖ thèng t−¬ng t¸c, sù thiÕu v¾ng d÷ liÖu quan träng cã thÓ dÉn tíi yªu cÇu cho gi¸ trÞ cña nã hoÆc kiÓm tra ®Ó x¸c ®Þnh gi¸ trÞ cña nã. HoÆc còng cã thÓ sù v¾ng mÆt cña d÷ liÖu ®−îc coi nh− mét ®iÒu kiÖn, thuéc tÝnh bÞ mÊt cã thÓ ®−îc coi nh− mét gi¸ trÞ trung gian vµ lµ gi¸ trÞ kh«ng biÕt.

- C¸c tr−êng bÞ thiÕu: Mét quan s¸t kh«ng ®Çy ®ñ c¬ së d÷ liÖu cã thÓ lµm cho d÷ liÖu cã c¸c gi¸ trÞ bÞ xem nh− cã lçi. ViÖc quan s¸t c¬ së d÷ liÖu ph¶i ph¸t hiÖn ®−îc toµn bé c¸c thuéc tÝnh cã thÓ dïng ®Ó thuËt to¸n khai ph¸ d÷ liÖu cã thÓ ¸p dông ®Ó gi¶i quyÕt bµi to¸n. Gi¶ sö ta cã c¸c thuéc tÝnh ®Ó ph©n biÖt c¸c t×nh huèng ®¸ng quan t©m. NÕu chóng kh«ng lµm ®−îc ®iÒu ®ã th× cã nghÜa lµ ®· cã lçi trong d÷ liÖu. §©y còng lµ vÊn ®Ò th−êng x¶y ra trong c¬ së d÷ liÖu kinh doanh. C¸c thuéc tÝnh quan träng cã thÓ sÏ bÞ thiÕu d÷ liÖu kh«ng ®−îc chuÈn bÞ cho viÖc khai ph¸ d÷ liÖu.

-19-

- §é nhiÔu vµ kh«ng ch¾c ch¾n: §èi víi c¸c thuéc tÝnh ®· thÝch hîp, ®é nghiªm träng cña lçi phô thuéc vµo kiÓu d÷ liÖu cña c¸c gi¸ trÞ ®−îc phÐp. C¸c gi¸ trÞ cña c¸c thuéc tÝnh kh¸c nhau cã thÓ lµ c¸c sè thùc, sè nguyªn, chuçi, vµ cã thÓ thuéc vµo tËp c¸c gi¸ trÞ ®Þnh danh. C¸c gi¸ trÞ ®Þnh danh nµy cã thÓ s¾p xÕp theo thø tù bé phËn hoÆc ®Çy ®ñ, thËm chÝ cã thÓ cã cÊu tróc ng÷ nghÜa.

Mét yÕu tè kh¸c cña ®é kh«ng ch¾c ch¾n lµ tÝnh kÕ thõa hoÆc ®é chÝnh x¸c

mµ d÷ liÖu cÇn cã, nãi c¸ch kh¸c lµ ®é nhiÔu cña d÷ liÖu. Dùa trªn viÖc tÝnh

to¸n trªn c¸c phÐp ®o vµ ph©n tÝch cã −u tiªn, m« h×nh thèng kª m« t¶ tÝnh

ngÉu nhiªn ®−îc t¹o ra vµ ®−îc sö dông ®Ó ®Þnh nghÜa ®é mong muèn vµ ®é

dung sai cña d÷ liÖu. Th−êng th× c¸c m« h×nh thèng kª ®−îc ¸p dông theo

c¸ch ®Æc biÖt ®Ó x¸c ®Þnh mét c¸ch chñ quan c¸c thuéc tÝnh ®Ó ®¹t ®−îc c¸c

thèng kª vµ ®¸nh gi¸ kh¶ n¨ng chÊp nhËn cña c¸c gi¸ trÞ thuéc tÝnh. §Æc biÖt

lµ víi c¸c kiÓu d÷ liÖu sè, sù ®óng ®¾n cña d÷ liÖu cã thÓ lµ mét yÕu tè trong

viÖc khai ph¸. VÝ dô nh− trong viÖc ®o nhiÖt ®é c¬ thÓ, ta th−êng cho phÐp

chªnh lÖch 0.1 ®é. Nh−ng viÖc ph©n tÝch theo xu h−íng nh¹y c¶m nhiÖt ®é

cña c¬ thÓ l¹i yªu cÇu ®é chÝnh x¸c cao h¬n. §Ó mét hÖ thèng khai th¸c cã

thÓ liªn hÖ ®Õn xu h−íng nµy ®Ó chuÈn ®o¸n th× l¹i cÇn cã mét ®é nhiÔu trong

d÷ liÖu ®Çu vµo.

- Mèi quan hÖ phøc t¹p gi÷a c¸c tr−êng: C¸c thuéc tÝnh hoÆc c¸c gi¸ trÞ cã

cÊu tróc ph©n cÊp, c¸c mèi quan hÖ gi÷a c¸c thuéc tÝnh vµ c¸c ph−¬ng tiÖn

phøc t¹p ®Ó diÔn t¶ tri thøc vÒ néi dung cña c¬ së d÷ liÖu yªu cÇu c¸c thuËt

to¸n ph¶i cã kh¶ n¨ng sö dông mét c¸ch hiÖu qu¶ c¸c th«ng tin nµy. Ban ®Çu,

kü thuËt khai ph¸ d÷ liÖu chØ ®−îc ph¸t triÓn cho c¸c b¶n ghi cã gi¸ trÞ thuéc

tÝnh ®¬n gi¶n. Tuy nhiªn, ngµy nay ng−êi ta ®ang t×m c¸ch ph¸t triÓn c¸c kü

thuËt nh»m rót ra mèi quan hÖ gi÷a c¸c biÕn nµy.

-20-

Mét sè vÊn ®Ò kh¸c

- "Qu¸ phï hîp": Khi mét thuËt to¸n t×m kiÕm c¸c tham sè tèt nhÊt cho mét m« h×nh nµo ®ã sö dông mét tËp d÷ liÖu h÷u h¹n, nã cã thÓ sÏ bÞ t×nh tr¹ng “qu¸ ®é” d÷ liÖu (nghÜa lµ t×m kiÕm qu¸ møc cÇn thiÕt g©y ra hiÖn t−îng chØ phï hîp víi c¸c d÷ liÖu ®ã mµ kh«ng cã kh¶ n¨ng ®¸p øng cho c¸c d÷ liÖu l¹), lµm cho m« h×nh ho¹t ®éng rÊt kÐm ®èi víi c¸c d÷ liÖu thö. C¸c gi¶i ph¸p kh¾c phôc bao gåm ®¸nh gi¸ chÐo (cross-validation), thùc hiÖn theo nguyªn t¾c nµo ®ã hoÆc sö dông c¸c biÖn ph¸p thèng kª kh¸c.

- Kh¶ n¨ng biÓu ®¹t cña mÉu: Trong rÊt nhiÒu øng dông, ®iÒu quan träng lµ nh÷ng ®iÒu khai th¸c ®−îc ph¶i cµng dÔ hiÓu víi con ng−êi cµng tèt. V× vËy, c¸c gi¶i ph¸p th−êng bao gåm viÖc diÔn t¶ d−íi d¹ng ®å häa, x©y dùng cÊu tróc luËt víi c¸c ®å thÞ cã h−íng, biÓu diÔn b»ng ng«n ng÷ tù nhiªn vµ c¸c kü thuËt kh¸c nh»m biÓu diÔn c¸c tri thøc vµ d÷ liÖu.

- Sù t−¬ng t¸c víi ng−êi sö dông vµ c¸c tri thøc s½n cã: RÊt nhiÒu c«ng cô vµ ph−¬ng ph¸p khai ph¸ d÷ liÖu kh«ng thùc sù t−¬ng t¸c víi ng−êi dïng vµ kh«ng dÔ dµng kÕt hîp cïng víi c¸c tri thøc ®· biÕt tr−íc ®ã. ViÖc sö dông tri thøc miÒn lµ rÊt quan träng trong khai ph¸ d÷ liÖu. §· cã nhiÒu biÖn ph¸p nh»m kh¾c phôc vÊn ®Ò nµy nh− sö dông c¬ së d÷ liÖu suy diÔn ®Ó ph¸t hiÖn tri thøc, nh÷ng tri thøc nµy sau ®ã ®−îc sö dông ®Ó h−íng dÉn cho viÖc t×m kiÕm khai ph¸ d÷ liÖu hoÆc sö dông ph©n bè vµ x¸c suÊt d÷ liÖu tr−íc ®ã nh− mét d¹ng m· hãa tri thøc cã s½n.

I.2. Khai ph¸ d÷ liÖu song song

HÇu hÕt c¸c thuËt to¸n khai ph¸ d÷ liÖu ®Òu ®ßi hái sè l−îng tÝnh to¸n lín,

chóng cÇn cã kh¶ n¨ng më réng ®−îc ®Ó xö lý l−îng d÷ liÖu lín h¬n vµ phøc t¹p

h¬n [7]. Mét sè c¬ së d÷ liÖu vèn liªn quan tíi Internet vµ do ®ã ®· s½n cã tÝnh ph©n

t¸n. TÝnh to¸n song song vèn cã thÓ xö lý tèt l−îng tÝnh to¸n lín trªn l−îng lín d÷

liÖu, v× thÕ nã lµ mét c«ng cô tèt ®Ó khai ph¸ d÷ liÖu [8].

-21-

I.2.1. C¸c hÖ thèng tÝnh to¸n song song

Cã hai c¸ch t¨ng tèc ®é phÇn cøng m¸y tÝnh: vÒ mÆt c«ng nghÖ cã thÓ sö

dông c¸c thiÕt bÞ tèc ®é cao, vÒ mÆt cÊu tróc cã thÓ t¹o c¸c cÊu tróc míi hoÆc ghÐp

c¸c hÖ s½n cã víi nhau theo nh÷ng c¸ch s¸ng t¹o. C¸c bé ®a xö lý cung cÊp mét lùa

chän tèt ®Ó n©ng cao hiÖu suÊt c¸c hÖ thèng m¸y tÝnh b»ng c¸ch ghÐp nèi mét sè bé

xö lý cã gi¸ thµnh thÊp. Mét hÖ thèng ®a xö lý gåm c¸c bé vi xö lý chuÈn s½n cã thÓ

®¹t tØ lÖ chi phÝ/hiÖu suÊt tèt h¬n mét bé ®¬n xö lý tèc ®é cao dùa trªn c«ng nghÖ

lai. Gi¸ t−¬ng ®èi cao cña c¸c hÖ ®a xö lý cã thÓ ®−îc bï ®¾p b»ng c¸ch khai th¸c

chóng nh− c¸c m¸y chñ tÝnh to¸n trong c¸c hÖ ph©n t¸n. §a xö lý ®−îc dïng ®Ó t¨ng

l−u l−îng hÖ thèng b»ng c¸ch thùc hiÖn song song mét sè tiÕn tr×nh kh¸c nhau cña

ng−êi sö dông trªn c¸c bé xö lý kh¸c nhau, vµ t¨ng tèc øng dông b»ng c¸ch thùc

hiÖn song song mét sè phÇn cña øng dông. C¸c phÇn cña øng dông ®−îc song song

hãa cÇn ®−îc ®ång bé hãa vµ trao ®æi d÷ liÖu sau khi hoµn thµnh mçi b−íc tÝnh

to¸n. Sù ®ång bé hãa vµ truyÒn th«ng gi÷a c¸c bé xö lý nãi chung sÏ lµm gi¶m mét

phÇn tèc ®é do nã t¹m dõng mét sè tÝnh to¸n vµ sö dông b¨ng th«ng kÕt nèi hÖ

thèng. Mét trong nh÷ng th¸ch thøc vÒ thiÕt kÕ hÖ ®a xö lý lµ lµm sao gi¶m thiÓu c¸c

t−¬ng t¸c gi÷a c¸c bé xö lý vµ cã mét c¬ chÕ hiÖu qu¶ ®Ó thùc hiÖn viÖc nµy khi cÇn

thiÕt.

I.2.1.1. TÝnh chÊt vµ ph©n lo¹i c¸c hÖ ®a xö lý

C¸c hÖ ®a xö lý cã c¸c −u ®iÓm chÝnh nh−: kh¶ n¨ng tÝnh to¸n vµ hiÖu suÊt

cao, kh¶ n¨ng kh¸ng lçi, kh¶ n¨ng thÝch nghi, cã thÓ ph¸t triÓn theo m«-®un, chuyªn

m«n ho¸ c¸c chøc n¨ng vµ cã tØ lÖ chi phÝ/ hiÖu suÊt thÊp. Víi c¸c −u ®iÓm nµy, c¸c

hÖ ®a xö lý cã thÓ ®−îc thiÕt kÕ theo m«-®un vµ tù ®iÒu chØnh mét c¸ch linh ho¹t

nh»m cã ®−îc hÖ thèng tèi −u cho c¸c môc ®Ých cô thÓ [10].

C¸c hÖ thèng tÝnh to¸n song song gåm bèn lo¹i chÝnh: xö lý ®¬n lÖnh ®¬n d÷

liÖu (SISD), xö lý ®¬n lÖnh ®a d÷ liÖu (SIMD), xö lý ®a lÖnh ®¬n d÷ liÖu (MISD) vµ

-22-

xö lý ®a lÖnh ®a d÷ liÖu (MIMD). C¸c bé ®a xö lý thuéc vÒ lo¹i cuèi cïng, chóng l¹i

cã thÓ ®−îc chia thµnh c¸c bé ®a xö lý ghÐp chÆt, trong ®ã tÊt c¶ c¸c bé xö lý ®Òu

®−îc truy cËp tíi bé nhí chia sÎ toµn côc, vµ c¸c bé ®a xö lý ghÐp láng, trong ®ã c¸c

bé xö lý cã bé nhí riªng, kh«ng cã bé nhí toµn côc ®−îc chia sÎ. Còng tån t¹i c¸c

hÖ lai trong ®ã c¸c bé xö lý cã bé nhí riªng nh−ng vÉn ®−îc truy cËp vµo bé nhí

chung, thËm chÝ c¶ vµo bé nhí riªng cña c¸c bé xö lý kh¸c. Trong c¸c hÖ ghÐp chÆt

th× bé nhí toµn côc chÝnh lµ c¬ së truyÒn th«ng vµ ®ång bé hãa gi÷a c¸c bé xö lý;

trong c¸c hÖ ghÐp láng, sù truyÒn th«ng nµy ®−îc thùc hiÖn bëi c¬ chÕ truyÒn th«ng

b¸o. §é trÔ lín trong c¸c ®−êng truyÒn th«ng ngµy nay ®· ®−îc gi¶m bít nhê sù

ph¸t triÓn cña sîi quang häc vµ c¸c c«ng nghÖ m¹ng tèc ®é cao.

I.2.1.2. C¸c c¸ch kÕt nèi trong hÖ ®a xö lý

C¸c kiÓu cÊu tróc c¬ b¶n th−êng gÆp cña c¸c hÖ ®a xö lý gåm c¸c hÖ h−íng

®−êng truyÒn, c¸c hÖ kÕt nèi chÐo, cÊu tróc siªu khèi, vµ c¸c hÖ dùa trªn chuyÓn

m¹ch nhiÒu tÇng [11].

- C¸c hÖ h−íng ®−êng truyÒn lµ mét trong nh÷ng c¸ch t¹o hÖ ®a xö lý ®¬n gi¶n

nhÊt b»ng c¸ch dïng mét ®−êng truyÒn chung ®Ó nèi c¸c bé xö lý vµ c¸c bé nhí.

Trong s¬ ®å, nµy c¸c bé xö lý cã thÓ cã hoÆc kh«ng cã c¸c bé nhí riªng, c¸c thiÕt bÞ

nhËp/xuÊt cã thÓ ®−îc g¾n víi c¸c bé xö lý hoÆc víi ®−êng truyÒn chung, vµ b¶n

th©n bé nhí chia sÎ còng th−êng ®−îc t¹o d−íi d¹ng mét sè vïng nhí g¾n liÒn víi

®−êng truyÒn chung. §−êng truyÒn chia sÎ vµ bé nhí chia sÎ lµ hai yÕu tè chÝnh cña

hÖ h−íng ®−êng truyÒn. Cã thÓ dïng c¸c bé nhí truy cËp nhanh (cache) ®Ó gi¶m t¶i

cho ®−êng truyÒn chung, chóng cã thÓ ®−îc g¾n víi bé nhí chung hoÆc víi mçi bé

xö lý. C¸ch thø hai th−êng ®−îc dïng h¬n, tuy nhiªn viÖc duy tr× tÝnh nhÊt qu¸n

gi÷a c¸c b¶n sao vËt lý cña d÷ liÖu ®−îc l−u trong cache th−êng lµm t¨ng l−u l−îng

®−êng truyÒn, lµm gi¶m Ých lîi cña viÖc sö dông cache riªng cho mçi bé xö lý. Khã

kh¨n nµy sÏ ®−îc gi¶m bít nÕu dïng ®−êng truyÒn réng hoÆc dïng giao thøc ph©n

-23-

t¸ch yªu cÇu/®¸p øng ®Ó c¸c yªu cÇu vµ ®¸p øng vÒ bé nhí ®−îc xö lý nh− nh÷ng

nhiÖm vô kh¸c nhau, sau khi mét bé xö lý yªu cÇu mét vïng nhí, ®−êng truyÒn cã

thÓ ®−îc dµnh cho c¸c bé xö lý kh¸c dïng trong thêi gian bé nhí t×m vµ tËp hîp ®ñ

c¸c thµnh phÇn liªn quan. Tuy kh¶ n¨ng më réng cña c¸c hÖ ®a xö lý h−íng ®−êng

truyÒn bÞ h¹n chÕ do sù c¹nh tranh cña ®−êng truyÒn chia sÎ vµ bé nhí chia sÎ, c¸ch

tiÕp cËn nµy vÉn ®−îc sö dông réng r·i trong nhiÒu øng dông th−¬ng m¹i do c¸ch

thùc hiÖn ®¬n gi¶n cña nã.

CÊu tróc hÖ ®a xö lý h−íng ®−êng truyÒn

- C¸c hÖ kÕt nèi chÐo cho phÐp N bé xö lý ®ång thêi truy cËp vµo N bé nhí víi

®iÒu kiÖn t¹i mçi thêi ®iÓm, mçi bé xö lý truy cËp vµo mét bé nhí kh¸c nhau, b¶n

th©n hÖ nµy kh«ng cã tÝnh c¹nh tranh vµ lµ c¸ch ®èi lËp víi hÖ thèng h−íng ®−êng

truyÒn. Sù chËm trÔ gi÷a mét bé xö lý vµ mét bé nhí chØ x¶y ra ë ®iÓm kÕt nèi,

trong tr−êng hîp c¸c bé xö lý kh«ng cã bé nhí riªng th× ®©y lµ hÖ thèng ®a xö lý

truy cËp bé nhí kh«ng ®æi. Sù xÕp ®Æt d÷ liÖu mét c¸ch hîp lý sÏ tr¸nh ®−îc tranh

chÊp cã thÓ x¶y ra khi nhiÒu h¬n mét bé xö lý cïng cè truy cËp mét bé nhí, song nã

còng kh«ng tr¸nh ®−îc tranh chÊp khi cã nhiÒu bé xö lý cïng cè truy cËp mét vÞ trÝ

trong cïng mét bé nhí. V× thÕ s¬ ®å nµy cho phÐp song song hãa møc cao gi÷a c¸c

c«ng viÖc kh«ng liªn quan, tuy nhiªn sù ®ång bé hãa gi÷a c¸c tiÕn tr×nh hoÆc c¸c bé

xö lý trªn bé nhí chia sÎ sÏ dÔ g©y ra tranh chÊp vÒ bé nhí. Do m« h×nh nµy cÇn N2

-24-

®iÓm kÕt nèi ®Ó nèi N bé nhí víi N bé xö lý, ®é phøc t¹p sÏ t¨ng gÊp 4 theo sè phÇn

tö, lµm h¹n chÕ kh¶ n¨ng më réng cña s¬ ®å nµy.

KÕt nèi chÐo

- HÖ thèng siªu khèi gi¶i quyÕt ®−îc bµi to¸n vÒ kh¶ n¨ng më réng vµ gi¸

thµnh b»ng c¸c liªn kÕt cã ®é phøc t¹p t¨ng theo hµm l«-ga-rit cña sè nót N vµ

kho¶ng c¸ch tèi ®a gi÷a c¸c nót lµ log2N. CÊu tróc nµy lµ ®Ö quy theo nghÜa c¸c siªu

khèi nhiÒu chiÒu chøa c¸c siªu khèi Ýt chiÒu h¬n nh− nh÷ng tËp con cña m×nh. HÖ

thèng nµy sö dông c¸c bé nhí riªng cho mçi bé xö lý vµ truyÒn th«ng b¸o ®Ó truyÒn

th«ng vµ ®ång bé hãa gi÷a c¸c bé xö lý. Ngoµi chøc n¨ng xö lý, mçi nót cßn thùc

hiÖn c¸c giao thøc truyÒn th«ng, nã còng ®Þnh tuyÕn vµ chuyÓn tiÕp c¸c th«ng b¸o

®Ó t¹o ®−êng truyÒn th«ng gi¸n tiÕp gi÷a c¸c nót tõ xa kÕt nèi trùc tiÕp víi nã. C¸c

thiÕt bÞ nhËp/xuÊt cã thÓ ®−îc g¾n côc bé vµo mçi nót, ®Ó t¨ng b¨ng th«ng

nhËp/xuÊt ng−êi ta cã thÓ dïng mét sè nót nhËp/xuÊt chuyªn dông nh− c¸c luång vµ

kho chøa d÷ liÖu nhËp/xuÊt cho mét nhãm c¸c nót.

-25-

Siªu khèi 8 nót: (a) m« h×nh 3 chiÒu (b) c¸c kÕt nèi gi÷a c¸c bé xö lý

- C¸c hÖ thèng dùa trªn bé chuyÓn m¹ch nhiÒu tÇng ®Ó kÕt nèi c¸c bé xö lý vµ

c¸c bé nhí. KiÓu tæng qu¸t nhÊt cña c¸ch tiÕp cËn nµy cung cÊp c¸c liªn kÕt gi÷a N

®Çu vµo vµ N ®Çu ra, nã cã log2N tÇng, mçi tÇng gåm N liªn kÕt tíi N/2 hép trao

®æi. M¹ng chuyÓn m¹ch cã thÓ nèi bÊt kú ®Çu vµo víi ®Çu ra nµo b»ng c¸ch t¹o c¸c

kÕt nèi thÝch hîp t¹i mçi tÇng. ViÖc ®Þnh tuyÕn trong m¹ng nµy th−êng lµ cè ®Þnh vµ

®−îc thùc hiÖn nhê c¸c thÎ ®Þa chØ ®Ých mµ bªn göi göi kÌm víi yªu cÇu kÕt nèi.

ChuyÓn m¹ch nhiÒu tÇng cã thÓ ®ång thêi kÕt nèi tÊt c¶ c¸c ®Çu vµo vµ tÊt c¶ c¸c

®Çu ra víi ®iÒu kiÖn kh«ng cã hai bé xö lý nµo ®ång thêi cè truy cËp cïng mét m«-

®un bé nhí; nÕu kh«ng th× tranh chÊp t¹i c¶ m«-®un bé nhí vµ trong m¹ng chuyÓn

m¹ch sÏ x¶y ra vµ g©y t¾c nghÏn. §Ó tr¸nh ®iÒu nµy x¶y ra, ng−êi ta thªm phÇn cøng

phô trî vµo b¶n th©n hÖ thèng chuyÓn m¹ch; hÖ thèng cã thªm kh¶ n¨ng xö lý t¹i

c¸c ®iÓm chuyÓn m¹ch ®−îc gäi lµ m¹ng kÕt hîp.

-26-

M¹ng chuyÓn m¹ch nhiÒu tÇng vµ ®−êng nèi P2-M4

I.2.2. C¸c chiÕn l−îc khai ph¸ d÷ liÖu song song

Khai ph¸ d÷ liÖu song song ®ßi hái ph©n chia c«ng viÖc ®Ó c¸c bé xö lý cã

thÓ thùc hiÖn phÇn c«ng viÖc cña m×nh, nh»m ®¹t kÕt qu¶ cuèi cïng mét c¸ch nhanh

nhÊt. VÊn ®Ò lµ ë chç ph©n chia c«ng viÖc nh− thÕ nµo, ta cã thÓ ph©n chia viÖc tÝnh

to¸n, còng cã thÓ ph©n chia viÖc truy cËp tíi d÷ liÖu, vµ gi¶m thiÓu sù truyÒn th«ng

gi÷a c¸c bé xö lý trong khi thùc hiÖn. Trong c¸c øng dông khai ph¸ d÷ liÖu, ta cÇn

gi¶m thiÓu nguån tµi nguyªn ®−îc dïng ®Ó sinh c¸c kh¸i niÖm cã vÎ cã gi¸ trÞ ®Þa

ph−¬ng, dùa trªn l−îng h¹n chÕ d÷ liÖu cã s½n t¹i mçi bé xö lý, nh−ng kh«ng cã gi¸

trÞ toµn phÇn. Cã ba chiÕn l−îc ®Ó song song hãa c¸c thuËt to¸n khai ph¸ d÷ liÖu [13,

15], ®ã lµ:

- T×m kiÕm ®éc lËp: Mçi bé xö lý ®−îc truy cËp tíi toµn bé tËp d÷ liÖu, nh−ng

chØ tËp trung vµo mét phÇn kh«ng gian t×m kiÕm, b¾t ®Çu tõ mét ®iÓm ®−îc chän

ngÉu nhiªn.

-27-

C¸ch nµy phï hîp víi c¸c bµi to¸n mµ kÕt qu¶ cÇn t×m lµ mét gi¶i ph¸p tèi

−u, tuy nhiªn nã ®ßi hái mçi bé xö lý ph¶i truy cËp toµn bé tËp d÷ liÖu, khiÕn tèc ®é

bÞ chËm l¹i.

- Song song hãa mét thuËt to¸n khai ph¸ d÷ liÖu tuÇn tù: TËp c¸c kh¸i niÖm

®−îc ph©n chia gi÷a c¸c bé xö lý, mçi bé xö lý kiÓm tra toµn bé tËp d÷ liÖu ®Ó kiÓm

tra xem c¸c kh¸i niÖm côc bé cña nã cã ®óng trªn ph¹m vi toµn côc kh«ng. Do viÖc

t¹o kh¸i niÖm míi th−êng ®ßi hái ph¶i biÕt c¸c kh¸i niÖm nhá h¬n hay ®¬n gi¶n h¬n

nµo lµ ®óng, c¸c bé xö lý ph¶i th−êng xuyªn trao ®æi th«ng tin vÒ c¸c kh¸i niÖm cña

chóng. Mét c¸ch kh¸c lµ tËp d÷ liÖu ®−îc ph©n chia theo c¸c cét, mçi bé xö lý t×m

ra c¸c kh¸i niÖm trªn c¸c cét mµ chóng gi÷.

Theo c¸ch nµy còng cÇn th−êng xuyªn trao ®æi th«ng tin ®Ó x¸c ®Þnh xem c¸c

kh¸i niÖm côc bé nµo cã thÓ ghÐp l¹i thµnh kh¸i niÖm ®óng trªn toµn côc.

- LÆp l¹i mét thuËt to¸n khai ph¸ d÷ liÖu tuÇn tù: Mçi bé xö lý lµm viÖc trªn

mét phÇn cña tËp d÷ liÖu (theo hµng), vµ thùc hiÖn thuËt to¸n tuÇn tù. Do chØ cã mét

phÇn th«ng tin, nã t¹o nªn c¸c kh¸i niÖm ®óng côc bé, nh−ng cã thÓ kh«ng ®óng

trªn toµn côc - c¸c kh¸i niÖm xÊp xØ. C¸c bé xö lý trao ®æi c¸c kh¸i niÖm xÊp xØ nµy,

hoÆc c¸c sè liÖu vÒ chóng, ®Ó kiÓm tra xem chóng cã ®óng trªn toµn côc kh«ng. Khi

lµm nh− vËy mçi bé xö lý häc ®−îc vÒ nh÷ng phÇn d÷ liÖu mµ chóng kh«ng nh×n

thÊy.

C¸ch nµy cã hai −u ®iÓm ®¸ng chó ý: tËp d÷ liÖu ®−îc ph©n chia gióp cho chi

phÝ truy cËp ®−îc chia ®Òu cho c¸c bé xö lý, vµ d÷ liÖu cÇn ®−îc trao ®æi gi÷a c¸c

pha th−êng nhá h¬n rÊt nhiÒu so víi b¶n th©n c¸c kh¸i niÖm, v× thÕ kh«ng tèn nhiÒu

chi phÝ cho truyÒn th«ng.

-28-

I.2.3. C¸c m« h×nh chi phÝ

§Ó xem mét kü thuËt khai ph¸ d÷ liÖu cã nªn ®−îc thùc hiÖn song song hay

kh«ng, ta cÇn x¸c ®Þnh ®é phøc t¹p cña nã, dùa trªn m« h×nh chi phÝ thùc tÕ. Chi phÝ

cho mét ch−¬ng tr×nh song song gåm hai phÇn: l−îng tÝnh to¸n mµ nã thùc hiÖn vµ

C

=

+

i

i

wMax bécc xö ¸

ghMax bécc lý ¸

truyÒn th«ng gi÷a c¸c bé xö lý. Chi phÝ nµy cã thÓ ®−îc tÝnh chÝnh x¸c bëi [15]:

víi hµm Max ®−îc tÝnh trªn tËp toµn bé c¸c bé xö lý; wi lµ sè c¸c lÖnh ®−îc thùc

hiÖn bëi bé xö lý i; hi lµ sè byte ®−îc göi hoÆc nhËn bëi bé xö lý i; vµ g lµ kh¶ n¨ng

truyÒn cña m¹ng, tÝnh b»ng sè ®¬n vÞ thêi gian ®Ó truyÒn mçi byte.

XÐt mét thuËt to¸n khai ph¸ d÷ liÖu tuÇn tù: gi¶ sö tËp d÷ liÖu gåm n hµng cã

kÝch th−íc m vµ c¸c thuËt to¸n t¹o ra s kh¸i niÖm. Mçi thuËt to¸n gåm mét sè k_s

lÇn lÆp ®Ó t¹o ra c¸c kh¸i niÖm lín h¬n tõ c¸c kh¸i niÖm nhá h¬n. §é phøc t¹p ®−îc

t

s

=

k

s

s

+

ACCESS

cos

_

_

,

( nm

)

( nm

[ STEP

] )

cho bëi c«ng thøc:

víi STEP lµ chi phÝ cho mét b−íc lÆp, ACCESS lµ chi phÝ xö lý d÷ liÖu.

D−íi ®©y tr×nh bµy c¸c chiÕn l−îc song song ho¸ c¸c thuËt to¸n tuÇn tù nªu

trªn [15].

I.2.3.1. XÊp xØ c¸c kh¸i niÖm

- Chia d÷ liÖu lµm p tËp con, mçi tËp trªn mét bé xö lý.

- Thùc hiÖn thuËt to¸n tuÇn tù (hoÆc c¶i biªn cña thuËt to¸n trªn mçi tËp con).

- Trao ®æi th«ng tin mçi bé xö lý häc ®−îc víi c¸c bé xö lý kh¸c.

- LÆp l¹i.

Gi¸ cña thuËt to¸n xÊp xØ kh¸i niÖm cã d¹ng:

-29-

+

ak

r

ACCESS

=

rpg

RES

cos

at _

*_

,

( rp

nm p

nm p

⎞ +⎟⎟ ⎠

⎛ ⎜⎜ ⎝

⎞ +⎟⎟ ⎠

⎛ ⎜⎜ ⎝

⎡ STEP ⎢ ⎣

⎤ )⎥ ⎦

trong ®ã r lµ kÝch th−íc cña c¸c kh¸i niÖm xÊp xØ ®−îc t¹o bëi mçi bé xö lý; rpg lµ

tæng chi phÝ cña viÖc trao ®æi c¸c kh¸i niÖm xÊp xØ nµy gi÷a c¸c bé xö lý; RES(rp) lµ

chi phÝ tÝnh to¸n cña viÖc s¾p xÕp c¸c kh¸i niÖm xÊp xØ nµy ®Ó tÝnh ®−îc c¸c xÊp xØ

STEP

r

r

,

,

)

( nm

)

STEP

r

ACCESS

r

,

,

tèt h¬n cho lÇn lÆp sau. Cã thÓ gi¶ thiÕt r»ng:

nm p

( nm p

nm p

ACCESS p

⎛ ⎜⎜ ⎝

⎛ ⎜⎜ ⎝

⎞ =⎟⎟ ⎠

⎞ =⎟⎟ ⎠

s

_

=

+

+

RES

cos

at _

ak _

( rpg

( rp

) )

t cos p

Nh− vËy, ta t¨ng tèc ®−îc p lÇn, kh«ng kÓ tæng chi phÝ, víi ®iÒu kiÖn k_s vµ k_a cã

kÝch th−íc cã thÓ so s¸nh ®−îc. Trao ®æi kÕt qu¶ th−êng xuyªn cã thÓ c¶i thiÖn ®é

chÝnh x¸c nhanh h¬n víi mét sè thuËt to¸n, vÝ thÕ k_a << k_s. §iÒu nµy cho ta sù

s

_

=

+

chi

phÝ

cos

at _

*

_

_

( tæng

)

t cos p

ak _ k s _

t¨ng tèc gÊp ®«i:

I.2.3.2. Ph©n chia c¸c kh¸i niÖm

- Chia tËp d÷ liÖu lµm p tËp con dùa trªn c¸c thuéc tÝnh

- Thùc hiÖn mét biÕn ®æi cô thÓ cña mét thuËt to¸n khai ph¸ d÷ liÖu trªn tËp con

nµy ®Ó lÊy ra c¸c kh¸i niÖm hoÆc c¸c tham sè m« h×nh chØ øng víi tËp con c¸c

thuéc tÝnh nµy.

- LÆp l¹i.

- KÕt hîp c¸c kh¸i niÖm côc bé hîp lý víi nhau ®Ó t¹o ra c¸c kh¸i niÖm m« t¶

toµn bé tËp d÷ liÖu.

Gi¸ cña thuËt to¸n kh¸i niÖm bé phËn cã d¹ng:

-30-

+

t

p

k

p

n

r

ACCESS

n

=

EXCH

g

RES

cos

_

_

,

,

,

,

,

*

,

,

( prmn ,

)

( prmn ,

m p

m p

⎞ +⎟⎟ ⎠

⎛ ⎜⎜ ⎝

⎞ +⎟⎟ ⎠

⎛ ⎜⎜ ⎝

⎡ SPECIAL ⎢ ⎣

⎤ )⎥ ⎦

víi hµm SPECIAL tÝnh ®é phøc t¹p cña mét b−íc cña thuËt to¸n; EXCH lµ chi phÝ

trao ®æi c¸c kh¸i niÖm côc bé.

I.2.3.3. C¸c chiÕn l−îc t×m kiÕm ®éc lËp

Kh«ng ph©n chia d÷ liÖu. Thay v× thùc hiÖn cïng mét thuËt to¸n p lÇn, sö

dông mét sè kü thuËt ngÉu nhiªn ®Ó h−íng thuËt to¸n sang mét phÇn kh¸c cña

kh«ng gian t×m kiÕm c¸c kh¸i niÖm.

t

i

=

k

s

+

ACCESS

+

s

g

+

s

cos

_

i *_

,

*

( nm

)

( nm

[ STEP

] )

k

s

k

_ = i

Gi¸ cña mét thuËt to¸n t×m kiÕm ®éc lËp cã d¹ng:

_ p

. Râ rµng c¸ch tiÕp cËn nµy chØ cã ý nghÜa nÕu ta cã lý do ®Ó gi¶ sö r»ng

I.2.3.4. So s¸nh c¸c chiÕn l−îc

Gi¸ cña c¸c chiÕn l−îc thùc hiÖn kh¸c nhau ë trªn phô thuéc vµo gi¸ trÞ cña

c¸c gi¸ trÞ k_a, k_p, k_i. Tuy nhiªn, gi¶ sö r»ng chóng kh«ng tåi h¬n k_s th× ta cã

thÓ xÕp h¹ng c¸c c¸ch song song hãa nh− sau:

ThuËt to¸n kh¸i niÖm xÊp xØ tèt h¬n thuËt to¸n kh¸i niÖm côc bé, tèt h¬n

thuËt to¸n t×m kiÕm ®éc lËp. C¸c kü thuËt kÕt hîp tõng phÇn t¹o nhiÒu kh¸i niÖm mµ

chóng kh«ng thÓ lµ mét bé phËn cña tËp kh¸i niÖm lín h¬n. V× thÕ c¸c tËp t¹o bëi

mçi thuËt to¸n ®éc lËp lµ lín h¬n nhiÒu so víi c¸c tËp cã ®−îc sau khi gi¶i quyÕt, cã

nghÜa lµ mçi thuËt to¸n ®· lµm mét viÖc v« Ých. Còng vËy, t×m kiÕm ®éc lËp kh«ng

lîi dông ®−îc mét thùc tÕ lµ c¸c bé xö lý kh¸c còng ®· cã thÓ ph¸t hiÖn ra c¸c tri

thøc cã Ých mµ cã thÓ tØa bít sù t×m kiÕm ë bé xö lý nµy, vµ nã l¹i thùc hiÖn c«ng

viÖc v« Ých.

-31-

KÕt luËn ch−¬ng 1

Ch−¬ng nµy ®· tr×nh bµy nh÷ng néi dung chÝnh yÕu vÒ khai ph¸ d÷ liÖu, hÖ

thèng tÝnh to¸n song song vµ ¸p dông trong khai ph¸ d÷ liÖu song song. ViÖc ph¸t

hiÖn tri thøc (nh÷ng mÉu, nh÷ng xu h−íng tiÒm Èn vµ h÷u Ých) trong c¬ së d÷ liÖu lµ

rÊt cÇn thiÕt vµ lµ mét qu¸ tr×nh gåm nhiÒu giai ®o¹n, trong ®ã giai ®o¹n khai ph¸ d÷

liÖu lµ mét giai ®o¹n chÝnh yÕu nhÊt (môc 1.1.1). Trong c¸c c¬ së d÷ liÖu ®å sé, c¸c

ph−¬ng ph¸p khai ph¸ d÷ liÖu (®iÓn h×nh lµ ph©n líp, ph©n côm) cho phÐp ph¸t hiÖn

®−îc c¸c mÉu tiÒm Èn vµ ®¸nh gi¸ gi¸ trÞ cña chóng mét c¸ch tù ®éng trong mét

kho¶ng thêi gian nhanh nhÊt ®Ó hç trî cho ng−êi sö dông.

Thùc hiÖn khai ph¸ d÷ liÖu trªn c¸c hÖ thèng víi d÷ liÖu lín, trªn c¸c hÖ

thèng ph©n t¸n, viÖc nghiªn cøu vµ ®Ò xuÊt c¸c thuËt to¸n khai ph¸ d÷ liÖu song

song trong c¸c m« h×nh song song lµ rÊt cã ý nghÜa. Tïy thuéc vµo c¬ së d÷ liÖu

thùc tÕ, viÖc lùa chän c¸ch thøc song song ®Ó song song hãa thuËt to¸n khai ph¸ d÷

liÖu tuÇn tù lµ rÊt quan träng (môc 1.2.2), nã ¶nh h−ëng trùc tiÕp tíi gi¸ thµnh thùc

hiÖn viÖc khai ph¸ d÷ liÖu. Mét sè m« h×nh chi phÝ h×nh thøc cho khai ph¸ d÷ liÖu

song song ®· ®−îc tæng kÕt (môc 1.2.3).

-32-

Ch−¬ng II. LuËt kÕt hîp theo tiÕp cËn lý thuyÕt tËp th«

II.1. kh¸i niÖm LuËt kÕt hîp vµ mét sè c«ng nghÖ ph¸t hiÖn

II.1.1. LuËt kÕt hîp

Ph¸t hiÖn luËt kÕt hîp lµ sù khai ph¸ d÷ liÖu kh«ng ®−îc ®Þnh h−íng hoÆc

kh«ng cã gi¸m s¸t trªn d÷ liÖu cã ®é dµi thay ®æi, nã cho ra c¸c kÕt qu¶ râ rµng vµ

dÔ hiÓu. Môc ®Ých cña khai ph¸ luËt kÕt hîp lµ t×m tÊt c¶ c¸c tËp con c¸c ®èi t−îng

hoÆc thuéc tÝnh xuÊt hiÖn th−êng xuyªn trong nhiÒu giao dÞch hoÆc b¶n ghi trong c¬

së d÷ liÖu, thªm vµo ®ã lµ rót ra c¸c luËt vÒ mét tËp con ®èi t−îng cã ¶nh h−íng tíi

sù xuÊt hiÖn cña tËp con c¸c ®èi t−îng kh¸c nh− thÕ nµo [15].

MÆc dï ph¸t hiÖn luËt kÕt hîp cã c¸ch ®Æt bµi to¸n ®¬n gi¶n, nã ®ßi hái l−îng

tÝnh to¸n vµ truy xuÊt d÷ liÖu rÊt lín. Khi d÷ liÖu t¨ng lªn c¶ vÒ sè h−íng (sè c¸c

thuéc tÝnh) vµ kÝch th−íc (sè giao dÞch), mét trong nh÷ng tÝnh chÊt cÇn thiÕt cña

ph¸t hiÖn luËt kÕt hîp lµ kh¶ n¨ng më réng ®−îc: kh¶ n¨ng xö lý kho d÷ liÖu rÊt lín.

C¸c thuËt to¸n tuÇn tù kh«ng thÓ cho kh¶ n¨ng nµy trong c¸c c¬ së d÷ liÖu lín. V×

vËy ta ph¶i dùa vµo tÝnh to¸n song song vµ ph©n t¸n hiÖu suÊt cao.

TËp phæ biÕn lµ c¬ së ®Ó t¹o c¸c luËt kÕt hîp [4]. Chóng ta xem xÐt mét vÝ dô

khai ph¸ luËt kÕt hîp. Cho mét tËp c¸c thuéc tÝnh I = {I1, I2,..., Im}, mét giao dÞch T

®−îc ®Þnh nghÜa lµ mét tËp con bÊt kú c¸c thuéc tÝnh trong I. Gi¶ sö c¬ së d÷ liÖu D

lµ mét tËp n giao dÞch, mçi giao dÞch ®−îc g¸n mét ®Þnh danh giao dÞch duy nhÊt

TID. Giao dÞch T lµ hç trî mét tËp X ⊆ I nÕu nã chøa tÊt c¶ c¸c thuéc tÝnh trong X,

tøc lµ X ⊆ T. §é hç trî cña mét tËp thuéc tÝnh X, ký hiÖu σ(X), lµ tØ lÖ cña tÊt c¶ c¸c

giao dÞch trong D hç trî X.

-33-

§Þnh nghÜa 2.1 (TËp phæ biÕn)

TËp X ⊆ I ®−îc gäi lµ tËp phæ biÕn nÕu cã σ(X) ≥ smin víi smin lµ ®é hç trî

tèi thiÓu cho tr−íc.

Mét tËp X cã lùc l−îng k = |X| ®−îc gäi lµ k-itemset. Cã ba tÝnh chÊt quan

träng cña c¸c tËp phæ biÕn, ®ã lµ:

- NÕu A ⊆ B víi A, B lµ c¸c tËp thuéc tÝnh th× σ(A) > σ(B), bëi tÊt c¶ c¸c giao

dÞch trong D hç trî B th× ®Òu ph¶i hç trî A.

- TËp cha cña mét tËp kh«ng phæ biÕn lµ tËp kh«ng phæ biÕn: NÕu tËp thuéc

tÝnh A kh«ng ®ñ ®é hç trî, tøc lµ σ(A) ≤ smin th× mäi tËp B chøa A còng sÏ

kh«ng phæ biÕn, bëi v× σ(B) ≤ σ(A) ≤ smin.

- TËp con cña tËp phæ biÕn lµ tËp phæ biÕn: NÕu tËp thuéc tÝnh B lµ phæ biÕn

trong D, tøc lµ σ(B) ≥ smin, th× mäi tËp con A cña B còng sÏ lµ phæ biÕn, bëi

σ(A) ≥ σ(B) ≥ smin.

Mét tËp phæ biÕn lµ cùc ®¹i nÕu nã kh«ng lµ tËp con cña bÊt kú tËp phæ biÕn nµo

kh¸c. Víi kh¸i niÖm vµ c¸c tÝnh chÊt nªu trªn cña tËp phæ biÕn, ng−êi ta ®−a ra kh¸i

niÖm luËt kÕt hîp nh− sau ®©y.

§Þnh nghÜa 2.2 (LuËt kÕt hîp)

Mét luËt kÕt hîp lµ mét biÓu thøc R: X → Y, víi X vµ Y lµ c¸c tËp thuéc

tÝnh kh«ng giao nhau X ∩ Y = ∅ vµ Y ≠ ∅.

§Þnh nghÜa 2.3 (§é hç trî vµ ®é tin cËy cña luËt)

§ç hç trî cña luËt lµ x¸c suÊt cña mét giao dÞch chøa c¶ X vµ Y: σ(X∪Y).

§é tin cËy cña mét luËt lµ x¸c suÊt cã ®iÒu kiÖn ®Ó mét giao dÞch chøa Y,

nÕu nã ®· chøa X, vµ ®−îc tÝnh bëi:

-34-

T

( Yp

)

)

=

T

=

=

XT |

( α R

)

( Yp

)

⊆∧⊆ X T ( ) Xp ⊆ T

( ∪ σ X Y )X ( σ

§é hç trî cña mét luËt lµ tÇn suÊt nã cã thÓ x¶y ra, trong khi ®é tin cËy cña

luËt cho biÕt luËt ®ã ®¸ng tin ra sao. Mét luËt lµ thÝch hîp nÕu nã cã ®ñ ®é hç trî vµ

®é tin cËy: σ(R) ≥ smin (luËt phæ biÕn) vµ α(R) ≥ cmin (luËt m¹nh), ®iÒu nµy chØ x¶y ra

nÕu c¶ vÕ tr¸i vµ vÕ ph¶i cña luËt ®ã lµ c¸c tËp phæ biÕn.

Ph¸t hiÖn luËt kÕt hîp liªn quan tíi viÖc t×m ra tÊt c¶ c¸c luËt kÕt hîp trong c¬

së d÷ liÖu cã ®é hç trî > smin vµ cã ®é tin cËy > cmin (c¸c luËt phæ biÕn vµ m¹nh).

C«ng viÖc nµy gåm hai b−íc:

1. T×m tÊt c¶ c¸c tËp thuéc tÝnh phæ biÕn cã ®é hç trî tèi thiÓu. Kh«ng gian t×m

kiÕm ®Ó liÖt kª tÊt c¶ c¸c tËp thuéc tÝnh phæ biÕn lµ 2m, víi m lµ sè thuéc tÝnh.

Tuy nhiªn, nÕu ta gi¶ sö chiÒu dµi giao dÞch lµ cã giíi h¹n, th× cã thÓ chØ ra

r»ng ph¸t hiÖn luËt kÕt hîp vÒ c¬ b¶n lµ tuyÕn tÝnh víi kÝch th−íc cña c¬ së

d÷ liÖu.

2. T¹o c¸c luËt m¹nh cã ®é tin cËy tèi thiÓu tõ c¸c tËp thuéc tÝnh phæ biÕn. Ta

t¹o vµ thö ®é tin cËy cña tÊt c¶ c¸c luËt cã d¹ng X\Y → Y, víi Y ⊂ X vµ X phæ

biÕn. V× ta ph¶i xÐt mçi tËp con cña X nh− lµ vÕ ph¶i cña luËt, ®é phøc t¹p cña

b−íc t¹o luËt lµ O(r.2l), víi r lµ sè tËp thuéc tÝnh phæ biÕn, l lµ kÝch th−íc cña

tËp phæ biÕn lín nhÊt.

C¸c tÝnh chÊt cña luËt kÕt hîp:

- Kh«ng cã phÐp hîp c¸c luËt: NÕu X → Z vµ Y → Z, kh«ng cã nghÜa lµ X ∪ Y

→ Z. XÐt tr−êng hîp X ∩ Y = ∅, mét giao dÞch trong D hç trî Z khi vµ chØ

khi nã hç trî hoÆc X, hoÆc Y. §é hç trî cña X ∪ Y lµ b»ng 0, vµ do ®ã ®é tin

cËy cña X ∪ Y → Z lµ b»ng 0%.

-35-

- PhÐp t¸ch c¸c luËt: NÕu X ∪ Y → Z thÝch hîp, c¸c luËt X → Z vµ Y → Z cã

thÓ kh«ng thÝch hîp. VÝ dô trong tr−êng hîp Z chØ xuÊt hiÖn khi c¶ X vµ Y

xuÊt hiÖn, tøc lµ σ(X∪Y) = σ(Z), nÕu X vµ Y cã ®é hç trî kh¸ lín so víi X∪Y

th× hai luËt t¹o thµnh sÏ kh«ng cã ®ñ ®é tin cËy. Tr−êng hîp ng−îc l¹i: X →

Y∪Z ⇒ X → Y ∧ X → Z l¹i ®óng, bëi σ(XY) ≥ σ(XYZ) vµ σ(XZ) ≥ σ(XYZ), do

®ã ®é hç trî vµ ®é tin cËy cña luËt nhá h¬n ®Òu t¨ng so víi luËt ban ®Çu.

- Kh«ng cã tÝnh chÊt b¾c cÇu: NÕu X → Y vµ Y → Z, ta kh«ng thÓ suy ra X →

Z. VÝ dô trong tr−êng hîp T(X) ⊂ T(Y) ⊂ T(Z), víi T(X) lµ tËp c¸c giao dÞch

hç trî X, ... vµ ®é tin cËy tèi thiÓu lµ cmin. Gi¶ sö α(X → Y) = α(Y → Z) = cmin,

min

< cmin (v× cmin <

dùa trªn c¸c gi¸ trÞ ®é hç trî t−¬ng ®èi ta cã α(X → Z) = c2

1), nh− thÕ X → Z kh«ng cã ®ñ ®é tin cËy vµ do ®ã kh«ng thÝch hîp.

II.1.2. Mét sè c«ng nghÖ ph¸t hiÖn luËt kÕt hîp tuÇn tù [16]

Kh«ng gian t×m kiÕm luËt kÕt hîp tuÇn tù cã thÓ ®−îc thiÕt ®Æt theo nh÷ng

c¸ch d−íi ®©y [17].

(cid:131) T×m kiÕm tõ d−íi lªn/ T×m kiÕm lai

Trong ph¸t hiÖn luËt kÕt hîp cã sö dông quan hÖ tËp con ⊆ ®Þnh nghÜa mét

thø tù bé phËn trªn tËp c¸c itemset. Quan hÖ nµy lµ ®¬n ®iÖu so víi ®é hç trî σ(X).

ThuËt to¸n ph¸t hiÖn luËt kÕt hîp kh¸c víi c¸ch t×m kiÕm trong m¹ng c¸c itemset

kÕt nèi bëi quan hÖ tËp con. HÇu hÕt c¸c tiÕp cËn sö dông c¸ch t×m kiÕm theo møc

hoÆc t×m-tõ-d−íi-lªn trong m¹ng ®Ó liÖt kª c¸c itemset phæ biÕn. NÕu dù ®o¸n lµ cã

itemset dµi, c¸ch tiÕp cËn trªn-xuèng nguyªn thñy cã thÓ ®−îc −a dïng h¬n. Ng−êi

ta còng dïng c¸ch t×m kiÕm lai, kÕt hîp c¶ t×m-tõ-trªn-xuèng vµ t×m-tõ-d−íi-lªn.

-36-

(cid:131) T¹o øng viªn theo c¸ch ngÉu nhiªn/ T¹o øng viªn ®Çy ®ñ

C¸c thuËt to¸n ph¸t hiÖn luËt kÕt hîp cã thÓ kh¸c nhau trong c¸ch t¹o øng

viªn míi. Mét t×m kiÕm ®Çy ®ñ ®¶m b¶o r»ng ta cã thÓ t¹o vµ thö tÊt c¶ c¸c tËp con

phæ biÕn. ë ®©y, ®Çy ®ñ kh«ng cã nghÜa lµ t×m ®Õn kiÖt søc, ta cã thÓ tØa bít ®Ó h¹n

chÕ c¸c nh¸nh v« Ých trong kh«ng gian t×m kiÕm. Trong c¸ch t¹o pháng ®o¸n, tÝnh

®Çy ®ñ bÞ mÊt ®i cho môc ®Ých t¨ng tèc. T¹i mçi b−íc, nã chØ kiÓm tra mét sè h¹n

chÕ c¸c "nh¸nh tèt". Còng cã thÓ t×m kiÕm ngÉu nhiªn ®Ó ®Þnh vÞ itemset phæ biÕn

cùc ®¹i.

(cid:131) LiÖt kª tÊt c¶ c¸c itemset/ LiÖt kª c¸c itemset phæ biÕn cùc ®¹i

C¸c thuËt to¸n ph¸t hiÖn luËt kÕt hîp kh¸c nhau phô thuéc vµo viÖc chóng t¹o

ra tÊt c¶ c¸c tËp con phæ biÕn hay chØ mét sè tËp con phæ biÕn cùc ®¹i. X¸c ®Þnh c¸c

tËp con cùc ®¹i lµ nhiÖm vô cèt lâi, v× viÖc rµ quÐt l¹i c¬ së d÷ liÖu cã thÓ t¹o ra tÊt

c¶ c¸c tËp con kh¸c. Tuy nhiªn, ®a sè c¸c thuËt to¸n ®Òu liÖt kª tÊt c¶ c¸c tËp con

phæ biÕn.

(cid:131) Tr×nh bµy d÷ liÖu theo hµng/theo cét

HÇu hÕt c¸c thuËt to¸n ph¸t hiÖn luËt kÕt hîp ®Òu sö dông c¸ch tr×nh bµy d÷

liÖu theo hµng ngang, l−u mçi ®Þnh danh giao dÞch cña kh¸ch cïng c¸c môc cã trong

giao dÞch ®ã. Mét sè ph−¬ng ph¸p còng dïng c¸ch thÓ hiÖn d÷ liÖu theo chiÒu däc,

kÕt hîp víi mçi môc X mét danh s¸ch c¸c ®Þnh danh giao dÞch chøa nã.

i. ThuËt to¸n Apriori - do Rakesh Agrawal vµ céng sù ®Ò xuÊt

§©y lµ mét trong c¸c thuËt to¸n ph¸t hiÖn luËt kÕt hîp tèt nhÊt. Nã còng lµ

nÒn t¶ng cho hÇu hÕt c¸c thuËt to¸n song song. Apriori sö dông c¸ch t×m kiÕm ®Çy

®ñ tõ d−íi lªn trong d÷ liÖu tr×nh bµy theo chiÒu ngang vµ liÖt kª tÊt c¶ c¸c itemset

phæ biÕn. Lµ mét thuËt to¸n lÆp, Apriori ®Õm c¸c itemset cã chiÒu dµi cô thÓ trong

c¬ së d÷ liÖu. Qu¸ tr×nh b¾t ®Çu víi viÖc duyÖt tÊt c¶ c¸c giao dÞch trong c¬ së d÷

-37-

liÖu vµ tÝnh c¸c itemset phæ biÕn. TiÕp theo, t¹o mét tËp c¸c øng viªn 2-itemset phæ

biÕn tõ c¸c itemset phæ biÕn. Mét lÇn duyÖt c¬ së d÷ liÖu n÷a ®Ó tÝnh ®é hç trî cña

chóng. C¸c 2-itemset phæ biÕn ®−îc duy tr× cho lÇn sau. Qu¸ tr×nh lÆp l¹i tíi khi liÖt

kª hÕt c¸c itemset phæ biÕn. ThuËt to¸n cã 3 b−íc chÝnh:

- T¹o c¸c øng viªn cã ®é dµi k tõ c¸c (k-1)-ietmset phæ biÕn b»ng c¸ch tù

kÕt hîp trªn Fk-1

- TØa bít c¸c øng viªn cã Ýt nhÊt mét tËp con kh«ng phæ biÕn

- DuyÖt tÊt c¶ c¸c giao dÞch ®Ó cã ®é hç trî cña c¸c øng viªn. Apriori l−u

c¸c øng viªn trong mét c©y b¨m (hash tree) ®Ó ®Õm nhanh ®é hç trî.

Trong mét c©y b¨m, c¸c itemset ®−îc l−u t¹i c¸c l¸, c¸c nót trong chøa

c¸c b¶ng b¨m (trén bëi c¸c môc) ®Î ®Þnh h−íng t×m kiÕm c¸c øng viªn.

ii. ThuËt to¸n tØa vµ b¨m ®éng (Dynamic Hashing & Pruning - DHP) - do Jong

Soo Park vµ céng sù ®Ò xuÊt

ThuËt to¸n DHP më réng c¸ch tiÕp cËn Apriori b»ng c¸ch dïng b¶ng trén ®Ó

tÝnh tr−íc ®é hç trî xÊp xØ cho c¸c 2-itemset trong qu¸ tr×nh lÆp. LÇn lÆp thø hai chØ

cÇn tÝnh c¸c øng viªn trong c¸c phÇn tö b¨m cã ®é hç trî tèi thiÓu. Kü thuËt dïng

hµm b¨m nµy cã thÓ lo¹i ®i rÊt tèt nh÷ng cÆp øng viªn mµ cuèi cïng sÏ lµ kh«ng phæ

biÕn.

iii. ThuËt to¸n ph©n ho¹ch (Partition) - do Ashok vµ céng sù ®Ò xuÊt

ThuËt to¸n nµy ph©n chia hîp lý c¬ së d÷ liÖu theo chiÒu ngang thµnh c¸c

phÇn kh«ng giao nhau. Mçi phÇn ®−îc ®äc vµ t¹o ra cho mçi item c¸c danh s¸ch

theo hµng däc c¸c ®Þnh danh giao dÞch cã chøa item ®ã (tidlist). Sau ®ã t×m c¸c

itemset phæ biÕn ®Þa ph−¬ng qua phÇn giao cña c¸c tidlist. C¸c itemset phæ biÕn t¹i

mçi phÇn sÏ tËp hîp l¹i ®Ó t¹o mét tËp c¸c øng viªn toµn phÇn. ThuËt to¸n duyÖt lÇn

thø hai qua tÊt c¶ c¸c phÇn vµ cã ®−îc con sè toµn côc cña mäi øng viªn qua phÇn

giao cña c¸c tidlist.

-38-

iv. C¸c thuËt to¸n SEAR & SPEAR - do Andreas Muller ®Ò xuÊt

ThuËt to¸n SEAR (Sequential Efficial Association Rules - Ph¸t hiÖn tuÇn tù

luËt kÕt hîp mét c¸ch hiÖu qu¶) gièng hÖt Apriori, ngo¹i trõ viÖc nã l−u c¸c øng

viªn trong mét c©y tiÒn tè thay v× mét c©y b¨m. Trong mét c©y tiÒn tè, mçi c¹nh

®−îc g¸n nh·n bëi c¸c tªn thuéc tÝnh, c¸c tiÒn tè phæ biÕn ®−îc biÓu diÔn bëi c¸c

nh¸nh c©y, vµ c¸c hËu tè duy nhÊt ®−îc l−u t¹i c¸c l¸. Ngoµi ra, SEAR dïng mét

c¸ch tèi −u hãa gép nhiÒu lÇn duyÖt, trong ®ã nã t×m øng viªn cho nhiÒu l−ît nÕu

c¸c øng viªn ®ã võa trong bé nhí.

ThuËt to¸n SPEAR (SEAR with Partition technique) t−¬ng tù víi SEAR

nh−ng nã dïng kü thuËt ph©n ho¹ch, nã lµ b¶n sao cña SEAR nh−ng kh«ng dïng

®Þnh danh giao dÞch. SPEAR dïng d÷ liÖu ®Þnh d¹ng theo hµng ngang, nã duyÖt hai

lÇn: tr−íc hÕt tËp trung vµo c¸c itemset phæ biÕn tiÒm n¨ng, sau ®ã tÝnh ®é hç trî

toµn phÇn cña chóng.

Môc tiªu cña Muller lµ ®¸nh gi¸ nh÷ng lîi Ých néi t¹i cña viÖc ph©n ho¹ch,

bÊt kÓ ®Þnh ®Þnh d¹ng d÷ liÖu ®−îc dïng. ¤ng kÕt luËn r»ng ph©n ho¹ch kh«ng gióp

®−îc g× do ph¶i xø lý thªm nhiÒu ph©n ho¹ch vµ do ph©n ho¹ch t×m ra nhiÒu itemset

phæ biÕn ®Þa ph−¬ng nh−ng kh«ng phæ biÕn toµn phÇn. SEAR −u viÖt h¬n do nã thùc

hiÖn c¶ viÖc gép c¸c lÇn duyÖt.

v. ThuËt to¸n ®Õm itemset ®éng (Dynamic Itemset Counting - DIC) do Sergey

Brin vµ céng sù ®Ò xuÊt

§©y lµ sù tæng qu¸t hãa cña thuËt to¸n Apriori. D÷ liÖu ®−îc chia lµm p phÇn

cã kÝch th−íc b»ng nhau ®Ó mçi phÇn võa trong bé nhí. Víi phÇn 1, DIC tËp hîp ®é

hç trî cña tõng item. C¸c item phæ biÕn ®Þa ph−¬ng (chØ trong phÇn nµy) t¹o nªn c¸c

øng viªn øng viªn 2-itemset. Sau ®ã DIC ®äc phÇn 2, cã ®é hç trî cña tÊt c¶ c¸c øng

viªn hiÖn t¹i - tøc lµ c¸c item ®¬n lÎ vµ c¸c øng viªn 2-itemset. Qu¸ tr×nh nµy lÆp l¹i

-39-

cho c¸c phÇn cßn l¹i. DIC b¾t ®Çu ®Õm sè øng viªn k-itemset trong khi xö lý phÇn k

trong lÇn duyÖt c¬ së d÷ liÖu lÇn ®Çu tiªn. Sau khi xö lý hÕt phÇn cuèi cïng p, DIC

quay trë l¹i phÇn 1. §é hç trî toµn phÇn cña øng viªn ®−îc tÝnh mçi khi qu¸ tr×nh

quay l¹i vµ ®¹t ®Õn phÇn n¬i nã ®−îc tÝnh lÇn ®Çu. DIC cã hiÖu qu¶ trong viÖc gi¶m

sè lÇn quÐt c¬ së d÷ liÖu nÕu hÇu hÕt c¸c phÇn lµ ®ång nhÊt (cã sù ph©n bè c¸c

itemset phæ biÕn gièng nhau). NÕu d÷ liÖu kh«ng ®ång nhÊt, DIC cã thÓ t¹o ra nhiÒu

sè liÖu sai - tøc c¸c itemset phæ biÕn ®Þa ph−¬ng nh−ng kh«ng phæ biÕn toµn phÇn -

vµ duyÖt c¬ së d÷ liÖu nhiÒu h¬n Apriori. DIC ®−a ra mét kü thuËt ph©n ho¹ch ngÉu

nhiªn ®Ó gi¶m ®é lÖch cña c¸c phÇn d÷ liÖu.

vi. C¸c thuËt to¸n Eclat, MaxEclat, Clique, MaxClique - do Mohammed J.

Zaki vµ céng sù ®Ò xuÊt

§©y lµ mét c¸ch thiÕt kÕ hoµn toµn kh¸c m« t¶ c¸c thuËt to¸n dùa trªn c¸c líp

t−¬ng ®−¬ng. C¸c ph−¬ng ph¸p nµy sö dông ®Þnh d¹ng d÷ liÖut theo cét däc, t×m

kiÕm ®Çy ®ñ vµ kÕt hîp gi÷a c¸ch t×m kiÕm lai vµ t×m kiÕm tõ d−íi lªn, chóng t¹o ra

mét hçn hîp c¸c itemset phæ biÕn cùc ®¹i vµ kh«ng cùc ®¹i. Lîi thÕ chÝnh cña viÖc

dïng ®Þnh d¹ng d÷ liÖu theo cét däc lµ ta cã thÓ x¸c ®Þnh ®é hç trî cña bÊt kú k-

itemset nµo, ®¬n gi¶n b»ng c¸ch giao c¸c danh s¸ch ®Þnh danh giao dÞch tidlist cña

hai tËp con kÝch th−íc (k-1) ®Çu tiªn cã chung phÇn tiÒn tè (c¸c itemset ph¸t sinh).

C¸c ph−¬ng ph¸p nµy chia kh«ng gian t×m kiÕm lín thµnh c¸c phÇn nhá, ®éc lËp vµ

cã thÓ qu¶n lý ®−îc. C¸c phÇn nµy cã thÓ ®−îc xö lý trong bé nhí qua c¸c líp t−¬ng

®−¬ng dùa trªn c¸c nhãm hoÆc tiÒn tè; c¸ch tiÕp cËn dùa trªn nhãm t¹o ra nhiÒu líp

nhá h¬n. Mçi líp lµ ®éc lËp theo nghÜa chóng cã ®Çy ®ñ th«ng tin ®Ó t¹o tÊt c¶ c¸c

itemset phæ biÕn cã cïng tiÒn tè.

Trong bèn thuËt to¸n nµy, Eclat sö dông c¸c líp dùa trªn tiÒn tè vµ t×m kiÕm

tõ d−íi lªn, MaxEclat sö dông c¸c líp dùa trªn tiÒn tè vµ t×m kiÕm lai, Clique dïng

c¸c líp dùa trªn nhãm vµ t×m kiÕm tõ d−íi lªn, MaxClique dïng c¸c líp dùa trªn

-40-

nhãm vµ t×m kiÕm lai. C¸ch tiÕp cËn tèt nhÊt lµ MaxClique, nã tèt h¬n c¶ Apriori vµ

Eclat.

II.2. LuËt kÕt hîp theo tiÕp cËn lý thuyÕt tËp th«

II.2.1. TËp th« [14]

Lý thuyÕt tËp th« ®−îc ph¸t triÓn bëi Zdzislaw Pawlak vµo ®Çu nh÷ng n¨m

1980. Môc ®Ých chÝnh cña ph©n tÝch tËp th« lµ suy dÉn ra c¸c xÊp xØ cña c¸c kh¸i

niÖm, nã cung cÊp c¸c c«ng cô to¸n häc cho viÖc ph¸t hiÖn c¸c mÉu Èn chøa trong

d÷ liÖu vµ ®−îc dïng ®Ó lùa chän thuéc tÝnh, rót gän d÷ liÖu, sinh luËt quyÕt ®Þnh vµ

rót ra c¸c mÉu.

Gäi cÆp A= (U, R) lµ mét kh«ng gian xÊp xØ, víi U lµ mét tËp h÷u h¹n, vµ R

lµ tËp c¸c líp t−¬ng ®−¬ng trªn U. Mçi phÇn tö cña tËp R ®−îc gäi lµ mét tËp c¬ së

(hay tËp nguyªn tö). Mét tËp cã thÓ ®Þnh nghÜa trong A lµ thu ®−îc nhê ¸p dông mét

sè h÷u h¹n c¸c phÐp hîp (∪) trªn R. Gäi R* lµ hä c¸c tËp con cña R. Khi ®ã, R* t¹o

mét kh«ng gian t«p« TA = (U, R*). Ta gäi mçi phÇn tö cña U lµ mét ®èi t−îng. Mét

kh¸i niÖm ®¸ng quan t©m X lµ mét tËp con cña U. Mét tËp cã thÓ ®Þnh nghÜa trong A

chøa X, ClA(X) ®−îc gäi lµ tËp ®ãng (cßn gäi lµ tËp trªn) cña X trong A. T−¬ng tù, tËp

cã thÓ ®Þnh nghÜa lín nhÊt trong A ®−îc chøa bëi X, IntA(X), ®−îc gäi lµ tËp trong

U

ClA(X) - X

U/R

IntA(X)

tËp X

(hay cßn gäi lµ tËp d−íi) cña X trong A.

-41-

§Þnh nghÜa 2.4 (TËp m« t¶ ®−îc vµ tËp th«)

TËp X lµ m« t¶ ®−îc trong A nÕu víi mét sè tËp Y ∈ R*, X b»ng hîp cña tÊt

c¶ c¸c tËp trong Y. Ng−îc l¹i, X ®−îc gäi lµ tËp th« hay tËp kh«ng m« t¶

®−îc.

Ta muèn t¹o mét thuËt to¸n quyÕt ®Þnh trong A, ký hiÖu lµ DA(X), sao cho víi

mçi x ∈ U nã cho mét trong 3 c©u tr¶ lêi: (a) x n»m trong X, (b) x kh«ng n»m trong

X, (c) kh«ng biÕt. Ta ®Þnh nghÜa c¸c tËp cña X trong A t−¬ng øng víi mçi c©u tr¶ lêi:

- POSA(X) lµ tËp c¸c ®èi t−îng ®−îc DA(X) coi lµ mét phÇn tö cña kh¸i niÖm X;

- BNDA(X) lµ tËp c¸c ®èi t−îng mµ DA(X) cho c©u tr¶ lêi "kh«ng biÕt";

- NEGA(X) lµ tËp c¸c ®èi t−îng kh«ng ®−îc DA(X) coi lµ phÇn tuwr cña X;

Theo ®Þnh nghÜa trªn, dÔ thÊy NEGA(X) = U - (POSA(X) ∪ BNDA(X)). Nãi c¸ch kh¸c,

thuËt to¸n quyÕt ®Þnh dïng c¸c luËt sau ®Ó tr¶ lêi c©u hái x ∈ X hay kh«ng:

i. x ∈ POSA(X) ⇒ x ∈ X,

ii. x ∈ BNDA(X) ⇒ kh«ng biÕt,

iii. x ∈ NEGA(X) ⇒ x ∉ X

Cã hai ph−¬ng ph¸p xÊp xØ ®−îc ®Þnh nghÜa trong kh«ng gian xÊp xØ ®¹i sè:

A(X) = IntA(X) vµ

- XÊp xØ d−íi: POSl

A(X) = ClA(X)

- XÊp xØ trªn: POSu

=

Trong c¶ hai ph−¬ng ph¸p, vïng biªn cña kh¸i niÖm X b»ng ClA(X) - POSA(X). §é

( X

)

µ A

| |

) | ) |

( Int A A ( XCl A

m¬ hå ®−îc biÓu diÔn bëi ®é ®o chÝnh x¸c:

§Æt F = {X1, X2,..., Xk}, víi Xi ∈U, lµ mét ph©n lo¹i cña U. C¸c tËp trong vµ tËp

®ãng cña F trong A ®−îc ®Þnh nghÜa t−¬ng øng lµ c¸c hä:

IntA(F) = {IntA(X1), IntA(X2),..., IntA(Xn)}

-42-

vµ ClA(F) = {ClA(X1), ClA(X2),..., ClA(Xn)}

Mét bµi to¸n ph©n líp ®−îc m« t¶ nh− viÖc t¹o mét thuËt to¸n quyÕt ®Þnh

DA(R, F) ®Ó liªn kÕt c¸c tËp cã thÓ ®Þnh nghÜa víi c¸c kh¸i niÖm. NÕu DA(R, F) lµ

mét quan hÖ th× nã ®−îc gäi lµ mét thuËt to¸n quyÕt ®Þnh kh«ng nhÊt qu¸n, ng−îc

l¹i nã lµ mét thuËt to¸n quyÕt ®Þnh nhÊt qu¸n. Do POSA(R, F) = ∪x∈FPOSA(R, X) nªn

sù më réng mét ph−¬ng ph¸p xÊp xØ cho bµi to¸n ph©n líp lµ dÔ hiÓu. T−¬ng tù, ®é

k

Int

|

|

( X

)

A

i

1

i

( F

)

β A

|

|

)

( XCl A

i

∑ == k ∑

i

1 =

chÝnh x¸c ph©n líp b»ng:

Trong bµi to¸n ph©n líp, mét ®é ®o thø hai th−êng ®−îc nãi tíi, ®ã lµ chÊt

k

Int

|

|

( x

)

A

i

∑ 1 i ==

( F

)

η A

k

U

|

|

i

1 =

l−îng cña ph©n lo¹i F trong A, ®ùoc cho bëi c«ng thøc:

NÕu ηA(F) = βA(F) th× ph©n lo¹i nµy®−îc gäi lµ cã thÓ ®Þnh nghÜa, ng−îc l¹i

nã ®−îc gäi lµ ph©n lo¹i cã thÓ ®Þnh nghÜa th«.

II.2.2 LuËt kÕt hîp theo tiÕp cËn lý thuyÕt tËp th«

C¸c c¬ së d÷ liÖu lu«n chøa rÊt nhiÒu thuéc tÝnh, mét sè thuéc tÝnh cã thÓ lµ

d− thõa vµ kh«ng cÇn thiÕt cho qu¸ tr×nh ph¸t hiÖn luËt. NÕu c¸c thuéc tÝnh d− thõa

nµy kh«ng bÞ lo¹i bít th× kh«ng chØ thêi gian ph¸t hiÖn luËt t¨ng lªn, mµ chÊt l−îng

cña c¸c luËt t×m ®−îc còng kh«ng cao.

§Ó sö dông lý thuyÕt tËp th«, ta coi c¬ së d÷ liÖu lµ mét hÖ quyÕt ®Þnh [16]:

T = (U, A ∪ {d}), trong ®ã

-43-

U lµ tËp h÷u h¹n kh¸c rçng c¸c ®èi t−îng.

A lµ tËp h÷u h¹n kh¸c rçng c¸c thuéc tÝnh sao cho a: U → Va víi ∀a ∈A,

Va ®−îc gäi lµ tËp gi¸ trÞ cña a, c¸c phÇn tö cña A ®−îc gäi lµ c¸c thuéc

tÝnh ®iÒu kiÖn.

d ∉ A lµ thuéc tÝnh quyÕt ®Þnh.

VÝ dô: HÖ quyÕt ®Þnh:

B×nh th−êng

u2 Cã

Cao

u3 Cã

B×nh th−êng

u4 Kh«ng

Cao

Kh«ng

u5 Kh«ng

B×nh th−êng Kh«ng

Kh«ng

u6 Cã

RÊt cao

u7 Kh«ng

Cao

U §au ®Çu NhiÖt ®é u1 Cã Mái c¬ Cã BÞ cóm Kh«ng

C¸c thuéc tÝnh ®iÒu kiÖn lµ §au ®Çu, NhiÖt ®é, Mái c¬ víi

V®au ®Çu={Kh«ng (0), Cã (1)},

VnhiÖt ®é={B×nh th−êng(0), Cao (1), RÊt cao (2)},

Vmái c¬= {Kh«ng (0), Cã (1)}

vµ thuéc tÝnh quyÕt ®Þnh lµ BÞ cóm víi VbÞ cóm ={ Kh«ng (0), Cã (1)}.

F(x) *-0-0 *-0-1 *-1-0 *-1-1 *-2-0 *-2-1 0-*-0 .....

0-0-0 1/2 1/3 .....

0-0-1 1/2

... ...

1-0-0 1/2

... ..... ..... ..... ..... ..... ..... ..... .....

1-2-1 1/2

B¶ng quyÕt ®Þnh t−¬ng øng cña nã lµ:

-44-

1-1-* 1-2-* ..... *-*-0 ..... 0-*-* 1-*-*

1/6 ..... 1/6

1/6

1/6 1/6

..... ..... ..... ..... ..... ..... .....

1/2 1/6

Gäi F(x) lµ c¸c ®èi t−îng cã thÓ (PI)

G(x) lµ c¸c bé sinh cã thÓ (PG)

if

PG

nÕu PIj ∈ PGi PI ∈

j

i

1 N

(

|

)

p

PI

PG

=

PG i

i

j

trong c¸c tr−êng hîp cßn l¹i

otherwise

⎧ ⎪ ⎨ ⎪ ⎩

N

=

lµ sè PI tháa m·n trong PGi

PG

i

k

k *

}

0 ∏ n [ ] { lPGl ∈ = |

=

G(x) → F(x) lµ quan hÖ x¸c suÊt gi÷a PI vµ PG:

)

( XS

) =→ Y

( Xs

( ) 1

( Xr

)Y )

)kPGs (

§é m¹nh cña luËt: víi ( Xs

N

PG

(

)

ins

k

=

=

=

p

PG

|

( Xs

)

( PGs

)

( PI

)

k

l

k

rel _ N

l

PG

k

Nins_rel(PGk) lµ sè ®èi t−îng quan s¸t ®−îc lµ tháa m·n trong lÇn thø i

NÕu kh«ng sö dông tri thøc kinh nghiÖm:

BKF

PG

|

( PI

)

l

k

l

p

PG

=

=

=

|

( Xs

)

( PGs

)

( PI

)

k

bk

l

k

N

l

ins

rel

_

(

)X

N

N

( X

)

( YX ,

)

ins

rel

ins

class

_

_

NÕu sö dông tri thøc kinh nghiÖm:

( Xr

) =→ Y

N

)X (

ins

rel

_

Nins_class(X,Y) lµ sè ®èi t−îng thuéc líp Y trong sè c¸c ®èi t−îng tháa m·n X

§é nhiÔu ®−îc tÝnh b»ng:

-45-

Qu¸ tr×nh khai ph¸ trong b¶ng quyÕt ®Þnh cã thÓ ph¸t hiÖn ra c¸c ®èi t−îng

ch−a biÕt vµ nã dïng ®é m¹nh cña luËt ®Ó biÓu diÔn t−êng minh tÝnh kh«ng ch¾c

ch¾n cña luËt, bao gåm c¶ kh¶ n¨ng luËt dù ®o¸n c¸c ®èi t−îng cã thÓ.

§Ó chän ra c¸c luËt trong b¶ng quyÕt ®Þnh, ta dùa trªn c¸c tiªu chuÈn nh−:

- Chän c¸c luËt phñ cµng nhiÒu ®èi t−îng cµng tèt

- Chän c¸c luËt chøa cµng Ýt thuéc tÝnh cµng tèt, nÕu chóng phñ cïng sè ®èi

t−îng

- Chän c¸c luËt m¹nh h¬n, nÕu chóng cã cïng sè thuéc tÝnh ®iÒu kiÖn vµ

phñ cïng sè ®èi t−îng

C¸c thuéc tÝnh tham gia trong luËt cÇn ®−îc chän sao cho sè ®èi t−îng t¨ng

nhanh h¬n, nh»m cã tËp con c¸c thuéc tÝnh cµng nhá cµng tèt, vµ chóng nªn cã sè

gi¸ trÞ Ýt h¬n, ®Ó ®¶m b¶o sè ®èi t−îng do luËt nµy bao phñ cµng lín cµng tèt.

XÐt b¶ng c¬ së d÷ liÖu nªu trªn:

U

U §au ®Çu

§au ®Çu

NhiÖt ®é

Mái c¬

BÞ cóm ⊥ Cã Ko Ko Cã

u1 Cã u2 Cã u3 Cã u4 Ko u5 Cã u6 Cã u7 Ko

NhiÖt ®é Mái c¬ Cã BT Cã Cao Cã BT Ko Cao BT Cã RÊt cao Cã Cã Cao

u1’ Cã u2 Cã u4 Ko u6 Cã u7 Ko

Cã BT Cã Cao Ko Cao RÊt cao Cã Cã Cao

BÞ cóm Cã ⇒ Cã Cã Ko Ko Ko Cã

r(cã)(u1') = 1 - 2/3 = 0,33

r(kh«ng)(u1') = 1 - 1/3 = 0,67

§Æt TnhiÔu = 0 ⇒ r(cã)(u1') > TnhiÔu; r(kh«ng) (u1') > TnhiÔu vµ BÞ cóm(u1') = ⊥

u1’

u4

u6

u7

u2 NhiÖt ®é

u2 λ §au ®Çu, Mái c¬ NhiÖt ®é

λ

T¹o vÐct¬ ph©n biÖt cho u2:

T×m rót gän cho u2:

-46-

fT(u2) = (NhiÖt ®é) ∧ T ∧ (§au ®Çu ∨ Mái c¬) ∧ (NhiÖt ®é) ∧ T

= (NhiÖt ®é) ∧ (§au ®Çu ∨ Mái c¬)

= (§au ®Çu ∧ NhiÖt ®é) ∨ (NhiÖt ®é ∧ Mái c¬)

fT(u2) = (§au ®Çu ∧ NhiÖt ®é) ∨ (NhiÖt ®é ∧ Mái c¬)

{Cã ®au ®Çu, NhiÖt ®é cao} {NhiÖt ®é cao, Cã mái c¬}

({Cã ®au ®Çu, NhiÖt ®é cao} → BÞ cóm) cã

s({Cã ®au ®Çu, NhiÖt ®é cao}) = 0.5 vµ

r({Cã ®au ®Çu, NhiÖt ®é cao} → BÞ cóm) = 0 ⇒

S({Cã ®au ®Çu, NhiÖt ®é cao} → BÞ cóm) = (1 x 1/2) x (1-0) = 0.5

({NhiÖt ®é cao,Cã mái c¬} → BÞ cóm) cã

s({NhiÖt ®é cao, Cã mái c¬}) = 1 vµ

r({NhiÖt ®é cao,Cã mái c¬} → BÞ cóm) = 0 ⇒

S({NhiÖt ®é cao, Cã mái c¬} → BÞ cóm) = (2 x 1/2) x (1-0) = 1

T¹o luËt tõ u2:

u1’

u2

u7

u4 §au ®Çu, NhiÖt ®é, Mái c¬ §au ®Çu, Mái c¬

u4 u6 λ

λ Mái c¬

fT(u4) = (§au ®Çu ∨ NhiÖt ®é ∨ Mái c¬) ∧ (§au ®Çu ∨ Mái c¬) ∧ T ∧ T ∧ (Mái c¬)

= (Mái c¬)

T¹o vÐct¬ ph©n biÖt cho u4:

fT(u4) = (Mái c¬) {Kh«ng mái c¬}

({Kh«ng mái c¬} → Kh«ng bÞ cóm) cã

s(Kh«ng mái c¬) = 1/6 vµ

r({Kh«ng mái c¬} → Kh«ng bÞ cóm) = 0 ⇒

S({Kh«ng mái c¬} → Kh«ng bÞ cóm) = (1 x 1/6) x (1-0) = 0,167

T¹o luËt tõ u4:

-47-

u2:

{Cã ®au ®Çu, NhiÖt ®é cao} → BÞ cóm,

S = 0.5

S = 1

{NhiÖt ®é cao, Cã mái c¬} → BÞ cóm,

S = 0,167

u4:

{Kh«ng mái c¬} → Kh«ng bÞ cóm,

S = 0.25

u6:

{NhiÖt ®é rÊt cao} → Kh«ng bÞ cóm,

u7:

{Kh«ng ®au ®Çu, Cã mái c¬ } → BÞ cóm, S = 0.5

S = 1

{NhiÖt ®é cao, Cã mái c¬ } → BÞ cóm,

Sau khi t¹o luËt tõ tÊt c¶ c¸c ®èi t−îng ta cã:

u7

u2

§au ®Çu, NhiÖt ®é cao, Mái c¬

Kh«ng ®au ®Çu, NhiÖt ®é cao, Mái c¬

*, NhiÖt ®é cao, Mái c¬ Kh«ng ®au ®Çu, *, Mái c¬ Cã ®au ®Çu, NhiÖt ®é cao, *

1/2 1/3

1/2 1/2

{NhiÖt ®é cao, Cã mái c¬ } → BÞ cóm víi S = 1

{Kh«ng ®au ®Çu, Cã mái c¬} → BÞ cóm víi S = 1/2 phñ u7

{Cã ®au ®Çu, NhiÖt ®é cao} → BÞ cóm víi S = 1/2 phñ u2

Bé sinh thuéc líp BÞ cóm:

u7

u2

Cã ®au ®Çu, NhiÖt ®é rÊt cao, Cã mái c¬

Kh«ng ®au ®Çu, NhiÖt ®é cao, Kh«ng mái c¬

1/6

1/4

*, *, Kh«ng mái c¬ *, NhiÖt ®é rÊt cao, *

Kh«ng mái c¬ → Kh«ng bÞ cóm víi S = 1/6 phñ u4

NhiÖt ®é rÊt cao → Kh«ng bÞ cóm víi S = 1/4 phñ u6

Bé sinh thuéc líp Kh«ng bÞ cóm:

Nh− vËy víi ®é nhiÔu b»ng 0, tõ c¬ së d÷ liÖu trªn ta cã:

C¸c luËt ch¾c ch¾n:

Phñ c¸c ®èi t−îng

u4

Kh«ng mái c¬ → Kh«ng bÞ cóm víi S = 1/6

-48-

u6

NhiÖt ®é rÊt cao → Kh«ng bÞ cóm víi S = 1/4

u2, u7

{NhiÖt ®é cao, Cã mái c¬ } → BÞ cóm víi S = 1

C¸c luËt cã thÓ:

NhiÖt ®é b×nh th−êng → BÞ cóm víi S = (1/4)*(2/3)

Cã ®au ®Çu & NhiÖt ®é B×nh th−êng → BÞ cóm víi S = (1/2)*(2/3)

Cã ®au ®Çu & Cã mái c¬ → BÞ cóm víi S = (1/3)*(2/3)

NhiÖt ®é b×nh th−êng & Cã mái c¬ → BÞ cóm víi S = (1/2)*(2/3)

NÕu ®é nhiÔu kh¸c 0, gi¶ sö TnhiÔu = 0,5:

U

BÞ cóm

U

§au ®Çu

NhiÖt ®é

§au ®Çu

NhiÖt ®é

Mái c¬

BÞ cóm ⊥ Cã Ko Ko Cã

u1 Cã u1’ u3 Cã u5 Cã Cã Ko Cã Ko

u2 u4 u6 u7

Mái c¬ Cã BT Cã BT Cã BT Cã Cao Cao Ko RÊt cao Cã Cã Cao

Cã ⇒ u1’ Cã u2 Cã Cã u4 Ko Ko u6 Cã Cã u7 Ko Ko Ko Cã

Cã BT Cã Cao Ko Cao RÊt cao Cã Cã Cao

r(cã)(u1') = 1 - 2/3 = 0,33 < TnhiÔu vµ r(kh«ng)(u1’) = 1 - 1/3 = 0,67 > TnhiÔu ⇒ d(u1’) = Cã

u1’:

{NhiÖt ®é b×nh th−êng} → BÞ cóm,

S = 0,5

S = 0,5

u2:

{Cã ®au ®Çu, NhiÖt ®é cao} → BÞ cóm

S = 1

{NhiÖt ®é cao, Cã mái c¬} → BÞ cóm

S = 0,167

u4:

{Kh«ng mái c¬} → Kh«ng bÞ cóm

S = 0,25

u6:

{NhiÖt ®é rÊt cao} → Kh«ng bÞ cóm

S = 0,5

u7:

{Kh«ng ®au ®Çu, Cã mái c¬} → BÞ cóm

Khi ®ã c¸c luËt cã ®−îc tõ tÊt c¶ c¸c ®èi t−îng lµ:

-49-

{NhiÖt ®é cao, Cã mái c¬} → BÞ cóm

S = 1

...

1-2-1

0-0-* 0-1-* 0-*-1 0-*-*

0-0-0 1/2 1/6

0-0-1 1/2 1/3 1/6

0-1-0 1/2 1/6

0-1-1 1/2 1/3 1/6

0-2-0 1/6

0-2-1 1/3 1/6

NÕu sö dông tri thøc kinh nghiÖm, tõ b¶ng

víi tri thøc lµ Cã ®au ®Çu → Cã mái c¬, ch¾c ch¾n 100% ta sÏ cã ®é m¹nh cña c¸c

0-0-0

0-0-1

0-1-0

0-1-1

0-2-0

0-2-1

...

1-2-1

0-0-*

0

1

0-1-*

0

1

0-*-1

1/3

1/3

1/3

0-*-*

0

1/3

0

1/3

0

1/3

luËt thay ®æi nh− sau:

Trong [16], c¸c t¸c gi¶ ®· ®−a ra thuËt to¸n rót ra c¸c luËt tõ c¬ së d÷ liÖu cã

d¹ng b¶ng quyÕt ®Þnh.

ThuËt to¸n 2.1: T×m tËp tèi −u c¸c luËt [16]

Input: B¶ng quyÕt ®Þnh U gåm n ®èi t−îng, mèi ®èi t−îng u cã thÓ cã m

thuéc tÝnh.

Output: TËp tèi −u c¸c luËt cïng ®é m¹nh cña mçi luËt

Néi dung thuËt to¸n

B−íc 1: Coi c¸c ®èi t−îng víi cïng gi¸ trÞ cña c¸c thuéc tÝnh ®iÒu kiÖn nh−

mét ®èi t−îng, gäi lµ ®èi t−îng kÐp

B−íc 2: TÝnh ®é nhiÔu r cho mäi ®èi t−îng kÐp

B−íc 3: Chän mét ®èi t−îng u tõ U vµ tÝnh vec-t¬ kh«ng ph©n biÖt ®−îc cho u

-50-

B−íc 4: TÝnh tÊt c¶ c¸c rót gän cho ®èi t−îng u, sö dông hµm kh«ng ph©n biÖt

®−îc

B−íc 5: Rót ra c¸c luËt tõ c¸c rót gän cña ®èi t−îng u, tÝnh l¹i ®é m¹nh cña

mÉu cho mçi luËt

B−íc 6: Chän ra c¸c luËt tèt h¬n tõ c¸c luËt tÝnh ®−îc ë b−íc 5 b»ng c¸ch

chän ngÉu nhiªn

B−íc 7: U = U \ {u}. NÕu U ≠ ∅ th× quay l¹i b−íc 3, nÕu kh«ng chuyÓn sang

b−íc 8

B−íc 8: KÕt thóc nÕu sè luËt trong b−íc 6 cho mçi ®èi t−îng b»ng 1, ng−îc

l¹i t×m tËp luËt tèi thiÓu, chøa tÊt c¶ c¸c ®èi t−îng trong b¶ng quyÕt

2

3 +

®Þnh.

( mnO

)TGNmn ) (

§é phøc t¹p vÒ thêi gian cña thuËt to¸n nµy lµ víi

)12 −mO (

)TGN (

lµ sè lÇn sinh vµ nhá h¬n .

ThuËt to¸n nµy lµ kh«ng phï hîp cho c¸c c¬ së d÷ liÖu cã sè thuéc tÝnh lín,

®Ó gi¶i quyÕt vÊn ®Ò nµy, ta sÏ t×m mét rót gän cña c¸c thuéc tÝnh ®iÒu kiÖn trong

giai ®o¹n tiÒn xö lý vµ t×m mét gi¶i ph¸p gÇn tèi −u, sö dông mét sè phÐp pháng

®o¸n hiÖu qu¶.

ThuËt to¸n 2.2: Gi¶i ph¸p gÇn tèi −u {16]

B−íc 1: §Æt R = {}, COVER = {}, SS ={®Þnh danh cña tÊt c¶ c¸c ®èi t−îng}.

Víi mçi líp Dc, chia b¶ng quyÕt ®Þnh T lµm 2 phÇn: líp hiÖn t¹i T+

vµ c¸c líp cßn l¹i T-

B−íc 2: Tõ c¸c gi¸ trÞ vij cña c¸c ®èi t−îng Ik (vij lµ gi¸ trÞ thø j cña thuéc tÝnh

thø i, Ik ∈ T+, Ik ∈ SS) chän mét gi¸ trÞ v cã sè lÇn xuÊt hiÖn nhiÒu

nhÊt trong c¸c ®èi t−îng chøa trong T- .

B−íc 3: Thªm v vµo R

-51-

B−íc 4: Xãa ®Þnh danh cña ®èi t−îng khái SS nÕu ®èi t−îng ®ã kh«ng chøa v.

B−íc 5: Quay l¹i b−íc 2 tíi khi ®é nhiÔu nhá h¬n gi¸ trÞ ng−ìng

B−íc 6: T×m mét tËp con tèi thiÓu R’ cña R tuú theo ®é m¹nh cña nã. Thªm

luËt (R’ → Dc) vµo RS. §Æt R = {}, sao chÐp ®Þnh danh cña c¸c ®èi

t−îng tõ SS vµo COVERED vµ ®Æt SS ={mäi ®Þnh danh cña c¸c ®èi

t−îng }\ COVERED

B−íc 7: Quay l¹i b−íc 2 tíi khi mäi ®èi t−îng cña T+ ®Òu ë trong COVERED

B−íc 8: Quay l¹i b−íc 1 tíi khi mäi líp ®−îc xö lý xong.

( 2nmO

)2

. §é phøc t¹p vÒ thêi gian cña thuËt to¸n nµy lµ:

KÕt luËn ch−¬ng II

Ph¸t hiÖn luËt kÕt hîp lµ mét trong c¸c kü thuËt ®¬n gi¶n vµ hiÖu qu¶ cña khai ph¸

d÷ liÖu. Theo c¸ch nµy, tri thøc ®−îc ph¸t biÓu d−íi d¹ng c¸c luËt biÓu diÔn sù phô

thuéc gi÷a c¸c tËp con thuéc tÝnh xuÊt hiÖn th−êng xuyªn trong c¬ së d÷ liÖu (môc

2.1.1). ViÖc ph¸t hiÖn ra c¸c luËt kÕt hîp tõ c¬ së d÷ liÖu ®ßi hái l−îng tÝnh to¸n vµ

truy xuÊt d÷ liÖu v« cïng lín. NhiÒu thuËt to¸n tuÇn tù ®· ®−îc ph¸t triÓn cho c¸c

m« h×nh kh¸c nhau (môc 2.1.2). Trªn thùc tÕ, hiÖn t−îng d÷ liÖu kh«ng ®Çy ®ñ hoÆc

kh«ng chÝnh x¸c lµ cã thÓ x¶y ra, nã ¶nh h−ëng kh«ng tèt tíi qu¸ tr×nh nh»m ph¸t

hiÖn ra tri thøc chÝnh x¸c tõ d÷ liÖu. Lý thuyÕt tËp th« ®· ®−îc ph¸t triÓn bëi Pawlak

[14] cho phÐp suy dÉn ra c¸c xÊp xØ cña c¸c kh¸i niÖm, gióp rót gän d÷ liÖu trong

qu¸ tr×nh t×m kiÕm mÉu vµ sinh luËt (môc 2.2.1). Lý thuyÕt nµy ®−îc sö dông trong

viÖc ph¸t hiÖn luËt kÕt hîp tõ c¬ së d÷ liÖu d¹ng b¶ng quyÕt ®Þnh (môc 2.2.2). ViÖc

sö dông tri thøc kinh nghiÖm trong chän luËt còng gióp gi¶m bít ®−îc sè thuéc tÝnh

cÇn xem xÐt ®Ó t¹o luËt. Hai t¸c gi¶ A. Skowron & N. Zhong [16] ®· ®−a ra mét

-52-

thuËt to¸n tuÇn tù t×m tËp tèi −u c¸c luËt tõ b¶ng quyÕt ®Þnh cïng víi c¶i tiÕn cña nã

nh»m gi¶m bít ®é phøc t¹p tÝnh to¸n.

-53-

Ch−¬ng III. ph¸t hiÖn song song luËt kÕt hîp

III.1. kh«ng gian thiÕt kÕ song song

Ng−êi ta hi väng song song hãa sÏ lµm gi¶m ®−îc khã kh¨n cho c¸c ph−¬ng

ph¸p ph¸t hiÖn luËt kÕt hîp tuÇn tù, cung cÊp kh¶ n¨ng më réng cho c¸c tËp d÷ liÖu

lín vµ c¶i thiÖn ®−îc tèc ®é thùc hiÖn. Cã ®−îc hiÖu suÊt cao tõ c¸c hÖ ®a xö lý hiÖn

thêi kh«ng ph¶i lµ mét chuyªn dÔ. C¸c th¸ch thøc chÝnh bao gåm viÖc gi¶m thiÓu sù

truyÒn th«ng vµ ®ång bé hãa, c©n b»ng khèi l−îng c«ng viÖc, t×m ®−îc c¸ch tèt ®Ó

tr×nh bµy d÷ liÖu, ph©n tÝch d÷ liÖu vµ gi¶m thiÓu viÖc truy/xuÊt ®Üa (®©y lµ ®iÒu rÊt

quan träng cho viÖc ph¸t hiÖn luËt kÕt hîp). Kh«ng gian thiÕt kÕ song song gåm 3

phÇn chÝnh: nÒn phÇn cøng, kiÓu song song hãa, vµ chiÕn l−îc c©n b»ng t¶i c«ng

viÖc.

III.1.1. NÒn phÇn cøng: C¸c hÖ thèng ph©n t¸n bé nhí/ C¸c hÖ thèng chia sÎ bé nhí

Trong mét kiÕn tróc cã bé nhí chia sÎ, mçi bé xö lý cã quyÒn truy nhËp

ngang b»ng vµ trùc tiÕp tíi tÊt c¶ bé nhí cña hÖ thèng. C¸c ch−¬ng tr×nh song song

dÔ thùc hiÖn trªn hÖ thèng nh− vËy. Mét c¸ch tiÕp cËn ®a xö lý kh¸c lµ x©y dùng

mét hÖ thèng tõ nhiÒu bé phËn, mçi bé phËn chøa mét bé xö lý vµ bé nhí. Trong

kiÕn tróc bé nhí ph©n t¸n, mçi bé xö lý cã riªng bé nhí côc bé mµ chØ m×nh nã cã

quyÒn truy nhËp. NÕu mét bé xö lý muèn truy cËp d÷ liÖu trªn bé nhí côc bé cña bé

xö lý kh¸c, mét b¶n sao cña d÷ liÖu cÇn dïng ph¶i ®−îc göi gi÷a hai bé xö lý. MÆc

dï kiÕn tróc chia sÎ bé nhí cho phÐp lËp tr×nh ®¬n gi¶n h¬n, nh−ng b¨ng th«ng h÷u

h¹n cña ®−êng truyÒn sÏ h¹n chÕ kh¶ n¨ng më réng. KiÕn tróc dïng bé nhí ph©n t¸n

vµ truyÒn th«ng b¸o gi¶i quyÕt vÊn ®Ò ph¸t triÓn hÖ thèng, nh−ng lËp tr×nh kh«ng

®¬n gi¶n.

-54-

Mét m« h×nh thø ba rÊt phæ biÕn, kÕt hîp nh÷ng −u ®iÓm cña c¸c c¸ch tiÕp

cËn dïng bé nhí chia sÎ vµ bé nhí ph©n t¸n. M« h×nh nµy bao gåm c¸c hÖ thèng

chia sÎ bé nhí víi phÇn cøng hoÆc phÇn mÒm ph©n t¸n. C¸c hÖ thèng nµy ph©n chia

bé nhí vËt lý gi÷a c¸c nót nh−ng cung cÊp mét kh«ng gian ®Þa chØ toµn côc ®−îc

chia sÎ trªn mçi bé xö lý. PhÇn cøng vµ phÇn mÒm ®¶m b¶o sù m¹ch l¹c trong bé

l−u tr÷, gióp d÷ liÖu ®−îc l−u tr÷ côc bé lu«n ph¶n chiÕu c¸c thay ®æi lªn mäi bé xö

lý. Nhãm c¸c m¸y tr¹m chia sÎ bé nhí (clump) còng lµ mét phÇn cña m« h×nh nµy.

C¸c clump ®ßi hái ph¶i cã c¸ch tiÕp cËn song song cã ph©n cÊp, víi bé nhí chia sÎ

nguyªn thñy ®−îc dïng trong mét nót vµ c¸c th«ng b¸o ®−îc truyÒn gi÷a c¸c nót

chia sÎ bé nhí.

Môc ®Ých tèi −u hãa hiÖu suÊt cho c¸c m¸y cã bé nhí ph©n t¸n so víi c¸c hÖ

thèng chia sÎ bé nhí phô thuéc vµo kiÕn tróc c¬ së. Trong hÖ thèng ph©n t¸n bé

nhí, sù ®ång bé hãa n»m Èn trong viÖc truyÒn th«ng b¸o, vÝ thÕ môc tiªu trë thµnh

tèi −u hãa sù truyÒn th«ng. Víi c¸c hÖ chia sÎ bé nhí, sù ®ång bé hãa xuÊt ph¸t tõ

c¸c khãa vµ c¸c hµng rµo ng¨n c¸ch, vµ môc tiªu lµ ph¶i tèi −u hãa nh÷ng ®iÓm nµy.

Sù ph©n r· d÷ liÖu lµ rÊt quan träng trong c¸c hÖ ph©n t¸n, song l¹i kh«ng quan

träng trong c¸c hÖ chia sÎ bé nhí. Trong khi viÖc nhËp/xuÊt song song lµ ®¬n gi¶n

víi c¸c hÖ cã bé ph©n t¸n, nã l¹i lµ vÊn ®Ò khã ®èi víi c¸c hÖ chia sÎ bé nhí, n¬i mµ

viÖc nhËp/xuÊt th−êng ®−îc tuÇn tù hãa. Th¸ch thøc chñ yÕu ®Ó ®¹t hiÖu suÊt cao

cho c¸c hÖ cã bé nhí ph©n t¸n lµ ph¶i t×m ®−îc mét sù ph©n r· tèt d÷ liÖu gi÷a c¸c

nót vµ gi¶m thiÓu sù truyÒn th«ng.

Víi c¸c hÖ chia sÎ bé nhí, môc ®Ých lµ cã ®−îc vÞ trÝ tèt cho d÷ liÖu, nghÜa lµ

ta ph¶i tèi ®a sù truy nhËp tíi bé nhí ®Þa ph−¬ng vµ tr¸nh/ gi¶m lçi chia sÎ bé nhí.

Nh− vËy ta cÇn gi¶m hiÖu øng "bãng bµn" - nhiÒu bé xö lý cïng cè thay ®æi c¸c

biÕn kh¸c nhau cïng n»m trïng khíp t¹i mét hµng trong bé nhí. Víi c¸c m¸y ph©n

cÊp lai truy nhËp bé nhí kh«ng ®ång bé, c¸c tham sè tèi −u ®−îc lÊy tõ c¶ hai m«

h×nh bé nhí ph©n t¸n vµ bé nhí chia sÎ.

-55-

III.1.2. Song song hãa d÷ liÖu vµ song song hãa c«ng viÖc

Song song hãa d÷ liÖu vµ song song hãa c«ng viÖc lµ hai m« h×nh chÝnh ®Ó

khai th¸c c¸c thuËt to¸n song song. Víi viÖc ph¸t hiÖn luËt kÕt hîp, song song hãa

d÷ liÖu øng víi viÖc c¬ së d÷ liÖu ®−îc chia ra trªn p bé xö lý - ph©n chia vÒ mÆt

logic cho bé nhí chia sÎ, ph©n chia vÒ mÆt vËt lý cho c¸c hÖ ph©n t¸n bé nhí. Mçi

bé xö lý lµm viÖc trªn phÇn c¬ së d÷ liÖu cña nã nh−ng thùc hiÖn cïng mét phÐp

®Õm ®é hç trî cho c¸c itemset øng viªn toµn côc. Song song hãa c«ng viÖc øng víi

viÖc c¸c bé xö lý thùc hiÖn c¸c phÐp tÝnh kh¸c nhau mét c¸ch ®éc lËp, nh− lµ ®Õm

mét tËp kh«ng giao nhau c¸c øng viªn, nh−ng kh«ng cÇn truy nhËp tíi toµn bé c¬ së

d÷ liÖu. C¸c hÖ chia sÎ bé nhí cã truy nhËp tíi toµn bé d÷ liÖu, nh−ng víi c¸c hÖ

ph©n t¸n bé nhí, qu¸ tr×nh truy nhËp c¬ së d÷ liÖu cã thÓ liªn quan tíi viÖc t¸i t¹o

mét c¸ch cã chän lùa hoÆc truyÒn th«ng gi÷a c¸c phÇn côc bé. Còng cã thÓ kÕt hîp

c¶ song song hãa d÷ liÖu vµ song song hãa c«ng viÖc, ®©y lµ c¸ch ®−îc −a dïng ®Ó

khai th¸c hÕt ®−îc c¸c c¸ch song song hãa cã s½n cho c¸c thuËt to¸n ph¸t hiÖn luËt

kÕt hîp.

III.1.3. C©n b»ng t¶i tÜnh vµ c©n b»ng t¶i ®éng

C©n b»ng t¶i tÜnh ban ®Çu ph©n chia c«ng viÖc gi÷a c¸c bé xö lý dïng hµm

chi phÝ theo kinh nghiÖm, kh«ng cã thay ®æi nµo trªn d÷ liÖu hoÆc trong tÝnh to¸n

nµo cã thÓ ®iÒu chØnh sù mÊt c©n b»ng vÒ t¶i do b¶n chÊt ®éng cña c¸c thuËt to¸n

ph¸t hiÖn luËt kÕt hîp. ViÖc c©n b»ng t¶i ®éng gi¶i quyÕt vÊn ®Ò nµy b»ng c¸ch lÊy

c«ng viÖc tõ c¸c bé xö lý ph¶i chÞu t¶i nÆng vµ g¸n sang c¸c bé xö lý cã l−îng c«ng

viÖc Ýt h¬n. C¸c thay ®æi trong tÝnh to¸n còng dÉn tíi c¸c thay ®æi trªn d÷ liÖu, do bé

xö lý chÞu tr¸ch nhiÖm cho nhiÖm vô tÝnh to¸n cÇn c¸c d÷ liÖu kÕt hîp víi nhiÖm vô

nµy. V× thÕ c©n b»ng t¶i ®éng ph¶i chÞu thªm chi phÝ dÞch chuyÓn d÷ liÖu vµ c«ng

viÖc, vµ cho c¶ c¬ chÕ x¸c ®Þnh sù mÊt c©n b»ng. Tuy nhiªn c©n b»ng t¶i ®éng lµ cÇn

thiÕt nÕu cã sù mÊt c©n b»ng lín vÒ t¶i hoÆc t¶i thay ®æi theo thêi gian.

-56-

C©n b»ng t¶i ®éng ®Æc biÖt quan träng trong m«i tr−êng nhiÒu ng−êi sö dông

víi c¸c t¶i t¹m thêi vµ trªn nÒn kh«ng ®ång nhÊt cã bé xö lý vµ m¹ng víi tèc ®é

kh¸c nhau. C¸c kiÓu m«i tr−êng nµy bao gåm c¸c m¸y chñ song song vµ c¸c cluster,

metacluster vµ supercluster kh«ng ®ång nhÊt. TÊt c¶ c¸c thuËt to¸n ph¸t hiÖn luËt

kÕt hîp më réng chØ dïng c¸ch c©n b»ng t¶i tÜnh cã s½n nhê sù ph©n chia c¬ së d÷

liÖu s½n cã gi÷a c¸c nót. §iÒu nµy lµ do gi¶ thiÕt cã mét m«i tr−êng ®ång nhÊt vµ

chuyªn dông.

VÊn ®Ò thiÕt kÕ chÝnh trong c¸c hÖ ph©n t¸n bé nhí lµ viÖc gi¶m thiÓu sù

truyÒn th«ng vµ thËm chÝ c¶ ph©n t¸n d÷ liÖu ®Ó cã sù c©n b»ng t¶i. C¸c thuËt to¸n

ph¸t hiÖn luËt kÕt hîp d−íi ®©y gi¶ sö r»ng c¬ së d÷ liÖu ®−îc chia thµnh c¸c phÇn

cã kÝch th−íc nh− nhau trªn æ ®Üa côc bé cña c¸c bé xö lý.

III.2. Mét sè m« h×nh ph¸t hiÖn song song luËt kÕt hîp

Tån t¹i nhiÒu thuËt to¸n thùc hiÖn viÖc ph¸t hiÖn song song c¸c luËt kÕt hîp.

D−íi ®©y lµ nh÷ng thuËt to¸n ®iÓn h×nh nhÊt [15, 17].

III.2.1. C¸c hÖ ph©n t¸n bé nhí

(cid:131) ThuËt to¸n PEAR - dùa trªn SEAR vµ SPEAR

Andrea Muller ®−a ra mét sè ph−¬ng ph¸p ph¸t hiÖn song song luËt kÕt hîp

trªn nÒn c¸c ph−¬ng ph¸p tuÇn tù dùa trªn c¸c thuËt to¸n Partition vµ Apriori. PEAR

lµ b¶n song song cña SEAR, trong mçi lÇn lÆp, mçi bé xö lý t¹o mét c©y tiÒn tè c¸c

øng viªn tõ c¸c itemset phæ biÕn toµn phÇn cña lÇn duyÖt tr−íc. Mçi bé xö lý cã

toµn bé b¶n sao cña tËp øng viªn ®ã. TiÕp theo mçi nót tËp hîp c¸c ®é hç trî ®Þa

ph−¬ng, cïng víi mét rót gän cña tæng ®Ó cã ®−îc ®é hç trî toµn phÇn trªn mçi bé

xö lý.

C¸ch ph©n chia song song c¸c luËt kÕt hîp (PPAR) lµ dùa trªn SPEAR,

nh−ng PPAR dïng ®Þnh d¹ng d÷ liÖu theo hµng ngang. ThuËt to¸n nµy ho¹t ®éng

-57-

nh− sau: Mçi bé xö lý tËp hîp c¸c itemset phæ biÕn ®Þa ph−¬ng víi mäi kÝch th−íc

trªn c¬ së d÷ liÖu ®Þa ph−¬ng cña nã trong mét lÇn duyÖt. PPAR th«ng b¸o c¸c

itemset phæ biÕn tiÒm n¨ng tíi tÊt c¶ c¸c bé xö lý kh¸c. Trong lÇn duyÖt côc bé thø

hai, mçi bé xö lý tËp hîp con sè c¸c øng viªn toµn phÇn. Cuèi cïng, mét th«ng b¸o

vÒ tËp itemset phæ biÕn toµn phÇn ®−îc ph¸t ra. C¸c thö nghiÖm cho thÊy PEAR

lu«n tèt h¬n PPAR, bëi v× PEAR dïng c¸c gép nhiÒu lÇn duyÖt trong khi PPAR cã

thÓ t¹o nªn mét c¸ch kh«ng cÇn thiÕt nhiÒu øng viªn mµ rèt côc lµ kh«ng phæ biÕn.

(cid:131) ThuËt to¸n PDM - dùa trªn DHP

Trong thuËt to¸n PDM, mçi bé xö lý t¹o c¸c ®é hç trî ®Þa ph−¬ng cña c¸c 1-

itemset vµ tÝnh xÊp xØ sè c¸c 2-itemset víi mét b¶ng b¨m. Th«ng b¸o tõ mçi nót tíi

tÊt c¶ c¸c nót kh¸c vÒ sè ®Õm côc bé sÏ gióp tÝnh ®−îc sè c¸c 1-itemset toµn phÇn.

Do b¶ng b¨m chøa c¸c 2-itemset cã thÓ rÊt lín, sù trao ®æi trùc tiÕp c¸c con sè qua

th«ng b¸o gi÷a tÊt c¶ c¸c nót sÏ rÊt tèn kÐm. C¸c t¸c gi¶ ®· dïng c¸ch tèi −u hãa lµ

chØ trao ®æi c¸c phÇn tö ®−îc ®¶m b¶o lµ sÏ phæ biÕn. Tuy nhiªn, ph−¬ng ph¸p nµy

®ßi hái hai lÇn truyÒn th«ng. Víi lÇn duyÖt thø hai, PDM t¹o c¸c øng viªn ®Þa

ph−¬ng dïng b¶ng b¨m c¸c 2-itemset toµn phÇn. ChØ lÇn duyÖt thø hai dïng b¶ng

b¨m, c¸c lÇn duyÖt sau t¹o c¸c øng viªn trùc tiÕp tõ Fk-1 (nh− trong thuËt to¸n

Apriori).

C¸c øng viªn ®−îc t¹o mét c¸ch song song. Mçi bé xö lý t¹o tËp øng viªn cña

riªng nã, sau ®ã sÏ trao ®æi qua th«ng b¸o gi÷a tÊt c¶ c¸c bé xö lý ®Ó cã ®−îc tËp

øng viªn toµn phÇn. TiÕp ®ã, PDM cã sè c¸c øng viªn ®Þa ph−¬ng vµ trao ®æi chóng

gi÷a c¸c bé xö lý ®Ó cã c¸c itemset phæ biÕn toµn phÇn. C«ng viÖc ®−îc chuyÓn

sang b−íc tiÕp theo. PDM cã mét sè h¹n chÕ: Tr−íc hÕt, nã song song hãa viÖc t¹o

c¸c øng viªn vµ ®ßi hái c¸c th«ng b¸o ph¶i ®−îc truyÒn gi÷a tÊt c¶ c¸c bé xö lý ®Ó

t¹o mét tËp øng viªn toµn phÇn. Chi phÝ truyÒn th«ng nµy cã thÓ lµm gi¶m hiÖu qu¶

cña song song hãa.

-58-

(cid:131) C¸c thuËt to¸n dùa trªn Apriori

NhiÒu thuËt to¸n song song sö dông Apriori nh− lµ ph−¬ng ph¸p c¬ b¶n bëi

sù thµnh c«ng cña nã trong thiÕt ®Æt tuÇn tù.

- Ph©n phèi sè ®Õm, d÷ liÖu vµ øng viªn:

ThuËt to¸n ph©n phèi sè ®Õm lµ mét c¸ch song song hãa ®¬n gi¶n cña

Apriori. TÊt c¶ c¸c bé xö lý t¹o mét c©y b¨m c¸c øng viªn toµn phÇn tõ Fk-1. Mçi bé

xö lý khi ®ã cã ®−îc mét c¸ch ®éc lËp ®é hç trî ®Þa ph−¬ng tõ phÇn c¬ së d÷ liÖu bé

phËn cña nã. TiÕp theo, thuËt to¸n lµm mét phÐp céng gi¶n −íc ®Ó cã sè ®Õm toµn

phÇn b»ng c¸ch trao ®æi c¸c sè ®Õm ®Þa ph−¬ng víi c¸c bé xö lý kh¸c. Thay v× trén

c¸c c©y b¨m kh¸c nhau, thuËt to¸n chØ cÇn trao ®æi c¸c sè ®Õm ®Þa ph−¬ng, v× tÊt c¶

c¸c bé xö lý ®· cã b¶n sao cña toµn bé c©y b¨m. Mçi khi x¸c ®Þnh ®−îc Fk toµn

phÇn, mçi bé xö lý x©y dùng song song toµn bé øng viªn Ck-1, vµ lÆp l¹i qu¸ tr×nh tíi

khi t×m ®−îc tÊt c¶ c¸c itemset phæ biÕn. ThuËt to¸n nµy gi¶m thiÓu viÖc truyÒn

th«ng, tuy nhiªn, do nã sao toµn bé c©y b¨m trªn mçi bé xö lý, nã kh«ng sö dông

ThuËt to¸n ph©n phèi sè ®Õm

hiÖu qu¶ toµn bé bé nhí hÖ thèng.

Rót gän sè ®Õm toµn côc

-59-

ThuËt to¸n ph©n phèi d÷ liÖu dïng toµn bé bé nhí hÖ thèng b»ng c¸ch t¹o c¸c

tËp øng viªn rêi nhau trªn mçi bé xö lý. Tuy nhiªn, ®Ó tÝnh ®é hç trî toµn phÇn, mçi

bé xö lý ph¶i duyÖt toµn bé c¬ së d÷ liÖu trong tÊt c¶ c¸c lÇn lÆp. Do ®ã, thuËt to¸n

nµy ph¶i chÞu g¸nh nÆng lín vÒ truyÒn th«ng vµ hiÖu qu¶ kh«ng cao so víi thuËt

ThuËt to¸n ph©n phèi d÷ liÖu

to¸n ph©n phèi sè ®Õm.

Th«ng b¸o vÒ d÷ liÖu

Th«ng b¸o vÒ c¸c øng viªn gi÷a c¸c bé xö lý

ThuËt to¸n ph©n phèi øng viªn ph©n chia c¸c øng viªn trong lÇn lÆp l ®Ó mçi

bé xö lý cã thÓ t¹o c¸c øng viªn kh«ng giao nhau ®éc lËp víi c¸c bé xö lý kh¸c.

ViÖc ph©n chia sö dông kinh nghiÖm dùa trªn ®é hç trî, khiÕn mçi bé xö lý cã

l−îng c«ng viÖc nh− nhau. §ång thêi, c¬ së d÷ liÖu còng ®−îc sao chÐp mét c¸ch cã

chän lùa ®Ó mçi bé xö lý cã thÓ tÝnh sè ®Õm toµn phÇn mét c¸ch ®éc lËp. Sù lùa

chän pha ph©n phèi l¹i liªn quan tíi sù tháa hiÖp gi÷a viÖc t¸ch riªng c¸c bé xö lý

®éc lËp cµng sím cµng tèt vµ viÖc ®îi tíi khi cã ®ñ sù c©n b»ng t¶i. Trong c¸c thÝ

nghiÖm cña Agrawal vµ Shafer, sù ph©n chia l¹i ®−îc thùc hiÖn trong bèn lÇn. Sau

®ã, chØ bé xö lý ®éc lËp víi c¸c bé xö lý kh¸c lµ bÞ c¾t bít c¸c øng viªn. Mçi bé xö

lý th«ng b¸o kh«ng ®ång bé tËp phæ biÕn ®Þa ph−¬ng cña m×nh tíi c¸c bé xö lý kh¸c

trong mçi lÇn lÆp. NÕu sù c¾t xÐn th«ng tin nµy x¶y ra ®óng lóc, nã ®−îc dïng, nÕu

-60-

kh«ng nã sÏ ®−îc l−u l¹i dïng cho lÇn lÆp sau. Mçi bé xö lý vÉn ph¶i duyÖt d÷ liÖu

côc bé cña nã trong mçi lÇn lÆp. ThËm chÝ khi cã th«ng tin ®Æc tr−ng cho bµi to¸n,

thuËt to¸n ph©n phèi øng viªn vÉn thùc hiÖn tåi h¬n thuËt to¸n ph©n phèi sè ®Õm, do

nã ph¶i tr¶ gi¸ cho viÖc ph©n phèi l¹i c¬ së d÷ liÖu khi lÆp l¹i viÖc duyÖt phÇn d÷

liÖu côc bé.

- C¸c thuËt to¸n Apriori kh«ng ph©n chia, ph©n chia ®¬n gi¶n vµ ph©n chia b¨m

Apriori kh«ng ph©n chia (NPA) vÒ c¬ b¶n gièng víi thuËt to¸n ph©n phèi sè

®Õm, ngo¹i trõ viÖc rót gän tæng ®−îc thùc hiÖn trªn bé xö lý chÝnh. ThuËt to¸n

Apriori ph©n chia ®¬n gi¶n (SPA) gièng hÖt thuËt to¸n ph©n phèi d÷ liÖu.

ThuËt to¸n Apriori ph©n chia b¨m (HPA) t−¬ng tù thuËt to¸n ph©n phèi øng

viªn. Mçi bé xö lý t¹o c¸c øng viªn tõ tËp phæ biÕn t¹o ë møc tr−íc vµ ¸p dông hµm

b¨m ®Ó x¸c ®Þnh bé xö lý chñ cho mét øng viªn. NÕu mét bé xö lý lµ chñ cña mét

øng viªn, nã sÏ thªm øng viªn ®ã vµo c©y b¨m t¹i chç, nÕu kh«ng, nã bá qua øng

viªn. §Ó ®Õm, thuËt to¸n nµy kh«ng lÆp l¹i c¬ së d÷ liÖu mét c¸ch cã chän lùa nh−

thuËt to¸n ph©n phèi øng viªn, mçi bé xö lý t¹o mét tËp con k ph©n tö cho mçi giao

dÞch ®Þa ph−¬ng, t×m bé xö lý ®Ých, vµ göi tËp con ®ã ®Õn bé xö lý. Bé xö lý chñ cã

tr¸ch nhiÖm t¨ng sè ®Õm sö dông c¬ së d÷ liÖu ®Þa ph−¬ng vµ bÊt kú th«ng b¸o nµo

tõ c¸c bé xö lý kh¸c.

Shitani vµ Kitsuregawa còng ®Ò xuÊt mét biÕn ®æi cho thuËt to¸n Apriori

ph©n chia b¨m, gäi lµ Apriori ph©n chia b¨m víi sù nh©n ®«i c¸c tËp d÷ liÖu cùc lín

(HPA-ELD). §éng c¬ cña thuËt to¸n nµy lµ dï ta cã ph©n chia c¸c øng viªn mét

c¸ch ®ång ®Òu trªn c¸c bé xö lý, vÉn cã øng viªn phæ biÕn h¬n c¸c øng viªn kh¸c.

V× thÕ, bé xö lý chñ cña nã sÏ cã t¶i nÆng h¬n, trong khi c¸c bé xö lý kh¸c cã t¶i

nhÑ. HPA-ELD gi¶i quyÕt chuyÖn nµy b»ng c¸ch sao chÐp c¸c itemset rÊt phæ biÕn

trªn tÊt c¶ c¸c bé xö lý vµ xö lý chóng b»ng s¬ ®å NPA. Do ®ã, kh«ng cÇn truyÒn

-61-

tËp con cho c¸c øng viªn nµy. Khi ®· tÝnh ®−îc c¸c sè ®Õm côc bé, tiÕp theo lµ phÐp

tÝnh rót gän tæng ®Ó cã ®é hç trî toµn phÇn.

Shitani vµ Kitsuregawa ®· kh¼ng ®Þnh b»ng c¸c thÝ nghiÖm r»ng HPA-ELD

thùc hiÖn tèt h¬n c¸c c¸ch tiÕp cËn kh¸c. Tuy nhiªn, hä chØ dïng SPA, HPA vµ

HPA-ELD cho lÇn lÆp thø hai, vµ víi c¸c lÇn lÆp sau, hä dïng apriori kh«ng ph©n

chia. §iÒu nµy cho thÊy c¸ch tiÕp cËn tèt nhÊt lµ c¸ch lai: dïng HPA-ELD chõng

nµo c¸c øng viªn cßn ch−a võa trong bé nhí, sau ®ã chuyÓn sang dïng Apriori

kh«ng ph©n chia (NPA). §iÒu nµy rÊt cã ý nghÜa bëi Apriori kh«ng ph©n chia vµ

ph©n phèi sè ®Õm lµ c¸c thuËt to¸n ®ßi hái l−îng truyÒn th«ng Ýt nhÊt.

- Ph©n phèi d÷ liÖu th«ng minh vµ Ph©n phèi lai

Eui-Hong Han vµ c¸c céng sù ®· ®Ò xuÊt hai ph−¬ng ph¸p ph¸t hiÖn luËt kÕt

hîp dùa trªn ph©n phèi d÷ liÖu. Hä quan s¸t thÊy thuËt to¸n ph©n phèi d÷ liÖu sö

dông c¸ch truyÒn th«ng b¸o gi÷a tÊt c¶ c¸c bé xö lý rÊt tèn kÐm ®Ó göi c¸c phÇn d÷

liÖu côc bé tíi mäi bé xö lý kh¸c. H¬n n÷a, mÆc dï ph©n phèi d÷ liÖu chia c¸c øng

viªn ®ång ®Òu trªn gi÷a c¸c bé xö lý, nã kh«ng ph©n chia ®−îc c«ng viÖc trong mçi

giao dÞch. Tøc lµ nã vÉn t¹o mét tËp con cña giao dÞch vµ x¸c ®Þnh xem liÖu c©y

b¨m cã chøa tËp con ®ã kh«ng.

Trong c¸ch ph©n phèi d÷ liÖu th«ng minh, Han vµ céng sù ®· dïng c¸ch

truyÒn th«ng gi÷a c¸c bé xö lý theo vßng trßn, tuyÕn tÝnh vÒ thêi gian. Hä chuyÓn

sang c¸ch ph©n phèi sè ®Õm mçi khi c¸c øng viªn võa trong bé nhí. Thay v× ph©n

chia øng viªn theo vßng trßn, hä dïng c¸ch ph©n chia dùa trªn tiÒn tè, cho tõng

thuéc tÝnh mét. Tr−íc khi xö lý mét giao dÞch, hä ®¶m b¶o r»ng nã chøa c¸c tiÒn tè

t−¬ng øng. NÕu kh«ng, giao dÞch nµy cã thÓ bÞ bá qua. Toµn bé c¬ së d÷ liÖu vÉn

giao tiÕp víi nhau, nh−ng mét giao dÞch cã thÓ kh«ng ®−îc xö lý nÕu nã kh«ng chøa

c¸c thuéc tÝnh t−¬ng øng.

-62-

ThuËt to¸n ph©n phèi d÷ liÖu th«ng minh

DÞch chuyÓn d÷ liÖu

Th«ng b¸o vÒ c¸c øng viªn gi÷a c¸c bé xö lý

ThuËt to¸n ph©n phèi lai kÕt hîp c¶ ph©n phèi sè ®Õm vµ ph©n phèi d÷ liÖu

th«ng minh. Nã ph©n chia P bé xö lý thµnh G nhãm kÝch th−íc b»ng nhau, mçi

nhãm ®−îc coi lµ mét bé siªu xö lý. Ph©n phèi sè ®Õm ®−îc dïng gi÷a G bé siªu xö

lý, vµ P/G bé xö lý trong mçi nhãm dïng c¸ch ph©n phèi d÷ liÖu th«ng minh. C¬ së

d÷ liÖu ®−îc ph©n chia theo hµng ngang gi÷a G bé siªu xö lý, c¸c øng viªn ®−îc

ph©n chia gi÷a P/G bé xö lý trong mçi nhãm. Thªm vµo ®ã, ph©n phèi lai ®iÒu chØnh

sè c¸c nhãm mét c¸ch linh ho¹t trong mçi lÇn lÆp. C¸c −u ®iÓm cña c¸ch ph©n phèi

lai lµ nã gi¶m ®−îc chi phÝ truyÒn th«ng trªn c¬ së d÷ liÖu cßn 1/G lÇn, vµ nã lu«n

gi÷ cho c¸c bé xö lý bËn rén, ®Æc biÖt trong c¸c lÇn lÆp sau. C¸c thÝ nghiÖm cho thÊy

lµ, trong khi ph©n phèi lai cã cïng hiÖu suÊt víi ph©n phèi sè ®Õm, nã cã thÓ xö lý

l−îng d÷ liÖu lín h¬n rÊt nhiÒu.

-63-

ThuËt to¸n ph©n phèi lai

P/G bé xö lý trªn mçi nhãm

Ph©n phèi sè ®Õm theo c¸c hµng

ý l

t é c c ¸ c o e h t h n i m g n « h t u Ö i l

÷ d

ö x é b c ¸ c m ã h n G

ý l ö x é b c ¸ c a ÷ i g n ª i v g n ø Ò v o ¸ b g n « h T

i è h p n © h P

- Ph¸t hiÖn ph©n t¸n nhanh (FDM)

David Cheung vµ céng sù ®Ò xuÊt thuËt to¸n ph©n t¸n nhanh ®Ó ph¸t hiÖn luËt

kÕt hîp. Sù kh¸c biÖt chÝnh gi÷a khai ph¸ d÷ liÖu song song vµ ph©n t¸n lµ b¨ng

th«ng vµ ®é trÔ trªn m¹ng, ngoµi ra, c¸c kh¸c biÖt kh¸c lµ kh«ng râ nÐt. Víi mét

m¹ng chËm, bÊt cø biÓn ®æi nµo cña c¸ch ph©n phèi d÷ liÖu ®Òu kh«ng cã gi¸ trÞ

thùc tÕ do chóng ph¶i truyÒn th«ng toµn bé c¬ së d÷ liÖu trong mçi lÇn lÆp. Do thuËt

to¸n ph©n phèi sè ®Õm kh«ng tèn nhiÒu chi phÝ cho truyÒn th«ng, nã lµ c¸ch lý

t−ëng ®Ó lµm c¬ së cho c¸c ph−¬ng ph¸p kh¸c trong m«i tr−êng ph©n t¸n.

Khai ph¸ ph©n t¸n nhanh dùa trªn ph©n phèi sè ®Õm vµ ®−a ra c¸c kü thuËt

míi ®Ó gi¶m sè c¸c øng viªn cÇn xem xÐt khi ®Õm, theo c¸ch ®ã nã gi¶m thiÓu sù

truyÒn th«ng. ThuËt to¸n nµy gi¶ sö r»ng c¬ së d÷ liÖu ®−îc ph©n chia theo chiÒu

ngang gi÷a c¸c tr¹m ph©n t¸n. V× tÊt c¶ c¸c itemset phæ biÕn toµn phÇn ®Òu ph¶i lµ

itemset phæ biÕn ®Þa ph−¬ng t¹i mçi tr¹m, c¸c øng viªn duy nhÊt mµ c¸c tr¹m ph¶i

xem xÐt ph¶i ®−îc t¹o nªn tõ c¶ c¸c øng viªn phæ biÕn ®Þa ph−¬ng vµ phæ biÕn toµn

-64-

phÇn (ký hiÖu lµ GLi cho tr¹m thø i). VÝ dô, trªn tÊt c¶ c¸c thuéc tÝnh phæ biÕn Fi =

{A, B, C, D, E}, ®Æt GL1 = {A, B, C} vµ GL2 = {C, D, E}. Khi ®ã tr¹m ®Çu tiªn chØ

xÐt c¸c øng viªn CG1 = {AB, AC, BC} vµ CG2 = {CD, CE, DE}. Thay v× s¸u øng

viªn nµy, thuËt to¸n ph©n phèi sè ®Õm sÏ t¹o ra 5 x 2 = 10 øng viªn. Khai ph¸ ph©n

t¸n nhanh còng ®Ò nghÞ ba c¸ch tèi −u hãa: tØa côc bé, tØa toµn phÇn vµ kiÓm sè ®Õm.

Trong khai ph¸ ph©n t¸n nhanh dïng c¸ch tØa côc bé vµ kiÓm sè ®Õm. Mçi

tr¹m t¹o c¸c øng viªn sö dông GLi tõ tÊt c¶ c¸c tr¹m vµ g¸n mét tr¹m chñ cho mçi

øng viªn. Sau ®ã, mçi tr¹m tÝnh ®é hç trî ®Þa ph−¬ng cho c¸c øng viªn. TiÕp theo lµ

b−íc tØa: lo¹i bÊt cø itemset X nµo kh«ng phæ biÕn ®Þa ph−¬ng t¹i tr¹m hiÖn t¹i, v×

nÕu X lµ phæ biÕn toµn phÇn, th× nã sÏ ph¶i xuÊt hiÖn t¹i mét sè tr¹m kh¸c.

B−íc tiÕp theo lµ sù tèi −u hãa viÖc kiÓm sè ®Õm. Mçi tr¹m chñ yªu cÇu tÊt c¶

c¸c øng viªn ®−îc g¸n cho nã sè ®Õm côc bé tõ tÊt c¶ c¸c tr¹m kh¸c vµ tÝnh ®é hç

trî toµn phÇn cña chóng. Tr¹m chñ sÏ th«ng b¸o ®é hç trî toµn phÇn tíi tÊt c¶ c¸c

tr¹m kh¸c. Cuèi cïng, mçi tr¹m cã tËp phæ biÕn toµn phÇn vµ b¾t ®Çu mét vßng lÆp

míi. ThuËt to¸n ph©n phèi sè ®Õm th«ng b¸o c¸c sè ®Õm ®Þa ph−¬ng cña tÊt c¶ c¸c

øng viªn tíi tÊt c¶ c¸c tr¹m kh¸c, trong khi khai ph¸ ph©n t¸n nhanh chØ göi chóng

tíi mét tr¹m chñ cña mçi øng viªn. V× thÕ, ph−¬ng ph¸p nµy gi¶m l−îng truyÒn

th«ng rÊt nhiÒu, vµ viÖc c¾t tØa ®Þa ph−¬ng thËm chÝ cßn gi¶m nã thÊp h¬n.

Mét c¸ch tèi −u hãa kh¸c ®−îc ®Ò xuÊt lµ tØa toµn bé. Ngoµi viÖc göi ®é hç

trî toµn phÇn cña c¸c itemset phæ biÕn, c¸ch nµy göi c¶ ®é hç trî ®Þa ph−¬ng t¹i mçi

phÇn vµo cuèi vßng lÆp thø (k-1). Víi vßng lÆp tiÕp theo, nÕu X lµ mét øng viªn th×

®é hç trî ®Þa ph−¬ng cña tÊt c¶ c¸c tËp con (k-1) ph©n tö cña nã ®· cã s½n. Ta cã thÓ

thay thÕ cËn trªn cña ®é hç trî cña X t¹i tr¹m i b»ng:

j=1, j≠i ubj(X)

UB(X) = X.supi + Σs

víi s lµ sè tr¹m, ubj(X) lµ ®é hç trî ®Þa ph−¬ng tèi thiÕu cña tËp con (k-1) phÇn tö bÊt

kú cña X t¹i tr¹m j (cËn trªn cña ®é hç trî ®Þa ph−¬ng cña X t¹i tr¹m j). NÕu UB(X)

-65-

nhá h¬n ®é hç trî tèi thiÓu, ta cã thÓ lo¹i X. C¸c t¸c gi¶ ®¸nh gi¸ thuËt to¸n nµy trªn

mét nhãm 6 m¸y tr¹m kÕt nèi b»ng Ethernet LAN 10-Mbyte, c¸c thÝ nghiÖm chØ

kiÓm tra viÖc c¾t tØa ®Þa ph−¬ng víi viÖc kiÓm tra sè ®Õm, ®· cho thÊy r»ng cã thÓ

gi¶m ®−îc 75%-90% kÝch th−íc cña tËp c¸c øng viªn trªn mçi tr¹m, vµ gi¶m ®−îc

85%-90% kÝch th−íc c¸c th«ng b¸o.

- Ph¸t hiÖn song song nhanh (FPM)

VÊn ®Ò trong c¬ chÕ ®Õm cña bµi to¸n ph¸t hiÖn ph©n t¸n nhanh lµ nã cÇn 2

lÇn göi th«ng b¸o trong mçi vßng lÆp: mét lÇn ®Ó tÝnh ®é hç trî toµn phÇn, mét lÇn

®Ó th«ng b¸o c¸c itemset phæ biÕn. S¬ ®å hai vßng nµy cã thÓ lµm gi¶m hiÖu suÊt

trong thiÕt lËp song song. Ph¸t hiÖn song song nhanh t¹o Ýt øng viªn h¬n vµ gi÷ l¹i

c¸c b−íc c¾t tØa toµn phÇn vµ c¾t tØa bé phËn. Nh−ng thay v× kiÓm tra c¸c sè ®Õm vµ

sau ®ã th«ng b¸o c¸c itemset phæ biÕn, nã chØ th«ng b¸o ®é hç trî ®Þa ph−¬ng tíi tÊt

c¶ c¸c bé xö lý.

Mét khÝa c¹nh thó vÞ h¬n cña c¸ch tiÕp cËn nµy lµ c¸c t¸c gi¶ dïng mét ma

trËn ®Ó l−u ®é nghiªng cña d÷ liÖu (sù ph©n bè c¸c itemset trªn c¸c phÇn kh¸c

n

−=

pX

pX

log

nhau). Víi itemset X, ký hiÖu pX(i) lµ x¸c suÊt X xuÊt hiÖn trong phÇn i, khi ®ã

( XH

)

( ) i

(

( ) ) i

1 =

i

entropy cña X ®−îc cho bëi:

Sè entropy ®o ®é ph©n bè cña c¸c sè ®Õm ®é hç trî ®Þa ph−¬ng cña X trong

H

( XH

)

max

=

( XS

)

− H

max

tÊt c¶ c¸c phÇn. §é nghiªng cña mét itemset X ®−îc cho bëi:

víi Hmax = log(n) víi n phÇn. S(X) = 0 nÕu X cã ®é hç trî nh− nhau trong tÊt c¶ c¸c

phÇn, b»ng 1 nÕu X chØ xuÊt hiÖn trong mét phÇn. §é nghiªng d÷ liÖu toµn phÇn cña

c¬ së d÷ liÖu lµ tæng ®é nghiªng cña tÊt c¶ c¸c itemset tÝnh b»ng ®é hç trî cña

chóng. Trªn thùc tÕ, ta chØ cÇn xem xÐt ®é nghiªng cña c¸c itemset phæ biÕn. ThÝ

-66-

nghiÖm cña c¸c t¸c gi¶ trªn 32-nodes IBM SP2 cho thÊy r»ng ph¸t hiÖn song song

nhanh cã thÓ tèt h¬n thuËt to¸n ph©n phèi sè ®Õm 3 lÇn víi c¸c tËp d÷ liÖu cã ®é

nghiªng rÊt lín, vµ gÊp 1.5 lÇn víi c¸c tËp d÷ liÖu cã ®é nghiªng nhá.

III.2.2. C¸c hÖ chia sÎ bé nhí

Bµi to¸n thiÕt kÕ chÝnh trong c¸c hÖ thèng chia sÎ bé nhí liªn quan tíi viÖc

gi¶m thiÓu c¸c lçi chia sÎ vµ duy tr× sù tèt sù ®Þnh h−íng d÷ liÖu. C¸c nÒn hÖ thèng

chia sÎ bé nhí th−êng kh«ng ®−îc chó ý nhiÒu trong lÜnh vùc ph¸t hiÖn luËt kÕt hîp.

Tuy nhiªn, víi sù ph¸t triÓn cña c¸c m¸y tÝnh ®a xö lý vµ c¸c clump, c¸c nÒn hÖ

thèng chia sÎ bé nhí ®ang trë nªn ngµy cµng quan träng.

(cid:131) ThuËt to¸n dùa trªn Apriori

Mét trong c¸c thuËt to¸n cho c¸c hÖ chia sÎ bé nhí lµ øng viªn chung-c¬ së

d÷ liÖu ®−îc ph©n chia (CCPD). CCPD sö dông c¸ch tiÕp cËn d÷ liÖu song song. C¬

së d÷ liÖu ®−îc ph©n chia mét c¸ch hîp lý thµnh c¸c ®o¹n b»ng nhau, vµ tÊt c¶ c¸c

bé xö lý ®ång thêi xö lý mét c©y b¨m toµn phÇn hoÆc c©y b¨m c¸c øng viªn phæ

biÕn. CCPD song song hãa qu¸ tr×nh t¹o øng viªn. Mçi bé xö lý t¹o mét tËp con rêi

nhau c¸c øng viªn, dÉn tíi sù ph©n chia tèt vÒ mÆt tÝnh to¸n. §Ó x©y dùng song song

mét c©y b¨m. CCPD kÕt hîp mét khãa víi mçi nót l¸. Khi mét bé xö lý muèn thªm

mét øng viªn vµo c©y, nã b¾t ®Çu tõ gèc vµ liªn tiÕp b¨m trªn c¸c øng viªn cho tíi

khi ®¹t tíi l¸. Sau ®ã nã cã ®−îc khãa vµ chÌn øng viªn ®ã. Víi c¬ chÕ khãa nµy,

mçi bé xö lý cã thÓ chÌn c¸c itemset trong c¸c phÇn kh¸c nhau cña c©y b¨m mét

c¸ch song song. §Ó ®Õm ®é hç trî, mçi bé xö lý tÝnh tÇn sè tõ phÇn logic cña nã.

C¸c t¸c gi¶ còng ®Ò xuÊt kh¶ n¨ng tèi −u hãa, nh− lµ kÕt hîp vßng ng¾n vµ

c©n b»ng c©y b¨m. KÕt hîp vßng ng¾n sö dông phÐp ®¸nh dÊu bit trªn c©y b¨m ®Ó

tr¸nh viÖc xö lý c©y con ®· ®−îc xö lý tõ tr−íc. Hä dïng mét hµm b¨m míi ®Ó c©n

b»ng c©y b¨m, bëi v× mét hµm mod ®¬n gi¶n cã thÓ dÉn tíi c¸c c©y bÞ nghiªng. Mét

c©y c©n b»ng sÏ t¨ng tèc c¸c tiÕn tr×nh, v× nã cã cã chiÒu cao ng¾n h¬n. ThuËt to¸n

-67-

CCPD cã ®−îc sù t¨ng tèc ®¸ng kÓ nh−ng qu¸ tr×nh nhËp/xuÊt l¹i kh«ng cã lîi cho

hiÖu suÊt.

ThuËt to¸n øng viªn ®−îc ph©n chia-c¬ së d÷ liÖu chung còng ®−îc thùc hiÖn,

trong ®ã c¸c bé xö lý t¹o nªn c¸c c©y øng viªn rêi nhau vµ duyÖt toµn bé c¬ së d÷

liÖu ®Ó tÝnh ®é hç trî. Tuy nhiªn, g¸nh nÆng nhËp/xuÊt vµ sù tranh chÊp vÒ kh«ng

gian lµ kh«ng thÓ chÊp nhËn ®−îc, nã khiÕn nhiÒu bé xö lý bÞ chËm l¹i. Do b¶n chÊt

cña phÐp b¨m, c¸c c©y b¨m c¸c øng viªn ®Þnh vÞ d÷ liÖu rÊt kÐm. H¬n n÷a, mét c©y

dïng chung cã thÓ dÉn tíi chia sÎ sai trong pha tÝnh ®é hç trî. NhiÒu c¬ chÕ vµ

chÝnh s¸ch ®−îc ®Ò xuÊt ®Ó ®iÒu chØnh c¸ch bè trÝ bé nhí cña hµm b¨m dùa trªn

viÖn truy nhËp c¸c mÉu ®Ó tÝnh ®é hç trî. S¬ ®å nµy ®¶m b¶o r»ng c¸c nót cã kh¶

n¨ng ®−îc truy cËp kÕ tiÕp nhau sÏ ®−îc ®Æt gÇn nhau vÒ mÆt vËt lý, ®iÒu nµy gióp

®Þnh vÞ tèt d÷ liÖu. Ngoµi ra cßn c¬ chÕ t− nh©n hãa, mçi bé xö lý tËp hîp c¸c sè

®Õm tõ mét m¶ng ®Þa ph−¬ng, tiÕp theo lµ rót gän tæng ®Ó gi¶m lçi chia sÎ.

(cid:131) ThuËt to¸n dùa trªn DIC

Cheung vµ céng sù ®Ò xuÊt thuËt to¸n ph¸t hiÖn song song kh«ng ®ång bé

(APM) dùa trªn DIC. ThuËt to¸n nµy sö dông kü thuËt tØa toµn phÇn cña thuËt to¸n

ph¸t hiÖn ph©n t¸n nhanh ®Ó gi¶m kÝch th−íc c¸c øng viªn 2-itemset. ViÖc c¾t tØa

nµy hiÖu qu¶ nhÊt khi gi÷a c¸c phÇn cã ®é lÖch d÷ liÖu lín. Tuy nhiªn, DIC ®ßi hái

r»ng c¸c phÇn ph¶i ®ång nhÊt. Ph¸t hiÖn song song kh«ng ®ång nhÊt chia c¬ së d÷

liÖu mét c¸ch hîp lý thµnh c¸c phÇn ¶o nhá, kÝch th−íc b»ng nhau. Sè c¸c phÇn ¶o l

®éc lËp víi sè bé xö lý p, th−êng th× l ≥ p. Gäi m lµ sè c¸c thuéc tÝnh, APM tËp hîp

c¸c sè ®Õm ®Þa ph−¬ng cña c¸c m thuéc tÝnh trong mçi phÇn. Nã t¹o ra tËp d÷ liÖu

lxm, víi l vÐct¬ ®é hç trî c¸c thuéc tÝnh vµ kh«ng gian m chiÒu. APM chia l vÐct¬

vµo k cluster, tèi ®a hãa kho¶ng c¸ch gi÷a c¸c cluster vµ gi¶m thiÓu kho¶ng c¸ch

trong mçi cluster. V× thÕ, k cluster cã ®é lÖch tèi ®a vµ chóng ®−îc dïng ®Ó t¹o c¸c

tËp øng viªn 2-itemset nhá.

-68-

TiÕp theo APM ¸p dông song song DIC, ý t−ëng lµ chia c¬ së d÷ liÖu thµnh p

phÇn ®ång nhÊt. Mçi bé xö lý ¸p dông ®éc lËp thuËt to¸n DIC trªn phÇn côc bé cña

m×nh. Tuy nhiªn, cã mét c©y tiÒn tè ®−îc x©y dùng kh«ng ®ång bé ®−îc chia sÎ

gi÷a c¸c bé xö lý. APM dõng khi tÊt c¶ c¸c bé xö lý ®· ®· xö lý hÕt c¸c øng viªn t¹o

bëi nã hay bëi bé xö lý kh¸c, vµ khi kh«ng cã øng viªn míi ®−îc t¹o thªm. §Ó ¸p

dông DIC trªn mçi phÇn, mçi bé xö lý ph¶i chia phÇn côc bé cña nã thµnh r phÇn

con. H¬n n÷a, DIC ®ßi hái r»ng c¶ p phÇn gi÷a c¸c bé xö lý vµ r phÇn trong mçi bé

xö lý ph¶i cµng ®ång nhÊt cµng tèt. APM ®¶m b¶o r»ng p phÇn lµ ®ång nhÊt b»ng

c¸ch g¸n c¸c phÇn ¶o tõ mçi cluster trong k cluster cña vßng lÆp ®Çu tiªn theo kiÓu

quay vßng gi÷a p bé xö lý. Do ®ã, mçi bé xö lý cã sù kÕt hîp c¸c phÇn ¶o nh− nhau

tõ c¸c cluster riªng biÖt, cho ra sù ph©n chia c¸c bé xö lý ®ång nhÊt.

§Ó cã tÝnh ®ång nhÊt gi÷a c¸c phÇn trong mçi bé xö lý, APM thùc hiÖn ph©n

k nhãm lÇn thø hai. Chóng nhãm r phÇn vµo k cluster, vµ l¹i g¸n c¸c phÇn tö tõ mçi

cluster vµo r phÇn theo c¸ch quay vßng. C¸c thÝ nghiÖm trªn 12-node Sun Enterprise

4000 chia sÎ bé nhí cho thÊy APM thùc hiÖn tèt h¬n c¸c thuËt to¸n Ph©n phèi sè

®Õm/CCPD tõ 4-5 lÇn. Mét sù tháa hiÖp thó vÞ trong APM lµ mÆc dï ®é lÖch d÷ liÖu

lµ tèt cho ®Ó c¾t tØa toµn phÇn, nã l¹i kh«ng tèt ®Ó c©n b»ng t¶i.

III.2.3. C¸c hÖ ph©n cÊp

Mét hÖ thèng ph©n cÊp cã c¶ c¸c phÇn víi bé nhí ph©n t¸n vµ bé nhí ®−îc

chia sÎ. C¸c hÖ thèng ph©n cÊp ®ang trë nªn ngµy cµng phæ biÕn, ®Æc biÖt víi sù

ph¸t triÓn cña c¸c m¸y tÝnh ®Ó bµn ®a xö lý vµ cña c¸c m¹ng tèc ®é cao. C¸c nhãm

nµy cung cÊp kh¶ n¨ng më réng vµ cã hiÖu suÊt ngang víi c¸c m¸y ®¾t tiÒn, nh−ng

víi gi¸ thµnh rÎ. Trong mét hÖ thèng ph©n cÊp, ta ph¶i tèi −u hãa truyÒn th«ng gi÷a

c¸c nót vµ ph©n t¸ch d÷ liÖu vµ tèi −u hãa sù ®Þnh vÞ d÷ liÖu trong mçi nót vµ tr¸nh

lçi chia sÎ cho mçi nót chia sÎ bé nhí.

-69-

(cid:131) ThuËt to¸n dùa trªn Eclat

Bèn thuËt to¸n ParEclat, ParMaxEclat, ParClique va ParMaxClique ®−îc ph¸t

triÓn dùa trªn bèn thuËt to¸n tuÇn tù t−¬ng øng. ThuËt to¸n ®ang xÐt gi¶ sö r»ng hÖ

thèng cã n m¸y chñ, mçi m¸y chñ gåm p nót chia sÎ bé nhí, c¬ së d÷ liÖu ®−îc

®Þnh d¹ng theo chiÒu däc vµ ®−îc ph©n chia gi÷a c¸c m¸y chñ sao cho mçi m¸y chñ

cã toµn bé danh s¸ch ®Þnh danh tidlist cña tÊt c¶ c¸c thuéc tÝnh ®¬n lÎ. Tæng chiÒu

dµi cña c¸c tidlist côc bé lµ xÊp xØ b»ng nhau trªn tÊt c¶ c¸c m¸y chñ.

C¶ 4 thuËt to¸n ®Òu cã c¸ch song song hãa t−¬ng tù vµ chØ kh¸c nhau ë chiÕn

l−îc t×m kiÕm, cã ký thu©th ph©n líp gièng nhau. Mçi thuËt to¸n ®Òu cã 3 pha

chÝnh:

- Pha n¹p gi¸ trÞ: thùc hiÖn tÝnh to¸n vµ ph©n chia d÷ liÖu

- Pha kh«ng ®ång bé: mçi bé xö lý ®éc lËp t¹o c¸c itemset phæ biÕn

- Pha rót gän: kÕt hîp c¸c kÕt qu¶ cuèi cïng.

Trong pha ®Çu tiªn, m¸y chñ t¹o tiÒn tè hoÆc c¸c líp c©n b»ng dùa trªn

clique, dïng c¸c 2-itemset phæ biÕn. TiÕp ®ã mét thuËt to¸n xÕp c¸c líp nµy vµo c¸c

bé xö lý s½n cã. Mçi líp cã mét ®é ®o dùa trªn sè c¸c phÇn tö cña nã. Sau ®ã thuËt

to¸n xÕp lÞch sÏ s¾p xÕp c¸c líp theo ®é ®o vµ g¸n líp cã ®é ®o lín nhÊt cho bé xö

lý cã tæng ®é ®o nhá nhÊt, vµ lÆp l¹i qu¸ tr×nh nµy cho c¸c líp theo thø tù ®−îc s¾p.

Sau khi s¾p xÕp xong líp cha, c¸c danh s¸ch ®Þnh danh ®èi t−îng tidlist ®−îc sao

chÐp mét c¸ch chän läc trªn mçi m¸y chñ, nhê thÕ tÊt c¶ c¸c tidlist lµ mét phÇn cña

líp ®−îc g¸n trªn mét bé xö lý sÏ cã s½n trªn æ ®Üa côc bé cña c¸c m¸y chñ. ChØ cã

c¸c m¸y chñ tham gia vµo qua tr×nh truyÒn th«ng nµy.

Trong pha thø hai, mçi bé xö lý cã s½n c¸c líp ®−îc g¸n cho nã, cïng danh

s¸ch ®Þnh danh cña tÊt c¶ c¸c thuéc tÝnh. V× thÕ, mçi bé xö lý cã thÓ ®éc lËp t¹o tÊt

c¶ c¸c itemset phæ biÕn tõ c¸c líp cña m×nh. Trong pha nµy kh«ng cÇn ®Õn sù truyÒn

th«ng vµ ®ång bé hãa. H¬n n÷a, toµn bé bé nhí hÖ thèng lµ s½n cã ®Ó sö dông,

-70-

kh«ng cÇn l−u trong bé nhí c©y tiÒn tè hoÆc c©y b¨m. ChØ cÇn ®Õn c¸c thao t¸c ®¬n

gi¶n ®Ó ®Õm c¸c itemset.

Bèn thuËt to¸n kh¸c nhau phô thuéc vµo chiÕn l−îc ph©n t¸ch vµ t×m kiÕm

®−îc dïng. ParEclat vµ ParMaxEclat dïng c¸c líp dùa trªn tiÒn tè, vµ dïng chiÕn

thuËt t×m kiÕm tõ d−íi lªn vµ t×m kiÕm lai. ParClique vµ ParMaxClique th× dïng c¸c

líp nhá dùa trªn clique, còng t−¬ng øng dïng c¸ch t×m kiÕm tõ d−íi lªn vµ t×m kiÕm

lai.

B¶ng d−íi ®©y cho thÊy sù kh¸c biÖt c¬ b¶n gi÷a c¸c ph−¬ng ph¸p kh¸c nhau

vµ nhãm c¸c thuËt to¸n cã liªn quan víi nhau. Ta còng thÊy lµ chØ cã mét sè Ýt c¸c

m« h×nh kh¸c nhau. NhiÒu thuËt to¸n ®Ò xuÊt sù tèi −u hãa cho c¸c thuËt to¸n kh¸c.

V× thÕ, c¸c ph−¬ng ph¸p song song nµy cã cïng ®é phøc t¹p vµ c¸c tÝnh chÊt cña c¸c

thuËt to¸n tuÇn tù c¬ së cña nã.

ThuËt to¸n Ph©n phèi sè ®Õm PEAR PDM NPA FDM FPM CCPD Ph©n phèi d÷ liÖu SPA IDD PCCD Ph©n phèi lai Ph©n phèi øng viªn HPA HPA-ELD ParEclat ParMaxEclat ParClique ParMaxClique

§Æc ®iÓm Dùa trªn Apriori C©y tiÒn tè c¸c øng viªn B¶ng b¨m cho c¸c 2-itemset, t¹o øng viªn song song ChØ c¸c m¸y chñ thùc hiÖn viÖc rót gän sè ®Õm C¾t tØa côc bé vµ toµn côc, kiÓm sè ®Õm C¾t tØa côc bé vµ toµn côc, xö lý ®é nghiªng cña d÷ liÖu Chia sÎ bé nhí Trao ®æi toµn bé c¬ së d÷ liÖu trong mçi lÇn lÆp Gièng nh− ph©n phèi d÷ liÖu TruyÒn th«ng b¸o theo vßng trßn, ph©n ®o¹n øng viªn dùa trªn thuéc tÝnh Chia sÎ bé nhí (trao ®æi c¬ së d÷ liÖu logic) KÕt hîp ph©n phèi sè ®Õm vµ ph©n phèi d÷ liÖu LÆp l¹i c¬ së d÷ liÖu mét c¸ch chän läc, kh«ng ®ång bé Kh«ng lÆp l¹i c¬ së d÷ liÖu, trao ®æi c¸c itemset LÆp l¹i c¸c itemset phæ biÕn Dùa trªn Eclat, kh«ng ®ång bé, cÊu tróc ph©n cÊp Dùa trªn MaxEclat, kh«ng ®ång bé, cÊu tróc ph©n cÊp Dùa trªn Clique, kh«ng ®ång bé, cÊu tróc ph©n cÊp Dùa trªn MaxClique, kh«ng ®ång bé, cÊu tróc ph©n cÊp

-71-

Dùa trªn DIC, chia sÎ bé nhí, kh«ng ®ång bé Dùa trªn ph©n ®o¹n, c¬ së d÷ liÖu theo chiÒu ngang

APM PPAR

III.3. m« h×nh tËp th« ph¸t hiÖn song song luËt kÕt hîp

Ch−¬ng 2 ®· ®Ò cËp tíi hai thuËt to¸n ph¸t hiÖn luËt kÕt hîp theo c¸ch tiÕp

cËn cña lý thuyÕt tËp th«. C¸c t¸c gi¶ [16] cã nhËn xÐt r»ng thuËt to¸n 2.1 kh«ng

thÝch hîp ®èi víi c¸c c¬ së d÷ liÖu (b¶ng quyÕt ®Þnh) víi sè l−îng thuéc tÝnh lín.

Trong thùc tÕ gi¶ thiÕt nµy lµ rÊt khã chÊp nhËn v× vËy c¸c t¸c gi¶ cho r»ng cÇn cã

giai ®o¹n tiÒn xö lý tr−íc khi ¸p dông c¸c thuËt to¸n. ThuËt to¸n 2.2 víi môc tiªu

t×m tËp tèi −u luËt kÕt hîp lµ mét trong c¸c gi¶i ph¸p ®−îc ®Ò xuÊt. Trong phÇn nµy,

ph¸t triÓn c¸c ý t−ëng tõ [16], chóng t«i x©y dùng mét m« h×nh ph¸t hiÖn song song

luËt kÕt hîp theo c¸ch tiÕp cËn tËp th«. M« h×nh nµy dùa trªn mét sè vÊn ®Ò liªn

quan ®Õn m« h×nh ph¸t hiÖn luËt kÕt hîp. Tr−íc hÕt chóng t«i xin ®Ò cËp tíi mét vÝ

dô xuÊt ph¸t tõ thùc tÕ t¹i Së Y tÕ Hµ Néi.

B¾t ®Çu tõ n¨m 2001, Së Y tÕ Hµ Néi cã kÕ ho¹ch x©y dùng hÖ thèng th«ng

tin cña toµn ngµnh vµ cña c¸c bÖnh viÖn do Së qu¶n lý bao gåm c¸c th«ng tin qu¶n

lý vµ c¸c th«ng tin chuyªn m«n [3]. Së Y tÕ Hµ Néi qu¶n lý hÖ thèng gåm 42 bÖnh

viÖn trªn ®Þa bµn Hµ Néi, bao gåm c¶ c¸c bÖnh viÖn ®a khoa vµ chuyªn khoa mµ

theo chøc n¨ng mçi bÖnh viÖn ch÷a trÞ mét chuyªn khoa hoÆc ®a khoa, vµ cßn ®−îc

ph©n bè theo l·nh thæ (c¸c bÖnh viÖn quËn, huyÖn). C¬ së d÷ liÖu kh¸m vµ ®iÒu trÞ

bÖnh cña hÖ thèng toµn Së ®−îc ph©n t¸n theo hÖ thèng 42 bÖnh viÖn nãi trªn. Mét

trong nh÷ng yªu cÇu ®−îc ®Æt ra ë ®©y lµ sö dông ®−îc c¸c d÷ liÖu bÖnh ¸n s½n cã

®Ó ®−a ra c¸c luËt cho thÊy mèi liªn hÖ gi÷a c¸c triÖu chøng cña bÖnh nh©n vµ kh¶

n¨ng bÞ bÖnh nµo ®ã cña hä. C¸c luËt nµy bao gåm c¸c luËt côc bé (cho mçi bÖnh

viÖn) vµ luËt toµn bé, kh«ng chØ ¸p dông cho mét bÖnh viÖn nµo ®ã mµ cßn ph¶i

®óng ®Ó ¸p dông cho toµn bé Thñ ®« Hµ Néi. LuËt côc bé (hy väng nhËn ®−îc) liªn

quan ®Õn ®Æc thï cña tõng lo¹i bÖnh (®èi víi c¸c bÖnh viÖn chuyªn khoa) hoÆc liªn

-72-

quan ®Õn ®Æc thï cña tõng vïng l·nh thæ (quËn - thµnh thÞ vµ huyÖn - n«ng th«ng,

møc sèng cao vµ møc sèng thÊp ...). LuËt toµn côc (hy väng nhËn ®−îc) liªn quan

®Õn ch−¬ng tr×nh chung trong toµn Hµ Néi ®Ó ®−a ra c¸c chÝnh s¸ch dù phßng, ch¨m

sãc søc khoÎ ban ®Çu ... còng nh− c¸c phßng chèng chung ®èi víi mçi lo¹i bÖnh.

Bµi to¸n trªn ®−îc ph¸t biÓu d−íi d¹ng tËp th« trong b¶ng quyÕt ®Þnh theo quan

®iÓm cña Pawlak nh− d−íi ®©y.

Trong tr−êng hîp d÷ liÖu côc bé ®−îc tr×nh bµy d−íi d¹ng mét hÖ th«ng tin

theo quan ®iÓm cña Pawlak vµ sö dông c¸c thuËt to¸n trong ch−¬ng 2 [16], chóng ta

cÇn t×m m« h×nh cho phÐp m« t¶ vÊn ®Ò ph¸t hiÖn tËp phæ biÕn toµn côc vµ tËp phæ

biÕn côc bé. D−íi ®©y lµ nh÷ng nÐt s¬ bé nhÊt vÒ m« h×nh nh− vËy.

Ph¸t biÓu c¸c néi dung trªn ®©y theo c¸ch diÔn ®¹t trong hÖ th«ng tin nh−

sau: Cho c¸c hÖ th«ng tin Si = (Oi, Ai, V, σi) trong ®ã víi i≠j th× Oi ∩ Oj = ∅, cho

phÐp Ai ∩ Aj ≠ ∅ vµ h¹n chÕ xÐt V={0, 1} (Gi¶ thiÕt V h¹n chÕ kh«ng ¶nh h−ëng

®Õn ho¹t ®éng cña m« h×nh vµ thuËt to¸n - xem thuËt to¸n 2.1 vµ 2.2; ë ®©y, cã gi¶

thiÕt nh− vËy cho ®¬n gi¶n). Nh− vËy mçi hÖ th«ng tin Si lµ mét hÖ th«ng tin côc bé,

chøa d÷ liÖu vÒ c¸c bÖnh ¸n t¹i bÖnh viÖn thø i, mçi ®èi t−îng o ∈ Oi lµ mét phiÕu

kh¸m bÖnh. §Æt O = ∪Oi, A = ∪Ai, x©y dùng hÖ th«ng tin S = (O, A, V, σ), trong

)

,

)

,( ao

=

σ

,( ao 0

AaOokhi i i ≠

σ ⎛ i ⎜⎜ ⎝

®ã σ ®−îc x¸c ®Þnh nh− sau:

Theo quan ®iÓm cña hÖ ph©n t¸n, hÖ th«ng tin Si (hÖ th«ng tin t¹i bÖnh viÖn do Së Y

tÕ Hµ Néi qu¶n lý) nhËn ®−îc tõ hÖ th«ng tin S (hÖ th«ng tin toµn bé Së Y tÕ Hµ

Néi) theo ph©n ®o¹n võa ngang võa däc (®Æc biÖt khi mäi Ai = A th× chóng ta cã

ph©n ®o¹n ngang, mäi Oi = O th× chóng ta cã ph©n ®o¹n däc). Gi¶ sö, chóng ta sö

-73-

dông thuËt to¸n ph¸t hiÖn luËt kÕt hîp ®èi víi mçi hÖ th«ng tin Si. Mét vÊn ®Ò ®−îc

quan t©m lµ mèi quan hÖ gi÷a luËt kÕt hîp trong S víi c¸c luËt ®· ph¸t hiÖn tõ tr−íc

trong c¸c Si.

Cã thÓ xem xÐt hai m« h×nh xö lý song song ®èi víi :

- M« h×nh tËp trung: Ph¸t hiÖn luËt kÕt hîp mµ d÷ liÖu ®· tËp trung t¹i

mét hÖ th«ng tin thèng nhÊt. Theo m« h×nh nµy chó ý ®Õn viÖc chia xÎ bé

nhí, nhiÒu bé d÷ liÖu cïng ®−îc ®−a vµo bé nhí ®Ó xö lý. Trong tr−êng hîp

nµy, c¸c hÖ th«ng tin con thùc chÊt ®−îc t¸ch ra tõ mét hÖ th«ng tin tËp trung.

- M« h×nh ph©n t¸n: D÷ liÖu t¹i c¸c hÖ thèng con Si lµ ph©n t¸n thùc sù.

ViÖc ph¸t hiÖn luËt kÕt hîp song song kh«ng chØ thùc hiÖn ®èi víi mçi hÖ con

mµ cßn cÇn ph¸t hiÖn luËt kÕt hîp cho toµn bé hÖ tæng thÓ.

C¸c phÇn tr×nh bµy d−íi ®©y giíi thiÖu c¸c gi¶i ph¸p ë møc ®é s¬ l−îc nhÊt

liªn quan ®Õn c¸c néi dung trªn.

III.2.1. ThuËt to¸n 3.1. (M« h×nh tËp trung)

KÕt hîp c¸c gîi ý cña [16] khi xem xÐt thuËt to¸n 1 ch−¬ng 2, vµ kh¶o s¸t hÖ

thèng Data Surveyor trong [8], chóng ta ®−a ra thuËt to¸n sau ®©y nh»m ph¸t hiÖn

song song luËt kÕt hîp. Trõ b−íc tiÒn xö lý, b−íc t¸ch hÖ th«ng tin vµ b−íc hîp nhÊt

kÕt qu¶, néi dung c¸c b−íc cßn l¹i t−¬ng øng nh− m« t¶ trong thuËt to¸n 2.1.

ThuËt to¸n 3.1: T×m tËp tèi −u c¸c luËt

Input: HÖ th«ng tin S gåm n ®èi t−îng trong mét tËp ®èi t−îng O, mèi ®èi

t−îng u cã thÓ cã m thuéc tÝnh.

Output: TËp tèi −u c¸c luËt cïng ®é m¹nh cña mçi luËt

-74-

Néi dung thuËt to¸n

B−íc 1: Ph©n nhãm ®èi t−îng thµnh c¸c nhãm dùa theo chØ tiªu cña c¸c

thuéc tÝnh b»ng c¸ch thùc hiÖn mét thuËt to¸n ph©n nhãm: O = ∪Oi,

A = ∪Ai víi chó ý lµ tËp ®èi t−îng còng nh− tËp thuéc tÝnh trong mçi

hÖ th«ng tin thµnh phÇn kh«ng nhÊt thiÕt rêi nhau. Ghi nhËn th«ng

tin träng sè cña mçi hÖ th«ng tin thµnh phÇn (cã thÓ chän lµ sè ®èi

t−îng cã trong Oi).

B−íc 2: Thùc hiÖn song song thuËt to¸n 2.1 víi d÷ liÖu ®Çu vµo lµ c¸c hÖ

th«ng tin thµnh phÇn Si. KÕt qu¶ nhËn ®−îc qua b−íc nµy lµ c¸c luËt

kÕt hîp côc bé trong mçi hÖ th«ng tin thµnh phÇn.

Qu¸ tr×nh thùc hiÖn b−íc 2 ®−îc tiÕn hµnh lµ viÖc kÕt hîp c¸c néi

dung trong thuËt to¸n 2.1 vµ m« h×nh tÝnh to¸n song song trong [8].

B−íc 3: Hîp nhÊt kÕt qu¶ thùc hiÖn ®−îc trong b−íc 2 víi c¸c träng sè ®èi

víi mçi hÖ th«ng tin thµnh phÇn.

III.2.2. ThuËt to¸n 3.2 (M« h×nh ph©n t¸n)

Trong tr−êng hîp d÷ liÖu trong hÖ thèng ®−îc ph©n t¸n trong c¸c hÖ th«ng tin

®Þa ph−¬ng thùc sù (kh«ng cã b−íc t¸ch hÖ th«ng tin) th× thuËt to¸n ph©n t¸n ®−îc

tr×nh bµy nh− sau.

ThuËt to¸n 3.2: T×m tËp tèi −u c¸c luËt

Input: TËp hîp c¸c hÖ th«ng tin Si = (Oi, Ai, V, σi), mçi Si gåm ni ®èi t−îng

trong tËp ®èi t−îng con Oi, Ai lµ tËp con cña A (TËp hîp thuéc tÝnh ®−îc

thèng nhÊt trong toµn bé hÖ th«ng tin S; ch¼ng h¹n, Së Y tÕ Hµ Néi

thèng nhÊt b¶ng m· vµ tªn c¸c thuéc tÝnh nµy trong toµn bé Së).

Output: TËp tèi −u c¸c luËt cïng ®é m¹nh cña mçi luËt côc bé còng nh− c¸c luËt

toµn côc.

-75-

Néi dung thuËt to¸n

B−íc 1: ¸p dông thuËt to¸n 2.1. cho c¸c hÖ th«ng tin thµnh phÇn Si, KÕt qu¶

nhËn ®−îc luËt kÕt hîp cña mçi b¶ng hÖ th«ng tin thµnh phÇn cïng

mét ®¹i l−îng lµ träng sè cña mçi hÖ th«ng tin thµnh phÇn ®ã.

B−íc 2: Hîp nhÊt luËt kÕt hîp tõ c¸c hÖ th«ng tin thµnh phÇn theo träng sè ®·

cã ®Ó nhËn ®−îc c¸c luËt kÕt hîp toµn côc.

KÕt qu¶ cña b−íc nµy bao gåm hai lo¹i luËt kÕt hîp:

- C¸c luËt kÕt hîp toµn côc sau khi hîp nhÊt ë b−íc 2,

- Líp c¸c luËt kÕt hîp côc bé lµ kÕt qu¶ cña b−íc 1.

Chóng t«i ®Ò xuÊt ý nghÜa cña c¸c kh¸i niÖm "träng sè" trong kÕt qu¶ b−íc 1

vµ kh¸i niÖm "hîp nhÊt" khi thùc hiÖn b−íc 2 nh− tr×nh bµy d−íi d©y.

KÕt qu¶ ¸p dông b−íc 1 ®èi víi Si lµ (coi hai thµnh phÇn ®Çu tiªn lµ träng sè):

• TËp Si c¸c thuéc tÝnh trong Si,

• Sè ni sè l−îng c¸c ®èi t−îng cã trong Si,

• {c¸c luËt ph¸t hiÖn ®−îc qua b−íc 1 ®èi víi Si}. Chóng t«i quan niÖm r»ng

mçi luËt ë ®©y bao gåm c¸c thµnh phÇn:

- LuËt víi ®é hç trî, ®é tin cËy t×m ®−îc,

- TËp c¸c thuéc tÝnh A*i xuÊt hiÖn trong luËt,

- Sè l−îng ni ®èi t−îng trong Si,

Chó ý r»ng, mét luËt cã thÓ ®−îc ph¸t hiÖn trong nhiÒu hÖ th«ng tin thµnh

phÇn víi c¸c ®é ®o hç trî vµ tin cËy kh¸c nhau.

BiÓu thøc sau ®©y tr×nh bµy néi dung hîp nhÊt ®Ó nhËn ®−îc c¸c luËt kÕt hîp

toµn côc (µ ¸p dông tÝnh to¸n cho mçi ®¹i l−îng hoÆc ®é hç trî hoÆc ®é tin cËy) tõ

c¸c luËt kÕt hîp côc bé X→Y:

-76-

*

(

))

X

Y

µ S

i

(

∑ ( n i ) YX A ⊆∪ i

)

X

( µ

Y =→

(

(3.1)

∑ n i ) YX A ⊆∪ i

C«ng thøc trªn ®−îc gi¶i thÝch nh− sau: Víi mét luËt X→Y nµo ®ã ph¸t hiÖn ë b−íc

1, ®Ó hîp nhÊt chóng ta xem xÐt:

- C¸c hÖ th«ng tin thµnh phÇn Si mµ Ai chøa X∪Y. ViÖc hîp nhÊt chØ liªn quan

®Õn c¸c hÖ th«ng tin thµnh phÇn nµy,

- Víi mçi hÖ th«ng tin thµnh phÇn trªn ®©y, luËt X→Y cã ®¹i l−îng µ cã gi¸ trÞ

®−îc ký hiÖu lµ µSi(X→Y) ®−îc cho bëi kÕt qu¶ b−íc 1 hoÆc b»ng 0 nÕu nh− kh«ng lµ kÕt

qu¶ cña b−íc 1.

- TÝnh to¸n µ(X→Y) toµn côc nh− c«ng thøc ®· cho.

- So s¸nh ®é hç trî vµ ®é tin cËy víi ng−ìng ®Ó quyÕt ®Þnh vÒ viÖc cã kÕt luËn

X→Y lµ luËt toµn côc hay kh«ng.

NhËn xÐt: 1. Víi ®Ò xuÊt trªn ®©y, cã thÓ ®Ó xÈy ra t×nh huèng "bá sãt" luËt kÕt hîp

toµn côc, xuÊt ph¸t tõ lý do b−íc 1 ®· lo¹i bá mét sè luËt côc bé d−íi ng−ìng v× vËy

chóng kh«ng ®−îc tÝnh to¸n trong c«ng thøc 3.1. §iÒu nµy cã thÓ kh¾c phôc b»ng

c¸ch gi¶m ng−ìng mét c¸ch thÝch hîp khi khai ph¸ luËt kÕt hîp t¹i c¸c hÖ th«ng tin

thµnh phÇn trong b−íc 1 ®Ó hîp nhÊt trong b−íc 2 vµ chó ý r»ng bæ sung ng−ìng

míi cho luËt kÕt hîp côc bé.

2. ThuËt to¸n 3.1 vµ 3.2. kh«ng chØ thùc hiÖn song song ®èi víi c¸c b¶ng

quyÕt ®Þnh thµnh phÇn mµ trong nhiÒu tr−êng hîp, do viÖc ph©n nhãm, sè thuéc tÝnh

-77-

trong c¸c b¶ng quyÕt ®Þnh thµnh phÇn ®· gi¶m ®i nhiÒu so víi b¶ng quyÕt ®Þnh

chung cho nªn ®é phøc t¹p tÝnh to¸n tæng céng ®−îc gi¶m ®i ®¸ng kÓ.

KÕt luËn ch−¬ng 3

L−îng d÷ liÖu bïng næ trong c¸c hÖ th«ng tin cïng víi sù ph¸t triÓn cña c¸c c¬ së

d÷ liÖu trùc tuyÕn ®· thóc ®Èy nhu cÇu vÒ khai ph¸ d÷ liÖu song song vµ ph©n t¸n.

TÝnh to¸n song song sÏ gãp phÇn gi¶m bít thêi gian vµ chi phÝ xö lý, cho hÖ thèng

kh¶ n¨ng ph¸t triÓn. NhiÒu thuËt to¸n ph¸t hiÖn song song luËt kÕt hîp ®−îc ph¸t

triÓn dùa trªn c¸c thuËt to¸n tuÇn tù cho c¸c nÒn phÇn cøng kh¸c nhau. C¸c thuËt

to¸n nµy ®−îc tæng kÕt vµ so s¸nh bëi Zaki [17], cung cÊp mét c¸i nh×n kh¸i qu¸t vÒ

sù ph¸t triÓn cña c¸c m« h×nh ph¸t hiÖn song song luËt kÕt hîp (môc 3.2). Trªn c¬ së

c¸c thuËt to¸n t×m hiÓu ®−îc ®· nªu ë ch−¬ng 2, chóng t«i ®Ò xuÊt m« h×nh ph¸t

hiÖn song song luËt kÕt hîp theo c¸ch tiÕp cËn tËp th« cho hÖ th«ng tin, víi viÖc

song song hãa ®−îc thùc hiÖn trªn c¸c b−íc d÷ liÖu cho c¸c m« h×nh tËp trung vµ

ph©n t¸n. Theo c¸ch tiÕp cËn nµy, c¸c luËt t×m ®−îc trong c¸c hÖ th«ng tin con ®−îc

sö dông ®Ó t×m ra c¸c luËt cã gi¸ trÞ trªn toµn hÖ thèng tæng thÓ, cã sö dông gi¸ trÞ

träng sè cho mçi hÖ con. Chóng t«i còng ®−a ra mét c«ng thøc ®Ó hîp nhÊt c¸c luËt

kÕt hîp côc bé ®Ó nhËn ®−îc luËt kÕt hîp toµn côc (c«ng thøc 3.1).

-78-

PhÇn kÕt luËn

Sau mét thêi gian thu thËp tµi liÖu, kh¶o s¸t vµ ph©n tÝch néi dung vÒ viÖc

ph¸t hiÖn song song luËt kÕt hîp theo c¸ch tiÕp cËn tËp th«, luËn v¨n ®· ®¹t ®−îc

nh÷ng kÕt qu¶ nh− sau:

- Tr×nh bµy ®−îc nh÷ng néi dung c¬ b¶n nhÊt cña mét trong nh÷ng lÜnh vùc

nghiªn cøu vµ triÓn khai thêi sù hiÖn nay lµ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc

trong c¸c c¬ së d÷ liÖu mµ luËt kÕt hîp lµ mét trong nh÷ng tri thøc ®iÓn h×nh,

- Cïng víi viÖc tr×nh bµy c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu ®iÓn h×nh, luËn

v¨n còng ®Þnh h−íng vµo néi dung biÓu diÔn vµ khai ph¸ luËt kÕt hîp theo c¸ch tiÕp

cËn tËp th«. Nh÷ng kÕt qu¶ gÇn ®©y nhÊt vÒ néi dung nµy ®· ®−îc giíi thiÖu, ph©n

tÝch trong luËn v¨n.

- Ph¸t hiÖn luËt kÕt hîp nãi riªng còng nh− khai ph¸ d÷ liÖu nãi chung

trong nh÷ng c¬ së d÷ liÖu lín lµ mét c«ng viÖc ®ßi hái thêi gian tÝnh to¸n lín, v× vËy

luËn v¨n ®· tr×nh bµy mét sè m« h×nh, thuËt to¸n liªn quan ®Õn viÖc ph¸t hiÖn song

song luËt kÕt hîp, trong ®ã ®¸ng chó ý lµ c¸c thuËt to¸n 2.1 vµ 2.2.

- LuËn v¨n ®· ®Ò xuÊt s¬ bé mét m« h×nh ph¸t hiÖn luËt kÕt hîp song song

theo h−íng tiÕp cËn tËp th« trong hÖ th«ng tin vµ b¶ng quyÕt ®Þnh, trong ®ã quan

niÖm r»ng mét hÖ th«ng tin tæng qu¸t ®−îc tÝch hîp tõ c¸c hÖ th«ng tin thµnh phÇn.

Th«ng qua viÖc ®Þnh nghÜa tÝnh chÊt kÕt hîp luËt kÕt hîp trong m« h×nh nµy, luËn

v¨n còng giíi thiÖu mét thuËt to¸n s¬ bé vÒ ph¸t hiÖn song song luËt kÕt hîp trong

m« h×nh nh− vËy. LuËn v¨n còng ®Ò xuÊt ®−îc c«ng thøc tÝnh to¸n c¸c ®Æc tr−ng cña

luËt kÕt hîp toµn côc tõ c¸c luËt kÕt hîp côc bé (c«ng thøc 3.1) nh»m hoµn chØnh

thuËt to¸n 3.2. LuËn v¨n còng ®−a ra nhËn xÐt vÒ tÝnh hîp lý cña c«ng thøc tÝnh to¸n

®ã.

-79-

Trong qu¸ tr×nh nghiªn cøu ®Ó hoµn thµnh luËn v¨n th«ng qua viÖc tæng hîp

vµ ph©n tÝch néi dung chÝnh yÕu vÒ mét lÜnh vùc hÕt søc thêi sù lµ ph¸t hiÖn tri thøc

mµ cô thÓ lµ ph¸t hiÖn luËt kÕt hîp, thö nghiÖm ®Ò xuÊt s¬ bé mét m« h×nh ph¸t hiÖn

luËt kÕt hîp, chóng t«i nhËn thÊy h−íng nghiªn cøu vÒ khai ph¸ d÷ liÖu song song

nãi chung vµ ph¸t hiÖn luËt kÕt hîp song song nãi riªng lµ mét h−íng nghiªn cøu

cßn rÊt réng lín vµ lu«n lµ vÊn ®Ò thêi sù. Chóng t«i tiÕp tôc c«ng viÖc nghiªn cøu

theo c¸c néi dung sau ®©y:

- Ph¸t triÓn m« h×nh ph¸t hiÖn luËt kÕt hîp nh− ®· tr×nh bµy trong môc 3.3.

- Thö nghiÖm thuËt to¸n trong mét hÖ thèng tÝnh to¸n song song thùc sù,

tr−íc m¾t dùa trªn nÒn cña hÖ thèng PC-cluster t¹i Bé m«n c¸c HÖ thèng Th«ng tin,

khoa C«ng nghÖ, §¹i häc Quèc gia Hµ Néi.

-80-

Tµi liÖu tham kh¶o

Tµi liÖu tiÕng ViÖt

1. Hµ Quang Thôy. Mét sè vÊn ®Ò vÒ kh«ng gian xÊp xØ, tËp th« ®èi víi hÖ th«ng tin.

LuËn ¸n Phã TiÕn sÜ Khoa häc To¸n Lý, 1996

2. NguyÔn Thanh Thñy. Khai ph¸ d÷ liÖu: Kü thuËt vµ øng dông. Tr−êng thu "HÖ mê

vµ øng dông", 2001

3. Së Y tÕ Hµ Néi. §Ò c−¬ng chi tiÕt c¸c h¹ng môc ®Çu t− c«ng nghÖ th«ng tin t¹i Së

Tµi liÖu tiÕng Anh

Y tÕ Hµ Néi n¨m 2001.

4. Rakesh Agrawal, John Shafer. Parallel Mining of Association Rules. IBM Almaden

Research Center, 1996

5. Rakesh Agrawal, Heikki Mannila, Ramakrishaman Skikant, Hannu Toivonen, A.

Inkeri Verkamo. Fast Discovery of Association Rules. Advances Knowledge

Discovery and Data Mining. AAAI Press/ MIT Press, 1996.

6. Ho Tu Bao, Nguyen Duc Dung. Integration of Rule Induction and Association Rule

Mining. The 1st Workshop of International Joint Research "Parallel Computing,

Data Mining and Optical Networks", 2001

7. Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. From Dataming to

Knowledge Discovery: An Overview. Advances Knowledge Discovery and Data

Mining. AAAI Press/ MIT Press, 1996.

-81-

8. Marcel Holsheimer, Martin L. Kersten, Arno P.J.M. Siebes. Data Surveyor:

Searching the Nuggets in Parallel. Advances Knowledge Discovery and Data

Mining. AAAI Press/ MIT Press, 1996.

9. Boris Kovalerchuk, Evgenii Vityaev. Data Mining in Finance: Advances in

Relational and Hybrid Methods. Kluwer Academic Publishers, 2001

10. Vipin Kumar, Mohammed Zaki. High Performance Data Mining.

11. Milan Milenkovic. Operating Systems: Concepts and Design. McGraw-Hill Inc.,

1992.

12. Tetsuya Murai, Yoshiharu Sato. Association Rules from the Point of View of Modal

Logic and Rough Set. The 4th Asian Fuzzy Systems Symposium, 2000

13. S. Parthasarathy, S. Dwarkadas, M. Ogihara. Active Mining in a Distributed

Setting. SIGKDD Workshop on Large-Scale Parallel KDD Systems, 1999

14. Zdzislaw Pawlak. Rough Sets: Theoretical Aspects of Reasoning about Data.

Kluwer Academic Publishers, 1991.

15. D.B. Skilicorn. Strategies for Parallel Data Mining. External Technical Report, 1999

16. Andrzej Skowron, Ning Zong. Rough Sets in KDD. Tutorial Notes, 2000

17. Mohammed J. Zaki. Parallel and Distributed Association Mining: A Survey. IEEE

Concurrency, 1999.