Bài 5: Gom cụm (clustering)
1
PhânPhân ttííchch bbằằngng gomgom ccụụmm
không tương
tương ttựự
tương ttựự vvàà không
trong phânphân ttííchch bbằằngng gomgom ccụụmm
phương phpháápp gomgom ccụụmm chchíínhnh phương phpháápp phânphân hohoạạchch phương phpháápp phânphân ccấấpp
(cid:1)(cid:1) PhânPhân ttííchch bbằằngng gomgom ccụụmm llàà ggìì ?? (cid:1)(cid:1) ĐĐốốii tưtượợngng tương (cid:1)(cid:1) CCáácc loloạạii ddữữ liliệệuu trong (cid:1)(cid:1) CCáácc phương (cid:1)(cid:1) CCáácc phương (cid:1)(cid:1) CCáácc phương (cid:1)(cid:1) PhânPhân ttííchch Outlier Outlier (cid:1)(cid:1) TTóómm ttắắtt
2
PhânPhân ttííchch bbằằngng gomgom ccụụmm llàà ggìì ??
(cid:1)(cid:1) GomGom ccụụmm:: gom các đối tượng dữ liệu
o Tương tự với một đối tượng khác trong
o Không tương tự với các đối tượng trong
cùng cụm
oo MMụụcc tiêutiêu ccủủaa gomgom ccụụmm:: để gom tập
các đối tượng thành các nhóm
3
1
các cụm khác
a gom ng tiêu biểểu cu củủa gom
CCáác c ứứng dng dụụng tiêu bi ccụụmm
(cid:1)(cid:1) MMộột công c phân bốố ddữữ liliệệu u phân b
(cid:1)(cid:1) LLààm bưm bướớc tic tiềền xn xửử lý cho c
t công cụụ đ độộc lc lậập đp đểể xem x xem xéét t
4
CCáácc ứứngng ddụụngng ccủủaa gomgom ccụụmm
(cid:1)(cid:1) TiTiếếpp ththịị:: khám phá các nhóm khác hàng
phân biệt trong CSDL mua hàng
(cid:1)(cid:1) SSửử ddụụngng đđấấtt:: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất (cid:1)(cid:1) BBảảoo hihiểểmm:: nhận dạng các nhóm công ty có
chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao
(cid:1)(cid:1) HoHoạạchch đđịịnhnh ththàànhnh phphốố:: nhận dạng các
nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý.
5
ThThếế nnààoo llàà gomgom ccụụmm ttốốtt
(cid:1) Một phương pháp tốt sẽ tạo ra các cụm có chất
lượng cao với: o Tương tự cao cho trong lớp (intra o Tương tự thấp giữa các lớp (inter
intra--class) class) class) inter--class)
(cid:1) Chất lượng của kết quả gom cụm phụ thuộc vào:
o độ đo tương tự sử dụng o Cài đặt độ đo tương tự
hidden patterns)
(cid:1) Chất lượng của phương pháp gom cụm cũng được đo bởi khả năng phát hiện vài hay tất cả các mẫu bị che ( hidden
6
2
lý cho cáác c thuthuậật tot toáán khn kháác c
CCáácc yêuyêu ccầầuu ccủủaa gomgom ccụụmm trong trong KPDL (1) KPDL (1)
(scalability) thay đđổổii quyquy mômô (scalability)
(cid:1)(cid:1) CCóó ththểể thay (cid:1)(cid:1) KhKhảả năngnăng llààmm viviệệcc ccáácc loloạạii thuthuộộcc ttíínhnh khkháácc
nhaunhau..
(cid:1)(cid:1) KhKháámm phpháá ccáácc ccụụmm ccóó hhììnhnh ddáángng bbấấtt kkỳỳ
(cid:1)(cid:1) CCáácc yêuyêu ccầầuu ttốốii thithiềềuu chocho tri tri ththứứcc llĩĩnhnh vvựựcc
nhnhằằmm xxáácc đđịịnhnh ccáácc thamtham bibiếếnn nhnhậậpp
7
KPDL trong KPDL
CCáácc nhunhu ccầầuu gomgom ccụụmm trong (2)(2)
(cid:1)(cid:1) Không
(cid:1)(cid:1) KhKhảả năng outliers outliers Không nhnhạạyy ccảảmm vvớớii thưthư ttựự ccáácc bbảảnn ghighi nhnhậậpp vvààoo
(cid:1)(cid:1) CCóó ssốố chichiềềuu caocao (cid:1)(cid:1) HHợợpp ttáácc vvớớii ccáácc rrààngng bubuộộcc do do
năng llààmm viviệệcc vvớớii nhinhiềềuu vvàà
(cid:1)(cid:1) CCóó ththểể didiễễnn ddịịchch vvàà khkhảả ddụụngng
8
tương ttựự
ngưngườờii ddùùngng chchỉỉ đđịịnhnh
(cid:1) Không có định nghĩa duy nhất về sự tương tự và
bất tương tự giữa các đối tượng dữ liệu
(cid:1) Định nghĩa về tương tự và bất tượng tự giữa các
đối tượng tùy thuộc vào o Loại dữ liệu khảo sát o Loại tương tự cần thiết
9
3
TTươngương ttựự vvàà bbấấtt tương gigiữữaa haihai đđốốii tưtượợngng (1)(1)
(cid:1) Tương tự /Bất tượng tự giữa đối tượng thường được
biểu diễn qua độ đo khoảng cách d(x,y)
(cid:1) Lý tưởng, mọi độ đo khoảng cách phải là một và phải
thỏa các điều kiện sau:
SSựự tương tương ttựự vvàà bbấấtt tương tương ttựự (2)(2)
=
y
= =
+
‡
1. 2. 3. 4.
) ) ) )
) )
,
)
( , yxd , ( yxd ( , yxd ( , zxd
0 iff 0 x ( , xyd , ( yxd
( zyd
10
trong phânphân ttííchch
LoLoạạii ddữữ liliệệuu trong ccụụmm
£
(cid:1)(cid:1) CCáácc bibiếếnn khokhoảảngng ttỉỉ llệệ (cid:1)(cid:1) BiBiếếnn nhnhịị phân phân (cid:1)(cid:1) CCáácc bibiếếnn đđịịnhnh danh (cid:1)(cid:1) CCáácc bibiếếnn ccóó kikiểểuu hhổổnn hhợợpp (cid:1)(cid:1) CCáácc kikiểểuu ddữữ liliệệuu phphứứcc ttạạpp
11
danh, , ththứứ ttựự, , ttỉỉ llệệ
CCáácc bibiếếnn trtrịị khokhoảảngng (1)(1)
(cid:1)(cid:1) CCáácc đđộộ đođo liênliên ttụụcc ccủủaa ccáácc thang
(cid:1) Ví dụ: trọng lượng, chiều cao, tuổi (cid:1) Đơn vị đo có thể ảnh hưởng đến phân
thang đođo tuytuyếếnn ttíínhnh, , thôthô
(cid:1) Để tránh sự phụ thuộc vào đơn vị đo,
tích cụm
12
4
cần chuẩn hoá dữ liệu
CCáácc bibiếếnn thang
thang đođo theo
theo khokhoảảngng (2)(2)
Chuẩn hoá các độ đo :
• Tính sai biệt tuyệt đối trung bình
=
+
s
|
|
++ ...
|
|
m
|)
f
1
f
f
x 2
f
f
mx nf
f
(|1 mxn
1
+
++ ...
,)
f
1
f
x 2
f
x nf
với
và
= (xn m
- - -
f
=
z if
• Tính độ đo chuẩn ((zz--score score)) mx if s
f
13
CCáácc bibiếếnn thang
thang đoo khokhoảảngng (3)(3)
(cid:1) Một nhóm các độ đo khoảng cách phổ
=
-
q
q )|
q |
q |
(|
x
x
x
|
|
),( jid
2
2
x i 1
j 1
x i
j
x i p
j p
i = (xi1, xi2, …, xip) vvàà j = (xj1, xj2, …, xjp) llàà với ccáácc đđốốii tưtượợngng ddữữ liliệệuu p-chiều và q llàà ssốố nguên nguên dương dương
14
CCáácc bibiếếnn thang
thang đođo khokhoảảngng (4)(4)
(cid:1) Nếu q = 1, đđộộ đođo khokhoảảngng ccááchch llàà
=
+
- - - biến cho biến tỉ lệ theo khoảng là Minkowski.. khoảng cách Minkowski + ++ ...
x
|
|
x
x
++ ...
|
|
x
x
|
2
2
1
p
p
i 1
j
i
i
j
j (cid:1) Nếu q = 2, đđộộ đođo khokhoảảngng ccááchch llàà khokhoảảngng
Euclidean ccááchch Euclidean
2
=
+
- - - Manhattan Manhattan id j ),( x |
jid ),(
(|
x
2 |
|
x
|
++ ...
|
2 )|
x
x i 1
j 1
x i 2
j 2
x i p
j p
15
5
- - -
CCáácc bibiếếnn nhnhịị phânphân (1)(1)
(cid:1) Biến nhị phân chỉ có hai trạng thái là 0 hay 1
(cid:1) Bảng contingency table
1
contingency table cho dữ liệu nhị phân:
Object j 0 b
1 a
0
sum + ba + dc
Object i
d +
c +
sum
dbca
p
16
CCáácc bibiếếnn nhnhịị phânphân (2)(2)
(cid:1)(cid:1) HHệệ ssốố Jaccard
coefficient (tương tự Jaccard coefficient
=),( jid
,( id
=)
j
+ cb +++ dcba + b c ++ b a
c
17
không bất biến, nếu biến nhị phân là bất đối xứng):
CCáácc bibiếếnn nhnhịị phânphân (3)(3)
VVíí ddụụ: sự bất tương tự giữa các biến nhị
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 P Jack M P Mary F N Jim M
N N N
N N N
Y Y Y
N P N
(cid:1) Tám thuộc tính trong đó
o gender là thuộc tính đối xứng o Các thuộc tính còn lại là bất đối xứng nhị
phân
18
6
phân: • Bảng record bệnh nhân N N P
CCáácc bibiếếnn nhnhịị phânphân (4)(4)
(cid:1) Gọi các trị YY và PP được gán trị 1, và trị NN
được gán trị 0
(cid:1) Tính khoảng cách giữa các bệnh nhân dựa vào
các bất đối xứng dùng hệ số Jaccard:
=
=
d
(
jack
,
mary
)
33.0
=
=
67.0
d
(
jack
,
jim
)
=
=
75.0
jimd (
,
mary
)
+ 10 ++ 102 + 11 ++ 111 + 21 ++ 211
19
(cid:1) Mở rộng biến nhị phân để biến có thể nhận nhiều hơn hai trạng thái chẳng hạn đỏ, vàng, xanh, lục
(cid:1) Phương pháp 1: đđốốii ssáánhnh đơnđơn gigiảảnn
oo m: m: # lần đối sáng,, p: p: ttổổngng ssốố bibiếếnn
CCáácc bibiếếnn đđịịnhnh danh (nominal variables) danh (nominal variables)
,( id
=)
j
mp p
(cid:1) Phương pháp 2: ddùùngng mmộộtt ssốố lưlượợngng llớớnn ccáácc bibiếếnn nhnhịị phânphân
o Tạo biến nhị phân mới cho từng trang thái định danh của
20
CCáácc bibiếếnn ththứứ ttựự
(cid:1) Các biến thứ tự có thể là liên tục hay rời rạc (cid:1) Thứ tự của các trị là quan trọng, ví dụ hạng (cid:1) Có thể xử lý như tỷ lệ khoảng
(cid:1) Thay thế xif bởi hạng của chúng o Ánh xạ phạm vi của từng biến vào đoạn [0, 1] bằng cách thay
thế đối tượng thứ i trong biến thứ f bởi
r ˛
,1 {
...,
M
}
if
f
o Tính sự khác nhau dùng các phương pháp cho biến tỉ lệ
theo khoảng
-
1
if
=
z
if
r M
1
f
21
7
- -
CCáácc bibiếếnn ttỉỉ llệệ
(cid:1)(cid:1) ĐĐộộ đođo dương
dương trêntrên thang thang phi phi tuytuyếếnn,
(cid:1)(cid:1) CCáácc phương
(cid:1) xử lý chúng như các biến thang đo khoảng
— không phải là lựa chọn tốt ! (why?)
(cid:1) áp dụng biến đổi logarithmic yifyif = = log(xif log(xif)) (cid:1) xử lý chúng như dữ liệu thứ tự liên tục và xử lý chúng theo hạng như thang đo khoảng
22
CCáácc bibiếếnn ccóó kikiểểuu hhỗỗnn hhợợpp (1)(1)
(cid:1) CSDL Có thể chứa cả sáu loại biến (cid:1) Có thể dùng công thức được gán trọng để kết hợp các
hiệu quả:
f
)
f
)
xấp xỉ thang đo mũ (cid:1) Ví dụ AeAeBtBt hay AeAe--BtBt phương phpháápp::
p f
=
id ,(
j
)
( ij )
=
d = 1 p f
( ij d 1
d ( f ij
S S
)
(
f
=
if
jf
0
if
x
or
x
is
missing,
ij
=
if
jf
d or
x
x
;0
=
otherwise
1
= δ (f)
ij
23
CCáácc bibiếếnn ccóó kikiểểuu hhỗỗnn hhợợpp (2)(2)
với
(cid:1) Nếu f là nhị phân hay định danh:
(
f
)
(
f
)
=
=
=
if
if 0
x
x jf
;
otherwise
1
ij
ij
d
d
(cid:1) Nếu f dựa trên khoảng: dùng khoảng cách được chuẩn hoá
ĐĐóóngng ggóópp ccủủaa bibiếếnn f vvààoo khokhoảảngng ccááchch d(i,j)::
1
if
=
zif
(cid:1) Nếu f là thứ tự hay tỉ số được tỉ lệ theo: (cid:1) Tính hạng rif và o xử lý zif theo tỉ lệ khoảng
1
r M
f
24
8
- -
CCáácc kikiểểuu ddữữ liliệệuu phphứứcc ttạạpp
(cid:1) Tất cả các đối tượng được xem xét a trong KPDL là không quan hệ => Loại dữ liệu phức tạp o Ví dụ về loại dữ liệu như vậy là dữ liệu không
gian, dữ liệu đa phương tiện, dữ liệu di truyền, dữ liệu văn bản, dữ liệu chuỗi thời gian, dữ liệu văn bản và dữ liệu được thu gom từ World-Wide Web
(cid:1) Các độ đo tương tự và bất tương tự thường
hoàn toàn khác nhau ứng với các loại dữ liệu trên
25
phương phpháápp gomgom ccụụmm
CCáácc phương (clustering) chchíínhnh yyếếuu (clustering)
(cid:1) Các phương pháp dựa trên phân hoạch (cid:1) Các phương pháp phân cấp (cid:1)(cid:1) CCáácc phương
(cid:1)(cid:1) CCáácc phương
26
CCáácc phương
phương phpháápp phânphân hohoạạchch
(cid:1)(cid:1) Phương
phương phpháápp ddựựaa trêntrên mmậậtt đđộộ based methods GridGrid--based methods phương phpháápp ddựựaa trêntrên mômô hhììnhnh (gom cụm khái niệm, mạng neural )
phân hohoạạchch:: tạo một phân
27
9
Phương phpháápp phân hoạch của CSDL D chứa nn đối tượng thành tập gồm k cụm sao cho: o Mỗi cụm chứa ít nhất là một đối tượng o Mỗi đối tượng thuộc về đúng một cụm (cid:1) Cho k, tìm một phân hoạch có kk ccụụmm nhằm tối ưu tiểu chuẩn phân hoạch được chọn
TiêuTiêu chuchuẩẩnn suysuy đođoáánn chchấấtt lưlượợngng phânphân hohoạạchch
(cid:1)(cid:1) TTốốii ưuưu totoàànn ccụụcc: liệt kê theo lối vét cạn tất
(cid:1)(cid:1) CCáácc phương
oo kk--meansmeans (MacQueen’67): mỗi cụm được centroid) đại diện bằng tâm của cụm (centroid
oo kk--medoids
cả các phân hoạch phương phpháápp:
28
Phương phpháápp gomgom ccụụmm kk-- Phương means(1) means(1)
(cid:1)(cid:1)
(cid:1)(cid:1)
ĐĐầầuu vvààoo ccủủaa thuthuậậtt totoáánn: số k cụm k, và CSDL có n đối tượng ThuThuậậtt totoáánn ggồồmm 4 4 bưbướớcc:
1.
2.
centroid (trung
Phân hoạch đối tượng thành k tập con/cụm khác rỗng Tính các điểm hạt giống làm centroid bình của các đối tượng của cụm) cho từng cụm trong cụm hiện hành
3. Gán từng đối tượng vào cụm có centroid gần
nhất
4. Quay về bước 2, chất dứt khi không còn phép
gán mới
29
Phương phpháápp gomgom ccụụmm kk-- Phương means(2) means(2)
medoids (Kaufman & Rousseeuw’87): mỗi cụm được đại diện bằng một trong các medoid) đối tượng của cụm (medoid
2. Gán hoặc gán lại từng đối tượng vào
ThuThuậậtt totoáánn khkháácc ccũũngng ggồồmm 4 4 bưbướớcc : 1. Chọn bất kỳ k đối tượng làm các tâm (centroids) ban đầu
3. Cập nhật centroids 4. Quay về bước 2, dừng khi không còn
cụm với khoảng cách gần nhất
30
10
phép gán mới
10
10
9
9
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
0
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
10
10
9
9
8
8
7
7
6
6
5
5
4
4
3
3
2
2
1
1
0
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
31
phương phpháápp gomgom
ĐiĐiểểmm mmạạnhnh ccủủaa phương ccụụmm kk--meansmeans
Ví dụ: phương pháp gom cụm k- means
(cid:1)(cid:1) Scalable
tương đđốốii: : trong trong khikhi xxửử lýlý ccáácc
Scalable tương ttậậpp ddữữ liliệệuu llớớnn (cid:1)(cid:1) HiHiệệuu susuấấtt tương
(cid:1) Thường kết thúc ở điểm tối ưu cục bộ; có thể tìm được tối ưu toàn cục dùng các kỹ thuật như thuật toán di truyền
32
phương phpháápp gomgom
ĐiĐiểểmm yyếếuu ccủủaa phương ccụụmm kk--meansmeans
(cid:1)(cid:1) CCóó ththểể áápp ddụụngng chchỉỉ khikhi xxáácc đđịịnhnh đưđượợcc trtrịị
tương đđốốii: O(tkn), với n là số đối tượng, k là số cụm, và t là số lần lặp. Thông thường k, t << n.
trung bbììnhnh ccủủaa ccáácc đđốốii tưtượợngng trung (cid:1)(cid:1) CCầầnn chchỉỉ đđịịnhnh trtrứứcc k, số các cụm (cid:1)(cid:1) Không (cid:1)(cid:1) Không
33
11
Không ththểể xxửử lýlý ddữữ liliệệuu chuchuỗỗii vvàà ooutliers Không phphùù hhợợpp để khám phá các cụm với dạng khong lồi hay cụm có kích thước khác nhau.
phương phpháápp
CCáácc bibiếếnn đđổổii ccủủaa phương means(1) gomgom ccụụmm kk--means(1)
means khkháácc nhaunhau ởở: :
(cid:1)(cid:1) VVààii bibiếếnn ththểể ccủủaa kk--means (cid:1) Chọn k centroids ban đầu o Tính toán sự bất tương tự o Các chiến lược tính centroids cụm
(cid:1) Xử lý dữ liệu phân nhóm: kk--modesmodes (Huang’98) o Thay trị trung bình của cluster bằng modesmodes o Dùng các độ đo bất tương tự mới cho các đối tượng phân
nhóm
o Dùng phương pháo dựa trên tần số để cập nhật modes
của các cụm
(cid:1) Một sự kết hợp giữa dữ liệu phân lớp và dữ liệu số :
phương pháp kk--prototype. prototype.
34
Phương phpháápp gomgom ccụụmm KK-- Phương medoids medoids
(cid:1)(cid:1) ĐĐầầuu vvààoo ccủủaa thuthuậậtt totoáánn: số cụm k và
(cid:1)(cid:1)
ban medoids ban
đđầầuu (các đối tượng đại diện)
2. Gán từng đối tượng còn lại vào cụm có medoid
gần nhất
3. Chọn nonmedoid và thay một trong các
medoids bằng nó nếu nó cải thiện chất lượng cụm
4. Quay về bước 2, dừng khi không còn phép gán
mới.
35
PhPhươngương phpháápp phânphân ccấấpp
(cid:1)(cid:1) PhPhươngương phpháápp phânphân ccấấpp:: tạo phân cấp cụm, chứ không phải là một phân hoạch đơn thuần các đối tượng
(cid:1) Không cần dữ liệu nhập là số cụm kk
(cid:1) Dùng ma ma trtrậậnn làm tiêu chuẩn gom cụm
(cid:1)(cid:1) CCóó ththểể ccóó điđiềềuu kikiệệnn kkếếtt ththúúcc (ví dụ số cụm)
36
12
CSDL có n đối tượng ThuThuậậtt totoáánn ggồồmm 4 4 bưbướớcc : 1. Chọn bất kỳ k đối tượng làm medoids
CCâyây ccáácc ccụụmm
(cid:1) Phân cấp cụm thường tạo cây các cụm
hay còn được gọi là dendrogram dendrogram
o Các lá của cây biểu diễn các đối tượng
o Các nút trong của cây biểu diễn các cụm
37
phương phpháápp ttạạoo kikiếếnn trtrúúcc
HaiHai loloạạii phương ccụụmm (1)(1)
Hai loHai loạại ki kỹỹ thuthuậật gom c
t gom cụụm phân l
m phân lớớp :p : agglomerative (từ dưới lên):
•• GGộộpp--agglomerative
o Đưa từng đối tượng vào cluster riêng của nó (a
singleton)
o Trộn ở mỗi bước hai cụm tương tự nhất cho
đến khi chỉ còn một cụm hay thỏa điều kiện kết thúc
divisive (từ trên xuống):
oo PhânPhân chiachia --divisive
o Bắt đầu bằng một cụm lớn chứa tất cả đối
tượng.
38
o Phân chia cụm phân biệt nhất thành các cụm nhỏ hơn và xử lý cho đến khi co n cụm hay thỏa điều kiện kết thúc
i phương phááp tp tạạo kio kiếến n
c phân cấấp cp cụụm (2)m (2)
Hai loạại phương ph Hai lo trtrúúc phân c
Step 1
Step 2 Step 3 Step 4
Step 0
riêng lẻ
GGộộpp--agglomerative agglomerative
a b
a b c d e
c d e
d e
a b c d e
PhPhânân chiachia-- divisive divisive
Step 3
Step 2 Step 1 Step 0
Step 4
39
13
trong CCáácc khokhoảảngng ccááchch trong
(cid:1) Thường có 3 cách được dùng để định nghĩa khoảng cách
giữa các cụm
oo Phương
Phương phpháápp liênliên kkếếtt đơnđơn(làng giềng gần nhất):
=
jid ),(
min
{ yxd ,(
} )
CyCx , i j
=
Phương phpháápp liênliên kkếếtt hohoàànn totoàànn(láng giềng xa oo Phương nhất ): { yxd ,(
jid ),(
max
} )
˛ ˛
j
CyCx , i
oo Phương
trung bbììnhnh (trung bình
Phương phpháápp liênliên kkếếtt trung cặp nhóm không có trọng ):
=
id
j ),(
avg
{ yxd ,(
} )
˛ ˛
j
CyCx , i
40
˛ ˛
SSứứcc mmạạnhnh ccủủaa ccáácc phương phương phpháápp phânphân ccấấpp
(cid:1)(cid:1) KhKhááii niniệệmm đơnđơn gigiảảnn (cid:1)(cid:1) LýLý thuy thuyếếtt ttốốtt (cid:1)(cid:1) KhiKhi ccụụmm đưđượợcc trtrộộnn/tácht, quyết
định là vĩnh cửu => => ssốố ccáácc phưong áánn khkháácc nhaunhau ccầầnn đưđượợcc phưong xemxem xxéétt bbịị rrúútt gigiảảmm
41
ĐiĐiểểmm yyếếuu ccủủaa phương
phương phpháápp phânphân ccấấpp
(cid:1)(cid:1) TrTrộộn/tn/tááchch ccáácc ccụụmm llàà vvĩĩnhnh ccửửuu => => không ththểể khkhắắcc
(cid:1)(cid:1) CCáácc phương
42
14
ccáácc quyquyếếtt đđịịnhnh saisai llàà không phphụụcc vvềề sausau (cid:1)(cid:1) CCáácc phương phương phpháápp phânphân chiachia llàà ccầầnn ththờờii giangian ttíínhnh totoáánn phương phpháápp llàà không scalable không scalable chocho ccáácc ttậậpp ddữữ liliệệuu llớớnn
Outlier (1) PhânPhân ttííchch Outlier (1)
Outliers (cid:1)(cid:1) Outliers o Là các đối tương bất tương tự với phần dữ liệu
còn lại
o Có thể gây ra việc đo đạc hay lỗi thực hiện, hay o Là kết quả của biến đổi dữ liệu kế thừa Rất nhiều
thuật toán KTDL cố gắng o Giảm ảnh hưởng của outliers o Giảm outliers
43
Outlier (2) PhânPhân ttííchch Outlier (2) (cid:1) Cực tiểu hóa ảnh hưởng của outliers
(cid:1)(cid:1) CCáácc ứứngng ddụụngng ccủủaa khai
o Phát hiện phạm tội (Fraud detection) o Tiếp thị o Xử lý y khoa
44
và/hay khử đi các the outliers có thể gây ra mất mát thông tin outlier (cid:1) Có thể quan tâm đến khai thác outlier miningmining outlier khai ththáácc outlier
TTổổngng kkếếtt (1)(1)
(cid:1)(cid:1) PhPhânân ttííchch gomgom ccụụmm ccáácc đôiđôi tưtượợngng ddựựaa
(cid:1)(cid:1) PhPhânân ttííchch gomgom ccụụmm ccóó phphạạmm vi vi ứứngng ddụụngng
trêntrên ssựự tương tương ttựự
(cid:1)(cid:1) CCóó ththểể ttíínhnh đđộộ đođo tương
(cid:1)(cid:1) ViViệệcc llựựaa chchọọnn đđộộ đođo tương
to to llớớnn tương ttựự chocho nhinhiềềuu loloạạii ddữữ liliệệuu khkháácc nhau nhau. .
45
15
tương ttựự ttùùyy thuthuộộcc tương ttựự vvààoo ddữữ liliệệuu đưđượợcc ddùùngng vvàà loloạạii tương ccầầnn ttììmm
TTổổngng kkếếtt (2)(2)
(cid:1)(cid:1) CCóó ththểể chiachia ccáácc thuthuậậtt totoáánn gomgom ccụụmm ththàànhnh
(cid:1)(cid:1) CCóó nhinhiềềuu vvấấnn đđềề nghiên
46
16
ccáácc loloạạii partitioning methods, partitioning methods, phương phpháápp phânphân ccấấpp oo CCáácc phương phương phpháápp ddựựaa trêntrên mmậậtt đđộộ, , oo CCáácc phương phương phpháápp ddựựaa trêntrên lưlướớii oo CCáácc phương phương phpháápp ddựựaa trêntrên mômô hhììnhnh oo CCáácc phương nghiên ccứứuu vvềề phânphân ttííchch gomgom ccụụmm