401
Ch¬ng 20
NHẬN DẠNG MU:
PHÂN LỚPĐÁNH GIÁ
20.1. GIỚI THIU
Trong chương 18, chúng ta đã gii thiu v nhn dng mu thng đã đề cp
đến vic tách và trích chn các đối tượng t mt cnh phc tp. Chương 19 đã ch ra
các phương pháp xác đnh nhng đặc đim ca các đối tượng đó. Trong chương này,
chúng ta tiếp cn bài toán nhn biết các đối tượng bng cách phân lp chúng thành
tng nhóm. l phi viết nhiu v ch đề này chúng ta ch th gii thiu các
khái nim cơ bn đây. Nếu mun nghiên cu đầy đủ hơn, độc gi nên tham kho
tài liu v ch đề này (Ph lc 2)
20.2. PHÂN LỚP
20.2.1. Chn lc đặc trưng
Nếu ta mun mt h thng phân bit các loi đối tượng khác nhau, đầu tiên chúng
ta phi quyết đnh nên xác định nhng đặc đim nào để to ra các tham s miêu t.
Các đặc đim riêng bit cn xác đnh gi là các đặc trưng ca đối tượng và các giá tr
tham s kết qu gm vec tơ đặc trưng đối vi tng đối tượng. Vic chn la các
đặc trưng thích hp là rt quan trng, vì ch chúng mi được s dng để nhn biết
đối tượng.
vài phương tin phân tích để hướng dn chn la các đặc trưng. Kh năng trc
giác thường xuyên ch đạo danh sách các đặc trưng ích tim tàng. Các k thut
sp xếp đặc trưng tính toán có liên quan đến s lưng các đặc trưng khác nhau. Điu
này cho phép lưc bt danh sách chn mt vài đặc trưng tt nht.
Các đặc trưng tt có bn đặc đim:
1. S phân bit đối x. Các đặc trưng phi nhn nhng giá tr khác nhau mt cách
đáng k đối vi c đối tượng thuc các lp khác nhau. Ví d, đường kính
dc tính tt trong d sp xếp trái cây chương 18, nhn nhng gtr
khác nhau đối vi nhng qu sơ ri và nhng qu nho.
2. Tính tin cy. Các đặc trưng phi nhn các giá tr ging nhau đối vi mi đối
tượng cùng lp. Ví d, màu sc th đặc trưng m đối vi nhng qu táo
nếu chúng xut hin theo các mc độ chín không n đnh. Tc , mt qu táo
xanh mt qu táo chín (đỏ) th rt khác nhauv màu sc, mc c hai
đều thuc lp đối tượng là các qu táo.
3. Tính độc lp. Nhiu đặc trưng được s dng khác nhau không được tương quan
vi nhau. Đường kính trng lượng ca mt trái y s to thành các đặc
trưng tương quan cht, trng lưng t l gn đúng vi đường kính mũ ba.
Bài toán mà c đường kính ln trng lưng v bn cht đều phn ánh cùng mt
tính cht, y kích thước ca trái y. Trong khi các đặc trưng tương quan
cht th kết hp (ví d, bng cách ly trung bình tt c chúng cùng vi nhau)
402
để làm gim tính nhy cm đối vi nhiu, thì nói chung chúng li không được
s dng như nhng đặc trưng độc lp.
4. Các s nh. Tính phc tp ca mt h thng nhn dng mu tăng nhanh chóng
theo kích c (s các đặc trưng được ng) ca h thng. Quan trng hơn s
các đối tượng cn để hun luyn b phân lp để đo lường hiu sut ca
tăng theo cp s mũ vi s các đặc trưng. Trong vài trường hp, để th
đạt được lượng d liu cn thiết cho vic hun luyn b phân lp tương xng
ch điu hão huyn. Cui cùng, vic thêm các đc trưng nhiu hay đặc trưng
tương quan cht vi các đặc trưng hin th làm suy gimhiu sut ca
nhng b phân lp, đặc bit bi vì kích thước gii hn ca tp hun luyn.
Trong thc tế, quá trình chn la đặc trưng thường bao gm c vic kim tra tp
các đặc trưng hp quatrc giác vic gim tp xung còn mt s các đặc trưng
tt nht th chp nhn. Thường ít hoc kng sn các đặc trưng tưởng
dưới dng các tính cht đã nói trên.
20.2.2. Thiết kế b phân lp
Thiết kế b phân lp bao gm vic thiết lp cu trúc logic ca b phân lp cơ
s toán hc ca quy tc phân lp. Thông thường, đối vi mi đối tượng thường gp,
s phân lp tính toán, vi tng lp, g tr báo hiu (bng độ ln ca nó) mc độ mà
đối tượng đó tương t đối tượng đin hình ca lp đó. Giá tr này được tính như mt
hàm đặc trưng và nó được dùng để chn lp gn ging vi công vic được giao nht.
Hu hết các quy tc quyết đnh b phân lp đều gim đến mt vch ngưỡng phân
chia các không gian kích c thành các vùng ri nhau, mi lp mt (hoc nhiu) vùng.
Mi vùng (phm vi các gtr đặc trưng) ng vi mt lp riêng l. Nếu c gtr
đặc trưng nm trong mt vùng riêng bit tđối tượng được n định cho lp tương
ng. Trong vài trường hp, mt hoc nhiu vùng như vy th ng vi mt lp
không xác đnh”.
20.2.3. Hun luyn b phân lp
Mt khi các quy tc quyết đnh cơ bn ca b phân lp đã được thiết lp thì ta
phi xác đnh các gtr ngưỡng riêng bit phân tách các lp. Điu này thường được
thc hin bng cách hun luyn b phân lp theo nhóm các đi tượng đã biết. Tp
hun luyn là mt tp hp các đối tượng t mi lp đã được nhn biết trước đó bng
mt phương pháp chính xác nào đó. Các đối tượng trong tp hun luyn đưc đo,
không gian kích c được phân chia, bng các b mt quyết định, thành các vùng
độ chính xác ca b phân lp là ti đa khi nó hot động trên tp hun luyn.
Khi hun luyn mt b phân lp, ta th s dng quy tc đơn l, d như ti
thiu hoá tng các sai s phân lp. Nếu mt vài s phân lp sai lm th gây rc ri
hơn nhng cái khác thì ta th thiết lp mt hàm giá để gii thích điu y bng
cách cân nhc các sai s khác nhau mt cách gn đúng. Các đưng quyết đnh sau đó
được đặt vào để ti thiu hoá toàn bgiá” ca vic thao tác b phân lp.
Nếu tp hun luyn là biu din ca các đối tượng i chung thì b phân lp loi
cũng phi thc hin xung quanh các đối tượng mi ging như đã tng thc hin
trên tp hun luyn. được mt tp hun luyn đủ ln thường mt ng vic
gian kh. Để được th hin, tp hun luyn phi bam gm các d v tt c nhng
đối tượng có th gp, k c nhng đối tượng hiếm khi nhìn thy. Nếu tp hun luyn
ngăn chn mt đối tượng không ph biến o đó, tkhông biu hin. Nếu
cha các sai s phân lp thì nó b thành kiến.
403
20.2.4. Xác định hiu sut
S chính xác ca mt b phân lp có th được đánh giá trc tiếp bng cách lit
hiu sut ca nó da trên tp các đối tượng kim tra đã biết. Nếu tp kim tra đủ ln
để biu din các đối tượng ln nếu nó không có sai s, t hiu sut được đánh giá
có th rt hu ích.
Mt phương pháp la chn cho vic đánh giá hiu sut là s dng tp kim tra ca
các đối tượng đã biết để đánh g PDF ca nhng đc trưng theo tng nhóm. T
nhng PDF cơ bn đã cho, ta có th s dng các tham s phân lp để tính t l sai s
mong mun. Nếu đã dng tng quát ca các PDF đó t k thut này th s dng
tp kim tra kích thước mép tt hơn.
Ta mun được hiu sut ca b phân lp trên tp hun luyn như mt phép đo
toàn b hiu sut ca nó, nhưng đánh gnày thường b nghi ng v tính lc quan.
Mt phương pháp tiếp cn tt hơn là s dng mt tp kim tra riêng bit đối vi vic
đánh ghiu sut ca b phân lp. Tuy nhiên, điu này làm tăng đáng k s cn
thiết ca nhng d liu trước phân lp.
Nếu nhng đối tượng đã phân lp trước đây được đánh giá cao, tta th s
dng mt th tc vòng luân chuyn trong đó b phân lp được hun luyn vi
hu hết mi đối tượng tiếp theo sau đối tượng đó được phân lp. Khi điu y
được thc hin vi tt c các đối tượng tta s mt đánh gca toàn b hiu
sut thc hin ca b phân lp.
20.3. CHỌN LA ĐẶC TRƯNG
Trong mt bài toán nhn dng mu, ta thường phi đối mt vi ngvic chn la
trong nhiu đc trưng sn , đặc trưng nào xác đnh th hin b phân lp. i
toán chn la đặc trưng đã nhn đưc s quan tâm đáng k trong tài liu, nhưng li
ni lên tình trng không rõ ràng. Phn y dành cho độc gi như mt vn đề thú.
Như đã lưu ý trước đây, ta tìm kiếm mt tp nh các đặc trưng tin cy, độc lp và
s phân bit đối x. i chung, ta mong mun làm suy gim hiu sut ca b phân
lp khi các đặc trưng đưc đánh giá, ít ra cũng nhng đặc trưng hu ích. Thc tế,
đánh gnhiu hay c đặc trưng tương quan cht th thc s ci tiến hiu sut
thc hin.
Sau đó, chn la đặc trưng th được coi như quá trình đánh giá mt vài đặc
trưng kết hp các đặc trưng liên quan khác, cho đến khi tp đặc trưng tr n
d s dng và s thc hin vn n chính xác.
Nếu tp đặc trưng được gim t M đặc trưng xung n mt lượng N nào đó nh
hơn, t chúng ta s tìm kiếm tp N đặc trưng riêng bit để ti thiu hoá toàn b vic
thc hin b phân lp.
Mt phương pháp tiếp cn bng cách lp đi lp li mt th tc đơn gin nhiu ln
để chn la đặc trưng được cho dưới đây. Đối vi tt c các tp con ca N đặc trưng
có th có, hun luyn b phân lp, và xác đnh hiu sut ca bng cách lit kê c
t s phân lp nhm các nhóm kc nhau ca b phân lp. Sau đó to ra mt ch s
hiu sut tng th là mt hàm t s li. Cuing, s dng tp N đặc trưng đó để to
ra ch s hiu sut tt nht.
Dĩ nhiên bài toán vi ch tiếp cn bng cách lp đi lp li mt th tc đơn gin
nhiu ln là mt khi lưng khng l đối vi tt c tr các bài toán nhn dng mu
đơn gin nht. Thc tế, thường t tài nguyên ch đủ để hun luyn đánh gb
phân lp. Trong đa s các bài toán thc tin, phương pháp tiếp cn bng cách lp đi
404
lp li mt th tc đơn gin nhiu ln là không thc tế và mt k thut ít tn tin phi
được s dng để đạt được cùng mt mc đích.
Trong phn tho lun dưi đây, chúng ta s xem xét trường hp gim mt bài toán
hai đặc trưng xung còn mt đặc trưng đơn gin. Gi s tp hun luyn sn
cha các đối tượng ca M lp khác nhau. Đặt Nj s đối tượng trong lp j. Hai đặc
trưng xij và yij thu đưc khi xác đnh đối tượng th i trong lp j. Ta th khi đầu
bng vic tính giá tr trung bình ca tng đặc trưng trong mi lp:
j
N
i
ij
j
xj x
N1
1
(1)
j
N
i
ij
j
yj y
N1
1
(2)
Du mũ trên đầu
xj
yj nhc ta rng đây nhng đánh giá ca các giá tr trung
bình trong lp da trên tp hun luyn, ch không phi các gtr trung nh tht
s ca lp.
20.3.1. Độ lch đặc trưng
tưởng nói, c đặc trưng phi nhn các gtr ging nhau đối vi mi đối
tượng trong cùng mt lp. Độ lch đặc trưng x trong lp j được đánh glà
j
N
i
xj
ij
j
xj x
N1
2
21
(3)
đối vi đặc trưng y
j
N
i
yj
ij
j
yj y
N1
2
21
(4)
20.3.2. Tương quan đc trưng
S tương quan ca các đặc trưng xy trong lp j có th được đánh giá bi
yjxj
N
i
yj
ij
xj
ij
j
xyj
j
yx
N
1
1
(5)
Đại lưng này nm gia -1 +1. Gtr 0 cho thy rng hai đặc trưng là không
tương quan, trong khi giá tr gn +1 cho thy mt mc đọ cao ca s tương quan. Giá
tr -1 chng t rng mi biến t l vi g tr âm ca biến khác. Nếu độ ln ca mt
tương quan xp x 1, t hai đặc trưng có th được kết hp thành mt hay th b đi
mt trong hai đặc trưng đó.
20.3.3. Khong cách phân tách lp
Mt phép tính xác đáng v kh năng ca mt đặc trưng để phân bit hai lp
khong cách độ lch đã chun hoá gia các gtr trung nh ca lp. Vi đặc trưng
x, khong cách này được cho bi
405
22
xkxj
xkxj
xjk
D
(6)
trong đó j, k là hai lp. ràng, đặc trưng cao hơn đc trưng to ra s tách lp
ph biến nht.
20.3.4. Gim chiu
nhiu phương pháp kết hp hai đặc trưng x y thành mt đặc trưng z đơn l.
Mt phương pháp đơn gin là s dng mt hàm tuyến tính (Xem phn 13.6.2.1)
byaxz
(7)
Bi hiu sut phân lp không b nh hưng bi vic ly t l độ ln ca các đặc
trưng, chúng ta có th li dng s hn chế v độ ln, d như
1
22 ba (8)
Biu thc này th hp nht vi biu thc (7) bng cách viết
sincos yxz
(9)
trong đó
là mt biến mi ch t l ca xy trong biu thc.
Nếu mi đối tượng trong tp hun luyn tương ng vi mt đim trong không
gian đặc trưng hai chiu (ví d mt phng x, y), tbiu thc (9) miêu t mi đim
lên trc z, làm thành vi trc x mt c
. Điu này được cho trong bng 20-1.
ràng, phi được chn để ti thiu hoá s tách lp hay mt tiêu chun cht lượng
o đó ca mt đặc trưng. Để hiu thêm v s gim chiu, độc gi nên tham kho
mt cun sách nói v nhn dng mu.
HÌNH 20-1
Hình 20-1 Gim chiu bng phép chiếu
20.4. S PHÂN LỚP THỐNG
Trong phn này, chúng ta s xem xét mt vài phương pháp thng kê ph biến
được dùng cho phân lp.