ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phm Huyn Trang
GII PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TING VIT TRONG ĐÁNH GIÁ SN PHM
DA TRÊN PHÂN LP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CM HAC
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2011
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Phm Huyn Trang
GII PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TING VIT TRONG ĐÁNH GIÁ SN PHM
DA TRÊN PHÂN LP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CM HAC
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: PGS.TS Hà Quang Thy
ThS Trn Mai Vũ
HÀ NI - 2011
i
Li cm ơn
Trước tiên, em xin bày t lòng biết ơn chân thành và sâu sc nht ti Thy giáo,
PGS-TS Hà Quang Thy và Thc s Trn Mai Vũ đã tn tình ch bo, hướng dn, động
viên, giúp đỡ em trong sut quá trình thc hin đề tài.
Em xin gi li cm ơn sâu sc ti quí Thy Cô trong Khoa Công ngh thông tin đã
truyn đạt kiến thc quí báu cho em trong nhng năm hc va qua.
Em cũng xin gi li cm ơn ti các anh ch, các bn và các em sinh viên trong
nhóm “Khai phá d liu” phòng thí nghim KT-Sislab đã giúp em rt nhiu trong vic h
tr kiến thc chuyên môn để hoàn thành tt khoá lun.
Xin cm ơn s h tr t đề tài QG.10.38 trong thi gian em thc hin khóa lun.
Con xin nói lên lòng biết ơn vô hn đối vi Cha M luôn là ngun chăm sóc, động
viên, khích l con trên mi bước đường hc vn ca con.
Cui cùng, xin chân thành cm ơn các Anh Ch và Bn Bè, đặc bit là các thành
viên lp K52CA và K52CHTTT đã ng h và giúp đỡ tôi trong sut thi gian tôi hc tp
trên ging đường đại hc và thc hin đề tài.
Tôi xin chân thành cm ơn !
Hà Ni, ngày 20 tháng 05 năm 2011
Sinh viên
Phm Huyn Trang
ii
Tóm tt ni dung
Khai phá quan đim da trên đặc trưng (FOM) là mt trong nhng bài toán khai
phá quan đim quan trng [5, 18, 23]. Đối vi mt sn phm, bài toán này tìm đến mc
câu đánh giá để phát hin các đặc trưng ca sn phm, và to ra mt bn tng kết quan
đim đánh giá theo tng đặc trưng đó. Tuy nhiên, trong văn bn đánh giá sn phm,
khách hàng thường dùng các t hoc cm t rt khác nhau để nói đến cùng mt đặc trưng
sn phm. Vì vy, để to ra mt bn tng kết có ý nghĩa, nhng t hoc cm t được coi
đồng nghĩa trên mt min sn phm cn đưc nhóm vào cùng mt nhóm đặc trưng
[27].
Da trên phương pháp phân lp bán giám sát gom nhóm đặc trưng sn phm ca
Zhongwu Zhai và cng s, 2010 [27], khóa lun đề xut mt gii pháp gom nhóm các đặc
trưng đồng nghĩa trong các đánh giá tiếng Vit da trên phân lp bán giám sát SVM-kNN
[17] và phân cm HAC.
Thc nghim trên min sn phm đin thoi di động trên website bán hàng trc
tuyến Thế gii di động (http://thegioididong.com) cho thy gii pháp gom nhóm đặc trưng
sn phm đồng nghĩa tiếng Vit do khóa lun đề xut có độ đo Purity là 0.68 và độ đo
Accuracy là 0.65. Kết qu trên cho thy phương pháp gom nhóm đặc trưng đồng nghĩa
tiếng Vit được khóa lun đề xut và trin khai là có tính hiu qu.
iii
Li cam đoan
Tôi xin cam đoan gii pháp gom nhóm đặc trưng đồng nghĩa tiếng Vit trong các
đánh giá sn phm da trên phân lp bán giám sát SVM-kNN và phân cm HAC được
trình bày trong khóa lun này do tôi thc hin dưới s hướng dn ca PGS. TS. Hà Quang
Thy và ThS. Trn Mai Vũ
Tt c nhng tham kho t các nghiên cu liên quan đều được nêu ngun gc mt
cách rõ ràng t danh mc tài liu tham kho trong khóa lun. Trong khóa lun, không có
vic sao chép tài liu, công trình nghiên cu ca người khác mà không ch rõ v tài liu
tham kho.
Hà Ni, ngày 20 tháng 05 năm 2011
Tác gi
Phm Huyn Trang