
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huyền Trang
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM
DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huyền Trang
GIẢI PHÁP GOM NHÓM ĐẶC TRƯNG ĐỒNG NGHĨA
TIẾNG VIỆT TRONG ĐÁNH GIÁ SẢN PHẨM
DỰA TRÊN PHÂN LỚP BÁN GIÁM SÁT SVM-KNN VÀ
PHÂN CỤM HAC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
ThS Trần Mai Vũ
HÀ NỘI - 2011

i
Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo,
PGS-TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động
viên, giúp đỡ em trong suốt quá trình thực hiện đề tài.
Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin đã
truyền đạt kiến thức quí báu cho em trong những năm học vừa qua.
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong
nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ
trợ kiến thức chuyên môn để hoàn thành tốt khoá luận.
Xin cảm ơn sự hỗ trợ từ đề tài QG.10.38 trong thời gian em thực hiện khóa luận.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động
viên, khích lệ con trên mỗi bước đường học vấn của con.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, đặc biệt là các thành
viên lớp K52CA và K52CHTTT đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập
trên giảng đường đại học và thực hiện đề tài.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 20 tháng 05 năm 2011
Sinh viên
Phạm Huyền Trang

ii
Tóm tắt nội dung
Khai phá quan điểm dựa trên đặc trưng (FOM) là một trong những bài toán khai
phá quan điểm quan trọng [5, 18, 23]. Đối với một sản phẩm, bài toán này tìm đến mức
câu đánh giá để phát hiện các đặc trưng của sản phẩm, và tạo ra một bản tổng kết quan
điểm đánh giá theo từng đặc trưng đó. Tuy nhiên, trong văn bản đánh giá sản phẩm,
khách hàng thường dùng các từ hoặc cụm từ rất khác nhau để nói đến cùng một đặc trưng
sản phẩm. Vì vậy, để tạo ra một bản tổng kết có ý nghĩa, những từ hoặc cụm từ được coi
là đồng nghĩa trên một miền sản phẩm cần được nhóm vào cùng một nhóm đặc trưng
[27].
Dựa trên phương pháp phân lớp bán giám sát gom nhóm đặc trưng sản phẩm của
Zhongwu Zhai và cộng sự, 2010 [27], khóa luận đề xuất một giải pháp gom nhóm các đặc
trưng đồng nghĩa trong các đánh giá tiếng Việt dựa trên phân lớp bán giám sát SVM-kNN
[17] và phân cụm HAC.
Thực nghiệm trên miền sản phẩm điện thoại di động trên website bán hàng trực
tuyến Thế giới di động (http://thegioididong.com) cho thấy giải pháp gom nhóm đặc trưng
sản phẩm đồng nghĩa tiếng Việt do khóa luận đề xuất có độ đo Purity là 0.68 và độ đo
Accuracy là 0.65. Kết quả trên cho thấy phương pháp gom nhóm đặc trưng đồng nghĩa
tiếng Việt được khóa luận đề xuất và triển khai là có tính hiệu quả.

iii
Lời cam đoan
Tôi xin cam đoan giải pháp gom nhóm đặc trưng đồng nghĩa tiếng Việt trong các
đánh giá sản phẩm dựa trên phân lớp bán giám sát SVM-kNN và phân cụm HAC được
trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang
Thụy và ThS. Trần Mai Vũ
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có
việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu
tham khảo.
Hà Nội, ngày 20 tháng 05 năm 2011
Tác giả
Phạm Huyền Trang

