
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG
TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công nghệ thông tin
HÀ NỘI - 2012

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG
TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công Nghệ Thông Tin
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2012

VIETNAMNATIONALUNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Thom Phan Thi
FEATURES ENRICHING AND SELECTING
IN MULTI-LABEL CLASSIFICATION
IN REPUTATION MANAGEMENT
Major: Information of Technology
Supervisor:Assoc. Prof. Thuy Ha Quang
Co-Supervisor:MSC. Vu Tran Mai
HA NOI, 2012

Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo,
PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn,
động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận.
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em trong bốn năm học vừa qua.
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh
viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến
thức chuyên môn để hoàn thành tốt khóa luận.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên,
chăm sóc và khích lệ con trên mỗi bước đường học vấn.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp
K53CB, K53CLC và đặc biệt là các thành viên của phòng 420C-KTX Ngoại Ngữ đã
ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực
hiện đề tài khóa luận này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 15 tháng 05 năm 2012
Sinh viên
Phan Thị Thơm

LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ
ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG
Phan Thị Thơm
Khóa QH-2008-I/CQ, ngành công nghệ thông tin.
Tóm tắt Khóa luận tốt nghiệp:
Hệ thống quản lý danh tiếng là một chủ đề khoa học công nghệ thu hút sự quan tâm trên
thế giới. Hệ thống quản lý danh tiếng tiến hành thu thập ý kiến nhận xét của người dùng, phân
tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm cung cấp cho
người dùng và công ty. Nhận xét của người dùng thường đề cập tới nhiều khía cạnh của công
ty sản phNm nên chúng là những dữ liệu đa nhãn. Vì vậy, một trong các vấn đề trọng tâm của
hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn.
Bài toán phân lớp dữ liệu đa nhãn có đặc điểm là số lượng đặc trưng lớn [2]. Việc tạo
lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả
của thuật toán phân lớp đa nhãn. Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc
trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và
Michel Verleysen, 2007 [3].
Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về
1000 khách sạn ở Việt Nam ở website (http://chudu24.com ). Kết quả thu được cho thấy giải
pháp kết hợp đặc trưng đã cải thiện kết quả phân lớp đa nhãn.
Từ khóa : reputation management, multi-label, classification, feature selection.