
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thảo
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN
VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Hà Nội - 2013

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thảo
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN
VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Cẩm Tú
Cán bộ đồng hướng dẫn: ThS. Phạm Thị Ngân
Hà Nội - 2013

VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Thao Nguyen Thi
MULTI-LABEL CLASSICATION METHODS
VIETNAMESE DOCUMENTS
Major: Information Technology
Supervisor: Ph.D. Tu Nguyen Cam
Co-Supervisor: MSc. Ngan Pham Thi
HA NOI - 2013

i
Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo Hà
Quang Thụy, các chị, TS. Nguyễn Cẩm Tú và ThS. Phạm Thị Ngân đã tận tình chỉ bảo,
hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận.
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em bốn năm vừa qua.
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh
viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức
chuyên môn để hoàn thành tốt nghiệp khóa luận.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Dì, anh chị em trong gia đình
luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn; đặc
biệt là Mẹ nơi suối vàng luôn là động lực mỗi khi tôi gặp khó khăn trên đường đời.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp
K54CB, K54CLC và đặc biệt là các thành viên của phòng 214A-KTX Ngoại Ngữ đã
ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực
hiện đề tài khóa luận này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 15 tháng 05 năm 2013
Sinh viên
Nguyễn Thị Thảo

ii
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT
Nguyễn Thị Thảo
Khóa QH-2009-I/CQ, ngành công nghệ thông tin.
Tóm tắt Khóa luận tốt nghiệp:
Phân lớp đa nhãn là một trong những bài toán cơ bản và quan trọng của lĩnh vực xử lý
ngôn ngữ tự nhiên. Nó là một nghiên cứu đầy thách thức trong nhiều ứng dụng hiện đại: phân
loại âm nhạc [1], chức năng phân loại protein [2] [3] , phân loại ngữ nghĩa của hình ảnh [4] [5],
chú thích ảnh [6].
Khóa luận quan tâm nghiên cứu các giải pháp cho hai thách thức của bài toán phân lớp
đa nhãn: (1) các nhãn có mối liên hệ với nhau, (2) dữ liệu có kích thước vô cùng lớn. Để giải
quyết thách thức thứ (1) ngoài các phương pháp học đa nhãn MLL đơn giản như: Binary
relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), khóa luận nghiên cứu áp dụng các
thuật toán: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], trong đó có tích hợp
mối quan hệ đa nhãn vào phân lớp. Về thách thức (2), khóa luận áp dụng các phân phối chủ đề
từ mô hình chủ đề ẩn LDA [9] cho việc giảm số chiều đặc trưng đầu vào, sau đó kết hợp các
phương pháp học máy đa nhãn.
Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập các văn bản tiếng Việt ở website
(http://vnexpress.net/) với gần 3000 bài báo. Tính hiệu quả của các phương pháp kết hợp giảm
số chiều đặc trưng vận dụng mô hình LDA, bổ sung đặc trưng từ mô hình chủ đề ẩn LDA và
các phương pháp phân lớp đa nhãn MLL đã được đánh giá bằng thực nghiệm.
Từ khóa : multi-label, classification.

