ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Tho
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN
VĂN BẢN TING VIT
KHÓA LUN TT NGHIỆP ĐẠ HC H CHÍNH QUY
Ngành: Công ngh thông tin
Hà Ni - 2013
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Th Tho
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN
VĂN BẢN TING VIT
KHÓA LUN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b ng dn: TS. Nguyn Cm
Cán b đồng hướng dn: ThS. Phm Th Ngân
Hà Ni - 2013
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Thao Nguyen Thi
MULTI-LABEL CLASSICATION METHODS
VIETNAMESE DOCUMENTS
Major: Information Technology
Supervisor: Ph.D. Tu Nguyen Cam
Co-Supervisor: MSc. Ngan Pham Thi
HA NOI - 2013
i
Li cảm ơn
Trưc tiên, em xin bày t lòng biết ơn chân thành sâu sc ti Thy giáo
Quang Thy, các ch, TS. Nguyn Cm và ThS. Phm Th Ngân đã tận tình ch bo,
hướng dẫn, động viên và giúp đ em trong sut quá trình thc hiện đề tài khóa lun.
Em xin gi li cm ơn sâu sắc ti các Thy Cô trong Khoa Công ngh thông tin
đã truyền đạt kiến thc quý báu cho em bốn năm vừa qua.
Em cũng xin gửi li cm ơn ti các thy cô, các anh ch, các bn và các em sinh
viên trong phòng thí nghim KT-Sislab đã giúp em rất nhiu trong vic h tr kiến thc
chuyên môn để hoàn thành tt nghip khóa lun.
Con xin nói lên lòng biết ơn hạn đối vi Cha Dì, anh ch em trong gia đình
luôn là ngun động viên, chăm sóc và khích lệ con trên mỗi bước đường hc vấn; đặc
bit là M nơi suối vàng luôn là động lc mi khi tôi gặp khó khăn trên đường đời.
Cui cùng, xin chân thành cm ơn các Anh Chị Bn Bè, các thành viên lp
K54CB, K54CLC đặc bit các thành viên ca phòng 214A-KTX Ngoi Ng đã
ng hộ, giúp đ tôi trong sut thi gian tôi hc tp trên giảng đường đại hc thc
hiện đề tài khóa lun này.
Tôi xin chân thành cảm ơn!
Hà Ni, ngày 15 tháng 05 m 2013
Sinh viên
Nguyn Th Tho
ii
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TING VIT
Nguyn Th Tho
Khóa QH-2009-I/CQ, ngành công ngh thông tin.
Tóm tt Khóa lun tt nghip:
Phân lớp đa nhãn mt trong những bài toán bản quan trng của nh vực x
ngôn ng t nhiên. mt nghiên cứu đầy thách thc trong nhiu ng dng hiện đại: phân
loi âm nhc [1], chc ng phân loại protein [2] [3] , phân loi ng nghĩa của hình nh [4] [5],
chú thích nh [6].
Khóa lun quan tâm nghiên cu các gii pháp cho hai thách thc ca bài toán phân lp
đa nhãn: (1) các nhãn mi liên h vi nhau, (2) d liệu kích thước cùng ln. Để gii
quyết thách thc th (1) ngoài các phương pháp học đa nhãn MLL đơn giản như: Binary
relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), khóa lun nghiên cu áp dng các
thut toán: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], trong đó tích hợp
mi quan h đa nhãn vào phân lớp. V thách thc (2), khóa lun áp dng các phân phi ch đề
t hình ch đề n LDA [9] cho vic gim s chiều đặc trưng đầu vào, sau đó kết hp các
phương pháp học máy đa nhãn.
Khóa lun thi hành thc nghim trên min d liu là tập các văn bản tiếng Vit website
(http://vnexpress.net/) vi gn 3000 bài báo. Tính hiu qu của các phương pháp kết hp gim
s chiều đặc trưng vận dng hình LDA, b sung đặc trưng từ hình ch đề n LDA và
các phương pháp phân lớp đa nhãn MLL đã được đánh giá bằng thc nghim.
T khóa : multi-label, classification.