ĐẠI HC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trn Th Minh Tươi
MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ
NG DNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TING VIT
KHÓA LUẬN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: H thống thông tin
HÀ NỘI - 2018
N
ĐẠI HC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGH
Trn Th Minh Tươi
MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ
NG DNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TING VIT
KHÓA LUẬN TT NGHIỆP ĐẠI HC H CHÍNH QUY
Ngành: H thống thông tin
Cán bộ ng dn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dn: TS. Phm Th Ngân
HÀ NỘI - 2018
i
LỜI CAM ĐOAN
Tôi xin cam đoan các kết qu được trình bày trong khóa luận này do tôi thực hiện dưới
s hướng dn ca PGS. TS. Hà Quang Thy TS. Phm Th Ngân.
Tt c nhng tham kho t các nghiên cứu liên quan đều được nêu ngun gc một cách
rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc
sao chép tài liệu, công trình nghiên cứu của người khác không chỉ về tài liệu tham
kho.
Hà Nội, ngày 26 tháng 04 năm 2018
Người cam đoan
Trn Th Minh Tươi
ii
LI CM ƠN
Đầu tiên, tôi xin được gi li cảm ơn sâu sắc nhất đến PGS. TS. Quang Thụy
TS. Phm Th Nn, nhng người đã trc tiếp tận tình chỉ bảo hướng dẫn tôi từ
những ngày đầu tiên bước chân o lĩnh vực nghiên cứu này. Thầy, Cô luôn là động lc
và nguồn cm hng ln lao giúp tôi giữ lửa đam mê và nỗ lực không ngừng trong sut
quá trình học tập và tham gia nghiên cu tại trường Đại học Công nghệ - Đại hc Quc
gia Hà Ni.
Tôi xin gửi li cảm ơn đến các quý Thầy, giáo thuộc trường Đại học Công
ngh - Đại hc Quốc gia Hà Nội nói chung, khoa Công ngh thông tin nói riêng, đã
truyền đạt nhiu kiến thức quý báu và tạo điều kin hc tp thun lợi cho tôi trong suốt
bốn năm đại hc.
Tôi cũng xin gi li cảm ơn chân thành đến các thầy giáo, các anh chị, các
bạn các em sinh viên thuộc phòng thí nghiệm Khoa hc d liệu ng nghệ tri
thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại hc Quốc gia Hà Ni,
đặc biệt là các thành viên thuộc nhóm nghiên cứu đã hỗ tr tôi rất nhiệt tình về c kiến
thức chuyên môn, vật cht và tinh thần để tôi có thể hoàn thành tốt khóa luận này.
Cuối cùng, tôi gửi li cảm ơn sâu sắc ti gia đình bạn bè của tôi, những người luôn
đồng hành, ng h và động viên tôi để tôi có thể vượt qua nhiu th thách và khó khăn
trong cuc sng.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 04 năm 2018
Sinh viên
Trn Th Minh Tươi
iii
TÓM TẮT
Tóm tắt: Hc máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dng
tri thc học được trong quá khứ cho vic hc hin ti, gii quyết được mt s vấn đề của các
hình học máy cô lập như: đòi hỏi một lượng lớn các ví dụ hc, ch phù hp với c nhim
v hẹp và xác định…
Mục đích chính của khóa luận nàynghiên cứu gii thut mô hình hóa chủ đề suốt đời
AMC (Z. Chen và B. Liu, 2014), qua đó đề xut một phương pháp mô hình hóa chủ đề suốt đời
học thiên mc min s dụng mô hình ch đề suốt đời vào bài toán phân lớp đa nhãn văn bản
tiếng Vit.
Phương pháp đ xut bao gồm hai pha chính: (1) hình hóa chủ đề suốt đời (2)
phân lớp đa nhãn. Ti pha th nht, ý tưởng cơ bản là chỉ s dụng các miền gn trong vic sinh
hình chủ đề. Các min gần được xác định thông qua mt độ tương tự gia hai ch đề. Ti
pha th hai, mt gii thuật phân lớp đa nhãn bán giám sát đưc s dụng để đánh giá đóng góp
của mô hình chủ đề đề xut trong phân lớp đa nhãn. Mô hình chủ đề sinh t pha (1) được dùng
để biu diễn đặc trưng trong phân lớp đa nhãn.
Một vài thực nghiệm được thc hiện trên miền d liu tiếng Vit mt gii thuật phân
lớp đa nhãn MULTICS (Pham và cộng s, 2017). D liu thc nghiệm được chia thành các tập
có kích thước t nh ti ln nhằm khai thác s ảnh hưởng của mô hình đề xuất lên một tp d
liu nh - vấn đề ý nghĩa quan trọng trong hc suốt đời. Các kịch bn thc nghim so sánh
hiu sut của phương pháp đề xut với các phương pháp mô hình chủ đề khác như LDA, AMC.
Kết qu thc nghim cho thy phương pháp đề xut tốt hơn phương pháp LDA và AMC trong
mọi trường hp.
T khóa: học máy suốt đời, ch đề suốt đời, min gn, ch đề gn, học thiên mức min, độ đo
tương tự ca hai túi từ, phân lớp đa nhãn