
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thị Minh Tươi
MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ
ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN
TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: TS. Phạm Thị Ngân
HÀ NỘI - 2018

i
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả được trình bày trong khóa luận này do tôi thực hiện dưới
sự hướng dẫn của PGS. TS. Hà Quang Thụy và TS. Phạm Thị Ngân.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách
rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc
sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham
khảo.
Hà Nội, ngày 26 tháng 04 năm 2018
Người cam đoan
Trần Thị Minh Tươi

ii
LỜI CẢM ƠN
Đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất đến PGS. TS. Hà Quang Thụy
và TS. Phạm Thị Ngân, những người đã trực tiếp tận tình chỉ bảo và hướng dẫn tôi từ
những ngày đầu tiên bước chân vào lĩnh vực nghiên cứu này. Thầy, Cô luôn là động lực
và nguồn cảm hứng lớn lao giúp tôi giữ lửa đam mê và nỗ lực không ngừng trong suốt
quá trình học tập và tham gia nghiên cứu tại trường Đại học Công nghệ - Đại học Quốc
gia Hà Nội.
Tôi xin gửi lời cảm ơn đến các quý Thầy, Cô giáo thuộc trường Đại học Công
nghệ - Đại học Quốc gia Hà Nội nói chung, và khoa Công nghệ thông tin nói riêng, đã
truyền đạt nhiều kiến thức quý báu và tạo điều kiện học tập thuận lợi cho tôi trong suốt
bốn năm đại học.
Tôi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo, các anh chị, các
bạn và các em sinh viên thuộc phòng thí nghiệm Khoa học dữ liệu và Công nghệ tri
thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội,
đặc biệt là các thành viên thuộc nhóm nghiên cứu đã hỗ trợ tôi rất nhiệt tình về cả kiến
thức chuyên môn, vật chất và tinh thần để tôi có thể hoàn thành tốt khóa luận này.
Cuối cùng, tôi gửi lời cảm ơn sâu sắc tới gia đình và bạn bè của tôi, những người luôn
đồng hành, ủng hộ và động viên tôi để tôi có thể vượt qua nhiều thử thách và khó khăn
trong cuộc sống.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 04 năm 2018
Sinh viên
Trần Thị Minh Tươi

iii
TÓM TẮT
Tóm tắt: Học máy suốt đời đang nổi lên trong những năm gần đây nhờ vào khả năng sử dụng
tri thức học được trong quá khứ cho việc học hiện tại, giải quyết được một số vấn đề của các
mô hình học máy cô lập như: đòi hỏi một lượng lớn các ví dụ học, chỉ phù hợp với các nhiệm
vụ hẹp và xác định…
Mục đích chính của khóa luận này là nghiên cứu giải thuật mô hình hóa chủ đề suốt đời
AMC (Z. Chen và B. Liu, 2014), qua đó đề xuất một phương pháp mô hình hóa chủ đề suốt đời
học thiên mức miền và sử dụng mô hình chủ đề suốt đời vào bài toán phân lớp đa nhãn văn bản
tiếng Việt.
Phương pháp đề xuất bao gồm hai pha chính: (1) mô hình hóa chủ đề suốt đời và (2)
phân lớp đa nhãn. Tại pha thứ nhất, ý tưởng cơ bản là chỉ sử dụng các miền gần trong việc sinh
mô hình chủ đề. Các miền gần được xác định thông qua một độ tương tự giữa hai chủ đề. Tại
pha thứ hai, một giải thuật phân lớp đa nhãn bán giám sát được sử dụng để đánh giá đóng góp
của mô hình chủ đề đề xuất trong phân lớp đa nhãn. Mô hình chủ đề sinh từ pha (1) được dùng
để biểu diễn đặc trưng trong phân lớp đa nhãn.
Một vài thực nghiệm được thực hiện trên miền dữ liệu tiếng Việt và một giải thuật phân
lớp đa nhãn MULTICS (Pham và cộng sự, 2017). Dữ liệu thực nghiệm được chia thành các tập
có kích thước từ nhỏ tới lớn nhằm khai thác sự ảnh hưởng của mô hình đề xuất lên một tập dữ
liệu nhỏ - vấn đề có ý nghĩa quan trọng trong học suốt đời. Các kịch bản thực nghiệm so sánh
hiệu suất của phương pháp đề xuất với các phương pháp mô hình chủ đề khác như LDA, AMC.
Kết quả thực nghiệm cho thấy phương pháp đề xuất tốt hơn phương pháp LDA và AMC trong
mọi trường hợp.
Từ khóa: học máy suốt đời, chủ đề suốt đời, miền gần, chủ đề gần, học thiên mức miền, độ đo
tương tự của hai túi từ, phân lớp đa nhãn


