HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
LƯU THANH TRÀ
NHẬN DIỆN CẢM XÚC TRONG VĂN BẢN TIẾNG
VIỆT BẰNG MÔ HÌNH HỌC SÂU
ĐỀ ÁN TỐT NGHIỆP THẠC KỸ THUẬT
(Theo định hướng ứng dng)
NỘI NĂM 2025
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
LƯU THANH TRÀ
NHẬN DIỆN CẢM XÚC TRONG VĂN BẢN TIẾNG VIỆT BẰNG
MÔ HÌNH HỌC SÂU
Chuyên ngành: Hệ thống thông tin
số: 8.48.01.04
ĐỀ ÁN TỐT NGHIỆP THẠC KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Quản Trọng Thế
NỘI 2025
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong đề án tốt nghiệp trung thực chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Sinh viên thực hiện
Lưu Thanh Trà
i
MC LC
DANH MC CÁC KÝ HIU, CÁC CH VIT TT ..................................................... iv
DANH MC BNG .......................................................................................................... vi
DANH MC HÌNH ........................................................................................................... vii
I. M ĐẦU .......................................................................................................................... 1
1. Lý do chn đề tài:.......................................................................................................... 1
2. Tng quan v vn đề nghiên cu: ................................................................................. 2
3. Mc đích nghiên cu: ................................................................................................... 3
5. Phương pháp nghiên cu: ............................................................................................. 6
II. NI DUNG ...................................................................................................................... 8
CHƯƠNG 1: TNG QUAN V NHN DIN CẢM XÚC TRONG VĂN BẢN............ 8
1.1 Tng quan v nghiên cu ........................................................................................... 8
1.1.1 Gii thiu bi cnh nghiên cu tm quan trng ca nhn din cm xúc trong
văn bản. ......................................................................................................................... 8
1.1.2 Tng quan v văn bản Tiếng Vit ........................................................................ 9
1.1.3 ng dng và thách thc ..................................................................................... 10
1.2 Khái nim cảm xúc trong văn bản và nhn din/phân tích cm xúc ........................ 10
1.2.1 Nhn din cm xúc (Sentiment Analysis) .......................................................... 10
1.2.2 Các mức độ phân tích cm xúc .......................................................................... 11
1.2.3 Thách thc trong nhn din cm xúc ................................................................. 11
1.3 Các công trình nghiên cu liên quan ........................................................................ 12
1.4 Tng quan mô hình hc sâu trong NLP ................................................................... 13
1.4.1 PhoBERT Mô hình ngôn ng tin hun luyn cho tiếng Vit ........................ 13
1.4.2 B phân loi tuyến tính Linear Classifier ....................................................... 14
ii
CHƯƠNG 2: XÂY DNG HUN LUYN HÌNH PHÂN TÍCH CM XÚC
TING VIT DA TRÊN PHOBERT ............................................................................. 15
2.1. Chun b d liu hun luyn ...................................................................................... 15
2.1.1. Ngun d liu ..................................................................................................... 15
2.1.2. Tin x lý văn bn ............................................................................................. 17
2.1.3. Cân bng tp d liu ......................................................................................... 17
2.2. Xây dng mô hình phân loi cm xúc s dng PhoBERT ..................................... 18
2.2.1. Lý do chn mô hình PhoBERT ......................................................................... 18
2.2.2. Cấu trúc mô hình đề xut .................................................................................. 18
2.2.3 Tin x lý và tokenizer ...................................................................................... 19
2.2.4 Datasets tùy chnh .............................................................................................. 19
2.3 Hun luyn mô hình ................................................................................................. 19
2.3.1. Thiết lp cu hình hun luyn ........................................................................... 19
2.3.2. To tp d liu và DataLoader .......................................................................... 22
2.3.3. Hun luyn qua các epoch ................................................................................ 23
2.3.4. Trin khai mô hình d đoán cảm xúc văn bn mi........................................... 25
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ MÔ HÌNH.............................................. 27
3.1. Cu hình thc nghim ............................................................................................. 27
3.1.1. Môi trường thc thi ........................................................................................... 27
3.1.2. Mô hình và thư viện s dng ............................................................................ 28
3.1.3. Cu hình siêu tham s ....................................................................................... 28
3.2. Kết qu hun luyn .................................................................................................. 29
3.2.1. Độ chính xác hun luyn và kiểm định ............................................................. 29
3.3. Đánh giá mô hình trên tập kim tra ......................................................................... 33