ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HÙNG
HƢỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY CHO BÀI
TOÁN TRÍCH XUẤT THÔNG TIN QUAN ĐIỂM
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH
HÀ NỘI - 2017
1
LỜI CAM ĐOAN
Tôi Phm Hùng, hc viên lp K Thut Phn Mm K21 xin cam đoan báo cáo
luận văn y đƣợc viết bởi tôi dƣới s hƣớng dn ca thy giáo, tiến Nguyn Văn
Vinh. Tt c các kết qu đạt đƣc trong luận văn y là quá trình tìm hiu, nghiên cu
ca riêng tôi. Trong toàn b ni dung ca lun văn, những điều đƣợc trình y kết qu
ca nhân tôi hoặc đƣợc tng hp t nhiu ngun tài liu khác. Các tài liu tham
khảo đều có xut x ràng và đƣợc trích dn hp pháp.
Tôi xin hoàn toàn chu trách nhim chu mi hình thc k luật theo quy định
cho lời cam đoan của mình.
Hà Nội, ngày ….. tháng …… năm 2017
Ngƣời cam đoan
Phm Hùng
2
MC LC
MC LC ........................................................................................................................... 2
TÓM TT NI DUNG ....................................................................................................... 5
M ĐẦU ............................................................................................................................. 6
CHƢƠNG 1: TỔNG QUAN V BÀI TOÁN ..................................................................... 7
1.1 Khái niệm quan điểm ................................................................................................. 7
1.2 Bài toán trích xuất thông tin quan điểm .................................................................... 7
1.3 Các hƣớng tiếp cn và gii quyết bài toán ................................................................. 7
1.3.1 Mô hình Support Vector Machine ...................................................................... 7
1.3.2 K-nearest neighbors ............................................................................................ 7
CHƢƠNG 2: MẠNG NEURAL VÀ RNN ......................................................................... 8
2.1 Mng neural nhân to ANN ...................................................................................... 8
2.1.1 Mạng nơ-ron sinh hc ......................................................................................... 8
2.1.2 Kiến trúc tng quát ca mng neural nhân to ................................................... 8
2.2 Mng neural hi quy RNN ....................................................................................... 8
2.3 Vấn đề lƣu trữ thông tin ng cnh ph thuc lâu dài. ............................................... 8
2.4. Mng Long short-term memory ............................................................................... 8
CHƢƠNG 3: RNN CHO BÀI TOÁN TRÍCH XUẤT QUAN ĐIỂM ................................ 9
3.1 Bài toán trích xuất thông tin quan điểm s dng RNN ............................................. 9
3.2 Mt s phƣơng pháp vector hóa t ............................................................................ 9
3.2.1 Bag of Words ...................................................................................................... 9
3.2.2 TF-IDF ................................................................................................................ 9
3.2.3 Word2vec............................................................................................................ 9
3.3. Áp dng LSTM trong bài toán trích xuất thông tin quan điểm ................................ 9
CHƢƠNG 4: KẾT QU THC NGHIM ...................................................................... 10
4.1 B ng liu .............................................................................................................. 10
4.1.1 B ng liu tiếng Anh (Food Reviews) ............................................................ 10
4.1.2 B ng liu tiếng Vit ...................................................................................... 10
4.2 Cài đặt và th nghim .............................................................................................. 11
3
4.2.1 Bƣớc tin x ................................................................................................. 11
4.2.2 Xây dng model Word2vec .............................................................................. 12
4.2.3 Word Embedding .............................................................................................. 13
4.2.4 Hun luyn mô hình LSTM .............................................................................. 14
4.2.5 Cài đặt mt s phƣơng pháp học có giám sát kinh đin ................................... 17
4.3 Kết qu trích xuất thông tin quan điểm ................................................................... 18
4.3.1 Mt s th nghim và kết qu trên b ng liu tiếng Anh ............................... 18
4.3.2 Mt s th nghim và kết qu trên b ng liu tiếng Vit ............................... 19
4.4 Nhn xét ................................................................................................................... 20
CHƢƠNG 5: KẾT LUN ................................................................................................. 21
TÀI LIU THAM KHO ................................................................................................. 22
4
BNG CÁC T VIT TT
Viết tt
Đầy đủ
Ý nghĩa
RNN
Recurrent Neural Network
Mng neural hi quy
ANN
Artificial Neural Network
Mng neural nhân to
NLP
Natural Language Processing
X lý ngôn ng t nhiên
LSTM
Long short-term memory
Mng neural ci tiến gii quyết vn
đề ph thuc t quá dài
CNN
Convolutional Neural network
Mng neural tích chp
SVM
Support Vector Machine
Máy vector h tr