ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HÙNG
HƯỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY CHO BÀI
TOÁN TRÍCH XUẤT THÔNG TIN QUAN ĐIỂM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI 2017
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM HÙNG
HƯỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY CHO BÀI
TOÁN TRÍCH XUẤT THÔNG TIN QUAN ĐIỂM
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH
HÀ NỘI - 2017
LỜI CAM ĐOAN
Tôi Phm Hùng, hc viên lp K Thut Phn Mm K21 xin cam đoan báo cáo
luận văn y được viết bởi tôi dưới s ng dn ca thy giáo, tiến Nguyn Văn
Vinh. Tt c các kết qu đạt đưc trong lun văn y là quá trình tìm hiểu, nghiên cu
ca riêng tôi. Trong toàn b ni dung ca luận văn, những điều được trình y kết qu
ca nhân tôi hoặc được tng hp t nhiu ngun tài liu khác. Các tài liu tham
khảo đều có xut x ràng và được trích dn hp pháp.
Tôi xin hoàn toàn chu trách nhim chu mi hình thc k luật theo quy định
cho lời cam đoan của mình.
Hà Nội, ngày ….. tháng …… năm 2017
Người cam đoan
Phm Hùng
LI CẢM ƠN
Lời đầu tiên, tôi xin bày t s cảm ơn chân thành đối vi thy giáo TS. Nguyn
Văn Vinh giáo viên hướng dn trc tiếp ca tôi. Thy Vinh đã giúp tôi tiếp cn nhng
kiến thc v trí tu nhân to t nhng thuật toán bản đến nâng cao trong quá trình
nghiên cu và hoàn thin luận văn thạc sĩ.
Tôi cũng xin gi li cảm ơn tới các thy trong khoa Công ngh thông tin,
trường Đại hc Công Nghệ, Đại hc Quc gia Nội đã hướng dn, ch bo tạo điều
kin cho chúng tôi hc tp và nghiên cu tại trường trong sut thi gian qua.
Mc dù đã c gng hoàn thành lun văn nhưng chc chn s không tránh khi nhng
sai t, i nh mong nhn đưc s thông cm và ch bo ca các thy các bn.
Tôi xin chân thành cảm ơn.
MC LC
LI CẢM ƠN ...................................................................................................................... 2
MC LC ........................................................................................................................... 3
TÓM TT NI DUNG ....................................................................................................... 1
M ĐẦU ............................................................................................................................. 2
CHƯƠNG 1: TỔNG QUAN V BÀI TOÁN ..................................................................... 4
1.1 Khái niệm quan đim ................................................................................................. 4
1.2 Bài toán trích xut thông tin quan điểm .................................................................... 4
1.3 Các hướng tiếp cn và gii quyết bài toán ................................................................. 6
1.3.1 Mô hình Support Vector Machine ...................................................................... 7
1.3.2 K-nearest neighbors ............................................................................................ 9
CHƯƠNG 2: MẠNG NEURAL VÀ RNN ....................................................................... 10
2.1 Mng neural nhân to ANN .................................................................................... 10
2.1.1 Mạng nơ-ron sinh hc ....................................................................................... 10
2.1.2 Kiến trúc tng quát ca mng neural nhân to ................................................. 11
2.2 Mng neural hi quy RNN ..................................................................................... 14
2.3 Vấn đề lưu trữ thông tin ng cnh ph thuc lâu dài. ............................................. 16
2.4. Mng Long short-term memory ............................................................................. 17
CHƯƠNG 3: RNN CHO BÀI TOÁN TRÍCH XUẤT QUAN ĐIỂM .............................. 22
3.1 Bài toán trích xuất thông tin quan điểm s dng RNN ........................................... 22
3.2 Mt s phương pháp vector hóa từ .......................................................................... 22
3.2.1 Bag of Words .................................................................................................... 22
3.2.2 TF-IDF .............................................................................................................. 23
3.2.3 Word2vec.......................................................................................................... 24
3.3. Áp dng LSTM trong bài toán trích xuất thông tin quan điểm .............................. 28
3.3.1 Tin x lý kho ng liu .................................................................................... 29
3.3.2 Xây dng Word2vec ......................................................................................... 30
3.3.3 Model LSTM .................................................................................................... 30
CHƯƠNG 4: KẾT QU THC NGHIM ...................................................................... 32