ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Lê Thu Hà
PHÂN LP QUAN ĐIM THEO CH ĐỀ DA VÀO
CHUI CON VÀ CÂY CON PH THUC TRÊN
MIN TIN TC TÀI CHÍNH
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUI
Ngành: Công ngh thông tin
HÀ NI - 2011
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Lê Thu Hà
PHÂN LP QUAN ĐIM THEO CH ĐỀ DA VÀO
CHUI CON VÀ CÂY CON PH THUC TRÊN
MIN TIN TC TÀI CHÍNH
KHÓA LUN TT NGHIP ĐẠI HC H CHÍNH QUI
Ngành: Công ngh thông tin
Cán b hướng dn: ThS. Nguyn Thu Trang
HÀ NI - 2011
i
Li cm ơn
Trước tiên, em mun gi li cm ơn sâu sc nht đến thy giáo, Phó Giáo sư Tiến
sĩ. Quang Thy, Thc s Nguyn Thu Trang C nhân Hoàng Qunh, nhng
người đã tn tình hướng dn em trong sut quá trình nghiên cu Khoa hc m khóa
lun tt nghip.
Em xin y t li cm ơn sâu sc đến nhng thy giáo đã ging dy em trong
bn năm qua, nhng kiến thc em nhn được trên ging đường đại hc s hành
trang giúp em vng bưc trong tương lai.
Em cũng mun gi li cm ơn đến các anh ch các bn trong nhóm seminar v
“Khai phá d liu” đã giúp đỡ cho em nhng li khuyên b ích v chuyên môn trong
quá trình nghiên cu.
Cui cùng, em mun gi li cm ơn sâu sc đến tt c bn bè, đặc bit cha
m anh trai, nhng người luôn kp thi động viên giúp đỡ em vưt qua nhng khó
khăn trong cuc sng.
Sinh Viên
Lê Thu Hà
ii
Tóm tt
Phân lp quan đim mt i toán quan trng trong khai phá quan đim. Bài
toán phân tích các đánh giá cho mt ch đề nht định, hoc s kin , sn phNm để t động
phân loi đánh giá theo hai hưng tích cc hay tiêu cc ca quan đim. Vi s phát trin
nhanh chóng ca các ng dng internet, phân lp quan đim cn thiết để giúp người dùng
và nhà sn xut nhanh chóng xác đnh quan đim ca khách hàng t thông tin bình lun.
rt nhiu phương pháp phân lp quan đim nhưng ch yếu theo hai hướng
chính : phương pháp hc máy phương pháp hướng ng nghĩa da vào độ đo thông tin
(PMI). Khóa lun này trình bày phương pháp tiếp cn hc máy bng cách s dng các
mi quan h pháp gia t trong câu cho phân lp quan đim. Phương pháp s dng tn
sut ca chui t con y con ph thuc làm đc trưng ca máy h tr vector(SVM).
Thc nghim trên d liu min tin tc tài chính vi 312 bình lun trên 180 bài báo cho
độ chính xác cao nht là 72%.
iii
Li cam đoan
Tôi xin cam đoan khóa lun “Phân lp quan đim theo ch đề da vào chui con
cây con ph thuc trên min tin tc tài chính " dưới s hướng dn ca Thc s Nguyn
Thu Trang c nhân Hoàng Qunh công trình nghiên cu ca riêng tôi. c s
liu, kết qu được trình y trong khóa lun hoàn toàn trung thc chưa tng được
công b trong bt k mt công trình nào khác.
Tôi đã trích dn đầy đủ các tài liu tham kho, công trình nghiên cu liên quan
trong nước quc tế. Ngoi tr các tài liu tham kho y, khóa lun hoàn toàn công
vic ca riêng tôi.
Khóa lun được hoàn thành trong thi gian tôi làm Sinh viên ti B môn Các h
thng thông tin, Khoa Công ngh Thông tin, Trường Đại hc Công ngh, Đại hc Quc
gia Hà Ni.
Hà Ni, ngày 25 tháng 05 năm 2011
Sinh viên
Lê Thu Hà