ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ng Huy Long
GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH
PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG
CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG
TƯ VẤN TIN TC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghthông tin
HÀ NỘI - 2010
Li cm ơn
Trưc tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến sĩ
Hà Quang Thy và Thc sĩ Trn Mai Vũ, ngưi đã tn tình ch bo và hưng dn tôi
trong sut quá trình thc hin khoá lun tt nghip.
i chân thành cm ơn các thy, cô đã to nhng điu kin thun li cho tôi hc tp và
nghiên cu ti trưng Đi Hc Công Ngh.
i cũng xin gi li cm ơn ti các anh ch và các bn sinh viên trong nhóm Khai phá
d liu đã giúp tôi rt nhiu trong vic h tr kiến thc chuyên môn đ hoàn thành tt
khoá lun.
Cui cùng, tôi mun gi li cm vô hn ti gia đình và bn bè, nhng ngưi thân yêu
luôn bên cnh và đng viên tôi trong sut quá trình thc hin khóa lun tt nghip.
i xin chân thành cm ơn!
Sinh viên
Uông Huy Long
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ng Huy Long
GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH
PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG
CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ
VẤN TIN TỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: ng nghệ thông tin
n bộ hướng dẫn: Th.S Trần Mai Vũ
HÀ NỘI - 2010
i
Lời cảm ơn
Trước tiên, tôi xin gi lời cảm ơn lòng biết ơn u sắc nhất tới Phó Giáo
Tiến Hà Quang Thy và Thạc Trần Mai , người đã tn tình chbo hướng
dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, đã tạo những điều kiện thuận lợi cho tôi học
tập và nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chvà các bạn sinh viên trong nhóm
“Khai phá d liệuđã giúp tôi rất nhiều trong việc h trợ kiến thức chuyên môn đ
hoàn thành tốt khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, nhng người thân
yêu luôn bên cạnh và động viên tôi trong suốt quá trình thc hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
ng Huy Long
ii
Tóm tắt
Vi sự phát trin của Internet, con người ngày nay không ch nhiều n hội
tiếp xúc với các nguồn cung cấp tin tức mà n th có được đúng lúc n. c tờ
báo điện tử Việt Nam cung cấp mỗi ngày hàng chục cho tới hàng trăm tin mới thuộc
nhiu nh vực khác nhau sẵn sàng đáp ứng các yêu cu mọi lúc, mọi nơi của người đọc.
Tuy nhn, bên cạnh những tiện ích, tồn tại nhng vấn đề cần được giải quyết như sự gia
tăng về số lượng, tính đa dạng về ni dung của tin tức ở các nguồn khác nhau, sự phù hợp
cá nhân,...Trong bối cảnh đó, sự giúp đỡ của một hệ thống tư vn tin tức là cần thiết, bằng
cách duyệt qua không gian các lựa chn, dự đoán các tin tức hữu ích tiềm năng với
từng người dùng cá nn.
Xây dựng hồ sơ s thích người dùng là một trong các thành phn cơ bản nht ca hệ
thống vấn. Tuy nhiên, những mô hình (như trong khảo t của Gauch cộng s[14] )
đang được sử dụng hiện nay vẫn tồn tại nhiều vấn đề chưa được giải quyết, ví dụ như: tính
nhập nhng ngữ nghĩa trong các hồ sơ dựa trên từ khóa, hoặc đòi hòi tng tin suy din từ
WordNet đểc định ngữ nghĩa trongc hồ sơ dựa trên mng ng nghĩa,...Thêm vào đó,
các giải pháp này còn thiếu khảng nh hợp mềm do các nhân t ngữ cảnh.
Khóa lun y trình bày một mô hình hthng tư vấn tin tc sử dụng một mô hình
s thích ngươi dùng mới. Dựa trên khai phá d liệu từ ngữ cảnh duyệt web của người
dùng, hthng coi sở thích của người s dụng là một kết hợp của tp c chủ đề n xuất
hiện phổ biến và tập các thc thể trong các tin tc người dùng từng quan tâm.
iii
Mc lục
Mở đầu .......................................................................................................................... 1
Chương 1. Khái quát về các hthống tư vấn .................................................................. 3
1.1. Bài toán tư vấn ............................................................................................... 3
1.2. Các kĩ thuậtvấn .......................................................................................... 5
1.2.1. Kĩ thuật tư vấn dựa trên nội dung ............................................................. 5
1.2.2. Kĩ thuật tư vấn cộng tác ........................................................................... 8
1.2.3. Kĩ thuật tư vấn lai................................................................................... 11
1.3. Sơ lược về hệ thống tư vấn tin tức ca khóa luận .......................................... 13
1.3.1. Đặc trưng của tư vấn tin tức. .................................................................. 13
1.3.2. Hướng tiếp cận của khóa luận ................................................................ 14
Chương 2. Mô hình hóa s thích ngưi dùng cho các htư vấn dựa trên nội dung. ...... 16
2.1. Tiến trình mô hình sở thích người dùng ........................................................ 16
2.2. Thu thập thông tin về người dùng ................................................................. 17
2.2.1. Phương pháp định danh người dùng ....................................................... 17
2.2.2. Các phương pháp thu thập thông tin ....................................................... 18
2.3. Xây dựng mô hình sthích người dùng ........................................................ 21
2.3.1. Phương pháp dựa trên từ khóa có trọng s.............................................. 21
2.3.2. Phương pháp dựa trên mạng ngữ nghĩa .................................................. 22
2.3.3. Phương pháp dựa trên cây phân cp khái niệm ....................................... 23
Chương 3. Mô hình ...................................................................................................... 24
3.1. Cơ sở lý thuyết ............................................................................................. 25
3.1.1. Phân tích thông tin chủ đề dựa trên mô hình ch đề LDA. ...................... 25
3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên tđiển ............................ 27
3.2. Phân tích sở tch người dùng ....................................................................... 28
3.2.1. Thông tin trong phn duyt web người dùng ......................................... 28
3.2.2. hình sthích người dùng ................................................................. 29
3.3. Áp dụng mô hình môi quan tâm người dùng vào tư vấn tin tức ..................... 30
3.3.1. Pha phân tích dữ liệu tư vn ................................................................... 30
3.3.2. Pha tư vấn trực tuyến ............................................................................. 33
3.4. Đánh giá kết quả tư vấn. ............................................................................... 36
Chương 4: Thc nghiệm đánh giá ........................................................................... 37