
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Uông Huy Long
GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH
PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG
CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG
TƯ VẤN TIN TỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ
Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và
nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá
dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt
khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Uông Huy Long
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Uông Huy Long
GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH
PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG
CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ
VẤN TIN TỨC
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Th.S Trần Mai Vũ
HÀ NỘI - 2010

i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng
dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học
tập và nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm
“Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để
hoàn thành tốt khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Uông Huy Long

ii
Tóm tắt
Với sự phát triển của Internet, con người ngày nay không chỉ có nhiều hơn cơ hội
tiếp xúc với các nguồn cung cấp tin tức mà còn có thể có được nó đúng lúc hơn. Các tờ
báo điện tử ở Việt Nam cung cấp mỗi ngày hàng chục cho tới hàng trăm tin mới thuộc
nhiều lĩnh vực khác nhau sẵn sàng đáp ứng các yêu cầu mọi lúc, mọi nơi của người đọc.
Tuy nhiên, bên cạnh những tiện ích, tồn tại những vấn đề cần được giải quyết như sự gia
tăng về số lượng, tính đa dạng về nội dung của tin tức ở các nguồn khác nhau, sự phù hợp
cá nhân,...Trong bối cảnh đó, sự giúp đỡ của một hệ thống tư vấn tin tức là cần thiết, bằng
cách duyệt qua không gian các lựa chọn, nó dự đoán các tin tức hữu ích tiềm năng với
từng người dùng cá nhân.
Xây dựng hồ sơ sở thích người dùng là một trong các thành phần cơ bản nhất của hệ
thống tư vấn. Tuy nhiên, những mô hình (như trong khảo sát của Gauch và cộng sự [14] )
đang được sử dụng hiện nay vẫn tồn tại nhiều vấn đề chưa được giải quyết, ví dụ như: tính
nhập nhằng ngữ nghĩa trong các hồ sơ dựa trên từ khóa, hoặc đòi hòi thông tin suy diễn từ
WordNet để xác định ngữ nghĩa trong các hồ sơ dựa trên mạng ngữ nghĩa,...Thêm vào đó,
các giải pháp này còn thiếu khả năng tính hợp mềm dẻo các nhân tố ngữ cảnh.
Khóa luận này trình bày một mô hình hệ thống tư vấn tin tức sử dụng một mô hình
sở thích ngươi dùng mới. Dựa trên khai phá dữ liệu từ ngữ cảnh duyệt web của người
dùng, hệ thống coi sở thích của người sử dụng là một kết hợp của tập các chủ đề ẩn xuất
hiện phổ biến và tập các thực thể trong các tin tức người dùng từng quan tâm.

iii
Mục lục
Mở đầu .......................................................................................................................... 1
Chương 1. Khái quát về các hệ thống tư vấn .................................................................. 3
1.1. Bài toán tư vấn ............................................................................................... 3
1.2. Các kĩ thuật tư vấn .......................................................................................... 5
1.2.1. Kĩ thuật tư vấn dựa trên nội dung ............................................................. 5
1.2.2. Kĩ thuật tư vấn cộng tác ........................................................................... 8
1.2.3. Kĩ thuật tư vấn lai................................................................................... 11
1.3. Sơ lược về hệ thống tư vấn tin tức của khóa luận .......................................... 13
1.3.1. Đặc trưng của tư vấn tin tức. .................................................................. 13
1.3.2. Hướng tiếp cận của khóa luận ................................................................ 14
Chương 2. Mô hình hóa sở thích người dùng cho các hệ tư vấn dựa trên nội dung. ...... 16
2.1. Tiến trình mô hình sở thích người dùng ........................................................ 16
2.2. Thu thập thông tin về người dùng ................................................................. 17
2.2.1. Phương pháp định danh người dùng ....................................................... 17
2.2.2. Các phương pháp thu thập thông tin ....................................................... 18
2.3. Xây dựng mô hình sở thích người dùng ........................................................ 21
2.3.1. Phương pháp dựa trên từ khóa có trọng số.............................................. 21
2.3.2. Phương pháp dựa trên mạng ngữ nghĩa .................................................. 22
2.3.3. Phương pháp dựa trên cây phân cấp khái niệm ....................................... 23
Chương 3. Mô hình ...................................................................................................... 24
3.1. Cơ sở lý thuyết ............................................................................................. 25
3.1.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA. ...................... 25
3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển ............................ 27
3.2. Phân tích sở thích người dùng ....................................................................... 28
3.2.1. Thông tin trong phiên duyệt web người dùng ......................................... 28
3.2.2. Mô hình sở thích người dùng ................................................................. 29
3.3. Áp dụng mô hình môi quan tâm người dùng vào tư vấn tin tức ..................... 30
3.3.1. Pha phân tích dữ liệu tư vấn ................................................................... 30
3.3.2. Pha tư vấn trực tuyến ............................................................................. 33
3.4. Đánh giá kết quả tư vấn. ............................................................................... 36
Chương 4: Thực nghiệm và đánh giá ........................................................................... 37

