1
Trang phbìa
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
NGUYN THẠC ĐAN THANH
KHAI PHÁ D LIU VT DUYT WEB
CHO TƯ VẤN CÁ NHÂN HÓA
Ngành: H thng thông tin
Chuyên ngành: H thng thông tin
Mã s: 60480104
LUẬN VĂN THẠC SĨ H THNG THÔNG TIN
NGƯỜI HƯỚNG DN KHOA HC: PGS. TS. Hà Quang Thy
Hà Ni - 2016
2
Lời cảm ơn
Trưc tiên, tôi xin gi li cảm ơn lòng biết ơn sâu sc nht ti thy giáo, Phó
Giáo sư Tiến sĩ Hà Quang Thụy, người đã tn tình ch bảo và hướng dn tôi trong sut
quá trình thc hiện đề tài luận văn.
Tôi xin gi li cm ơn tới Phòng Thí nghiệm DS&KTLab và Đề tài QG.15.22, các
thy, cô giáo trong Khoa Công ngh thông tin nói riêng trong trường Đại hc Công
ngh - Đại hc Quc Gia Nội nói chung, đã tận tình ging dy truyền đạt kiến
thc quý báu cho tôi trong sut quá trình hc tp.
Cui cùng, tôi mun gi li cảm ơn hạn ti gia đình và bn bè, nhng người đã
luôn bên cạnh và động viên tôi trong sut quá trình hc tập ng như qtrình thc hin
đề tài.
Tôi xin chân thành cảm ơn!
Hc viên
Nguyn Thạc Đan Thanh
3
Tóm tắt nội dung
H vấn (recommender system) đã tr thành mt trong nhng chu đê nghiên
cu quan trọng được ng dng cao trong thc tế. H vấn ra đơi nhăm đáp ng nhu
cầu vấn sn phm của thương mại điện t (e-commerce), ngày càng đươc ng dng
rô
ng rai trong hu hết các miên ư
ng dung đa da
ng như mng hi, các trang tin tc,
gii trí, du lịch,… Mt vài ng dng ni tiếng như: hệ vn sách, CDs ca Amazon,
h vn phim ca Netflix, MovieLens, gi ý kết bn ca Facebook,...Gi ý ni dung
phù hợp cho người dùng trên một website cũng một vấn đề đáng quan tâm ca các
nhà qun trang web hiện nay, đc bit là Vit Nam, khi mà h vấn vẫn chưa thực
s ph biến hoặc còn khá thô sơ trên hầu hết các website. Luận văn hướng ti xây dng
mt hình h vn ni dung trên các trang web tiếng Việt, đưa ra gi ý các URL
(trang web thanh phân) co nô
i dung đươc coi la phù hp vi tng nhân ngưi dùng
nht, da trên phân tích vết duyt web của người dùng.
Luận văn đề xut mô
t hình h tư vấn cng tác (collaborative recommendation)
cho các website tp chí Vit Nam dưa trên phương pháp biêu diên nôi dung trang web
theo hình ch đề n (Latent Dirichlet Allocation - LDA [1]). Nô
i dung cac trang web
tư
vết duyt web (“môi quan tâm trong qua khư
”) ca ngưi dùng đươc so sanh vơi nô
i
dung cac trang web hiê
n thơi va sau đó hê
thông đưa ra gợi ý cac trang web hiê
n thơi
(qua URL) php vi quan tâm của ngưi dùng. Thc nghim ban đầu ca h thng
cho kết qu kh quan.
T khóa: recommender system, collaborative, LDA
4
Lời cam đoan
Tôi xin cam đoan mô hình h vấn ni dung trên website và thc nghiệm được
trình bày trong lun văn là do tôi đề ra và thc hiện dưới s hướng dn ca PGS. TS Hà
Quang Thy.
Tt c các tài liu tham kho t các nghiên cứu liên quan đều ngun gc rõ
ràng t danh mc tài liu tham kho trong luận văn. Trong luận văn, không có vic sao
chép tài liu, công trình nghiên cu của người khác không ch v tài liu tham
kho.
Hà Ni, ngày tháng m 2016
Hc viên
Nguyn Thạc Đan Thanh
5
Mục lục
Trang ph bìa................................................................................................................. 1
Li cảm ơn ...................................................................................................................... 2
Tóm tt ni dung ........................................................................................................... 3
Lời cam đoan .................................................................................................................. 4
Mc lc ........................................................................................................................... 5
Danh sách bng .............................................................................................................. 7
Danh sách hình v .......................................................................................................... 8
Danh sách t viết tt ...................................................................................................... 9
Li m đầu ................................................................................................................... 10
Chương 1 H tư vấn và bài toán tư vấn ............................................................... 12
1.1 Gii thiu v h tư vấn ........................................................................................ 12
1.2 Bài toán tư vấn..................................................................................................... 14
1.3 Các kĩ thuật tư vấn ............................................................................................... 15
1.3.1 Kĩ thuật tư vấn da trên ni dung ................................................................. 15
1.3.2 Kĩ thuật tư vấn cng tác ................................................................................ 17
1.3.3 Kĩ thuật tư vấn da trên tri thc ................................................................... 19
1.3.4 Phương pháp lai ghép ................................................................................... 20
Chương 2 Khai phá d liu vết duyt web của người dùng cho h tư vn ...... 22
2.1 Phân loi d liệu profile người dùng ................................................................... 22
2.1.1 Thông tin đánh giá rõ ràng ........................................................................... 22
2.1.2 Thông tin đánh giá n ................................................................................... 23
2.2 S dng mô hình ch đ n LDA trên d liu vết duyt web ............................. 24
2.2.1 Khái quát mô hình ch đề n LDA ............................................................... 24
2.2.2 Mô hình LDA trong vic ưc lưng hng gi định cho mô hình tư vn ...... 27
2.3 Bài toán tư vấn ni dung trên mt website da trên vết duyt web của người
dùng ............................................................................................................................. 28
2.3.1 Phát biu bài toán ......................................................................................... 28