Sn d
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
HÀ NI - 2009
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Hu Phương
QUNG CÁO TRC TUYN HƯỚNG CÂU TRUY
VN VI S GIÚP ĐỠ CA PHÂN TÍCH CH ĐỀ
VÀ K THUT TÍNH HNG
ĐẠI HC QUC GIA HÀ NI
TRƯỜNG ĐẠI HC CÔNG NGH
Nguyn Hu Phương
QUNG CÁO TRC TUYN HƯỚNG CÂU TRUY
VN VI S GIÚP ĐỠ CA PHÂN TÍCH CH ĐỀ
VÀ K THUT TÍNH HNG
KHOÁ LUN TT NGHIP ĐẠI HC H CHÍNH QUY
Ngành: Công ngh thông tin
Cán b hướng dn: PGS. TS. Hà Quang Thy
Cán b đồng hướng dn: CN. Nguyn Minh Tun
HÀ NI - 2009
Li cm ơn
Trước tiên, tôi xin gi li cm ơn và lòng biết ơn sâu sc nht ti Phó Giáo sư Tiến sĩ
Quang Thy và C nhân Nguyn Minh Tun, người đã tn tình ch bo và hướng dn tôi
trong sut quá trình thc hin khoá lun tt nghip.
Tôi chân thành cm ơn các thy, cô đã to cho tôi nhng điu kin thun li để hc tp và
nghiên cu ti trường Đại Hc Công Ngh.
Tôi cũng xin gi li cm ơn ti các anh ch và các bn sinh viên trong nhóm “Khai phá d
liu” đã giúp đỡ và h tr tôi rt nhiu v kiến thc chuyên môn và trong vic thu thp d
liu.
Cui cùng, tôi mun gi li cm vô hn ti gia đình và bn bè, nhng người thân yêu
luôn bên cnh và động viên tôi trong sut quá trình thc hin khóa lun tt nghip.
Tôi xin chân thành cm ơn !
Sinh viên
Nguyn Hu Phương
Tóm tt
Qung cáo trên máy tìm kiếm hin đang là hình thc qung cáo thu hút được nhiu
s chú ý nht ngày nay, trong đó các qung cáo được hin thn cnh kết qu tìm kiếm
theo truy vn ca người dùng. Điu này dn đến mt bài toán là làm thế nào để hin th
nhng qung cáo phù hp nht vi truy vn.
Khóa lun này tp trung nghiên cu các phương pháp xếp hng qung cáo trên máy
tìm kiếm theo độ phù hp vi truy vn, đề xut mô hình qung cáo s dng phân tích ch
đề n và kĩ thut tính hng. Đồng thi đưa ra phương pháp biu din các qung cáo theo
nhng đặc trưng mi, đặc trưng v ch đề n. Tiến hành thc nghim da trên vic s
dng query logs trong xây dng tp d liu hc, mô hình đã khai thác được các thông tin
hu ích t hành vi người dùng và đem li kết qu khá kh quan. Độ chính xác trung bình
ca kết qu xếp hng vào khong 82%-84%.
Mc lc
Li m đầu....................................................................................................................................... 1
Chương 1. Khái quát v qung cáo trc tuyến ................................................................................ 3
1.1. Gii thiu v qung cáo .................................................................................................... 3
1.2. Qung cáo trc tuyến ........................................................................................................ 4
1.2.1. Tc độ tăng trưởng và th phn .................................................................................. 4
1.2.2. Các hình thc qung cáo trc tuyến .......................................................................... 5
1.3. Qung cáo trc tuyến Vit Nam .................................................................................... 6
1.3.1. Tng quan v qung cáo trc tuyến Vit Nam ....................................................... 7
1.3.2. Nhng tài nguyên chưa được khai thác và th trường qung cáo trc tuyến ........... 10
1.4. Qung cáo thông qua tìm kiếm ....................................................................................... 13
Chương 2. Các phương pháp qung cáo thông qua tìm kiếm ....................................................... 16
2.1. Mô hình trích xut t khóa trong ni dung trang web .................................................... 16
2.2. Mô hình so khp vi tp t vng m rng (impedance coupling) ................................. 17
2.3. Mô hình ti ưu xếp hng vi thut toán di truyn (Genetic Programming) ................... 18
2.4. Mô hình qung cáo s dng phn hi liên quan ............................................................. 19
2.5. Mô hình ước lượng CTR (Click Through Rate) ............................................................. 21
2.6. Mô hình tìm kiếm và xếp hng s dng ch đề n trong qung cáo theo ng cnh ....... 22
Chương 3. H thng qung cáo trc tuyến s dng xếp hng và ch đề n ................................. 25
3.1 Xếp hng ......................................................................................................................... 25
3.1.1 Xếp hng trong máy tìm kiếm ................................................................................. 25
3.1.2 Hc xếp hng và SVM Rank ................................................................................... 26
3.1.3 Các phương pháp đánh giá xếp hng ....................................................................... 30
3.2 Ch đề n ........................................................................................................................ 33
3.2.1 Latent Dirichlet Allocation (LDA) .......................................................................... 34
3.2.2 Mô hình sinh trong LDA ......................................................................................... 35
3.2.3 Ước lượng tham s và suy lun ............................................................................... 36
3.3 Mô hình qung cáo trc tuyến hướng câu truy vn vi s giúp đỡ ca phân tích ch đề
và k thut tính hng ................................................................................................................. 39
3.3.1 Mô t bài toán .......................................................................................................... 39
3.3.2 Mô hình tng quan ................................................................................................... 40
3.3.3 Xác định đặc trưng cho mô hình ............................................................................. 41
Chương 4. Thc nghim và đánh giá ............................................................................................ 43
4.1. D liu ............................................................................................................................ 43
4.2. Môi trường thc nghim ................................................................................................. 43
4.2.1 Cu hình phn cng ..................................................................................................... 43
4.2.2 Các công c được s dng ........................................................................................... 44
4.3. Quá trình thc nghim .................................................................................................... 45
4.3.1. Tin x lý d liu ........................................................................................................ 45
4.3.2. Thu thp thông tin t các URL có được ...................................................................... 46
4.3.3. Véc tơ hóa d liu ........................................................................................................ 47
4.3.4. Thiết kế thc nghim ................................................................................................... 47
4.4. Kết qu thc nghim ....................................................................................................... 48
4.5. Đánh giá kết qu thc nghim ........................................................................................ 50