
Sn d
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Hữu Phương
QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY
VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ
VÀ KỸ THUẬT TÍNH HẠNG

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Hữu Phương
QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY
VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ
VÀ KỸ THUẬT TÍNH HẠNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: CN. Nguyễn Minh Tuấn
HÀ NỘI - 2009

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Cử nhân Nguyễn Minh Tuấn, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và
nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ
liệu” đã giúp đỡ và hỗ trợ tôi rất nhiều về kiến thức chuyên môn và trong việc thu thập dữ
liệu.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !
Sinh viên
Nguyễn Hữu Phương

Tóm tắt
Quảng cáo trên máy tìm kiếm hiện đang là hình thức quảng cáo thu hút được nhiều
sự chú ý nhất ngày nay, trong đó các quảng cáo được hiển thị bên cạnh kết quả tìm kiếm
theo truy vấn của người dùng. Điều này dẫn đến một bài toán là làm thế nào để hiển thị
những quảng cáo phù hợp nhất với truy vấn.
Khóa luận này tập trung nghiên cứu các phương pháp xếp hạng quảng cáo trên máy
tìm kiếm theo độ phù hợp với truy vấn, đề xuất mô hình quảng cáo sử dụng phân tích chủ
đề ẩn và kĩ thuật tính hạng. Đồng thời đưa ra phương pháp biểu diễn các quảng cáo theo
những đặc trưng mới, đặc trưng về chủ đề ẩn. Tiến hành thực nghiệm dựa trên việc sử
dụng query logs trong xây dựng tập dữ liệu học, mô hình đã khai thác được các thông tin
hữu ích từ hành vi người dùng và đem lại kết quả khá khả quan. Độ chính xác trung bình
của kết quả xếp hạng vào khoảng 82%-84%.

Mục lục
Lời mở đầu....................................................................................................................................... 1
Chương 1. Khái quát về quảng cáo trực tuyến ................................................................................ 3
1.1. Giới thiệu về quảng cáo .................................................................................................... 3
1.2. Quảng cáo trực tuyến ........................................................................................................ 4
1.2.1. Tốc độ tăng trưởng và thị phần .................................................................................. 4
1.2.2. Các hình thức quảng cáo trực tuyến .......................................................................... 5
1.3. Quảng cáo trực tuyến ở Việt Nam .................................................................................... 6
1.3.1. Tổng quan về quảng cáo trực tuyến ở Việt Nam ....................................................... 7
1.3.2. Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến ........... 10
1.4. Quảng cáo thông qua tìm kiếm ....................................................................................... 13
Chương 2. Các phương pháp quảng cáo thông qua tìm kiếm ....................................................... 16
2.1. Mô hình trích xuất từ khóa trong nội dung trang web .................................................... 16
2.2. Mô hình so khớp với tập từ vựng mở rộng (impedance coupling) ................................. 17
2.3. Mô hình tối ưu xếp hạng với thuật toán di truyền (Genetic Programming) ................... 18
2.4. Mô hình quảng cáo sử dụng phản hồi liên quan ............................................................. 19
2.5. Mô hình ước lượng CTR (Click Through Rate) ............................................................. 21
2.6. Mô hình tìm kiếm và xếp hạng sử dụng chủ đề ẩn trong quảng cáo theo ngữ cảnh ....... 22
Chương 3. Hệ thống quảng cáo trực tuyến sử dụng xếp hạng và chủ đề ẩn ................................. 25
3.1 Xếp hạng ......................................................................................................................... 25
3.1.1 Xếp hạng trong máy tìm kiếm ................................................................................. 25
3.1.2 Học xếp hạng và SVM Rank ................................................................................... 26
3.1.3 Các phương pháp đánh giá xếp hạng ....................................................................... 30
3.2 Chủ đề ẩn ........................................................................................................................ 33
3.2.1 Latent Dirichlet Allocation (LDA) .......................................................................... 34
3.2.2 Mô hình sinh trong LDA ......................................................................................... 35
3.2.3 Ước lượng tham số và suy luận ............................................................................... 36
3.3 Mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề
và kỹ thuật tính hạng ................................................................................................................. 39
3.3.1 Mô tả bài toán .......................................................................................................... 39
3.3.2 Mô hình tổng quan ................................................................................................... 40
3.3.3 Xác định đặc trưng cho mô hình ............................................................................. 41
Chương 4. Thực nghiệm và đánh giá ............................................................................................ 43
4.1. Dữ liệu ............................................................................................................................ 43
4.2. Môi trường thực nghiệm ................................................................................................. 43
4.2.1 Cấu hình phần cứng ..................................................................................................... 43
4.2.2 Các công cụ được sử dụng ........................................................................................... 44
4.3. Quá trình thực nghiệm .................................................................................................... 45
4.3.1. Tiền xử lý dữ liệu ........................................................................................................ 45
4.3.2. Thu thập thông tin từ các URL có được ...................................................................... 46
4.3.3. Véc tơ hóa dữ liệu ........................................................................................................ 47
4.3.4. Thiết kế thực nghiệm ................................................................................................... 47
4.4. Kết quả thực nghiệm ....................................................................................................... 48
4.5. Đánh giá kết quả thực nghiệm ........................................................................................ 50

