
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
100
ỨNG DỤNG MÔ HÌNH SVM CHO BÀI TOÁN DỰ ĐOÁN
NGƯỜI DÙNG MUA HÀNG SAU KHI CLICK QUẢNG CÁO
Đinh Phú Hùng
Đại học Thuỷ lợi, email: hungdp@tlu.edu.vn
1. GIỚI THIỆU
Quảng cáo hiển thị (Display Advertising) là
một hình thức của quảng cáo trực tuyến mà
các nhà quảng cáo (người mua quảng cáo) trả
tiền cho những nhà xuất bản (người bán quảng
cáo) cho phép đặt các quảng cáo hình ảnh trên
các trang web của nhà xuất bản. Cách thức
truyền thống của việc bán các quảng cáo hiển
thị chính là việc có hợp đồng dài hạn được
thoả thuận trước giữa người mua quảng cáo và
nhà xuất bản. Trong vòng chục năm qua, có rất
nhiều các cách thức mà nhà quảng cáo và nhà
xuất bản giao dịch với nhau.
Tuỳ thuộc vào nhu cầu của nhà quảng cáo,
thị trường quảng cáo sẽ cung cấp cho họ một
loạt các lựa chọn quảng cáo như: CPM (Cost
Per Thousand Impressions), CPC (Cost Per
Click), CPA (Cost Per Action) hay người ta
còn goi với một cái tên khác là (Cost Per
Conversion). Ý nghĩa cụ thể các hình thức
quảng cáo này có thể được mô tả ngắn gọn
như sau: CPM là hình thức quảng cáo mà các
nhàquảng cáo phải trả tiền cho mỗi 1000 lần
quảng cáo hiển thị. CPC là hình thức trả tiền
cho mỗi lần click quảng cáo, còn CPA là trả
tiền khi người dùng có hành động trên web
của họ sau khi click quảng cáo. Các hành
động bao gồm mua sản phẩm, điền form đăng
ký, gọi điện, gửi email.
Một chỉ số quan trọngCR (Conversion
Rate) là tỉ lệ giữa số lượng người mua hàng
và số lượng người click. Chỉ số CR cao nói
cho nhà quảng cáo biết hoạt động quảng cáo
của họ mang lại giá trị. Ngược lại, chỉ số CR
thấp nói cho họ biết hoạt động quảng cáo
đang lãng phí tiền của và không đạt hiệu quả.
Việc dự đoán chỉ số CR đóng vai trò rất quan
trọng trong các mô hình quảng cáo hiện nay.
Ví dụ như, trong đấu giá thời gian thực,
người ta cần tính được giá trị kì vọng của
CPM. Theo Olivier[1], giá trị eCPM được
xác định theo công thức (1).
eCPM= CPA*Pr(conversion, click)
= CPA*Pr(click)*Pr(conversion|click). (1)
Trong bài báo này chúng tôi đề xuất sử
dụng phương pháp SVM (Support Vector
Machine) để dự đoán số người mua hàng sau
khi click sản phẩm. Độ chính xác mà mô
hình đạt được cũng chính là chỉ số CR.
Bài báo này được tổ chức thành năm phần
bao gồm cả phần giới thiệu. Trong phần 2,
chúng tôi trình bày về dữ liệu của quảng cáo
hiển thị và giảm chiềuvector đặc trưng bằng
kĩ thuật băm. Sau đó, kết quả thực nghiệm về
mô hình SVM sẽ được trình bày trong phần
3. Cuối cùng, kết luận về bài báo được chúng
tôi trình bày trong phần 4. Phần cuối cùng là
tài liệu tham khảo liên quan.
2. DỮ LIỆU VÀ ĐẶC TRƯNG
Trong phần này, chúng tôi trình bày một
số thông tin cơ bản liên quan đến dữ liệu của
quảng cáo hiển thị, thông tin về bộ dữ liệu
quảng cáo dùng trong phần thực nghiệm và
một kỹ thuật băm để giảm chiều vector đặc
trưng dữ liệu.
2.1. Các đặc trưng trong quảng cáo hiển thị
Nhìn chung có 4 tập đặc trưng chính
thường được dùng liên quan đến quảng cáo
hiển thị: nhà quảng cáo, nhà xuất bản, người
dùng và thời gian. Chi tiết các đặc trưng
trong từng nhóm được mô tả trong bảng 1.