
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
100
ỨNG DỤNG MÔ HÌNH SVM CHO BÀI TOÁN DỰ ĐOÁN
NGƯỜI DÙNG MUA HÀNG SAU KHI CLICK QUẢNG CÁO
Đinh Phú Hùng
Đại học Thuỷ lợi, email: hungdp@tlu.edu.vn
1. GIỚI THIỆU
Quảng cáo hiển thị (Display Advertising) là
một hình thức của quảng cáo trực tuyến mà
các nhà quảng cáo (người mua quảng cáo) trả
tiền cho những nhà xuất bản (người bán quảng
cáo) cho phép đặt các quảng cáo hình ảnh trên
các trang web của nhà xuất bản. Cách thức
truyền thống của việc bán các quảng cáo hiển
thị chính là việc có hợp đồng dài hạn được
thoả thuận trước giữa người mua quảng cáo và
nhà xuất bản. Trong vòng chục năm qua, có rất
nhiều các cách thức mà nhà quảng cáo và nhà
xuất bản giao dịch với nhau.
Tuỳ thuộc vào nhu cầu của nhà quảng cáo,
thị trường quảng cáo sẽ cung cấp cho họ một
loạt các lựa chọn quảng cáo như: CPM (Cost
Per Thousand Impressions), CPC (Cost Per
Click), CPA (Cost Per Action) hay người ta
còn goi với một cái tên khác là (Cost Per
Conversion). Ý nghĩa cụ thể các hình thức
quảng cáo này có thể được mô tả ngắn gọn
như sau: CPM là hình thức quảng cáo mà các
nhàquảng cáo phải trả tiền cho mỗi 1000 lần
quảng cáo hiển thị. CPC là hình thức trả tiền
cho mỗi lần click quảng cáo, còn CPA là trả
tiền khi người dùng có hành động trên web
của họ sau khi click quảng cáo. Các hành
động bao gồm mua sản phẩm, điền form đăng
ký, gọi điện, gửi email.
Một chỉ số quan trọngCR (Conversion
Rate) là tỉ lệ giữa số lượng người mua hàng
và số lượng người click. Chỉ số CR cao nói
cho nhà quảng cáo biết hoạt động quảng cáo
của họ mang lại giá trị. Ngược lại, chỉ số CR
thấp nói cho họ biết hoạt động quảng cáo
đang lãng phí tiền của và không đạt hiệu quả.
Việc dự đoán chỉ số CR đóng vai trò rất quan
trọng trong các mô hình quảng cáo hiện nay.
Ví dụ như, trong đấu giá thời gian thực,
người ta cần tính được giá trị kì vọng của
CPM. Theo Olivier[1], giá trị eCPM được
xác định theo công thức (1).
eCPM= CPA*Pr(conversion, click)
= CPA*Pr(click)*Pr(conversion|click). (1)
Trong bài báo này chúng tôi đề xuất sử
dụng phương pháp SVM (Support Vector
Machine) để dự đoán số người mua hàng sau
khi click sản phẩm. Độ chính xác mà mô
hình đạt được cũng chính là chỉ số CR.
Bài báo này được tổ chức thành năm phần
bao gồm cả phần giới thiệu. Trong phần 2,
chúng tôi trình bày về dữ liệu của quảng cáo
hiển thị và giảm chiềuvector đặc trưng bằng
kĩ thuật băm. Sau đó, kết quả thực nghiệm về
mô hình SVM sẽ được trình bày trong phần
3. Cuối cùng, kết luận về bài báo được chúng
tôi trình bày trong phần 4. Phần cuối cùng là
tài liệu tham khảo liên quan.
2. DỮ LIỆU VÀ ĐẶC TRƯNG
Trong phần này, chúng tôi trình bày một
số thông tin cơ bản liên quan đến dữ liệu của
quảng cáo hiển thị, thông tin về bộ dữ liệu
quảng cáo dùng trong phần thực nghiệm và
một kỹ thuật băm để giảm chiều vector đặc
trưng dữ liệu.
2.1. Các đặc trưng trong quảng cáo hiển thị
Nhìn chung có 4 tập đặc trưng chính
thường được dùng liên quan đến quảng cáo
hiển thị: nhà quảng cáo, nhà xuất bản, người
dùng và thời gian. Chi tiết các đặc trưng
trong từng nhóm được mô tả trong bảng 1.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
101
Bảng 1. Các đặc trưng trong nhóm
2.2. Dữ liệu quảng cáo Criteo
Dữ liệu mà chúng tôi dùng trong phần thực
nghiệm được trích rút ra từ File dữ liệu
Criteo
1
bao gồm 1.5 Gb với hơn 13 nghìn
chiến dịch quảng cáo. Dữ liệu này được
Criteo thu thập trong vòng 2 tháng, mỗi dòng
trong file dữ liệu là một vector đặc trưng của
quảng cáo. Có 19 cột, trong đó các cột 2→19
có thể rỗng. Ý nghĩa của các cột dữ liệu được
mô tả như bảng 2:
Bảng 2. Ý nghĩa của các cột dữ liệu
2.3. Kỹ thuật băm giảm chiều dữ liệu
Mặc dù dữ liệu về quảng cáo do Criteo
cung cấp được biểu diễn dưới dạng 1 vector
đặc trưng gồm 19 chiều như mô tả trong phần
2.2. Tuy nhiên, rất khó để sử dụng vector đặc
trưng này để học các mô hình phân lớp vì có
9 đặc trưng nhóm đã được băm về dạng 32
1
http://labs.criteo.com/wp-content/uploads/2014/07/criteo_
conversion_logs.tar.gz [1]
bit (từ đặc trưng 11 đến 19). Thông thường,
nếu sử dụng phương pháp từ điển để biểu diễn
cho các đặc trưng này, ta cần một vector có số
chiều 232 (hơn 4 tỷ chiều). Ý tưởng sử dụng
một hàm băm để giảm chiều dữ liệu. Thay vì
sử dụng c chiều để biểu diễn dữ liệu cho vector
đặc trưng, chúng ta sẽ sử dụng d chiều với d<c.
Khi giải quyết các vấn đề có rất nhiều các đặc
trưng, có 2 cách tiếp cận chính:
Cách 1: Băm mỗi giá trị đặc trưng f tới
không gian có 𝒅𝒇 chiều, sau đó kết hợp các
đặc trưng này.
Cách 2: Băm tất cả các đặc trưng tới cùng
một không gian, mỗi hàm băm khác nhau
được sử dụng để băm cho từng đặc trưng.
Theo cách tiếp cận thứ hai, giải thuật băm
này được đề xuất lần đầu tiên bởi
Weinberger[1]. Trong phần này chúng tôi sẽ
mô tả giải thuật này mà Olivier [2] đã trình
bày như sau:
Đầu vào:
- Tập các giá trị đặc trưng
F{𝑓
1, 𝑓
2, … , 𝑓
𝑘}.
- Hàm băm 𝐻
𝑓𝑖để băm cho từng đặc
trưng 𝑓
𝑖.
- Số chiều d của vector đầu ra.
Đầu ra:
- Một vector X{𝑥1, 𝑥2, … , 𝑥𝑑} có d chiều
Giải thuật như sau:
Khởi tạo 𝑋[𝑖] = 0 ∀ 𝑖 = 1, 𝑑
Duyệt tất cả các đặc trưng 𝑓
𝑖với 𝑖 = 1, 𝑘
p = [𝐻𝑓𝑖 (𝑓
𝑖) mod d] +1
X[p] = X[p] +1;
Để có thể hiểu rõ hơn giải thuật băm này,
chúng tôi lấy ra một đặc trưng nhóm bất kì
biểu diễn bởi “a207ca8c”. Thay vì biểu diễn
bởi vector đặc trưng 𝟐𝟑𝟐 chiều, chúng tôi
biểu diễn đặc trưng này về không gian
𝟐𝟐𝟐(khoảng 4 triệu chiều). Sau khi sử dụng
giải thuật băm trên, chúng tôi thu được 1
vector nhị phân mà tại vị trí 2651594 của
vector sẽ có giá trị bằng 1, các đặc trưng khác
có giá trị bằng 0.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
102
3. THỰC NGHIỆM
3.1. Dữ liệu thực nghiệm
Chúng tôi trích rút ra 1 chiến dịch quảng
cáo có mã “15eea2bb” làm thực nghiệm.
Chúng tôi sử dụng 21 ngày cho huấn luyện
(bắt đầu từ ngày thứ 32 đến ngày thứ 53) và
7 ngày cho kiểm tra (bắt đầu từ ngày 53 đến
ngày thứ 60). Chúng tôi gán nhãn dương cho
những dữ liệu mà có độ lệch thời gian ∆𝑡 =
𝑡2− 𝑡1 (𝑡1là thời điểm click quảng cáo, 𝑡2 là
thời điểm mua hàng) nằm trong cửa sổ thời
gian mà chúng tôi xét. Gán nhãn âm cho dữ
liệu mà có ∆𝑡 không nằm trong cửa sổ đang
xét hoặc 𝑡2 =null. Sử dụng kỹ thuật băm mô
tả trong mục 2.3 để ánh xạ các đặc trưng tới
không gian đặc trưng thưa kích thước 222
(khoảng 4 triệu chiều). Hàm băm được chúng
tôi sử dụng là MurMurHash32
2
. Đồ thị biểu
diễn số lượng click và số lượng người mua
hàng trong khoảng thời gian xét là 21 ngày
được mô tả trong hình 1. Đường màu xanh
nước biển cho biết số người click theo thời
gian, đường màu xanh lá cây cho biết số
lượng người mua hàng theo thời gian.
Hình 1. Đồ thị số lần click, conversion
3.2. Công cụ thực nghiệm
Chúng tôi sử dụng công cụ Libsvm
3
để
chạy giải thuật SVM cho phần thực nghiệm.
3.3. Kết quả thực nghiệm
Trong phần này, chúng tôi trình bày kết quả
thực nghiệm trên mô hình SVM. Sử dụng công
cụ Libsvm với các tham số mặc định để xây
dựng mô hình. Trong đó, tham số C = 1, hàm
nhân sử dụng là RBF (Radial basic function)
với tham số 𝛾 = 2.38479 ∗ 10−7. Chúng tôi
sử dụng 21 ngày huấn luyện (từ ngày 32-53)
với 29882 lượt click. Thực nghiệm dự đoán số
2
https://gist.github.com/automatonic/3725443
3
Xem chi tiết về Libsvm tại
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
người mua hàng sau khi click với từng ngày
sau đó và với tổng thể cả 7 ngày.
Bảng 2. Bảng kết quả thực nghiệm
Kết quả thực nghiêm khi áp dụng mô hình
SVM cho độ chính xác >90%, điều này cho
thấy rằng mô mình SVM cho dự đoán tốt
người mua hàng sau khi click.
4. KẾT LUẬN
Trong bài báo này, chúng tôi đã đề xuất áp
dụng phương pháp SVM cho việc giải quyết
bài toán dự đoán người dùng mua hàng sau
khi click quảng cáo. Kết quả SVM thực hiện
phân lớp đối với người dung sau khi click
quảng cáo là tốt, độ chính xác đạt >90%.
5. TÀI LIỆU THAM KHẢO
[1] O. Chapelle (2014), "Modeling Delayed
Feedback in Display Advertising," in In
Proceedings of the 20th ACM SIGKDD
international conference on Knowledge
discovery and data mining (KDD '14), New
York, NY, USA.
[2] Weinberger, K., Dasgupta, A., Langford, J.,
Smola, A., and Attenberg (2009), "Feature
hashing for large scale multitask learning," in
In Proceedings of the 26th Annual International
Conference on Machine Learning (ICML '09),
New York, NY, USA, 2009.
[3] Olivier C, Eren M, and Romer R (2015),
"Simple and Scalable Response Prediction
for Display Advertising," ACM
Transactions on Intelligent Systems and
Technology (TIST) - Special Sections on
Diversity and Discovery in Recommender
Systems, vol. 5, no. 4, p. 34.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5