Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
100
ỨNG DỤNG MÔ HÌNH SVM CHO BÀI TOÁN DỰ ĐOÁN
NGƯỜI DÙNG MUA HÀNG SAU KHI CLICK QUẢNG CÁO
Đinh Phú Hùng
Đại hc Thu li, email: hungdp@tlu.edu.vn
1. GIỚI THIỆU
Quảng o hin thị (Display Advertising)
một nh thức của quảng cáo trực tuyến
c nhà quảng cáo (người mua quảng o) tr
tiền cho nhng nhà xuất bản (nờin qung
o) cho phép đặt c quảng cáo hình ảnh trên
c trang web của nhà xut bản. Cách thc
truyền thống của việc bán c quảng o hiển
thị chính việc hợp đồng dài hạn được
thoả thuận trưc gia người mua quảngo và
nhà xuất bản. Trong vòng chục năm qua, có rất
nhiều các cách thức mà nquảng o n
xuất bản giao dịch với nhau.
Tuỳ thuộc vào nhu cầu của nhà quảng cáo,
thị trường quảng cáo sẽ cung cấp cho họ một
loạt các lựa chọn quảng cáo như: CPM (Cost
Per Thousand Impressions), CPC (Cost Per
Click), CPA (Cost Per Action) hay người ta
còn goi với mt cái tên khác (Cost Per
Conversion). Ý nghĩa cụ thể các hình thức
quảng cáo này thể được tả ngắn gọn
như sau: CPM là hình thức quảng cáo các
nhàquảng cáo phải trả tiền cho mỗi 1000 lần
quảng cáo hiển thị. CPC hình thức trả tiền
cho mỗi lần click quảng cáo, còn CPA trả
tiền khi người dùng hành động trên web
của họ sau khi click quảng cáo. Các hành
động bao gồm mua sản phẩm, điền form đăng
ký, gọi điện, gửi email.
Một chỉ số quan trọngCR (Conversion
Rate) tỉ lệ giữa số lượng người mua hàng
số lượng người click. Chỉ số CR cao nói
cho nhà quảng cáo biết hoạt động quảng cáo
của họ mang lại giá trị. Ngược lại, chỉ số CR
thấp nói cho họ biết hoạt động quảng cáo
đang lãng phí tiền của không đạt hiệu quả.
Việc dự đoán chỉ số CR đóng vai trò rất quan
trọng trong các hình quảng cáo hiện nay.
dụ như, trong đấu giá thời gian thực,
người ta cần tính được giá trị vọng của
CPM. Theo Olivier[1], giá trị eCPM được
xác định theo công thức (1).
eCPM= CPA*Pr(conversion, click)
= CPA*Pr(click)*Pr(conversion|click). (1)
Trong bài báo này chúng tôi đề xuất sử
dụng phương pháp SVM (Support Vector
Machine) để dự đoán số người mua hàng sau
khi click sản phẩm. Độ chính xác
hình đạt được cũng chính là chỉ số CR.
Bài báo này được tổ chức thành năm phần
bao gồm cả phần giới thiệu. Trong phần 2,
chúng tôi trình bày về dliệu của quảng cáo
hiển thị và giảm chiềuvector đặc trưng bằng
thuật băm. Sau đó, kết quả thực nghiệm về
hình SVM sẽ được trình bày trong phần
3. Cuối cùng, kết luận về bài báo được chúng
tôi trình bày trong phần 4. Phần cuối cùng
tài liệu tham khảo liên quan.
2. DỮ LIỆU VÀ ĐẶC TRƯNG
Trong phần này, chúng tôi trình bày một
số thông tin bản liên quan đến dliệu của
quảng cáo hiển thị, thông tin về bộ dữ liệu
quảng cáo dùng trong phần thực nghiệm
một kỹ thuật băm để giảm chiều vector đặc
trưng dữ liệu.
2.1. Các đc tng trong quảng cáo hiển thị
Nhìn chung 4 tập đặc trưng chính
thường được dùng liên quan đến quảng cáo
hiển thị: nhà quảng cáo, nhà xuất bản, người
dùng thời gian. Chi tiết các đặc trưng
trong từng nhóm được mô tả trong bảng 1.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
101
Bảng 1. Các đặc trưng trong nhóm
2.2. Dữ liệu quảng cáo Criteo
Dữ liệu mà chúng tôi dùng trong phần thực
nghiệm được trích rút ra từ File dữ liệu
Criteo
1
bao gồm 1.5 Gb với hơn 13 nghìn
chiến dịch quảng cáo. Dữ liệu này được
Criteo thu thập trong vòng 2 tháng, mỗi dòng
trong file dữ liệu một vector đặc trưng của
quảng cáo. 19 cột, trong đó các cột 219
có thể rỗng. Ý nghĩa của các cột dữ liệu được
mô tả như bảng 2:
Bảng 2. Ý nghĩa của các cột dữ liệu
2.3. Kỹ thuật băm giảm chiều dữ liệu
Mc d liu v qung cáo do Criteo
cung cp đưc biu diễn dưới dng 1 vector
đặc trưng gồm 19 chiu như mô tả trong phn
2.2. Tuy nhiên, rt khó để s dụng vector đặc
trưng này đ hc các hình phân lp
9 đặc trưng nhóm đã được băm v dng 32
1
http://labs.criteo.com/wp-content/uploads/2014/07/criteo_
conversion_logs.tar.gz [1]
bit (t đặc trưng 11 đến 19). Thông tng,
nếu s dụng phương pháp t đin để biu din
cho các đặc tng y, ta cần mt vector có s
chiu 232 (hơn 4 tỷ chiu). Ý ởng sử dụng
một m băm để giảm chiều dữ liệu. Thay
sử dụng c chiều để biểu diễn dữ liu cho vector
đặc trưng, chúng ta sẽ sử dụng d chiu với d<c.
Khi giải quyết các vấn đề rất nhiều các đặc
trưng, có 2 cách tiếp cận chính:
Cách 1: Băm mỗi giá trị đặc trưng f tới
không gian 𝒅𝒇 chiều, sau đó kết hợp các
đặc trưng này.
Cách 2: Băm tất cả các đặc trưng tới cùng
một không gian, mỗi hàm băm khác nhau
được sử dụng để băm cho từng đặc trưng.
Theo cách tiếp cận thứ hai, giải thuật băm
này được đề xuất lần đầu tiên bởi
Weinberger[1]. Trong phần này chúng tôi sẽ
tả giải thuật này Olivier [2] đã trình
bày như sau:
Đầu vào:
- Tập các giá trị đặc trưng
F{𝑓
1, 𝑓
2, , 𝑓
𝑘}.
- Hàm băm 𝐻
𝑓𝑖để băm cho từng đặc
trưng 𝑓
𝑖.
- Số chiều d của vector đầu ra.
Đầu ra:
- Một vector X{𝑥1, 𝑥2, , 𝑥𝑑} có d chiều
Giải thuật như sau:
Khi to 𝑋[𝑖] = 0 ∀ 𝑖 = 1, 𝑑
Duyệt tất cả các đặc trưng 𝑓
𝑖vi 𝑖 = 1, 𝑘
p = [𝐻𝑓𝑖 (𝑓
𝑖) mod d] +1
X[p] = X[p] +1;
Để thể hiểu hơn giải thuật băm này,
chúng tôi lấy ra mt đặc trưng nhóm bất
biểu diễn bởi a207ca8c”. Thay biểu diễn
bởi vector đặc trưng 𝟐𝟑𝟐 chiều, chúng tôi
biểu diễn đặc trưng này về không gian
𝟐𝟐𝟐(khoảng 4 triệu chiều). Sau khi sử dụng
giải thuật băm trên, chúng tôi thu được 1
vector nhị phân tại vị trí 2651594 của
vector sẽ có giá trị bằng 1, các đặc trưng khác
có giá trị bằng 0.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5
102
3. THỰC NGHIỆM
3.1. Dữ liệu thực nghiệm
Chúng tôi trích rút ra 1 chiến dịch quảng
cáo 15eea2bb làm thực nghiệm.
Chúng tôi sử dụng 21 ngày cho huấn luyện
(bắt đầu từ ngày thứ 32 đến ngày thứ 53)
7 ngày cho kiểm tra (bắt đầu từ ngày 53 đến
ngày thứ 60). Chúng tôi gán nhãn dương cho
những dữ liệu độ lệch thi gian ∆𝑡 =
𝑡2 𝑡1 (𝑡1thời điểm click quảng cáo, 𝑡2
thời điểm mua hàng) nm trong ca s thi
gian chúng tôi xét. Gán nhãn âm cho d
liu ∆𝑡 không nằm trong cửa sổ đang
xét hoặc 𝑡2 =null. Sử dụng kỹ thuật băm
tả trong mục 2.3 để ánh xcác đặc trưng tới
không gian đặc trưng thưa kích thước 222
(khoảng 4 triệu chiều). Hàm băm được chúng
tôi sử dụng MurMurHash32
2
. Đồ thị biểu
diễn số lượng click số lượng người mua
hàng trong khoảng thời gian xét 21 ngày
được tả trong hình 1. Đường màu xanh
nước biển cho biết số người click theo thời
gian, đường màu xanh cây cho biết số
lượng người mua hàng theo thời gian.
Hình 1. Đồ thị số lần click, conversion
3.2. Công cụ thực nghiệm
Chúng tôi sử dụng công cụ Libsvm
3
để
chạy giải thuật SVM cho phần thực nghiệm.
3.3. Kết quả thực nghiệm
Trong phần này, chúng i tnh bày kết qu
thực nghiệm tn mônh SVM. Sử dụng công
cLibsvm với c tham số mặc định đxây
dựng mô hình. Trong đó, tham số C = 1, m
nhân sdụng RBF (Radial basic function)
với tham số 𝛾 = 2.38479 10−7. Chúng tôi
sử dụng 21 ngày huấn luyện (t ngày 32-53)
với 29882 ợt click. Thc nghiệm dự đoán s
2
https://gist.github.com/automatonic/3725443
3
Xem chi tiết về Libsvm tại
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
người mua ng sau khi click với tng ngày
sau đó với tổng thể c7 ngày.
Bảng 2. Bảng kết quả thực nghiệm
Kết quả thực nghiêm khi áp dụng mô hình
SVM cho độ chính xác >90%, điều này cho
thấy rằng mô mình SVM cho d đoán tốt
người mua hàng sau khi click.
4. KẾT LUẬN
Trong bài báo này, chúng tôi đã đề xuất áp
dụng phương pháp SVM cho việc giải quyết
bài toán dự đoán người dùng mua hàng sau
khi click quảng cáo. Kết quả SVM thực hiện
phân lớp đối với người dung sau khi click
quảng cáo là tốt, độ chính xác đạt >90%.
5. TÀI LIỆU THAM KHẢO
[1] O. Chapelle (2014), "Modeling Delayed
Feedback in Display Advertising," in In
Proceedings of the 20th ACM SIGKDD
international conference on Knowledge
discovery and data mining (KDD '14), New
York, NY, USA.
[2] Weinberger, K., Dasgupta, A., Langford, J.,
Smola, A., and Attenberg (2009), "Feature
hashing for large scale multitask learning," in
In Proceedings of the 26th Annual International
Conference on Machine Learning (ICML '09),
New York, NY, USA, 2009.
[3] Olivier C, Eren M, and Romer R (2015),
"Simple and Scalable Response Prediction
for Display Advertising," ACM
Transactions on Intelligent Systems and
Technology (TIST) - Special Sections on
Diversity and Discovery in Recommender
Systems, vol. 5, no. 4, p. 34.
Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5