Dự đoán mua hàng: Ứng dụng mô hình SVM cho bài toán sau click quảng cáo

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

100

ỨNG DỤNG MÔ HÌNH SVM CHO BÀI TOÁN DỰ ĐOÁN

NGƯỜI DÙNG MUA HÀNG SAU KHI CLICK QUẢNG CÁO

Đinh Phú Hùng

Đại học Thuỷ lợi, email: hungdp@tlu.edu.vn

1. GIỚI THIỆU

Quảng cáo hiển thị (Display Advertising) là

một hình thức của quảng cáo trực tuyến mà

các nhà quảng cáo (người mua quảng cáo) trả

tiền cho những nhà xuất bản (người bán quảng

cáo) cho phép đặt các quảng cáo hình ảnh trên

các trang web của nhà xuất bản. Cách thức

truyền thống của việc bán các quảng cáo hiển

thị chính là việc có hợp đồng dài hạn được

thoả thuận trước giữa người mua quảng cáo và

nhà xuất bản. Trong vòng chục năm qua, có rất

nhiều các cách thức mà nhà quảng cáo và nhà

xuất bản giao dịch với nhau.

Tuỳ thuộc vào nhu cầu của nhà quảng cáo,

thị trường quảng cáo sẽ cung cấp cho họ một

loạt các lựa chọn quảng cáo như: CPM (Cost

Per Thousand Impressions), CPC (Cost Per

Click), CPA (Cost Per Action) hay người ta

còn goi với một cái tên khác là (Cost Per

Conversion). Ý nghĩa cụ thể các hình thức

quảng cáo này có thể được mô tả ngắn gọn

như sau: CPM là hình thức quảng cáo mà các

nhàquảng cáo phải trả tiền cho mỗi 1000 lần

quảng cáo hiển thị. CPC là hình thức trả tiền

cho mỗi lần click quảng cáo, còn CPA là trả

tiền khi người dùng có hành động trên web

của họ sau khi click quảng cáo. Các hành

động bao gồm mua sản phẩm, điền form đăng

ký, gọi điện, gửi email.

Một chỉ số quan trọngCR (Conversion

Rate) là tỉ lệ giữa số lượng người mua hàng

và số lượng người click. Chỉ số CR cao nói

cho nhà quảng cáo biết hoạt động quảng cáo

của họ mang lại giá trị. Ngược lại, chỉ số CR

thấp nói cho họ biết hoạt động quảng cáo

đang lãng phí tiền của và không đạt hiệu quả.

Việc dự đoán chỉ số CR đóng vai trò rất quan

trọng trong các mô hình quảng cáo hiện nay.

Ví dụ như, trong đấu giá thời gian thực,

người ta cần tính được giá trị kì vọng của

CPM. Theo Olivier[1], giá trị eCPM được

xác định theo công thức (1).

eCPM= CPA*Pr(conversion, click)

= CPA*Pr(click)*Pr(conversion|click). (1)

Trong bài báo này chúng tôi đề xuất sử

dụng phương pháp SVM (Support Vector

Machine) để dự đoán số người mua hàng sau

khi click sản phẩm. Độ chính xác mà mô

hình đạt được cũng chính là chỉ số CR.

Bài báo này được tổ chức thành năm phần

bao gồm cả phần giới thiệu. Trong phần 2,

chúng tôi trình bày về dữ liệu của quảng cáo

hiển thị và giảm chiềuvector đặc trưng bằng

kĩ thuật băm. Sau đó, kết quả thực nghiệm về

mô hình SVM sẽ được trình bày trong phần

3. Cuối cùng, kết luận về bài báo được chúng

tôi trình bày trong phần 4. Phần cuối cùng là

tài liệu tham khảo liên quan.

2. DỮ LIỆU VÀ ĐẶC TRƯNG

Trong phần này, chúng tôi trình bày một

số thông tin cơ bản liên quan đến dữ liệu của

quảng cáo hiển thị, thông tin về bộ dữ liệu

quảng cáo dùng trong phần thực nghiệm và

một kỹ thuật băm để giảm chiều vector đặc

trưng dữ liệu.

2.1. Các đặc trưng trong quảng cáo hiển thị

Nhìn chung có 4 tập đặc trưng chính

thường được dùng liên quan đến quảng cáo

hiển thị: nhà quảng cáo, nhà xuất bản, người

dùng và thời gian. Chi tiết các đặc trưng

trong từng nhóm được mô tả trong bảng 1.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

101

Bảng 1. Các đặc trưng trong nhóm

2.2. Dữ liệu quảng cáo Criteo

Dữ liệu mà chúng tôi dùng trong phần thực

nghiệm được trích rút ra từ File dữ liệu

Criteo

bao gồm 1.5 Gb với hơn 13 nghìn

chiến dịch quảng cáo. Dữ liệu này được

Criteo thu thập trong vòng 2 tháng, mỗi dòng

trong file dữ liệu là một vector đặc trưng của

quảng cáo. Có 19 cột, trong đó các cột 2→19

có thể rỗng. Ý nghĩa của các cột dữ liệu được

mô tả như bảng 2:

Bảng 2. Ý nghĩa của các cột dữ liệu

2.3. Kỹ thuật băm giảm chiều dữ liệu

Mặc dù dữ liệu về quảng cáo do Criteo

cung cấp được biểu diễn dưới dạng 1 vector

đặc trưng gồm 19 chiều như mô tả trong phần

2.2. Tuy nhiên, rất khó để sử dụng vector đặc

trưng này để học các mô hình phân lớp vì có

9 đặc trưng nhóm đã được băm về dạng 32

http://labs.criteo.com/wp-content/uploads/2014/07/criteo_

conversion_logs.tar.gz [1]

bit (từ đặc trưng 11 đến 19). Thông thường,

nếu sử dụng phương pháp từ điển để biểu diễn

cho các đặc trưng này, ta cần một vector có số

chiều 232 (hơn 4 tỷ chiều). Ý tưởng sử dụng

một hàm băm để giảm chiều dữ liệu. Thay vì

sử dụng c chiều để biểu diễn dữ liệu cho vector

đặc trưng, chúng ta sẽ sử dụng d chiều với d<c.

Khi giải quyết các vấn đề có rất nhiều các đặc

trưng, có 2 cách tiếp cận chính:

Cách 1: Băm mỗi giá trị đặc trưng f tới

không gian có 𝒅𝒇 chiều, sau đó kết hợp các

đặc trưng này.

Cách 2: Băm tất cả các đặc trưng tới cùng

một không gian, mỗi hàm băm khác nhau

được sử dụng để băm cho từng đặc trưng.

Theo cách tiếp cận thứ hai, giải thuật băm

này được đề xuất lần đầu tiên bởi

Weinberger[1]. Trong phần này chúng tôi sẽ

mô tả giải thuật này mà Olivier [2] đã trình

bày như sau:

Đầu vào:

- Tập các giá trị đặc trưng

F{𝑓

1, 𝑓

2, … , 𝑓

𝑘}.

- Hàm băm 𝐻

𝑓𝑖để băm cho từng đặc

trưng 𝑓

𝑖.

- Số chiều d của vector đầu ra.

Đầu ra:

- Một vector X{𝑥1, 𝑥2, … , 𝑥𝑑} có d chiều

Giải thuật như sau:

Khởi tạo 𝑋[𝑖] = 0 ∀ 𝑖 = 1, 𝑑



Duyệt tất cả các đặc trưng 𝑓

𝑖với 𝑖 = 1, 𝑘



p = [𝐻𝑓𝑖 (𝑓

𝑖) mod d] +1

X[p] = X[p] +1;

Để có thể hiểu rõ hơn giải thuật băm này,

chúng tôi lấy ra một đặc trưng nhóm bất kì

biểu diễn bởi “a207ca8c”. Thay vì biểu diễn

bởi vector đặc trưng 𝟐𝟑𝟐 chiều, chúng tôi

biểu diễn đặc trưng này về không gian

𝟐𝟐𝟐(khoảng 4 triệu chiều). Sau khi sử dụng

giải thuật băm trên, chúng tôi thu được 1

vector nhị phân mà tại vị trí 2651594 của

vector sẽ có giá trị bằng 1, các đặc trưng khác

có giá trị bằng 0.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

102

3. THỰC NGHIỆM

3.1. Dữ liệu thực nghiệm

Chúng tôi trích rút ra 1 chiến dịch quảng

cáo có mã “15eea2bb” làm thực nghiệm.

Chúng tôi sử dụng 21 ngày cho huấn luyện

(bắt đầu từ ngày thứ 32 đến ngày thứ 53) và

7 ngày cho kiểm tra (bắt đầu từ ngày 53 đến

ngày thứ 60). Chúng tôi gán nhãn dương cho

những dữ liệu mà có độ lệch thời gian ∆𝑡 =

𝑡2− 𝑡1 (𝑡1là thời điểm click quảng cáo, 𝑡2 là

thời điểm mua hàng) nằm trong cửa sổ thời

gian mà chúng tôi xét. Gán nhãn âm cho dữ

liệu mà có ∆𝑡 không nằm trong cửa sổ đang

xét hoặc 𝑡2 =null. Sử dụng kỹ thuật băm mô

tả trong mục 2.3 để ánh xạ các đặc trưng tới

không gian đặc trưng thưa kích thước 222

(khoảng 4 triệu chiều). Hàm băm được chúng

tôi sử dụng là MurMurHash32

. Đồ thị biểu

diễn số lượng click và số lượng người mua

hàng trong khoảng thời gian xét là 21 ngày

được mô tả trong hình 1. Đường màu xanh

nước biển cho biết số người click theo thời

gian, đường màu xanh lá cây cho biết số

lượng người mua hàng theo thời gian.

Hình 1. Đồ thị số lần click, conversion

3.2. Công cụ thực nghiệm

Chúng tôi sử dụng công cụ Libsvm

để

chạy giải thuật SVM cho phần thực nghiệm.

3.3. Kết quả thực nghiệm

Trong phần này, chúng tôi trình bày kết quả

thực nghiệm trên mô hình SVM. Sử dụng công

cụ Libsvm với các tham số mặc định để xây

dựng mô hình. Trong đó, tham số C = 1, hàm

nhân sử dụng là RBF (Radial basic function)

với tham số 𝛾 = 2.38479 ∗ 10−7. Chúng tôi

sử dụng 21 ngày huấn luyện (từ ngày 32-53)

với 29882 lượt click. Thực nghiệm dự đoán số

https://gist.github.com/automatonic/3725443

Xem chi tiết về Libsvm tại

http://www.csie.ntu.edu.tw/~cjlin/libsvm/

người mua hàng sau khi click với từng ngày

sau đó và với tổng thể cả 7 ngày.

Bảng 2. Bảng kết quả thực nghiệm

Kết quả thực nghiêm khi áp dụng mô hình

SVM cho độ chính xác >90%, điều này cho

thấy rằng mô mình SVM cho dự đoán tốt

người mua hàng sau khi click.

4. KẾT LUẬN

Trong bài báo này, chúng tôi đã đề xuất áp

dụng phương pháp SVM cho việc giải quyết

bài toán dự đoán người dùng mua hàng sau

khi click quảng cáo. Kết quả SVM thực hiện

phân lớp đối với người dung sau khi click

quảng cáo là tốt, độ chính xác đạt >90%.

5. TÀI LIỆU THAM KHẢO

[1] O. Chapelle (2014), "Modeling Delayed

Feedback in Display Advertising," in In

Proceedings of the 20th ACM SIGKDD

international conference on Knowledge

discovery and data mining (KDD '14), New

York, NY, USA.

[2] Weinberger, K., Dasgupta, A., Langford, J.,

Smola, A., and Attenberg (2009), "Feature

hashing for large scale multitask learning," in

In Proceedings of the 26th Annual International

Conference on Machine Learning (ICML '09),

New York, NY, USA, 2009.

[3] Olivier C, Eren M, and Romer R (2015),

"Simple and Scalable Response Prediction

for Display Advertising," ACM

Transactions on Intelligent Systems and

Technology (TIST) - Special Sections on

Diversity and Discovery in Recommender

Systems, vol. 5, no. 4, p. 34.

Tuyển tập Hội nghị Khoa học thường niên năm 2015. ISBN : 978-604-82-1710-5

Ứng dụng mô hình SVM cho bài toán dự đoán người dùng mua hàng sau khi click quảng cáo

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi