intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng các mô hình học máy và BigQuery dự đoán quyết định mua hàng

Chia sẻ: Tưởng Trì Hoài | Ngày: | Loại File: PDF | Số trang:7

14
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu "Ứng dụng các mô hình học máy và BigQuery dự đoán quyết định mua hàng" sử dụng BigQuery Machine Learning (BigQuery ML) để giải quyết vấn đề dự đoán quyết định mua hàng của người tiêu dùng. Các mô hình được sử dụng để đào tạo bao gồm các mô hình hồi quy logistic và rừng ngẫu nhiên. Từ đó đưa ra những đánh giá độ chính xác, chi phí và đề xuất một số ý kiến trong việc sử dụng BigQuery ML cho các bài toán dự đoán quyết định mua hàng. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Ứng dụng các mô hình học máy và BigQuery dự đoán quyết định mua hàng

  1. KỶ YẾU HỘI THẢO KHOA HỌC CẤP THÀNH PHỐ ỨNG DỤNG CÁC MÔ HÌNH HỌC MÁY VÀ BIGQUERY DỰ ĐOÁN QUYẾT ĐỊNH MUA HÀNG Lê Nhật Tùng1 Tóm tắt: Ngày nay, học máy được sử dụng rộng rãi trong nhiều lĩnh vực như thương mại điện tử, chứng khoán, y học. Dữ liệu được thu thập cho những vấn đề này là rất lớn và việc huấn luyện các mô hình dự đoán đòi hỏi rất nhiều thời gian. Dẫn đến sự ra đời của các kỹ thuật và công nghệ mới phù hợp để xử lý dữ liệu lớn. Trong dự án này, chúng tôi sẽ sử dụng BigQuery Machine Learning (BigQuery ML) để giải quyết vấn đề dự đoán quyết định mua hàng của người tiêu dùng. Các mô hình được sử dụng để đào tạo bao gồm các mô hình hồi quy logistic và rừng ngẫu nhiên. Chúng tôi sẽ đánh giá độ chính xác, chi phí và đề xuất một số ý kiến trong việc sử dụng BigQuery ML cho các bài toán dự đoán quyết định mua hàng. Từ khóa: dữ liệu lớn, BigQuery, học máy, dự đoán, quyết định mua hàng 1. Giới thiệu 1.1. Bài toán dự đoán quyết định mua hàng Trong mô hình học có giám sát thường có hai bài toán chính: bài toán dự đoán (đối với biến mục tiêu liên tục) và bài toán phân loại (đối với biến mục tiêu rời rạc). Tuy nhiên, đối với một số bài toán phân loại có ít lớp, chẳng hạn với 2 lớp, ta có thể biến đổi sang bài toán dự đoán xác suất thuộc một lớp nào đó. Trong dự án này, dựa trên thông tin thu thập được về lượt truy cập của khách hàng, chúng ta cần phân lớp các giá trị thành 0, 1. Trong đó, giá trị 1 khi khách hàng quyết định thêm sản phẩm thì sẽ được thêm vào giỏ hàng, ngược lại sẽ có có giá trị bằng 0. Tuy nhiên, thay vì phân lớp chính xác ngay từ đầu, chúng ta dự đoán tỷ lệ khách hàng quyết định lựa chọn sản phẩm. Tỷ lệ này sẽ có giá trị từ 0 đến 1, từ tỷ lệ này chúng ta lựa chọn một ngưỡng phù hợp để đưa ra quyết định cuối cùng về lớp phân loại. Dựa trên các thông tin truy cập vào các trang thương mại điện tử, được thu thập từ người truy cập. Các thông tin có thể bao gồm: thời gian, địa điểm, số trang đã duyệt, tổng số lần truy cập, phương tiện sử dụng, thiết bị sử dụng ….. Chúng ta có thể dự đoán xem khách truy cập có ra quyết định mua hàng hay không bằng cách xây dựng các mô hình dự đoán. 2. Phương pháp 2.1. BigQuery BigQuery là kho dữ liệu doanh nghiệp không có máy chủ và tiết kiệm chi phí. Chức năng chính của BigQuery là kích hoạt các truy vấn phân tích tương tác trên dữ liệu lớn (Tigani & Naidu, 2014). BigQuery ML cho phép các nhà khoa học dữ liệu và nhà phân tích dữ liệu xây dựng, vận hành các mô hình học máy trên dữ liệu có cấu trúc và bán cấu trúc. BigQuery ML tích hợp các mô hình học máy, sử dụng các câu lệnh SQL đơn giản và có thời gian truy xuất nhanh. Sau quá trình huấn luyện, chúng ta có thể sử dụng các mô hình để dự đoán thông qua Vertex AI hoặc tích hợp vào ác dự án cá nhân (BigQuery, 2022). 1 Thạc sĩ; đơn vị công tác: Khoa Công nghệ, Trường Đại học Công nghệ Đồng Nai; Email: lenhattung@dntu.edu.vn 309
  2. MARKETING GIAI ĐOẠN BÌNH THƯỜNG MỚI 2.2. Mô hình hồi quy logistic Hồi quy logistic là thuật toán thường được sử dụng cho các tác vụ phân loại trong học máy. Đây là thuật toán học có giám sát, nó đưa ra dự đoán về xác suất xảy ra sự kiện, dựa trên dữ liệu đầu vào. Hồi quy logistic là một loại phân tích hồi quy trong đó biến kết quả là nhị phân hoặc phân đôi, nghĩa là nó chỉ có thể có hai giá trị có thể, chẳng hạn như 1 hoặc 0. Mục tiêu của hồi quy logistic là tìm ra mô hình phù hợp nhất để mô tả mối quan hệ giữa biến kết quả và một tập hợp các biến độc lập. Điều này đạt được bằng cách sử dụng thuật toán tối ưu hóa để điều chỉnh các hệ số của mô hình sao cho mô hình có thể dự đoán chính xác kết quả dựa trên dữ liệu đầu vào (Bishop, 2006; Nguyễn Văn Tuấn, 2020). Khi có nhiều biến dự đoán, công thức hồi quy logistic như sau: 𝑒 𝑏0 + 𝑏1 𝑥1+ 𝑏2 𝑥2+ … + 𝑏 𝑛 𝑥 𝑛 𝑝 = (1) 1 + 𝑒 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2+ … + 𝑏 𝑛 𝑥 𝑛 Trong công thức này, 𝑝 là xác suất dự đoán của kết quả, 𝑏0 là số hạng chặn và 𝑏1 , 𝑏2 , … , 𝑏 𝑛 là các hệ số cho các biến dự đoán 𝑥1 , 𝑥2 , … , 𝑥 𝑛 . Công thức về cơ bản giống như trường hợp một biến, nhưng với các thuật ngữ bổ sung cho mỗi biến dự đoán bổ sung. Mô hình sử dụng công thức này để dự đoán xác suất mà một đầu vào nhất định thuộc về một lớp nhất định, dựa trên giá trị của các biến dự đoán. Sau đó, mô hình có thể sử dụng một giá trị ngưỡng để xác định xem xác suất dự đoán có đủ cao để phân loại đầu vào thuộc về lớp đó hay không. Ví dụ: nếu ngưỡng được đặt thành 0,5, thì các đầu vào có xác suất dự đoán lớn hơn 0,5 sẽ được phân loại là thuộc loại 1, trong khi các đầu vào có xác suất dự đoán nhỏ hơn 0,5 sẽ được phân loại là thuộc loại 0. 2.3. Mô hình rừng ngẫu nhiên Rừng ngẫu nhiên là một thuật toán học máy tập hợp được sử dụng cho các nhiệm vụ phân loại và hồi quy. Nó được gọi là "rừng" vì nó sử dụng nhiều cây quyết định, được đào tạo trên các phần khác nhau của dữ liệu và sau đó được kết hợp để đưa ra dự đoán. Một trong những ưu điểm của rừng ngẫu nhiên là nó có thể xử lý một số lượng lớn các tính năng đầu vào và có khả năng chống lại việc trang bị quá mức. Điều này làm cho nó trở thành một lựa chọn phổ biến cho nhiều tác vụ học máy, đặc biệt là ở những khu vực có dữ liệu nhiều chiều hoặc có cấu trúc phức tạp (Ali et al., 2012; Yiu, 2021). Các bước liên quan đến đào tạo một thuật toán rừng ngẫu nhiên là: Bước 1: Chọn một mẫu dữ liệu ngẫu nhiên từ tập dữ liệu huấn luyện. Bước 2: Huấn luyện mô hình cây quyết định trên mẫu dữ liệu đã chọn. Bước 3: Lặp lại bước 1 và 2 nhiều lần để huấn luyện nhiều cây quyết định trên các mẫu dữ liệu khác nhau. Bước 4: Kết hợp các dự đoán của tất cả các cây quyết định để đưa ra dự đoán cuối cùng. Điều này thường được thực hiện bằng cách lấy trung bình các dự đoán của tất cả các cây. 310
  3. KỶ YẾU HỘI THẢO KHOA HỌC CẤP THÀNH PHỐ Hình 1. Mô hình rừng ngẫu nhiên 3. Kết quả thực nghiệm 3.1. Tập dữ liệu Dữ liệu thực nghiệm được chia thành gồm hai phần: huấn luyện và kiểm nghiệm. Lược đồ và cấu trúc của dữ liệu bao gồm 21 thông tin như sau: Bảng 1. Cấu trúc bảng thông tin của khách hàng truy cập Trường dữ liệu Mô tả fullVisitorId ID khách truy cập (duy nhất) visitStartTime Dấu thời gian (được biểu thị bằng thời gian POSIX). date Ngày của phiên truy cập. deviceCategory Loại thiết bị (Di động, Máy tính bảng, Máy tính để bàn). isMobile Nếu người dùng đang sử dụng thiết bị di động thì giá trị này là đúng, ngược lại thì giá trị này là sai. operatingSystem Hệ điều hành của thiết bị (ví dụ "Macintosh" hoặc "Windows"). browser Trình duyệt được sử dụng (ví dụ "Chrome" hoặc "Firefox"). country Quốc gia nơi các phiên bắt đầu, dựa trên địa chỉ IP. city Thành phố của người truy cập, bắt nguồn từ địa chỉ IP hoặc ID địa lý. trafficSource Nguồn truy cập, có thể là tên của công cụ tìm kiếm, tên máy chủ giới thiệu hoặc giá trị của tham số URL utm_source. trafficMedium Phương tiện của nguồn lưu lượng truy cập. Có thể là "miễn phí", "cpc", "giới thiệu" hoặc giá trị của tham số URL utm_medium. trafficCampaign Giá trị chiến dịch, thường được đặt theo tham số URL utm_campaign. isFirstVisit Giá trị là 1 nếu đây là lần truy cập đầu tiên của khách, ngược lại thì 0. isBounce Giá trị là 1 nếu khách truy cập trang web và không quay lại, ngược lại thì 0. totalVisits Tổng số lượt truy cập của khách truy cập trong các phiên. totalHits Tổng số lần tương tác trong các phiên. 311
  4. MARKETING GIAI ĐOẠN BÌNH THƯỜNG MỚI Trường dữ liệu Mô tả totalPageviews Tổng số lượt xem trang trong các phiên. totalTimeOnSite Tổng thời gian trên trang web. totalTransactions Tổng số lần tương tác trong các phiên. productPagesViewed Số trang sản phẩm được xem trong phiên. addedToCart Nếu khách truy cập đã thêm một mặt hàng vào giỏ hàng hoặc thực hiện thêm các hành động tiếp theo (thanh toán, giao dịch) thì giá trị là 1, nếu ngược lại thì 0 (nếu khách truy cập chỉ duyệt nhưng chưa bao giờ thêm một mặt hàng vào giỏ hàng). Bảng 2. Dữ liệu mẫu fullVisitorId visitStartTime date deviceCategory isMobile operatingSystem 2017-02-11 271404407559213000 1486853631 tablet TRUE iOS 00:00:00.000000 UTC browser country city trafficSource trafficMedium trafficCampaign not available in demo Chrome United States dfa cpm (not set) dataset isFirstVisit totalVisits totalHits totalPageviews totalTimeOnSite productPagesViewed 0 1 1 1 0 0 addedToCart 0 Bảng 3. Số lượng dữ liệu ở từng tập huấn luyện và kiểm nghiệm Tập dữ liệu Số lượng (dòng) Huấn luyện 765.707 Kiểm nghiệm 137.946 3.2. Thực nghiệm Các bước thực nghiệm: Bước 1: Tiền xử lý dữ liệu huấn luyện Bước 2: Huấn luyện mô hình dựa trên tập huấn luyện Bước 3: Đánh giá mô hình trên tập huấn luyện Bước 4: Sử dụng mô hình đã được huấn luyện và dự đoán trên tập dữ liệu kiểm nghiệm Trong dự án này chúng tôi tiến hành huấn luyện các mô hình với cả ba thuật toán được nêu trên, một số thông số chính trong việc huẩn luyện khi sử dụng BigQuery ML như sau: 312
  5. KỶ YẾU HỘI THẢO KHOA HỌC CẤP THÀNH PHỐ Bảng 4. Thông số huẩn luyện cho các mô hình Hồi quy logistic ---------- TRANSFORM( * EXCEPT( fullVisitorId, isFirstVisit, date) , CAST (isFirstVisit AS bool) AS isFirstVisit ) ---------- MODEL_TYPE = 'LOGISTIC_REG', INPUT_LABEL_COLS = ['addedToCart'], ENABLE_GLOBAL_EXPLAIN = TRUE Rừng ngẫu nhiên MODEL_TYPE='RANDOM_FOREST_CLASSIFIER', NUM_PARALLEL_TREE = 50, TREE_METHOD = 'HIST', EARLY_STOP = FALSE, SUBSAMPLE = 0.85, INPUT_LABEL_COLS = ['addedToCart'], ENABLE_GLOBAL_EXPLAIN = TRUE  Đối với mô hình hồi quy logistic, chúng tôi thực hiện một số bước tiền xử lý dữ liệu, xử lý các dữ liệu lỗi và cân bằng dữ liệu trước khi huấn luyện. Các thông tin khách hàng lần đầu tiên truy cập, ngày truy cập cập và mã lượt truy cập vào hệ thống cũng được bỏ qua trong quá trình huấn luyện.  Đối với mô hình rừng ngẫu nhiên, trong tập dữ liệu huấn luyện, chúng tôi trích xuất tập con với tỷ lệ 85% để huấn luyện. Số lượng cây quyết định đồng thời là 50, và phương pháp xử lý là HIST. 3.3. Đánh giá kết quả Trong dự án này, chúng tôi sử dụng các số liệu Accuracy, Precision, Recall, và F1 Score để đánh giá và so sánh hiệu suất của các mô hình máy học đã huấn luyện. Bảng 5. Bảng các công thức các phép đo lường (Sokolova & Lapalme, 2009) Phép đo lường Công thức Trọng tâm đánh giá Precision 𝑇𝑃 (2) Tỷ lệ dự đoán tích cực thực sự được thực 𝑇𝑃 + 𝐹𝑃 hiện bởi mô hình Recall 𝑇𝑃 (3) Tỷ lệ các trường hợp Positive thực tế mà mô 𝑇𝑃 + 𝐹𝑁 hình có thể xác định Accuracy 𝑇𝑃 + 𝑇𝑁 (4) Tỷ lệ tổng số dự đoán chính xác được thực 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 hiện bởi mô hình F1 score 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 (5) Đo hiệu suất của mô hình cân bằng giữa 2∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 Precision và Recall 313
  6. MARKETING GIAI ĐOẠN BÌNH THƯỜNG MỚI Trong đó, các chỉ số TP, FP, TN, FN trong các công thức (2), (3), (4), (5), lần lượt là : - TP (True Positive): tổng số trường hợp dự báo khớp Positive. - TN (True Negative): tổng số trường hợp dự báo khớp Negative. - FP (False Positive): tổng số trường hợp dự báo các quan sát thuộc nhãn Negative thành Positive. - FN (False Negative): tổng số trường hợp dự báo các quan sát thuộc nhãn Positive thành Negative. Table 6. Đánh giá kết quả của mô hình trên tập dữ liệu huấn luyện Precision Recall Accuracy F1 score Hồi quy logistic 0.7849 0.3996 0.9604 0.5296 Rừng ngẫu nhiên 0.7702 0.6788 0.9708 0.7216 (a) Hồi quy logistic (b) Rừng ngẫu nhiên Precision Recall Hình 2. Sự biến đổi của Precision và Recall dựa trên ngưỡng Bảng 7. Độ chính xác của các mô hình khi dự đoán trên tập kiểm nghiệm Phương pháp Độ chính xác (%) Hồi quy logistic 92.832 Rừng ngẫu nhiên 98.718 314
  7. KỶ YẾU HỘI THẢO KHOA HỌC CẤP THÀNH PHỐ 100 99 98 97 Độ chính xác (%) 96 95 94 93 92 91 90 89 Hồi quy logistic Rừng ngẫu nhiên Độ chính xác (%) 92.832 98.718 Hình 3. So sánh độ chính xác dự đoán trên tập kiểm nghiệm Mô hình rừng ngẫu nhiên cho kết quả chính xác về dự đoán quyết định mua hàng cao hơn so với mô hình hồi quy logistic. Tuy nhiên thời gian và chi phí huấn luyện mô hình của rừng ngẫu nhiên khi sử dụng BigQuery ML. 4. Kết luận Bài toán dự đoán quyết định mua hàng của khách hàng là một bài toán phổ biến và quan trọng trong lĩnh vực thương mại điện tử. Việc áp dụng BigQuery ML mà cụ thể là các thuật toán tích hợp hồi quy logistic và rừng ngẫu nhiên vào bài toán này trên dữ liệu lớn rất phù hợp. Qua dự án này, chúng tôi đã thực hiện việc huấn luyện và dự đoán trên tập dữ liệu lớn. Mặc dù đòi hỏi quá trình huấn luyện và chi phí cao hơn so với mô hình hồi quy logistic, mô hình rừng ngẫu nhiên cho kết quả dự đoán chính xác cao hơn. Trong tương lai chúng tôi sẽ tiếp tục nghiên cứu và áp dụng một số mô hình mới như Auto Machine Learning (học máy tự động) vào bài toán dự đoán quyết định mua hàng. Kết quả của việc dự đoán quyết định mua hàng giúp doanh nghiệp tập trung hơn vào khách hàng mục tiêu trong quá trình marketing, các trang thương mại điện tử có thể lựa chọn cách trình bày phù hợp với từng đối tượng khách hàng để đạt doanh số tốt hơn. TÀI LIỆU THAM KHẢO Ali, J., Khan, R., Ahmad, N., & Maqsood, I. (2012). Random Forests and Decision Trees. BigQuery: Enterprise Data Warehouse | BigQuery: Cloud Data Warehouse. (2022). Google Cloud. https://cloud.google.com/bigquery Bishop, C. M. (2006). Pattern recognition and machine learning. Springer. Nguyễn Văn Tuấn. (2020). Mô hình hồi qui và khám phá khoa học. Nhà xuất bản Tổng hợp TP.HCM. Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427–437. https://doi.org/10.1016/j.ipm.2009.03.002 Tigani, J., & Naidu, S. (2014). Google BigQuery analytics. Wiley. Yiu, T. (2021, September 29). Understanding Random Forest. Medium. https://towardsdatascience.com/understanding-random-forest-58381e0602d2 315
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2