Tóm tắt luận văn Thạc sĩ: Nghiên cứu luật kết hợp hiếm và khuyến nghị áp dụng cho bài toán tiếp thị

Chia sẻ: Trần Thị Bích | Ngày: | Loại File: PDF | Số trang:21

Thêm vào BST

Báo xấu

108
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây dựng gồm phần mở đầu, 3 chương nội dung và phần kết luận, cụ thể như sau: Tổng quan về vấn đề phát hiện luật kết hợp, luật kết hợp hiếm, khuyến nghị áp dụng luật kết hợp hiếm cho bài toán tiếp thị.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt luận văn Thạc sĩ: Nghiên cứu luật kết hợp hiếm và khuyến nghị áp dụng cho bài toán tiếp thị

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Trần Thu Hà NGHIÊN CỨU LUẬT KẾT HỢP HIẾM VÀ KHUYẾN NGHỊ ÁP DỤNG CHO BÀI TOÁN TIẾP THỊ Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013
Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: Tiến sĩ Hà Hải Nam Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………….. Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ............... Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1 MỞ ĐẦU Phát hiện luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ liệu đã cho. Trong lĩnh vực khai phá dữ liệu (data mining), luật kết hợp (association rule) được dùng để chỉ mối quan hệ "kéo theo" giữa các tập dữ liệu (ví như sự xuất hiện của mặt hàng này "kéo theo" sự xuất hiện của mặt hàng kia) trong một tập bao gồm nhiều đối tượng dữ liệu. Phát hiện luật kết hợp đang được ứng dụng thành công trong một số lĩnh vực kinh tế xã hội khác nhau như thương mại, , y tế, tài chính,…. Một trong những vấn đề mới mà các nhà nghiên cứu hiện nay quan tâm là vấn đề phát hiện luật kết hợp hiếm( gọi tắt là luật hiếm) và ứng dụng luật hiếm vào các lĩnh vực của cuộc sống. Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử dụng thông tin một cách có hiệu quả. Có nghĩa là từ các dữ liệu có sẵn phải tìm ra các thông tin tiềm ẩn mà trước đó chưa được phát hiện, tìm ra xu hướng và các yếu tố tác động lên chúng. Trong chiến lược kinh doanh thì Tiếp thị luôn được xem là cốt lõi của vấn đề, bởi muốn thành công trong kinh doanh thì chương trình tiếp thị, quảng bá đến người tiêu dùng luôn là khâu quan trọng nhất. Từ những yêu cầu thực tế trên, em chọn đề tài “Nghiên cứu luật kết hợp hiếm và khuyến nghị áp dụng cho bài toán tiếp thị”. Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây dựng gồm phần mở đầu, 3 chương nội dung và phần kết luận, cụ thể như sau: Chương 1: Tổng quan về vấn đề phát hiện luật kết hợp. Chương 2: Luật kết hợp hiếm. Chương 3:Khuyến nghị áp dụng luật kết hợp hiếm cho bài toán tiếp thị. Trong quá trình hình thành luận văn học viên đã được sự giúp đỡ tận tình của thầy hướng dẫn TS. Hà Hải Nam, cùng sự giúp đỡ của các thầy cô giáo trong Học viện Bưu chính viễn thông cùng các bạn bè đồng nghiệp. Học viên xin chân thành cảm ơn và mong nhận được sự đóng góp tích cực để bản thân được tự hoàn thiện mình hơn.
2 CHƯƠNG I: TỔNG QUAN VỀ VẤN ĐỀ PHÁT HIỆN LUẬT KẾT HỢP. Trước tiên, chương này sẽ giới thiệu tổng quan về phương pháp chung phát hiện luật kết hợp. Tiếp theo là trình bày quá trình phát hiện luật kết hợp từ CSDL tác vụ và vấn đề phát hiện luật kết hợp từ CSDL định lượng. 1.1 Luật kết hợp và các phương pháp chung phát hiện luật kết hợp. 1.1.1. Bài toán phát hiện luật kết hợp Ngày nay việc phát hiện luật kết hợp đang trở thành một khuynh hướng quan trọng trong khai phá dữ liệu. Luật kết hợp là luật ngầm định một số quan hệ kết hợp giữa một tập các đối tượng, mà các đối tượng này có thể độc lập hoàn toàn với nhau. Khái niệm luật kết hợp (Association Rule) và phát hiện luật kết hợp (Association Rule Mining) được Rakesk Agrawal và các cộng sự đề xuất lần đầu tiên vào năm 1993 nhằm phát hiện các mẫu có giá trị trong CSDL tác vụ (Transaction Database) tại các siêu thị. Mục đích của bài toán phát hiện luật kết hợp là tìm ra mối quan hệ giữa các tập mục dữ liệu trong các CSDL lớn và các mối quan hệ này là có ích trong hỗ trợ quyết định. Trong CSDL dân số, quan hệ “60% số người lao động ở độ tuổi trung niên có thu nhập thấp hơn mức thu nhập bình quân” sẽ rất có ích cho việc điều chỉnh chính sách thu nhập. Trong CSDL siêu thị, việc phát hiện được quan hệ “78% số khách hàng mua sữa và đường cũng mua bơ” sẽ rất có ích cho quyết định kinh doanh, chẳng hạn, quyết định về số lượng nhập các mặt hàng này hoặc bố trí chúng tại các ngăn hàng liền kề nhau. Luật kết hợp (Association rule) được định nghĩa là biểu diễn mối quan hệ giữa hai tập mục dưới dạng X  Y, trong đó X  I, Y  I, X  Y = . X được gọi là phần tiền đề (antecedent) và Y được gọi là phần hệ quả (consenquent) của luật. 1.1.2. Quy trình phát hiện luật kết hợp
3 Theo thống kê của Microsoft [5], đã có 2671 tác giả công bố 1526 công trình khoa học có giá trị (với 10224 lần được chỉ dẫn) về phát hiện luật kết hợp. Mục đích của bài toán phát hiện luật kết hợp trong CSDL tác vụ D là đi tìm tất cả các luật kết hợp mạnh (độ hỗ trợ cực tiểu và độ tin cậy cực tiểu do người sử dụng đưa ra trong quá trình phát hiện luật). Các thuật toán phát hiện luật kết hợp thường chia quá trình giải bài toán này thành hai bước như sau: (1) Bước 1: Tìm tất cả các tập phổ biến trong CSDL D. (2) Bước 2: Với mỗi tập phổ biến I1 tìm được ở bước 1 tất cả các luật mạnh có dạng I2 I1 – I2, I2  I1 Trong đó, ở bước thứ 1 đây là giai đoạn khó khăn, phức tạp và tốn nhiều chi phí. Bước 2 được giải quyết đơn giản hơn khi đã có các tập phổ biến và độ hỗ trợ của chúng. Bài toán tìm tập phổ biến trong không gian các tập con của tập mục I có độ phức tạp tính toán là O(2I). 2.1 Phát hiện luật kết hợp từ CSDL tác vụ. Nghiên cứu phát hiện luật kết hợp trong CSDL tác vụ được khởi đầu từ phát hiện luật kết hợp với một ngưỡng độ hỗ trợ, tới phát hiện luật kết hợp với độ hỗ trợ khác nhau cho các mục dữ liệu. 1.2.1. Phát hiện luật kết hợp với một ngưỡng độ hỗ trợ. Bài toán phát hiện luật kết hợp đưa ra một ngưỡng độ hỗ trợ chung( độ hỗ trợ cực tiểu) do người sử dụng đưa vào. Việc phát hiện luật kết hợp tuân thủ theo quy trình hai bước, tập chung vào bước tìm ra tập các tập phổ biến, với ba hướng giải quyết: - Tìm tất cả các tập phổ biến. - Tìm tất cả các tập phổ biến đóng. - Tìm tất cả các tập phổ biến cực đại. 1.2.1.1. Phát hiện luật kết hợp từ tất cả các tập phổ biến
4 Các phương pháp được sử dụng ở đây là phương pháp duyệt không gian tìm kiếm, các phương pháp xác định trước hỗ trợ. Bỏ qua độ phức tạp vào – ra và tính toán khi duyệt CSDL, các thuật toán này đều thực hiện tìm kiếm trên cây các tập con của tập mục vì vậy độ phức tạp tính toán là O( ). Phương pháp duyệt không gian tìm kiếm được chia thành hai nhóm tương ứng: duyệt theo chiều rộng (Breadth First Search - BFS) và duyệt theo chiều sâu(Depth First Search - DFS). Duyệt theo chiều rộng là duyệt theo kích thước k của các tập mục ứng viên lần lượt từ kích thước 1, 2, ….Một số thuật toán phổ biến theo cách tiếp cận này là Apriori, Partition, ….,thuật toán Apriori( hình 1.1) được xếp vào tốp 10 thuật toán khai phá dữ liệu điển hình nhất. Thuật toán Apriori thực hiện nhiều lần duyệt dữ liệu, trong lần duyệt thứ nhất, ta tính độ hỗ trợ của tập mục riêng và xác định mục phổ biến trong chúng, nghĩa là thỏa mãn độ hỗ trợ cực tiểu. Trong mỗi lần duyệt sau ta sử dụng các tập phổ biến đã tìm được trong lần duyệt trước để sinh ra tập phổ biến tiềm năng, gọi là tập ứng viên và tính độ hỗ trợ của tập ứng viên này khi duyệt qua dữ liệu, ở cuối mỗi lần duyệt ta xác định được tập item nào là tập phổ biến thực sự trong các tập ứng viên. Quá trình đó thực hiện cho tới khi không còn tập mục phổ biến nào mới được tìm thấy nữa. Bảng 1.1: Bảng kí hiệu sử dụng trong thuật toán Apriori 1 Ký hiệu Ý nghĩa k-itemset Tập có k-mục dữ liệu Tập chứa k= itemset phổ biến. Mỗi phần tử của tập này có hai trường: Lk i) itemset và ii) độ hỗ trợ của itemset đó Tập chứa các k-itemset ứng viên( các tập phổ biến à tiềm năng). Mỗi Ck phần tử của tập này có hai trường: i) itemset và ii) độ hỗ trợ.
5 Đầu vào: CSDL D, độ hỗ trợ cực tiểu minSup Kết quả: Tập các tập phổ biến Thuật toán Apriori tìm các tập phổ biến: 1. L1 = {1-tập mục dữ liệu phổ biến}; 2. for ( k = 2; Lk-1 ; k++ ) do begin 3. Ck = apriori-gen(Lk-1, minsupp); // sinh ra các ứng cử viên Lk-1 4. forall transactions t  D do begin 5. Ct = subset(Ck, t); // ứng cử viên được chứa trong t 6. forall candidates c Ct do 7. c.count++; 8. end 9. Lk = {c  Ck c:count  minSup} 10. end 11. Answer = UkLk Hàm Apriori – Gen sinh ra các ứng cử viên: Procedure apriori-gen(Lk-1) insert into Ck //bước kết nối select p.item1, p.item2,…,p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1 = q.item1,…,p.itemk-2 = q.itemk-2, p.itemk-1
6 Với những CSDL quá dầy( mọi giao dịch đều có số lượng lớn các mặt hàng) thì số lượng tập phổ biến đóng cũng rất lớn và phương pháp chỉ tìm các tập phổ biến cực đại được đề xuất để khác phục tình huống này. Tập phổ biến X là cực đại nếu không có tập phổ biến khác chứa nó. Như vậy không gian tập phổ biến cực đại là nhỏ hơn không gian tập phổ biến đóng. Từ các tập phổ biến cực đại cho phép sinh ra được tất cả các tập phổ biến nhưng có hạn chế là không ghi được độ hỗ trợ của chúng. Một số thuật toán tìm tập phổ biến cực đại điển hình là Max – Miner, MAFIA, GENMAX… 1.2.2. Phát hiện luật kết hợp với độ hỗ trợ khác nhau. 1.2.2.1. Phát hiện luật kết hợp có ràng buộc mục dữ liệu Phát hiện luật kết hợp trong CSDL sinh ra rất nhiều luật trong khi người sử dụng lại chỉ quan tâm đến một phần trong các luật được phát hiện, như là chỉ quan tâm đến các luật có chứa một mục dữ liệu cụ thể, vì vậy, các nghiên cứu phát hiện luật kết hợp theo ràng buộc mục dữ liệu ra đời. 1.2.2.2. Phát hiện luật kết hợp với độ hỗ trợ nhiều mức Thực tiễn cho thấy, với cùng một CSDL, có thể có nhiều tập mục có tần suất xuất hiện rất cao nhưng có nhiều tập mục khác lại có tần suất xuất hiện rất thấp và việc sử dụng một ngưỡng độ hỗ trợ (tương ứng với giả thiết tần suất xuất hiện của các mục là như nhau) là không hợp lý. Hướng tiếp cận phát hiện luật kết hợp với độ hỗ trợ nhiều mức được đưa ra nhằm khắc phục điều bất hợp lý này, theo đó, người dùng có thể đưa ra ngưỡng độ hỗ trợ cực tiểu khác nhau cho từng mục dữ liệu. Bằng việc đặt độ hỗ trợ cực tiểu thấp cho các mục dữ liệu tần số thấp cho phép người sử dụng sẽ tìm được các luật kết hợp đa dạng hơn. 1.2.2.3. Phát hiện luật kết hợp có trọng số Một khái niệm mang tính thực tế là các tập mục không đơn thuần chỉ được xét là “có” hay “không” trong khi tính độ hỗ trợ mà mỗi tập mục được kèm theo một trọng số mô tả mức quan trọng của tập mục đó. Tập mục càng quan trọng thì
7 cần được gắn trọng số lớn. Phát hiện luật kết hợp có trọng số đã dựa trên tính chất đóng của trọng số( weighted downward closure property). Thứ tự ưu tiên chọn các tập mục dựa vào tầm quan trọng của nó thay vì tần suất xuất hiện. Như vậy, các luật kết hợp sinh ra theo hướng này phụ thuộc vào việc sử dụng trọng số. Để có được các luật kết hợp hữu ích thì phải xác định được cách thức gắn trọng số phù hợp cho các mục dữ liệu. Các tác giả[10] đã đề xuất hai loại trọng số là: Trọng số mục dữ liệu( item weight) và trọng số tập mục dữ liệu( itemset weight). Trọng số mục dữ liệu w(i) được gắn với một mục dữ liệu và thể hiện tầm quan trọng của nó( chẳng hạn trong CSDL siêu thị có thể chọn dựa vào lợi nhuận của mặt hàng). Trọng số tập mục dữ liệu được tính dựa vào trọng số của mục dữ liệu. Cách đơn giản nhất để xác định trọng số của tập mục dữ liệu là dựa vào giá trị trung bình cộng của trọng số mục dữ liệu. 1.2.2.4. Phát hiện luật kết hợp có ràng buộc độ hỗ trợ. Sử dụng ràng buộc độ hỗ trợ giảm dần theo độ dài của tập mục (length- decreasing support constraint), Thuật toán LPMiner được đề xuất [8]. Thuật toán hướng tới việc tìm các tập mục dữ liệu thỏa mãn điều kiện f(1) với 1 là độ dài của tập mục dữ liệu, cụ thể f( la )  f( lb ) với mọi lavà lb thỏa mãn điều kiện la< lb. Các tác giả đưa ra ngưỡng độ hỗ trợ mà theo đó sẽ giảm dần theo chiều dài của tập mục dữ liệu. Một tập mục được coi là phổ biến nếu thỏa mãn ràng buộc độ hỗ trợ giảm dần theo độ dài của nó. Trái với cách tiếp cận truyền thống, tập mục được coi là phổ biến ngay cả khi tập con của nó là không phổ biến. Như vậy tính chất đóng về độ hỗ trợ theo thuật toán Apriori đã không còn đúng. Để khắc phục vấn đề này, các tác giả đã phát triển tính chất giá trị nhỏ nhất ( SVE – smallest valid extension). Cách tiếp cận này đề cao các tập mục nhỏ, tuy nhiên tập mục dài có thể rất hữu ích, ngay cả khi chúng ít phổ biến hơn. Thuật toán tìm ra các tập dài mà không cần phải sinh một số lượng lớn các tập ngắn tránh được sự bùng nổ số lượng lớn các tập mục nhỏ. 1.2.2.5. Phát hiện luật kết hợp không sử dụng độ hỗ trợ cực tiểu.
8 Quá trình phát hiện luật kết hợp được chia thành hai giai đoạn, giai đoạn thứ nhất là tìm ra các tập phổ biến có độ hỗ trợ lớn hơn hoặc bằng một giá trị chung nào đó(gọi là độ hỗ trợ cực tiểu, ký hiệu là minSup), còn giai đoạn hai là tìm các luật kết hợp từ các tập tìm được ở giai đoạn thứ nhất và có độ tin cậy lớn hơn hoặc bằng một giá trị chung khác(gọi là độ tin cậy cực tiểu, ký hiệu minConf). Trong đó, giai đoạn tìm các tập phổ biến là phức tạp và tốn nhiều chi phí nhất. 1.3. Phát hiện luật kết hợp từ CSDL định lượng. 1.3.1. Phát hiện luật kết hợp định lượng Hầu hết các CSDL là CSDL định lượng mà không phải là CSDL tác vụ. Phát hiện luật kết hợp từ các CSDL định lượng(số, phân loại) có ý nghĩa ứng dụng lớn hơn nhiều so với CSDL tác vụ. Năm 1996, lần đầu các tác giả[4] đưa ra giải pháp rất đơn giản giải quyết vấn đề này: đầu tiên, rời rạc hóa các thuộc tính định lượng để chuyển CSDL đã cho thành CSDL tác vụ, và sau đó, áp dụng một thuật toán phát hiện luật kết hợp đã biết từ CSDL tác vụ( tương tự như thuật toán Apriori) 1.3.2. Phát hiện luật kết hợp mờ Trên thực tế việc phát hiện các luật kết hợp có ý nghĩa ứng dụng to lớn khi giải quyết được vấn đề phát hiện luật kết hợp từ các CSDL. Để giải quyết vấn đề đó người ta ứng dụng lý thuyết tập mờ để chuyển đổi CSDL định lượng thành CSDL mới( gọi là CSDL “mờ”) 1.3.3. Phân hoạch mờ Tham khảo trong [2] đã đưa ra phương pháp phân hoạch mờ nhiều chiều nhằm phát hiện mẫu phổ biến mờ và luật kết hợp mờ. Phương pháp này sử dụng hướng tiếp cận từ trên xuống( top-down), trong đó sẽ lặp đi lặp lại việc đưa thêm các điểm phân chia mới cho các khoảng dựa trên việc đo ý nghĩa của nhiều biến. Ưu điểm của phương pháp là không cần tạo giả thiết về phân bố dữ liệu và về các khoảng nhỏ nhất. Khi phân hoạch khoảng giá trị của mỗi thuộc tính thành một số
9 khoảng mờ (hình 1.5) và chuyển các giá trị sang tương ứng trong CSDL với thuộc tính mờ (gọi tắt CSDL mờ) cần xây dựng hàm thành viên. Kết luận chương 1: Nội dung chương 1 đã giới thiệu tổng quan các nghiên cứu về phát hiện luật kết hợp, phương pháp chung phát hiện luật kết hợp và vấn đề phát hiện luật kết hợp từ CSDL tác vụ, phát hiện luật kết hợp từ CSDL định lượng. Từ phần nghiên cứu tổng quan này đã giúp cho học viên có kiến thức và căn cứ cơ sở để lựa chọn và thực hiện hướng nghiên cứu của mình.
10 CHƯƠNG II: LUẬT KẾT HỢP HIẾM Chương 2 giới thiệu chung về luật kết hợp hiếm, trọng tâm là luật kết hợp hiếm Sporadic tuyệt đối và không tuyệt đối. Một số thuật toán phát hiện tập hiếm được trình bày trong chương này là tiền đề cho các cài đặt thử nghiệm ở chương 3. Tiếp theo,chương 2 cũng đưa ra thảo luận ngắn gọn về khuynh hướng nghiên cứu luật kết hợp hiếm. 2.1. Giới thiệu chung về luật kết hợp hiếm. Luật kết hợp hiếm hàm ý chỉ các luật kết hợp không xảy ra thường xuyên trong các CSDL. Mặc dù ít khi xảy ra, nhưng trong nhiều trường hợp chúng lại là các luật rất có giá trị. Luật kết hợp hiếm được ứng dụng ở nhiều các lĩnh vực khác nhau. Các luật hiếm sẽ giúp cho việc học phát âm từ, xác định ảnh hưởng của các hoạt động trong việc học trực tuyến đến kết quả đánh giá cuối cùng của sinh viên, xác định được các bệnh hiếm gặp trong y khoa, dự báo việc hỏng thiết bị truyền thông, phát hiện dấu hiệu tràn dầu trên hình ảnh vệ tinh, hay giúp xác định các mặt hàng tuy ít xảy ra trong các giao dịch mua bán nhưng lại có giá trị lớn hoặc mang lại lợi nhuận cao trong kinh tế. Phát hiện luật kết hợp hiếm là một phần của bài toán phát hiện luật kết hợp và hiện đang nhận được nhiều sự quan tâm của các nhà nghiên cứu. 2.2. Phát hiện luật kết hợp hiếm. Phần này sẽ nghiên cứu và giới thiệu vấn đề phát hiện luật hiếm từ CSDL định lượng với việc phát hiện luật kết hợp hiếm Sporadic. 2.2.1. Phát hiện luật kết hợp hiếm từ các CSDL định lượng Nhằm phát hiện luật kết hợp định lượng hiếm. Định nghĩa về luật kết hợp định lượng có ý nghĩa được các tác giả [2] đưa ra như sau:
11 Luật chung (genral rule): Nếu tập mục định lượng Y={(A=q1),(Bq2)} thỏa mãn Qminsup, tức là sup(Y) Qminsup thì luật {A=q1}{Bq2} là luật định lượng có ý nghĩa. Luật đơn giản (simple rule): Nếu tập mục định lượng X={(A=q1),(B=q2)} thỏa mãn QminSup, tức là sup(X)  Qminsup thì luật {A=q1}{B=q2} là luật định lượng có ý nghĩa. Luật rút gọn(semantic rule): Người sử dụng có thể sử dụng các cụm từ chỉ số lượng như: số lượng lớn, số lượng trung bình, số lượng nhỏ. Khi đó ta cũng có thể định nghĩa các luật định lượng dựa trên các thuật ngữ chỉ số lượng này, chẳng hạn luật {A=”Số lượng lớn”}{B=”Số lượng nhỏ”}. 2.2.2. Luật hiếm Sporadic Trong[3] các tác giả đề cập bài toán phát hiện luật Sporadic, một kiểu luật kết hợp hiếm. Họ chia luật Sporadic thành hai loại là: luật Sporadic tuyệt đối và luật Sporadic không tuyệt đối. Luật Sporadic tuyệt đối XY với độ hỗ trợ cực tiểu minSup và độ tin cậy cực tiểu minConf là các luật kết hợp thỏa mãn: (2.1) Độ hỗ trợ của luật Sporadic tuyệt đối nhỏ hơn maxSup(tính hiếm) và mọi mục dữ liệu trong tập XY đều có độ hỗ trợ nhỏ hơn maxSup(tính hiếm ”tuyệt đối”). 2.2.3. Khuynh hướng nghiên cứu về luật hiếm Quá trình sinh ra tất cả các luật hiếm hữu ích vẫn là một vẫn đề khó, nó bị giới hạn bởi tính chất tự nhiên của dữ liệu. Các luật hiếm là sự kết hợp của: (1) các mục dữ liệu hiếm;
12 (2) các mục dữ liệu hiếm và các mục dữ liệu phổ biến; (3) các mục dữ liệu phổ biến, có độ hỗ trợ cao Khi xét riêng từng mục dữ liệu, nhưng khi kết hợp lại tạo thành các tập mục có độ hỗ trợ nhỏ. Vì thế không thể dùng các kỹ thuật phát hiện tập phổ biến thông thường để phát hiện các luật kết hợp hiếm. Độ hỗ trợ thấp của các tập mục gây trở ngại lớn cho quá trình phát hiện luật hiếm. Trong [ 1], tác giả đã chỉ ra rằng: Phát hiện luật kết hợp hiếm yêu cầu kỹ thuật tiền xử lý khác so với phát hiện luật phổ biến. Mặc dù bắt đầu trong cùng vùng dữ liệu, nhưng tính chất của các luật là khác nhau, ngày nay các kỹ thuật tiền xử lý nhằm hỗ trợ cho việc phát hiện luật phổ biến được thiết kế chỉ phù hợp với đặc tính của các luật phổ biến. Việc phát triển các kỹ thuật tương ứng dành cho phát hiện luật kết hợp hiếm vẫn là vấn đề mở với các hướng tiếp cận khác nhau: Kết luận chương 2 Trong chương 2, luận văn đã mở rộng bài toán phát hiện luật kết hợp hiếm , đưa ra vấn đề của việc phát hiện luật kết hợp hiếm, quá trình phát hiện luật kết hợp hiếm từ CDSL định lượng, và vấn đề phát hiện luật hiếm Sporadic với một số khuynh hướng nghiên cứu về luật hiếm.
13 CHƯƠNG III: KHUYẾN NGHỊ ÁP DỤNG LUẬT KẾT HỢP HIẾM TRONG BÀI TOÁN TIẾP THỊ: Nội dung chương 3 đưa ra vấn đề ứng dụng luật kết hợp hiếm vào bài toán tiếp thị trong kinh doanh. Lĩnh vực mà luận văn quan tâm ở đây là đưa ra mô hình bài toán tiếp thị với đề xuất các luật kết hợp hiếm vừa tìm được ở trên ứng dụng vào bài toán, đưa ra giải pháp cho bài toán tiếp thị nhằm phát triển kinh doanh. 3.1. Khai phá dữ liệu và bài toán tiếp thị Như chúng ta đã biết trong kinh doanh, muốn đạt kết quả cao thì Maketing đóng một vai trò quan trọng không thể thiếu trong việc tiếp cận với khách hàng, quảng bá sản phẩm và phát triển kinh doanh. Để bán được nhiều sản phẩm cũng như muốn người tiêu dùng biết đến sản phẩm của mình thì khâu tiếp thị đến khách hàng luôn được các doanh nghiệp chú trọng đầu tư nhiều nhất. Bên cạnh đó việc biết kết hợp các sản phẩm cùng chủng loại hay có thể được mua cùng với nhau trên cùng một gian hàng cũng sẽ mang lại kết quả tốt nhất. Ví dụ theo khảo sát thì cứ 50 người mua bánh mì thì có 40 người cùng mua sữa hay bơ. Trong khi khai phá dữ liệu tập trung vào việc chiết suất các thông tin có tính dự đoán về khách hàng và kinh doanh từ các cơ sở dữ liệu, nghiên cứu tiếp thị truyền thống tập trung vào việc xác định các yếu tố ảnh hưởng đến quyết định mua sắm của các hộ gia đình và tổ chức. Dữ liệu liên quan được thu thập, thông thường thông qua dữ liệu kinh doanh, các khảo sát và nhóm nghiên cứu tập trung. Các nhà nghiên cứu tiếp thị truyền thống xác định một cơ hội, thu thập thông tin cần thiết sau đó hình thành một chiến lược kinh doanh phù hợp. 3.2. Khuyến nghị áp dụng khai phá dữ liệu với luật kết hợp hiếm cho bài toán tiếp thị. Các quyết định tiếp thị, như là khuyến mãi, các kênh phân phối và phương tiện quảng cáo, dựa trên các phương pháp tiếp cận phân đoạn truyền thông dẫn đến tỷ lệ đáp ứng kém và giá thành cao. Khách hàng ngày nay có các thị hiếu và sở
14 thích khó có thể nhóm thành các nhóm đồng nhất để phát triển các chiến lược tiếp thị theo nhóm. Trong thực tế, mỗi khách hàng muốn được phục vụ theo nhu cầu cá nhân và duy nhất. Việc ứng dụng luật kết hợp hiếm được khuyến nghị áp dụng trong ba phạm vi chính của tiếp thị dựa trên tri thức đó là: 1) Xây dựng hồ sơ cá nhân khách hàng; 2) Phân tích biến động và 3) Phân tích xu hướng. 3.1.1. Xây dựng hồ sơ cá nhân khách hàng Một trong những tri thức hữu ích về khách hàng là hồ sơ, nó có thể được sử dụng để đưa ra một số quyết định tiếp thị quan trọng. Một hồ sơ cá nhân khách hàng là một mô hình khách hàng, dựa trên đó các chuyên gia tiếp thị quyết định các chiến lược và chiến thuật tiếp thị đúng đắn để đáp ứng các yêu cầu của khách hàng. Hình 3.1 trình bày một hệ thống xây dựng hồ sơ cá nhân sử dụng kỹ thuật khai phá dữ liệu. CSDL khách hàng Danh mục Tóm lược Khách Phân biệt Đặc tính hàng Khách hàng CSDL giao dịch Ưu đãi Tóm lược Sản phẩm phổ Phù hợp Khách hàng CSDL Phân biệt biến sản Đặc tính Sản phẩm phẩm Số lượng sản phẩm bán Dự báo bán hàng Hình 3.1: Hệ thống xây dựng hồ sơ cá nhân khách hàng 2 3.1.2. Phân tích biến động Tri thức về biến động đặc biệt quan trọng đối với các chuyên gia tiếp thị. Một biến động có thể là một gian lận hoặc thay đổi bất thường. Trong quá khứ, các
15 biến độn rất khó có thể được phát hiện kịp thời để có các hành động phù hợp. Các công cụ khai phá dữ liệu cung cấp các phương tiện mạnh như là mạng nơ ron nhân tạo để phát hiện và phân loại các biến động đó. Ví dụ một mua sắm với lượng tiền lớn hơn thông thường có thể là một bất thường liên quan đến gian lận hoặc là một mua sắm thật do sự thay đổi từ phía khách hàng. 3.1.3. Phân tích xu hướng Các xu hướng là các mẫu không thay đổi trong một giai đoạn thời gian. Các xu hướng có thể là các xu hướng ngắn hạn như là sự tăng tức thời và sự giảm chậm của sản lượng kinh doanh do một chiến dịch kinh doanh. Hoặc các xu hướng có thể là dài hạn như là sự tăng chậm sản lượng kinh doanh một sản phẩm trong một vài năm. Các công cụ khai phá dữ liệu giúp phát hiện các xu hướng, đôi khi khá tinh tế và bị che giấu trong cơ sở dữ liệu và có thể bị bỏ lỡ nếu sử dụng các công cụ phân tích truyền thống. Trong các quyết định tiếp thị, các xu hướng có thể được sử dụng để đánh giá các chương trình tiếp thị hoặc để dự đoán sản lượng kinh doanh tương lai. a) Đánh giá hiệu suất của sản phẩm hoặc các chương trình tiếp thị b) Dự báo bán hàng trong tương lai 3.2. Thử nghiệm và kết quả Học viên đã tiến hành thử nghiệm với CSDL của một cửa hàng bán đồ trẻ em. CSDL ban đầu gồm nhiều thuộc tính và nằm trong nhiều bảng. Học viên đã tiến hành xử lý thủ công sử dụng các công cụ của Hệ quản trị CSDL PostgreSQL để tạo ra một bảng CSDL giao dịch với các thuộc tính được định nghĩa ở bảng 3.1 bao gồm Áp dụng thuật toán Apriori-Inverse nhằm tìm ra các tập hiếm Sporadic tuyệt đối trên tập dữ liệu với ngưỡng maxSup=0,5. Kết quả thử nghiệm thu được một số luật sau: Luật 1: (ProductTypeByAge =1, CareerType =1) => PromotionType= 0 với conf = 0.7
16 Luật này có thể được suy diễn như sau: Khi mua đồ cho trẻ em từ 1-2 tuổi khách hàng có nghề nghiệp văn phòng không mua các sản phẩm khuyến mãi. Luật 2: ( ProductType =1, ProductTypeByAge =1, CareerType =1) => PromotionType=0 với conf = 0.75 Luật này được suy diễn như sau: Khi mua thực cho phẩm trẻ em từ 1-2 tuổi, khách hàng có nghề nghiệp văn phòng không mua các sản phẩm khuyến mãi. Luật 3: (ProductPrice >= 300.000, ProductType =2, CareerType=2) => Month = 1) với conf = 0.8 Luật 4: (ProductPrice >= 300.000, ProductType = 2, CareerType=2) => Month = 2) với conf = 0.76 Luật 3 và 4 được suy diễn như sau: Vào tháng 1 và tháng 2 các khách hàng có nghề nghiệp lao động phổ thông mua đồ chơi trẻ em có giá trị lớn hơn 300.000 VND. Tuy thử nghiệm được tiến hành chỉ đưa ra một số luật hiếm khá đơn giản, thử nghiệm cũng minh chứng được khả năng áp dụng khai phá luật hiếm trong các ứng dụng tiếp thị sản phẩm dịch vụ. Kết luận chương: Trong chương thứ 3, luận văn đã trình bày kết quả ứng dụng khai phá dữ liệu với luật kết hợp hiếm cho bài toán tiếp thị. Việc ứng dụng luật kết hợp hiếm được khuyến nghị áp dụng vào ba phạm vi chính của tiếp thị dựa trên tri thức là: Xây dựng hồ sơ khách hàng, phân tích biến động và phân tích xu hướng. Thử nghiệm được áp dụng với CSDL của một của hàng bán đồ trẻ em cũng đã mang lại kết quả hữu ích mà bài toán tiếp thị cần quan tâm. Đưa ra được một số luật cần thiết áp dụng cho tiếp thị.
17 PHẦN KẾT LUẬN Các kết quả đạt được: Luận văn đã nghiên cứu về lý thuyết và ứng dụng vấn đề phát hiện luật kết hợp, ứng dụng khai phá luật kết hợp với luật kết hợp hiếm vào bài toán tiếp thị. Các nỗ lực hiện tại trong quản lý quan hệ khách hàng được tập trung vào giao diện khách hàng và quản lý các tương tác với khách hàng.