Báo cáo nghiên cứu khoa học: Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị
lượt xem 11
download
Đề tài "Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị" tập trung nghiên cứu về các khía cạnh sau: nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá tập mục thường xuyên; xây dựng mô hình áp dụng một số thuật toán khai phá mục thường xuyên hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị;... Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Báo cáo nghiên cứu khoa học: Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị
- 0 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 Chủ nhiệm đề tài: ThS. GVC. NGUYỄN HƯNG LONG Thành viên tham gia: ThS. Nguyễn Thị Vân Trang ThS. Lê Kim Anh Hà Nội, 03/2021
- 1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Chủ nhiệm đề tài: ThS. GVC. NGUYỄN HƯNG LONG Thành viên tham gia: ThS. Nguyễn Thị Vân Trang ThS. Lê Kim Anh Xác nhận của Trường Đại học Thương mại Chủ nhiệm đề tài Hà Nội, 03/2021
- 2 MỤC LỤC DANH MỤC CÁC BẢNG....................................................................................................... 4 DANH MỤC CÁC HÌNH ........................................................................................................ 5 DANH MỤC CÁC TỪ VIẾT TẮT ......................................................................................... 6 CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI .................................................. 9 1. Tính cấp thiết của đề tài................................................................................................... 9 2. Tổng quan đề tài nghiên cứu ......................................................................................... 10 3. Mục tiêu nghiên cứu ...................................................................................................... 15 4. Đối tượng và phạm vi nghiên cứu ................................................................................. 15 5. Phương pháp nghiên cứu ............................................................................................... 15 6. Kết cấu báo cáo nghiên cứu ........................................................................................... 16 CHƯƠNG 2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN........................................ 17 2.1. Hệ thống bán hàng siêu thị ......................................................................................... 17 2.1.1. Hệ thống quản lí bán hàng .................................................................................. 17 2.1.2. Siêu thị và đặc trưng của siêu thị ........................................................................ 17 2.1.3. Công việc và chức năng chính của siêu thị ......................................................... 18 2.2. Cơ sở dữ liệu bán hàng siêu thị .................................................................................. 19 2.2.1. Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu ....................................... 19 2.2.2. Cơ sở dữ liệu bán hàng siêu thị ........................................................................... 21 2.3. Khai phá dữ liệu và khai phá dữ liệu bán hàng siêu ................................................... 23 2.3.1. Khai phá dữ liệu .................................................................................................. 23 2.3.2. Khai phá dữ liệu bán hàng siêu thị...................................................................... 24 2.4. Mô hình bài toán và thuật toán khai phá TMTX ........................................................ 25 2.4.1. Mô hình bài toán và thuật toán khai phá tập mục thường xuyên đa ngưỡng/một ngưỡng .......................................................................................................................... 25 2.4.2. Mô hình bài toán và thuật toán khai phá tập mục thường xuyên với trọng số thích nghi ...................................................................................................................... 28 CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ ..................................................... 34 3.1. Ứng dụng thuật toán khai phá tập mục thường xuyên phân tích cơ sở dữ liệu bán hàng siêu thị ....................................................................................................................... 34 3.1.1. Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng ................................ 34 3.1.2. Ứng dụng thuật toán BMB khai phá TMTX ....................................................... 39
- 3 3.2. Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân tích cơ sở dữ liệu bán hàng siêu thị............................................................................... 43 3.2.1. Đặt bài toán ......................................................................................................... 43 3.2.2. Tổ chức khai phá dữ liệu .................................................................................... 43 3.2.3. Nhận xét, đánh giá kết quả khai phá ................................................................... 46 CHƯƠNG 4. KẾT LUẬN, THẢO LUẬN VÀ ĐỀ XUẤT VẤN ĐỀ NGHIÊN CỨU ......... 48 4.1. Các kết luận ................................................................................................................ 48 4.2. Các dự báo phát triển về các vấn đề nghiên cứu ........................................................ 48 4.3. Các đề xuất kiến nghị vấn đề nghiên cứu ................................................................... 48 Tài liệu tham khảo .................................................................................................................. 50
- 4 DANH MỤC CÁC BẢNG Bảng 1. Biểu diễn ngang của CSDL giao tác ..............................................................25 Bảng 2. Dòng dữ liệu tại thời điểm T1........................................................................29 Bảng 3. Trọng số các mục theo lô tại thời điểm T1. ...................................................30 Bảng 4. Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)....................34 Bảng 5. Bảng các tập TMTX tương ứng với các ngưỡng ...........................................35 Bảng 6. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟏 = 𝟎. 𝟓 ................................................................................................36 Bảng 7. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟐 = 𝟎. 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎. 𝟔 ......................................................................36 Bảng 8. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟒 = 𝟎. 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎. 𝟕 ......................................................................37 Bảng 9. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟔 = 𝟎. 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎. 𝟖 ......................................................................37 Bảng 10. Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟖 = 𝟎. 𝟖𝟓 ..............................................................................................37 Bảng 11. Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) ....39 Bảng 12. Ma trận nhị phân A ......................................................................................39 Bảng 13. Ma trận rút gọn A1......................................................................................40 Bảng 14. Ma trận rút gọn A2.......................................................................................41 Bảng 15. Ma trận nhị phân thu gọn A3 .......................................................................41 Bảng 16. Tập các mặt hàng thường xuyên và độ hỗ trợ..............................................42
- 5 DANH MỤC CÁC HÌNH Hình 1. Cây SAWFI-tree sau khi chèn 12 giao tác trong 3 lô của dòng dữ liệu .........32 Hình 2. Cây SAWFI-tree(e) và cây điều kiện của “e” ................................................44 Hình 3. Cây SAWFI-tree(d), cây điều kiện của “d” và “cd” ......................................45 Hình 4. Cây SAWFI-tree(c), cây điều kiện của “c” ....................................................45
- 6 DANH MỤC CÁC TỪ VIẾT TẮT 1. Danh mục từ viết tắt tiếng Việt TT Từ viết tắt Cụm từ đầy đủ 1 KPDL Khai phá dữ liệu 2 CSDL Cơ sở dữ liệu 3 DHTVTS Độ hỗ trợ với trọng số 4 TMTX Tập mục thường xuyên 5 TMUV Tập mục ứng viên 2. Ngĩa các từ tiếng Anh TT Cụm từ tiếng Anh Nghĩa tiếng Việt 1 Downward Closure Property Bao đóng xuống 2 Data Mining Khai phá dữ liệu 3 Frequent Items Mining Khai phá tập mục thường xuyên 4 Frequnet Pattern Mẫu thường xuyên 5 Itemset Tập mục 6 Transaction Giao tác 7 Transaction Data Base Cơ sở dữ liệu giao tác
- 7 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NCKH CẤP TRƯỜNG 1. Thông tin chung: - Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ Mã số: CS20 - 42 - Chủ nhiệm: ThS, GVC NGUYỄN HƯNG LONG - Cơ quan chủ trì: Trường Đại học Thương mại - Thời gian thực hiện: 30/08/2020 – 31/03/2021 2. Mục tiêu: Đề tài tập trung nghiên cứu về các khía cạnh sau: - Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá TMTX. - Xây dựng mô hình áp dụng một số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị. - Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị. 3. Tính mới và sáng tạo: Đề tài đã vận dụng tính khoa học của lĩnh vực Khai phá dữ liệu, cụ thể một số thuật toán khai phá tập mục thường xuyên và ứng dụng các thuật toán này cho bài toán phân tích cơ sở dữ liệu bán hàng siêu thị. Đây cũng là xu hướng cần thiết trong việc giải quyết các bài toán khai phá trên các cơ sở dữ liệu lớn và phức tạp trong bối cảnh của nền kinh tế tri thức. Trong số các thuật toán được trình bày trong đề tài các tác giả đã vận dụng và đề xuất thuật toán khác có tính hiệu quả hơn về bộ nhớ cũng như độ phức tạp về thời gian. Đây cũng là sự cần thiết cho các nhà nghiên cứu khi nghiên cứu về lĩnh vực khai phá dữ liệu. Kết quả của đề tài có thể ứng dụng trong nhiều mặt của đời sống - xã hội chứ không chỉ cho bài toán phân tích cơ sở dữ liệu bán hàng siêu thị.
- 8 4. Kết quả nghiên cứu: - Đề tài đã đạt được các mục tiêu đề ra. - Có công bố 2 sản phẩm khoa học - Một Báo cáo tổng kết. 5. Công bố sản phẩm khoa học từ kết quả nghiên cứu của đề tài Để thực hiện đề tài tác giả và cộng sự đã công bố 2 bài viết cho Hội thảo quốc gia và Hội thảo cấp Trường rất có uy tín. 1) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2020), Ứng dụng thuật toán khai phá tập phổ biến dựa trên ma trận nhị phân trong phân tích cơ sở dữ liệu bán hàng siêu thị, Kỷ yếu Hội thảo quốc gia “Phát triển Thương mại điện tử Việt Nam trong kỷ nguyên số”, tr. 717 – 727. 2) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2021), Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện, Hội thảo khoa học cấp trường “Ứng dụng phân tích định lượng trong kinh tế - xã hội”, tr. 284 – 294. 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: Đề tài có ý nghĩa cả về lý luận và thực tiễn. Đề tài có thể là tài liệu tham khảo cho giảng viên và sinh viên thuộc chuyên ngành Quản trị HTTT kinh tế trường Đại học Thương mại hoặc các trường đại học cao đẳng khác có đào tạo chuyên ngành tương đồng. Ngày 20 tháng 03 năm 2021 Chủ nhiệm đề tài NGUYỄN HƯNG LONG
- 9 CHƯƠNG 1. TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI 1. Tính cấp thiết của đề tài Ngày nay, cùng với xu thế hội nhập kinh tế quốc tế đã mở ra cho mỗi quốc gia nhiều cơ hội phát triển mọi mặt về kinh tế - xã hội. Xét về góc độ của thị trường bán lẻ (siêu thị, đại siêu thị, trung tâm thương mại - gọi chung là siêu thị), thì ở đó mỗi siêu thị ngày càng gia tăng về qui mô, số lượng và chất lượng. Các siêu thị lớn có thể kinh doanh đến hàng chục nghìn mặt hàng, với hàng triệu, chục triệu lượt khách hàng trong năm và siêu thị hàng ngày có thể phải xử lí đến hàng chục nghìn đơn hàng với các chủng loại đa dạng khác nhau. Do vậy, CSDL bán hàng siêu thị cũng sẽ rất phức tạp, rất lớn về số các giỏ hàng (mặt hàng/nhóm các mặt hàng) mà siêu thị bán ra theo từng thời điểm (ngày, tuần, quí, ...). Mặt khác, hành vi (sự quan tâm) của khách hàng đối với siêu thị thường bị ảnh hưởng bởi nhiều yếu tố như: nhu cầu, thời gian, tính phổ biến, các vấn đề về chính trị, sự kiện xã hội, … Do vậy, giá (trọng số) các mặt hàng bán ra của siêu thị cũng thay đổi theo nhằm mục đích lưu chuyển hàng hóa nhanh và tăng doanh thu cho siêu thị. Một trong những yêu cầu đặt ra đối với nhà quản lí siêu thị là cần trả lời cho các câu hỏi trong CSDL bán hàng của siêu thị thì: mặt hàng/nhóm các mặt hàng nào mà các khách hàng thường xuyên mua cùng trong giỏ hàng? Mối quan hệ của các mặt hàng trong các giỏ hàng đó là như thế nào? ... để từ đó các nhà quản lí xây dựng kế hoạch kinh doanh với mục đích góp phần tăng doanh thu và đạt lợi nhuận tối đa cho siêu thị. Khai phá dữ liệu là một lĩnh vực nghiên cứu quan trọng của công nghệ thông tin nhằm trích lọc ra những thông tin hữu ích chưa biết, tiềm ẩn trong các CSDL lớn. Khai phá TMTX đóng vai trò quan trọng trong nhiều nhiệm vụ khai phá dữ liệu như: khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp, gom cụm dữ liệu, khai phá web, ... . Khai phá TMTX đã và đang được các nhà nghiên cứu liên tục xây dựng và phát triển các công cụ (thuật toán) để giải quyết các bài toán kinh tế - xã hội nói chung và bài toán phân tích CSDL bán hàng siêu thị cũng không là ngoại lệ nhằm hỗ trợ các nhà quản lí siêu thị ra quyết định đúng đắn hơn trong chiến lược phát triển siêu thị. Hầu hết các thuật toán khai phá dữ liệu, khai phá TMTX đã được các nhà nghiên cứu, đề xuất chỉ mang tính lý thuyết và ở đó không/ít đề xuất mô hình ứng dụng cụ thể của thuật toán khai phá hỗ trợ phân tích hoạt động kinh doanh nói chung hay hỗ trợ phân tích CSDL bán hàng siêu thị nói riêng. Mặt khác, cùng với sự phát triển của lĩnh vực khai phá dữ liệu, một yêu cầu đòi hỏi ngày càng hoàn thiện, phát triển, tái cấu trúc các học phần trong chương trình đào tạo tại các trường đại học thuộc khối kinh tế, quản trị, kinh doanh, mà đặc biệt tại Trường Đại học Thương mại với chuyên ngành Quản trị hệ thống thông tin, thì việc nghiên cứu ứng dụng các công cụ (thuật toán) khai phá dữ liệu trong các hoạt động kinh doanh thương mại nói chung, bán hàng siêu thị nói riêng là cần thiết. Xuất phát từ cơ sở lý luận, nhu cầu thực tiễn bởi yêu cầu đòi hỏi của đổi mới đại học trong tình hình mới, chúng tôi lựa chọn và đề xuất đề tài “Nghiên cứu ứng dụng
- 10 một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị” nhằm cung cấp các thông tin hữu ích còn tiềm ẩn trong CSDL bán hàng siêu thị để giúp cho nhà quản lí đề ra các quyết định kinh doanh siêu thị một cách hiệu quả, mang lại lợi nhuận cho siêu thị. Mặt khác, đề tài cũng góp phần bổ sung các kiến thức cơ bản, cần thiết cho một số học phần thuộc chương trình đào tạo chuyên ngành Quản trị hệ thống thông tin tại Trường Đại học Thương mại. 2. Tổng quan đề tài nghiên cứu Các nghiên cứu ngoài nước Kỉ nguyên Internet bùng nổ đã góp phần cho nhiều nghiên cứu và ứng dụng của ngành công nghệ thông tin phát triển. Ở đó, có một lĩnh vực đã và đang thu hút khá đông đảo các nhà khoa học trên thế giới và Việt Nam tham gia nghiên cứu và ứng dụng trong thực tiễn - lĩnh vực khai phá dữ liệu. Khai phá dữ liệu là quá trình trích lọc không tầm thường những thông tin hữu ích chưa biết từ CSDL. Khai phá TMTX (TMTX) trong CSDL là một kĩ thuật quan trọng của khai phá dữ liệu. Bài toán khai phá dữ liệu được giới thiệu lần đầu tiên vào năm 1993 bởi Agrawal R. và Srikant R.[2] thuộc Trung tâm nghiên cứu Almaden của IBM (Mỹ), nhằm phân tích CSDL bán hàng tại siêu thị. Qua quá trình phân tích này sẽ giúp cho nhà quản lí ra quyết định đúng cho các phương án tối ưu trong hoạt động kinh doanh của doanh nghiệp. Trong [1], các tác giả đã đề xuất thuật toán Apriori. Thuật toán Apriori có hai nhược điểm là: Phải sinh ra khối lượng khổng lồ các tập mục ứng viên (TMUV) và phải quét CSDL giao tác nhiều lần. Mặc dù vậy, nhưng thuật toán Apriori được đánh giá nằm trong top 10 các thuật toán nổi tiếng về khai phá dữ liệu [11]. Có thể coi Apriori là thuật toán nền tảng cho nhiều hướng nghiên cứu, phát triển các thuật toán về khai phá dữ liệu cũng như ứng dụng của các thuật toán đó vào thực tiễn. Để khắc phục hạn chế của thuật toán Apriori nêu trên, Han J. và cộng sự [5] tại Trường Đại học Simon Fraser (Canada) đã đề xuất thuật toán FP-growth. Thuật toán FP-growth khai phá TMTX được xây dựng dựa trên những kĩ thuật cơ bản sau: (1) Nén toàn bộ CSDL giao tác lên một cấu trúc cây, gọi là cây FP-tree, nhờ đó giảm chi phí cho số lần duyệt CSDL giao tác trong quá trình khai phá. (2) Dùng phương pháp chia để trị (devide-and-conquer), bằng cách trong quá trình xây dựng và khai phá dữ liệu được chia làm thành các bài toán nhỏ hơn, theo nghĩa xây dựng các cây FP-tree có điều kiện và khai phá các TMTX trên các cây FP-tree có điều kiện đã được tạo ra. Do vậy, quá trình khai phá cây được phát triển dần các mẫu mà không sinh ra nhiều các TMUV và làm giảm thời gian tính toán. Quá trình khai phá TMTX được thực hiện theo hai pha: Pha xây dựng cây FP-tree và pha khai phá cây FP-tree bằng thuật toán FP-growth. Khác với khai phá TMTX truyền thống, khai phá TMTX với trọng số người ta không chỉ quan tâm đến số lần xuất hiện của các tập mục trong CSDL mà còn quan tâm đến mức độ quan trọng (trọng số) khác nhau của chúng. Mô hình bài toán khai phá TMTX với trọng số được đề xuất và nghiên cứu lần đầu tiên vào năm 1998 bởi Cai C.H. và cộng sự với thuật toán MINWAL [3]. Trong MINWAL, các tác giả đã đưa ra khái niệm DHTVTS. Theo đó, DHTVTS của một tập mục bằng tích của độ hỗ trợ nhân với trọng số trung bình của các mục thành viên. Hạn chế của MINWWAL là có liên quan đến tính chất Apriori (mọi tập con của TMTX cũng là TMTX). Tính chất này bị phá vỡ khi những trọng số khác nhau được áp dụng cho các mục, nghĩa là
- 11 tập con của một TMTX với trọng số không nhất thiết phải là TMTX với trọng số. Để duy trì tính chất Apriori, MINWAL đã đề xuất khái niệm cận k-hỗ trợ (k-support bound). Độ hỗ trợ của một TMUV sinh ra tại mức k phải lớn hơn hoặc bằng cận k-hỗ trợ. MINWAL được xây dựng dựa trên thuật toán Apriori trong khai phá TMTX truyền thống, tuy nhiên phần lớn các TMUV phát hiện không phải là TMTX với trọng số. Hơn nữa, theo [3], việc sử dụng cận k-hỗ trợ để tỉa không gian tìm kiếm chi phí rất nhiều thời gian. Sau MINWAL, một số mô hình và thuật toán khác cũng đã được đề xuất. Phần lớn các thuật toán này đều dựa trên thuật toán Apriori [1][2]. Trong [1], Aggarwal cùng các cộng sự đã đề xuất thuật toán Apriori-TID coi là mở rộng theo hướng tiếp cận cơ bản của thuật toán Apriori. Thay vì dựa vào CSDL thô, Apriori-TID biểu diễn bên trong mỗi giao dịch bởi các ứng viên hiện thời. Như đã thấy Apriori đòi hỏi phải quét toàn bộ CSDL nhiều lần để tính độ hỗ trợ cho các TMUV ở mỗi bước sau. Đây là một sự lãng phí lớn. Dựa trên ý tưởng ước đoán và đánh giá độ hỗ trợ, Apriori-TID theo hướng chỉ phải quét CSDL một lần, sau đó tính độ hỗ trợ cho các một tập mục. Từ bước thứ hai trở đi, Apriori-TID nhờ lưu trữ song song cả ID (định danh) của giao dịch và các ứng viên, có thể đánh giá, ước lượng độ hỗ trợ mà không phải quét lại toàn bộ CSDL. Trong [1], Aggarwal cùng các cộng sự cũng đề xuất thuật toán Apriori-Hybrid. Apriori-Hybrid được coi là kết hợp giữa Apriori và Apriori-TID. Apriori-Hybrid được sử dụng khi tổ chức lặp và chuyển sang Apriori-TID khi đã chắc chắn rằng tập tập ứng viên mức k đã đưa vào bộ nhớ chính. Apriori-Hybrid được đánh giá là tốt hơn so với Apriori và Apriori-TID. Ngoài ra, có rất nhiều các thuật toán khác là biến thể (kiểu) thuật toán Apriori: DIC (Dynamic Itemset Couting), OCD (Offline Candidate Detreteermination), Partition, Sampling, CARMA, AIS, SETM, Eclat, Charm, …[1][2]. Mặc dù khai phá TMTX với trọng số đã xét đến trọng số của các mục trong quá trình khai phá, nó vẫn chưa đủ để phản ánh thế giới thực khi giả thiết trọng số của mỗi mục luôn là một giá trị cố định. Trên thực tế, trọng số của các mục thường thay đổi theo thời gian (trọng số thích nghi). Vấn đề trọng số thay đổi theo thời gian (trọng số thích nghi) được đề xuất lần đầu tiên vào năm 2008 bởi Chowdhury F. A. và cộng sự [4]. Các tác giả công trình đã đề xuất mô hình và thuật toán AWFPM khai phá TMTX với trọng số thích nghi, theo nghĩa trọng số của các mục có thể thay đổi theo thời gian, từ lô giao tác này sang lô giao tác khác của CSDL giao tác. Tập mục được gọi là TMTX với trọng số thích nghi nếu có tổng DHTVTS trong các lô lớn hơn ngưỡng đã cho. AWFPM sử dụng cấu trúc cây FP-tree. Việc tỉa cây được thực hiện bằng cách sử dụng trọng số cực đại toàn cục (GMAXW) và trọng số cực đại địa phương (LMAXW). Trọng số cực đại toàn cục là trọng số lớn nhất của tất cả các mục trong CSDL khai phá, còn trọng số cực đại địa phương là trọng số lớn nhất của các mục trong một CSDL điều kiện. Trong [6], Han cùng các cộng sự đã tổng quan về các thuật toán khai phá TMTX và chỉ ra một số định hướng phát triển. Trong [8], S. Lu cùng các cộng sự đã đề xuất các thuật toán khai phá luật kết hợp với trọng số nhằm đánh giá độ hỗ trợ và độ tin cậy của các tập mục trong CSDL giao tác.
- 12 Trong [9], tác giả Nguyễn Hưng Long đã đề xuất thuật toán AWFP-Miner khai phá TMTX với trọng số thích nghi ở đó sử dụng một độ đo mới để tỉa các TMTX hiệu quả hơn trong quá trình khai phá. AWFP-Miner là thuật toán kiểu FP-Growth. Trong [12], tác giả F. Tao đã đề xuất thuật toán WARM. Vấn đề không thỏa mãn tính chất Apriori được tác giả giải quyết bằng cách sử dụng một độ hỗ trợ với trọng số khác với định nghĩa trong MINWAL, từ đó phát triển tính chất Apriori. Độ hỗ trợ với trọng số của tập mục “ab” trong WARM là tỷ lệ trọng số của các giao tác chứa cả “a” lẫn “b” trên trọng số của tất cả các giao tác trong CSDL. WARM cũng là thuật toán dựa trên Apriori. Trong [13] W.Wang cùng các cộng sự đã đề xuất thuật toán WAR khai phá luật kết hợp với trọng số. Để khai phá các luật này, trước tiên WAR sinh ra các TMTX mà không xét đến các trọng số, sau đó mới xét đến trọng số của các tập mục tại bước sinh luật kết hợp. Như vậy, WAR không thực hiện việc khai phá TMTX với trọng số, nó là thuật toán theo cách tiếp cận hậu xử lý. Ngoài ra, WAR cũng dựa trên thuật toán Apriori. Các thuật toán phát triển dựa trên thuật toán Apriori có hai nhược điểm là phải sinh và kiểm tra rất nhiều TMUV và phải quét CSDL nhiều lần, nên hiệu quả khai phá thấp. Thuật toán khai phá TMTX với trọng số đầu tiên sử dụng cấu trúc cây FP- tree là thuật toán WFIM do Yun U. và Leggett J. J. đề xuất [16]. WFIM cho phép chỉ cần quét CSDL hai lần và tránh được việc sinh ra quá nhiều ứng viên. WFIM sử dụng một trọng số nhỏ nhất và một khoảng biến thiên cho các trọng số. Mỗi mục trong CSDL được gán cho một trọng số cố định thuộc khoảng biến thiên. Mỗi giao tác được đưa lên cây FP-tree sau khi sắp xếp các mục theo thứ tự trọng số tăng dần. Trong [13] U. Yun tiếp tục phát triển và đề xuất thuật toán WIP. WIP phối hợp những thế mạnh của các kỹ thuật đã có và tạo ra các mẫu quan trọng theo đánh giá phản hồi của người dùng. WIP sử dụng một độ đo mới, gọi là độ tin cậy trọng số, nhằm tạo ra các tập mục hyperclique, có trọng số gần như nhau. Một khoảng giá trị trọng số và một số đo độ tin cậy khác, gọi là độ tin cậy h, cũng đã được sử dụng. Khoảng giá trị trọng số định ra ranh giới cho các trọng số, còn độ tin cậy h nhằm đảm bảo cho các tập mục gồm các mục có độ hỗ trợ gần như nhau. WIP không chỉ chú ý đến sự cân bằng giữa trọng số và độ hỗ trợ, mà còn coi trọng mối quan hệ về trọng số và mối quan hệ về độ hỗ trợ giữa các mục trong tập mục để tạo ra các tập mục giá trị hơn. Trong [15], U. Yun đã xem xét lại hai ràng buộc cơ bản về trọng số và về độ hỗ trợ, từ đó đề xuất thuật toán WLPMiner. WLPMiner kết hợp hai độ đo ràng buộc này để tạo ra các tập mục với số lượng ít hơn nhưng lại có ý nghĩa hơn. Để cắt tỉa, tác giả đã sử dụng khái niệm WSVE (Weighted Smallest Valid Extension) áp dụng cho cả ràng buộc về độ hỗ trợ giảm theo độ dài và ràng buộc đối với trọng số, đồng thời bổ sung thêm một khoảng trọng số để duy trì tính chất Apriori. Việc kết hợp ràng buộc về trọng số với độ hỗ trợ giảm theo độ dài tập mục đã cải thiện hiệu quả thời gian chạy và số lượng mẫu khai thác. WLPMiner cũng là thuật toán sử dụng cấu trúc cây FP-tree. Trong [17], S. Zhang đã đề xuất một chiến lược với tên gọi WEIGHT để bảo trì các luật kết hợp trong CSDL gia tăng bằng cách gán trọng số cao hơn cho các giao tác mới nhằm làm rõ mức độ quan trọng của những giao tác này. Tuy nhiên, tất cả các các mục trong các giao tác mới lại được gán cho cùng một trọng số. Thuật toán
- 13 bảo trì các luật kết hợp của Zhang S. và cộng sự cũng được xây dựng dựa trên phương pháp sinh và kiểm tra các tập ứng viên của thuật toán Apriori. Vì vậy, với một CSDL cụ thể nào đó, nó sẽ tạo ra một tập rất lớn các ứng viên và phải quét CSDL nhiều lần để tìm ra kết quả cuối cùng. Nhận thấy, các nghiên cứu về khai phá TMTX nêu trên mang tính học thuật cao và có thể vận dụng để ứng dụng chúng trong một số bài toán thực tiễn, chẳng hạn như hỗ trợ phân tích, lựa chọn các phương án tối ưu cho tổ chức, doanh nghiệp, khách hàng, nhà đầu tư, … trong hoạt động kinh doanh. Các nghiên cứu trong nước Tại Việt Nam, theo hướng phân tích, đánh giá truyền thống, trong [28], tác giả đã xây dựng phần mềm phân tích một số chỉ tiêu kinh tế phản ánh hiệu quả kinh doanh trong các doanh nghiệp thương mại. Trong đề tài nghiên cứu tác giả đã sử dụng công cụ là hệ thống các CSDL về: Bảng cân đối kế toán, Bảng báo cáo kết quả hoạt động sản xuất kinh doanh, các Sổ chi tiết, … và hệ thống các qui tắc (công thức) để tính các chỉ tiêu. Dựa trên các chỉ tiêu này các nhà phân tích nhìn nhận lại một cách tổng thể về toàn bộ quá trình hoạt động kinh doanh và đưa ra các quyết định chiến lược phát triển hoạt động kinh doanh trong tương lai. Trong [22], tác giả đã sử dụng lý thuyết tập thô (rough set) để giải quyết vấn đề hỗ trợ ra quyết định 3 lĩnh vực: đánh giá công ty, chính sách tài chính của ngân hàng và xây dựng chiến lược thị trường. Ngoài ra, tác giả đã tìm hiểu phát hiện các tri thức qua lập trình logic qui nạp và ứng dụng trong phát hiện các dấu hiệu tài chính bất thường. Trong [27], tác giả đã ứng dụng kĩ thuật của khai phá dữ liệu để tìm ra các qui luật về sự biến động hữu ích còn ẩn chứa trong các CSDL thị trường chứng khoán nhằm mang lại cho các nhà đầu tư nhiều cơ hội để lựa chọn các nhóm cổ phiếu cần đầu tư tại đúng thời điểm. Trong [32], tác giả Trần Huy Dương cùng các cộng sự đã chỉ ra một số tính chất của TMTX với trọng số chuẩn hóa. Sử dụng các tính chất này và cách tiếp cận của thuật toán FP-growth trong khai phá TMTX, để đề xuất thuật toán COWFI-mine khai phá TMTX với trọng số chuẩn hóa. Các phân tích cấu trúc thuật toán và các tính toán thực nghiệm cho thấy COWFI-mine hiệu quả hơn các thuật toán kiểu Apriori [1][2], chẳng hạn thuật toán MINWAL(W) do C.H. Cai và cộng sự đề xuất [4]. Trong [20] các tác giả đã đề xuất một thuật toán cải tiến khai phá TMTX cổ phần cao trong CSDL lớn AFSM. Việc cải tiến thuật toán được thực hiện thông qua một chiến lược tỉa hiệu quả các TMUV, nhờ đó giảm thời gian thực hiện thuật toán khai phá. Trong [21] các tác giả đã đề xuất thuật toán hiệu quả khai phá tập mục lợi ích cao bằng cách duyệt từ dưới lên của cây nén các giao tác của CSDL giao tác. Thuật toán đề xuất cũng được đánh giá, phân tích hiệu quả hơn các thuật toán giải quyết bài toán tương tự khác mà đã đề xuất trước đó. Trong [25], tác giả Nguyễn Hưng Long và Nguyễn Minh Hoàng đã đề xuất thuật toán RSFPGrowth khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện. Thuật toán RSFPGrowth cho phép thay vì tìm tập tất cả các tập mục thường xuyên trong cơ sở dữ liệu lớn bằng cách tìm tập chứa hầu hết các tập tập mục
- 14 thường xuyên từ tập mẫu đại diện các giao tác. Bởi vì khi cỡ mẫu n cần lấy cho tập mẫu sẽ tăng chậm so với cỡ tổng thể nên độ hiệu quả của việc khai phá tập tập mục thường xuyên thông qua lấy mẫu đại diện các giao tác sẽ càng cao khi kích hước của cơ sở dữ liệu ban đầu càng lớn. Trong [27], tác giả Nguyễn Thanh Tùng và các cộng sự trình bày thuật toán khai phá TMTX có tên là BMB. BMB có ưu điểm hơn các thuật toán kiểu Apriori: chỉ cần quét CSDL giao tác một lần để chuyển đổi CSDL giao tác thành ma trận nhị phân; không sinh các tập ứng viên; chỉ sử dụng các phép toán cơ bản trên các véc tơ nhị phân. Do đó, BMB tiết kiệm về dung lượng bộ nhớ và thích hợp cho khai phá các CSDL lớn. Trong [29], tác giả Phan Thành Huấn và cộng sự đề xuất thuật toán song song khai phá TMTX với nhiều ngưỡng phổ biến tối thiểu riêng trên bộ xử lí đa nhân. Thuật toán đề xuất đã được đánh giá, phân tích hiệu quả hơn so với các thuật toán trước đó. Trong [23], tác giả Nguyễn Hưng Long đã trình bày nghiên cứu và ứng dụng một số thuật toán: Các thuật toán khai phá TMTX Apriori và FP-growth; Thuật toán khai phá TMTX với trọng số WFC; Thuật toán khai phá TMTX với trọng số thích nghi AWFI-Miner. Đề tài đã đánh giá, phân tích cho việc ứng dụng từng thuật toán vào trong hoạt động kinh doanh cụ thể tại doanh nghiệp. Mặt khác, đề tài cũng đã đưa ra một số đề xuất, kiến nghị và các dự báo phát triển vấn đề nghiên cứu liên quan đến ứng dụng trong các hoạt động của đời sống - xã hội. Trong [24], tác giả Nguyễn Hưng Long giới thiệu ứng dụng thuật toán SWFP- Miner khai phá TMTX với trọng sô thích nghi trên dòng dữ liệu và đề xuất ứng dụng thuật toán cho phân tích CSDL bán hàng siêu thị. Trên thực tế đây là là một trong những ứng dụng của thuật toán khai phá trên dòng cho phân tích CSDL bán hàng siêu thị. Trong đề tài sẽ nghiên cứu một số các thuật toán khai phá TMTX với trọng số khác theo các khía cạnh khác nhau để ứng dụng chúng trong phân tích CSDL bán hàng siêu thị một cách logic và hệ thống hơn. Trong [26], tác giả Nguyễn Hưng Long cùng cộng sự đã đề xuất thuật toán MFITMT khai phá TMTX đa ngưỡng và ứng dụng thuật toán này cho phân tích CSDL bán hàng của siêu thị. Thực tế, thuật toán này chỉ là tiền đề (nhỏ) cho phát triển từ thuật toán Apriori cho khai phá đa ngưỡng. Kiểu của thuật toán này có ứng dụng chúng cho nhiều lĩnh vực của đời sống - xã hội chứ không riêng gì trong lĩnh vực bán hàng của siêu thị. Trong [19], tác giả đã nghiên nghiên cứu các kĩ thuật của khai phá dữ liệu, vận dụng các thuật toán khai phá luật kết hợp để tìm các TMTX và các luật kết hợp. Đồng thời tác giả đã sử dụng công cụ lập trình (Visual Studio C#), hệ quản trị dữ liệu (Microsoft SQL Server 2005) để xây dựng hệ hỗ trợ ra quyết định phục vụ cho công tác quản lí kho hàng tại Siêu thị Metro. Trong [28], tác giả đã nghiên cứu tổng quan về khai thác dữ liệu, nghiên cứu một số thuật toán khai thác luật kết hợp nhị phân. Tác giả cũng đã nghiên cứu, thử nghiệm ứng dụng thuật toán khai thác luật kết hợp nhị phân nhằm phân tích tài chính và kinh doanh ngân hàng. Kết quả phân tích giúp chuyên gia nhận được những thông
- 15 tin có tính chất qui luật, trợ giúp quyết định hiệu quả trong phân tích tài chính và kinh doanh ngân hàng. Trong [31], tác giả đã nghiên cứu tổng quan về khai phá dữ liệu và tập trung nghiên cứu về khai phá luật kết hợp bởi các thuật toán kiểu Apriori và nghiên cứu phân lớp bằng học cây quyết định. Đồng thời, tác giả đã lựa chọn công cụ Oracle Data Mining để khai phá tri thức trong CSDL ngành thuế Việt Nam. Thực nghiệm khai phá luật kết hợp thể hiện mối liên quan giữa ngành nghề kinh doanh của đối tượng nộp thuế, qui mô doanh nghiệp, doanh thu trung bình, mức thuế phải nộp, … Ngoài ra, tác giả đã sử dụng phương pháp phân lớp bằng cây quyết định để phân lớp và dự báo CSDL ngành thuế Việt Nam. Một điểm đáng lưu ý, trong hầu hết các nghiên cứu [26]-[32] cũng đều không đưa ra mô hình ứng dụng các thuật toán khai phá dữ liệu (bởi công cụ khai phá TMTX/TMTX với trọng số) trong phân tích cơ sở dữ liệu (CSDL) nói chung và CSDL bán hàng siêu thị nói riêng. Ngay kể cả, trong [23] cũng chỉ đề xuất một khía cạnh nhỏ khai phá TMTX đa ngưỡng dựa trên thuật toán cơ bản Apriori nhằm hỗ trợ phân tích CSDL bán hàng của siêu thị. Mặt khác, thuật toán khai phá Apriori hay kiểu Apriori có một số hạn chế về thời gian xử lí, bộ nhớ, duyệt CSDL giao tác nhiều lần. 3. Mục tiêu nghiên cứu Đề tài tập trung nghiên cứu về các khía cạnh sau: - Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá TMTX. - Xây dựng mô hình áp dụng một số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị. - Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị. 4. Đối tượng và phạm vi nghiên cứu a) Đối tượng nghiên cứu - Lý thuyết chung về khai phá dữ liệu bán hàng siêu thị. - Một số thuật toán khai phá TMTX, TMTX với trọng số. - Bài toán phân tích cơ sở dữ liệu bán hàng siêu thị. - Áp dụng một số thuật toán khai TMTX, TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị. b) Phạm vi nghiên cứu - Nghiên cứu ứng dụng một số thuật toán KPDL (khai phá TMTX/TMTX với trọng số) nhằm hỗ trợ cho phân tích CSDL bán hàng siêu thị. - Về CSDL bán hàng siêu thị: chỉ xét các trường: định danh giỏ hàng, nội dung giỏ hàng (bao gồm các mặt hàng) mà khách hàng mua tại siêu thị (tại thời điểm nào đó). Ngoài ra, trong quá trình nghiên cứu một số thuật toán có xét đến trị giá (giá) của các mặt hàng. 5. Phương pháp nghiên cứu
- 16 - Nghiên cứu dữ liệu thứ cấp (bài báo, đề tài NCKH, luận văn, các chương trình đào tạo, các giáo trình) liên quan đến đề tài. - Mô hình bài toán hoạt động kinh doanh thương mại siêu thị và bài toán khai phá TMTX/TMTX với trọng số. - Phân tích các thuật toán, các mô hình bài toán. - Kết hợp các phương pháp: Nêu vấn đề, suy luận, diễn giải, phân tích, tổng hợp, khái quát hóa và chứng minh để đưa ra các kết quả theo yêu cầu. 6. Kết cấu báo cáo nghiên cứu Ngoài các mục như: Mục lục, danh mục bảng biểu, hình xẽ, danh mục từ viết tắt, tài liệu tham khảo, …Báo cáo đề tài có 4 chương chính. Chương 1: Tổng quan nghiên cứu đề tài Trong chương trình bày sơ lược về: Tính cấp thiết đề tài; tình hình nghiên cứu về đề tài trong nước và ngoài nước; mục tiêu nghiên cứu; đối tượng và phạm vi nghiên cứu; phương pháp nghiên cứu và kết cấu báo báo nghiên cứu liên quan đến ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị Chương 2: Tổng quan về khai phá dữ liệu bán hàng siêu thị Nội dung trình bày tổng quan nhất về khai phá dữ liệu bán hàng siêu thị như: Cơ sở dữ liệu bán hàng siêu thị, khai phá dữ liệu và khai phá dữ liệu bán hàng siêu thị Chương 3: Ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị Nội dung chính trong chương này trình bày về: Ứng dụng thuật toán khai phá TMTX, TMTX với trọng số hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị, Chương 4: Các kết luận, thảo luận và đề xuất với vấn đề nghiên cứu Trong chương đưa ra một số các kết luận; Các dự báo triển vọng về các vấn đề nghiên cứu; các đề xuất kiến nghị với vấn đề nghiên cứu; một số hạn chế nghiên cứu và vấn đề đặt ra cần tiếp tục nghiên cứu.
- 17 CHƯƠNG 2. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 2.1. Hệ thống bán hàng siêu thị Các nội dung trong phần này được tham khảo trong [18] - [35] 2.1.1. Hệ thống quản lí bán hàng Quản lý bán hàng là một hoạt động nghiệp vụ tập trung vào việc ứng dụng thực tế các kỹ thuật bán hàng và quản lý hoạt động bán hàng của một công ty. Đây là một chức năng kinh doanh quan trọng như doanh thu thuần thông qua việc bán sản phẩm và dịch vụ và kết quả là lợi nhuận thúc đẩy hầu hết các hoạt động kinh doanh thương mại. Đây cũng là những mục tiêu và chỉ số hoạt động của quản lý bán hàng. Hệ thống quản lý bán hàng: là hệ thống thông tin được sử dụng trong quản lý và tiếp thị quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) giúp tự động hóa một số chức năng quản lý bán hàng và bán hàng [18] - [35] 2.1.2. Siêu thị và đặc trưng của siêu thị Siêu thị [18] - [35] Siêu thị là loại hình cửa hàng hiện đại,kinh doanh tổng hợp hay chuyên doanh nhiều mặt hàng với cơ cấu chủng loại hàng hóa phong phú, đa dạng và đảm bảo chất lượng hơn so với loại hình bán lẻ thông thường. Ngoài ra, siêu thị đáp ứng các tiêu chuẩn về cơ sở hạ tầngkinh doanh, trang thiết bị kỹ thuật và trình độ quản lý, tổ chức kinh doanh, có các phương thức phục vụ văn minh, thuận tiện nhằm thỏa mãn nhu cầu tiêu dùng của đa số khách hàng và người mua sắm (người dùng). Siêu thị được Nhà nước cấp phép hoạt động. Đặc trưng của siêu thị [18] - [35] - Đóng vai trò như một cửa hàng bán lẻ Siêu thị thực hiện chức năng bán lẻ: bán hàng hóa trực tiếp cho người dùng để họ sử dụng chứ họ không phải bán lại cho các đối tượng khác. Do vậy, co stheer coi siêu thị là kênh phân phối ở mức phát triển cao hơn so với các đại lý bán lẻ khác, được quy hoạch và tổ chức kinh doanh dưới hình thức những cửa hàng quy mô, có trang thiết bị và cơ sở vật chất hiện đại, văn minh, do thương nhân đầu tư và quản lý. - Áp dụng hình thức tự phục vụ Đây là đăc trưng cho có ở các siêu thị, được ứng dụng như trong các loại cửa hàng bán lẻ khác.- Phương thức thanh toán thuận tiện Hàng hóa của siêu thị được gắn mã vạch, mã số sau đó được đưa ra quầy thanh toán tại cửa ra/vào siêu thị. Tại quầy sẽdùng máy quét để đọc giá, tính tiền bằng máy và in hóa đơn tự động - Hàng hóa của siêu thị: Hàng hóa của siêu thị chủ yếu là những hàng tiêu dùng thiết yếu như: đồthực phẩm, đồ may mặc, đồ gia dụng, điện tử, ...với nhiều chủng loại đa dạng và phong
- 18 phú. Siêu thị thuộc hệ thống các cửa hàng kinh doanh tổng hợp, khác với các cửa hàng chuyên kinh doanh chỉ chuyên sâu vào một hoặc một số mặt hàng nhất định 2.1.3. Công việc và chức năng chính của siêu thị Trong [18] - [35] đã chỉ ra các công việc và chức năng chính của siêu thị. Những công việc của quản lý bán hàng bao gồm: - Thiết lập chiến lược phân phối - Thiết lập tổ chức lực lượng bán hàng; quản lý lực lượng bán hàng, khách hàng - Thiết lập chính sách bán hàng, Tuyển dụng - Lập kế hoạch bán hàng - Triển khai - Huấn luyện nâng cao kỹ năng - Đo lường, đánh giá hiệu quả bán hàng Thông thường một hệ thống quản lý bán hàng siêu thị có các chức năng sau: - Quản lý nhân viên - Quản lý khách hàng thân thiết, thường xuyên - Quản lý nhập/, xuất kho - Quản lý mặt hàng trong siêu thị - Quản lý tài chính thu chi của siêu thị. Những chức năng chính của siêu thị bao gồm: - Quản lý nhân viên: Để quản lý nhân viên trong hệ thống quản lý bán hàng siêu thị, thông thường các thông tin nhân viên được quản lý như: Mã số nhân viên, họ tên nhân viên, năm sinh, địa chỉ, bộ phận. - Quản lý khách hàng thân thiết, thường xuyên: Khách hàng thân thiết, thường xuyên khi mua ở siêu thị cần cung cấp thông tin: Tên khách hàng, mã số thuế, năm sinh, số điện thoại, địa chỉ nhà, .... Sau đó, nhân viên siêu thị nhập hóa đơn từ khách hàng và lập phiếu khách hàng thân thiết cho khách hàng. - Quản lý kho hàng: Khi nhập hoặc xuất hàng hóa trong siêu thị cần lưu thông tin: ngày tháng nhập, xuất, tổng trị giá. - Hàng nhập kho: Nhập hàng hóa theo hóa đơn mua hàng của công ty hoặc siêu thị. Hàng nhập kho được theo dõi dựa trên: mã hàng, chủng loại hàng, nhóm ngành hàng, số lượng nhập, đơn vị tính, đơn giá. Báo cáo lượng nhập hàng hóa trong kỳ - Hàng xuất kho: Hàng xuất ra quầy cũng được theo dõi theo mã hàng, nhóm hàng, chủng loại hàng, nhóm ngành hàng, số lượng xuất, đơn vị tính. Báo cáo lượng hàng hóa xuất kho trong kỳ - Quản lý hàng tồn: Tổng hợp những phát sinh xuất nhập kho trong kỳ. Báo cáo hàng tồn và giá trị hàng tồn kho trong kỳ. Báo cáo thẻ kho từng loại hàng tồn kho - Quản lý mặt hàng trong quầy siêu thị:
- 19 + Mặt hàng trong siêu thị được quản lý theo những thông tin: mã mặt hàng, tên mặt hàng, loại hàng, đơn vị tính, xuất xứ, . + Điều chỉnh hàng tồn tại quầy siêu thị nếu phát hiện số lượng tồn quầy thực tế khác với số lượng tồn trong phiếu giao ca và in lại phiếu giao ca mới. + Phiếu giao ca phải dựa trên số lượng tồn đầu ca và số lượng hàng bán trong ca, cuối mỗi ca máy tính sẽ tự động xử lý và in ra phiếu giao ca cho mỗi nhân viên nhận ca mới. - Quản lý hàng bán lẻ: + Lập các hóa đơn bán hàng + Báo cáo doanh thu theo từng ca, từng ngày,... - Quản trị hệ thống dữ liệu + Lưu trữ và phục hồi dữ liệu (khi cần thiết) + Kết thúc chương trình quản lý bán hàng 2.2. Cơ sở dữ liệu bán hàng siêu thị Các nội dung trong phần được tham khảo trong [18], [24], [26], [33], [34] và [35] 2.2.1. Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu Cơ sở dữ liệu (Database) Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan với nhau, mô hình hóa các đối tượng của một phần thế giới thực (công ty, doanh nghiệp, trường học, ...). Việc tổ chức CSDL sẽ khắc phục được những khuyết điểm của cách lưu trữ dạng file riêng lẻ: - Giảm trùng lặp thông tin, đảm bảo tính nhất quán và toàn vẹn dữ liệu - Cho phép dữ liệu được truy xuất theo nhiều cách khác nhau, từ nhiều người khác nhau và nhiều ứng dụng khác nhau - Tăng khả năng chia sẻ thông tin - Tuy nhiên việc sử dụng hệ quản trị CSDL lại có những phiền hà không hề nhỏ sau đây: - Phải đảm bảo tính chủ quyền của dữ liệu, vì khi sử dụng có tính chất chia sẻ cao - Bảo mật quyền khai thác thông tin - Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra - Đảm bảo an toàn, toàn vẹn của dữ liệu Các tính chất của CSDL - Một CSDL biểu diwwx khía cạnh của thế giới thực - Một CSDL là tập hợp dữ liệu kiên kết nhau - Một CSDL được thiết kế và được phổ biến cho một mục đích riêng Hệ quản trị cơ sở dữ liệu và Tầm quan trọng quản lí cơ sở dữ liệu
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU CHẤT LƯỢNG NƯỚC VÀ TÔM TỰ NHIÊN TRONG CÁC MÔ HÌNH TÔM RỪNG Ở CÀ MAU"
12 p | 1367 | 120
-
Báo cáo nghiên cứu khoa học: "Cái tôi trữ tình trong thơ Nguyễn Quang Thiều."
10 p | 614 | 45
-
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU PHỐI TRỘN CHI TOSAN – GELATI N LÀM MÀNG BAO THỰC PHẨM BAO GÓI BẢO QUẢN PHI LÊ CÁ NGỪ ĐẠI DƯƠNG"
7 p | 528 | 45
-
Báo cáo nghiên cứu khoa học: "Giọng điệu thơ trào phúng Tú Mỡ trong “Dòng nước ngược”"
8 p | 322 | 44
-
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU THỰC NGHIỆM ẢNH HƯỞNG CỦA MƯA AXÍT LÊN TÔM SÚ (PENAEUS MONODON)"
5 p | 455 | 44
-
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU ĐẶC ĐIỂM SINH HỌC DINH DƯỠNG VÀ SINH SẢN CỦA LƯƠN ĐỒNG (Monopterus albus)"
12 p | 313 | 43
-
Báo cáo nghiên cứu khoa học: "TÌNH HÌNH SỬ DỤNG THỨC ĂN TRONG NUÔI CÁ TRA VÀ BASA KHU VỰC ĐỒNG BẰNG SÔNG CỬU LONG"
8 p | 229 | 38
-
Báo cáo nghiên cứu khoa học: "ỨNG DỤNG PHƯƠNG PHÁP PCR-GENOTYPI NG (ORF94) TRONG NGHIÊN CỨU VI RÚT GÂY BỆNH ĐỐM TRẮNG TRÊN TÔM SÚ (Penaeus monodon)"
7 p | 379 | 35
-
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU CẢI TIẾN HỆ THỐNG NUÔI KẾT HỢP LUÂN TRÙNG (Brachionus plicatilis) VỚI BỂ NƯỚC XANH"
11 p | 387 | 29
-
Báo cáo nghiên cứu khoa học: "Vai trò của toán tử tình thái trong tác phẩm của Nguyễn Công Hoan (Qua phân tích truyện ngắn Mất cái ví)"
8 p | 268 | 24
-
Báo cáo nghiên cứu khoa học: "Quan hệ giữa cấu trúc và ngữ nghĩa câu văn trong tập truyện ngắn “Đêm tái sinh” của tác giả Trần Thuỳ Mai"
10 p | 437 | 24
-
Báo cáo nghiên cứu khoa học: " NGHIÊN CỨU TẠO KHÁNG THỂ ĐƠN DÒNG VI-RÚT GÂY BỆNH HOẠI TỬ CƠ QUAN TẠO MÁU VÀ DƯỚI VỎ (IHHNV) Ở TÔM PENAEID"
6 p | 356 | 23
-
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU DÙNG ARTEMIA ĐỂ HẠN CHẾ SỰ PHÁT TRIỂN CỦA TIÊM MAO TRÙNG (Ciliophora) TRONG HỆ THỐNG NUÔI LUÂN TRÙNG"
10 p | 367 | 18
-
Báo cáo nghiên cứu khoa học: " NGHIÊN CỨU THIẾT LẬP HỆ THỐNG NUÔI KẾT HỢP LUÂN TRÙNG (Brachionus plicatilis) VỚI BỂ NƯỚC XANH"
10 p | 375 | 16
-
Báo cáo nghiên cứu khoa học: " NGHIÊN CỨU PHÂN VÙNG THỦY VỰC DỰA VÀO QUẦN THỂ ĐỘNG VẬT ĐÁY"
6 p | 350 | 16
-
Báo cáo nghiên cứu khoa học: " NGHIÊN CỨU THAY THẾ THỨC ĂN SELCO BẰNG MEN BÁNH MÌ TRONG NUÔI LUÂN TRÙNG (Brachionus plicatilis) THÂM CANH"
10 p | 348 | 15
-
Báo cáo nghiên cứu khoa học: " CẬP NHẬT VỀ HỆ THỐNG ĐỊNH DANH TÔM BIỂN VÀ NGUỒN LỢI TÔM HỌ PENAEIDAE Ở VÙNG VEN BIỂN ĐỒNG BẰNG SÔNG CỬU LONG"
10 p | 195 | 14
-
Báo cáo nghiên cứu khoa học công nghệ: Kết quả nghiên cứu lúa lai viện cây lương thực và cây thực phẩm giai đoạn 2006 - 2010
7 p | 190 | 13
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn