intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

Chia sẻ: HidetoshiDekisugi HidetoshiDekisugi | Ngày: | Loại File: PDF | Số trang:47

21
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh. Chương này cung cấp cho học viên những kiến thức về: lựa chọn mẫu, làm sạch dữ liệu, tích hợp và biến đổi dữ liệu; tổ chức và cài đặt kho dữ liệu (Data warehouse), tổ chức và cài đặt Data Mart;... Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

  1. Đọc sách: Business Intelligence Concepts and Applications BI for Better Decisions : Decision Types BI Tools BI Skills BI Applications : Customer Relationship Management; Health Care and Wellness ; Education; Retail; Banking; Financial Services; Insurance; Manufacturing; Telecom; Government. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 41 Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh 2.1. Tiền xử lý dữ liệu 2.1.1. Lựa chọn mẫu 2.1.2. Làm sạch dữ liệu 2.1.3. Tích hợp và biến đổi dữ liệu 2.2. Tổ chức dữ liệu 2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse) 2.2.2. Tổ chức và cài đặt Data Mart KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42 21
  2. 2.1. Tiền xử lý dữ liệu Làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc: ◦ Filtering Attributes (rút gọn thuộc tính) ◦ Filtering samples (rút gọn dữ liệu) ◦ Clean data (làm sạch dữ liệu) ◦ Transformation: ◦ Discretization (rời rạc hóa dữ liệu): KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 43 2.1.1. Lựa chọn mẫu Mục đích loại bỏ những thuộc tính không cần thiết, dư thừa khỏi quá trình học. Những vấn đề gặp phải: ◦ Sự đa dạng và không đồng nhất: nhiều dạng, nhiều nguồn ◦ Quy mô dữ liệu: dung lượng và quy mô của dữ liệu lớn đòi hỏi các công cụ quản lý và khai phá dữ liệu phải được cải tiến, nâng cấp cho phù hợp ◦ Tốc độ/tính chuyển động liên tục của dữ liệu: các dòng dữ liệu (data stream) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44 22
  3. Tính chính xác và tin cậy Bảo mật dữ liệu Sự tương tác KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45 Các công thức đánh giá Confusion matrix Các độ đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46 23
  4. Phân chia tập dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 47 2.1.2. Làm sạch dữ liệu Điền giá trị bị thiếu (missing values) Dữ liệu nhiễu Hồi quy tuyến tính KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48 24
  5. Một số phương pháp để điền giá trị thiếu Bỏ qua các trường có chứa những giá trị này Điền vào các giá trị thiếu thủ công Sử dụng các giá trị quy ước (NULL/0) Sử dụng những giá trị bình quân Sử dụng các giá trị của các bộ cùng loại để thay thế cho giá trị thiếu Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49 Dữ liệu nhiễu Dữ liệu nhiễu là các dữ liệu nằm ở những khoảng không đồng đều, có những giá trị nằm ở nhóm cao thấp, bất thường không theo quy luật. Việc làm mịn một giá trị dữ liệu được xác định thông qua các giá trị xung quanh nó được gọi là Bin. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50 25
  6. VD Outliers: giá trị 79.29 có thể là 7.929 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 51 Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34 Ta có thể phân chia thành các bin Bin 1: 4, 8 , 15 Bin 2: 21, 21, 24 Bin 3: 25, 28, 34 Trong trường hợp làm mịn sử dụng phương pháp trung vị, thì các bin có thể là: Bin 1: 9, 9 ,9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29 Trong trường hợp làm mịn biên Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 52 26
  7. Hồi quy tuyến tính Tìm ra được một mối quan hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một thuộc tính có thể dùng để dự đoán thuộc tính khác. Phương pháp nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm hay “cụm" trực quan. Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 53 Xây dựng công cụ khảo sát Công cụ thực nghiệm -Phiếu khảo sát: -Qui tắc mã hóa và qui đổi điểm về thang đo các cấp độ hỏi KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 54 27
  8. Thống kê và kiểm định dữ liệu Thống kê dữ liệu Thống kê dữ liệu trong Excel KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 55 Khái niệm về kiểm định giả thiết Cho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ra một mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, để phân tích, xử lí. Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặc trưng như thế. Khi xem xét đặc trưng của mẫu, ta thường đưa ra một giả thiết và kiểm tra giả thiết đúng hay sai. Việc đưa ra kết luận để chấp nhận hoặc bác bỏ giả thiết này gọi là kiểm định giả thiết (thống kê) (hypothesis test). KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 56 28
  9. Những quyết định dựa trên giả thiết H0 giả thiết H0 giả thiết H0 thực tế là đúng thực tế là sai Xác xuất quyết định Xác xuất mắc sai lầm Kiểm định chấp đúng là loại 2 là  nhận H0 1– Xác xuất mắc Xác xuất quyết định Kiểm định sai lầm loại 1 là  đúng là bác bỏ H0 1– KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 57 Xác suất mắc sai lầm hoặc đúng trong kết quả kiểm định giả thiết H0 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 58 29
  10. Miền bác bỏ và giá trị kiểm định 1. Nếu giả thiết đối có dạng H1:  > 0 thì được gọi là kiểm định bên phải, vì miền bác bỏ H1 nằm phía bên phải miền chấp nhận H0 • u là giá trị kiểm định; •  là mức ý nghĩa Kiểm định bên phải (one – tail test): H0 :   0  H1 :  > 0 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 59 Miền bác bỏ và giá trị kiểm định 2. Nếu giả thiết đối có dạng H1:  < 0 thì được gọi là kiểm định bên trái, vì miền bác bỏ H1 nằm phía bên trái miền chấp nhận H0 • u là giá trị kiểm định; •  là mức ý nghĩa Kiểm định bên trái (one – tail test): H0 :   0  H1 :  < 0 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 60 30
  11. Miền bác bỏ và giá trị kiểm định 3. Nếu giả thiết đối có dạng H1:   0 thì được gọi là kiểm định hai bên, vì miền bác bỏ H1 nằm về hai phía miền chấp nhận H0 • u là giá trị kiểm định; •  là mức ý nghĩa Kiếm định hai bên H0 :  = 0  H1 :   0 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 61 Các phép kiểm định thống kê cơ bản Kiểm định giả thiết về tỉ lệ tổng thể Kiểm định giả thiết về trung bình tổng thể KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 62 31
  12. Thực hiện thống kê kiểm định bằng phần mềm SPSS Ví dụ về thang đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 64 32
  13. Đo độ tin cậy bằng SPSS Tóm tắt cách thực hiện Analyze \ Scale \ Reliability Analysis ... Chọn các thang đo cần đánh giá độ tin cậy vào danh sách items Chọn mô hình alpha. Nhấn nút Statistics... Chọn Scale, Scale if item deleted. Chọn tiếp Holleling’s T- square, Turkey’s test of addtivity. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 65 Ví dụ Ví dụ: Kiểm tra độ tin cậy của các thang đo của Bài kiểm tra: Bảng 1 thống kê độ tin cậy (hệ số Cronbach’s Alpha) Bảng 2 thống kê độ tin cậy của từng thang đo. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 66 33
  14. ĐỘ TƯƠNG QUAN CỦA TRẮC NGHIỆM KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 67 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH Độ tương quan (Correlation) Trong SPSS, thống kê có tên là hệ số tương quan Pearson Correlation (kí hiệu R) để đánh giá mức độ tương quan tuyến tính giữa hai biến định lượng. |R| càng gần 1 thì mối tương quan tuyến tính càng chặt chẽ. |R|=0 thì không có mối tương quan tuyến tính. |R| > 0 hay |R| < 0 biểu thị mối tương quan thuận chiều hoặc ngược chiều. Giả thuyết H0 trong trường hợp này cho rằng hai biến định lượng không có mối tương quan với nhau. 68 34
  15. Độ tương quan (Correlation) Cách đọc chung - Ta thấy các thang đó có mối tương quan tương đối như nhau và khá cao. - Hệ số Pearson nói lên mức độ tương quan giữa các biến với nhau trong mô hình (dấu âm thể hiện sự tương quan nghịch; dấu dương thể hiện sự tương quan nghịch): ở đây là tương quan thuận chiều. - Giá trị Sig. nói lên tính phù hợp của hệ số tương quan giữa các biến theo phép kiểm định F với một độ tin cậy cho trước. Trong kiếm định này, lấy độ tin cậy là 95%, nghĩa là hệ số sai số Sig. không vượt quá 0.05. Do đó, biến cột nào có giá trị Sig. > 0.05 thì nó cần phải loại bỏ để đảm bảo sự phù hợp của mô hình. 69 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH Độ tương quan (Correlation) Quan sát bảng kết quả và nhận xét  Các thang đo có mối tương quan như nhau và thuận chiều  Hai dấu sao ** cạnh 0.350 và sử dụng mức ý nghĩa 1% khẳng định hai cấp độ tư duy thuật toán chuyển giao và thiết kế tương quan với nhau ở mức rất cao. 70 35
  16. 2.2. Tổ chức dữ liệu 2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 71 Đặc điểm Một Data Warehouse là một cơ sở lớn của dữ liệu được thu thập từ các tổ chức hoặc phòng ban khác nhau trong doanh nghiệp. cung cấp một môi trường tích hợp và một bức tranh tổng quát về tình hình kinh doanh ở thời điểm hiện tại. các dữ liệu này thường phù hợp với mô hình nhiều chiều Tốn thời gian thể hiện dữ liệu cho toàn bộ doanh nghiệp. DL chỉ đọc Kích thước lớn KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 72 36
  17. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 73 Example Given data warehouse KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 74 37
  18. Example – cross tabulation 1. What is the best selling movie by revenue? 2. What is the best quarter by revenue this year? 3. Any other patterns? KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 75 Extra- questions If a cross-tabulation was designed to include customer location data, one could answer other questions: 1. What is the best selling geography 2. What is the worst selling geography? 3. Any other patterns. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 76 38
  19. 2.2.2. Tổ chức và cài đặt Data Mart Là một dạng con của Data Warehouse KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 77 Lợi ích của Data mart Giảm kích thước của tập dữ liệu tìm kiếm. Cung cấp cách thức truy cập dễ dàng với những tập dữ liệu thường xuyên Việc cài đặt của Data Mart khá dễ dàng và rẻ hơn so với cài đặt kho dữ liệu (data warehouse). nếu có sự thay đổi nào đó với mô hình hệ thống thì data mart dễ dàng chuyển đổi hơn vì nó có kích thước nhỏ gọn. Một Data mart được xây dựng bởi một chủ đề hay một chức năng tương ứng của doanh nghiệp Dữ liệu trong Data Mart được phân mảnh và cho phép truy cập từng mảng độc lập với sự kiểm soát đặc thù. Chính vì dữ liệu được phân mảnh nên nó có thể lưu trữ ở các nền tảng phần cứng và phần mềm khác nhau. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 78 39
  20. Các kiểu Data Mart Kiểu phụ thuộc: Data Mart phụ thuộc được tạo bằng cách trích rút dữ liệu trực tiếp từ các nguồn hoạt động tác nghiệp trong hoặc ngoài doanh nghiệp, hoặc cả hai nguồn này. Kiểu độc lập: Data Mart độc lập được tạo mà không sử dụng một kho dữ liệu trung tâm. Kiểu lai ghép: Data Mart này có thể lấy dữ liệu từ kho dữ liệu hoặc từ hệ thống tác nghiệp trong doanh nghiệp. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 79 Các bước cài đặt Data Mart KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 80 40
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2