intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng một số chủ đề hiện đại về khai phá dữ liệu - Khai phá quá trình: Chương 1 - PGS. TS Hà Quang Thụy

Chia sẻ: Codon_01 Codon_01 | Ngày: | Loại File: PPT | Số trang:68

81
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng một số chủ đề hiện đại về khai phá dữ liệu - Khai phá quá trình: Chương 1 - PGS. TS Hà Quang Thụy tập trung vào hai nội dung chính là giới thiệu chung về hệ thống thông tin và giới thiệu sơ bộ về khai phá quá trình. Hy vọng tài liệu là nguồn thông tin hữu ích cho quá trình học tập và nghiên cứu của các bạn.

Chủ đề:
Lưu

Nội dung Text: Bài giảng một số chủ đề hiện đại về khai phá dữ liệu - Khai phá quá trình: Chương 1 - PGS. TS Hà Quang Thụy

  1. BÀI GIẢNG MỘT SỐ CHỦ ĐỀ HIỆN ĐẠI VỀ KHAI PHÁ DỮ LIỆU: KHAI PHÁ QUÁ TRÌNH CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THÔNG TIN VÀ KHAI PHÁ QUÁ TRÌNH PGS. TS. HÀ QUANG THỤY HÀ NỘI 01-2015 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
  2. Nội dung 1. Giới thiệu chung về hệ thống thông tin 2. Giới thiệu sơ bộ về khai phá quá trình 2
  3. Phần 1. Giới thiệu chung về Hệ thống thông tin 3
  4. Dữ liệu, thông tin, tri thức  Khái niệm dữ liệu  Dữ liệu: sự kiện thô  chỉ số nhân viên, tên mặt hàng, số lượng hàng trong một đơn hàng..  “Thô”: thu được từ ghi chép sự kiện từ thế giới thực  Các kiểu dữ liệu: chữ-số (Alphanumeric), ảnh (image), âm thanh (tiếng nói, tiếng động, Video (hình/ảnh chuyển động)  Dạng tự nhiên và số hóa  Khái niệm thông tin  Dữ liệu được tổ chức dựa theo mang thêm một ý nghĩa thông tin  Thông tin: tập dữ liệu được tổ chức theo cách (các quy tắc và các mỗi quan hệ) tạo ra một giá trị gia tăng ngoài tập giá trị của các dữ liệu riêng. So sánh khái niệm mẫu (pattern) trong khai phá dữ liệu. Tổng doanh thu bán hàng trong tháng số lượng bán hàng của từng ngày, từng đại lý.  Minh họa: Dữ liêu Thanh tà vẹt, thanh ray. Thông tin đường sắt (trái), đường sắt phức hợp (phải).  Từ dữ liệu thông tin cần qua một quá trình (Một tập các nhiệm vụ có liên quan loogic được thực hiện để đạt được một kết quả xác định) 4
  5. Tri thức  Khái niệm tri thức  Các dự báo và hiểu biết về một tập các thông tin và các cách thức mà thông tin trở nên hữu ích để hỗ trợ một nhiệm vụ cụ thể hoặc đưa ra một quyết định. So sánh khái niệm tri thức trong Khai phá dữ liệu.  Có tri thức hiểu biết mối quan hệ trong thông tin  Nhân công tri thức (knowledge worker): người tạo, sử dụng, phổ biến tri thức, thường là chuyên gia về khoa học, kỹ thuật, kinh doanh, miền ỨD.  Hệ thống quản lý tri thức (knowledge management system): một tập được tổ chức gồm con người, thủ tục, phần mềm, CSDL và các thiết bị để tạo ra, lưu trữ và sử dụng tri thức và kinh nghiệm của tổ chức.  Xử lý dữ liệu theo bộ óc hoặc thủ công hoặc bằng máy tính. 5
  6. Các đặc trưng của thông tin có giá trị  Thông tin có giá trị  Cho người quản lý và người ra quyết định (“quản lý” và “lãnh đạo”). Nhìn chung “chính xác, đúng người, đúng thời điểm”  Các đặc trưng: truy nhập được (Accessible), chính xác (Accurate), đầy đủ (Complete), kinh tế (Economical), linh hoạt (Flexible), có liên quan (Relevant), tin cậy (Reliable), An toàn (Secure), đơn giản (Simple), kịp thời (Timely), kiểm chứng được (Verifiable).  Truy nhập được  Người sử dụng có thẩm quyền dễ dàng nhận được, ở dạng phù hợp, đúng thời điểm theo yêu cầu.  Chính xác  Thông tin chính xác là không bị lỗi. Trong nhiều trường hợp, thông tin không chính xác do dữ liệu không chính xác trong quá trình chuyển đổi (được gọi là “nhập rác, xuất rác”: garbage in, garbage out: GIGO).  Đầy đủ  Thông tin cần bao gồm các yếu tố quan trọng. Phản ví dụ: Một báo cáo đầu tư không nói về chi phí quan trọng. 6
  7. Thông tin có giá trị (tiếp)  Tính kinh tế  Tính kinh tế liên quan tới chi phí tạo thông tin. Người ra quyết định cần cân bằng giá trị của thông tin với chi phí tạo ra nó.  Tính linh hoạt  Thông tin được sử dụng linh hoạt cho nhiều mục đích. Ví dụ, thông tin lượng hàng tồn kho cho người bán hàng, cho người quản lý tài chính…  Có liên quan  Có liên quan là quan trọng cho người ra quyết định.  Tính tin cậy  Theo sự tín nhiệm của người dùng. Tính tin cậy phụ thuộc vào tính tin cậy của phương pháp thu thập thông tin / tính tin cậy của nguồn thông tin.  Tính an toàn  Tránh được sự truy nhập trái phép.  Tính đơn giản  Cần đơn giản, không quá phức tạp. Thông tin phức tạp và chi tiết có thể không cần thiết. 7
  8. Thông tin có giá trị (tiếp)  Tính kịp thời  Được cung cấp khi cần đến nó: “Biết thời tiết cuối tuần trước không giúp gì cho chọn áo khoác mặc thứ Năm”.  Tính kiểm chứng được  Thông tin cần kiểm chứng được: kiểm tra được tính đúng đắn có thể bằng nhiều nguồn khác nhau.  Lưu ý  Độ quan trọng các đặc trưng tùy thuộc vào kiểu dữ liệu cần đến: (i) Với dữ liệu thông minh thị trường: tính kịp thời > tính chính xác / tính đầy đủ (chẳng hạn, các đối thủ cạnh tranh có thể tạo ra giảm giá lớn…); (ii) tính chính xác, đầy đủ và kiểm chứng được là quan trọng 8
  9. Khái niệm hệ thống  Khái niệm hệ thống  Một tập các phần tử / các thành phần tương tác để hoàn thành mục tiêu  Các phần tử và các quan hệ giữa chúng xác định cách hoạt động của hệ thống.  Hệ thống có các thành phần input, các cơ chế xử lý, output và cơ chế phản hồi  Ví dụ, hệ thống rửa ô tô:  Bao gồm các phần tử độc lập hoặc thành phần (phun chất lỏng, chổi bọt, sấy không khí…)  Cơ chế xử lý tùy theo lựa chọn khách hàng: chỉ làm sạch / làm sạch & đánh bóng / làm sạch & đánh bóng & làm khô)  Cơ chế phản hồi: đánh giá của khách hàng về chất lượng rửa xe. 9
  10. Các kiểu hệ thống  Các kiểu hệ thống phức tạp  Hệ thống tự nhiên  Hệ thống sản xuất  Hệ thống xã hội – công nghệ 10
  11. Hệ thống xã hội – công nghệ  Hệ thống xã hội – công nghệ  Một lượng tùy ý các phần tử, các liên kết, các thuộc tính và các tác nhân tương tác  đáp ứng các yêu cầu của một khách hàng đã biết và khởi tạo giá trị.  Tổ hợp của hệ thống tự nhiên và hệ thống sản xuất  Con người, quá trình và hàng hóa  Các phần tử tương tác giữa các phương diện xã hội và cơ khí  Hoạt động hướng khách hàng  Tương tác đồng sản xuất giữa nhà cung cấp và khách hàng  Giao dịch kinh tế và tạo giá trị 11
  12. Các loại hệ thống 12
  13. Hệ thống: Hiệu năng và các chuẩn  Độ đo hiệu năng hệ thống  Tồn tại một số độ đo về hiệu năng hệ thống  Hiệu suất (efficiency): Độ đo tỷ số giữa cái được sản suất ra chia cho cái tiêu thụ để sản xuất (0-100%).  Ví dụ, hiệu suất của một động cơ là tỷ số giữa năng lượng được sinh ra (công việc được thực hiện) với số năng lượng cần tiêu thụ (theo điện năng hoặc nhiên liệu). Được dùng để so sánh các hệ thống.  Hiệu lực (effectiveness): Độ đo mức độ hệ thống đạt được mục tiêu, là tỷ số các mục tiêu thực sự đạt được trên tổng các mục tiêu đặt ra.  Ví dụ, một công ty muốn một lợi nhuận 100 tỷ đồng/1 năm sử dụng HTTT và lợi nhuận đạt được thực sự là 85 tỷ đồng hiệu lực 85%.  Một chuẩn hiệu năng (perfomance standard) là một mục tiêu cụ thể của hệ thống.  Ví dụ, một chuẩn hiệu năng cho một chiến dịch tiếp thị là mỗi đại lý bán hàng 100 tỷ đồng cho mỗi loại sản phẩm/năm (Hình trên). Một chuẩn hiệu năng cho một quá trình sản xuất là có không quá 1% sản phẩm lỗi (Hình dưới). Hệ thống thực hiện và so sánh với chuẩn. 13
  14. Hệ thống: Hiệu năng và các chuẩn Ví dụ các chuẩn hiệu năng: mục tiêu tăng bán hàng (a, trên) mục tiêu giảm lỗi sản phẩm (b, dưới) 14
  15. Mô hình hóa hệ thống Mô hình hóa một hệ thống: tường thuật (từ, nói, viết), vật lý (hình tượng), sơ đồ (đồ họa), toán học 15
  16. Khái niệm hệ thống thông tin  Khái niệm hệ thống thông tin (information system: IS)  Một tập các phần tử hoặc thành phần liên quan nhau cung cấp thông tin tạo lợi thế cạnh tranh cho tổ chức  thực hiện thu thập (input), thao tác (xử lý), lưu trữ và kết xuất (output) dữ liệu và thông tin, và cung cấp một phản ứng hiệu chỉnh (cơ chế phản hồi: feedback mechanism) đạt được một mục tiêu (objective).  Cơ chế phản hồi là thành phần giúp các tổ chức đạt được các mục đích (goals), chẳng hạn như tăng lợi nhuận /cải thiện quan hệ khách hàng. Phản hồi là thành phần chủ chốt cho thành công của hệ thống. 16
  17. Khái niệm hệ thống thông tin  Các khái niệm liên quan trong định nghĩa  Bộ vào (input): Hoạt động thu thập và đạt được dữ liệu thô. Ví dụ, (i) trước khi lập và in bảng lương, số giờ làm việc của mọi nhân viên cần được thu thập; (ii) Trong hệ thống tín điểm đại học, các giảng viên phải nộp đầy đủ kết quả thi mọi môn học  Xử lý (processing): Biến đổi hoặc chuyển dạng dữ liệu thành các kết quả ra hữu ích. Tính toán, so sánh dữ liệu, hoạt động khác, và lưu trữ dữ liệu để dùng về sau. Bằng tay, bằng máy tính.  Bộ ra (output): Việc kết xuất ra các thông tin hữu dụng, thường là văn bản hoặc báo cáo. Bộ ra hệ thống này có thể bộ vào hệ thống kế tiếp.  Phản hồi (feedback): Các kết quả ra được sử dụng để thay đổi input hoặc hành động xử lý.  Hệ thống thông tin thủ công và dựa trên máy tính  Vẽ các sơ đồ, bảng biểu, đường xu hướng để ra quyết định  Hiện tại, hầu hết hệ thống dựa trên mày tính 17
  18. Khung tổng thể các hệ thống thông tin [SJB09] John W. Satzinger, Robert B. Jackson, Stephen D. Burd (2009). Systems Analysis and Design in a Changing World, Course Technology, Cengage Learning 18
  19. Các kiểu hệ thống thông tin [SJB09] John W. Satzinger, Robert B. Jackson, Stephen D. Burd (2009). Systems Analysis and Design in a Changing World, Course Technology, Cengage Learning 19
  20. HTTT dựa trên máy tính (CBIS)  Computer- Based Information System (CBIS),  CBIS: một tập đơn nhất các phần tử/thành phần: phần cứng, phần mềm, CSDL, viễn thông-mạng-internet, con người, các thủ tục procedures (chiến lược: strategics, chính sách: polities, phương pháp: methods, quy tắc: rules) được cấu hình để thu thập, chế biến, lưu trữ, và xử lý dữ liệu thành thông tin.  Hạ tầng công nghệ (cho kinh doanh): Mọi thành phần phần cứng, phần mềm, CSDL, viễn thông-mạng-internet, con người, thủ tục để thu thập, chế biến, lưu trữ, và xử lý dữ liệu thành 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2