Bài giảng Nhập môn khai phá dữ liệu: Chương 2 - PGS. TS. Hà Quang Thụy
lượt xem 5
download
Chương 2 - Công nghệ tri thức. Những nội dung chính trong chương này gồm có: Nghịch lý năng suất của công nghệ thông tin, các mô hình khai phá dữ liệu, sơ bộ về khoa học dữ liệu, công nghệ tri thức và kinh tế tri thức.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Nhập môn khai phá dữ liệu: Chương 2 - PGS. TS. Hà Quang Thụy
- BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 2. CÔNG NGHỆ TRI THỨC PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
- Nội dung ◼ Nghịch lý năng suất của Công nghệ Thông tin ◼ Các mô hình khai phá dữ liệu ◼ Sơ bộ về khoa học dữ liệu ◼ Công nghệ tri thức và kinh tế tri thức July 12, 2021 Công nghệ tri thức 2
- CNTT: Hạ tầng hay thượng tầng? ◼ Công nghệ thông tin là hạ tầng của hạ tầng ? “xác định CNTT giữ vai trò là hạ tầng của hạ tầng quốc gia” http://vnmedia.vn/VN/cong-nghe/tin- tuc/35_280229/cong_nghe_thong_tin_la_ha_tang_cua_ha_ tang.htm Nhầm lẫn tai hại: “hạ tầng CNTT” với bản thân “CNTT” ◼ Vai trò của CNTT trong kinh tế ◼ Nghịch lý về tính hiệu quả của CNTT ◼ Luận điểm của CARR ◼ Bản chất vai trò của CNTT trong kinh tế ◼ Kinh tế thông tin và kinh tế tri thức July 12, 2021 Công nghệ Tri thức 3
- Vai trò của CNTT ◼ Nghịch lý năng suất của CNTT ◼ Robert Solow, nhà kinh tế được giải thưởng Nobel, có nhận định “chúng ta nhìn thấy máy tính ở mọi nơi ngoại trừ trong thống kê năng suất“ (1987) ◼ Căn cứ: Thống kê năng suất kinh tế (theo lý thuyết kinh tế cổ điển) và đầu tư CNTT ◼ Luận điểm của CARR ◼ “CNTT không quan trọng”: IT does not matter ! ◼ Nhận đinh về luận điểm của CARR ◼ Vai trò bản chất của CNTT trong kinh tế ◼ Hệ thống tác nghiệp, điều hành ◼ Hệ thống phát hiện tri thức July 12, 2021 Công nghệ tri thức 4
- Nghịch lý năng suất của CNTT ◼ “Nghịch lý năng suất “: Một xung đột của kỳ vọng với thống kê ◼ Mối quan hệ giữa IT và năng suất: nhiều tranh luận song hiểu biết vẫn còn rất hạn chế. ◼ Năng lực máy tính được đưa vào kinh tế Mỹ đã tăng hơn bậc hai về độ lớn từ năm 1970 ◼ Năng suất, đặc biệt trong khu vực dịch vụ có vẻ đình trệ. ◼ Cho một hứa hẹn khổng lồ của IT tới mở ra trong “cuộc cách mạng công nghệ lớn nhất mà loài người từng có" (Snow, 1966), ◼ Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng một cách hiển nhiên: “Không, máy tính không làm tăng hiệu quả, ít nhất không hầu hết thời gian" (Economist, 1990). Erik Brynjolfsson. The Productivity Paradox of Information Technology: Review and Assessment. Communications of the ACM, Volume 36 Issue 12, Dec. 1993 Pages 66-77 Erik Brynjolfsson, Daniel Rock, Chad Syverson. Artificial Intelligence and the Modern Productivity Paradox: A Clash of Expectations and Statistics. Working Paper 24001, 2017. 5
- Nghịch lý năng suất: Nền kinh tế Mỹ Sự không tương quan trong tăng GNP Chi phí cho máy Giai đoạn Tăng GNP hàng năm tính (%GNP) 1960s 0.003 4.50% 1970s 0.05 2.95% 1980s 0.3 2.75% 1990s 3.1 2.20% 6
- Nghịch lý năng suất: mức công ty ◼ Trái: Không có quan hệ giữa đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung): tỷ lệ đầu tư nhiều cũng như ít ! ◼ Phải: Có 90,6 % số công ty giá thành CNTT lớn hơn giá thu hồi vốn: đầu tư CNTT lãng phí ? Thu hồi vốn chậm ? ◼ http://www.strassmann.com/pubs/cf/cf970603.html 7
- Nghịch lý năng suất: mức công ty tài chính ◼ Quan hệ “tỷ lệ thuận” giữa đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung) tại các công ty tài chính 8
- Luận điểm của G. Carr: IT does'n matter ! ◼ Nicholas G. Carr. IT does'n matter! HBR at Large, May 2003: 41-49 ◼ CNTT xuất hiện khắp nơi và tầm quan trọng chiến lược của nó đã giảm. Cách tiếp cận đầu tư và quản lý CNTT cần phải thay đổi đáng kể ! ◼ Khi một tài nguyên trở thành bản chất để cạnh tranh nhưng không quan trọng cho chiến lược, rủi ro mà nó tạo ra trở thành quan trọng hơn các lợi thế mà nó cung cấp. ◼ Với các cơ hội đạt được lợi thế chiến lược từ CNTT đã nhanh chóng biến mất, nhiều công ty cần có một cái nhìn nghiêm khắc đầu tư vào CNTT và quản lý các hệ thống của họ. Carr đưa ra ba quy tắc hướng dẫn cho tương lai: phủ nhận vai trò chiến lược của CNTT ! ◼ Nicholas G. Carr. The end of corporate computing, MIT Sloan Management Review, Spring 2005: 67-73. ◼ Thuộc 100 người có tên được nhắc đến nhiều nhất ! 9
- Định hướng quản lý đầu tư CNTT Paul A. Strassmann [Strass07]: chi tiêu CNTT so với các doanh nghiệp đồng hạng: ➢ Hơn hay kém hơn so với mức thông thường khi có hiệu quả đo lường được, ➢ Hơn mức thông thường khi mà hiệu quả thông tin của doanh nghiệp hơn mức thông thường, ➢ Hơn mức thông thường khi mà tri thức của nhân viên hơn mức thông thường. [Strass07] Paul A. Strassmann (2007), Measuring and Communicating I.T. Value, http://www.strassmann.com/talks/one-talk.php?talk=123.
- Phân tích nghịch lý năng suất ◼ E. Brynjolfsson [Bryn93]: không nghịch lý năng suất ◼ Lỗi đo lường từ công thức tính năng suất của kinh tế cổ điển: Biến đầu vào, biến đầu ra và đo lường các biến này . ◼ Đầu tư CNTT có độ trễ phát huy năng suất 2-3 năm ◼ Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Cty này đầu tư – công ty khác hưởng lợi ◼ Sai lầm trong quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời. ◼ Công thức tính năng suất kinh tế 11
- 2. Dữ liệu, thông tin, tri thức Biết quan hệ Biết xử lý 12
- Dữ liệu → Thông tin dựa trên tri thức 13
- Dữ liệu, thông tin, tri thức, trí tuệ 14
- Dữ liệu, thông tin, tri thức, trí tuệ 15
- Các đặc trưng của thông tin có giá trị ◼ Thông tin có giá trị ▪ Cho người quản lý và người ra quyết định (“quản lý” và “lãnh đạo”). Nhìn chung “chính xác, đúng người, đúng thời điểm” ▪ Đặc trưng: truy nhập được, chính xác, đầy đủ, kinh tế, linh hoạt, có liên quan, tin cậy, an toàn, đơn giản, kịp thời, kiểm chứng được. ◼ Truy nhập được ▪ Người sử dụng có thẩm quyền dễ dàng nhận được, ở dạng phù hợp, đúng thời điểm theo yêu cầu. ◼ Chính xác ▪ Chính xác là không bị lỗi. Trong nhiều trường hợp, thông tin không chính xác do dữ liệu không chính xác trong quá trình chuyển đổi (được gọi là “nhập rác, xuất rác”: garbage in, garbage out: GIGO). ◼ Đầy đủ ▪ Thông tin cần bao gồm các yếu tố quan trọng. Phản ví dụ: Một báo cáo đầu tư không nói về chi phí quan trọng. 16
- Thông tin có giá trị (tiếp) ◼ Kinh tế ▪ Tính kinh tế liên quan tới chi phí tạo thông tin. Người ra quyết định cần cân bằng giá trị của thông tin với chi phí tạo ra nó. ◼ Linh hoạt ▪ Thông tin được sử dụng linh hoạt cho nhiều mục đích. Ví dụ, thông tin lượng hàng tồn kho cho người bán hàng, cho người quản lý tài chính… ◼ Có liên quan ▪ Có liên quan là quan trọng cho người ra quyết định. ◼ Tin cậy ▪ Theo sự tín nhiệm của người dùng. Tính tin cậy phụ thuộc vào tính tin cậy của phương pháp thu thập thông tin / tính tin cậy của nguồn thông tin. ◼ An toàn ▪ Tránh được sự truy nhập trái phép. 17
- Thông tin có giá trị (tiếp) ◼ Đơn giản ▪ Cần đơn giản, không quá phức tạp. Thông tin phức tạp và chi tiết có thể không cần thiết. ◼ Kịp thời ▪ Được cung cấp khi cần đến nó: “Biết thời tiết cuối tuần trước không giúp gì cho chọn áo khoác mặc thứ Năm”. ◼ Kiểm chứng được ▪ Thông tin cần kiểm chứng được: kiểm tra được tính đúng đắn có thể bằng nhiều nguồn khác nhau. ◼ Lưu ý ▪ Độ quan trọng các đặc trưng tùy thuộc vào kiểu dữ liệu cần đến: (i) Với dữ liệu thông minh thị trường: tính kịp thời > tính chính xác / tính đầy đủ (chẳng hạn, các đối thủ cạnh tranh có thể tạo ra giảm giá lớn…); (ii) tính chính xác, đầy đủ và kiểm chứng được là quan trọng 18
- Dữ liệu thế kỷ 21Dầu mỏ thế kỷ 20 ◼ Một vài đối sánh ▪ Đều là động lực tăng trưởng và trao đổi ▪ Dầu mỏ và dữ liệu: “nhồi vào ống dẫn” ▪ Nhà máy lọc dầu: dầu thô (nhiệt→) xăng, nhớt, thành phần khác ▪ Trung tâm dữ liệu: dữ liệu thô (hàng nghìn máy tính mát →) mẫu có giá trị, dự báo, và hiểu biết sâu sắc mới. ▪ Đều tạo nguyên liệu thô quan trọng → nền kinh tế thế giới ▪ Hệ thống thực ảo cho sản xuất ▪ Dữ liệu lớn biết rất nhiều về mỗi con người, mọi thứ, v.v. https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data- giving-rise-new-economy: Fuel of the future - Data is giving rise to a new economy
- Tăng trưởng dữ liệu ◼ Dự báo IDC ▪ 2020: Vũ trụ dữ liệu 35 zettabytes (“35” và 21 chữ số “0”, dự báo 2011) → 44 zettabytes (dự báo 2014); 2025: 180 zettabytes. ▪ Bơm qua Internet băng thông rộng mất 450 triệu năm! ▪ Amazon: vì mục đích tính toán đám mây, dùng thùng chứa 100 petabytes ▪ 2016: Amazon, Alphabet và Microsoft đạt gần 32 tỷ US$ chi tiêu và hợp đồng
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Nhập môn Khai phá dữ liệu - PGS.TS. Hà Quang Thụy
195 p | 327 | 26
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 1 - PGS. TS. Hà Quang Thụy
92 p | 53 | 23
-
Bài giảng Nhập môn khai phá dữ liệu: Chương giới thiệu môn học - PGS. TS. Hà Quang Thụy
6 p | 67 | 21
-
Bài giảng Nhập môn khai phá dữ liệu: Giới thiệu môn học – K55
12 p | 196 | 18
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang
24 p | 21 | 8
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang
15 p | 29 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 1 - Nguyễn Nhật Quang
54 p | 32 | 7
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 12: Khai phá tập mục thường xuyên và các luật kết hợp
28 p | 21 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1.2: Giới thiệu về Học máy và khai phá dữ liệu
29 p | 19 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 p | 24 | 6
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang
32 p | 21 | 6
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 3 - PGS. TS. Hà Quang Thụy
107 p | 41 | 5
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 4 - PGS. TS. Hà Quang Thụy
75 p | 38 | 5
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 1: Giới thiệu về Học máy và khai phá dữ liệu
38 p | 22 | 5
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 2: Thu thập và tiền xử lý dữ liệu
20 p | 23 | 5
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 5 - PGS. TS. Hà Quang Thụy
70 p | 26 | 4
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 6 - PGS. TS. Hà Quang Thụy
55 p | 25 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn