Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu
lượt xem 9
download
Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu cung cấp cho người học những kiến thức như: Khoa học dữ liệu là gì; Ứng dụng của khoa học dữ liệu; Data scientist (nhà khoa họcdữ liệu); Các yếu tố phát triển khoa học dữ liệu. Mời các bạn cùng tham khảo!
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu
- LOGO LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 1. Tổng quan về khoa học dữ liệu
- Nội dung 1 Khoa học dữ liệu là gì 2 Ứng dụng của khoa học dữ liệu 3 Data scientist (nhà khoa học dữ liệu) 4 Các yếu tố phát triển khoa học dữ liệu 2
- Khoa học dữ liệu là gì Hầu hết các ngành khoa học từ xưa đến nay đều giải quyết vấn đề dựa trên lập luận và tri thức Ngành toán: dựa trên các mệnh đề, công thức, lập luận… để chứng minh bài toán Ngành vật lý: dựa trên các quan sát, thực nghiệm,tính toán,… kiểm chứng các giả thiết Ngành hóa học:… … Tagọi các ngành khoa học này là “knowledge-driven” (dẫn dắt bởi tri thức) Có ngành có chút ngoại lệ, ví dụ: ngành xác suất 3
- Khoa học dữ liệu là gì Với quan điểm như vậy, tất cả những quan sát mà không được chứng minh chặt chẽ thường đượccho là “không khoa học” Chẳng hạn: chuồn chuồn bay thấp thì mưa Khoa học dữ liệu ≠ Khoa học thông thường ở quan điểm: tìm tri thức từ dữ liệu (dẫn dắt bởi dữ liệu – “data-driven”) Chúng ta rút ra tri thức bằng việc tìm tòi từ dữ liệu chứ không nhất thiết phải chứng minhnó Tất nhiên tri thức tìm ra phải có tính ổn định (luôn có cùng kết quả nếu sử dụng cùng một phươngpháp) 4
- Khoa học dữ liệu là gì Cách mạng công nghiệp lần thứ tư 5
- Khoa học dữ liệu là gì Cách mạng sốhoá và physical-cyber systems ‘Phiên bản số’ các thực thể: Biểu diễn các thực thể bằng ‘0’ và ‘1’ trên máy tính (digital version) Thí dụ: ô-tô, bệnh án điện tử… Hệ thống không gian số-thế giới thực thể (cyber-physical system): kết nối các thực thể và ‘phiên bản số’ của chúng. Thay đổi phương thức sản xuất Ảnh hưởng mọi lĩnh vực của xãhội 6
- Khoa học dữ liệu là gì Đột phá trong chuyển đổi kỹ thuật số 7
- Khoa học dữ liệu là gì Cloud computing Điện toán đám mây: Lưu giữ và truy nhập dữ liệu và chương trình trên clouds qua Internet thay vì trên máy tính của người dùng. Dữ liệu được lưu giữ thường trực tại các máy chủ trên Internet và chỉ lưu trữ tạm thời ở máykhách. Cloud computing vs local computing Thí dụ: Google drive, Google gmail Apple iClouds Dropbox 8
- Khoa học dữ liệu là gì Internet of things (IoT) Là sự kết nối trên mạng (inter- networking) của các vật thể, thiết bị (connected devices, “smartdevices”). Các thực thể, thiết bị có khả năng trao đổi thông tin, dữ liệu chỉ qua internet mà không cần tương tác trực tiếp (người với người, người với máy, máy với máy (M2M). Sức khoẻ một người có thể nối với gì? Hồ sơ sức khoẻ điện tử, wearables, trái tim cấy ghép, cơ sở tri thức về bệnh, hệ cảnh báo, chỉ dẫn xử lý... 9
- Khoa học dữ liệu là gì Big Data Dữ liệu lớn nói về các tập dữ liệu rất lớn và/hoặc rất phức tạp, vượt quá khả năng xử lý của các kỹ thuậtIT truyền thống. 10
- Khoa học dữ liệu là gì Artificial Intelligence – Trí tuệ nhân tạo Lĩnh vực làm cho máy (tính) hoạt động như có trí thông minh của con người (lập luận, hiểu ngôn ngữ, học tập...). Phép thử Turing là một cách để trả lời ‘máy tính có biết nghĩ không?’ 11
- Khoa học dữ liệu là gì Artificial Intelligence – Trí tuệ nhân tạo Lĩnh vực làm cho máy (tính) hoạt động như có trí thông minh của con người (lập luận, hiểu ngôn ngữ, học tập...). AlphaGo, hiểu ngôn ngữ, tiếng nói, chẩn đoán ung thư, ô-tô tự lái... = + + Hầu hết đột phá gần đây của AI dựa vào học máy (machine learning). 12
- Khoa học dữ liệu là gì Vài định nghĩa về Khoa học dữ liệu? Chưa có sự thống nhất. NIST Data science is extraction of actionable knowledge (National directly from data through a process of discovery, hypothesis, and hypothesis testing Institute of Trực tiếp trích rút tri thức hành động từ dữ liệu qua Standards and quá trình phát hiện, thiết lập và kiểm nghiệm các Technology) giả thiết. Microsoft Data science is about using data to make decisions that drive actions. Dùng dữ liệu tạo quyết định dẫn dắt hành động Thay đổi: data analysis data analytics data science 13
- Khoa học dữ liệu là gì Data science “In Godwe trust. All others bring DOMAIN data”. EXPERTISE “Ta tin Thượng đế. STATISTICAL DATA Ngoài ra, là dữ RESEARCH PROCESSING liệu”. W.E.D eming DATA SCIENCE STATISTICS COMPUTER “We cannot solve problems & MATHS SCIENCE by using the same kind of MACHINE LEARNING thinking we usedwhen we created them” Ta không thể giải quyết các vấn đề với chính cách nghĩ ta đã dùng khi đặt vấn đề Albert Einstein 9 14
- Khoa học dữ liệu là gì 17 15
- Khoa học dữ liệu là gì Một lược đồ của khoa học dữ liệu DIRECTED ACTIONS TOHUMAN DIRECTED ACTIONS TO MACHINES PUBLICATION Mobile Web Browser devices Custom hand help FTP and SFTP MQ, JMS, Sockers ACCESS services RESULT VISUALIZATION Tag cloud Clustergram Historyflow Spatialinformationflow COMMUNICATION ANALYTICS MACHINE LEARNING STATISTICS & DATAMINING DATA ANALYTICS MANAGEMENT Distributed Data Cleaning File System Data Data Security DATA Parallel Storage MANIPULATION computing ……. EXTRACT Semi-structured/un-structure data extraction ……. Enterprise, Oracle, SAP, Sensors Mobiles DATA SOURCES Customer, Systems, etc. Web/Unstructured ……. Source: WAMDM, Web group 18 16
- Khoa học dữ liệu là gì Mô hình dữ liệu là gì? Ví dụ: bạn muốn dùng một chiếc hộp đen đểnhận diện loài vật B1: Bạn phải tìm rất nhiều hình ảnh con chó và conmèo B2: Cho hộp đen đọc những hình ảnh này B3: Dạy cho hộp đen biết đặc điểm nào trên bức hìnhlà của con chó, đặc điểm nào là của con mèo B4: Bạn đưa ra 2 hình ảnh mới, hộp đen sẽ trả lờiđâu là hình ảnh con chó, hình ảnh con mèo Toàn bộ quá trình này gọi là học máy(machine learning) và cái hộp đen chính là mô hình dữliệu 17
- Khoa học dữ liệu là gì Khái niệm khoa học dữ liệu (KHDL) và quanhệ của KHDL với các đột phá củaKH&CN. KHDL là nền tảng của công nghệ số, của thờikỳ chuyển đổi số. KHDLlà một công cụ lao động chính cuả tương lai. Cần chuẩn bị và trang bịkiến thức. Thời chuyển đổi số là cơ hội lớn của phát triển,của con đường mới.. 18
- Ứng dụng của khoa học dữ liệu Các bài toán dựbáo: Dự báo thị trường nhà đất: ngôi nhà ở mảnh đấtA liệu có giá bao nhiêu vào năm 2020? Dự báo thời tiết: đi nghỉ giỗ tổ và 30/4-1/5ở Hạ Long có cần mang áo mưa hay không? Dự báo hành vi mua hàng: có thích món hàng nàyhay không? Mức độ thích như thế nào? … Các bài toán ra quyết định: Lái xe tự động Đặt mua, đặt bán cổ phiếu theo tin tức 19
- Ứng dụng của khoa học dữ liệu Các bài toán ra quyết định: Điều chỉnh nhiệt độ điều hòa tối ưu cho hoạt động của người trong phòng Điều hành xe để đáp ứng nhu cầu của khách gọi taxi … Các hệ thống phân tích thời gian thực: Xu hướng của truyền thông về doanh nghiệp hoặc nhân vật nào đó Cảnh báo cháy qua camera Cảnh báo nguy hiểm với trẻ con, ngườigià … 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Lập trình Assembly: Chương 2 - Nguyễn Văn Thọ
9 p | 158 | 21
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 2: Lập trình căn bản với Python
26 p | 75 | 20
-
Bài giảng Lập trình Assembly: Chương 7 - Nguyễn Văn Thọ
14 p | 151 | 18
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 4: Xử lý dữ liệu trong Python
27 p | 71 | 18
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 6: Xử lý dữ liệu trong Python
20 p | 56 | 17
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 3: Các thao tác cơ bản trong Python
21 p | 63 | 17
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 5: Xử lý dữ liệu trong Python
19 p | 50 | 15
-
Bài giảng Lập trình hướng đối tượng: Chương 9 - ĐH Bách Khoa TP.HCM
14 p | 86 | 10
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện Pandas
41 p | 47 | 9
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 10: Thư viện scikit- learn
22 p | 40 | 8
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 7: Thư viện numpy
28 p | 40 | 8
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy
59 p | 48 | 8
-
Bài giảng Lập trình hướng đối tượng: Chương 3 - ĐH Bách Khoa TP.HCM
12 p | 109 | 8
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 8: Thư viện matplotlib
27 p | 29 | 7
-
Bài giảng Lập trình hướng đối tượng: Chương 6 - ĐH Ngoại ngữ - Tin học
45 p | 59 | 7
-
Bài giảng Lập trình hướng đối tượng: Chương 2 - ĐH Ngoại ngữ - Tin học
40 p | 51 | 6
-
Bài giảng Lập trình an toàn: Chương 6 - Lương Ánh Hoàng
17 p | 44 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn