intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu

Chia sẻ: Conbongungoc09 | Ngày: | Loại File: PDF | Số trang:48

43
lượt xem
9
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu cung cấp cho người học những kiến thức như: Khoa học dữ liệu là gì; Ứng dụng của khoa học dữ liệu; Data scientist (nhà khoa họcdữ liệu); Các yếu tố phát triển khoa học dữ liệu. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu

  1. LOGO LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 1. Tổng quan về khoa học dữ liệu
  2. Nội dung 1 Khoa học dữ liệu là gì 2 Ứng dụng của khoa học dữ liệu 3 Data scientist (nhà khoa học dữ liệu) 4 Các yếu tố phát triển khoa học dữ liệu 2
  3. Khoa học dữ liệu là gì  Hầu hết các ngành khoa học từ xưa đến nay đều giải quyết vấn đề dựa trên lập luận và tri thức  Ngành toán: dựa trên các mệnh đề, công thức, lập luận… để chứng minh bài toán  Ngành vật lý: dựa trên các quan sát, thực nghiệm,tính toán,… kiểm chứng các giả thiết  Ngành hóa học:… …  Tagọi các ngành khoa học này là “knowledge-driven” (dẫn dắt bởi tri thức)  Có ngành có chút ngoại lệ, ví dụ: ngành xác suất 3
  4. Khoa học dữ liệu là gì  Với quan điểm như vậy, tất cả những quan sát mà không được chứng minh chặt chẽ thường đượccho là “không khoa học”  Chẳng hạn: chuồn chuồn bay thấp thì mưa  Khoa học dữ liệu ≠ Khoa học thông thường ở quan điểm: tìm tri thức từ dữ liệu (dẫn dắt bởi dữ liệu – “data-driven”)  Chúng ta rút ra tri thức bằng việc tìm tòi từ dữ liệu chứ không nhất thiết phải chứng minhnó  Tất nhiên tri thức tìm ra phải có tính ổn định (luôn có cùng kết quả nếu sử dụng cùng một phươngpháp) 4
  5. Khoa học dữ liệu là gì Cách mạng công nghiệp lần thứ tư 5
  6. Khoa học dữ liệu là gì Cách mạng sốhoá và physical-cyber systems  ‘Phiên bản số’ các thực thể: Biểu diễn các thực thể bằng ‘0’ và ‘1’ trên máy tính (digital version) Thí dụ: ô-tô, bệnh án điện tử…  Hệ thống không gian số-thế giới thực thể (cyber-physical system): kết nối các thực thể và ‘phiên bản số’ của chúng. Thay đổi phương thức sản xuất Ảnh hưởng mọi lĩnh vực của xãhội 6
  7. Khoa học dữ liệu là gì Đột phá trong chuyển đổi kỹ thuật số 7
  8. Khoa học dữ liệu là gì Cloud computing  Điện toán đám mây: Lưu giữ và truy nhập dữ liệu và chương trình trên clouds qua Internet thay vì trên máy tính của người dùng.  Dữ liệu được lưu giữ thường trực tại các máy chủ trên Internet và chỉ lưu trữ tạm thời ở máykhách.  Cloud computing vs local computing  Thí dụ:  Google drive, Google gmail  Apple iClouds  Dropbox 8
  9. Khoa học dữ liệu là gì Internet of things (IoT)  Là sự kết nối trên mạng (inter- networking) của các vật thể, thiết bị (connected devices, “smartdevices”).  Các thực thể, thiết bị có khả năng trao đổi thông tin, dữ liệu chỉ qua internet mà không cần tương tác trực tiếp (người với người, người với máy, máy với máy (M2M).  Sức khoẻ một người có thể nối với gì? Hồ sơ sức khoẻ điện tử, wearables, trái tim cấy ghép, cơ sở tri thức về bệnh, hệ cảnh báo, chỉ dẫn xử lý... 9
  10. Khoa học dữ liệu là gì Big Data Dữ liệu lớn nói về các tập dữ liệu rất lớn và/hoặc rất phức tạp, vượt quá khả năng xử lý của các kỹ thuậtIT truyền thống. 10
  11. Khoa học dữ liệu là gì Artificial Intelligence – Trí tuệ nhân tạo  Lĩnh vực làm cho máy (tính) hoạt động như có trí thông minh của con người (lập luận, hiểu ngôn ngữ, học tập...).  Phép thử Turing là một cách để trả lời ‘máy tính có biết nghĩ không?’ 11
  12. Khoa học dữ liệu là gì Artificial Intelligence – Trí tuệ nhân tạo  Lĩnh vực làm cho máy (tính) hoạt động như có trí thông minh của con người (lập luận, hiểu ngôn ngữ, học tập...).  AlphaGo, hiểu ngôn ngữ, tiếng nói, chẩn đoán ung thư, ô-tô tự lái... = + + Hầu hết đột phá gần đây của AI dựa vào học máy (machine learning). 12
  13. Khoa học dữ liệu là gì Vài định nghĩa về Khoa học dữ liệu?  Chưa có sự thống nhất. NIST Data science is extraction of actionable knowledge (National directly from data through a process of discovery, hypothesis, and hypothesis testing Institute of Trực tiếp trích rút tri thức hành động từ dữ liệu qua Standards and quá trình phát hiện, thiết lập và kiểm nghiệm các Technology) giả thiết. Microsoft Data science is about using data to make decisions that drive actions. Dùng dữ liệu tạo quyết định dẫn dắt hành động Thay đổi: data analysis  data analytics  data science 13
  14. Khoa học dữ liệu là gì Data science “In Godwe trust. All others bring DOMAIN data”. EXPERTISE “Ta tin Thượng đế. STATISTICAL DATA Ngoài ra, là dữ RESEARCH PROCESSING liệu”. W.E.D eming DATA SCIENCE STATISTICS COMPUTER “We cannot solve problems & MATHS SCIENCE by using the same kind of MACHINE LEARNING thinking we usedwhen we created them” Ta không thể giải quyết các vấn đề với chính cách nghĩ ta đã dùng khi đặt vấn đề Albert Einstein 9 14
  15. Khoa học dữ liệu là gì 17 15
  16. Khoa học dữ liệu là gì Một lược đồ của khoa học dữ liệu DIRECTED ACTIONS TOHUMAN DIRECTED ACTIONS TO MACHINES PUBLICATION Mobile Web Browser devices Custom hand help FTP and SFTP MQ, JMS, Sockers ACCESS services RESULT VISUALIZATION Tag cloud Clustergram Historyflow Spatialinformationflow COMMUNICATION ANALYTICS MACHINE LEARNING STATISTICS & DATAMINING DATA ANALYTICS MANAGEMENT Distributed Data Cleaning File System Data Data Security DATA Parallel Storage MANIPULATION computing ……. EXTRACT Semi-structured/un-structure data extraction ……. Enterprise, Oracle, SAP, Sensors Mobiles DATA SOURCES Customer, Systems, etc. Web/Unstructured ……. Source: WAMDM, Web group 18 16
  17. Khoa học dữ liệu là gì Mô hình dữ liệu là gì?  Ví dụ: bạn muốn dùng một chiếc hộp đen đểnhận diện loài vật  B1: Bạn phải tìm rất nhiều hình ảnh con chó và conmèo  B2: Cho hộp đen đọc những hình ảnh này  B3: Dạy cho hộp đen biết đặc điểm nào trên bức hìnhlà của con chó, đặc điểm nào là của con mèo  B4: Bạn đưa ra 2 hình ảnh mới, hộp đen sẽ trả lờiđâu là hình ảnh con chó, hình ảnh con mèo  Toàn bộ quá trình này gọi là học máy(machine learning) và cái hộp đen chính là mô hình dữliệu 17
  18. Khoa học dữ liệu là gì  Khái niệm khoa học dữ liệu (KHDL) và quanhệ của KHDL với các đột phá củaKH&CN.  KHDL là nền tảng của công nghệ số, của thờikỳ chuyển đổi số.  KHDLlà một công cụ lao động chính cuả tương lai. Cần chuẩn bị và trang bịkiến thức.  Thời chuyển đổi số là cơ hội lớn của phát triển,của con đường mới.. 18
  19. Ứng dụng của khoa học dữ liệu  Các bài toán dựbáo:  Dự báo thị trường nhà đất: ngôi nhà ở mảnh đấtA liệu có giá bao nhiêu vào năm 2020?  Dự báo thời tiết: đi nghỉ giỗ tổ và 30/4-1/5ở Hạ Long có cần mang áo mưa hay không?  Dự báo hành vi mua hàng: có thích món hàng nàyhay không? Mức độ thích như thế nào? …  Các bài toán ra quyết định:  Lái xe tự động  Đặt mua, đặt bán cổ phiếu theo tin tức 19
  20. Ứng dụng của khoa học dữ liệu  Các bài toán ra quyết định:  Điều chỉnh nhiệt độ điều hòa tối ưu cho hoạt động của người trong phòng  Điều hành xe để đáp ứng nhu cầu của khách gọi taxi …  Các hệ thống phân tích thời gian thực:  Xu hướng của truyền thông về doanh nghiệp hoặc nhân vật nào đó  Cảnh báo cháy qua camera  Cảnh báo nguy hiểm với trẻ con, ngườigià … 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2