intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:12

12
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng" giúp bạn tìm hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thống kê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thống kê và khoa học máy tính. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng

  1. NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG Nguyễn Thanh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing Email: nt.truong@ufm.edu.vn Tóm tắt: Việc sử dụng thuật ngữ "khoa học dữ liệu" ngày càng phổ biến, cũng như "dữ liệu lớn". Nhưng nó có nghĩa gì? Có điều gì độc đáo về nó? Những kỹ năng "nhà khoa học dữ liệu" cần để làm việc hiệu quả trong một thế giới bị che khuất bởi dữ liệu? Tìm hiểu khoa học có những tác động gì? Là những câu hỏi thường đặt ra gần đây. Các nhà khoa học dữ liệu thường đóng vai trò là nhà tư vấn được thuê bởi các công ty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra các chiến lược. Nói cách khác, Nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữ liệu để hỗ trợ các công ty đưa ra các quyết định kinh doanh thông minh hơn. Từ khóa: Khoa học dữ liệu, data Science, phân tích dữ liệu, data analytics 1. GIỚI THIỆU Khoa học dữ liệu (KHDL) là khoa học về việc quản trị và phân tích dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. KHDL gồm ba phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thành giá trị của hành động. Nôm na bước thứ nhất là về số hóa và bước thứ hai là về dùng dữ liệu. Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể. “Khoa học dữ liệu là về khai thác, chuẩn bị, phân tích, trực quan hóa và duy trì thông tin. Đây là một lĩnh vực liên ngành sử dụng các phương pháp và quy trình khoa học để rút ra những hiểu biết sâu sắc từ dữ liệu”. Hình 1: Các khối kiến thức liên quan đên Khoa học dữ liệu 306
  2. Với sự xuất hiện của các công nghệ mới, dữ liệu đã tăng lên theo cấp số nhân. Điều này đã tạo cơ hội để phân tích và rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu. Nó đòi hỏi kiến thức chuyên môn đặc biệt của một ‘Nhà khoa học dữ liệu’, người có thể sử dụng các công cụ thống kê & máy học khác nhau để hiểu và phân tích dữ liệu. Một Nhà Khoa học Dữ liệu, chuyên về Khoa học Dữ liệu, không chỉ phân tích dữ liệu mà còn sử dụng các thuật toán học máy để dự đoán các sự kiện xảy ra trong tương lai. Do đó, chúng ta có thể hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thống kê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thống kê và khoa học máy tính. 2. MỘT SỐ KHÓ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU Hình 2:Vị trí của ngành Khoa học dữ liệu Kỹ năng Kỹ năng máy học đang nhanh chóng trở nên cần thiết đối với các nhà khoa học dữ liệu khi các công ty điều hướng cơn bão dữ liệu và cố gắng xây dựng các hệ thống quyết định tự động dựa trên độ chính xác của dự đoán. Một khóa học cơ bản về máy học là cần thiết trong thị trường ngày nay. Ngoài ra, kiến thức về xử lý văn bản và "khai thác văn bản" đang trở nên cần thiết trước sự bùng nổ của văn bản và dữ liệu phi cấu trúc khác trong các hệ thống chăm sóc sức khỏe, mạng xã hội và các diễn đàn khác. Kiến thức về các ngôn ngữ 307
  3. đánh dấu như XML và các dẫn xuất của nó cũng rất cần thiết, vì nội dung được gắn thẻ và do đó có thể được máy tính thông dịch tự động. Kiến thức của các nhà khoa học dữ liệu về học máy phải xây dựng dựa trên các kỹ năng cơ bản hơn thuộc ba lớp rộng: Thứ nhất là thống kê, đặc biệt là thống kê Bayes, đòi hỏi kiến thức làm việc về xác suất, phân phối, kiểm tra giả thuyết và phân tích đa biến. Nó có thể được mua trong một trình tự hai hoặc ba khóa học. Phân tích đa biến thường trùng lặp với kinh tế lượng, liên quan đến việc điều chỉnh các mô hình thống kê mạnh mẽ với dữ liệu kinh tế. Không giống như các phương pháp học máy, không đưa ra hoặc có ít giả định về dạng hàm của mối quan hệ giữa các biến, phân tích đa biến và kinh tế lượng tập trung nhiều vào việc ước lượng các tham số của mô hình tuyến tính, trong đó mối quan hệ giữa các biến phụ thuộc và độc lập được biểu thị dưới dạng bình đẳng tuyến tính. Lớp kỹ năng thứ hai đến từ khoa học máy tính và liên quan đến cách dữ liệu được trình bày và thao tác bên trong bởi máy tính. Điều này liên quan đến một chuỗi các khóa học về cấu trúc dữ liệu, thuật toán và hệ thống, bao gồm tính toán phân tán, cơ sở dữ liệu, tính toán song song và tính toán chịu lỗi. Cùng với các ngôn ngữ kịch bản (chẳng hạn như Python và Perl), các kỹ năng hệ thống là nền tảng cơ bản cần thiết để xử lý các tập dữ liệu có kích thước hợp lý. Tuy nhiên, để xử lý các tập dữ liệu rất lớn, các hệ thống cơ sở dữ liệu chuẩn được xây dựng trên mô hình dữ liệu quan hệ có những hạn chế nghiêm trọng. Bước tiến gần đây đối với điện toán đám mây và các cấu trúc không tương quan để xử lý các bộ dữ liệu khổng lồ một cách mạnh mẽ báo hiệu một loạt kỹ năng cần thiết mới cho các nhà khoa học dữ liệu. Lớp kỹ năng thứ ba yêu cầu kiến thức về mối tương quan và nhân quả và là trọng tâm của hầu như bất kỳ bài tập mô hình hóa nào liên quan đến dữ liệu. Mặc dù dữ liệu quan sát thường giới hạn chúng ta trong các mối tương quan, nhưng chúng ta có thể gặp may. Đôi khi dữ liệu phong phú có thể đại diện cho các thử nghiệm ngẫu nhiên tự nhiên và khả năng tính toán xác suất có điều kiện một cách đáng tin cậy, cho phép khám phá cấu trúc nhân quả.22 Việc xây dựng mô hình nhân quả là mong muốn trong các lĩnh vực mà người ta có độ tin cậy hợp lý về tính hoàn chỉnh của mô hình đã xây dựng và tính ổn định của nó, hoặc liệu mô hình nhân quả "tạo ra" dữ liệu quan sát là ổn định. Ít nhất, một nhà khoa học dữ liệu nên có một ý tưởng rõ ràng về sự khác biệt giữa mối tương quan và quan hệ nhân quả 308
  4. và khả năng đánh giá mô hình nào là khả thi, mong muốn và thực tế trong các bối cảnh khác nhau. Bộ kỹ năng cuối cùng là bộ kỹ năng ít được tiêu chuẩn hóa nhất và hơi khó nắm bắt và ở một mức độ nào đó là một thủ công nhưng cũng là yếu tố khác biệt quan trọng để trở thành một nhà khoa học dữ liệu hiệu quả, khả năng hình thành vấn đề theo cách dẫn đến các giải pháp hiệu quả. Herbert Simon, nhà kinh tế học người Mỹ thế kỷ 20, người đã đặt ra thuật ngữ "trí tuệ nhân tạo" đã chứng minh rằng nhiều vấn đề dường như khác nhau thường là "đẳng hình" hoặc có cấu trúc cơ bản giống hệt nhau. Ông đã chứng minh rằng nhiều bài toán đệ quy có thể được biểu diễn dưới dạng bài toán Towers of Hanoi tiêu chuẩn, hoặc liên quan đến các trạng thái và toán tử ban đầu và mục tiêu giống hệt nhau. Điểm lớn hơn của ông là có thể dễ dàng giải quyết các vấn đề dường như khó khăn nếu được thể hiện một cách sáng tạo với tính đẳng hình trong tâm trí. Theo nghĩa rộng hơn, chuyên môn về công thức liên quan đến khả năng nhìn thấy những điểm chung trong các vấn đề rất khác nhau; ví dụ, nhiều vấn đề có "các lớp mục tiêu không cân bằng" thường biểu thị biến phụ thuộc đôi khi chỉ thú vị (chẳng hạn như khi mọi người phát triển các biến chứng của bệnh tiểu đường hoặc phản ứng với các đề nghị hoặc khuyến mãi tiếp thị). Đây là những trường hợp quan tâm mà chúng tôi muốn dự đoán. Những vấn đề như vậy là một thách thức đối với các mô hình, theo thuật ngữ Popperian, phải cố gắng đưa ra các dự đoán có khả năng sai trừ khi mô hình cực kỳ giỏi trong việc phân biệt giữa các lớp. Các nhà khoa học dữ liệu có kinh nghiệm đã quen thuộc với những vấn đề này và biết cách hình thành chúng theo cách giúp hệ thống có cơ hội đưa ra dự đoán chính xác trong điều kiện mà các yếu tố tiên quyết được xếp chồng lên nhau nhiều chống lại nó. Kỹ năng xây dựng vấn đề đại diện cho kỹ năng cốt lõi của các nhà khoa học dữ liệu trong thập kỷ tới. Thuật ngữ "tư duy tính toán" do Papert21 đặt ra và được Wing32 xây dựng có tinh thần tương tự như các kỹ năng được mô tả ở đây. Có hoạt động đáng kể trong các trường đại học để đào tạo sinh viên kỹ năng đặt vấn đề và cung cấp các môn tự chọn được cấu trúc xung quanh cốt lõi phù hợp hơn với các ngành cụ thể. Cuộc cách mạng khoa học dữ liệu cũng đặt ra những thách thức tổ chức nghiêm trọng về cách các tổ chức quản lý các nhà khoa học dữ liệu của họ. Bên cạnh việc nhận ra và nuôi dưỡng các bộ kỹ năng phù hợp, nó đòi hỏi sự thay đổi trong tư duy của các nhà quản lý đối 309
  5. với việc ra quyết định dựa trên dữ liệu để thay thế hoặc tăng cường trực giác và các thực hành trong quá khứ. Một câu nói nổi tiếng của nhà thống kê người Mỹ thế kỷ 20 W. Edwards Demming "Chúng tôi tin tưởng vào Chúa, mọi người khác xin vui lòng mang theo dữ liệu" đã đặc trưng cho định hướng mới, từ việc ra quyết định dựa trên trực giác đến việc ra quyết định dựa trên thực tế. Từ quan điểm ra quyết định, chúng ta đang chuyển sang kỷ nguyên dữ liệu lớn, nơi đối với nhiều loại vấn đề, máy tính vốn dĩ là người ra quyết định tốt hơn con người, nơi mà "tốt hơn" có thể được định nghĩa về chi phí, độ chính xác và khả năng mở rộng. Sự thay đổi này đã xảy ra trong thế giới tài chính sử dụng nhiều dữ liệu, nơi máy tính đưa ra phần lớn các quyết định đầu tư, thường chỉ trong vài phần giây, khi có thông tin mới. Điều tương tự cũng xảy ra trong các lĩnh vực quảng cáo trực tuyến nơi hàng triệu cuộc đấu giá được tiến hành trong mili giây mỗi ngày, kiểm soát không lưu, định tuyến giao hàng và nhiều loại nhiệm vụ lập kế hoạch đòi hỏi quy mô, tốc độ và độ chính xác đồng thời, một xu hướng có khả năng tăng nhanh trong vài năm tới. 3. NHU CẤU NHÂN LỰC TRÊN THẾ GIỚI VÀ VIỆT NAM 3.1. Trên thế giới “Các công việc thuộc ngành khoa học Dữ liệu đang ngày càng trở nên hấp dẫn hơn”, theo Andrew Flowers – một nhà kinh tế học từ tổ chức Indeed với trụ sở tại Austin, Texas. Báo cáo từ Indeed cho thấy nhu cầu tuyển dụng nhân lực ngành này tăng 29% sau mỗi năm, và mức tăng trưởng 344% từ năm 2013. Nhu cầu tuyển dụng các chuyên gia khoa học dữ liệu càng tăng lên khi các tổ chức tự duy trì hoạt động thông qua việc nghiên cứu dữ liệu. Tương tự, dữ liệu từ một website tuyển dụng ngành công nghệ cho thấy nhu cầu nhân lực liên quan đến khoa học dữ liệu trên nền tảng website ấy đã tăng hơn 32%, và vì thế khoa học dữ liệu được coi là “một kỹ năng có nhu cầu cao”. Các thông báo tuyển dụng là của các công ty đến từ nhiều lĩnh vực khác nhau, không chỉ riêng về công nghệ. Nhu cầu cho khoa học dữ liệu đang tăng lên đều đặn với hơn 32,000 tin tuyển dụng mới vào mỗi tháng. Khi các công ty nhận ra giá trị và tầm quan trọng của Big Data, họ càng đẩy mạnh sử dụng nó để đưa ra các quyết định kinh doanh đúng đắn hơn. 310
  6. Lý do tăng nhanh nhu cầu về nhân lực trong ngành khoa học dữ liệu: Các công ty đang đối mặt với những thách thức trong việc xử lý dữ liệu Mỗi ngày, những công ty tạo ra một số lượng lớn dữ liệu. Điều này đó nghĩa là dù mỗi công ty đang sở hữu rất nhiều dữ liệu, họ lại không thật sự biết nên làm gì với những thông tin ấy. Vậy nên để xử lý khối lượng thông tin này và khai thác thông tin từ chúng, họ cần đội ngũ những chuyên gia trong ngành khoa học dữ liệu. Sự thiếu hụt nhân lực có trình độ cao Đồng sáng lập và Giám đốc điều hành của Fractal Analytics, ông Srikanth Velamakanni cho biết: “Có hai sự thiếu hụt nhân tài: Chuyên gia khoa học dữ liệu – người có thể thực hiện phân tích dữ liệu, và Cố vấn phân tích dữ liệu – người có thể hiểu và vận dụng thông tin. Nguồn cung cấp nhân lực cho 2 công việc này, đặc biệt là Chuyên gia phân tích dữ liệu, là cực kỳ hiếm hoi, trong khi nhu cầu thì ngày càng tăng. Tháng 8 năm 2018, kết quả thống kê của LinkedIn cho thấy thiếu hụt hơn 150,000 người có kỹ năng khoa học dữ liệu tại Mỹ. Khoảng thiếu hụt cung-cầu này sẽ giảm bớt khi có rất nhiều chuyên gia khoa học dữ liệu tài năng thâm nhập thị trường lao động này. Khó khăn trong việc tìm kiếm những người đa tài Các chuyên gia khoa học dữ liệu thường được mong đợi sẽ có kiến thức về ít nhất một ngôn ngữ lập trình – Python và R là chính. Các chuyên gia khoa học dữ liệu cũng được mong đợi sẽ có kinh nghiệm trong thực hành các công cụ như Hadoop, Spark, NoQuery, cũng như kinh nghiệm đào tạo về mô hình thống kê, máy học và lập trình. Song song với mô hình thống kê và máy học đang tạo ra nhiều nhu cầu về kỹ năng ngôn ngữ lập trình SQL, Apache Spark và các hệ thống cơ sở dữ liệu quan hệ cũng như cơ sở dữ liệu NoQuery cũng rất được chú ý. Đây thường là những thứ khó tìm thấy ở chỉ một người trong lĩnh vực này. Rào cản gia nhập cho các chuyên gia thuộc lĩnh vực khác Phần lớn chuyên gia khoa học dữ liệu có nền tảng toán học/thống kê, khoa học máy tính, kỹ thuật và khoa học tự nhiên, một số có bằng kinh doanh, kinh tế và khoa học xã hội. 311
  7. Những người không có nền tảng máy tính/toán học có thể gặp khó khăn nhưng vẫn có thể tự nâng cao trình độ qua các khóa học online. Mức lương rất hậu hĩnh Do nhu cầu cao đối với các nhà khoa học dữ liệu và các vai trò khoa học dữ liệu khác, mức lương cho vị trí này cũng được nâng lên. Công việc này là một trong những việc làm được trả lương cao nhất trong ngành vào thời điểm hiện tại. Theo Glassdoor, lương trung bình cho nhà khoa học/nhà phân tích dữ liệu đứng đầu hơn 62.000 đô la Mỹ/năm. Ở Ấn Độ, kinh nghiệm quyết định nhiều đến việc trả lương. Tổ hợp của rất nhiều vai trò Khoa học dữ liệu là tổ hợp của một số mảng như thống kê, phân tích dữ liệu, máy học và lập trình máy tính. Do đó, nhân sự ngành khoa học dữ liệu có thể đảm nhận nhiều vai trò như: - Nhà khoa học dữ liệu - Nhà phân tích dữ liệu - Kiến trúc sư dữ liệu - Nhà phân tích kinh doanh - Kỹ sư dữ liệu - Quản trị viên cơ sở dữ liệu - Nhà thống kê - Trình quản lý dữ liệu và phân tích Nhà khoa học dữ liệu là một trong những chức danh công việc đòi hỏi khắt khe nhất và là một vị trí có mức lương cao nhất trong lĩnh vực khoa học dữ liệu. Nhu cầu nhân lực ngành khoa học dữ liệu ngày càng lớn, do đó ngày càng nhiều sinh viên theo học và trau dồi kỹ năng ngành này. Các vai trò & Công việc Khoa học Dữ liệu hàng đầu cho năm 2019: Tìm những gì phù hợp với bạn nhất [5] “Nhà khoa học dữ liệu, chức danh công việc quyến rũ nhất trong thế kỷ 21” 312
  8. Tùy theo chuyên ngành và vị trí thì có các mức lương khác nhau: Data Architect: Một số công cụ quan trọng được kiến trúc sư dữ liệu sử dụng là XML, Hive, SQL, Spark và Pig. Mức lương trung bình của kiến trúc sư dữ liệu là $ 123,680/năm. Data Science Manager: Ứng viên cũng nên có kỹ năng giao tiếp và lãnh đạo mạnh mẽ để hướng dẫn nhóm một cách hiệu quả. Mức lương trung bình cho một nhà quản lý khoa học dữ liệu là - $ 69.059 / năm. Data Science Manager: Ứng viên cũng nên có kỹ năng giao tiếp và lãnh đạo mạnh mẽ để hướng dẫn nhóm một cách hiệu quả. Mức lương trung bình cho một nhà quản lý khoa học dữ liệu là - $ 69.059 năm. Statistician: Một số công cụ được các nhà thống kê sử dụng là R, SAS, SPSS, Matlab, Python, Stata, SQL, v.v. Mức lương trung bình của một nhà thống kê là $ 82,477/năm. Machine Learning Engineer: Một số công cụ phổ biến được các kỹ sư máy học sử dụng là TensorFlow, Keras, PyTorch, scikit-learning, Caffe, v.v. Mức lương trung bình của một kỹ sư máy học là $ 114,826/năm Tại Việt Nam Theo trang https://www.vietnamworks.com/ khi tìm việc làm ngành Khoa học dữ liệu hoặc Phân tích dữ liệu thì nhu cấu rất nhiều, mức lương rất cao 313
  9. Hình 3: Mức lương ngành Khoa học dữ liệu tại Việt Nam 4. GIẢI QUYẾT VẤN ĐỀ VỚI KHOA HỌC DỮ LIỆU Khi giải quyết một vấn đề trong thế giới thực bằng Khoa học dữ liệu, bước đầu tiên để giải quyết nó bắt đầu với Làm sạch và Tiền xử lý dữ liệu. Khi Nhà khoa học dữ liệu được cung cấp tập dữ liệu, tập dữ liệu đó có thể ở định dạng phi cấu trúc với nhiều điểm không nhất quán khác nhau. Việc tổ chức dữ liệu và loại bỏ thông tin sai giúp dễ dàng phân tích và rút ra những hiểu biết sâu sắc hơn. Quá trình này bao gồm việc loại bỏ dữ liệu thừa, chuyển đổi dữ liệu theo định dạng quy định, xử lý các giá trị bị thiếu, v.v. Nhà khoa học dữ liệu phân tích dữ liệu thông qua các thủ tục thống kê khác nhau. Đặc biệt, hai loại thủ tục được sử dụng là: ✓ Thống kê mô tả ✓ Thống kê suy luận Giả sử rằng bạn là nhà khoa học dữ liệu làm việc cho một công ty sản xuất điện thoại di động. Bạn phải phân tích khách hàng sử dụng điện thoại di động của công ty bạn. Để làm như vậy, trước tiên bạn sẽ xem xét kỹ lưỡng dữ liệu và hiểu các xu hướng và mô hình khác nhau liên quan. Cuối cùng, bạn sẽ tóm tắt dữ liệu và trình bày dưới dạng đồ thị hoặc biểu đồ. Do đó, bạn áp dụng thống kê mô tả để giải quyết vấn đề. 314
  10. Sau đó, bạn sẽ rút ra các ‘suy luận’ hoặc kết luận từ dữ liệu. Chúng ta sẽ hiểu số liệu thống kê theo cấp số nhân thông qua ví dụ sau - Giả sử rằng bạn muốn tìm ra một số lỗi xảy ra trong quá trình sản xuất. Tuy nhiên, việc kiểm tra từng điện thoại di động có thể mất thời gian. Do đó, bạn sẽ xem xét một mẫu điện thoại đã cho và đưa ra tổng thể về số lượng điện thoại bị lỗi trong tổng số mẫu. Bây giờ, bạn phải dự đoán doanh số bán điện thoại di động trong khoảng thời gian hai năm. Kết quả là, bạn sẽ sử dụng Thuật toán hồi quy. Dựa trên doanh số bán hàng lịch sử đã cho, bạn sẽ sử dụng thuật toán hồi quy để dự đoán doanh số bán hàng theo thời gian. Hơn nữa, bạn muốn phân tích xem liệu khách hàng có mua sản phẩm hay không dựa trên mức lương hàng năm, độ tuổi, giới tính và điểm tín dụng của họ. Bạn sẽ sử dụng dữ liệu lịch sử để tìm hiểu liệu khách hàng sẽ mua (1) hay không (0). Vì có hai đầu ra hoặc ‘lớp’, bạn sẽ sử dụng Thuật toán phân loại nhị phân. Ngoài ra, nếu có nhiều hơn hai lớp đầu ra, sử dụng Thuật toán phân loại đa biến để giải quyết vấn đề. Cả hai vấn đề nêu trên đều là một phần của ‘Học tập có giám sát’. Cũng có trường hợp dữ liệu "không được gắn nhãn". Điều này, không có sự phân tách đầu ra trong các lớp cố định như đã đề cập ở trên. Giả sử rằng bạn phải tìm các nhóm khách hàng tiềm năng và khách hàng tiềm năng dựa trên nền tảng kinh tế xã hội của họ. Vì bạn không có một nhóm lớp cố định trong dữ liệu lịch sử của mình, bạn sẽ sử dụng Thuật toán phân cụm để xác định các cụm hoặc nhóm khách hàng tiềm năng. Phân cụm là một thuật toán “Học không giám sát”. Xe tự lái đã trở thành một công nghệ thịnh hành. Nguyên tắc đằng sau xe tự lái là quyền tự chủ, tức là có thể đưa ra quyết định mà không cần sự can thiệp của con người. Các máy tính truyền thống yêu cầu đầu vào của con người để tạo ra đầu ra. Học tập củng cố đã giải quyết được vấn đề phụ thuộc vào con người. Học tập củng cố là thực hiện các hành động cụ thể để tích lũy phần thưởng tối đa. Bạn có thể hiểu điều này với ví dụ sau: giả sử bạn đang huấn luyện một con chó lấy bóng. Sau đó, bạn thưởng cho con chó một món quà hoặc phần thưởng mỗi khi nó lấy được bóng. Bạn không thưởng cho nó nếu nó không lấy được bóng. Con chó sẽ nhận ra phần thưởng của đồ ăn vặt nếu nó lấy lại được quả bóng. Học tăng cường sử dụng nguyên tắc tương tự. 315
  11. Một nhà khoa học dữ liệu sẽ yêu cầu các công cụ và phần mềm để giải quyết các vấn đề nêu trên. 5. CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU Khoa học dữ liệu đã tạo ra một chỗ đứng vững chắc trong một số ngành công nghiệp như y học, ngân hàng, sản xuất, giao thông vận tải,... Nó có những ứng dụng to lớn và có nhiều mục đích sử dụng. Một số ứng dụng sau của khoa học dữ liệu là: 5.1. Khoa học dữ liệu trong chăm sóc sức khỏe Khoa học dữ liệu đã và đang đóng một vai trò quan trọng trong ngành chăm sóc sức khỏe. Với sự trợ giúp của các thuật toán phân loại, các bác sĩ có thể phát hiện ung thư và khối u ở giai đoạn đầu bằng phần mềm Nhận dạng Hình ảnh. Các ngành Di truyền học sử dụng khoa học dữ liệu để phân tích và phân loại các mẫu trình tự bộ gen. Các trợ lý ảo khác nhau cũng đang giúp bệnh nhân giải quyết các vấn đề về thể chất và tinh thần của họ. 5.2. Khoa học dữ liệu trong thương mại điện tử Amazon sử dụng hệ thống khuyến nghị đề xuất cho người dùng các sản phẩm khác nhau dựa trên quá trình mua hàng trước đây của họ. Các nhà khoa học dữ liệu đã phát triển các hệ thống khuyến nghị dự đoán sở thích của người dùng bằng cách sử dụng học máy. 5.3. Khoa học dữ liệu trong sản xuất Robot công nghiệp đã đảm nhận các vai trò trần tục và lặp đi lặp lại cần thiết trong đơn vị sản xuất. Những robot công nghiệp này có tính chất tự chủ và sử dụng các công nghệ Khoa học Dữ liệu như Học tăng cường và Nhận dạng Hình ảnh. 5.4. Khoa học dữ liệu với tư cách là tác nhân trò chuyện Alexa của Amazon và Siri của Apple sử dụng nhận dạng giọng nói để hiểu người dùng. Dữ liệu các nhà khoa học phát triển hệ thống nhận dạng giọng nói này, chuyển đổi giọng nói của con người thành dữ liệu văn bản. Ngoài ra, nó sử dụng các thuật toán học máy khác nhau để phân loại các truy vấn của người dùng và đưa ra phản hồi thích hợp. 5.5. Khoa học Dữ liệu trong Giao thông vận tải Tự lái xe ô tô sử dụng đại lý độc lập mà sử dụng các thuật toán Cốt Học tập và phát hiện. Xe tự lái không còn là điều viễn tưởng do những tiến bộ của Khoa học Dữ liệu. 316
  12. 6. KẾT LUẬN Mặc dù khoa học dữ liệu là một chủ đề rộng lớn, nó tổng hợp một số công nghệ và lĩnh vực, nhưng chúng ta hoàn toàn có thể đạt được những kỹ năng này với cách tiếp cận phù hợp. Khoa học dữ liệu là một lĩnh vực rất mạnh mẽ phù hợp nhất với những người có sở trường về thử nghiệm và giải quyết vấn đề. Với một số lượng lớn các ứng dụng, khoa học dữ liệu đã trở thành một ngành nghề linh hoạt nhất. TÀI LIỆU THAM KHẢO [1]. http://wikipedia.org [2]. https://www.sisense.com/ [3]. https://www.tutorialspoint.com/ [4]. https://www.r-project.org/ [5]. https://data-flair.training/ [6]. https://www.vietnamworks.com/ [7]. Wes McKinney, “Python for Data Analysis”, O’Reilly Media, Inc, 2017 [8]. Nguyễn Văn Tuấn, “Phân tích dữ liệu với R”, NXB tổng hợp TP. HCM, 2014 317
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2