intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tăng tốc việc phân tích chuỗi thời gian với phương pháp máy học tự động hóa

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:12

15
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Tăng tốc việc phân tích chuỗi thời gian với phương pháp máy học tự động hóa" giới thiệu các công cụ của phương pháp máy học tự động cung cấp các lợi thế quan trọng so với các công cụ phân tích truyền thống như tính đơn giản, nhanh & khả năng diễn giải kết quả thu được. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Tăng tốc việc phân tích chuỗi thời gian với phương pháp máy học tự động hóa

  1. TĂNG TỐC VIỆC PHÂN TÍCH CHUỖI THỜI GIAN VỚI PHƯƠNG PHÁP MÁY HỌC TỰ ĐỘNG HÓA Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Thời gian (Time) là một trong những nhân tố quan trọng nhất cần xem xét và đánh giá để đảm bảo thành công trong kinh doanh và cũng rất khó khăn để bắt kịp tốc độ của thời gian. Công nghệ đã và đang phát triển cùng với các phương pháp mạnh mẽ giúp biết trước sự việc trước khi thời gian kịp tới thời điểm sự việc diễn ra. Dữ liệu chuỗi thời gian nâng cao hiệu quả kinh doanh bằng việc đưa ra các cách nhìn sâu sắc hơn về kết quả hoạt động kinh doanh trong tương lai. Các công cụ của phương pháp máy học tự động cung cấp các lợi thế quan trọng so với các công cụ phân tích truyền thống như tính đơn giản, nhanh & khả năng diễn giải kết quả thu được. Từ khóa: data, time series, machine learning, automated machine learning, AutoML GIỚI THIỆU Phân tích chuỗi thời gian (Time series) có nhiều mục tiêu khác nhau, tùy thuộc vào lĩnh vực được ứng dụng. Các mục tiêu bao gồm dự đoán giá trị tương lai của chuỗi, trích xuất tín hiệu ẩn dấu trong dữ liệu pha tạp, khám phá cơ chế mà dữ liệu được tạo ra, mô phỏng kết quả độc lập trong thực tế của chuỗi để hiểu dữ liệu sẽ thay đổi thế nào trong tương lai. Trong tất cả các ứng dụng, phân tích chuỗi thời gian ban đầu thường cố gắng tìm ra được mô hình toán học để giúp tìm ra được hình thức trực quan tốt nhất đối với dữ liệu quan sát được. Nhiều năm qua, số lượng các dòng dữ liệu đổ vào các kho dữ liệu phân tích tăng đáng kể liên tục để hỗ trợ phạm vi rộng lớn hơn cho các nhu cầu kinh doanh. Sự gia tăng này đã làm thay đổi sâu sắc các loại hình phân tích theo yêu cầu, từ các công việc phân tích tổng hợp mô tả về kết quả hoạt động kinh doanh trong lịch sử cho tới việc tập trung nhiều hơn vào kết quả hoạt động kinh doanh hiện tại và tương lai trong đó có sử dụng các phương pháp đo lường với độ chi tiết cao. Sự gia tăng này cũng tạo áp lực cho các tổ chức đầu tư vào công nghệ để quản lý & phân tích dữ liệu chuỗi thời gian. Những dữ liệu này phản ánh tất cả các mặt của quy trình kinh doanh, hành vi khách hàng & việc sử dụng tài sản doanh nghiệp cùng với việc phân tích để nhanh chóng xác định những sai lệch so với quy chuẩn mà có thể ảnh hưởng tiêu cực tới kết quả hoạt động kinh doanh hoặc giúp phát hiện ra những cơ hội mới. 256
  2. Việc phát triển mô hình Máy học theo cách truyền thống đòi hỏi nhiều tài nguyên, đòi hỏi kiến thức chuyên môn cao và thời gian rất lâu để xây dựng mô hình và khi so sánh nhiều mô hình với nhau. Khi các công cụ thống kê truyền thống gặp khó khăn trong việc xử lý các dữ liệu đầu vào đa biến, bỏ sót những tiềm năng mang lợi thế cạnh tranh để nắm bắt & ảnh hưởng tiêu cực tới các hoạt động kinh doanh thực tế thì các công cụ Máy học tự động có thể giúp tăng cường việc phân tích, xây dựng mô hình & dự đoán dựa vào dữ liệu chuỗi thời gian để đề xuất cho doanh nghiệp những cơ hội dễ hiểu & khả thi một cách đơn giản và nhanh chóng. Máy học tự động (Automated Machine Learning) sử dụng các thuật toán m học được tự động hóa và quá trình thiết kế có cấu trúc của mô hình đã được xác định. Máy học tự động cung cấp các công cụ phân tích dữ liệu có cấu trúc một cách có hệ thống được thiết kế sẵn để hỗ trợ các lĩnh vực như bán lẻ, chuyển đổi, y tế... nhằm thu được kinh nghiệm thực tiễn tốt nhất khi áp dụng các thuật toán Máy học để giải quyết các bài toán dự đoán chính xác với chi phí thấp và nhanh chóng. Máy học tự động thực hiện quy trình tự động hóa các tác vụ và liên tục lặp lại một phần hoặc toàn bộ quy trình này để phát triển mô hình máy học nên mất nhiều thời gian để thực hiện. Nó cho phép các nhà khoa học dữ liệu, nhà phân tích và nhà phát triển để xây dựng các mô hình Máy học có khả năng phát triển quy mô khi ứng dụng với hiệu quả và năng suất cao nhưng vẫn đảm bảo chất lượng của mô hình. Máy học tự động đang được ứng dụng trong dịch vụ Máy học Azure được phát triển từ thành công mang tính đột phá của bộ phận nghiên cứu trong tập đoàn Microsoft. ĐẶC TRƯNG CỦA CHUỖI THỜI GIAN & CÁC ỨNG DỤNG Mọi hoạt động của thế giới, con người & thiên nhiên đều thay đổi theo thời gian. Chuỗi thời gian có thể định nghĩa là một chuỗi các dữ liệu tại các thời điểm được đánh dấu tạo thành các mốc thời gian cách xa đều nhau. Phân tích chuỗi thời gian là việc sử dụng các phương pháp thống kê hoặc Máy học để phân tích dữ liệu tại một hoặc nhiều mốc thời gian bằng cách trích xuất được các mẫu có đầy đủ ý nghĩa trong các biến đầu ra như là xu hướng (nhu cầu sử dụng laptop nhiều hơn máy tính để bàn, thanh toán bằng ví điện tử nhiều hơn thanh toán tiền mặt, mua hàng online ngày càng phát triển ... ), mùa kinh doanh (mùa hè, tháng nhập học, Tết Nguyên đán ... ) hoặc các sự kiện đặc biệt (ngày mua sắm cao điểm Black Friday, lễ giáng sinh, ngày lễ tình nhân 14/02 ... ) và mối quan hệ hoặc tương tác 257
  3. giữa các biến đầu vào giúp việc dự đoán các biến đầu vào sẽ thay đổi như thế nào để ảnh hưởng đến các biến đầu ra. Có nhiều ứng dụng của phân tích chuỗi thời gian, trong số đó là nhu cầu về việc dự báo tương lai giúp cải thiện công tác hoạch định sản xuất tối ưu hơn. Điều này cho phép dự đoán về tình hình nhà đất của một địa phương trong năm tới, nhu cầu về phòng khách sạn tại Phú Quốc trong tuần tới, số lượng người sẽ đổ về phố đi bộ trong vài giờ tới, khối lượng công việc của bộ định tuyến trong vài phút tới & thậm chí số lượng click chuột & sự chuyển đổi của một cổng thanh toán mua sắm trực tuyến trong 30 giây tiếp theo. Ngoài việc đưa ra các dự đoán, phân tích chuỗi thời gian cũng có thể cung cấp các góc nhìn cho các hệ thống phức tạp, ví dụ như để xác định các yếu tố gây ra thời gian chết của thiết bị trong khu vực sản xuất hoặc phát hiện ra các tín hiệu bất thường từ nhật ký theo dõi hệ thống tin học. Việc sử dụng siêu dữ liệu ngữ cảnh hoặc chuỗi thời gian phụ có liên quan với chuỗi thời gian đang xem xét sẽ giúp thúc đẩy việc phân tích nhanh hơn, cho phép thực hiện các câu hỏi tình huống (Nếu ... Thì ...), ví dụ như ảnh hưởng của cơn bão sắp tới lên nhà máy phát điện sử dụng năng lượng gió hoặc tác động của việc quảng cáo tới công tác bán hàng. Giả thiết đặt ra là có tồn tại một cấu trúc bên trong dữ liệu cho phép sử dụng từng phần tối thiểu theo sự thay đổi của thời gian hoặc các biến không liên quan mà bản thân chúng cũng thay đổi. Các biến này có thể độc lập như theo mùa kinh doanh, thời tết, ngày nghỉ lễ, các sự kiện đã lên kế hoạch, thời khóa biểu làm việc hoặc thậm chí phức tạp hơn là các biến độc lập như kinh tế vĩ mô, nguồn cung cấp năng lượng hoặc ảnh hưởng của thị trường chứng khoán. BÀI TOÁN CHUỖI THỜI GIAN RẤT KHÓ Bài toán chuỗi thời gian thường rất khó giải quyết vì bài toán này cố gắng để khám phá cấu trúc tiềm ẩn sẵn sàng bộc lộ ra từ dữ liệu trong lịch sử & ngoại suy trong tương lai. Các đặc tính cốt lõi của bài toán chuỗi thời gian sau đây được minh họa trong hình 1 : 1. Các khoảng thời gian được phân chia thành các khoảng bằng nhau là đặc trưng quan trọng của bất kỳ chuỗi thời gian nào. Khi các khoảng thời gian được phân đoạn khác nhau, theo ngày hoặc theo tuần hoặc theo tháng thì cùng một thuật toán có thể thu được các mô hình khác nhau & khả năng dự đoán khác nhau tương ứng. 258
  4. 2. Ta có thể sử dụng một hoặc nhiều chuỗi thời gian làm các biến đầu vào, các biến đầu vào này được nắm bắt trong quá trình lựa chọn các đặc trưng được xác định trong khoảng thời gian khám phá các đặc trưng. 3. Trong giai đoạn dự đoán của chuỗi thời gian, giai đoạn này thường là quá trình tiếp diễn của chuỗi thời gian đầu ra đã đặt mục tiêu, trong đó việc phát triển mô hình từ chuỗi thời gian đầu vào được sử dụng để dự đoán trạng thái tương lai của mục tiêu, ví dụ, doanh số bán hàng quý đầu tiên trong năm tới hoặc số lượng click chuột trong 30 phút tới của chương trình khuyến mãi trực tuyến, số lượng và chủng loại hàng hóa cũng như sức mua trong tháng mua sắm, mùa mua sắm ... trong khoảng thời gian cụ thể của tương lai. Hình 1: Các đặc tính quan trọng của bài toán Chuỗi thời gian Quá trình xây dựng mô hình chuỗi thời gian nỗ lực để khám phá sự thay đổi các kết quả từ chuỗi thời gian đầu ra như thế nào đối với chuỗi thời gian đầu ra. Quá trình này phức tạp và lặp lại, nó bắt đầu bằng việc xác định chuỗi thời gian đầu vào nào sẽ được sử dụng và có thể tham gia vào việc chuẩn bị dữ liệu bằng cách chia tách, làm sạch và phân đoạn dữ liệu. Tiếp theo là việc trích xuất các đặc trưng, xây dựng mô hình và kiểm tra ngược cho tới khi thu được kết quả có thể chấp nhận được, tùy thuộc vào các tiêu chuẩn được xác định chính xác ban đầu. Tiếp theo là việc diễn giải mô hình và đánh giá mô hình, cuối cùng là triển khai áp dụng mô hình, đây là bước thường được đánh giá thấp khi mô hình đã ổn định, mở rộng quy mô ứng dụng và đưa vào ứng dụng trong các hoạt động nghiệp vụ nội bộ để tạo ra các đầu ra và sự can thiệp hữu ích. Theo định kỳ, toàn bộ quá trình xây dựng mô hình chuỗi thời gian cần lặp lại khi dữ liệu mới xuất hiện. 259
  5. CÁCH TIẾP CẬN TRUYỀN THỐNG KHI PHÂN TÍCH CHUỖI THỜI GIAN Phân tích chuỗi thời gian không phải mới mẻ. Các kỹ thuật thống kê cổ điển được áp dụng cho việc phân tích kinh tế lượng các xu hướng, các chu kỳ và tính ngẫu nhiên đã tồn tại bền vững qua nhiều thập kỷ. Từ khi xuất hiện công nghệ tin học, các kỹ thuật như là ARIMA (Tự phục hồi (Auto-Regressive), Tích hợp (Integrated), Các giá trị trung bình liên tiếp (Moving Average)) và các biến thể của chúng (VARIMA dành cho véc tơ, GARCH dành cho sự biến động khi thời gian thay đổi ... ) đã được sử dụng rộng rãi để giải quyết các bài toán kinh tế lượng, kinh doanh & điều hành. Đây là những mô hình tham số tiêu biểu, thường là đơn biến tạo ra những giả thuyết đáng tin cậy về việc phân phối biến ngẫu nhiên và độ ổn định của mô hình theo thời gian – những mô hình này có cấu trúc cao, dễ hiểu, đòi hỏi dữ liệu vừa đủ và tạo ra độ xấp xỉ tương đối từ các tập dữ liệu mẫu. Trong khi đó, các phương pháp cổ điển cũng có những giới hạn như sau : 1. Phụ thuộc vào các giả thuyết thống kê. Tính hợp lệ của các giả thuyết bao gồm tính tuyến tính, tính thông thường và tính ổn định là rất quan trọng trong phân tích thống kê cổ điển khi áp dụng vào các bước triển khai trong thực tế. Những tính chất này phải được thực hiện nghiêm ngặt giúp cho mô hình hoạt động đúng đắn, như vậy sẽ đòi hỏi lặp lại nhiều lần các bước làm sạch dữ liệu, lấy mẫu và kiểm tra mô hình. 2. Khả năng tương thích yếu khi phân tích đa biến. Bài toán đa biến bao gồm nhiều chuỗi thời gian là biến đầu vào và khi khi xử lý các chuỗi thời gian, các phương pháp thống kê cổ điển thường có năng lực dự đoán kém và tính chính xác thấp. Chính điều này đã hạn chế khả năng ứng dụng phân tích chuỗi tích thời gian trong các hệ thống độc lập phức tạp trong thực tế. 3. Năng lực dự đoán kém trong các thời điểm có những sự kiện đặc biệt hoặc đặc biệt quan trọng được xác định nguyên nhân là do có nhiều hạn chế trong dữ liệu lịch sử. 5. NHU CẦU VỀ PHÂN TÍCH CHUỖI THỜI GIAN TĂNG CAO Yêu cầu lưu kho hỗ trợ giao hàng tức thời cùng sự phát triển mạnh mẽ và rộng khắp thế giới của lĩnh vực thương mại điện tử đã buộc các doanh nghiệp nâng tầm cuộc chơi của mình khi phân tích và đáp ứng nhu cầu của khách hàng. Hơn nữa, các phong trào chuyển 260
  6. đổi số như là Internet vạn vật (IoT – Internet of Thing) và các dự án chuyển đổi số đã và đang đẩy mạnh tính khả thi và sự dư dả về dữ liệu chuỗi thời gian phục vụ các nhu cầu và hoạt động của mọi tổ chức. Xu hướng này vẫn đang được tiếp tục và buộc các doanh nghiệp nâng cao năng lực chủ đạo về chuỗi thời gian của mình xuyên suốt các ngành nghề đa dạng. Các ngành nghề nổi bật nhất có thể kể như sau : 1. Bán lẻ Từ năm 2013, chuỗi các đại siêu thị lớn nhất thế giới Wal-Mart đã bắt đầu chia sẻ dữ liệu theo thời gian thực về số lượng hàng hóa đang được bày bán tại các siêu thị của mình với các nhà cung cấp hàng hóa để các nhà cung cấp có thể xử lý dữ liệu nhanh chóng kịp thời theo tình hình thực tế và cung cấp hàng hóa nhanh chóng. Các nhà cung cấp sẽ sử dụng dữ liệu được chia sẻ này để dự đoán khoảng thời gian cung cấp hàng hóa tiếp theo và bổ sung số lượng hàng hóa kịp thời với độ chính xác về thời gian phải là 85% hoặc sẽ bị phạt 3% giá trị hợp đồng theo các điều khoản đã ký kết. 2. Vận tải Uber dựa vào dự đoán chuỗi thời gian để dự đoán Cung và Cầu khi phân tích cả về không gian và thời gian với độ chi tiết cao để hướng dẫn tài xế đi đến những khu vực dự đoán sẽ có nhu cầu vận chuyển tăng cao trước khi nhu cầu vận chuyển đó tăng lên. Điều này rất cần thiết cho mô hình kinh doanh của Uber là kết nối tài xế và khách hàng kịp thời nhanh chóng thông qua dịch vụ nền tảng của Uber. 3. Năng lượng Một trong những công ty cung cấp điện lớn nhất châu Âu đã tích hợp hơn 80 thiết bị cảm biến trong đồng hồ điện tại mỗi hộ gia đình để đọc và lưu trữ dữ liệu nhật ký hoạt động của đồng hồ điện để từ đó dự đoán chất lỏng niêm phong có bị phá hoại hay không hoặc lỗi không phát hiện rung động khi đồng hồ điện bị phá hoại cùng các bất thường khác. Ứng dụng phân tích chuỗi thời gian của công ty đã hỗ trợ người dân và các nhà quản lý xử lý các tình huống xấu sớm hơn 03 tuần so với thời điểm các tình huống xấu này sẽ xảy ra với độ tin cậy cao và không xảy ra các cảnh báo sai. 4. Sản xuất Tập đoàn điện tử và điện gia dụng Haier sử dụng công cụ điều phối hoạt động được tin học hóa để phân tích dữ liệu nhật ký từ hệ thống tin học gồm các chuỗi thời gian. Công 261
  7. cụ này sẽ giúp giảm thời gian cần thiết để xác định các sự cố và điều tra nguồn gốc của sự cố theo từng ngày, từng giờ, thậm chí theo từng phút trong một số tình huống cần thiết. 6. TRIỂN VỌNG VÀ THÁCH THỨC CỦA MÁY HỌC Các bài toán phức tạp trong thực tế về chuỗi thời gian thực kể trên đã khái quát về các tập dữ liệu khổng lồ chứa đựng nhiều đặc trưng tiềm năng đã và đang được thu thập trong thời gian dài vừa qua. Đa số các bài toán này về bản chất là các bài toán đa biến mà các phương pháp cổ điển có thể sử dụng nhưng có độ chính xác và năng lực dự đoán không cao, nhưng các kỹ thuật của Máy học có thể giải quyết những hạn chế này ví dụ như phương pháp hồi quy Ridge (Ridge regressors), Cây tăng cường (Boosted tree) và mạng nơ rôn (Neural network) ... Các phương pháp của Máy học không những khắc phục được tính tuyến tính, các giả thuyết phân phối và ổn định tiêu biểu trong việc xây dựng mô hình cổ điển mà còn có thể xây dựng được các mô hình khả thi với độ thích nghi cao hơn khi phân tích đa biến và hạn chế rủi ro về độ trùng khớp giữa tập dữ liệu và mẫu dữ liệu (Overfitting). Đặc biệt, các phương pháp Máy học rất phù hợp với những tập dữ liệu chứa nhiều đặc trưng. Theo đánh giá của các chuyên gia IBM dự đoán rằng năm 2022, khi ứng dụng các phương pháp Máy học trong các hoạt động tin học, 75% các hoạt động này sẽ được thay thế bằng các chức năng và hoạt động phân tích và tự động hóa dựa trên các phương pháp Máy học, giúp giảm được hơn 25% chi phí vận hành và hoạt động của các hệ thống tin học. Tuy nhiên, Máy học cũng có một số thách thức sau : 1. Thiếu nhân sự có kỹ năng Có lẽ khó khăn lớn nhất là nguồn nhân lực thực hiện các thuật toán máy học áp dụng cho chuỗi thời gian. Các nhà khoa học dữ liệu và chuyên gia máy học vẫn còn thiếu hụt trong nhiều tổ chức, ví dụ trong nhóm các nước châu Á – Thái Bình Dương (APEJ, trừ Nhật), chỉ có 23,7% tổ chức có các nhà khoa học dữ liệu, trong số các nhà khoa học dữ liệu ít ỏi này cũng chỉ có 20,5% có nền tảng trình độ mở rộng gồm cả Khoa học máy tính và Máy học. 2. Quy trình phức tạp Các tổ chức gặp nhiều khó khăn trong các bước triển khai khi xây dựng mô hình máy học phức tạp và có tính lặp lại, trong đó bao gồm các giai đoạn khác nhau về chuẩn bị dữ 262
  8. liệu, xây dựng các đặc trưng, xây dựng mô hình, đánh giá mô hình và triển khai mô hình vào thực tế. Hình 2 minh họa dòng công việc, cần phải biết rằng tính lặp lại không chỉ cần thiết giữa các bước mà còn cần thiết ở bên trong mỗi bước. Hình 2: Quy trình phát triển mô hình Máy học 3. Nhiều công cụ thiếu tính liên kết Các phần mềm công cụ khác nhau thường chỉ thực hiện một giai đoạn của quy trình phát triển mô hình máy học phức tạp. Không giống như việc phát triển phần mềm truyền thống, các nhà phát triển xây dựng một công cụ để thực hiện nhiều giai đoạn, các nhà phát triển máy học thường sử dụng các công cụ và thuật toán khác nhau để xác định hiệu quả của chúng về độ chính xác và kết quả thực hiện. Tất yếu điều này sẽ dẫn tới việc tinh chỉnh và điều chỉnh sao cho phù hợp nhất nhưng lại khó khăn khi hệ thống hóa và lặp lại. 4. Quản lý các kết quả thực nghiệm Mỗi thuật toán Máy học có nhiều tham số cấu hình vì thế sẽ tốn thời gian và chi phí để theo dõi tập tham số nào đã được tinh chỉnh trong thực nghiệm nào đề từ đó tập trung vào mô hình tối ưu nhất. Nhiều tổ chức đã phải nỗ lực cố gắng phát triển nhanh các phương pháp luận cần thiết để đạt hiệu quả. 5. Triển khai mô hình Máy học Cũng như khả năng mở rộng, tăng quy mô ứng dụng của mô hình để xử lý số lượng lớn dữ liệu thì việc chú trọng xem xét khi triển khai các mô hình Máy học trong khi thực hiện là khả năng tương tác giữa các nền tảng nội bộ khác nhau đang có sẵn và phạm vi ứng dụng rộng lớn của các công cụ triển khai cũng như môi trường để hoạt động (khả năng phục vụ của kiến trúc phần mềm REST, thời gian thực hiện truy vấn theo lô hoặc các ứng dụng di động). 263
  9. NHỮNG THÁCH THỨC CỦA RIÊNG CHUỖI THỜI GIAN 1. Giai đoạn chuẩn bị dữ liệu Chuẩn bị dữ liệu cho chuỗi thời gian có thể khó khăn và nên bao gồm không chỉ các vấn đề phổ biến như dữ liệu không đầy đủ, dữ liệu không được chuẩn hóa, dữ liệu đầu vào sai, dữ liệu dị thường... mà còn phải quan tâm đến khoảng cách thời gian đúng theo quy ước. Các khoảng cách thời gian không theo quy ước có thể phát sinh thiếu hoặc dư các đặc trưng khiến cho việc xây dựng mô hình thất bại. 2. Dễ sai lầm khi kiểm tra và đánh giá Việc đánh giá các mô hình của chuỗi thời gian cũng rất khó khăn. Một mô hình chuỗi thời gian khi sử dụng một hoặc nhiều phép đo có thể có độ chính xác cao nhưng lại có thể không đủ năng lực để thực hiện dự đoán. Nói chung, các tiêu chí đánh giá phải được lựa chọn cẩn thận theo từng trường hợp cụ thể. 3. Khả năng diễn giải mô hình Khả năng diễn giải mô hình đối với dữ liệu chuỗi thời gian có tầm quan trọng hơn so với các loại dữ liệu khác vì phân tích chuỗi thời gian thường gắn bó chặt chẽ với các quyết định kinh doanh quan trọng. Người sử dụng hiếm khi ra quyết định mà không hiểu biết rõ ràng về các giả thuyết được đưa vào mô hình. Chính điều này đã tạo ra thách thức to lớn cho các phương pháp Máy học vì nếu không giải quyết được thách thức này thì các phương pháp Máy học sẽ được xem là mơ hồ, không rõ ràng và thiếu minh bạch. SỰ TRỖI DẬY CỦA MÁY HỌC TỰ ĐỘNG Theo khảo sát gần đây của tạp chí InfoWorld, hơn 46% công ty ở Tây Âu thừa nhận rằng họ đang gặp khó khăn trong nhiều bước của quy trình xây dựng mô hình Máy học, bao gồm các giai đoạn như chuẩn bị dữ liệu, xây dựng các đặc trưng, xây dựng mô hình và đánh giá mô hình. Cũng không có gì ngạc nhiên khi các nhà cung cấp giải pháp đã bắt đầu giảm bớt độ phức tạp của quá trình phát triển mô hình Máy học bằng cách sắp xếp lại một cách hợp lý các bước trong quy trình hoặc tự động hóa quy trình xây dựng mô hình. Phần lớn các nhà cung cấp giải pháp tập trung nhiều vào chức năng “Máy học tự động” bằng việc cung cấp các công cụ và mô hình đã được cấu hình sẵn để hỗ trợ các nhiệm vụ khác nhau trong quy trình phát triển mô hình Máy học từ giai đoạn đầu đến giai đoạn cuối. Một số nhà cung cấp giải pháp tích hợp một phương pháp mới cho “Máy học tự động” 264
  10. là tự động tìm kiếm trong không gian một hoặc nhiều mô hình tiềm năng phù hợp với tập dữ liệu có sẵn và tự động lựa chọn mô hình phù hợp nhất với các tiêu chí được định nghĩa ban đầu, quy trình đó được minh họa trong hình 3 sau : Hình 3 : Quy trình phát triển mô hình Máy học Các phương pháp này không loại trừ lẫn nhau, các mô hình Máy học tự động có thể sử dụng chế độ thủ công để chuyển đổi qua lại nhằm công nhận kết quả xử lý của nhau. Cả hai phương pháp trên hứa hẹn sẽ giúp tăng năng suất của các nhà khoa học dữ liệu khi họ phát triển các mô hình Máy học phức tạp. Tuy nhiên, phần lớn các nhà cung cấp giải pháp vẫn còn tồn tại nhiều hạn chế trong việc xây dựng tính năng Máy học tự động, đặc biệt là đối với dữ liệu chuỗi thời gian. LỢI ÍCH CỦA MÁY HỌC TỰ ĐỘNG Các nhà khoa học dữ liệu thường mất 19% thời gian để thu thập các tập dữ liệu, 60% thời gian để làm sạch dữ liệu và tổ chức các tập dữ liệu. Việc chuẩn bị dữ liệu tốn kém thời gian như vậy đã làm cho các nhà khoa học dữ liệu còn rất ít thời gian để giải quyết các bài toán khó. Máy học tự động thay đổi việc xây dựng và sử dụng các mô hình Máy học dễ dàng bằng các hệ thống đã được phát triển, điều này giúp các nhà khoa học dữ liệu của các tổ chức tập trung hơn vào các bài toán phức tạp. Khi xây dựng các mô hình máy học, nhà khoa học dữ liệu tuần tự thực hiện các bước theo kiểu truyền thống như thu thập dữ liệu thô, phân tích và lọc dữ liệu thô, lựa chọn thuật toán giải quyết bài toán, huấn luyện và điều chỉnh thuật toán, kiểm tra chức năng của thuật toán để thu được kết quả và lặp lại quy trình đến khi tìm được thuật toán tốt nhất. Khi không tìm được thuật toán tốt nhất để giải quyết bài toán, đội ngũ nhà khoa học dữ liệu cần tìm ra những thuật toán đúng để sử dụng dữ liệu đang có. Nếu các nhà khoa học dữ liệu không được có nền tảng chuyên môn đúng và phù hợp hoặc không đánh giá đúng các kỹ thuật giải 265
  11. quyết bài toán liên quan đến nhiệm vụ được giao, họ sẽ cần phải liên kết với các nguồn lực khác như các nhà phát triển, nhà thiết kế và nhà quản lý. Việc này rất tốn kém thời gian và chi phí để thực hiện, nhưng vấn đề này có thể được giải quyết bằng máy học tự động. KẾT LUẬN Với số lượng lớn dòng dữ liệu dùng cho phân tích để hỗ trợ các mục tiêu kinh doanh đa dạng hơn, nhu cầu các doanh nghiệp cần tập trung nhiều hơn vào kết quả hoạt động kinh doanh trong tương lai với mức độ chi tiết khác nhau, ví dụ mức độ sản phẩm, cửa hàng hoặc thiết bị. Sự trỗi dậy của máy học tự động đã tạo ra áp lực to lớn lên nhiều tổ chức để cải thiện năng lực của mình khi quản lý chuỗi thời gian phản ánh các mặt khác nhau của quy trình kinh doanh, hành vi khách hàng và quản lý tài sản doanh nghiệp để từ đó nhanh chóng xác định các sai lệch so với tiêu chuẩn mà có thể ảnh hưởng tiêu cực tới kết quả hoạt động kinh doanh hoặc bỏ sót các cơ hội mới. Việc phân tích hiện hữu trên nhiều ngành nghề khác nhau khi ứng dụng chuỗi thời gian đang đối mặt với nhiều thuộc tính khác nhau, nhiều kiểu dữ liệu khác nhau, nhiều dữ liệu lịch sử hơn và dữ liệu mới xuất hiện liên tục. Tuy nhiên các phương pháp phân tích truyền thống thất bại khi nâng cao quy mô phạm vi ứng dụng và năng lực yếu vì những giả thuyết còn hạn chế của nó. Các công cụ máy học mạnh mẽ có thể nắm bắt được nhiều đặc trưng giàu ý nghĩa hơn trong mối liên kết giữa các biến của chuỗi thời gian, ý nghĩa quan trọng nhất là đã cải thiện to lớn khả năng dự đoán các giá trị tương lai của chuỗi thời gian. Trong quá khứ, các phương pháp máy học thường có năng lực kém vì thiếu các chuyên gia phân tích dữ liệu có chuyên môn có khả năng phát triển và tối ưu các mô hình. Sự ra đời của các công cụ máy học như là DataRobot Time Series hứa hẹn cải thiện to lớn khả năng tiếp cận công nghệ Máy học vào trong các bài toán thực tế, loại bỏ mạnh mẽ các hạn chế vốn có và có năng lực dự đoán mạnh mẽ, chính xác hơn trong tương lai. Đối với các doanh nghiệp, điều này sẽ giúp họ hiểu biết sâu sắc hơn và kiểm soát tốt hơn vô số các hoạt động khi sử dụng dữ liệu chuỗi thời gian. Đối với các nhà khoa học dữ liệu, các công cụ năng suất cao sẽ hỗ trợ hiệu quả trong việc giữ chân nguồn nhân lực có chuyên môn và tiếp tục đào tạo nguồn nhân lực rộng khắp. Để làm được điều này, các chuyên gia phân tích dữ liệu và người dùng là các doanh nghiệp phải tập trung vào Chuỗi thời gian một cách toàn diện, từ việc quản lý các dòng dữ liệu cho tới tăng tốc việc triển khai mô hình. Việc phân tích phải bao gồm : 266
  12. 1. Tập hợp các bài toán kinh doanh để phát triển và tiến hóa theo thời gian. Dữ liệu chuỗi thời gian thường không được đánh giá đúng và đủ tầm quan trọng của nó và cũng thường bị các doanh nghiệp không quan tâm. Trong khi đó, dự đoán kết quả tương lai luôn dựa vào dữ liệu lịch sử và để hiểu hành vi của hệ thống tương ứng với các điều kiện thường xuyên thay đổi, nhiều bài toán kinh doanh rất phù hợp với bài toán sử dụng chuỗi thời gian. 2. Xây dựng chiến lược quản lý dữ liệu để xác định, thâu tóm, truy cập và liên kết tài sản là dữ liệu chuỗi thời gian có chất lượng cao một cách hiệu quả cả trong sản xuất và môi trường phát triển. Ngoài ra, các chính sách cai trị dữ liệu từ các dòng dữ liệu cũng cần phải có và tương thích với các bài toán tình huống phù hợp nhất nhằm giúp việc xây dựng và nâng cấp mô hình diễn ra liên tục. 3. Xây dựng năng lực triển khai API tự động và được đóng gói sẵn để đảm bảo tính cơ động và khả năng mở rộng quy mô ứng dụng của mô hình Máy học trong các hệ thống không đồng nhất. Trí tuệ nhân tạo hướng dữ liệu hiệu quả nhất khi nó được nhúng vào các dòng công việc để thúc đẩy hoặc tự động ra quyết định trong thời gian thực bất cứ khi nào nhà quản lý quan tâm hoặc yêu cầu mọi lúc mọi nơi. TÀI LIỆU THAM KHẢO [1]. Martin Heller, Automated machine learning or AutoML explained, InfoWorld, 21/08/2019. [2]. https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml [3]. White paper, Moving from Business Intelligence to Machine Leaning with Automation, DataRobot [4]. Hutter, Frank, Kotthoff, Lars, Vanschoren. Joaquin, Automated Machine Learning, Springer, 2019. [5]. Jonathan Krau, Bruno Machado Pacheco, Hanno Maximilian Zan, Robert Heinrich Schmitt, Automated Machine Learning for predictive quality in production, Elsevier, 2020. [6]. Jonathan Waring, Charlotta Lindvall, Renato Umeton, Automated Machine Learning : Review of the state-of-the-art and oppotuinites for healthcare, Elsevier, 2020. 267
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0