256
TĂNG TỐC VIỆC PHÂN TÍCH CHUỖI THỜI GIAN
VỚI PHƯƠNG PHÁP MÁY HỌC TỰ ĐỘNG HÓA
Bùi Mạnh Trường
Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email bmtruong@ufm.edu.vn
Tóm tắt: Thời gian (Time) là một trong những nhân tố quan trọng nhất cần xem xét và đánh
giá để đảm bảo thành công trong kinh doanh và cũng rất khó khăn để bắt kịp tốc độ của thời gian.
Công nghệ đã đang phát triển cùng với các phương pháp mạnh mẽ giúp biết trước sự việc trước
khi thời gian kịp tới thời điểm sự việc diễn ra. Dữ liệu chuỗi thời gian nâng cao hiệu quả kinh
doanh bằng việc đưa ra các cách nhìn sâu sắc hơn về kết quả hoạt động kinh doanh trong tương
lai. Các công cụ của phương pháp máy học tự động cung cấp các lợi thế quan trọng so với các
công cụ phân tích truyền thống như tính đơn giản, nhanh & khả năng diễn giải kết quả thu được.
Từ khóa: data, time series, machine learning, automated machine learning, AutoML
GIỚI THIỆU
Phân ch chuỗi thời gian (Time series) nhiều mục tiêu khác nhau, tùy thuộc vào
lĩnh vực được ứng dụng. Các mục tiêu bao gồm dự đoán giá trị tương lai của chuỗi, trích
xuất tín hiệu ẩn dấu trong dữ liệu pha tạp, khám phá chế dữ liệu được tạo ra,
phỏng kết quả độc lập trong thực tế của chuỗi để hiểu dữ liệu sẽ thay đổi thế nào trong
tương lai. Trong tất cả các ứng dụng, phân tích chuỗi thời gian ban đầu thường cố gắng tìm
ra được mô hình toán học để giúp tìm ra được hình thức trực quan tốt nhất đối với dữ liệu
quan sát được. Nhiều năm qua, số lượng các dòng dữ liệu đổ vào các kho dữ liệu phân tích
tăng đáng kể liên tục để hỗ trợ phạm vi rộng lớn hơn cho các nhu cầu kinh doanh. Sự gia
tăng này đã làm thay đổi sâu sắc các loại hình phân tích theo yêu cầu, từ các công việc phân
tích tổng hợp tả về kết quả hoạt động kinh doanh trong lịch sử cho tới việc tập trung
nhiều hơn o kết quả hoạt động kinh doanh hiện tại tương lai trong đó có sử dụng các
phương pháp đo lường với độ chi tiết cao.
Sự gia tăng này cũng tạo áp lực cho các tổ chc đầu vào công nghệ để quản &
phân tích dữ liệu chuỗi thời gian. Những dữ liệu này phản ánh tất cả các mặt của quy trình
kinh doanh, hành vi khách hàng & việc sử dụng tài sản doanh nghiệp cùng với việc phân
tích để nhanh chóng xác định những sai lệch so với quy chuẩn thể ảnh hưởng tiêu
cực tới kết quả hoạt động kinh doanh hoặc giúp phát hiện ra những cơ hội mới.
257
Việc phát triển hình Máy học theo cách truyền thống đòi hỏi nhiều tài nguyên,
đòi hỏi kiến thức chuyên môn cao và thời gian rất lâu để xây dựng hình và khi so sánh
nhiều hình với nhau. Khi các công cụ thống truyền thống gặp khó khăn trong việc
xử lý các dữ liệu đầu vào đa biến, bỏ sót những tiềm năng mang lợi thế cạnh tranh để nắm
bắt & ảnh hưởng tiêu cực tới các hoạt động kinh doanh thực tế thì các công cụ Máy học tự
động có thể giúp tăng cường việc phân tích, xây dựng mô hình & dự đoán dựa vào dữ liệu
chuỗi thời gian để đề xuất cho doanh nghiệp những cơ hội dễ hiểu & khả thi một cách đơn
giản và nhanh chóng.
Máy học tự động (Automated Machine Learning) sử dụng các thuật toán m học được
tự động hóa quá trình thiết kế cấu trúc của hình đã được xác định. Máy học tự
động cung cấp các công cụ phân tích dữ liệu cấu trúc một cách hệ thống được thiết
kế sẵn để hỗ trợ các lĩnh vực như n lẻ, chuyển đổi, y tế... nhằm thu được kinh nghiệm
thực tiễn tốt nhất khi áp dụng các thuật toán Máy học để giải quyết các bài toán dự đoán
chính xác với chi phí thấp và nhanh chóng.
Máy học tự động thực hiện quy trình tự động hóa các tác vụ liên tục lặp lại một
phần hoặc toàn bộ quy trình này để phát triển mô hình máy học nên mất nhiều thời gian để
thực hiện. cho phép các nkhoa học dữ liệu, nhà phân ch nhà phát triển để xây
dựng các hình Máy học khả năng phát triển quy khi ứng dụng với hiệu quả
năng suất cao nhưng vẫn đảm bảo chất lượng của hình. Máy học tự động đang được
ứng dụng trong dịch vụ Máy học Azure được phát triển từ thành ng mang tính đột phá
của bộ phận nghiên cứu trong tập đoàn Microsoft.
ĐẶC TRƯNG CỦA CHUỖI THỜI GIAN & CÁC ỨNG DỤNG
Mọi hoạt động của thế giới, con người & thiên nhiên đều thay đổi theo thời gian.
Chuỗi thời gian có thể định nghĩa là một chuỗi các dữ liệu tại các thời điểm được đánh dấu
tạo thành các mốc thời gian cách xa đều nhau. Phân tích chuỗi thời gian việc sử dụng các
phương pháp thốnghoặc Máy học để phân tích dữ liệu tại một hoặc nhiều mốc thời gian
bằng cách trích xuất được các mẫu có đầy đủ ý nghĩa trong các biến đầu ra như là xu hướng
(nhu cầu sử dụng laptop nhiều n máy tính để bàn, thanh toán bằng ví điện tử nhiều hơn
thanh toán tiền mặt, mua hàng online ngày càng phát triển ... ), mùa kinh doanh (mùa hè,
tháng nhập học, Tết Nguyên đán ... ) hoặc các sự kiện đặc biệt (ngày mua sắm cao điểm
Black Friday, lễ giáng sinh, ngày lễ tình nhân 14/02 ... ) mối quan hệ hoặc tương tác
258
giữa các biến đầu vào giúp việc dự đoán các biến đầu vào sẽ thay đổi như thế nào để ảnh
hưởng đến các biến đầu ra.
nhiều ứng dụng của phân tích chuỗi thời gian, trong số đó nhu cầu về việc dự
báo tương lai giúp cải thiện công tác hoạch định sản xuất tối ưu hơn. Điều này cho phép dự
đoán về tình hình nhà đất của một địa phương trong năm tới, nhu cầu về phòng khách sạn
tại Phú Quốc trong tuần tới, số lượng người sẽ đổ về phố đi bộ trong vài giờ tới, khối lượng
công việc của bộ định tuyến trong vài phút tới & thậm chí số lượng click chuột & sự chuyển
đổi của một cổng thanh toán mua sắm trực tuyến trong 30 giây tiếp theo. Ngoài việc đưa ra
các dự đoán, phân tích chuỗi thời gian cũng có thể cung cấp các góc nhìn cho các hệ thống
phức tạp,dụ như để xác định các yếu tố gây ra thời gian chết của thiết bị trong khu vực
sản xuất hoặc phát hiện ra các tín hiệu bất thường từ nhật ký theo dõi hệ thống tin học. Việc
sử dụng siêu dữ liệu ngữ cảnh hoặc chuỗi thời gian phụ liên quan với chuỗi thời gian
đang xem xét sẽ giúp thúc đẩy việc phân tích nhanh hơn, cho phép thực hiện các u hỏi
tình huống (Nếu ... Thì ...), ví dụ như ảnh hưởng của cơn bão sắp tới lên nhà máy phát điện
sử dụng năng lượng gió hoặc tác động của việc quảng cáo tới công tác bán hàng.
Giả thiết đặt ra tồn tại một cấu trúc bên trong dữ liệu cho phép sử dụng từng
phần tối thiểu theo sự thay đổi của thời gian hoặc các biến không liên quan bản thân
chúng cũng thay đổi. Các biến này có thể độc lập như theo mùa kinh doanh, thời tết, ngày
nghỉ lễ, các sự kiện đã lên kế hoạch, thời khóa biểu làm việc hoặc thậm chí phức tạp hơn là
các biến độc lập như kinh tế , nguồn cung cấp năng lượng hoặc ảnh ởng của thị
trường chứng khoán.
BÀI TOÁN CHUỖI THỜI GIAN RẤT K
Bài toán chuỗi thời gian thường rất khó giải quyết bài toán này cố gắng để khám
phá cấu trúc tiềm ẩn sẵn sàng bộc lộ ra từ dữ liệu trong lịch sử & ngoại suy trong tương lai.
Các đặc tính cốt lõi của bài toán chuỗi thời gian sau đây được minh họa trong hình 1 :
1. Các khoảng thời gian được phân chia thành các khoảng bằng nhau đặc trưng
quan trọng của bất kỳ chuỗi thời gian nào. Khi các khoảng thời gian được phân đoạn khác
nhau, theo ngày hoặc theo tuần hoặc theo tháng thì cùng một thuật toán có thể thu được các
mô hình khác nhau & khả năng dự đoán khác nhau tương ứng.
259
2. Ta có thể sử dụng một hoặc nhiều chuỗi thời gian làm các biến đầu vào, các biến
đầu vào này được nắm bắt trong quá trình lựa chọn các đặc trưng được xác định trong
khoảng thời gian khám phá các đặc trưng.
3. Trong giai đoạn dự đoán của chuỗi thời gian, giai đoạn này thường là quá trình tiếp
diễn của chuỗi thời gian đầu ra đã đặt mục tiêu, trong đó việc phát triển hình từ chuỗi
thời gian đầu vào được sử dụng để dự đoán trạng thái tương lai của mục tiêu, ví dụ, doanh
số bán hàng quý đầu tiên trong năm tới hoặc số lượng click chuột trong 30 phút tới của
chương trình khuyến mãi trực tuyến, số lượng chủng loại hàng hóa cũng như sức mua
trong tháng mua sắm, mùa mua sắm ... trong khoảng thời gian cụ thể của tương lai.
Hình 1: Các đặc tính quan trọng của bài toán Chuỗi thời gian
Quá trình y dựng hình chuỗi thời gian nỗ lực để khám phá sự thay đổi các kết
quả từ chuỗi thời gian đầu ra như thế nào đối với chuỗi thời gian đầu ra. Quá trình này phức
tạp lặp lại, bắt đầu bằng việc xác định chuỗi thời gian đầu vào nào sẽ được sử dụng
thể tham gia vào việc chuẩn bị dữ liệu bằng cách chia tách, làm sạch phân đoạn
dữ liệu. Tiếp theo là việc trích xuất các đặc trưng, xây dựng hình và kiểm tra ngược cho
tới khi thu được kết quả có thể chấp nhận được, tùy thuộc vào các tiêu chuẩn được xác định
chính xác ban đầu. Tiếp theo việc diễn giải hình đánh giá hình, cuối cùng
triển khai áp dụng mô hình, đây là bước thường được đánh giá thấp khi mô hình đã ổn định,
mở rộng quy ứng dụng đưa vào ứng dụng trong các hoạt động nghiệp vụ nội bộ để
tạo ra các đầu ra và sự can thiệp hữu ích. Theo định kỳ, toàn bquá trình xây dựng mô hình
chuỗi thời gian cần lặp lại khi dữ liệu mới xuất hiện.
260
CÁCH TIẾP CẬN TRUYỀN THỐNG KHI PHÂN TÍCH CHUỖI THỜI GIAN
Phân tích chuỗi thời gian không phải mới mẻ. Các kỹ thuật thống kê cổ điển được áp
dụng cho việc phân tích kinh tế lượng các xu hướng, các chu kỳ và tính ngẫu nhiên đã tồn
tại bền vững qua nhiều thập kỷ. Từ khi xuất hiện công nghệ tin học, các kỹ thuật như
ARIMA (Tự phục hồi (Auto-Regressive), Tích hợp (Integrated), Các giá trị trung bình liên
tiếp (Moving Average)) các biến thể của chúng (VARIMA nh cho véc tơ, GARCH dành
cho sự biến động khi thời gian thay đổi ... ) đã được sử dụng rộng rãi để giải quyết các bài
toán kinh tế lượng, kinh doanh & điều hành.
Đây là những mô hình tham số tiêu biểu, thường là đơn biến tạo ra những githuyết
đáng tin cậy về việc phân phối biến ngẫu nhiên và độ ổn định của mô hình theo thời gian –
những hình này có cấu trúc cao, dễ hiểu, đòi hỏi dữ liệu vừa đủ tạo ra độ xấp xỉ tương
đối từ các tập dữ liệu mẫu. Trong khi đó, các phương pháp cổ điển cũng có những giới hạn
như sau :
1. Phụ thuộc vào các giả thuyết thống kê.
Tính hợp lệ của các giả thuyết bao gồm tính tuyến tính, tính thông thường và tính ổn
định là rất quan trọng trong phân tích thống kê cổ điển khi áp dụng vào các bước triển khai
trong thực tế. Những tính chất này phải được thực hiện nghiêm ngặt giúp chohình hoạt
động đúng đắn, như vậy sẽ đòi hỏi lặp lại nhiều lần các bước làm sạch dữ liệu, lấy mẫu và
kiểm tra mô hình.
2. Khả năng tương thích yếu khi phân tích đa biến.
Bài toán đa biến bao gồm nhiều chuỗi thời gian biến đầu vào và khi khi xử các
chuỗi thời gian, các phương pháp thống kê cổ điển thường có năng lực dự đoán kém tính
chính xác thấp. Chính điều này đã hạn chế khả năng ứng dụng phân tích chuỗi tích thời gian
trong các hệ thống độc lập phức tạp trong thực tế.
3. Năng lực dự đoán kém trong các thời điểm có những sự kiện đặc biệt hoặc đặc
biệt quan trọng được xác định nguyên nhân là do có nhiều hạn chế trong dữ liệu lịch sử.
5. NHU CẦU VỀ PHÂN TÍCH CHUỖI THỜI GIAN TĂNG CAO
Yêu cầu lưu kho hỗ trợ giao hàng tức thời cùng sự phát triển mạnh mẽ và rộng khắp
thế giới của lĩnh vực thương mại điện tử đã buộc các doanh nghiệp nâng tầm cuộc chơi của
mình khi phân tích đáp ứng nhu cầu của khách hàng. Hơn nữa, các phong trào chuyển