BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------
Nguyễn Quang Đạt
CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY
TRONG CHUỖI THỜI GIAN VÀ ỨNG DỤNG
Ngành: Toán học Mã số: 9460101
Hà Nội - 2023
Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội
Tập thể hướng dẫn:
1. 2.
TS. Nguyễn Thị Ngọc Anh PGS.TS. Nguyễn Ngọc Doanh
Phản biện 1: …………………. Phản biện 2: …………………. Phản biện 3: …………………. Luận án được bảo vệ trước Hội đồng đánh giá Luận án Tiến sĩ cấp Đại học Bách Khoa Hà Nội, họp tại Đại học Bách Khoa Hà Nội Vào hồi …… giờ ……., ngày ……tháng……năm…… Có thể tìm hiểu luận án tại:
1. Thư viện Tạ Quang Bửu – Đại học Bách khoa Hà Nội. 2. Thư viện Quốc gia Việt Nam.
Mở đầu
Đặt vấn đề
Dữ liệu được dự báo trong chuỗi thời gian là rất quan trọng cho việc dự báo tương lai được nói tới bên trên. Các dữ liệu dự báo này, kết hợp với một số các hệ thống khác (ví dụ như trong dự báo thời tiết thì gồm có cả hệ thống ảnh vệ tinh, dữ liệu quan trắc từ các điểm đo, v.v...) sẽ có thể đưa ra một kết quả chính xác nhất cho hệ thống nhằm mục tiêu vận hành hệ thống một cách hợp lý nhất.
Động cơ nghiên cứu bài toán
Một trong các vấn đề của Big-data là nghiên cứu chuỗi thời gian time series. Một trong những mục tiếu quan trọng nhất trong xử lý chuỗi thời gian là dự báo (prediction hoặc forecasting).
Mục tiêu của Luận án
Trong Luận án này đã tập trung nghiên cứu và đưa ra một số mô hình máy học áp dụng cho dự báo chuỗi thời gian: (1) Phân tích một hoặc một vài chuỗi thời gian; (2) Đưa ra các mô hình phù hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được chọn tại một thời điểm đã chọn; (3) Tối ưu hóa kết quả cho cả dự báo ngắn hạn và dự báo dài hạn (có thể thêm dự báo trung hạn).
Phạm vi của nghiên cứu
Với các mục tiêu đặt ra bên trên, tôi đã tập trung vào nghiên cứu một số vấn đề sau đây: (1) Phân tích ưu nhược điểm của một số mô hình máy học truyền thống; (2) Áp dụng máy học trực tuyến (online learning) và một số chuỗi thời gian; (3) Phân tích, cài đặt và chạy một số mô hình lai; (4) Một số vấn đề tương lai cần giải quyết.
Phương pháp nghiên cứu
Hướng nghiên cứu mà tôi làm sẽ gồm một số phương pháp sau: (1) Áp dụng các phương pháp truyền thống; (2) Phân tích ưu nhược điểm của từng phương pháp truyền thống, từ đó nghiên cứu đưa ra mô hình lai phù hợp; (3) Khi đã có các mô hình được đề xuất, tôi sẽ áp dụng vào các bộ dữ liệu phù hợp để kiểm tra kết quả; (4) Phân tích, cài đặt và áp dụng chạy chương trình
1
trên một số bộ dữ liệu đối với một số phương pháp máy học Online (trực tuyến); (5) Tổng hợp các vấn đề và đưa ra một số mô hình tốt nhất.
Chương 1: Một số mô hình truyền thống trong chuỗi thời gian
Chương này giới thiệu một số mô hình truyền thống đang được sử dụng rộng rãi hiện nay, gồm một số mô hình tuyến tính ARIMA, SARIMA, một số mô hình mạng thần kinh nhân tạo là ANN, RNN và áp dụng mô hình Wavelet trong lọc nhiễu xử lý dữ liệu.
1.1 Autoregressive Integrated Moving Average Model - ARIMA
ARIMA, cụm từ viết tắt thông dụng của Autoregressive Integrated Moving Average được các tác giả Box và Jenkin đưa ra trong năm 1971 [1], ứng dụng vào các mô hình tính toán cho chuỗi thời gian. Tới năm 1991, Brock và David [2] đã đưa ra các mô tả chi tiết về mô hình ARIMA này.
Hiện nay, mô hình ARIMA là một mô hình được sử dụng rộng rãi vào dự báo chuỗi thời gian.
Mô hình ARIMA là sự kết hợp của các mô hình thành phần: AR: tự hồi quy; I: sai phân; MA: trung bình trượt.
Trong ARIMA, giá trị d thể hiên cho phần "I", Integrated.
Tiếp theo, chúng ta sẽ xem xét các giá trị p và q trong mô hình (chúng ta gọi chúng là các tham số của mô hình ARIMA).
Ở đây, p là tham số của phần tự hồi quy trong mô hình (phần AR của mô hình ARIMA) (tiếng Anh là "order of the ‘Auto Regressive’ (AR) term"). Còn giá trị q là tham số tương ứng của phần trung bình trượt trong mô hình (phần MA trong mô hình ARIMA).
Do đó, mục tiêu của chúng ta trong mô hình ARIMA là xác định các giá trị của p, d, q.
Cơ bản chúng ta có thể xây dựng mô hình ARIMA theo 4 bước sau: (1) Xác định tính dừng của chuỗi thời gian; (2) Ước lượng các tham số của mô
2
hình. Ở đây là các tham số p và q; (3) Tính toán các giá trị của chuỗi thời gian để xác định độ chính xác của mô hình. Hiệu chỉnh các tham số p, d, q, đưa ra các ước lượng tốt hơn về các tham số này; (4) Dự đoán chuỗi thời gian (với một khoảng tin cậy).
1.2 Seasonal Autoregressive Integrated Moving Average – SARIMA
Seasonal Autoregressive Integrated Moving Average, SARIMA hay Seasonal ARIMA, là sự mở rộng của mô hình ARIMA với việc phân tích thêm tính mùa (thành phần theo mùa - seasonal) của dữ liệu.
Phần theo mùa của mô hình bao gồm các tham số giống với các thành phần không theo mùa của mô hình ARIMA.
Khi đó, mô hình SARIMA sẽ cần phải chọn các parameters và hyperparameters cho cả 2 thành phần của dữ liệu: thành phần xu hướng (trend) và thành phần mùa (seasonal):
Thành phần xu hướng - Trend: vẫn có 3 tham số giống như của mô hình ARIMA. Chúng là các tham số sau đây: p: bậc hồi quy tự động của xu hướng; d: bậc sai phân của xu hướng ; q: bậc trung bình trượt của xu hướng.
Thành phần mùa - Seasonal: có 4 tham số mới, trong đó có 3 siêu tham số (hyperparameters) giống với mô hình ARIMA và một tham số để chỉ ra thời gian lặp của tính mùa: P: bậc hồi quy tự động của mùa; D: bậc sai phân của mùa; Q: bậc trung bình trượt của mùa; m: số giá trị trong mỗi chu kỳ của thành phần mùa trong dữ liệu.
Khi đó, ta có thể viết mô hình SARIMA thành công thức như sau:
𝜙(𝐿)(1 − 𝐿)𝑑Φ(𝐿𝑠)(1 − 𝐿𝑠)𝐷𝑦𝑡 = 𝑐 + 𝜃(𝐿)Θ(𝐿)𝜀𝑡
1.3 Artificial neutral network – ANN
Mô hình dự đoán bằng mạng thần kinh nhân tạo là dạng mô hình được sử dụng rộng rãi nhất để lập mô hình và dự báo chuỗi thời gian, trên thực tế thực hiện ánh xạ hàm phi tuyến tính từ các quan sát trong quá khứ 𝑦𝑡−1, 𝑦𝑡−2, … , 𝑦𝑡−𝑝 thành giá trị dự đoán 𝑦𝑡:
𝑦𝑡 = 𝑓(𝑦𝑡−1, 𝑦𝑡−2, … , 𝑦𝑡−𝑝, 𝜔) + 𝜀𝑡
3
trong đó 𝜔 là các vector tham số, f là một hàm xác định nào đó (được xác định theo cấu trúc mạng và tất cả các tham số từ mô hình).
𝑞
𝑝
Một dạng được sử dụng rộng rãi hiện nay là "Single hidden layer feed– forward network model" được sử dụng rộng rãi nhất để dự báo. Mô hình được đặc trưng bởi một mạng lưới gồm ba lớp của các units (noron) được kết nối với nhau bằng các liên kết. Đầu ra 𝑦𝑡 có thể nhận được từ các đầu vào 𝑦𝑡−1, 𝑦𝑡−2, … , 𝑦𝑡−𝑝 với biểu thức toán học:
𝑗=1
𝑖=1
) 𝑦𝑡 = 𝛼0 + ∑ 𝛼𝑗𝑔 (𝛽0,𝑗 + ∑ 𝛽𝑖,𝑗𝑦𝑡−𝑖 + 𝜀𝑡
trong đó 𝛼𝑗 (j = 0, 1, 2, ..., q) và 𝛽𝑖,𝑗 (i = 0, 1, 2, ..., p; j = 1, 2, ..., q) là các tham số của mô hình, được gọi là trọng số kết nối, p là số units đầu vào, q là số units ẩn. Hàm logistic sử dụng làm hàm trong lớp ẩn g(x), ở đây cũng có thể sử dụng một hàm như tanh hoặc sigmoid. Việc lựa chọn các hàm này phụ thuộc vào kiểu mô hình mà ta đã chọn.
1.4 Recurrent neural network – RNN
RNN ra đời với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin về các giá trị từ những bước tính toán xử lý trước để dựa vào nó có thể đưa ra dự đoán chính xác nhất cho bước dự đoán hiện tại.
Trong RNN, các input 𝑥𝑡 sẽ được kết hợp với hidden layer ℎ𝑡−1 bằng hàm 𝑓𝑊 để tính toán ra hidden layer ℎ𝑡 hiện tại và output 𝑦𝑡 sẽ được tính ra từ ℎ𝑡, W là tập các trọng số và nó được ở tất cả các cụm, các 𝐿1, 𝐿2, … , 𝐿𝑡 là các hàm mất mát. Như vậy kết quả từ các quá trình tính toán trước đã được "nhớ" bằng cách kết hợp thêm ℎ𝑡−1 tính ra ℎ𝑡 để tăng độ chính xác cho những dự đoán ở thời điểm hiện tại:
ℎ𝑡 = 𝑓𝑊(ℎ𝑡−1, 𝑥𝑡)
trong đó hàm 𝑓𝑊 ở đây có thể sư dụng là hàm tanh hoặc sigmoid. Như vậy ta có thể viết lại công thức trên ở dạng sau:
ℎ𝑡 = 𝑡𝑎𝑛ℎ(𝑊ℎℎℎ𝑡−1 + 𝑊𝑥ℎ𝑥𝑡)
Khi đó ta có:
𝑦𝑡 = 𝑊ℎ𝑦ℎ𝑡
4
Đối với mạng ANN chỉ sử dụng một ma trận trọng số W duy nhất thì với RNN, nó sử dụng 3 ma trận trọng số cho 2 quá trình tính toán: $W_{hh}$ kết hợp với "bộ nhớ trước" ℎ𝑡−1 và 𝑊𝑥ℎ kết hợp với $x_t$ để tính ra "bộ nhớ của bước hiện tại" ℎ𝑡 từ đó kết hợp với 𝑊ℎ𝑦 để tính ra 𝑦𝑡. Hay có thể định nghĩa các ma trận như sau: 𝑊ℎℎ: Ma trận trọng số (weights) cho vector trạng thái ẩn. 𝑊𝑥ℎ: Ma trận trọng số cho vector đầu vào x. 𝑊ℎ𝑦: Ma trận trọng số dùng để tính vector đầu ra y.
RNN có xu hướng gặp phải hai vấn đề, là exploding gradient và vanishing gradient. Những vấn đề này được xác định bởi kích thước của gradient, hay là độ dốc của đồ thị hàm loss function.
Trong trường hợp vanishing gradient, khi gradient quá nhỏ, nó tiếp tục trở nên nhỏ hơn. Từ đó dẫn tới việc cập nhật các trọng số (hoặc tham số) (weigth parameters) cho đến khi chúng trở nên quá nhỏ, không còn tác động đáng kể tới mô hình — tức là có thể sấp xỉ 0. Khi điều đó xảy ra, thuật toán không còn học tiếp được nữa.
Ngược lại, exploding gradient xảy ra khi gradient quá lớn, tạo ra một mô hình không ổn định. Trong trường hợp này, trọng số weigth parameters của mô hình sẽ phát triển quá lớn và cuối cùng chúng sẽ được biểu diễn dưới dạng NaN (hoặc dạng Null), hay là dạng không có giá trị.
Một số biến thể của mô hình RNN
Bi-directional recurrent neural networks} hay mạng nơ-ron RNN hai chiều (BRNN hoặc Bi-RNN)
Long short-term memory (LSTM): Đây là một phát triển nổi tiếng của mạng nơ-ron RNN, được giới thiệu bởi Sepp Hochreiter và Juergen Schmidhuber vào năm 1997 [4,8,9] như một giải pháp cho vấn đề vanishing gradient.
Gated recurrent units (GRU): là một biến thể của RNN. Mô hình này tương tự như LSTM vì nó cũng hoạt động để giải quyết vấn đề bộ nhớ ngắn hạn- dài hạn gặp phải trong các mô hình RNN.
5
Chương 2: Mô hình học trực tuyến
Khi mạng internet phát triển mạnh mẽ thì mô hình máy học trực tuyến (online learning) cũng được đề cập tới và phát triển. Nó có tính năng quan trọng là máy học sẽ được thực hiện theo thời gian thực, giúp cho mô hình có tính thời sự cao nhất có thể.
Các siêu tham số là các tham số không không thay đổi của mô hình dù có cập nhật thêm dữ liệu và tính toán lại mô hình. Theo quá trình từ khởi tạo tham số tới tính toán tham số cho mô hình thì các siêu tham số này không hề thay đổi. Còn các tham số là các giá trị sẽ thay đổi liên tục trong quá trình tính toán mô hình. Chúng ta có thể xem xét việc cập nhật liên tục các tham số trong mô hình như hình trên.
Với việc sử dụng mô hình truyền thống, tất cả các tham số đều được tính một lần, và mô hình cuối cùng sẽ giữ lại các tham số được tính toán cuối cùng. Sau một khoảng thời gian, khi chúng ta có bộ dữ liệu mới (thực tế là bộ dữ liệu đang dùng, được cập nhật thêm một số lượng dữ liệu), chúng ta sẽ chạy lại mô hình truyền thống với bộ dữ liệu mới.
Trong mô hình trực tuyến, việc khởi tạo tham số của mô hình và việc tối ưu các tham số sẽ được thực hiện giống trong mô hình truyền thống, nhưng các bước tính toán sẽ được lưu lại. Mỗi khi có một dữ liệu mới được cập nhật theo thời gian thực vào bộ dữ liệu đầu vào, mô hình sẽ được tiếp tục chạy tiếp tục dựa vào các bước tính toán đã được lưu lại trước đây. Việc cập nhật mô hình này là liên tục, được thực hiện mỗi khi mà dữ liệu đầu vào
6
được cập nhật, dù chỉ là 1 giá trị. Ở đây, trong việc tính lại các tham số và siêu tham số của mô hình thì các siêu tham số của mô hình là không thay đổi, chỉ có các tham số là được tính toán lại bằng cách tiếp tục tính toán theo các bước tính toán đã được lưu lại từ các bước tính toán trước đó.
2.1 Phương pháp giảm gradient trực tuyến
Giảm gradient
(Gradient Descent - GD) là một phương pháp tối ưu cực tiểu hóa. Phương pháp giảm gradient là một phương pháp tối ưu tổng quát để giải bài toán: 𝐿(𝜃) → 𝑚𝑖𝑛
Việc tìm giá trị $min$ này nhằm ước lượng được tham số θ của mô hình khi mà hàm L(θ) là hàm khả vi.
Phương pháp giảm gradient - Gradient Descent
Là thuật toán tối ưu bậc 1 để tìm giá trị nhỏ nhất (cục bộ) của một hàm khả vi f(x). Tại mỗi x, f(x) giảm nhanh nhất nếu ta đi từ x theo hướng âm của gradient của f(x), tức − ∇f(x). Nếu x'=x-α∇ f(x), với α>0 đủ bé thì f(x')≤ f(x)
Từ đó, để tìm cực tiểu của hàm f(x), ta dự đoán giá trị cực tiểu 𝑥0 ban đầu và xét chuỗi 𝑥0, 𝑥1, ... , 𝑥𝑖, ... sao cho: 𝑥𝑖+1 = 𝑥𝑖 − 𝛼∇𝑓(𝑥𝑖) với i ≥ 0
Khi đó ta có: 𝑓(𝑥0) ≥ 𝑓(𝑥1) ≥ ⋯ ≥ 𝑓(𝑥𝑖)
Chuỗi {𝑥𝑖} khi đó sẽ hội tụ về giá trị cực tiểu.
7
Giảm gradient trực tuyến
Thuật toán giảm gradient trực tuyến (Online Grdient Descent - OGD) là dạng online của thuật toán giảm gradient truyền thống, được Zinkevich đề xuất vào năm 2003. Đây là một thuật toán áp dụng để tìm giá trị cực trị trong môi trường tính toán trực tuyến.
Mã giả của thuật toán được cho ở bên dưới:
For t = 1 to T
Calculate ft(xt) Calculate yt+1 = xt − αt∇fi(xt) Find xt+1 ← yt+1
Input: T < N, dữ liệu {(𝑥𝑖, 𝑦𝑖)}𝑁, tập {αt}
2.2 Phương pháp trực tuyến Newton step
Hàm Exp-concave
Định nghĩa: một hàm lồi f : ℝ𝑛 → ℝ được gọi là α-exp-concave trên tập quyết định 𝒦 ⊆ ℝ𝑛 nếu hàm g sau là hàm lõm (concave function), với g: 𝒦 → ℝ thỏa mãn:
g(x) = exp (-αf(x))
Tính chất: cho f : 𝑓: 𝒦 → ℝ là một α-exp-concave, khi đó với 𝛾 ≤
1 2
1 4𝐿𝐷
𝑚𝑖𝑛 { , 𝛼} và mọi 𝑥, 𝑦 ∈ 𝒦 thì:
𝑓(𝑥) ≥ 𝑓(𝑦) + ∇𝑓(𝑦)𝑇(𝑥 − 𝑦) + (𝑥 − 𝑦)𝑇∇𝑓(𝑦)∇𝑓(𝑦)𝑇(𝑥 − 𝑦) 𝛾 2
với D là đường kính của tập quyết định 𝒦 và L là hằng số Lipschitz của hàm f.
Định lý: Online Newton Step với α-exp-concave và hàm loss functions
1 2
1 4𝐿𝐷
1 𝛾2𝐷2, T > 4 guarantees:
𝑇
𝑚𝑖𝑛 ( , 𝛼), 𝜀 = ℓ𝑡và tham số 𝛾 =
𝑡=1
+ 𝐿𝐷) 𝑛𝑙𝑜𝑔(𝑇) 𝑅𝑇(𝑢) = ∑(ℓ𝑡(𝑥𝑡) − ℓ𝑡(𝑢)) ≤ 5 ( 1 𝛼
8
2.3 Các mô hình trực tuyến cho ARIMA và SARIMA
2.3.1 Mô hình ARIMA trực tuyến Newton step
Đặt mô hình ARIMA trong bài toán online, ta có thể tính được các giá trị
tương lai {𝑋𝑡} của mô hình như sau:
Chọn các bộ tham số của mô hình là {𝜑𝑖} (i=0,...,p-1) và {𝜃𝑗} (j=0,...,q-1) theo bài toán đã ra.
Trong bước lặp thứ t (bước lặp thứ I sẽ tính giá trị 𝑋𝑖), mô hình nhận một giá trị ồn trắng 𝜀𝑡, sau đó mô hình sẽ tính ra cho chúng ta giá trị 𝑋𝑡̂ dựa trên công thức bên trên. Trong lần lặp thứ t sau khi chúng ta tính toán được giá trị ước
lượng tương lai 𝑋𝑡̂ thì giá trị thực tế 𝑋𝑡 sẽ được đưa ra để chúng ta tính giá trị mât mát (loss).
𝑑−1
Chúng ta có thể tính được hàm mất mát theo công thức sau:
𝑖=0
𝑞−1
𝑑−1
) 𝑓𝑡(𝜑, 𝜃) = ℓ𝑡 (𝑋𝑡, 𝑋𝑡̂(𝜑, 𝜃)) = ℓ𝑡 (𝑋𝑡, ∇𝑋𝑡̂ + ∑ ∇𝑖𝑋𝑡−𝑖
𝑝−1 = ℓ𝑡 (𝑋𝑡, ∑ 𝜑𝑖∇𝑑𝑋𝑡−𝑖 𝑖=0
𝑗=0
𝑖=0
) + ∑ 𝜃𝑗𝜀𝑡−𝑖 + ∑ ∇𝑗𝑋𝑡−𝑖
𝑇
Cụ thể, chúng ta có thể tính được giá trị đó theo công thức sau:
𝑡=1
𝑇 ∑ ℓ𝑡(𝑋𝑡, 𝑋𝑡̂(𝜑, 𝜃)) 𝑡=1
𝑅𝑇 = ∑ ℓ𝑡(𝑋𝑡, 𝑋𝑡̂) − min 𝜑,𝜃
Mô hình xấp xỉ thay vì có dạng như bình thường là ARIMA (p,d,q) thì nó có dạng mới là ARIMA (p+m,d,0) với 𝑚 ∈ ℕ là một hằng số đủ lớn.
Khi ta sử dụng mô hình mới thì chúng ta sẽ có công thức tính giá trị ước lượng như sau:
9
𝑑−1
𝑝+𝑚 𝑋𝑡̂(𝛾𝑡) = ∑ 𝛾𝑖∇𝑑𝑋𝑡−𝑖 𝑖=0
𝑖=0
+ ∑ ∇𝑗𝑋𝑡−𝑖
(𝜆) = 𝜃(𝐵)Θ(𝐵𝑠)𝜀𝑡
2.3.2 Mô hình SARIMA trực tuyến Newton step
𝜙(𝐵)Φ(𝐵)𝑠∇𝑑∇𝑠 Một mô hình SARIMA với các tham số SARIMA(p,d,q)(P,D,Q)s với chu kỳ s thì các giá trị ước lượng của 𝑥𝑡 sẽ được tính theo công thức dưới đây: 𝐷𝑥𝑡
(𝜆) = 𝜃(𝐵)Θ(𝐵𝑠)𝜀𝑡
Coi rằng phép lấy sai phân là một bước tính riêng biệt để tạo chuỗi dừng, chúng ta chỉ cẩn tính toán mô hình với một chuỗi mới $X_t$ là dừng. Khi đó ta có thể viết gọn công thức ở dạng sau:
𝜙(𝐵)Φ(𝐵)𝑠𝑋𝑡
𝑝
𝑞
𝑄
Có thể viêt dưới dạng:
𝑃 𝑋̂(𝛼,𝛽) = ∑ ∑ 𝛼𝑖,𝑗𝑋𝑡−(𝑖+𝑗𝑠) 𝑗=0
𝑖=0
𝑖=0
𝑗=0
+ ∑ ∑ 𝛽𝑖,𝑗𝜀𝑡−(𝑖+𝑗𝑠)
𝑝
𝑃 𝑋̂(𝛾) = ∑ ∑ 𝛾𝑖,𝑗𝑋𝑡−(𝑖+𝑗𝑠) 𝑗=0
𝑖=0
Ta tiếp tục áp dụng ý tưởng về mô hình tự hồi quy như của mô hình ARIMA, với hai tham số m và M mới.
(𝑝+1)×(𝑃+1)
, 𝛾0,0 = 0, 𝛾𝑖,0 = 𝜙𝑖, 𝛾0,𝑗 = Φ𝑗, và
với ma trận giá trị 𝛾 = (𝛾𝑖,𝑗) khi 𝑖, 𝑗 ≠ 0 thì 𝛾𝑖,𝑗 = 𝜑𝑖Φ𝑗
Từ các chứng minh của phần Online Newton step, ta có thể chứng minh được hàm tổn thất thỏa mãn công thức sau:
𝑇 ∑ 𝑓𝑡(𝛾(𝑡)) − min 𝛼,𝛽 𝑡=1
𝑇 ∑ 𝐸(𝑓𝑡(𝛼∗, 𝛽∗)) = 𝑡=1
𝑂 ((𝐺𝐷 + ) 𝑙𝑜𝑔𝑇) 1 𝜆
10
liên
Offline Có từ ban đầu p, d và q cố định φ, θ tính một lần Online Dữ liệu Cập nhật tục Siêu tham số d,p và m cố định γt được tính lại liên tục Tham số Bảng 2.2: So sánh các đặc điểm khác nhau của mô hình SARIMA giữa mô hình máy học truyền thống và mô hình máy học trực tuyến.
2.4 Mô hình mạng thần kinh nhân tạo trực tuyến
Trong mô hình học online RNN, dữ liệu được giả định là sẽ có sẵn tính "sequentially", hay tính mùa. Và quy trình học trực tuyến sẽ tiếp tục thông qua việc cập nhật mô hình khi các dữ liệu mới được cập nhật. Việc có tính mùa của dữ liệu được coi là khá quan trọng khi chia dữ liệu gốc thành các batch.
Quy trình máy học được mô hình hóa như một trò chơi giữa một người học (ở đây một thuật toán máy học) và một môi trường (có thể là đối nghịch), nơi thuật toán có nhiệm vụ dự đoán các tham số mô hình từ một tập lồi.
Trong hoàn cảnh này:
Đầu tiên, thuật toán máy học đưa ra dự đoán của mình về các tham số của mô hình.
Sau đó, môi trường (có thể là đối nghịch) chọn một hàm mất mát. Cuối cùng, thuật toán máy học quan sát sự mất mát của nó và thực hiện một hành động (tức là cập nhật các thông số mô hình) để giảm thiểu tổn thất tích lũy của nó.
Quy trình này được lặp lại ở mỗi vòng lặp t cho đến khi tất cả các giá trị của dữ liệu được sử dụng.
⊺ℎ𝑡)
Bây giờ, chúng ta sẽ xem xét các phương trình của mạng thần kinh nhân tạo hồi quy RNN. Mô hình RNN được xử lý bằng các phương trình sau đây (khi dùng các phương trình này thì nó được gọi là chuẩn Elman):
ℎ𝑡 = 𝜎𝑡(𝑊ℎℎ𝑡−1 + 𝑈ℎ𝑥𝑡) ; 𝑦𝑡̂ = 𝜎𝑡(𝑊𝑡
2.4.1 Xây dựng cơ sở thuật toán và các định nghĩa
Cài đặt của thuật toán sẽ giống như là bên trên đã trình bày (sơ bộ), ở đây chúng ta sẽ trình bày rõ ràng hơn:
11
Tại vòng lặp thứ t (chúng ta sẽ gọi là thời điểm t) thì thuật toán sẽ đưa ra
tham số ước lượng của mô hình, tức là các vector 𝜃𝑡 và 𝜇𝑡.
𝑡 (với‖𝑊𝑦
Môi trường sẽ trả lại một giá trị 𝑦𝑡 ∈ [−√𝑛ℎ; √𝑛ℎ], một giá trị đầu vào 𝑡‖ < 1). 𝑥𝑡 ∈ [−1; 1]𝑛𝑥 và vector trọng số tương ứng với 𝑦𝑡 là 𝑊𝑦
2
Thuật toán sẽ tính giá trị mất mát dựa theo công thức sau:
𝑡ℎ𝑡(𝜃𝑡, 𝜇𝑡) ⏟ 𝑦̂𝑡
) ℓ𝑡(𝜃𝑡, 𝜇𝑡) = (𝑦𝑡 − 𝑦𝑡̂ )2 = (𝑦𝑡 − 𝑊𝑦
𝑇
Local regret được định nghĩa như sau:
2 𝜕𝒦𝜃𝐿𝑡,𝜔(𝜃𝑡, 𝜇𝑡) ‖ 𝜕𝜃
𝑡=1
) 𝑅𝜔(𝑇) = ∑ (‖
2.4.2 Tính chất Lipschitz và Smoothness
Theo định nghĩa thì 𝐿𝑡,𝜔(𝜃, 𝜇) là trung bình của các giá trị mất mát trong batch được chọn, trong đó giá trị mất mát là hàm số phụ thuộc vào 𝜃 và 𝜇 trong ℎ𝑡(𝜃, 𝜇). Đây là một hàm đệ quy, và khi học online, nó có thể sẽ rất lớn, dẫn tới các đạo hàm có thể lớn tới vô hạn, trong khi các thuật toán máy học online cần có các hàm mất mát với gradient hữu hạn để có thể đảm bảo tính hội tụ và tính toán được.
Đầu tiên, chúng ta cần xem xét các tính chất Lipschitz của ℎ𝑡(𝜃, 𝜇) và cùng với nó là xem xét các ảnh hưởng của đệ quy dài vô hạn lên 𝐿𝑡,𝜔(𝜃, 𝜇).
Định lý 5.1: cho 𝜃 = 𝑣𝑒𝑐(𝑊) và 𝜇 = 𝑣𝑒𝑐(𝑈), trong đó W và U thỏa mãn ‖𝑊‖ ≤ 𝜆 và ‖𝑈‖ ≤ 𝜆 với 𝜆 ∈ [0; 1). Khi đó thì 𝐿𝑡,𝜔(𝜃, 𝜇) sẽ có Lipschitz và smoothness:
(1) ‖ ‖ ≤ 𝛽𝜃 với 𝛽𝜃 =
(2) ‖ ‖ ≤ 𝛽𝜇 với 𝛽𝜇 =
𝜕2𝐿𝑡,𝜔(𝜃,𝜇) 𝜕𝜃2 𝜕2𝐿𝑡,𝜔(𝜃,𝜇) 𝜕𝜇2 𝜕2𝐿𝑡,𝜔(𝜃,𝜇) 𝜕𝜃𝜕𝜇
4𝑛ℎ√𝑛ℎ (1−𝜆)3 4𝑛𝑥√𝑛ℎ (1−𝜆)3 4𝑛ℎ√𝑛𝑥 (1−𝜆)3
(3) ‖ ‖ ≤ 𝛽𝜃,𝜇 với 𝛽𝜃,𝜇 =
12
2.4.3 Mô tả thuật toán
𝐿𝑡,𝜔(𝜃𝑡,𝜇𝑡)
𝜕𝒦𝜃
𝜕𝒦𝜃
𝐿𝑡,𝜔(𝜃𝑡,𝜇𝑡)
Tham số Learning rate 𝜂 ∈ [0; 1) batch-size 𝜔 ∈ [𝑇] 𝜆 ∈ [0; 1) Khởi tạo 𝜃1, 𝜇1, (𝑊𝑦)1 và ℎ0 Lấy 𝒦𝜃 = 𝑣𝑒𝑐(𝑊) sao cho ‖𝑊‖ ≤ 𝜆 𝒦𝜇 = 𝑣𝑒𝑐(𝑈) sao cho ‖𝑈‖ ≤ 𝜆 𝒦𝑊𝑦 = {𝑊𝑦} sao cho ‖𝑊𝑦‖ ≤ 1 For i=1 to N do Tính 𝜃𝑡, 𝜇𝑡, (𝑊𝑦)𝑡 Nhận giá trị 𝑥𝑡 và tính 𝑦𝑡̂ Nhận giá trị thực tế 𝑦𝑡 và tính mất mát ℓ𝑡(𝜃𝑡, 𝜇𝑡) Cập nhật
𝜕𝜃
𝜕𝜇
𝜃𝑡+1 = 𝜃𝑡 − 𝜂
4𝑛𝑥√𝑛ℎ (1−𝜆)3 và 𝛽𝜃,𝜇 =
] [(𝑊𝑦)𝑡 − ; 𝜇𝑡+1 = 𝜇𝑡 − 𝜂 𝜕𝐿𝑡,𝜔(𝜃𝑡,𝜇𝑡) 1 𝜕(𝑊𝑦)𝑡 𝜂 (𝑊𝑦)𝑡+1 = ∏𝒦𝑊𝑦 Endfor;
thì ta sẽ có: Định lý 5.2: lấy β là maximum trong các giá trị hằng số smoothness 𝛽𝜃 = 4𝑛ℎ√𝑛ℎ 4𝑛ℎ√𝑛𝑥 (1−𝜆)3 , 𝛽𝜇 = (1−𝜆)3 . Chọn learning rate η thỏa mãn 0 < 1 𝜂 < 𝛽
(ℎ), 𝑈𝑡
+ 𝑅𝜔(𝑇) ≤ 16√𝑛ℎ𝑇 𝜂 𝑇 𝜔 16√𝑛ℎ 𝜂
Dữ liệu Tham số Tính tham số Offline có từ ban đầu 𝑊ℎ, 𝑈ℎ, 𝑉𝑦 tính một lần Online cập nhật liên tục (𝑦) (ℎ), 𝑉𝑡 𝑊𝑡 được tính lại liên tục
Bảng 2.3: So sánh các đặc điểm khác nhau của mô hình RNN giữa mô hình máy học truyền thống và mô hình máy học trực tuyến.
13
2.5 Thực nghiệm mô hình SARIMA online với dữ liệu thực tế Trong thực nghiệm này, chúng ta sẽ xem xét mô hình SARIMA online, được ứng dụng trên bộ dữ liệu thực tế là dữ liệu phụ tải điện.
Để so sánh mô hình SARIMA online được đề xuất với các mô hình khác, chúng ta sẽ sử dụng bộ dữ liệu phụ tải điện (hiện đang được sử dụng cho các mô hình dự báo theo mùa). Kết quả thử nghiệm của các mô hình so sánh khác đã cho thấy rằng hiệu suất mô hình được đề xuất là tốt hơn khi mà các mô hình sử dụng cùng một bộ dữ liệu. Lý do cho kết quả tốt hơn là mô hình máy học trực tuyến cập nhật mô hình thích ứng bằng cách thêm dữ liệu mới liên tục trong quá trình học.
Các mô hình sử dụng bộ dữ liệu của Úc (về phụ tải điện) để so sánh. Dữ liệu này có sẵn trên website https://www.aemo.com.au/. Tập dữ liệu này chứa các giá trị được đo hàng ngày đối với các giá trị phụ tải điện được thu thập từ ngày 21 tháng 5 năm 2019, lúc 1:01 sáng mỗi ngày.
Tập dữ liệu thực tế thứ 2 chứa các giá trị đo phụ tải điện vào các ngày làm việc (thứ Hai đến thứ Sáu) từ ngày 1 tháng 1 năm 2015 đến ngày 30 tháng 8 năm 2019. Mỗi giá trị của dữ liệu được thu thập cách nhau 1 giờ, bao gồm 29208 giá trị. Tập dữ liệu được biểu diễn dưới dạng bảng. Mỗi mục nhập tương ứng với một ngày và các cột biểu thị giờ cụ thể.
Trong nghiên cứu này, chúng ta coi 24 cột này là 24 chuỗi thời gian riêng biệt và chạy mô hình với 24 chuỗi thời gian này như 24 kiểm nghiệm độc lập. Các kết quả được đánh giá riêng lẻ.
2.5.1 Dữ liệu so sánh: dữ liệu Australia Trong mục này sẽ hiển thị kết quả dự báo trong bảng 2.4. Trong thực nghiệm này, các tiêu chí dùng để so sánh được sử dụng là các tiêu chí MAPE, MSE (hoặc RMSE), và một số mô hình là thêm tiêu chí MAE.
Trong so sánh này, chúng ta sẽ sử dụng bộ dữ liệu ở Australia và so sánh kết quả của mô hình được đề xuất với các mô hình được đề xuất bởi Ruiz và đồng nghiệp [11] (xây dựng lại) và mô hình do Xu và đồng nghiệp đề xuất [10] (xây dựng lại).
của Australia
[11] [10] MAE 3635.8832 MAPE 3.1502% 0.5143% 0.6100% 0.4404% RMSE SARIMA SARIMA-ANN 136.0000 SARIMA-SVR Mô hình đề xuất 73.7299 Bảng 2.4: Kết quả của SARIMA online, so sánh với một số mô hình khác trên bộ dữ liệu
14
Chúng ta chạy mô hình 30 lần và lấy giá trị trung bình. Kết quả được trình bày trong bảng trên.
Mô hình mới đã mang lại kết quả tốt hơn so với một số mô hình truyền thống và một số mô hình đã được giới thiệu trong những năm gần đây. Trong bảng 2.4, đối với tiêu chí MAPE, kết quả của mô hình đề xuất là 0,6696%, nhỏ nhất trong tất cả các mô hình dùng để so sánh khác. Điều này cho thấy kết quả tuyệt vời của mô hình đề xuất trong dự báo cho chuỗi thời gian. Kết quả này của mô hình đề xuất tốt hơn 713% so với mô hình SARIMA (3,1502%), tốt hơn 16% so với mô hình của Ruiz và đồng nghiệp [11] (0,5143%), và tốt hơn 38% so với mô hình tốt nhất của Xu và đồng nghiệp [10].
Mô hình (4, 1, 0) × (2, 0, 0)250 (0, 1, 0) × (2, 0, 0)250 (0, 1, 0) × (2, 0, 0)250 (5, 1, 0) × (0, 0, 0)250 (1, 1, 0) × (2, 0, 0)250 (2, 1, 0) × (2, 0, 0)250 (2, 1, 0) × (1, 0, 0)250 (2, 1, 0) × (1, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (5, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (1, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (1, 0, 0)250 (3, 1, 0) × (0, 0, 0)250 (3, 1, 0) × (0, 0, 0)250 (3, 1, 0) × (0, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (3, 1, 0) × (1, 0, 0)250 (2, 1, 0) × (0, 0, 0)250 (5, 1, 0) × (0, 0, 0)250 MAPE 5.71 5.49 5.27 5.44 4.68 3.94 3.51 3.64 4.03 4.35 4.71 5.28 5.62 5.45 4.87 3.99 3.32 2.84 3.39 3.73 4.40 5.14 5.40 5.41 4.57
2.5.2 Dữ liệu phụ tải điện của miền bắc Việt Nam Thời điểm (giờ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Trung bình Table 2.5: Kết quả mô hình SARIMA online trên bộ dữ liệu phụ tải điện bắc Việt Nam
15
Đối với bộ dữ liệu phụ tải điện miền Bắc Việt Nam, rõ ràng là có một thành phần có tính mùa trong năm. Vì có khoảng 250 ngày làm việc trong một năm nên chúng ta sẽ chọn s = 250. Đối với mỗi chuỗi thời gian, 80% được sử dụng làm dữ liệu huấn luyện và 20% được sử dụng để kiểm tra. Mỗi chuỗi thời gian được chia theo thứ tự thời gian. Đối với lựa chọn siêu tham số, chúng ta sẽ thực hiện tìm kiếm dạng lưới với 𝑝𝑚𝑎𝑥 = 5 và 𝑃𝑚𝑎𝑥 = 3 và mô hình đã chọn được so sánh với mô hình (1,1,0) × (1,0,0)250. Các mô hình đã được đào tạo trên Google Colab và thời gian chạy trung bình là 1,95 giây cho mỗi chuỗi thời gian. Chúng ta tóm tắt kết quả trong bảng trên.
Phụ tải điện phụ thuộc rất nhiều vào giờ trong ngày. Đối với kết quả thực nghiệm, chúng ta sẽ chạy 24 mô hình cho mỗi giờ, được xây dựng như 24 mô hình cho 24 bộ dữ liệu độc lập, để dự báo. Hai mươi bốn mô hình được chia thành ba loại, gồm tiêu thụ điện thấp, trung bình và cao. Ba thời điểm đại diện là 5 giờ sáng, 13 giờ và 21 giờ được tính lần lượt là ở mức thấp, cao và trung bình. Chương 3: Mô hình lai Mô hình lai là một mô hình tổng hợp, được xây dựng từ 2 hoặc nhiều mô hình đơn lẻ. Phương pháp sử dụng mô hình lai có những ưu điểm của từng phương pháp đơn lẻ, đồng thời loại bỏ những hạn chế của các phương pháp đơn lẻ đó. Bằng cách kết hợp các mô hình khác nhau, lợi thế của từng mô hình đơn lẻ có thể được nắm bắt.
Một trong những nghiên cứu đầu tiên về mô hình lai là của tác giả Zhang vào năm 2003 [3]. Bằng cách chia dữ liệu gốc ra thành các thành phần tuyến tính cho ARIMA và phi tuyến cho ANN, nghiên cứu đã chỉ ra các ưu điểm của mô hình lai so với các mô hình đơn: mô hình kết hợp ARIMA-ANN đã cho kết quả tốt hơn hẳn so với khi chạy toàn bộ dữ liệu trên một mô hình đơn (riêng cho ARIMA hoặc riêng cho ANN).
3.1 Mô hình lai ARIMA-ANN lọc nhiễu bằng Wavelets Dữ liệu thực tế thường thường có nhiễu lẫn trong dữ liệu gốc. Việc thành phần nhiễu là thành phần không thể dự đoán, và sẽ có ảnh hưởng tiêu cực tới kết quả cuối cùng, cho nên lọc nhiễu là một bước có thể đưa tới việc tăng độ chính xác của kết quả dự báo cuối cùng.
Với việc xử lý dữ liệu bằng Wavelet đối với thành phần dữ liệu phi tuyến, tôi đã thực hiện việc lọc nhiễu ra khỏi dữ liệu, sau đó mới chạy mô hình ANN
16
cho thành phần này. Từ đó, chúng ta có thể kỳ vọng và việc tăng thêm độ chính xác của dự báo.
Trong mô hình này, chúng ta sẽ cải tiến mô hình của Zhang [3], thêm vào quá trình lọc nhiễu bằng Wavelet đối với dữ liệu phi tuyến (thành phần dữ liệu được xử lý bằng ANN).
Sử dụng tất cả các mô hình cho bộ dữ liệu Sunspot (Vết đen Mặt trời). Mô hình ARIMA sử dụng các tham số (p, d, q) = (3, 1, 2) [3]. Còn mô hình ANN sử dụng mạng lưới 4 × 4 × 1 [3]. Mô hình đề xuất được sử dụng để dự báo mực nước sông Hồng tại trạm đo ở Hà Nội. Dữ liệu được lấy và mùa mưa của các năm 2015, 2016, 2017 và 2018.
Kết quả Sunspot Mực nước MAD MAD
MSE 14941.0501 12851.1010 10980.0930 10518.2900 12233.6360 9283.1192 8276.6030
MSE 3108.7643 2453.5100 - 2445.3600 2403.9500 2490.4600 1397.6552
61.4415 51.4220
bước), và mực nước (dự báo 1 bước).
ARIMA ANN RNN LSTM GRU 5.5670 ARIMA-ANN 3.6196 Đề xuất Bảng 3.9: Mô hình lai ARIMA-WA-ANN: So sánh kết quả dự báo: Sunspot (dự báo 25
3.2 Mô hình lai ARIMA - LSTM được lọc qua bộ lọc MA
Kích thước 288 3400 Huấn luyện 263 3040 Kiểm tra 25 360 Dữ liệu Sunspot Mực nước
17
Hình 3.17: Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - So sánh kết quả các mô hình
Kết quả
MSE 306.094509 ARIMA Mô hình Babu [3] 303.910569 316.768000 LSTM Mô hình đề xuất 240.681072 MAD 14.618295 14.614859 14.643719 12.429937 Bảng 3.4: So sánh kết quả dự báo với dữ liệu Sunspot. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh.
18
Trong phần này, mô hình kết hợp đề xuất là sự kết hợp của các mô hình ARIMA và LSTM, được kết hợp lại. Việc chia dữ liệu thành 2 thành phần tuyến tính và phi tuyến được thực hiện bởi MA.
Chúng ta sẽ dùng mô hình của Babu [5] để so sánh các kết quả trên bộ dữ liệu Sunspot để so sánh. Dữ liệu mực nước sẽ được áp dụng trong thực tế.
Bảng 3.4 bên dưới cho ta thấy kết quả dự báo 1-step- ahead (trước một bước) trên tập dữ liệu Sunspot. Neural Network sử dụng kiến trúc rất đơn giản với 1 hidden layer, 6 units, độ dài đầu vào là 5. Trên tập dữ liệu mực nước, kết quả ở bảng 5, mô hình Neural Network cũng sử dụng 1 hidden layer, 6 units, độ dài đầu vào là 5.
12 bước 1 bước MSE MAD 24 bước MSE MAD
170.0680 13.0410 226.0590 15.0350 151.7240 10.4501 222.5924 16.0801 150.1205 11.0039 195.0275 13.6826 MAD MSE 2.7380 2.9971 2.8945 ARIMA 7.4990 LSTM 8.0015 Đề xuất 6.5193 Bảng 3.5: So sánh kết quả với dữ liệu mực nước. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh.
Chương 4: Mô hình lai máy học trực tuyến 4.1 Mô hình lai máy học trực tuyến Multi-seasonal - ARIMA online - RNN online Với mô hình này, chúng ta sửa đổi một chút mô hình ở phần bên trên. Các bước thay đổi như sau:
19
Thay vì sử dụng một thuộc mùa tính Seasonal, chúng ta sử dụng tách Fourier để tách ra nhiều chuỗi mang tính Seasonal, tận dụng hết tất cả các tính chất mùa có được từ dữ liệu. Áp dụng mô hình online learning để tăng cao độ chính xác của mô hình dự báo. Ở đây chúng ta đồng thời thay mô hình ARIMA thành online ARIMA và thay mô hình ANN/RNN thành mô hình online RNN.
Chúng ta xem xét bộ dữ liệu trên web và dùng nó để so sánh với mô hình đề xuất. Bộ dữ liệu thực tế là dữ liệu phụ tải điện miền Bắc chứa các phép đo phụ tải điện vào các ngày làm việc (từ thứ Hai đến thứ Sáu) từ ngày 1 tháng 1 năm 2015 đến ngày 30 tháng 8 năm 2019. Dữ liệu được thu thập theo chu kỳ 1 giờ.
Hình 3.9: kết quả của mô hình ARIMA-LSTM-MA (trên xuống là ARIMA, LSTM, mô hình đề xuất).
20
Kết quả
Kết quả của mô hình đề xuất là tốt nhất trong tất cả các mô hình được trình bày. Với tiêu chí MAPE, giá trị lỗi thu được thấp hơn giá trị của mô hình RNN online - tốt nhất trong số các mô hình đơn lẻ (thấp hơn 5,5%). Với tiêu chí MSE, mô hình đề xuất cũng cho kết quả tốt nhất, tốt hơn 29,2% so với kết quả kém nhất của mô hình ARIMA đơn lẻ.
MSE 52054161.01 57667888.03 38539636.48 40149103.00 37653594.10 MAPE 0.744251 0.770737 0.579787 0.672100 0.569104 ARIMA(4,1,4) RNN ARIMA online [6] RNN online [7] Mô hình đề xuất Bảng 4.3: Kết quả các mô hình cho bộ dữ liệu Australia
21
là tốt nhất trong tất cả các mô hình.
MSE 1398659.72 1063311.72 1315265.94 998594.00 990192.91 MAPE 12.532267 6.357248 7.093431 3.190338 3.023862 ARIMA RNN ARIMA online RNN online Mô hình đề xuất Bảng 4.4: Kết quả dự báo cho bộ dữ liệu miền bắc Việt Nam. Kết quả của mô hình đề xuất
Hình 4.8: Kết quả các mô hình (trái sang phải, trên xuống): RNN, ARIMA, RNN online, ARIMA online, mô hình đề xuất.
22
Kết luận
Luận án đã nghiên cứu lại và chỉ ra một số vấn đề còn tồn tại của các mô hình truyền thống SARIMA và RNN. Từ đó đưa ra một số đề xuất để cải thiện độ chính xác của các mô hình này. Các đề xuất gồm có mô hình lai và mô hình học trực tuyến. Đồng thời với việc đề xuất, Luận án đã có những chứng minh khoa học chặt chẽ đối với các đề xuất được đưa ra. Tất cả các mô hình đề xuất đều được áp dụng vào thực nghiệm với dữ liệu thực tế, đưa ra các so sánh và nhận xét về tính ưu việt của chúng so với các mô hình truyền thống và so với một vài các nghiên cứu đã được công bố gần đây.
Những đóng góp mới của Luận án:
Đề xuất mô hình lai, kết hợp giữa các mô hình đơn lẻ, tận dụng các ưu điểm và hạn chế các nhược điểm của các mô hình đơn. Kết quả thực nghiệm đã cho thấy các mô hình lai có độ chính xác cao hơn.
Đề xuất mô hình học trực tuyến, là mô hình nâng cấp của các mô hình truyền thống SARIMA và RNN. Từ việc dữ liệu đầu vào của mô hình là dữ liệu được cập nhật liên tục, mô hình cũng tính lại các tham số liên tục dựa trên các bước tính toán trước. Mô hình học trực tuyến không phải huấn luyện lại mô hình từ đầu, từ đó sẽ giảm tài nguyên tiêu tốn. Chứng minh toán học các định lý được đưa ra về độ hội tụ của các mô hình đề xuất. Thực nghiệm và chỉ ra rằng mô hình học trực tuyến tốt hơn so với các mô hình truyền thống tương ứng.
Đề xuất mô hình mới kết hợp cả 2 loại đề xuất trên, tạo thành mô hình lai học trực tuyến. Mô hình đề xuất cuối cùng của Luận án dựa trên các lý thuyết của các thành phần cấu tạo nên nó, được áp dụng vào dữ liệu thực tế, đã cho kết quả tốt hơn khi đem so sánh với các mô hình đơn thành phần và tốt hơn khi so sánh với một số mô hình đã được công bố gần đây.
Kiến nghị về hướng nghiên cứu tiếp theo: Về học thuật: tiếp tục nghiên cứu các mô hình mạnh hơn các mô hình nêu trong Luận án, chứng minh các công thức và định lý cần thiết.
Về thực tiễn: tiếp tục xây dựng các mô hình ứng dụng thực tế của các bộ dữ liệu trong các vấn đề có tính thời sự và quan trọng. Từ đó phát triển các ứng dụng để áp dụng vào sử dụng trong thực tế.
23
DANH MỤC TÀI LIỆU THAM KHẢO [1] G.E.P. Box, G. Jenkins, ``Time Series Analysis, Forecasting and Control,'' Holden-Day, San Francisco, CA., 1970. [2] Brockwell Peter J., Davis. Richard A., ``Time Series: Theory and Methods,'' International Conference on Machine Learning, 1991. [3] G.P. Zhang, ``Time series forecasting using a hybrid ARIMA and neural network model'', Neurocomputing, vol 50, pp 159-175, 2003. [4] H. Sepp and S. Jürgen, ``Long Short-Term Memory,'' Neural Computation, vol. 9, no. 8, pp. 1735-1780, 1997. [5] C. N. Babu and E. Reddy, ``A moving-average filter based hybrid ARIMA–ANN model for forecasting time series data,'' Applied Soft Computingt, vol. 23, p 27-28, 2014 [6] Chenghao Liu, et al., ``Online ARIMA Algorithms for Time Series Prediction,'' Thirtieth AAAI Conference on Artificial Intelligence, 2016. [7] Gao, Huaien, Rudolf Sollacher, and Hans-Peter Kriegel. ``Spiral Recurrent Neural Network for Online Learning,'' ESANN. pp483-488, 2007. [8] P. Razvan and M. Tomas and B. Yoshua, ``On the difficulty of training recurrent neural networks,'' [International Conference on Machine Learning, 1982]. [9] G. Felix A. and S. Jürgen and C. Fred, ``Learning to Forget: Continual Prediction with LSTM,'' Neural Computation, vol. 12, No. 10, pp. 2451- 2471, 2000. [10] Shuojiang Xu, Hing Kai Chan, Tiantian Zhang, ``Forecasting the demand of the aviation industry using hybrid time series SARIMA-SVR approach,'' Transportation Research Part E: Logistics and Transportation Review, vol. 122, pp 169 - 180, 2019. [11] J.J. Ruiz-Aguilar and I.J. Turias and M.J. Jiménez-Come, "Hybrid approaches based on SARIMA and artificial neural networks for inspection time series forecasting", Transportation Research Part E: Logistics and Transportation Review, vol. 67, pp 1 - 13, 2014.
24
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 1. Dat N.Q., Anh N.T.N., Vijender K.S. and An N.L, "Prediction of Water Level Using Time Series, Wavelet and Neural Network Approaches", International Journal of Information Retrieval Research, vol. 10, iss. 3, pp 19, 2020 (ESCI-Q4). 2. Dat N.Q., Anh N.T.N., Anh N.N., Vijender K.S., "Hybrid online model based multi seasonal decompose for short-term electricity load forecasting using ARIMA and online RNN", Journal of Intelligent & Fuzzy Systems, vol. 41, iss. 5, pp. 5639-5652, 2022 (SCI-Q3). 3. Hieu N.Q., Duong N.L.Q., Hoa L.Q. and Dat N.Q., "An approach to extract information from academic transcripts of HUST", International Conference on Intelligent Systems & Networks, 2023 (SCOPUS Conference). 4. Quan P.D., Anh V.H., Dat N.Q., Vijender K.S. "Hybrid SARIMA— GRU Model Based on STL for Forecasting Water Level in Red River North Vietnam", Book chapter in: Nguyen T.D.L., Lu J. (eds) Machine Learning and Mechanics Based Soft Computing Applications. Studies in Computational Intelligence, vol 1068. Springer, Singapore, 2023 (SCOPUS-Q4). 5. Anh N.T.N., Anh N.N., Thang T.N., Vijender K.S., Rubén G.C., "Hybrid online model based multi seasonal decompose for short-term electricity load forecasting Using ARIMA and Online recurrent neural network", Computers and Electrical Engineering (Submitted) (SCOPUS-Q1). 6. Tung N.X.; Dat N.Q.; Thang T.N.; Vijender K.S.; Anh N.T.N., "Analysis of temperature-sensitive on short-term electricity load forecasting", Conferrence 2020 IEEE - HYDCON, 2020.
7. Anh N.T.N., Khanh T.Q., Dat N.Q., Edouard A., Vijender K.S.,"Fraud detection via deep neural variational autoencoder oblique random forest", Conferrence 2020 IEEE - HYDCON, 2020. 8. Yen T.T.H., An N.X., Dat N.Q., Vijender K.S., "Multi-input LSTM for water level forecasting in Black River at the border of Vietnam- China", IEEE International Conference on Machine Learning and Applied Network Technologies, 2021. 9. Van D.T., Lan L.H., Dat N.Q., Nhat D.D., Vijender K.S., "Using Data Mining to Preprocess Data for the Neural Network Model to Predict Water Level Applied for Northern Vietnam’s Agriculture", IEEE International Conference 2 on Machine Learning and Applied Network Technologies, 2021, Book chapter in: Kumar, A., Zurada, J.M., Gunjan, V.K., Balasubramanian, R. (eds) Computational Intelligence in Machine Learning. Lecture Notes in Electrical Engineering, vol 834. Springer, 2022. 10. An, N.X., Minh, N.N., Dat, N.Q., Solanki, V.K., "Hybrid Model Seasonal ARIMA-LSTM for Prediction Water Level in Black River on the Border Vietnam-China", Book chapter in: Kumar A., Zurada J.M., Gunjan V.K., Balasubramanian, R. (eds) Computational Intelligence in Machine Learning. Lecture Notes in Electrical Engineering, vol 834. Springer, Singapore, 2022. 11. Dat N.Q., "Online deep neural networks model based multi seasonal decompose for short-term electricity load forecasting", special issue ECTI Transactions on Electrical Engineering, Electronics, and Communications, 2023. 12. Dat N.Q., Nhat D.D., "Hybrid model SARIMA-LSTM based on data decomposition by STL for prediction PM2.5 in central district in Hanoi", special issue ECTI Transactions on Electrical Engineering, Electronics, and Communications, 2023.