intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Toán học: Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:28

7
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng" phân tích một hoặc một vài chuỗi thời gian; đưa ra các mô hình phù hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được chọn tại một thời điểm đã chọn; tối ưu hóa kết quả cho cả dự báo ngắn hạn và dự báo dài hạn (có thể thêm dự báo trung hạn).

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Toán học: Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------- Nguyễn Quang Đạt CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY TRONG CHUỖI THỜI GIAN VÀ ỨNG DỤNG Ngành: Toán học Mã số: 9460101 Hà Nội - 2023
  2. Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội Tập thể hướng dẫn: 1. TS. Nguyễn Thị Ngọc Anh 2. PGS.TS. Nguyễn Ngọc Doanh Phản biện 1: …………………. Phản biện 2: …………………. Phản biện 3: …………………. Luận án được bảo vệ trước Hội đồng đánh giá Luận án Tiến sĩ cấp Đại học Bách Khoa Hà Nội, họp tại Đại học Bách Khoa Hà Nội Vào hồi …… giờ ……., ngày ……tháng……năm…… Có thể tìm hiểu luận án tại: 1. Thư viện Tạ Quang Bửu – Đại học Bách khoa Hà Nội. 2. Thư viện Quốc gia Việt Nam.
  3. Mở đầu Đặt vấn đề Dữ liệu được dự báo trong chuỗi thời gian là rất quan trọng cho việc dự báo tương lai được nói tới bên trên. Các dữ liệu dự báo này, kết hợp với một số các hệ thống khác (ví dụ như trong dự báo thời tiết thì gồm có cả hệ thống ảnh vệ tinh, dữ liệu quan trắc từ các điểm đo, v.v...) sẽ có thể đưa ra một kết quả chính xác nhất cho hệ thống nhằm mục tiêu vận hành hệ thống một cách hợp lý nhất. Động cơ nghiên cứu bài toán Một trong các vấn đề của Big-data là nghiên cứu chuỗi thời gian time series. Một trong những mục tiếu quan trọng nhất trong xử lý chuỗi thời gian là dự báo (prediction hoặc forecasting). Mục tiêu của Luận án Trong Luận án này đã tập trung nghiên cứu và đưa ra một số mô hình máy học áp dụng cho dự báo chuỗi thời gian: (1) Phân tích một hoặc một vài chuỗi thời gian; (2) Đưa ra các mô hình phù hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được chọn tại một thời điểm đã chọn; (3) Tối ưu hóa kết quả cho cả dự báo ngắn hạn và dự báo dài hạn (có thể thêm dự báo trung hạn). Phạm vi của nghiên cứu Với các mục tiêu đặt ra bên trên, tôi đã tập trung vào nghiên cứu một số vấn đề sau đây: (1) Phân tích ưu nhược điểm của một số mô hình máy học truyền thống; (2) Áp dụng máy học trực tuyến (online learning) và một số chuỗi thời gian; (3) Phân tích, cài đặt và chạy một số mô hình lai; (4) Một số vấn đề tương lai cần giải quyết. Phương pháp nghiên cứu Hướng nghiên cứu mà tôi làm sẽ gồm một số phương pháp sau: (1) Áp dụng các phương pháp truyền thống; (2) Phân tích ưu nhược điểm của từng phương pháp truyền thống, từ đó nghiên cứu đưa ra mô hình lai phù hợp; (3) Khi đã có các mô hình được đề xuất, tôi sẽ áp dụng vào các bộ dữ liệu phù hợp để kiểm tra kết quả; (4) Phân tích, cài đặt và áp dụng chạy chương trình 1
  4. trên một số bộ dữ liệu đối với một số phương pháp máy học Online (trực tuyến); (5) Tổng hợp các vấn đề và đưa ra một số mô hình tốt nhất. Chương 1: Một số mô hình truyền thống trong chuỗi thời gian Chương này giới thiệu một số mô hình truyền thống đang được sử dụng rộng rãi hiện nay, gồm một số mô hình tuyến tính ARIMA, SARIMA, một số mô hình mạng thần kinh nhân tạo là ANN, RNN và áp dụng mô hình Wavelet trong lọc nhiễu xử lý dữ liệu. 1.1 Autoregressive Integrated Moving Average Model - ARIMA ARIMA, cụm từ viết tắt thông dụng của Autoregressive Integrated Moving Average được các tác giả Box và Jenkin đưa ra trong năm 1971 [1], ứng dụng vào các mô hình tính toán cho chuỗi thời gian. Tới năm 1991, Brock và David [2] đã đưa ra các mô tả chi tiết về mô hình ARIMA này. Hiện nay, mô hình ARIMA là một mô hình được sử dụng rộng rãi vào dự báo chuỗi thời gian. Mô hình ARIMA là sự kết hợp của các mô hình thành phần: AR: tự hồi quy; I: sai phân; MA: trung bình trượt. Trong ARIMA, giá trị d thể hiên cho phần "I", Integrated. Tiếp theo, chúng ta sẽ xem xét các giá trị p và q trong mô hình (chúng ta gọi chúng là các tham số của mô hình ARIMA). Ở đây, p là tham số của phần tự hồi quy trong mô hình (phần AR của mô hình ARIMA) (tiếng Anh là "order of the ‘Auto Regressive’ (AR) term"). Còn giá trị q là tham số tương ứng của phần trung bình trượt trong mô hình (phần MA trong mô hình ARIMA). yt   0  1 yt 1   2 yt 2  ...   p yt  p    1 t 1   2 t 1  ...   q  t q Do đó, mục tiêu của chúng ta trong mô hình ARIMA là xác định các giá trị của p, d, q. Cơ bản chúng ta có thể xây dựng mô hình ARIMA theo 4 bước sau: (1) Xác định tính dừng của chuỗi thời gian; (2) Ước lượng các tham số của mô 2
  5. hình. Ở đây là các tham số p và q; (3) Tính toán các giá trị của chuỗi thời gian để xác định độ chính xác của mô hình. Hiệu chỉnh các tham số p, d, q, đưa ra các ước lượng tốt hơn về các tham số này; (4) Dự đoán chuỗi thời gian (với một khoảng tin cậy). 1.2 Seasonal Autoregressive Integrated Moving Average – SARIMA Seasonal Autoregressive Integrated Moving Average, SARIMA hay Seasonal ARIMA, là sự mở rộng của mô hình ARIMA với việc phân tích thêm tính mùa (thành phần theo mùa - seasonal) của dữ liệu. Phần theo mùa của mô hình bao gồm các tham số giống với các thành phần không theo mùa của mô hình ARIMA. Khi đó, mô hình SARIMA sẽ cần phải chọn các parameters và hyperparameters cho cả 2 thành phần của dữ liệu: thành phần xu hướng (trend) và thành phần mùa (seasonal): Thành phần xu hướng - Trend: vẫn có 3 tham số giống như của mô hình ARIMA. Chúng là các tham số sau đây: p: bậc hồi quy tự động của xu hướng; d: bậc sai phân của xu hướng ; q: bậc trung bình trượt của xu hướng. Thành phần mùa - Seasonal: có 4 tham số mới, trong đó có 3 siêu tham số (hyperparameters) giống với mô hình ARIMA và một tham số để chỉ ra thời gian lặp của tính mùa: P: bậc hồi quy tự động của mùa; D: bậc sai phân của mùa; Q: bậc trung bình trượt của mùa; m: số giá trị trong mỗi chu kỳ của thành phần mùa trong dữ liệu. Khi đó, ta có thể viết mô hình SARIMA thành công thức như sau: 𝜙(𝐿)(1 − 𝐿) 𝑑 Φ(𝐿 𝑠 )(1 − 𝐿 𝑠 ) 𝐷 𝑦 𝑡 = 𝑐 + 𝜃(𝐿)Θ(𝐿)𝜀 𝑡 1.3 Artificial neutral network – ANN Mô hình dự đoán bằng mạng thần kinh nhân tạo là dạng mô hình được sử dụng rộng rãi nhất để lập mô hình và dự báo chuỗi thời gian, trên thực tế thực hiện ánh xạ hàm phi tuyến tính từ các quan sát trong quá khứ 𝑦 𝑡−1 , 𝑦 𝑡−2 , … , 𝑦 𝑡−𝑝 thành giá trị dự đoán 𝑦 𝑡 : 𝑦 𝑡 = 𝑓(𝑦 𝑡−1 , 𝑦 𝑡−2 , … , 𝑦 𝑡−𝑝 , 𝜔) + 𝜀 𝑡 3
  6. trong đó 𝜔 là các vector tham số, f là một hàm xác định nào đó (được xác định theo cấu trúc mạng và tất cả các tham số từ mô hình). Một dạng được sử dụng rộng rãi hiện nay là "Single hidden layer feed– forward network model" được sử dụng rộng rãi nhất để dự báo. Mô hình được đặc trưng bởi một mạng lưới gồm ba lớp của các units (noron) được kết nối với nhau bằng các liên kết. Đầu ra 𝑦 𝑡 có thể nhận được từ các đầu vào 𝑦 𝑡−1 , 𝑦 𝑡−2 , … , 𝑦 𝑡−𝑝 với biểu thức toán học: 𝑞 𝑝 𝑦 𝑡 = 𝛼0 + ∑ 𝛼 𝑗 𝑔 (𝛽0,𝑗 + ∑ 𝛽 𝑖,𝑗 𝑦 𝑡−𝑖 ) + 𝜀 𝑡 𝑗=1 𝑖=1 trong đó 𝛼 𝑗 (j = 0, 1, 2, ..., q) và 𝛽 𝑖,𝑗 (i = 0, 1, 2, ..., p; j = 1, 2, ..., q) là các tham số của mô hình, được gọi là trọng số kết nối, p là số units đầu vào, q là số units ẩn. Hàm logistic sử dụng làm hàm trong lớp ẩn g(x), ở đây cũng có thể sử dụng một hàm như tanh hoặc sigmoid. Việc lựa chọn các hàm này phụ thuộc vào kiểu mô hình mà ta đã chọn. 1.4 Recurrent neural network – RNN RNN ra đời với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin về các giá trị từ những bước tính toán xử lý trước để dựa vào nó có thể đưa ra dự đoán chính xác nhất cho bước dự đoán hiện tại. Trong RNN, các input 𝑥 𝑡 sẽ được kết hợp với hidden layer ℎ 𝑡−1 bằng hàm 𝑓 𝑊 để tính toán ra hidden layer ℎ 𝑡 hiện tại và output 𝑦 𝑡 sẽ được tính ra từ ℎ 𝑡 , W là tập các trọng số và nó được ở tất cả các cụm, các 𝐿1 , 𝐿2 , … , 𝐿 𝑡 là các hàm mất mát. Như vậy kết quả từ các quá trình tính toán trước đã được "nhớ" bằng cách kết hợp thêm ℎ 𝑡−1 tính ra ℎ 𝑡 để tăng độ chính xác cho những dự đoán ở thời điểm hiện tại: ℎ 𝑡 = 𝑓 𝑊 (ℎ 𝑡−1 , 𝑥 𝑡 ) trong đó hàm 𝑓 𝑊 ở đây có thể sư dụng là hàm tanh hoặc sigmoid. Như vậy ta có thể viết lại công thức trên ở dạng sau: ℎ 𝑡 = 𝑡𝑎𝑛ℎ(𝑊ℎℎ ℎ 𝑡−1 + 𝑊 𝑥ℎ 𝑥 𝑡 ) Khi đó ta có: 𝑦 𝑡 = 𝑊ℎ𝑦 ℎ 𝑡 4
  7. Đối với mạng ANN chỉ sử dụng một ma trận trọng số W duy nhất thì với RNN, nó sử dụng 3 ma trận trọng số cho 2 quá trình tính toán: $W_{hh}$ kết hợp với "bộ nhớ trước" ℎ 𝑡−1 và 𝑊 𝑥ℎ kết hợp với $x_t$ để tính ra "bộ nhớ của bước hiện tại" ℎ 𝑡 từ đó kết hợp với 𝑊ℎ𝑦 để tính ra 𝑦 𝑡 . Hay có thể định nghĩa các ma trận như sau: 𝑊ℎℎ : Ma trận trọng số (weights) cho vector trạng thái ẩn. 𝑊 𝑥ℎ : Ma trận trọng số cho vector đầu vào x. 𝑊ℎ𝑦 : Ma trận trọng số dùng để tính vector đầu ra y. RNN có xu hướng gặp phải hai vấn đề, là exploding gradient và vanishing gradient. Những vấn đề này được xác định bởi kích thước của gradient, hay là độ dốc của đồ thị hàm loss function. Trong trường hợp vanishing gradient, khi gradient quá nhỏ, nó tiếp tục trở nên nhỏ hơn. Từ đó dẫn tới việc cập nhật các trọng số (hoặc tham số) (weigth parameters) cho đến khi chúng trở nên quá nhỏ, không còn tác động đáng kể tới mô hình — tức là có thể sấp xỉ 0. Khi điều đó xảy ra, thuật toán không còn học tiếp được nữa. Ngược lại, exploding gradient xảy ra khi gradient quá lớn, tạo ra một mô hình không ổn định. Trong trường hợp này, trọng số weigth parameters của mô hình sẽ phát triển quá lớn và cuối cùng chúng sẽ được biểu diễn dưới dạng NaN (hoặc dạng Null), hay là dạng không có giá trị. Một số biến thể của mô hình RNN Bi-directional recurrent neural networks} hay mạng nơ-ron RNN hai chiều (BRNN hoặc Bi-RNN) Long short-term memory (LSTM): Đây là một phát triển nổi tiếng của mạng nơ-ron RNN, được giới thiệu bởi Sepp Hochreiter và Juergen Schmidhuber vào năm 1997 [4,8,9] như một giải pháp cho vấn đề vanishing gradient. Gated recurrent units (GRU): là một biến thể của RNN. Mô hình này tương tự như LSTM vì nó cũng hoạt động để giải quyết vấn đề bộ nhớ ngắn hạn- dài hạn gặp phải trong các mô hình RNN. 5
  8. Chương 2: Mô hình học trực tuyến Khi mạng internet phát triển mạnh mẽ thì mô hình máy học trực tuyến (online learning) cũng được đề cập tới và phát triển. Nó có tính năng quan trọng là máy học sẽ được thực hiện theo thời gian thực, giúp cho mô hình có tính thời sự cao nhất có thể. Các siêu tham số là các tham số không không thay đổi của mô hình dù có cập nhật thêm dữ liệu và tính toán lại mô hình. Theo quá trình từ khởi tạo tham số tới tính toán tham số cho mô hình thì các siêu tham số này không hề thay đổi. Còn các tham số là các giá trị sẽ thay đổi liên tục trong quá trình tính toán mô hình. Chúng ta có thể xem xét việc cập nhật liên tục các tham số trong mô hình như hình trên. Với việc sử dụng mô hình truyền thống, tất cả các tham số đều được tính một lần, và mô hình cuối cùng sẽ giữ lại các tham số được tính toán cuối cùng. Sau một khoảng thời gian, khi chúng ta có bộ dữ liệu mới (thực tế là bộ dữ liệu đang dùng, được cập nhật thêm một số lượng dữ liệu), chúng ta sẽ chạy lại mô hình truyền thống với bộ dữ liệu mới. Trong mô hình trực tuyến, việc khởi tạo tham số của mô hình và việc tối ưu các tham số sẽ được thực hiện giống trong mô hình truyền thống, nhưng các bước tính toán sẽ được lưu lại. Mỗi khi có một dữ liệu mới được cập nhật theo thời gian thực vào bộ dữ liệu đầu vào, mô hình sẽ được tiếp tục chạy tiếp tục dựa vào các bước tính toán đã được lưu lại trước đây. Việc cập nhật mô hình này là liên tục, được thực hiện mỗi khi mà dữ liệu đầu vào 6
  9. được cập nhật, dù chỉ là 1 giá trị. Ở đây, trong việc tính lại các tham số và siêu tham số của mô hình thì các siêu tham số của mô hình là không thay đổi, chỉ có các tham số là được tính toán lại bằng cách tiếp tục tính toán theo các bước tính toán đã được lưu lại từ các bước tính toán trước đó. 2.1 Phương pháp giảm gradient trực tuyến Giảm gradient (Gradient Descent - GD) là một phương pháp tối ưu cực tiểu hóa. Phương pháp giảm gradient là một phương pháp tối ưu tổng quát để giải bài toán: 𝐿(𝜃) → 𝑚𝑖𝑛 Việc tìm giá trị $min$ này nhằm ước lượng được tham số θ của mô hình khi mà hàm L(θ) là hàm khả vi. Phương pháp giảm gradient - Gradient Descent  Là thuật toán tối ưu bậc 1 để tìm giá trị nhỏ nhất (cục bộ) của một hàm khả vi f(x).  Tại mỗi x, f(x) giảm nhanh nhất nếu ta đi từ x theo hướng âm của gradient của f(x), tức − ∇f(x).  Nếu x'=x-α∇ f(x), với α>0 đủ bé thì f(x')≤ f(x) Từ đó, để tìm cực tiểu của hàm f(x), ta dự đoán giá trị cực tiểu 𝑥0 ban đầu và xét chuỗi 𝑥0 , 𝑥1 , ... , 𝑥 𝑖 , ... sao cho: 𝑥 𝑖+1 = 𝑥 𝑖 − 𝛼∇𝑓(𝑥 𝑖 ) với i ≥ 0 Khi đó ta có: 𝑓(𝑥0 ) ≥ 𝑓(𝑥1 ) ≥ ⋯ ≥ 𝑓(𝑥 𝑖 ) Chuỗi {𝑥 𝑖 } khi đó sẽ hội tụ về giá trị cực tiểu. 7
  10. Giảm gradient trực tuyến Thuật toán giảm gradient trực tuyến (Online Grdient Descent - OGD) là dạng online của thuật toán giảm gradient truyền thống, được Zinkevich đề xuất vào năm 2003. Đây là một thuật toán áp dụng để tìm giá trị cực trị trong môi trường tính toán trực tuyến. Mã giả của thuật toán được cho ở bên dưới: Input: T < N, dữ liệu {(𝑥 𝑖 , 𝑦 𝑖 )} 𝑁 , tập {αt} For t = 1 to T Calculate ft(xt) Calculate yt+1 = xt − αt∇fi(xt) Find xt+1 ← yt+1 2.2 Phương pháp trực tuyến Newton step Hàm Exp-concave Định nghĩa: một hàm lồi f : ℝ 𝑛 → ℝ được gọi là α-exp-concave trên tập quyết định 𝒦 ⊆ ℝ 𝑛 nếu hàm g sau là hàm lõm (concave function), với g: 𝒦 → ℝ thỏa mãn: g(x) = exp (-αf(x)) Tính chất: cho f : 𝑓: 𝒦 → ℝ là một α-exp-concave, khi đó với 𝛾 ≤ 1 1 𝑚𝑖𝑛 { , 𝛼} và mọi 𝑥, 𝑦 ∈ 𝒦 thì: 2 4𝐿𝐷 𝛾 𝑓(𝑥) ≥ 𝑓(𝑦) + ∇𝑓(𝑦) 𝑇 (𝑥 − 𝑦) + (𝑥 − 𝑦) 𝑇 ∇𝑓(𝑦)∇𝑓(𝑦) 𝑇 (𝑥 − 𝑦) 2 với D là đường kính của tập quyết định 𝒦 và L là hằng số Lipschitz của hàm f. Định lý: Online Newton Step với α-exp-concave và hàm loss functions 1 1 1 ℓ 𝑡 và tham số 𝛾 = 𝑚𝑖𝑛 ( , 𝛼), 𝜀 = , T > 4 guarantees: 2 4𝐿𝐷 𝛾2 𝐷2 𝑇 1 𝑅 𝑇 (𝑢) = ∑(ℓ 𝑡 (𝑥 𝑡 ) − ℓ 𝑡 (𝑢)) ≤ 5 ( + 𝐿𝐷) 𝑛𝑙𝑜𝑔(𝑇) 𝛼 𝑡=1 8
  11. 2.3 Các mô hình trực tuyến cho ARIMA và SARIMA 2.3.1 Mô hình ARIMA trực tuyến Newton step Đặt mô hình ARIMA trong bài toán online, ta có thể tính được các giá trị tương lai {𝑋 𝑡 } của mô hình như sau:  Chọn các bộ tham số của mô hình là {𝜑 𝑖 } (i=0,...,p-1) và {𝜃 𝑗 } (j=0,...,q-1) theo bài toán đã ra.  Trong bước lặp thứ t (bước lặp thứ I sẽ tính giá trị 𝑋 𝑖 ), mô hình nhận một giá trị ồn trắng 𝜀 𝑡 , sau đó mô hình sẽ tính ra cho chúng ta giá trị ̂ dựa trên công thức bên trên. 𝑋𝑡  Trong lần lặp thứ t sau khi chúng ta tính toán được giá trị ước lượng tương lai ̂ thì giá trị thực tế 𝑋 𝑡 sẽ được đưa ra để chúng 𝑋𝑡 ta tính giá trị mât mát (loss). Chúng ta có thể tính được hàm mất mát theo công thức sau: 𝑑−1 𝑓𝑡 (𝜑, 𝜃) = ℓ 𝑡 (𝑋 𝑡 , ̂(𝜑, 𝜃)) = ℓ 𝑡 (𝑋 𝑡 , ∇𝑋 𝑡 + ∑ ∇ 𝑖 𝑋 𝑡−𝑖 ) 𝑋𝑡 ̂ 𝑖=0 𝑝−1 𝑞−1 𝑑−1 = ℓ 𝑡 (𝑋 𝑡 , ∑ 𝜑 𝑖 ∇ 𝑋 𝑡−𝑖 + ∑ 𝜃 𝑗 𝜀 𝑡−𝑖 + ∑ ∇ 𝑗 𝑋 𝑡−𝑖 ) 𝑑 𝑖=0 𝑗=0 𝑖=0 Cụ thể, chúng ta có thể tính được giá trị đó theo công thức sau: 𝑇 𝑇 𝑅 𝑇 = ∑ ℓ 𝑡 (𝑋 𝑡 , ̂) − min ∑ ℓ 𝑡 (𝑋 𝑡 , ̂(𝜑, 𝜃)) 𝑋𝑡 𝑋𝑡 𝜑,𝜃 𝑡=1 𝑡=1 Mô hình xấp xỉ thay vì có dạng như bình thường là ARIMA (p,d,q) thì nó có dạng mới là ARIMA (p+m,d,0) với 𝑚 ∈ ℕ là một hằng số đủ lớn. Khi ta sử dụng mô hình mới thì chúng ta sẽ có công thức tính giá trị ước lượng như sau: 9
  12. 𝑝+𝑚 𝑑−1 ̂(𝛾 ) = ∑ 𝛾 𝑖 ∇ 𝑋 𝑡−𝑖 + ∑ ∇ 𝑗 𝑋 𝑡−𝑖 𝑋𝑡 𝑡 𝑑 𝑖=0 𝑖=0 2.3.2 Mô hình SARIMA trực tuyến Newton step Một mô hình SARIMA với các tham số SARIMA(p,d,q)(P,D,Q)s với chu kỳ s thì các giá trị ước lượng của 𝑥 𝑡 sẽ được tính theo công thức dưới đây: (𝜆) 𝜙(𝐵)Φ(𝐵) 𝑠 ∇ 𝑑 ∇ 𝑠𝐷 𝑥 𝑡 = 𝜃(𝐵)Θ(𝐵 𝑠 )𝜀 𝑡 Coi rằng phép lấy sai phân là một bước tính riêng biệt để tạo chuỗi dừng, chúng ta chỉ cẩn tính toán mô hình với một chuỗi mới $X_t$ là dừng. Khi đó ta có thể viết gọn công thức ở dạng sau: (𝜆) 𝜙(𝐵)Φ(𝐵) 𝑠 𝑋 𝑡 = 𝜃(𝐵)Θ(𝐵 𝑠 )𝜀 𝑡 Có thể viêt dưới dạng: 𝑝 𝑃 𝑞 𝑄 ̂(𝛼,𝛽) = ∑ ∑ 𝛼 𝑖,𝑗 𝑋 𝑡−(𝑖+𝑗𝑠) + ∑ ∑ 𝛽 𝑖,𝑗 𝜀 𝑡−(𝑖+𝑗𝑠) 𝑋 𝑖=0 𝑗=0 𝑖=0 𝑗=0 Ta tiếp tục áp dụng ý tưởng về mô hình tự hồi quy như của mô hình ARIMA, với hai tham số m và M mới. 𝑝 𝑃 ̂(𝛾) = ∑ ∑ 𝛾 𝑖,𝑗 𝑋 𝑡−(𝑖+𝑗𝑠) 𝑋 𝑖=0 𝑗=0 với ma trận giá trị 𝛾 = (𝛾 𝑖,𝑗 ) , 𝛾0,0 = 0, 𝛾 𝑖,0 = 𝜙 𝑖 , 𝛾0,𝑗 = Φ 𝑗 , và (𝑝+1)×(𝑃+1) khi 𝑖, 𝑗 ≠ 0 thì 𝛾 𝑖,𝑗 = 𝜑 𝑖 Φ 𝑗 Từ các chứng minh của phần Online Newton step, ta có thể chứng minh được hàm tổn thất thỏa mãn công thức sau: 𝑇 𝑇 (𝑡) 1 ∑ 𝑓𝑡 (𝛾 ) − min ∑ 𝐸(𝑓𝑡 (𝛼 ∗ , 𝛽 ∗ )) = 𝑂 ((𝐺𝐷 + ) 𝑙𝑜𝑔𝑇) 𝛼,𝛽 𝜆 𝑡=1 𝑡=1 10
  13. Offline Online Dữ liệu Có từ ban đầu Cập nhật liên tục Siêu tham số p, d và q cố định d,p và m cố định Tham số φ, θ tính một lần γt được tính lại liên tục Bảng 2.2: So sánh các đặc điểm khác nhau của mô hình SARIMA giữa mô hình máy học truyền thống và mô hình máy học trực tuyến. 2.4 Mô hình mạng thần kinh nhân tạo trực tuyến Trong mô hình học online RNN, dữ liệu được giả định là sẽ có sẵn tính "sequentially", hay tính mùa. Và quy trình học trực tuyến sẽ tiếp tục thông qua việc cập nhật mô hình khi các dữ liệu mới được cập nhật. Việc có tính mùa của dữ liệu được coi là khá quan trọng khi chia dữ liệu gốc thành các batch. Quy trình máy học được mô hình hóa như một trò chơi giữa một người học (ở đây một thuật toán máy học) và một môi trường (có thể là đối nghịch), nơi thuật toán có nhiệm vụ dự đoán các tham số mô hình từ một tập lồi. Trong hoàn cảnh này:  Đầu tiên, thuật toán máy học đưa ra dự đoán của mình về các tham số của mô hình.  Sau đó, môi trường (có thể là đối nghịch) chọn một hàm mất mát.  Cuối cùng, thuật toán máy học quan sát sự mất mát của nó và thực hiện một hành động (tức là cập nhật các thông số mô hình) để giảm thiểu tổn thất tích lũy của nó. Quy trình này được lặp lại ở mỗi vòng lặp t cho đến khi tất cả các giá trị của dữ liệu được sử dụng. Bây giờ, chúng ta sẽ xem xét các phương trình của mạng thần kinh nhân tạo hồi quy RNN. Mô hình RNN được xử lý bằng các phương trình sau đây (khi dùng các phương trình này thì nó được gọi là chuẩn Elman): ℎ 𝑡 = 𝜎 𝑡 (𝑊ℎ ℎ 𝑡−1 + 𝑈ℎ 𝑥 𝑡 ) ; ̂𝑡 = 𝜎 𝑡 (𝑊𝑡⊺ ℎ 𝑡 ) 𝑦 2.4.1 Xây dựng cơ sở thuật toán và các định nghĩa Cài đặt của thuật toán sẽ giống như là bên trên đã trình bày (sơ bộ), ở đây chúng ta sẽ trình bày rõ ràng hơn: 11
  14. Tại vòng lặp thứ t (chúng ta sẽ gọi là thời điểm t) thì thuật toán sẽ đưa ra tham số ước lượng của mô hình, tức là các vector 𝜃 𝑡 và 𝜇 𝑡 . Môi trường sẽ trả lại một giá trị 𝑦 𝑡 ∈ [−√ 𝑛ℎ ; √ 𝑛ℎ ], một giá trị đầu vào 𝑥 𝑡 ∈ [−1; 1] 𝑛 𝑥 và vector trọng số tương ứng với 𝑦 𝑡 là 𝑊𝑦𝑡 (với‖𝑊𝑦𝑡 ‖ < 1). Thuật toán sẽ tính giá trị mất mát dựa theo công thức sau: 2 ℓ 𝑡 (𝜃 𝑡 , 𝜇 𝑡 ) = (𝑦 𝑡 − ̂𝑡 )2 = (𝑦 𝑡 − ⏟ 𝑦𝑡 ℎ 𝑡 (𝜃 𝑡 , 𝜇 𝑡 )) 𝑦 𝑊 ̂𝑡 𝑦 Local regret được định nghĩa như sau: 𝑇 2 𝜕 𝒦 𝐿 𝑡,𝜔 (𝜃 𝑡 , 𝜇 𝑡 ) 𝑅 𝜔 (𝑇) = ∑ (‖ 𝜃 ‖ ) 𝜕𝜃 𝑡=1 2.4.2 Tính chất Lipschitz và Smoothness Theo định nghĩa thì 𝐿 𝑡,𝜔 (𝜃, 𝜇) là trung bình của các giá trị mất mát trong batch được chọn, trong đó giá trị mất mát là hàm số phụ thuộc vào 𝜃 và 𝜇 trong ℎ 𝑡 (𝜃, 𝜇). Đây là một hàm đệ quy, và khi học online, nó có thể sẽ rất lớn, dẫn tới các đạo hàm có thể lớn tới vô hạn, trong khi các thuật toán máy học online cần có các hàm mất mát với gradient hữu hạn để có thể đảm bảo tính hội tụ và tính toán được. Đầu tiên, chúng ta cần xem xét các tính chất Lipschitz của ℎ 𝑡 (𝜃, 𝜇) và cùng với nó là xem xét các ảnh hưởng của đệ quy dài vô hạn lên 𝐿 𝑡,𝜔 (𝜃, 𝜇). Định lý 5.1: cho 𝜃 = 𝑣𝑒𝑐(𝑊) và 𝜇 = 𝑣𝑒𝑐(𝑈), trong đó W và U thỏa mãn ‖𝑊‖ ≤ 𝜆 và ‖𝑈‖ ≤ 𝜆 với 𝜆 ∈ [0; 1). Khi đó thì 𝐿 𝑡,𝜔 (𝜃, 𝜇) sẽ có Lipschitz và smoothness: 𝜕2 𝐿 𝑡,𝜔 (𝜃,𝜇) 4𝑛ℎ √ 𝑛ℎ (1) ‖ 𝜕𝜃2 ‖ ≤ 𝛽𝜃 với 𝛽 𝜃 = (1−𝜆)3 𝜕2 𝐿 𝑡,𝜔 (𝜃,𝜇) 4𝑛 𝑥 √ 𝑛ℎ (2) ‖ 𝜕𝜇2 ‖ ≤ 𝛽𝜇 với 𝛽 𝜇 = (1−𝜆)3 𝜕2 𝐿 𝑡,𝜔 (𝜃,𝜇) 4𝑛ℎ √ 𝑛 𝑥 (3) ‖ ‖ ≤ 𝛽 𝜃,𝜇 với 𝛽 𝜃,𝜇 = 𝜕𝜃𝜕𝜇 (1−𝜆)3 12
  15. 2.4.3 Mô tả thuật toán Tham số Learning rate 𝜂 ∈ [0; 1) batch-size 𝜔 ∈ [𝑇] 𝜆 ∈ [0; 1) Khởi tạo 𝜃1 , 𝜇1 , (𝑊𝑦 )1 và ℎ0 Lấy 𝒦 𝜃 = 𝑣𝑒𝑐(𝑊) sao cho ‖𝑊‖ ≤ 𝜆 𝒦 𝜇 = 𝑣𝑒𝑐(𝑈) sao cho ‖𝑈‖ ≤ 𝜆 𝒦 𝑊 𝑦 = {𝑊𝑦 } sao cho ‖𝑊𝑦 ‖ ≤ 1 For i=1 to N do Tính 𝜃 𝑡 , 𝜇 𝑡 , (𝑊𝑦 ) 𝑡 Nhận giá trị 𝑥 𝑡 và tính ̂𝑡𝑦 Nhận giá trị thực tế 𝑦 𝑡 và tính mất mát ℓ 𝑡 (𝜃 𝑡 , 𝜇 𝑡 ) Cập nhật 𝜕 𝒦 𝜃 𝐿 𝑡,𝜔 (𝜃 𝑡 ,𝜇 𝑡 ) 𝜕 𝒦 𝜃 𝐿 𝑡,𝜔 (𝜃 𝑡 ,𝜇 𝑡 ) 𝜃 𝑡+1 = 𝜃 𝑡 − 𝜂 𝜕𝜃 ; 𝜇 𝑡+1 = 𝜇 𝑡 − 𝜂 𝜕𝜇 1 𝜕𝐿 𝑡,𝜔 (𝜃 𝑡 ,𝜇 𝑡 ) (𝑊𝑦 ) 𝑡+1 = ∏ 𝒦 𝑊𝑦 [(𝑊𝑦 ) 𝑡 − 𝜂 𝜕(𝑊 𝑦 ) 𝑡 ] Endfor; Định lý 5.2: lấy β là maximum trong các giá trị hằng số smoothness 𝛽 𝜃 = 4𝑛ℎ √ 𝑛ℎ 4𝑛 𝑥 √ 𝑛ℎ 4𝑛ℎ √ 𝑛 𝑥 (1−𝜆)3 , 𝛽 𝜇 = (1−𝜆)3 và 𝛽 𝜃,𝜇 = (1−𝜆)3 . Chọn learning rate η thỏa mãn 0 < 1 𝜂 < 𝛽 thì ta sẽ có: 16√ 𝑛ℎ 𝑇 𝑇 16√ 𝑛ℎ 𝑅 𝜔 (𝑇) ≤ + 𝜂 𝜔 𝜂 Offline Online Dữ liệu có từ ban đầu cập nhật liên tục Tham số 𝑊ℎ , 𝑈ℎ , 𝑉𝑦 (ℎ) (ℎ) (𝑦) 𝑊𝑡 , 𝑈 𝑡 , 𝑉𝑡 Tính tham số tính một lần được tính lại liên tục Bảng 2.3: So sánh các đặc điểm khác nhau của mô hình RNN giữa mô hình máy học truyền thống và mô hình máy học trực tuyến. 13
  16. 2.5 Thực nghiệm mô hình SARIMA online với dữ liệu thực tế Trong thực nghiệm này, chúng ta sẽ xem xét mô hình SARIMA online, được ứng dụng trên bộ dữ liệu thực tế là dữ liệu phụ tải điện. Để so sánh mô hình SARIMA online được đề xuất với các mô hình khác, chúng ta sẽ sử dụng bộ dữ liệu phụ tải điện (hiện đang được sử dụng cho các mô hình dự báo theo mùa). Kết quả thử nghiệm của các mô hình so sánh khác đã cho thấy rằng hiệu suất mô hình được đề xuất là tốt hơn khi mà các mô hình sử dụng cùng một bộ dữ liệu. Lý do cho kết quả tốt hơn là mô hình máy học trực tuyến cập nhật mô hình thích ứng bằng cách thêm dữ liệu mới liên tục trong quá trình học. Các mô hình sử dụng bộ dữ liệu của Úc (về phụ tải điện) để so sánh. Dữ liệu này có sẵn trên website https://www.aemo.com.au/. Tập dữ liệu này chứa các giá trị được đo hàng ngày đối với các giá trị phụ tải điện được thu thập từ ngày 21 tháng 5 năm 2019, lúc 1:01 sáng mỗi ngày. Tập dữ liệu thực tế thứ 2 chứa các giá trị đo phụ tải điện vào các ngày làm việc (thứ Hai đến thứ Sáu) từ ngày 1 tháng 1 năm 2015 đến ngày 30 tháng 8 năm 2019. Mỗi giá trị của dữ liệu được thu thập cách nhau 1 giờ, bao gồm 29208 giá trị. Tập dữ liệu được biểu diễn dưới dạng bảng. Mỗi mục nhập tương ứng với một ngày và các cột biểu thị giờ cụ thể. Trong nghiên cứu này, chúng ta coi 24 cột này là 24 chuỗi thời gian riêng biệt và chạy mô hình với 24 chuỗi thời gian này như 24 kiểm nghiệm độc lập. Các kết quả được đánh giá riêng lẻ. 2.5.1 Dữ liệu so sánh: dữ liệu Australia Trong mục này sẽ hiển thị kết quả dự báo trong bảng 2.4. Trong thực nghiệm này, các tiêu chí dùng để so sánh được sử dụng là các tiêu chí MAPE, MSE (hoặc RMSE), và một số mô hình là thêm tiêu chí MAE. Trong so sánh này, chúng ta sẽ sử dụng bộ dữ liệu ở Australia và so sánh kết quả của mô hình được đề xuất với các mô hình được đề xuất bởi Ruiz và đồng nghiệp [11] (xây dựng lại) và mô hình do Xu và đồng nghiệp đề xuất [10] (xây dựng lại). MAPE RMSE MAE SARIMA 3.1502% SARIMA-ANN 0.5143% 136.0000 [11] SARIMA-SVR 0.6100% [10] Mô hình đề xuất 0.4404% 73.7299 3635.8832 Bảng 2.4: Kết quả của SARIMA online, so sánh với một số mô hình khác trên bộ dữ liệu của Australia 14
  17. Chúng ta chạy mô hình 30 lần và lấy giá trị trung bình. Kết quả được trình bày trong bảng trên. Mô hình mới đã mang lại kết quả tốt hơn so với một số mô hình truyền thống và một số mô hình đã được giới thiệu trong những năm gần đây. Trong bảng 2.4, đối với tiêu chí MAPE, kết quả của mô hình đề xuất là 0,6696%, nhỏ nhất trong tất cả các mô hình dùng để so sánh khác. Điều này cho thấy kết quả tuyệt vời của mô hình đề xuất trong dự báo cho chuỗi thời gian. Kết quả này của mô hình đề xuất tốt hơn 713% so với mô hình SARIMA (3,1502%), tốt hơn 16% so với mô hình của Ruiz và đồng nghiệp [11] (0,5143%), và tốt hơn 38% so với mô hình tốt nhất của Xu và đồng nghiệp [10]. 2.5.2 Dữ liệu phụ tải điện của miền bắc Việt Nam Thời điểm (giờ) Mô hình MAPE 1 (4, 1, 0) × (2, 0, 0)250 5.71 2 (0, 1, 0) × (2, 0, 0)250 5.49 3 (0, 1, 0) × (2, 0, 0)250 5.27 4 (5, 1, 0) × (0, 0, 0)250 5.44 5 (1, 1, 0) × (2, 0, 0)250 4.68 6 (2, 1, 0) × (2, 0, 0)250 3.94 7 (2, 1, 0) × (1, 0, 0)250 3.51 8 (2, 1, 0) × (1, 0, 0)250 3.64 9 (2, 1, 0) × (0, 0, 0)250 4.03 10 (2, 1, 0) × (0, 0, 0)250 4.35 11 (2, 1, 0) × (0, 0, 0)250 4.71 12 (2, 1, 0) × (0, 0, 0)250 5.28 13 (5, 1, 0) × (0, 0, 0)250 5.62 14 (2, 1, 0) × (0, 0, 0)250 5.45 15 (2, 1, 0) × (0, 0, 0)250 4.87 16 (1, 1, 0) × (0, 0, 0)250 3.99 17 (2, 1, 0) × (1, 0, 0)250 3.32 18 (3, 1, 0) × (0, 0, 0)250 2.84 19 (3, 1, 0) × (0, 0, 0)250 3.39 20 (3, 1, 0) × (0, 0, 0)250 3.73 21 (2, 1, 0) × (0, 0, 0)250 4.40 22 (3, 1, 0) × (1, 0, 0)250 5.14 23 (2, 1, 0) × (0, 0, 0)250 5.40 24 (5, 1, 0) × (0, 0, 0)250 5.41 Trung bình 4.57 Table 2.5: Kết quả mô hình SARIMA online trên bộ dữ liệu phụ tải điện bắc Việt Nam 15
  18. Đối với bộ dữ liệu phụ tải điện miền Bắc Việt Nam, rõ ràng là có một thành phần có tính mùa trong năm. Vì có khoảng 250 ngày làm việc trong một năm nên chúng ta sẽ chọn s = 250. Đối với mỗi chuỗi thời gian, 80% được sử dụng làm dữ liệu huấn luyện và 20% được sử dụng để kiểm tra. Mỗi chuỗi thời gian được chia theo thứ tự thời gian. Đối với lựa chọn siêu tham số, chúng ta sẽ thực hiện tìm kiếm dạng lưới với 𝑝 𝑚𝑎𝑥 = 5 và 𝑃 𝑚𝑎𝑥 = 3 và mô hình đã chọn được so sánh với mô hình (1,1,0) × (1,0,0)250 . Các mô hình đã được đào tạo trên Google Colab và thời gian chạy trung bình là 1,95 giây cho mỗi chuỗi thời gian. Chúng ta tóm tắt kết quả trong bảng trên. Phụ tải điện phụ thuộc rất nhiều vào giờ trong ngày. Đối với kết quả thực nghiệm, chúng ta sẽ chạy 24 mô hình cho mỗi giờ, được xây dựng như 24 mô hình cho 24 bộ dữ liệu độc lập, để dự báo. Hai mươi bốn mô hình được chia thành ba loại, gồm tiêu thụ điện thấp, trung bình và cao. Ba thời điểm đại diện là 5 giờ sáng, 13 giờ và 21 giờ được tính lần lượt là ở mức thấp, cao và trung bình. Chương 3: Mô hình lai Mô hình lai là một mô hình tổng hợp, được xây dựng từ 2 hoặc nhiều mô hình đơn lẻ. Phương pháp sử dụng mô hình lai có những ưu điểm của từng phương pháp đơn lẻ, đồng thời loại bỏ những hạn chế của các phương pháp đơn lẻ đó. Bằng cách kết hợp các mô hình khác nhau, lợi thế của từng mô hình đơn lẻ có thể được nắm bắt. Một trong những nghiên cứu đầu tiên về mô hình lai là của tác giả Zhang vào năm 2003 [3]. Bằng cách chia dữ liệu gốc ra thành các thành phần tuyến tính cho ARIMA và phi tuyến cho ANN, nghiên cứu đã chỉ ra các ưu điểm của mô hình lai so với các mô hình đơn: mô hình kết hợp ARIMA-ANN đã cho kết quả tốt hơn hẳn so với khi chạy toàn bộ dữ liệu trên một mô hình đơn (riêng cho ARIMA hoặc riêng cho ANN). 3.1 Mô hình lai ARIMA-ANN lọc nhiễu bằng Wavelets Dữ liệu thực tế thường thường có nhiễu lẫn trong dữ liệu gốc. Việc thành phần nhiễu là thành phần không thể dự đoán, và sẽ có ảnh hưởng tiêu cực tới kết quả cuối cùng, cho nên lọc nhiễu là một bước có thể đưa tới việc tăng độ chính xác của kết quả dự báo cuối cùng. Với việc xử lý dữ liệu bằng Wavelet đối với thành phần dữ liệu phi tuyến, tôi đã thực hiện việc lọc nhiễu ra khỏi dữ liệu, sau đó mới chạy mô hình ANN 16
  19. cho thành phần này. Từ đó, chúng ta có thể kỳ vọng và việc tăng thêm độ chính xác của dự báo. Trong mô hình này, chúng ta sẽ cải tiến mô hình của Zhang [3], thêm vào quá trình lọc nhiễu bằng Wavelet đối với dữ liệu phi tuyến (thành phần dữ liệu được xử lý bằng ANN). Sử dụng tất cả các mô hình cho bộ dữ liệu Sunspot (Vết đen Mặt trời). Mô hình ARIMA sử dụng các tham số (p, d, q) = (3, 1, 2) [3]. Còn mô hình ANN sử dụng mạng lưới 4 × 4 × 1 [3]. Mô hình đề xuất được sử dụng để dự báo mực nước sông Hồng tại trạm đo ở Hà Nội. Dữ liệu được lấy và mùa mưa của các năm 2015, 2016, 2017 và 2018. Kết quả Sunspot Mực nước MSE MAD MSE MAD ARIMA 14941.0501 3108.7643 ANN 12851.1010 2453.5100 RNN 10980.0930 - LSTM 10518.2900 2445.3600 GRU 12233.6360 2403.9500 ARIMA-ANN 9283.1192 61.4415 2490.4600 5.5670 Đề xuất 8276.6030 51.4220 1397.6552 3.6196 Bảng 3.9: Mô hình lai ARIMA-WA-ANN: So sánh kết quả dự báo: Sunspot (dự báo 25 bước), và mực nước (dự báo 1 bước). 3.2 Mô hình lai ARIMA - LSTM được lọc qua bộ lọc MA Dữ liệu Kích thước Huấn luyện Kiểm tra Sunspot 288 263 25 Mực nước 3400 3040 360 17
  20. Hình 3.17: Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - So sánh kết quả các mô hình Kết quả MSE MAD ARIMA 306.094509 14.618295 Mô hình Babu [3] 303.910569 14.614859 LSTM 316.768000 14.643719 Mô hình đề xuất 240.681072 12.429937 Bảng 3.4: So sánh kết quả dự báo với dữ liệu Sunspot. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh. 18
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2