Dự báo giá chứng khoán của Ngân hàng TMCP Sài Gòn Hà Nội với mô hình ARIMA

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:10

Thêm vào BST

Báo xấu

29
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Dự báo giá chứng khoán của Ngân hàng TMCP Sài Gòn Hà Nội với mô hình ARIMA" trình bày mô hình dự báo ARIMA và thực hiện dự báo thử nghiệm cho giá chứng khoán của ngân hàng thương mại cố phần Hà Nội Sài Gòn (SHB). Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dự báo giá chứng khoán của Ngân hàng TMCP Sài Gòn Hà Nội với mô hình ARIMA

DỰ BÁO GIÁ CHỨNG KHOÁN CỦA NGÂN HÀNG TMCP SÀI GÒN HÀ NỘI VỚI MÔ HÌNH ARIMA ThS. Lê Văn Hùng Khoa Hệ thống Thông tin Quản lý, Học viện Ngân hàng Tóm tắt Trong những năm gần đây bài toán dự báo tài chính ngày càng được nhiều người quan tâm trong bối cảnh phát triển kinh tế xã hội ở Việt Nam hiện nay. Việc đầu tư vào thị trường chứng khoán đòi hỏi nhiều kinh nghiệm và hiểu biết của các nhà đầu tư. Các kỹ thuật khai phá dữ liệu được áp dụng nhằm dự báo sự lên xuống của thị trường là gợi ý tốt giúp cho các nhà đầu tư có thể đưa ra quyết định giao dịch đúng đắn. Trong bài viết này, tôi trình bày mô hình dự báo ARIMA và thực hiện dự báo thử nghiệm cho giá chứng khoán của ngân hàng thương mại cố phần Hà Nội Sài Gòn (SHB). Từ khóa: dự báo, sai phân, tính dừng, ARIMA, chứng khoán, giao dịch, nhà đầu tư, AR, MA, SHB, ACF, PACF. 1. Mở đầu Ra đời vào đầu năm 2000, thị trường chứng khoán Việt Nam đã trở thành một kênh đầu tư hết sức hấp dẫn đối với các nhà đầu tư, từ các tổ chức đầu tư chuyên nghiệp cho đến các nhà đầu tư cá nhân nghiệp dư nhỏ lẻ. Tuy nhiên, bên cạnh mức sinh lợi cao, đây cũng là hoạt động luôn tồn tại nhiều rủi ro tiềm ẩn bởi nhà đầu tư không phải lúc nào cũng dự đoán được chính xác xu hướng của giá cổ phiếu trong tương lai. Do đó, việc dự báo chính xác sự biến động giá của cổ phiếu để có một sách lược nhằm phục vụ cho công việc kinh doanh của các cá nhân, tổ chức hay hoạch định chiến lược của một quốc gia đã thu hút rất nhiều sự quan tâm của các nghiên cứu trong và ngoài nước. Trong những năm gần đây, khai phá dữ liệu trong cơ sở dữ liệu đang là một xu hướng quan trọng của nền công nghệ thông tin thế giới. Khai phá dữ liệu có khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau. Lĩnh vực tài chính nói chung và lĩnh vực chứng khoán nói riêng lưu trữ một dữ liệu khổng lồ, bao gồm thông tin các mã cổ phiếu, thông tin giao dịch và khối lượng giao dịch ròng, thông tin dữ liệu về khách hàng… Có nhiều kỹ thuật để khai phá dữ liệu trong chứng khoán như mô hình cây quyết định, mô hình mạng neural, mô hình đa nhân tố BARRA, mô hình chuỗi thời gian, mô hình ARIMA… Trong bài viết này, tôi trình bày mô hình ARIMA để dự báo chứng khoán. Đây là một trong những mô hình dự báo tốt cho chứng khoán. Ngoài khả năng dự báo với độ chính xác cao, mô hình này còn có ưu điểm là mềm dẻo và thích nghi cao với môi trường, rất thích hợp cho bài toán dự báo với chuỗi dữ liệu thay đổi theo thời gian. 212
Các hệ thống chứng khoán thường là những hệ thống rất phức tạp vì vậy rất khó có thể dự đoán được dữ liệu của nó. Nó phụ thuộc vào rất nhiều yếu tố trong đó có những yếu tố không thể định lượng được như tâm lý, sự mù quáng của nhà đầu tư, … Mặc dù vậy thị trường chứng khoán không phải là một quá trình ngẫu nhiên và nó có quy luật của nó, có thể dự đoán được. Việc tìm ra được xu hướng của thị trường chứng khoán nhằm đưa ra những gợi ý hỗ trợ tốt cho nhà đầu tư chứng khoán. 2. Mô hình ARIMA (AutoRegressive Integrate Moving Average) 2.1. Hàm tự tuơng quan ACF [6][8] Hàm tự tương quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát y (t ) và y (t  k ) ứng với thời đoạn k = 1, 2, 3, … (k còn gọi là độ trễ). Với mỗi độ trễ k, hàm tự tương quan tại độ trễ k được xác định qua độ lệch giữa các biến ngẫu nhiên Yt, Yt+k so với các giá trị trung bình và được chuẩn hóa qua phương sai. Giả thiết rằng các biến ngẫu nhiên trong chuỗi dừng thay đổi quanh giá trị trung bình μ với phương sai hằng số  2 . Khi đó, hàm tự tương quan tại các độ trễ khác nhau sẽ có giá trị khác nhau. Trong thực tế, ta có thể ước lượng hàm tự tương quan tại độ trễ thứ k qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các độ trễ k, với giá trị trung bình mẫu là μ. Khi đó, với mỗi chuỗi N điểm, giá trị rk của hàm tự tương quan tại độ trễ thứ k được tính như sau: N k 1 N   y (t )    y(t  k )    t 1 rk  (1) 2 N N 2  y (t )   y (t )     t 1 và  2  t 1 (2) N N Nếu rk  0 thì không có sự tự tương quan. 2.2. Hàm tự tương quan từng phần PACF [1][4][5][6][7] Song song với việc xác định hàm tự tương quan giữa các cặp y(t)và y(t+k) ta xác định hàm tự tương quan từng phần cũng có hiệu lực trong việc can thiệp đến các quan sát y  t  1 ,..., y (t  k  1) . Hàm tự tương quan từng phần tại độ trễ k Ckk được giải từ phương trình hồi quy: k y (t  k )   Cki . y (t  k  i )  e(t ) (3) i 1 Ở đây e(t) là sai số ngẫu nhiên. Giải phương trình (3) bằng phương pháp Durbin ta được: 213
k 1 rk   Ck 1, j .rk  j j 1 Ckk  k 1 (4) 1   Ck 1, j .r j j 1 Ckj  Ck 1, j  Ckk .Ck 1,k  j (5) Trong đó: k  2,3,... j  1, 2,..., k  1 C11  r1 r2  r12 và C22  1  r12 Hàm tự tương quan ACF và hàm tự tương quan từng phần PACF của chuỗi thời gian có đặc tính khác nhau. Hàm tự tương quan ACF đo mức độ phụ thuộc tuyến tính giữa các cặp quan sát. Hàm tự tương quan từng phần PACF đo mức độ phụ thuộc tuyến tính từng phần. ARIMA khai thác những điểm khác biệt này để xác định cấu trúc mô hình cho chuỗi thời gian. 2.3. Mô hình hồi quy AR(p) – AutoRegressive [1][6] Căn cứ vào các số liệu quá khứ ở những chu kì trước thì y(t) được tính theo mô hình AR(p) như sau: p y (t )  a0   ai . y  t  i   e(t ) (6) i 1 Trong đó: y(t) : quan sát dừng hiện tại y(t-1), y(t-2), ... : quan sát dừng quá khứ. a0, a1, a2, … : các tham số phân tích hồi quy. e(t) : sai số dự báo ngẫu nhiên của giai đoạn hiện tại. Giá trị trung bình được mong đợi của e(t) bằng 0. Y(t) là một hàm tuyến tính của những quan sát dừng quá khứ y(t-1). y(t-2), … Nói cách khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian dừng có độ trễ, chúng ta sẽ được mô hình AR. Số quan sát dừng quá khứ sử dụng trong mô hình hàm tự tương quan là bậc p của mô hình AR. Chẳng hạn nếu ta sử dụng hai quan sát dừng quá khứ, ta có mô hình tương quan bậc hai AR(2). Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1: a1  a2  ...  a p  1 (7) 2.4. Mô hình MA(q) - Moving Average [1][6] Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai số dự báo quá khứ và hiện tại. Mô hình bình quân di động là một trung bình trọng số của những sai số mới nhất. 214
q y (t )  b0  e(t )   bi .e(t  i ) (8) i 1 Trong đó : y(t) : quan sát dừng hiện tại b0, b1, b2, ... : giá trị trung bình của y(t) và các hệ số bình quân di động. q : số sai số quá khứ được dùng trong mô hình bình quân di động, nếu ta sử dụng hai sai số quá khứ thì sẽ có mô hình bình quân di động bậc 2 là MA(2). Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1. 2.5. Sai phân I(d) [3][4][5][6] Chuỗi dừng : Chuỗi thời gian được coi là dừng nếu như trung bình và phương sai của nó không đổi theo thời gian và giá trị của đồng phương sai giữa hai thời đoạn chỉ phụ thuộc vào khoảng cách và độ trễ về thời gian giữa hai thời đoạn này chứ không phụ thuộc vào thời điểm thực tế mà đồng phương sai được tính. Sai phân chỉ sự khác nhau giữa giá trị hiện tại và giá trị trước đó. Phân tích sai phân nhằm làm cho ổn định giá trị trung bình của chuỗi dữ liệu, giúp cho việc chuyển đổi chuỗi thành một chuỗi dừng. Sai phân lần 1 (I(1)) : z(t) = y(t) – y(t-1) (9) Sai phân lần 2 (I(2)) : h(t) = z(t) – z(t-1) (10) 2.6. Mô hình ARIMA (p,q) [1][2][3][7] Mô hình ARMA(p,q): là mô hình hỗn hợp của AR và MA. Hàm tuyến tính bao gồm những quan sát dừng quá khứ và những sai số dự báo quá khứ và hiện tại: p q y (t )  a0   ai . y (t  i )  e(t )   b j .e(t  j ) i 1 j 1 (11) Đối với mô hình hỗn hợp thì dạng (p,q) = (1,1) là phổ biến. Tuy nhiên, giá trị p và q được xem là những độ trễ cho ACF và PACF quan trọng sau cùng. Cả hai điều kiện bình quân di động và điều kiện dừng phải được thỏa mãn trong mô hình hỗn hợp ARMA. Mô hình ARIMA(p,d,q): Do mô hình Box-Jenkins chỉ mô tả chuỗi dừng hoặc những chuỗi đã sai phân hóa, nên mô hình ARIMA(p,d,q) thể hiện những chuỗi dữ liệu không dừng, đã được sai phân (ở đây, d chỉ mức độ sai phân). Khi chuỗi thời gian dừng được lựa chọn (hàm tự tương quan ACF giảm đột ngột hoặc giảm đều nhanh), chúng ta có thể chỉ ra một mô hình dự định bằng cách nghiên cứu xu hướng của hàm tự tương quan ACF và hàm tự tương quan từng phần PACF. Theo lý thuyết, nếu hàm tự tương quan ACF giảm đột biến và hàm tự tương quan từng phần PACF giảm mạnh thì chúng ta có mô hình tự tượng quan. Nếu hàm tự tương quan ACF và hàm tự tương quan từng phần PACF đều giảm đột ngột thì chúng ta có mô hình hỗn hợp. 215
Về mặt lý thuyết, không có trường hợp hàm tự tương quan ACF và hàm tự tương quan từng phần cùng giảm đột ngột. Trong thực tế, hàm tự tương quan ACF và hàm tự tương quan từng phần PACF giảm đột biến khá nhanh. Trong trường hợp này, chúng ta nên phân biệt hàm nào giảm đột biến nhanh hơn, hàm còn lại được xem là giảm đều. Do đôi lúc sẽ có trường hợp giảm đột biến đồng thời khi quan sát biểu đồ hàm tự tương quan ACF và hàm tự tương quan từng phần PACF, biện pháp khắc phục là tìm vài dạng hàm dự định khác nhau cho chuỗi thời gian dừng. Sau đó, kiểm tra độ chính xác mô hình tốt nhất. Mô hình ARIMA: (1, 1, 1): y (t )  y(t  1)  a0  a1.[ y(t  1)  y (t  2)  e(t )  b1.e(t  1)] (12) 2.7. Các bước phát triển mô hình ARIMA [3] Theo Box-Jenkins thì các bước phát triển mô hình ARIMA bao gồm:  Xác định mô hình.  Ước lượng tham số.  Kiểm định độ chính xác.  Dự báo. 3. Ứng dụng mô hình ARIMA dự báo chứng khoán của ngân hàng TMCP Sài Gòn Hà Nội 3.1. Dữ liệu đầu vào Trong bài toán của chúng ta, dữ liệu chứng khoán được biết tới như một chuỗi thời gian đa dạng bởi có nhiều thuộc tính cùng được ghi tại một thời điểm nào đó. Với dữ liệu đang xét, các thuộc tính đó là : Priceopen, Pricehigh, Pricelow, Priceclose, Volume  Priceopen : Giá cổ phiếu tại thời điểm mở cửa trong ngày.  Pricehigh : Giá cổ phiếu cao nhất trong ngày  Pricelow : Giá cổ phiếu thấp nhất trong ngày  Priceclose : Giá cổ phiếu được niêm yết tại thời điểm đóng của sàn giao dịch  Volume: Khối lượng giao dịch cổ phiếu (bán, mua) trong ngày. Dữ liệu cho quá trình dự báo của SHB được thu thập tại trang web https://www.cophieu68.vn/. Dữ liệu để dùng cho dự báo của ngân hàng được lấy từ ngày 15/12/2020 đến ngày 24/03/2021. 216
Hình 1 – Dữ liệu đầu vào của SHB Trong khuôn khổ nghiên cứu của mình, tôi tập trung vào nghiên cứu giá đóng của (Priceclose) của công ty để từ đó dự báo giá đóng cửa trong các ngày kế tiếp. 3.2. Kiểm định tính dừng của chuỗi Priceclose Để kiểm định tính dừng của chuỗi Priceclose ta sử dụng chức năng Analyze\Forecasting\Sequence Charts ta có kết quả kiểm tra tính dừng của chuỗi Priceclose như hình 2. Như vậy là chuỗi Priceclose không ổn định. Cụ thể, trung bình của nó có xu hướng tăng hoặc giảm theo từng thời kỳ. Như vậy, ta có thể suy đoán rằng chuỗi Priceclose không dừng. Hình 2 – Kết quả kiểm tra tính dừng của chuỗi Priceclose Khi lấy sai phân bậc 1 của chuỗi thì chuỗi mới thu được cũng không dừng. Vì vậy ta thực hiện lấy sai phân bậc 2 của chuỗi Priceclose, thì ta thu được chuỗi mới, chuỗi này không rõ xu hướng và xoay quanh một giá trị trung bình nhất định (Hình 3). Nên chuỗi này đã dừng. 217
Hình 3 – Kết quả kiểm tra tính dừng của d(Priceclose) 3.3. Xây dựng mô hình Để xây dựng mô hình ARIMA chúng tôi sử dụng 62 quan sát từ ngày 15/12/2020 đến ngày 24/03/2021. Bước 1: Nhận dạng mô hình (xác định các giá trị p, d, q) Theo kết quả thu được về kiểm tra tính dừng của chuỗi Priceclose ở trên ta có thể thấy chuỗi sai phân bậc 2 của nó là chuỗi dừng. Vì vậy, ta chọn tham số d=2. Cách xác định p, q bằng phần mềm SPSS: Chọn Analyze/Forecasting /Autocorrelations. Sau đó chuyển biến FDI sang ô Variables, click vào Difference, Autocorrelations và Partial autocorrelations thì ta thu được kết quả ở hình 4 và hình 5 Hình 4 – Kết quả ACF của mô hình 218
Hình 5 – Kết quả PACF của mô hình Dựa vào kết quả của ACF và PACF ta lựa chọn được q=2 và p=1 hoặc p = 2. Như vậy ta có hai mô hình ARIMA có khả năng phù hợp là ARIMA(1,2,2) hoặc ARIMA (2,2,2). Bước 2: Ước lượng Sử dụng phần mềm SPSS để ước lượng các hệ số của các mô hình ARIMA(p,d,q) như đã nhận dạng ở trên. Chọn Analyze/Forecasting/Create Models thì thu được mô hình ARIMA(1,2,2) và ARIMA(2,2,2) như hình 6 và hình 7. Hình 6 – Kết quả ước lượng với mô hình ARIMA(1,2,2) 219
Hình 7 – Kết quả ước lượng với mô hình ARIMA(2,2,2) Theo kết quả thu được từ 2 mô hình ta thấy mô hình ARIMA(2,22) phù hợp hơn vì nó có giá trị BIC và RSME nhỏ hơn. Bước 3: Thực hiện dự báo Thực hiện dự báo bằng mô hình ARIMA(2,2,2) ta thu được kết quả ở hình 8. Hình 8 – Bảng kết quả dự báo giá chứng khoán SHB trong 8 ngày tới Sử dụng mô hình ARIMA(1,1,1) vừa xây dựng chúng ta có bảng kết quả dự báo như sau: Ngày Giá thực tế Giá dự báo Sai số Tỉ lệ % 25/03/2021 17.8 18 0.2 1.12% 26/03/2021 17.1 18.1 1.0 5.85% 29/03/2021 19.5 18.2 1.3 6.67% Bảng 1-Kết quả dự báo của mô hình Qua bảng 1 trên ta thấy kết quả dự đoán từ ngày 25/03/2021 tới 29/03/2021 khá chính xác so với kết quả thực tế của mã chứng khoán SHB. Như vậy, ta có thể nói mô hình ARIMA(2,2,2) dự đoán kết quả của mã chứng khoán SHB là khá tốt. 220
4. Kết luận Kết quả dự báo cho thấy giá trị dự báo xấp xỉ so với giá trị thực tế là đáng tin cậy (độ tin cậy 95%). Điều này chứng tỏ độ tin cậy của mô hình dự báo là khá cao. Trong một vài phiên giao dịch do tác động của các yếu tố ngoại lai lớn như tâm lý nhà đầu tư, tác động của các thị trường chứng khoán khác, thông tin về sự thay đổi chính sách...sẽ làm cho sai số dự báo tăng cao hơn. Do đó kết quả của mô hình vẫn chỉ mang tính chất tham khảo nhiều hơn. Tuy nhiên có thể nói mô hình ARIMA là một mô hình tốt để dự báo trong ngắn hạn. Tài liệu tham khảo [1] Cao Hao Thi, Pham Phu, Pham Ngoc Thuy, Application of ARIMA model for testing “serial independence” of stock prices at the HSEC, The Joint 14th Annual PBFEA and 2006 Annual FeAT Conference, Taipei, Taiwan, July, 2006. [2] Box G E P & Jenkins G M, Time series analysis : Forecasting and control, San Francisco, CA: Holden-day, 1970. [3] Roy Batchelor, Box-Jenkins Analysis, Cass Business School, City of Lodon [4] http://www.pstat.ucsb.edu/faculty/feldman/174-03/lectures/l13.pdf. [5] http://adt.curtin.edu.au/theses/available/adt-WCU20030818.095457 /unrestricted /07Chapter6.pdf [6] http://www.barigozzi.eu/ARIMA.pdf [7] Jamie Monogan, ARIMA Estimation adapting Maximum Likehood to the special Issues of Time Series. [8] http://en.wikipedia.org/wiki/Time_series 221