I
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
II
LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn " Nghiên cứu một số kỹ thuật ngoại suy và
ứng dụng " đã đƣợc thực hiện theo đúng mục tiêu đề ra dƣới sự hƣớng dẫn
của TS. Nguyễn Văn Huân. Kết quả đạt đƣợc trong luận văn là sản phẩm của
cá nhân tôi. Trong toàn bộ luận văn, những điều đƣợc trình bày là của cá nhân
và đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có
xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp.
Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan của mình.
Thái Nguyên, ngày tháng năm 2015
Người cam đoan
Nguyễn Thị Ngọc Tú
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
III
LỜI CẢM ƠN
Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy cô giáo Viện
Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, các
thầy cô giáo trƣờng Đại học Công nghệ thông tin và Truyền thông - Đại học
Thái Nguyên đã tận tình giảng dạy cũng nhƣ tạo mọi điều kiện để tôi học tập
và nghiên cứu trong 2 năm học cao học.
Tôi xin chân thành cảm ơn sâu sắc tới thầy giáo TS. Nguyễn Văn Huân
đã cho tôi nhiều sự chỉ bảo quý báu, đã tận tình hƣớng dẫn và tạo điều kiện
cho tôi hoàn thành tốt luận văn tốt nghiệp này.
Quá trình thực hiện đề tài không tránh khỏi các thiếu sót, tôi rất mong
tiếp tục nhận đƣợc sự đóng góp ý kiến của các thầy giáo, cô giáo, các bạn
đồng nghiệp đối với đề tài nghiên cứu của tôi để đề tài đƣợc hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 201
Người cam đoan
Nguyễn Thị Ngọc Tú
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
IV
MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................... I
LỜI CẢM ƠN ............................................................................................................. III
DANH MỤC HÌNH VẼ ............................................................................................IV
DANH MỤC BẢNG BIỂU ................................................................................... VIII
MỤC LỤC ...................................................................................................................IV
MỞ ĐẦU ........................................................................................................................ 1
Chƣơng 1 GIỚI THIỆU CHUNG VỀ DỮ LIỆU CHUỖI THỜI GIAN ............ 5
1.1. Khái niệm Dữ liệu ............................................................................................ 5
1.1.1. Dữ liệu định tính và dữ liệu định lƣợng .............................................. 5
1.1.2. Dữ liệu sơ cấp và dữ liệu thứ cấp ........................................................ 5
1.2. Chuỗi thời gian và Dữ liệu chuỗi thời gian ................................................... 7
1.2.1. Chuỗi thời gian .................................................................................... 7
1.2.2. Dữ liệu chuỗi thời gian...................................................................... 12
1.3. Tổng quan về dự báo ...................................................................................... 16
1.3.1. Đặc điểm của dự báo ......................................................................... 16
1.3.2. Các loại dự báo .................................................................................. 17
1.3.3. Các phƣơng pháp dự báo .................................................................. 21
Chƣơng 2 MỘT SỐ KỸ THUẬT NGOẠI SUY .................................................. 22
2.1. Khái niệm ngoại suy ...................................................................................... 22
2.1.1. Khái niệm ngoại suy.......................................................................... 22
2.1.2. Khi nào nên sử dụng phƣơng pháp ngoại suy để dự báo. ................. 22
2.1.3. Ƣu nhƣợc điểm của phƣơng pháp ngoại suy .................................... 23
2.1.4. Tính chính xác của dự báo ................................................................ 23
2.1.5. Ứng dụng của kỹ thuật ngoại suy vào bài toán dự báo ..................... 25
2.2. Ngoại suy dựa dựa vào mô hình hồi quy tuyến tính .................................. 26
2.2.1. Bài toán hồi quy ................................................................................ 26
2.2.2. Các phƣơng pháp đƣa về dạng tuyến tính ......................................... 29
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
V
2.2.3. Hồi quy nhiều chiều (Hồi quy bội) ................................................... 30
2.3. Ngoại suy bằng phƣơng pháp trung bình động giản đơn (moving average
forecast) ................................................................................................................... 31
2.4. Ngoại suy bằng phƣơng pháp san bằng mũ (Exponential Smoothing
Methods) .................................................................................................................. 33
2.5. Ngoại suy dựa vào mô hình san mũ Holt- Winters. ................................... 36
2.5.1. San mũ Holt ....................................................................................... 36
2.5.2. San mũ Holt- Winters ....................................................................... 37
2.6. Ngoại suy dựa vào mô hình ARIMA (AutoRegressive Integrated Moving
Average) .................................................................................................................. 39
2.6.1. Các công cụ áp dụng trong mô hình ................................................. 40
2.6.2. Mô hình AR(p) (Auto Regression) ................................................... 44
2.6.3. Mô hình MA(q) (Moving Average) .................................................. 45
2.6.4. Sai phân I(d) ...................................................................................... 46
2.6.5. Mô hình ARIMA ............................................................................... 47
2.6.6. Các bƣớc phát triển mô hình ARIMA. ............................................. 48
2.7. Các bƣớc tiến hành ngoại suy ....................................................................... 49
Chƣơng 3 ÁP DỤNG KỸ THUẬT NGOẠI SUY VÀO BÀI TOÁN DỰ BÁO . 52
3.1. Mô hình ARIMA cho dự báo tài chính, chứng khoán ............................... 52
3.1.1. Dữ liệu tài chính ................................................................................ 52
3.1.2. Mô hình ARIMA cho bài toán dự báo tài chính ............................... 52
3.1.3. Thiết kế mô hình ARIMA cho dữ liệu .............................................. 53
3.2. Áp dụng ........................................................................................................... 55
3.2.1. Môi trƣờng thực nghiệm ................................................................... 55
3.2.2. Dữ liệu ............................................................................................... 55
3.2.3. Kiểm tra tính dừng của chuỗi chứng khoán VNM ........................... 57
3.2.4. Nhận dạng mô hình ........................................................................... 57
3.2.5. Ƣớc lƣợng và kiểm định với mô hình ARIMA ................................ 60
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
VI
3.2.6 Thực hiện dự báo ................................................................................ 62
KẾT LUẬN ................................................................................................................. 64
TÀI LIỆU THAM KHẢO ........................................................................................ 65
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
VII
DANH MỤC HÌNH VẼ
Hình 1.1. Xu hƣớng giảm theo thời gian ........................................................ 13
Hình 1.2. Thành phần mùa .............................................................................. 14
Hình 1.3. Thành phần chu kỳ .......................................................................... 15
Hình 3.1: chọn giadongcua làm mục tiêu dự báo ........................................... 56
Hình 3.2: Xác định d = 0,1,2 ? ........................................................................ 57
Hình 3.3: Biểu đồ của SAC và SPAC của chuỗi giadongcua ........................ 58
Hình 3.4: Biểu đồ của SPAC và SAC ứng với d=1 ........................................ 59
Hình 3.5: Ƣớc lƣợng mô hình ARIMA(2,1,1) ................................................ 60
Hình 3.6: Kết quả mô hình ARIMA(2,1,1) ..................................................... 60
Hình 3.7: Kiểm tra phần dƣ có nhiễu trắng ..................................................... 61
Hình 3.8: Dự báo ............................................................................................. 62
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
VIII
DANH MỤC BẢNG BIỂU
Bảng 3.1: Dữ liệu đầu vào ............................................................................... 56
Bảng 3.2: Tiêu chuẩn đánh giá các mô hình ARIMA ..................................... 62
Bảng 3.3: Đánh giá dự báo .............................................................................. 63
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1
MỞ ĐẦU
Sự phát triển mạnh mẽ của Công nghệ thông tin và Truyền thông đã
kéo theo nhiều lĩnh vực khác phát triển nhƣ khoa học máy tính, đồ họa máy
tính, khí tƣợng thủy văn, tự động hóa, thiết kế - xây dựng, kinh tế, tài chính,
giáo dục và đào tạo, y tế,… Điều này đã góp phần vào sự nghiệp công nghiệp
hóa – hiện đại hóa đất nƣớc. Trong thực tế, đối với mỗi quốc gia, trong đó có
Việt Nam muốn phát triển và trở thành các nƣớc công nghiệp thì một trong
những vấn đề không thể thiếu là phải nghiên cứu, khảo sát, phân tích tình hình
phát triển của đất nƣớc trong lịch sử và hiện tại để làm cơ sở cho việc ngoại
suy hay suy luận, xây dựng các kế hoạch phát triển trong tƣơng lai với tất cả
các lĩnh vực, ngành nghề,…
Vì ngoại suy hay suy luận là một khoa học và nghệ thuật tiên đoán
những sự việc sẽ xảy ra trong tƣơng lai, trên cơ sở phân tích khoa học về các
dữ liệu đã thu thập đƣợc. Khi tiến hành ngoại suy cần căn cứ vào việc thu thập,
xử lý số liệu trong quá khứ và hiện tại để xác định xu hƣớng vận động của các
hiện tƣợng trong tƣơng lai nhờ vào một số mô hình toán học (Định lƣợng). Tuy
nhiên, ngoại suy cũng có thể là một ngoại suy chủ quan hoặc trực giác về tƣơng
lai (Định tính) và để ngoại suy định tính đƣợc chính xác hơn, ngƣời ta cố loại
trừ những tính chủ quan của đối tƣợng ngoại suy.
Ngoại suy trƣớc hết là một thuộc tính không thể thiếu của tƣ duy của con
ngƣời, con ngƣời luôn luôn nghĩ đến ngày mai, hƣớng về tƣơng lai. Trong thời
đại công nghệ thông tin và toàn cầu hóa, ngoại suy lại đóng vai trò quan trọng
hơn khi nhu cầu về thông tin thị trƣờng, tình hình phát triển tại thời điểm nào
đó trong tƣơng lai càng cao. Ngoại suy đƣợc sử dụng trong nhiều lĩnh vực khác
nhau, mỗi lĩnh vực có một yêu cầu về ngoại suy riêng nên phƣơng pháp ngoại
suy đƣợc sử dụng cũng khác nhau.
Trong ngoại suy, các đại lƣợng khảo sát thƣờng không đƣợc cho dƣới
dạng hàm liên tục. Trong khi đó, các phƣơng pháp giải tích toán học thƣờng
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2
tính toán với các hàm cho bởi các công thức, do đó chúng ta không thể áp dụng
trực tiếp các hàm cho dƣới dạng rời rạc nhƣ thế này. Cũng có khi ta biết rằng
đại lƣợng là một hàm của đại lƣợng , tức là , nhƣng ta không biết
biểu thức hàm mà chỉ biết một số giá trị ứng với các giá trị của tại các
điểm .
Thông thƣờng và các điểm này có thể phân bố
cách đều hoặc không cách đều nhau. Mặc dù ta chỉ biết giá trị của tại các
điểm mốc nhƣng trong nhiều trƣờng hợp ta cần tính toán với các giá trị
tại các vị trí khác của . Một vấn đề đƣợc đặt ra là cho một điểm không
thuộc các điểm thì làm thế nào ta có thể tính đƣợc giá trị tƣơng ứng với
nó, sao cho chúng ta tận dụng tối đa các thông tin đã có. Nếu giả định giá trị
cần tìm gần đúng của tại các điểm nằm trong khoảng thì chúng ta
áp dụng các bài toán nội suy.
Nhƣng trong thực tế, các bài toán không phải lúc nào các điểm x cũng
nằm trong khoảng , chẳng hạn nhƣ một số các bài toán về ngoại suy:
(1). Trong tƣơng lai các tình huống sẽ tiếp tục diễn ra nhƣ đã xảy ra trong quá
khứ; (2). Đối tƣợng ngoại suy quá bi quan hoặc ngƣợc lại quá lạc quan về tình
huống cần ngoại suy khi đó kết quả ngoại suy có thể bị ảnh hƣởng sai lệch;
(3). Đối tƣợng ngoại suy không biết nhiều lắm về tình huống ngoại suy. Khi
đó chúng ta cần giả định rằng diễn biến trong tƣơng lai cũng sẽ tƣơng tự nhƣ
trong quá khứ. Với các bài toán trên thì chắc chắn sẽ nằm ngoài khoảng
, và nhƣ vậy thì để tìm giá trị gần đúng của , chúng ta không thể áp
dụng đƣợc phƣơng pháp nội suy [1].
Nhằm tìm ra giá trị gần đúng của , một trong những phƣơng pháp
đƣợc sử dụng phổ biến hiện này là áp dụng phƣơng pháp ngoại suy.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3
Ngoại suy (Extrapolation) là dựa trên những số liệu đã có về một đối
tƣợng đƣợc quan tâm để đƣa ra suy đoán về hành vi của đối tƣợng đó trong
tƣơng lai. Ngoại suy có 2 dạng chính là ngoại suy theo số liệu lát cắt và ngoại
suy theo chuỗi số liệu lịch sử. [12]
Ngoại suy theo số liệu lát cắt (Extrapolation for cross-sectional data) là
dựa trên hành vi của một số thành phần tại một thời điểm nào đó để ngoại suy
về hành vi của các thành phần khác cũng tại thời điểm đó.
Ngoại suy theo chuỗi số liệu (Time-series extrapolation) là dựa trên
chuỗi số liệu lịch sử và sử dụng mô hình toán học để đƣa ra kết quả ngoại suy
đối với biến quan tâm. Giả thiết cơ bản là hành vi của biến đƣợc ngoại suy sẽ
tiếp tục trong tƣơng lai nhƣ đã diễn ra trong quá khứ.
Xuất phát từ vai trò của bài toán ngoại suy trong thực tế, đề tài luận văn
đƣợc lựa chọn “Nghiên cứu một số kỹ thuật ngoại suy và ứng dụng”. Trên cơ
sở nghiên cứu một số kỹ thuật ngoại suy, ý nghĩa và tính chất ứng dụng của
chúng và đề xuất việc áp dụng kỹ thuật ngoại suy vào bài toán trong tƣơng lai
cho một số bài toán cụ thể.
Nội dung chính của luận văn đƣợc trình bày trong 3 chƣơng:
Chương 1: Giới thiệu chung về dữ liệu chuỗi thời gian.
Chương 2: Một số kỹ thuật ngoại suy.
Chương 3: Áp dụng kỹ thuật ngoại suy vào bài toán dự báo.
Luận văn này đƣợc hoàn thành dƣới sự hƣớng dẫn tận tình của TS
Nguyễn Văn Huân, tác giả xin bày tỏ lòng biết ơn chân thành của mình đối
với thầy. Tuy nhiên vì điều kiện thời gian và khả năng có hạn nên luận văn
không thể tránh khỏi những thiếu sót. Tác giả rất mong các thầy giáo và bạn
đóng góp ý kiến để đề tài đƣợc hoàn thiện hơn.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
5 Chƣơng 1
GIỚI THIỆU CHUNG VỀ DỮ LIỆU CHUỖI THỜI GIAN
1.1. Khái niệm Dữ liệu
1.1.1. Dữ liệu định tính và dữ liệu định lượng
a) Dữ liệu định tính:
Nghiên cứu định tính điển hình là liên quan đến phỏng vấn mặt đối mặt
với ngƣời trả lời để hiểu rõ hơn những suy nghĩ và cảm giác của họ.
Có 2 loại nghiên cứu định tính phổ biến là thảo luận bàn tròn và phỏng
vấn cá nhân.
b) Dữ liệu định lượng
Nghiên cứu định lƣợng liên quan đến các qui trình có tính hệ thống cao
hơn nhằm có đƣợc và phân tích các dữ liệu dƣới dạng các con số.
1.1.2. Dữ liệu sơ cấp và dữ liệu thứ cấp
a) Dữ liệu sơ cấp
Là những dữ liệu mà nhà nghiên cứu thu thập trực tiếp tại nguồn dữ
liệu và xử lý nó để phục vụ cho việc nghiên cứu đặt ra. Hay nói cách khác, dữ
liệu sơ cấp là dữ liệu do chính ngƣời nghiên cứu thu thập.
b) Dữ liệu thứ cấp
Dữ liệu thứ cấp là dữ liệu do ngƣời khác thu thập, sử dụng cho các mục
đích có thể là khác với mục đích nghiên cứu của chúng ta. Dữ liệu thứ cấp có
thể là dữ liệu chƣa xử lý (còn gọi là dữ liệu thô) hoặc dữ liệu đã xử lý. Nhƣ
vậy, dữ liệu thứ cấp không phải do ngƣời nghiên cứu trực tiếp thu thập.
Có nhiều nhà nghiên cứu, sinh viên đánh giá thấp nguồn dữ liệu thứ cấp có
sẵn. Vì vậy chúng ta bắt đầu xem xét sự hợp lý của nguồn dữ liệu thứ cấp đối
với vấn đề nghiên cứu của chúng ta trƣớc khi tiến hành thu thập dữ liệu của
chính mình. Các cuộc điều tra về dân số, nhà ở, điều tra doanh nghiệp, điều
tra mức sống dân cƣ, điều tra kinh tế xã hội gia đình (đa mục tiêu)... do chính
phủ yêu cầu là những nguồn dữ liệu rất quan trọng cho các nghiên cứu kinh tế
xã hội.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
6
Ngoài ra một số nguồn dữ liệu dƣới đây có thể là quan trọng cho các
Các báo cáo của chính phủ, bộ ngành, số liệu của các cơ quan thống
nghiên cứu của chúng ta bao gồm:
kê về tình hình kinh tế xã hội, ngân sách quốc gia, xuất nhập khẩu, đầu tƣ
nƣớc ngoài, dữ liệu của các công ty về báo cáo kết quả tình hình hoạt động
Các báo cáo nghiên cứu của cơ quan, viện, trƣờng đại học.
Các bài viết đăng trên báo hoặc các tạp chí khoa học chuyên ngành
kinh doanh, nghiên cứu thị trƣờng...
Tài liệu giáo trình hoặc các xuất bản khoa học liên quan đến vấn đề
và tạp chí mang tính hàn lâm có liên quan.
Cuối cùng nhƣng không kém phần quan trọng là các bài báo cáo hay
nghiên cứu.
luận văn của các sinh viên khác (khóa trƣớc) trong trƣờng hoặc ở các trƣờng khác.
Dữ liệu thứ cấp có ƣu điểm là giúp tiết kiệm tiền bạc, thời gian.
Số liệu thứ cấp này đã đƣợc thu thập cho các nghiên cứu với các mục
Nhƣng cần chú ý đến nhƣợc điểm trong sử dụng là:
đích khác và có thể hoàn toàn không hợp với vấn đề của chúng ta; khó phân
Dữ liệu thứ cấp thƣờng đã qua xử lý nên khó đánh giá đƣợc mức độ
loại dữ liệu; các biến số, đơn vị đo lƣờng có thể khác nhau...
chính xác, mức độ tin cậy của nguồn dữ liệu.
Vì vậy trách nhiệm của ngƣời nghiên cứu là phải đảm bảo tính chính
xác của dữ liệu, phải kiểm tra xem các kết quả nghiên cứu của ngƣời khác là
dựa vào dữ liệu thứ cấp hay sơ cấp. Vì vậy điều quan trọng là phải kiểm tra
dữ liệu gốc.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
7
1.2. Chuỗi thời gian và Dữ liệu chuỗi thời gian
1.2.1. Chuỗi thời gian
1.2.1.1. Khái niệm chuỗi thời gian.
Khái niệm chuỗi thời gian: Chuỗi các quan sát đƣợc thu thập trên
cùng một đối tƣợng tại các mốc thời gian cách đều nhau đƣợc gọi là chuỗi
thời gian. Các quan sát này có thể đo đƣợc một cách liên tục theo thời gian
hoặc là có thể đƣợc lấy theo một tập rời rạc các thời điểm khác nhau.
Một chuỗi thời gian là một dãy các giá trị quan sát
đƣợc xếp thứ tự diễn biến thời gian với là các giá trị
quan sát tại thời điểm đầu tiên, là quan sát tại thời điểm thứ hai và là
quan sát tại thời điểm thứ .
Ví dụ: Các báo cáo tài chính mà ta thấy hằng ngày trên báo chí, tivi hay
Internet về các chỉ số chứng khoán, tỷ giá tiền tệ, chỉ số tăng cƣờng hay chỉ số
tiêu dùng đều là những thể hiện rất thực tế của chuỗi thời gian.
Bƣớc đầu tiên của việc phân tích chuỗi thời gian là chọn một mô hình
toán học phù hợp với tập dữ liệu cho trƣớc nào đó. Để có
thể nói về bản chất của những quan sát chƣa diễn ra, ta giả thiết mỗi quan sát
là một giá trị thể hiện của biến ngẫu nhiên với . Ở đây đƣợc
gọi là tập chỉ số. Khi đó ta có thể coi tập dữ liệu là thể
hiện của quá trình ngẫu nhiên . Và vì vậy, ta có thể định nghĩa
một quá trình ngẫu nhiên nhƣ sau:
Định nghĩa 1.1 (Quá trình ngẫu nhiên)
Một quá trình ngẫu nhiên là một họ các biến ngẫu nhiên
đƣợc định nghĩa trên một không gian xác suất .
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
8
Chú ý:
Trong việc phân tích chuỗi thời gian, tập chỉ số là một tập các thời
điểm, ví dụ nhƣ là tập hay tập . Tất nhiên cũng có những
quá trình ngẫu nhiên có không phải là một tập con của nhƣng trong giới
hạn của luận văn này ta chỉ xét cho trƣờng hợp . Và thƣờng thì ta xem
là các tập các số nguyên, khi đó ta sẽ sử dụng ký hiệu tập chỉ số là thay
vì ở trên. Một điểm chú ý nữa là trong luận văn này chúng ta sẽ dùng thuật
ngữ chuỗi thời gian để đồng thời chỉ dữ liệu cũng nhƣ quá trình có dữ liệu đó
là một thể hiện.
Trong các dạng dữ liệu đƣợc phân tích thì dữ liệu chuỗi thời gian luôn
thuộc tốp đầu về tính phổ biến
1.2.1.2. Quá trình ngẫu nhiên dừng
Định nghĩa 1.2 (Hàm tự hiệp phƣơng sai)
Giả sử là một quá trình ngẫu nhiên có với
mỗi . Khi đó hàm tự hiệp phương sai của được định nghĩa theo
công thức sau:
với .
Định nghĩa 1.3 (Quá trình dừng)
Chuỗi thời gian được gọi là dừng nếu nó thoả mãn 3 điều
kiện sau:
-
-
-
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
9
Định lý 1.1
Nếu là một quá trình dừng, và nếu như , thoả
mãn điều kiện thì hệ thức sẽ định nghĩa
một quá dừng.
Chú ý: Cũng có tài liệu gọi “dừng” theo nghĩa trên là dừng yếu, dừng
theo nghĩa rộng hay dừng bậc hai. Tuy nhiên trong giới hạn luận văn chỉ xem
xét tính dừng theo định nghĩa ở trên.
Khi chuỗi thời gian là dừng thì
Và vì vậy, với một quá trình dừng thì có thể định nghĩa lại hàm tự hiệp
phƣơng sai bằng cách chỉ thông qua hàm một biến. Khi đó, với quá trình dừng
ta có:
Hàm số đƣợc gọi là hàm tự hiệp phƣơng sai của , còn
là giá trị của nó tại “trễ” . Đối với một quá trình dừng thì ta thƣờng ký
hiệu hàm tự hiệp phƣơng sai bởi thay vì .
Với một quá trình dừng thì hàm hiệp phƣơng sai có các tính chất
,
Và nó còn là một hàm chẵn nghĩa là:
1.2.1.3. Hàm tự tương quan
Định nghĩa 1.4
Hàm tự tương quan của quá trình ngẫu nhiên được định
nghĩa tại trễ như sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
10
Chú ý:
Trong thực tế, ta chỉ quan sát đƣợc một thể hiện hữu hạn
của một chuỗi thời gian dừng nên về nguyên tắc ta
không thể biết chính xác đƣợc các hàm tự hiệp phƣơng sai của chuỗi thời gian
đó, muốn ƣớc lƣợng nó ta đƣa vào khái niệm hàm tự hiệp phƣơng sai mẫu của
thể hiện .
Hàm tự hiệp phƣơng sai mẫu của một thể hiện đƣợc định nghĩa bởi
công thức:
Và trong đó là trung bình mẫu.
Khi đó thì hàm tƣơng tự tƣơng quan mẫu cũng định nghĩa thông qua
hàm tự hiệp phƣơng sai mẫu nhƣ sau:
1.2.1.4. Tính chất của chuỗi thời gian
Các tính chất đặc trƣng của chuỗi thời gian là: Tính dừng và tính
mùa vụ.
Dù một chuỗi thời gian có thể biểu hiện một hoặc nhiều tính chất
nhƣng khi trình bày, phân tích và dự báo giá trị của chuỗi thời gian thì mỗi
tính chất đƣợc xử lý tách rời.
a) Tính dừng
Một dãy số liệu theo thời gian có giá trị trung bình và phƣơng sai không
đổi theo thời gian thì dãy số đƣợc xem nhƣ có tính dừng hay còn gọi là ổn định.
Trong trƣờng hợp ngƣợc lại, ta nói dãy số liệu đó không có tính dừng.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
11
Xét dãy số , về mặt toán học, một dãy số liệu có tính dừng phải thỏa
mãn các điều kiện sau:
Trung bình:
Phƣơng sai:
Đồng phƣơng sai:
Chuỗi đƣợc gọi là không dừng nếu vi phạm điều kiện trên.
Nếu chuỗi không dừng, ta có thể lấy sai phân bậc 1. Khi đó chuỗi sai
phân bậc 1 ( ) sẽ có thể dừng. Sai phân bậc 1:
Nếu chuỗi sai phân bậc 1 ( ) không dừng, ta có thể lấy sai phân bậc
2. Khi đó chuỗi sai phân bậc 2 có thể dừng. Sai phân bậc 2: .
Chuỗi dừng có xu hƣớng trở về giá trị trung bình và những dao động
quanh giá trị trung bình sẽ là nhƣ nhau. Nói cách khác, một chuỗi thời gian
không dừng sẽ có giá trị trung bình thay đổi theo thời gian, hoặc giá trị
phƣơng sai thay đổi theo thời gian hoặc cả hai.
b) Tính mùa vụ
Nếu sai phân bậc 2 mà chƣa dừng, có thể chuỗi có yếu tố mùa vụ.
(Nếu có yếu tố mùa vụ, tức là chuỗi vẫn chƣa dừng).
Nếu cứ sau m thời đoạn, SAC lại có giá trị cao. Khi đó có tính mùa
vụ với chu kỳ m thời đoạn. Phƣơng pháp đơn giản nhất để khử tính mùa vụ là
lấy sai phân thứ m
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
12
1.2.2. Dữ liệu chuỗi thời gian.
1.2.2.1. Khái niệm Dữ liệu chuỗi thời gian.
Mặt lƣợng của hiện tƣợng thƣờng xuyên biến động qua thời gian.
Trong thống kê để nghiên cứu sự biến động này ta thƣờng dựa vào dữ liệu
chuỗi thời gian.
Dữ liệu chuỗi thời gian là dãy số các trị số của chỉ tiêu thống kê đƣợc
sắp xếp theo thứ tự thời gian.
Dữ liệu chuỗi thời gian còn đƣợc phân biệt theo tần suất xuất hiện: số
liệu theo năm, số liệu theo quý, số liệu theo tháng…
Ví dụ:
- Số lƣợng hàng bán đƣợc trong 12 tháng của một công ty.
- Các gía trị của chuỗi thời gian của đại lƣợng đƣợc ký hiệu
, với là gía trị quan sát của ở thời điểm .
Dữ liệu chuỗi thời gian có hai thành phần:
- Thời gian: có thể là ngày, tuần, tháng, quí, năm,.... Độ dài giữa hai
thời gian liền nhau đƣợc gọi là khoảng cách thời gian.
- Chỉ tiêu về hiện tƣợng nghiên cứu: chỉ tiêu này có thể là số tuyệt đối,
số tƣơng đối, số bình quân. Trị số của chỉ tiêu còn gọi là mức độ của dãy số.
* Phân loại dãy số thời gian:
Căn cứ vào tính chất thời gian của dữ liệu, có thể phân biệt thành 2 loại:
1. Dữ liệu thời kỳ: là dãy số biểu hiện mặt lƣợng của hiện tƣợng qua
từng thời kỳ nhất định.
2. Dữ liệu thời điểm: là loại dãy số biểu hiện mặt lƣợng của hiện tƣợng
qua các thời điểm nhất định. Dãy số này còn đƣợc phân biệt thành 2 loại:
- Dữ liệu thời điểm có khoảng cách thời gian đều nhau.
1.2.2.2. Các thành phần của dữ liệu chuỗi thời gian
Các nhà thống kê thƣờng chia chuỗi theo thời gian thành 4 thành phần:
- Thành phần xu hƣớng dài hạn (long –term trend component)
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
13
- Thành phần mùa (seasional component)
- Thành phần chu kỳ (cyclical component)
- Thành phần bất thƣờng (irregular component)
a) Thành phần xu hướng dài hạn
Xu hƣớng dài hạn thể hiện sự tăng trƣởng hoặc giảm sút của một biến
số theo thời gian với khoảng thời gian đủ dài. Một số biến số kinh tế có xu
hƣớng tăng giảm dài hạn nhƣ
- Tốc độ tăng dân số của Việt Nam có xu hƣớng giảm.
- Tỷ trọng nông nghiệp trong GDP của Việt Nam có xu hƣớng giảm.
- Mức giá có xu hƣớng tăng.
Thành phần xu hƣớng dài hạn dùng để chỉ xu hƣớng tăng hay giảm của
đại lƣợng X trong thời gian dài. Về mặt đồ thị thành phần này có thể biểu diễn
bởi một đƣờng thẳng hay một đƣờng cong trơn.
Hình 1.1. Xu hướng giảm theo thời gian
Đƣợc sử dụng khi:
- Tăng năng suất hay công nghệ mới làm thay đổi lối sống
- Dân số tăng làm tăng nhu cầu hàng hóa/dịch vụ
- Các biến bị ảnh hƣởng bởi lạm phát nhƣ lƣơng, chi phí sản xuất, sinh hoạt
- Mức độ chấp nhận của thị trƣờng gia tăng
Phƣơng pháp áp dụng: Phƣơng pháp trung bình trƣợt, san mũ (Holt),
hồi quy đơn, đƣờng tăng trƣởng, mô hình mũ.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
14
b) Thành phần mùa
Biến động thời vụ của biến số kinh tế là sự thay đổi lặp đi lặp lại từ
năm này sang năm khác theo mùa vụ. Biến động thời vụ xảy ra do khí hậu,
ngày lễ, phong tục tập quán…Biến động thời vụ có tính ngắn hạn với chu kỳ
lặp lại thƣờng là 1 năm.
Thành phần mùa dùng để chỉ xu hƣớng tăng hay giảm của đại lƣợng X
tính theo mùa trong năm (có thể tính theo tháng trong năm)
Ví dụ:
- Lƣợng tiêu thụ chất đốt sẽ tăng vào mùa đông và giảm vào mùa hè,
ngƣợc lại, lƣợng tiêu thụ xăng sẽ tăng vào mùa hè và giảm vào mùa đông.
- Lƣợng tiêu thụ đồ dùng học tập sẽ tăng vào mùa khai trƣờng
Hình 1.2. Thành phần mùa
Đƣợc sử dụng khi:
- Thời tiết ảnh hƣởng đến biến đang xem xét
- Niên lịch ảnh hƣởng đến biến đang xem xét
Gồm có phƣơng pháp phân tích, san mũ Winter, hồi quy bội…
c) Thành phần chu kỳ (cyclical component)
Các số liệu kinh tế thƣờng có sự tăng giảm có quy luật theo chu kỳ kinh
tế. Sau một thời kỳ suy thoái kinh tế sẽ là thời kỳ phục hồi và bùng nổ kinh tế,
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
15 kế tiếp tăng trƣởng kinh tế sẽ chựng lại và khỏi đầu cho một cuộc suy thoái
mới. Tuỳ theo nền kinh tế mà chu kỳ kinh tế có thời hạn là 5 năm, 7 năm hay
10 năm.
Thành phần chu kỳ chỉ thay đổi của đại lƣợng X theo chu kỳ. Sự khác
biệt của thành phần này so với thành phần mùa là chu kỳ của nó dài hơn một
năm. Để đánh gía thành phần chu kỳ các gía trị của chuỗi tuần tự theo thời
gian sẽ đƣợc quan sát hằng năm
Ví dụ:
Lƣợng dòng chảy đến hồ chứa Trị An từ năm 1959 đến 1985
Hình 1.3. Thành phần chu kỳ
Đƣợc sử dụng khi:
- Chu kỳ kinh doanh ảnh hƣởng đến biến đang xem xét
- Chuyển biến trong sở thích chung nhƣ thời trang, âm nhạc, ..
- Chuyển biến trong dân số nhƣ đói, thiên tai
- Chuyển dịch trong chu kỳ vòng đời sản phẩm
Phƣơng pháp áp dụng: Phƣơng pháp phân tích, chỉ số kinh tế, mô
hình kinh tế lƣợng, hồi quy bội.
d) Thành phần bất thường (irregular component)
Thành phần này dùng để chỉ những sự thay đổi bất thƣờng của các gía trị
trong chuỗi tuần tự theo thời gian. Sự thay đổi này không thể dự đoán bằng các số
liệu kinh nghiệm trong qúa khứ, về mặt bản chất này không có tính chu kỳ.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
16
1.3. Tổng quan về dự báo
Khái niệm dự báo đã tồn tại từ rất lâu trong đời sống xã hội. tuy nhiên
trong buổi đầu nó còn mang nặng tính thần bí, vô căn cứ. chỉ sau này khi mà
các môn khoa học tự nhiên phát triển thì dự báo mới thực sự đƣợc coi trọng
và những hoạt động dự báo diễn ra trên một cơ sơ khoa học vững chắc. Dự
báo vì thế ngày nay trở thành một trong những hoạt động không thể thiếu
trong hoạt động của các công ty thƣơng mại, các tổ chức xã hội. Tuy vậy thì
cho tới ngày nay hầu hết các cơ sở dữ liệu cũng nhƣ các hệ thống thông
tin quản lý đều chƣa đáp ứng đƣợc nhu cầu này. Cho dù những cấu trúc dữ
liệu đã đựợc tạo dựng một cách hết sức tinh vi, mạnh mẽ.
Khi tiến hành dự báo, ta căn cứ vào việc thu thập, xử lý số liệu trong
quá khứ và hiện tại để xác định xu hƣớng vận động của các hiện tƣợng trong
tƣơng lai nhờ vào một số mô hình toán học.
Dự báo có thể là một dự đoán chủ quan hoặc trực giác về tƣơng lai.
Nhƣng để cho dự báo đƣợc chính xác hơn, ngƣời ta cố loại trừ những tính chủ
quan của ngƣời dự báo.
Ngày nay, dự báo là một nhu cầu không thể thiếu đƣợc của mọi hoạt
động kinh tế - xác hội, khoa học - kỹ thuật, đƣợc tất cả các ngành khoa học
quan tâm nghiên cứu.
1.3.1. Đặc điểm của dự báo
- Dùng để dự báo các mức độ tƣơng lai của hiện tƣợng, qua đó giúp các
nhà quản trị doanh nghiệp chủ động trong việc đề ra các kế hoạch và các
quyết định cần thiết phục vụ cho quá trình sản xuất kinh doanh, đầu tƣ, quảng
bá, quy mô sản xuất, kênh phân phối sản phẩm, nguồn cung cấp tài chính…
và chuẩn bị đầy đủ điều kiện cơ sở vật chất, kỹ thuật cho sự phát triển trong
thời gian tới (kế hoạch cung cấp các yếu tố đầu vào nhƣ: lao động, nguyên vật
liệu, tƣ liệu lao động… cũng nhƣ các yếu tố đầu ra dƣới dạng sản phẩm vật
chất và dịch vụ).
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
17
- Trong các doanh nghiệp, nếu công tác dự báo đƣợc thực hiện một cách
nghiêm túc còn tạo điều kiện nâng cao khả năng cạnh tranh trên thị trƣờng.
- Dự báo chính xác sẽ giảm bớt mức độ rủi ro cho doanh nghiệp nói
riêng và toàn bộ nền kinh tế nói chung.
- Dự báo chính xác là căn cứ để các nhà hoạch định hoạch định các
chính sách phát triển kinh tế, văn hoá, xã hội trong toàn bộ nền kinh tế
quốc dân.
- Nhờ có dự báo, các chính sách kinh tế, các kế hoạch và chƣơng trình
phát triển kinh tế đƣợc xây dựng có cơ sở khoa học và mang lại hiệu quả kinh
tế cao.
- Nhờ có dự báo thƣờng xuyên và kịp thời, các nhà quản trị doanh
nghiệp có khả năng kịp thời đƣa ra những biện pháp điều chỉnh các hoạt
động kinh tế của đơn vị mình nhằm thu đƣợc hiệu quả sản xuất kinh doanh
cao nhất.
1.3.2. Các loại dự báo
1.3.2.1. Căn cứ vào độ dài thời gian dự báo
Căn cứ vào độ dài thời gian dự báo có thể phân thành ba loại:
- Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở
lên. Thƣờng dùng để dự báo những mục tiêu, chiến lƣợc về kinh tế chính trị,
khoa học - kỹ thuật trong thời gian dài ở tầm vĩ mô.
- Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5
năm. Thƣờng phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh
tế, văn hoá, xã hội… ở tầm vi mô và vĩ mô.
- Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dƣới 3 năm,
loại dự báo này thƣờng dùng để dự báo hoặc lập các kế hoạch kinh tế, văn
hoá, xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm
phục vụ cho công tác chỉ đạo kịp thời.
Cách phân loại này chỉ mang tính tƣơng đối tuỳ thuộc vào từng loại
hiện tƣợng để quy định khoảng cách thời gian cho phù hợp với loại hiện
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
18 tƣợng đó. Ví dụ trong dự báo kinh tế, dự báo dài hạn là những dự báo có tầm
dự báo trên 5 năm, nhƣng trong dự báo thời tiết, khí tƣợng học chỉ là một
tuần. Thang thời gian đối với dự báo kinh tế dài hơn nhiều so với thang thời
gian dự báo thời tiết. Vì vậy, thang thời gian có thể đo bằng những đơn vị
thích hợp (Ví dụ: quý, năm đối với dự báo kinh tế và ngày đối với dự báo dự
báo thời tiết).
1.3.2.2. Dựa vào các phương pháp dự báo
Dự báo có thể chia thành ba nhóm:
- Dự báo bằng phƣơng pháp chuyên gia: Loại dự báo này đƣợc tiến
hành trên cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện
tƣợng đƣợc nghiên cứu, từ đó có phƣơng pháp xử lý thích hợp để ra các dự
đoán, các dự đoán này đƣợc cân nhắc và đánh giá chủ quan từ các chuyên gia.
Phƣơng pháp này có ƣu thế trong trƣờng hợp dự đoán những hiện tƣợng hay
quá trình bao quát rộng, phức tạp, chịu sự chi phối của khoa học - kỹ thuật, sự
thay đổi của môi trƣờng, thời tiết, chiến tranh trong khoảng thời gian dài. Một
cải tiến của phƣơng pháp Delphi là phƣơng pháp dự báo dựa trên cơ sở sử
dụng một tập hợp những đánh giá của một nhóm chuyên gia. Mỗi chuyên gia
đƣợc hỏi ý kiến và rồi dự báo của họ đƣợc trình bày dƣới dạng thống kê tóm
tắt. Việc trình bày những ý kiến này đƣợc thực hiện một cách gián tiếp (không
có sự tiếp xúc trực tiếp) để tránh những sự tƣơng tác trong nhóm nhỏ qua đó
tạo nên những sai lệch nhất định trong kết quả dự báo. Sau đó, ngƣời ta yêu
cầu các chuyên gia duyệt xét lại những dự báo của họ trên cơ sở tóm tắt tất cả
các dự báo, có thể có những bổ sung thêm.
- Dự báo theo phƣơng trình hồi quy: Theo phƣơng pháp này, mức độ
cần dự báo phải đƣợc xây dựng trên cơ sở xây dựng mô hình hồi quy, mô
hình này đƣợc xây dựng phù hợp với đặc điểm và xu thế phát triển của hiện
tƣợng nghiên cứu. Để xây dựng mô hình hồi quy, đòi hỏi phải có tài liệu về
hiện tƣợng cần dự báo và các hiện tƣợng có liên quan. Loại dự báo này
thƣờng đƣợc sử dụng để dự báo trung hạn và dài hạn ở tầm vĩ mô.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
19
- Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian
phản ánh sự biến động của hiện tƣợng ở những thời gian đã qua để xác định
mức độ của hiện tƣợng trong tƣơng lai.
1.3.2.3. Căn cứ vào nội dung (đối tượng dự báo)
Có thể chia dự báo thành: Dự báo khoa học, dự báo kinh tế, dự báo xã
hội, dự báo tự nhiên, thiên văn học…
- Dự báo khoa học: Là dự kiến, tiên đoán về những sự kiện, hiện tƣợng,
trạng thái nào đó có thể hay nhất định sẽ xảy ra trong tƣơng lai. Theo nghĩa
hẹp hơn, đó là sự nghiên cứu khoa học về những triển vọng của một hiện
tƣợng nào đó, chủ yếu là những đánh giá số lƣợng và chỉ ra khoảng thời gian
mà trong đó hiện tƣợng có thể diễn ra những biến đổi.
- Dự báo kinh tế: Là khoa học dự báo các hiện tƣợng kinh tế trong
tƣơng lai. Dự báo kinh tế đƣợc coi là giai đoạn trƣớc của công tác xây dựng
chiến lƣợc phát triển kinh tế - xã hội và dự án kế hoạch dài hạn; không đặt ra
những nhiệm vụ cụ thể, nhƣng chứa đựng những nội dung cần thiết làm căn
cứ để xây dựng những nhiệm vụ đó. Dự báo kinh tế bao trùm sự phát triển
kinh tế và xã hội của đất nƣớc có tính đến sự phát triển của tình hình thế giới
và các quan hệ quốc tế. Thƣờng đƣợc thực hiện chủ yếu theo những hƣớng
sau: dân số, nguồn lao động, việc sử dụng và tái sản xuất chúng, năng suất lao
động; tái sản xuất xã hội trƣớc hết là vốn sản xuất cố định: sự phát triển của
cách mạng khoa học – kĩ thuật và công nghệ và khả năng ứng dụng vào kinh
tế; mức sống của nhân dân, sự hình thành các nhu cầu phi sản xuất, động thái
và cơ cấu tiêu dùng, thu nhập của nhân dân; động thái kinh tế quốc dân và sự
chuyển dịch cơ cấu (nhịp độ, tỉ lệ, hiệu quả); sự phát triển các khu vực và
ngành kinh tế (khối lƣợng động thái, cơ cấu, trình độ kĩ thuật , bộ máy, các
mối liên hệ liên ngành); phân vùng sản xuất, khai thác tài nguyên thiên nhiên
và phát triển các vùng kinh tế trong nƣớc, các mối liên hệ liên vùng; dự báo
sự phát triển kinh tế của thế giới kinh tế. Các kết quả dự báo kinh tế cho phép
hiểu rõ đặc điểm của các điều kiện kinh tế - xã hội để đặt chiến lƣợc phát triển
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
20 kinh tế đúng đắn, xây dựng các chƣơng trình, kế hoạch phát triển một cách
chủ động, đạt hiệu quả cao và vững chắc.
- Dự báo xã hội: Dự báo xã hội là khoa học nghiên cứu những triển
vọng cụ thể của một hiện tƣợng, một sự biến đổi, một quá trình xã hội, để đƣa
ra dự báo hay dự đoán về tình hình diễn biến, phát triển của một xã hội.
- Dự báo tự nhiên, thiên văn học, loại dự báo này thƣờng bao gồm:
+ Dự báo thời tiết: Thông báo thời tiết dự kiến trong một thời gian nhất
định trên một vùng nhất định. Trong dự báo thời tiết có dự báo chung, dự báo
khu vực, dự báo địa phƣơng, v.v. Về thời gian, có dự báo thời tiết ngắn (1-3
ngày) và dự báo thời tiết dài (tới một năm).
+ Dự báo thuỷ văn: Là loại dự báo nhằm tính để xác định trƣớc sự phát
triển các quá trình, hiện tƣợng thuỷ văn xảy ra ở các sông hồ, dựa trên các tài
liệu liên quan tới khí tƣợng thuỷ văn. Dự báo thuỷ văn dựa trên sự hiểu biết
những quy luật phát triển của các quá trình, khí tƣợng thuỷ văn, dự báo sự
xuất hiện của hiện tƣợng hay yếu tố cần quan tâm. Căn cứ thời gian dự kiến,
dự báo thuỷ văn đƣợc chia thành dự báo thuỷ văn hạn ngắn (thời gian không
quá 2 ngày), hạn vừa (từ 2 đến 10 ngày); dự báo thuỷ văn mùa (thời gian dự
báo vài tháng); cấp báo thuỷ văn: thông tin khẩn cấp về hiện tƣợng thuỷ văn
gây nguy hiểm. Theo mục đích dự báo, có các loại: dự báo thuỷ văn phục vụ
thi công, phục vụ vận tải, phục vụ phát điện, v.v. Theo yếu tố dự báo, có: dự
báo lƣu lƣợng lớn nhất, nhỏ nhất, dự báo lũ, v.v.
+ Dự báo địa lý: Là việc nghiên cứu về hƣớng phát triển của môi
trƣờng địa lí trong tƣơng lai, nhằm đề ra trên cơ sở khoa học những giải pháp
sử dụng hợp lí và bảo vệ môi trƣờng.
+ Dự báo động đất: Là loại dự báo trƣớc địa điểm và thời gian có khả
năng xảy ra động đất. Động đất không đột nhiên xảy ra mà là một quá trình
tích luỹ lâu dài, có thể hiện ra trƣớc bằng những biến đổi địa chất, những hiện
tƣợng vật lí, những trạng thái sinh học bất thƣờng ở động vật,.v.v. Việc dự
báo thực hiện trên cơ sở nghiên cứu bản đồ phân vùng động đất và những dấu
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
21 hiệu báo trƣớc. Cho đến nay, chƣa thể dự báo chính xác về thời gian động đất
sẽ xảy ra.
1.3.3. Các phương pháp dự báo
1.3.3.1. Phương pháp dự báo định tính (Subjective Forecasting Method)
Các phƣơng pháp này dựa trên cơ sở nhận xét của những nhân tố nhân
quả, dựa theo doanh số của từng sản phẩm hay dịch vụ riêng biệt và dựa trên
những ý kiến về các khả năng có liên hệ của những nhân tố nhân quả này
trong tƣơng lai (Những phƣơng pháp này có liên quan đến mức độ phức tạp
khác nhau, từ những khảo sát ý kiến đƣợc tiến hành một cách khoa học để
nhận biết về các sự kiện tƣơng lai).
Ƣu điểm: Dễ dàng thực hiện, không đòi hỏi kiến thức về các mô hình
toán hoặc kinh tế lƣợng, thƣờng đƣợc chấp nhận
Nhƣợc điểm: Mang tính chủ quan rất cao, không chuẩn, mất nhiều năm
để trở thành ngƣời có khả năng phán đoán đúng. Không có phƣơng pháp hệ
thống để đánh giá và cải thiện mức độ chính xác.
1.3.3.2. Phương pháp dự báo định lượng (Quantitative Forecasting Method)
Mô hình dự báo định lƣợng dựa trên số liệu quá khứ, những số liệu này
giả sử có liên quan đến tƣơng lai và có thể tìm thấy đƣợc. Tất cả các mô hình
dự báo theo định lƣợng có thể sử dụng thông qua chuỗi thời gian và các giá trị
này đƣợc quan sát đo lƣờng các giai đoạn theo từng chuỗi .
Ưu điểm:
- Kết quả dự báo hoàn toàn khách quan
- Có phƣơng pháp đo lƣờng độ chính xác dự báo
- Tốn ít thời gian để tìm ra kết quả dự báo
Nhược điểm:
- Chỉ dự báo tốt trong thời gian ngắn và trung hạn
- Không có phƣơng pháp nào có thể đƣa đầy đủ những yếu tố bên ngoài
có tác động đến kết quả dự báo vào mô hình.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
22 Chƣơng 2
MỘT SỐ KỸ THUẬT NGOẠI SUY
Ngoại suy là một phƣơng pháp dự báo tƣơng đối đơn giản, ít tốn kém,
do vậy đƣợc sử dụng khá phổ biến trong dự báo kinh tế - xã hội.
2.1. Khái niệm ngoại suy
2.1.1. Khái niệm ngoại suy
Ngoại suy (Extrapolation) là dựa trên những số liệu đã có về một đối
tƣợng đƣợc quan tâm để đƣa ra suy đoán hoặc dự báo về hành vi của đối
tƣợng đó trong tƣơng lai. Ngoại suy có 2 dạng chính là ngoại suy theo số liệu
lát cắt và ngoại suy theo chuỗi số liệu lịch sử.
Ngoại suy theo số liệu lát cắt (Extrapolation for cross-sectional data) là
dựa trên hành vi của một số thành phần tại một thời điểm nào đó để ngoại suy
về hành vi của các thành phần khác cũng tại thời điểm đó.
Ngoại suy theo chuỗi số liệu (Time-series extrapolation) là dựa trên
chuỗi số liệu lịch sử và sử dụng kỹ thuật kinh tế lƣợng để đƣa ra dự báo đối
với biến quan tâm. Giả thiết cơ bản là hành vi của biến đƣợc dự báo sẽ tiếp
tục trong tƣơng lai nhƣ đã diễn ra trong quá khứ.
2.1.2. Khi nào nên sử dụng phương pháp ngoại suy để dự báo.
Thực tế là không phải lúc ta nào cũng sử dụng ngoại suy, mà chỉ nên sử
dụng phƣơng pháp ngoại suy khi gặp một trong các trƣờng hợp sau.
- Số lƣợng cần dự báo rất lớn. Chẳng hạn nhƣ một công ty sản xuất
nhiều sản phẩm khác nhau và cần phải dự báo về sản lƣợng tiêu thụ và tồn
kho các sản phẩm cho từng tuần. Khi đó số lƣợng các dự báo là rất lớn. Trong
trƣờng hợp này, quy trình dự báo bằng ngoại suy đƣợc tự động hoá là phù hợp
vì nhanh chóng và đỡ tốn kém.
- Tình huống cần dự báo tƣơng đối ổn định. Đó là vì ngoại suy dựa trên
giả định là trong tƣơng lai tình huống sẽ tiếp tục diễn ra nhƣ đã xảy ra trong
quá khứ.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
23
- Khi các phƣơng pháp khác có thể bị ảnh hƣởng sai lệch của ngƣời dự
báo. Chẳng hạn dự báo chuyên gia thƣờng bị ảnh hƣởng sai lệch chủ quan của
ngƣời dự báo, nếu ngƣời đó quá bi quan (hoặc ngƣợc lại quá lạc quan) về tình
huống cần dự báo. Khi đó, dự báo bằng ngoại suy có lẽ là khách quan hơn.
- Ngƣời dự báo không biết nhiều lắm về tình huống cần dự báo. Khi đó
thì cách làm tƣơng đối đơn giản và hợp lý là giả định rằng diễn biến trong
tƣơng lai cũng sẽ tƣơng tự nhƣ trong quá khứ, tức là sử dụng ngoại suy.
2.1.3. Ưu nhược điểm của phương pháp ngoại suy
+ Ưu điểm
- Dễ dàng thực hiện vì các phƣơng pháp này tƣơng đối đơn giản, đặc
biệt so với các phƣơng pháp dự báo phức tạp khác nhƣ mô hình kinh tế lƣợng
nhiều biến. Do tính đơn giản nên dự báo bằng ngoại suy có thể đƣợc thực hiện
nhanh chóng và ít tốn kém về chi phí.
- Quy trình ngoại suy có thể dễ dàng tự động hoá đƣợc: ví dụ nhƣ trong
trƣờng hợp cần dự báo liên tục và đều đặn (hàng ngày hoặc hàng tuần) về tình
hình sản xuất và tiêu thụ rất nhiều loại sản phẩm của một công ty.
+ Nhược điểm
Tuy nhiên, ngoại suy có nhƣợc điểm chính là nó chỉ lƣu ý đến các hiện
tƣợng xảy ra trong quá khứ mà bỏ qua các tác động mới xuất hiện trong hiện
tại hoặc có thể xuất hiện trong tƣơng lai. Các tác động đó làm thay đổi sự vận
động của hiện tƣợng cần dự báo so với nó đã xảy ra trong quá khứ, do đó dự
báo có thể sẽ không chính xác. Vì lý do này mà ngoại suy chỉ nên ứng dụng
cho các dự báo ngắn hạn, khi các tác động mới chƣa kịp xuất hiện, hoặc nếu
đã xuất hiện thì chƣa kịp gây tác động lớn đến hiện tƣợng cần dự báo.
Ngoài ra, sai số có thể xảy ra của ngoại suy là tƣơng đối khó dự đoán.
2.1.4. Tính chính xác của dự báo
Tính chính xác của dự báo đề cập đến độ chênh lệch của dự báo với số
liệu thực tế. Bởi vì dự báo đƣợc hình thành trƣớc khi số liệu thực tế xảy ra, vì
vậy tính chính xác của dự báo chỉ có thể đánh giá sau khi thời gian đã qua đi.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
24 Nếu dự báo càng gần với số liệu thực tế, ta nói dự báo có độ chính xác cao và
lỗi trong dự báo càng thấp.
Sai số dự báo: (2.1)
: giá trị thực tại giai đoạn t
Trong đó:
: giá trị dự báo tại giai đoạn t
: số giai đoạn
Nếu một mô hình đƣợc đánh giá là tốt thì sai số dự báo phải tƣơng đối nhỏ.
Sai số tuyệt đối trung bình(mean absolute error)
Phần trăm sai số tuyệt đối phần trăm(mean absolute percentaga error)
Sai số trung bình bình phƣơng (mean spuared error)
+ Sai số của dự báo:
+ Sai số dự báo là sự chênh lệch giữa mức độ thực tế và mức độ tính
toán theo mô hình dự báo.
+ Sai số dự báo phụ thuộc vào 03 yếu tố: độ biến thiên của tiêu thức
trong thời kỳ trƣớc, độ dài của thời gian của thời kỳ trƣớc và độ dài của thời
kỳ dự đoán.
+ Vấn đề quan trọng nhất trong dự báo bằng ngoại suy hàm xu thế là
lựa chọn hàm xu thế, xác định sai số dự đoán và khoảng dự đoán:
- Công thức tính sai số chuẩn ( )
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
25
(2.2)
Trong đó:
: Sai số chuẩn
: Giá trị tính toán theo hàm xu thế
: Số các mức độ trong dãy số
: Số các tham số cần tìm trong mô hình xu thế
Công thức này đƣợc dùng để lựa chọn dạng hàm xu thế (so sánh các sai
số chuẩn tính đƣợc) sai số nào nhỏ nhất chứng tỏ rằng hàm tƣơng ứng với sai
số sẽ xấp xỉ tốt nhất và đƣợc lựa chọn làm hàm xu thế để dự đoán. Thông
thƣờng để việc dự đoán đƣợc tiến hành đơn giản ta vẫn chọn hàm xu thế làm
hàm tuyến tính.
Công thức tính sai số dự báo:
(2.3)
Trong đó:
: Sai số của dự báo
: số lượng các mức độ (n=10)
: tầm xa của dự báo
: sai số chuẩn
2.1.5. Ứng dụng của kỹ thuật ngoại suy vào bài toán dự báo
Ngoại suy là một phƣơng pháp dự báo trong đó các điều kiện đang diễn
ra đƣợc phổ biến trong tƣơng lai tuân theo quy luật của của biến trình đã quan
sát đƣợc của hiện tƣợng. Phƣơng pháp ngoại suy thƣờng đƣợc sử dụng khi
xây dựng những công thức tính toán dựa theo dữ liệu chuỗi thời gian. Nếu ở
một khoảng thời gian nào đó đặc điểm của mối phụ thuộc thể hiện rõ nét thì
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
26 mối phụ thuộc đó đƣợc tiếp tục chấp nhận nếu tính đến xu hƣớng diễn biến
của quá trình (đƣờng cong). Dự báo theo phƣơng pháp ngoại suy đảm bảo tin
cậy nếu thời hạn dự báo ngắn và trong khoảng thời gian đó không chờ đợi
những lực kích động đáng kể từ bên ngoài.
Đa phần các chuỗi thời gian là các chuỗi không liên tục, chúng là các
quan sát rời rạc trong một khoảng thời gian nào đó, ký hiệu là chuỗi thời
gian với . Ta cần phải dự báo trong các thời kỳ
. Ký hiệu các giá trị dự báo là .
Giả sử với ta biểu diễn bằng một hàm liên tục của
. Tại các điểm : [4]
Giá trị dự báo (2.4)
Để thực hiện dự báo bằng ngoại suy ta có thể sử dụng các mô hình
giản đơn sau:
2.2. Ngoại suy dựa dựa vào mô hình hồi quy tuyến tính
2.2.1. Bài toán hồi quy
Đặt vấn đề: Khi xét bài toán, ta đã giả thiết rằng mối quan hệ giữa đại
lƣợng và là tồn tại mối quan hệ .
Việc xác định đa thức cần thỏa mãn điểu kiện . Tuy
nhiên trong trƣờng hợp khi và là các đại lƣợng ngẫu nhiên. Chẳng hạn là
các kết quả của các thí nghiệm hóa sinh, mối quan hệ giữa và (hay còn gọi
là mối quan hệ tƣơng quan) là chƣa đánh giá đƣợc thì việc xác định đa thức
là không thực tế và khó thực hiện. Do đó ngƣời ta mong muốn xác định
1 hàm gần dung đảm bảo lệch ít nhất so với các số liệu thực nghiệm; Các hàm
nhƣ vậy đƣợc gọi là các hàm hồi quy.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
27
2.2.1.1. Phương pháp bình phương cực tiểu
và Xét bộ số liệu trong đó và là
các đại lƣợng ngẫu nhiên.
Ta cần xác định mối tƣơng quan để sao cho
Trong đó là các tham số cần xác định.
Để xác định các tham số , phải đƣa ra điều kiện là trung bình
phƣơng độ lệch giữa giá trị thực nghiệm và giá trị hàm tại các điểm là
nhỏ nhất, tức là:
(2.5)
Để hàm đạt cực trị thì điều kiện cần là:
(2.6)
Hệ thức (2.6) chính là các hệ phƣơng trình đƣợc giải ra các ẩn số
.
2.2.1.2. Hàm hồi quy tuyến tính
Đây là dạng đơn giản nhất trong các phƣơng pháp hồi quy. Ở đây, dữ
liệu đƣợc mô hình hóa theo đƣờng thẳng.
Xét hai biến ngẫu nhiên X và Y, trong đó X là biến độc lập còn Y là
biến phụ thuộc. Trong thực tế, thông thƣờng X có thể quan sát đƣợc, đo đƣợc
còn biến Y khó có thể định lƣợng trực tiếp nên phải xác định nó qua biến X.
Theo mô hình này, một biến ngẫu nhiên Y sẽ đƣợc tính bẳng một hàm
tuyến tính của một biến ngẫu nhiên X khác theo công thức:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
28
Trong đó độ biến thiên của Y là không đổi, gọi là các hệ số hồi quy.
Các hệ số này có thể đƣợc tính ra bằng phƣơng pháp bình phƣơng tối thiểu.
Cho mẫu hay điểm dữ liệu dƣới dạng , các hệ số
hồi quy đƣợc tính nhƣ sau:
Đặt
Khi đó sẽ là nghiệm của hệ thống phƣơng trình sau:
Hay
(2.7)
Hệ (2.7) là hệ phƣơng trình với . Giải hệ trên ta xác định đƣợc và
(2.8)
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
29
2.2.1.3. Hàm hồi quy bậc hai
Dạng
Khi đó
Điều kiện:
Hay
(2.9)
Hệ (2.9) chính là hệ phƣơng trình đại số cho phép xác định ra các ẩn
.
2.2.2. Các phương pháp đưa về dạng tuyến tính
2.2.2.1. Dạng hàm mũ
Nếu nhƣ giả thuyết rắng sau mỗi đơn vị thời gian tăng lên với một
số % không đổi, khi đó có thể dùng hàm dạng mũ sau:
(2.10)
Lấy logarit hai vế ta có:
Khi đó đặt ; ;
Ta thu đƣợc
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
30
2.2.2.2. Dạng hàm lũy thừa
(2.11)
Lấy logarit hai vế ta có:
Khi đó đặt ; ; ;
Ta thu đƣợc
Nhƣ vậy, bằng phép lấy logarit ta có thể đƣa các dạng hàm dạng mũ,
hàm lũy thừa về dạng hàm hồi quy tuyến tính.
2.2.3. Hồi quy nhiều chiều (Hồi quy bội)
2.2.3.1. Đặt bài toán
Xét các biến ngẫu nhiên : biến phụ thuộc
: biến độc lập
Giả sử qua thí nghiệm, ta thu đƣợc bảng số liệu sau đây
X … Y
…
…
… …
…
Ta cần xác định hàm hồi quy bội dạng:
(2.12)
Trong đó
Các hệ số cũng đƣợc xác định thì điều kiện bình phƣơng cực
tiểu
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
31
2.2.3.2. Một số dạng đưa về tuyến tính
a) Hàm phi tuyến dạng tích
(2.13)
Logarit hóa 2 vế ta có:
B) Hàm dạng mũ
(2.14)
Lấy logarit hai vế, ta có:
Hay
Nhƣ vậy, bằng lý thuyết các hàm hồi quy, qua các bộ số thực nghiệm
chúng ta có thể xác định đƣợc mối quan hệ giữa các đại lƣợng ngẫu nhiên một
cách gần đúng thông qua các công thức của các hàm hồi quy khác nhau. Việc
xác định các công thức hàm hồi quy có thể thực hiện đƣợc bằng phƣơng pháp
bình phƣơng cực tiểu.
2.3. Ngoại suy bằng phƣơng pháp trung bình động giản đơn (moving average
forecast)
Số trung bình động là số trung bình cộng của một nhóm nhất định, các
mức độ của dãy số đƣợc tính bằng cách lần lƣợt loại dần các mức độ đầu,
đồng thời thêm vào các mức độ tiếp theo, sao cho tổng số lƣợng các mức độ
tham gia tính số trung bình không thay đổi.
Trung bình động tại thời điểm là giá trị trung bình số học của n giá trị
gần nhất. Trung bình động chỉ tính giá trị trung bình cho một số lƣợng giai
đoạn cố định, sẽ thay đổi khi có giá trị mới xuất hiện.
Giả sử có dãy thời gian (n mức độ).
Nếu tính trung bình động cho nhóm ba mức độ ta sẽ có:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
32
……
Khi đó ta có dãy số trung bình động là: . Việc lựa chọn
nhóm bao nhiêu mức độ để tính trung bình động đòi hỏi phải dựa vào đặc
điểm biến động của hiện tƣợng và các mức độ của dãy số thời gian. Thông
thƣờng ngƣời ta chọn nhóm có 3, 5 hoặc 7 mức độ.
Mô hình tổng quát:
Hay:
Trong đó:
; : là nhu cầu dự báo cho giai đoạn
: là nhu cầu thực tế của giai đoạn ;
: số giai đoạn quan sát.
Phƣơng pháp bình quân di động có ƣu điểm là san bằng đƣợc các biến
động ngẫu nhiên trong dãy số. Tuy vậy, chúng đều có nhƣợc điểm sau:
- Do việc san bằng các biến động ngẫu nhiên nên làm giảm độ nhạy
cảm đối với những thay đổi thực đã đƣợc phản ánh trong dãy số.
- Số bình quân di động chƣa cho chúng ta xu hƣớng phát triển của dãy
số một cách tốt nhất. Nó chỉ thể hiện sự vận động trong quá khứ chứ chƣa thể
kéo dài sự vận động đó trong tƣơng lai.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
33 2.4. Ngoại suy bằng phƣơng pháp san bằng mũ (Exponential Smoothing
Methods)
2.4.1. Đặt vấn đề
Mỗi toán tử ngoại suy đƣợc đặc trƣng bởi một hàm hồi quy. Trong các hàm
hồi quy ấy, thƣờng các hệ số đƣợc xác định theo phƣơng pháp bình phƣơng cực
tiểu. Phƣơng pháp bình phƣơng cực tiểu cho ta các hệ số không đổi của mô hình
dự báo trên cơ sở những số liệu quan sát trong quá khứ. Sử dụng mô hình này cho
phép ta ngoại suy số liệu cho tƣơng lai với các hệ số hằng sẽ phạm một sai số nào
đó tùy thuộc vào khoảng thời gian cần tìm.
Nếu số liệu cần ngoại suy càng xa thì sai số càng lớn, ngoài ra ta thấy rằng
những số liệu gần hiện tại có ảnh hƣởng đến giá trị dự báo nhiều hơn những số
liệu ở quá khứ lùi xa. Nói cách khác tỷ trọng các số liệu đối với giá trị cần ngoại
suy giảm theo hàm mũ khi lùi dần về quá khứ.
Nội dung cơ bản của phƣơng pháp này là tính toán sự hiệu chỉnh các hệ số
của toán tử dự báo theo phƣơng pháp truy chứng.
2.4.2. Phương pháp san bằng mũ
Giả sử đang ở thời kỳ , ta có không thể lấy làm
giá trị dự báo đƣợc vì chứa đựng tác động của các yếu tố ngẫu nhiên, bất
quy tắc khác. Ta cũng không lấy trung bình số học của Vì
nhƣ vậy ta đã coi các giá trị của ở hiện tại và quá khứ đều có vai trò nhƣ
nhau trong tƣơng lai.
Phƣơng pháp san bằng mũ đƣa ra các dự báo cho giai đoạn trƣớc và
thêm vào đó một lƣợng điều chỉnh để có đƣợc lƣợng dự báo cho giai đoạn kế
tiếp. Sự điều chỉnh này là một tỷ lệ nào đó của sai số dự báo ở giai đoạn
trƣớc và đƣợc tính bằng cách nhân số dự báo của giai đoạn trƣớc với hệ số
nằm giữa 0 và 1. Hệ số này gọi là hệ số điều hòa.[6]
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
34
Trong đó
Ta có:
Thực hiện đệ quy ta sẽ có
(2.18)
Để bắt đầu tính toán, ta đặt: ,
từ đó ,…
Nếu càng gần 1 thì , càng nhỏ thì vai trò của chuỗi
đƣợc trọng số hóa càng quan trọng.
Chọn giá trị là vấn đề quan trọng nhất của phƣơng pháp này.
- Nếu các dự đoán ổn định và biến đổi ngẫu nhiên ít thì chọn nhỏ,
ngƣợc lại nên chọn lớn
- Một cách phổ biến để ƣớc lƣợng α là dựa vào một quy trình lặp đi lặp
lại sao cho tối thiểu hóa MSE.
Phƣơng pháp san bằng mũ thích hợp đối với các chuỗi không thay đổi hoặc
thay đổi rất chậm theo thời gian. Phƣơng pháp này sử dụng dữ liệu không có yếu
tố thời vụ và không có xu thế tăng hoặc giảm.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
35
2.4.3. Cách xác định hệ số điều hòa
Đặt , ta có: (2.19)
và đƣợc gọi là các tham số điều hòa với và
.
Nhƣ vậy, mức độ dự đoán là trung bình cộng gia quyền của và
với quyền số tƣơng ứng là và
Mức độ dự đoán ở thời gian là:
Thay vào (2.19) ta có:
Bằng phép đệ quy ta có:
(2.20)
Vì nên khi thì lúc đó ta có
Chọn giá trị :
- Chọn giá trị gần bằng 0 khi trong dữ liệu có quá nhiều những biến
động ngẫu nhiên.
- Chọn gần bằng 1 khi ta muốn giá trị dự báo phụ thuộc vào những
quan sát gần nhất.
- Chuẩn bình phƣơng sai số trung bình (RMSE) là tiêu chí để lựa chọn
phù hợp.
- nhỏ thƣờng đem lại các dự báo chính xác.
- Giá trị đƣợc chọn tốt nhất thƣờng là
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
36
- Tuy nhiên cách chọn khách quan hơn là tính các chuỗi san với nhiều
khác nhau. Với mỗi ta tính: và và chọn
sao cho RSS nhỏ nhất.
Phƣơng pháp san bằng mũ đƣợc thực hiện theo phép đệ quy, tức là để
tính ta phải có , để tính ta phải có ,…, để tính ta phải có .
2.5. Ngoại suy dựa vào mô hình san mũ Holt- Winters.
2.5.1. San mũ Holt
Khác với san mũ đơn, mô hình san mũ Holt (1957) đƣợc sử dụng đối
với dữ liệu có yếu tố xu thế. Khi chuỗi thời gian có yếu tố xu thế, thì chúng ta
cần phải dự báo giá trị trung bình (giá trị san mũ) và độ dốc (xu thế) hiện tại
để làm cơ sở cho dự báo tƣơng lại. Ý tƣởng cơ bản của phƣơng pháp Holt là
sử dụng các hệ số san mũ khác nhau để ƣớc lƣợng giá trị trung bình và độ dốc
của chuỗi thời gian.
Ta mở rộng phƣơng pháp san bằng mũ hai lần nhƣng bằng hai hệ số:
: là hằng số san bằng cho mức độ
: là hằng số san bằng cho xu hƣớng – đƣợc dùng để loại bỏ sai số
ngẫu nhiên
- Ƣớc lƣợng giá trị trung bình hiện tại:
(2.21)
- Ƣớc lƣợng xu thế
(2.22)
- Dự báo cho giai đoạn trong tƣơng lai
(2.23) Muốn tính toán các giá trị dự báo của Holt cần phải có các giá trị xuất
phát. Ta có thể xác định nhƣ sau:
Đặt ; đƣợc chọn sao cho
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
37
Tiến hành san số mũ từ thời điểm thứ 3 trở đi, ta có:
Sử dụng mức và xu thế đã đƣợc san số mũ tại thời điểm để dự đoán cho
các thời điểm trong tƣơng lai để dự đoán giá trị của hiện tƣợng ở thời điểm
tƣơng lai :
Ở thời điểm tƣơng lai ( )
(2.24)
2.5.2. San mũ Holt- Winters
Năm 1960 Winters mở rộng phƣơng pháp Holt để nắm bắt thời vụ. Kỹ
thuật này có hai mô hình hiện thực: mô hình có tính nhân và mô hình có tính cộng.
+ Mô hình cộng: (2.25)
Trong đó:
(2.26)
(2.27)
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
38 (2.28)
+ Mô hình nhân: (2.29)
Trong đó:
Với là các tham số san bằng nhận giá trị trong đoạn [0;1].
nhận giá trị tốt nhất khi tổng bình phƣơng sai số là nhỏ nhất.
Tham số không đƣợc xét một cách khách quan mà ít nhiều
thông qua trực giác chủ quan, kết quả dự báo sẽ phụ thuộc vào sự lựa chọn
các tham số này.
Với (0) có thể là mức độ đầu tiên trong dãy số.
(0) có thể là lƣợng tăng (giảm) tuyệt đối trung bình.
(0): Các chỉ số thời vụ ban đầu (j=1, 2, 3…, k); k = 4 đối với quý; k = 12
đối với tháng.
Nếu t = 1, 2, 3, 4, 5,…, n:
Là thứ tự thời gian hay tƣơng ứng với thứ tự các mức độ theo thời ký
trong chuỗi thời gian thì yếu tố thời vụ Vj(0) của các mức độ trong chuỗi thời
gian đƣợc tính sẽ tƣơng ứng với các giá trị t ≤ k.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
39
: Chỉ số bình quân thời vụ cho một quý hay một tháng của mỗi năm trong
chuỗi thời gian.
: Mức độ trong chuỗi thời gian ở thời gian t.
: Chỉ số thời vụ của từng quý hoặc tháng trong từng năm ở thời gian t.
: Số bình quân trƣợt để loại trừ thành phần thời vụ và thành phần
ngẫu nhiên với số lƣợng mức độ bằng 4 đối với tài liệu quý và bằng 12 đối
với tài liệu tháng.
2.6. Ngoại suy dựa vào mô hình ARIMA (AutoRegressive Integrated Moving
Average)
Mô hình ARIMA có tên gọi là mô hình tự hồi quy kết hợp trung bình
trƣợt (ARIMA = AutoRegessive Integrated Moving Average).
ARIMA (p,d,q) có thể hiểu là tổng hợp chuỗi thời gian theo các thành
phần: Tự tƣơng quan AR(p); Trung bình trƣợt MA(q) và theo bậc sai phân
(d). Mô hình ARIMA đƣợc Box và Jenkin công bố vào năm 1970.
Đây là dạng tổng quát nhất mà các mô hình hồi quy (AR), trung bình
trƣợt (MA) chỉ là các dạng đặc biệt của nó. ARIMA không chỉ mô phỏng tốt
các thành phần quán tính mà nó còn mô phỏng đƣợc cả các thành phần mang
tính chu kỳ, mùa.
George Box và Gwilym Jenkins (1976) đã nghiên cứu mô hình
ARIMA (Autoregressive Integrated Moving Average – Tự hồi qui tích hợp
Trung bình truợt), và tên của họ thuờng đuợc dùng dể gọi tên các quá
trình ARIMA tổng quát, áp dụng vào việc phân tích và dự báo các chuỗi thời
gian. Phƣơng pháp Box-Jenkins với bốn buớc: nhận dạng mô hình thử
nghiệm, uớc luợng, kiểm dịnh bằng chẩn doán, và dự báo.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
40
2.6.1. Các công cụ áp dụng trong mô hình
2.6.1.1. Hàm tự tương quan ACF (Auto Correlation Function)
Hàm tự tƣơng quan đo lƣờng phụ thuộc tuyến tính giữa các cặp quan
sát và , ứng với thời đoạn ( còn gọi là độ trễ). Với
mỗi độ trễ , hàm tự tƣơng quan tại độ trễ đƣợc xác định qua độ lệch giữa
các biến ngẫu nhiên so với các giá trị trung bình, và đƣợc chuẩn hóa
qua phƣơng sai.
Dƣới đây, giả thiết rằng các biến ngẫu nhiên trong chuỗi dừng thay đổi
quanh giá trị trung bình với phƣơng sai hằng số . Hàm tự tƣơng
quan tại các độ trễ khác nhau sẽ có giá trị khác nhau.
Trong thực tế, ta có thể ƣớc lƣợng hàm tự tƣơng quan tại độ trễ thứ
qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các
độ trễ , với giá trị trung bình mẫu là , đƣợc chuẩn hóa bởi phƣơng sai
.Chẳng hạn, cho mỗi chuỗi N điểm, giá trị của hàm tự tƣơng quan tại độ
trễ thứ đƣợc tính nhƣ sau:
(2.30)
và (2.31) Với
: chuỗi thời gian dừng tại thời điểm
: chuỗi thời gian dừng tại thời điểm
: giá trị trung bình của chuỗi
: giá trị tƣơng quan giữa và tại độ trễ
thì không có hiện tƣợng tự tƣơng quan
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
41
Về mặt lý thuyết, chuỗi dừng khi tất cả các hay chỉ vài .
Do chúng ta xem xét hàm tự tƣơng quan mẫu, do đó sai số mẫu sẽ xuất hiện
vì vậy, hiện tƣợng tự tƣơng quan khi theo ý nghĩa thống kê.
Khi hàm tự tƣơng quan ACF giảm đột ngột, có nghĩa rất lớn ở độ trễ
1, 2 và có ý nghĩa thống kê ( ). Những này đƣợc xem là những “đỉnh”
và ta nói rằng hàm tự tƣơng quan ACF giảm đột ngột sau độ trễ nếu không
có những “đỉnh” ở độ trễ lớn hơn . Hầu hết hàm tự tƣơng quan ACF sẽ
giảm đột ngột sau độ trễ 1, 2.
Nếu hàm tự tƣơng quan ACF của chuỗi thời gian không dừng không
giảm đột ngột mà trái lại giảm nhanh nhƣng đều: không có đỉnh, ta gọi chiều
hƣớng này là “tắt dần”.
Sự khác nhau giữa hiện tƣợng “tắt dần” nhanh và “tắt dần” chậm đều
đƣợc phân biệt khá tùy tiện.
2.6.1.2. Hàm tự tương quan từng phần PACF
Song song với việc xác định hàm tự tƣơng quan giữa các cặp và
, ta xác định hàm tự tƣơng quan từng phần cũng có hiệu lực trong
việc can thiệp đến các quan sát . Hàm tự tƣơng quan
từng phần tại độ trễ , đƣợc ƣớc lƣợng bằng hệ số liên hệ trong mối
kết hợp tuyến tính bên dƣới. Sự kết hợp đƣợc tính dựa trên tầm ảnh hƣởng
của và các giá trị trung gian .
(2.32)
Giải phƣơng trình hồi quy dựa trên bình phƣơng tối thiểu vì hệ số hồi
phải đƣợc tính ở mỗi độ trễ
quy , với chạy từ 1 đến .
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
42
Giải pháp ít tốn kém hơn do Durbin [9] phát triển dùng để xấp xỉ đệ
quy hệ số hồi quy cho mô hình ARIMA chuỗi dừng, sử dụng giá trị hàm tự
tƣơng quan tại độ trễ và hệ số hồi quy của độ trễ trƣớc. Dƣới đây là
phƣơng pháp Durbin sử dụng cho 3 độ trễ đầu tiên.
Độ trễ 1: Khởi tạo, giá trị của hàm tự tƣơng quan từng phần tại độ trễ 1
có cùng giá trị với hàm tự tƣơng quan tại độ trễ 1 vì không có trung gian giữa
các quan sát kết tiếp:
Độ trễ 2: Hai giá trị và đƣợc tính dựa vào hàm tự tƣơng quan
và , cùng với hàm tự tƣơng quan từng phần trƣớc đó
Độ trễ 3: Tƣơng tự, ba giá trị đƣợc tính dựa vào các hàm
tự tƣơng quan trƣớc cùng với các hệ số đƣợc tính ở độ trễ thứ 2:
và .
Tổng quan, hàm tự tƣơng quan từng phần đƣợc tính theo Durbin:
(2.33)
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
43
Trong đó:
: Hàm tự tƣơng quan tại độ trễ
v: Phƣơng sai
: Hàm tự tƣơng quan từng phần cho độ trễ , loại bỏ những ảnh
hƣởng của các độ trễ can thiệp.
Khi độ trễ tăng, số các hệ số tăng theo. Phƣơng pháp của Durbin cho phép
việc tính đệ quy dựa vào việc sử dụng kết quả trƣớc đó.
Tóm lại, hàm tự tƣơng quan ACF và hàm tự tƣơng quan từng phần PACF
của chuỗi thời gian có các đặc tính khác nhau. Hàm tự tƣơng quan ACF đo mức độ
phụ thuộc tuyến tính giữa các cặp quan sát. Hàm tự tƣơng quan từng phần PACF đo
mức độ phụ thuộc tuyến tính từng phần. ARIMA khai thác những điểm khác biệt
này để xác định cấu trúc mô hình cho chuỗi thời gian. Xu hƣớng vận động của hàm
tự tƣơng quan từng phần PACF có thể giảm đột ngột (thƣờng sau độ trễ 1 hoặc 2)
hay có thể giảm đều. Cũng nhƣ hàm tự tƣơng quan ACF, xu hƣớng giảm đều của
hàm tự tƣơng quan từng phần PACF cũng có các dạng phân phối mũ, dạng sóng
hình sin hoặc kết hợp cả 2 dạng này.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
44
Hình 2.1: Ví dụ về chiều hướng giảm đều khác nhau [2]
a) Dao động hàm mũ tắt dần (Damped Exponential)
b) Dao động tắt dần theo quy luật số mũ (Damped exponential oscillation)
c) Dao động sóng tắt dần theo quy luật hình sin (Damped sine wave)
2.6.2. Mô hình AR(p) (Auto Regression)
Theo [7, 8, 10], ý tƣởng chính của mô hình AR(p) là hồi quy trên chính số
liệu quá khứ ở những chu kì trƣớc.
(2.34)
Trong đó:
: quan sát dừng hiện tại
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
45
: quan sát dừng quá khứ (thƣờng sử dụng không
quá 2 biến này)
: sai số dự báo ngẫu nhiên của giai đoạn hiện tại. Giá trị trung bình
: các tham số phân tích hồi quy.
đƣợc mong đợi bằng 0.
là một hàm tuyến tính của những quan sát dừng quá khứ
Nói cách khác khi sử dụng phân tích hồi quy theo
các giá trị chuỗi thời gian dừng có độ trễ, chúng ta sẽ đƣợc mô hình AR (yếu
tố xu thế đã đƣợc tách khỏi yếu tố thời gian, chúng ta sẽ mô hình hóa những
yếu tố còn lại – đó là sai số).
Số quan sát dừng quá khứ sử dụng trong mô hình hàm tự tƣơng quan là
bậc p của mô hình AR. Nếu ta sử dụng hai quan sát dừng quá khứ, ta có mô
hình tƣơng quan bậc hai AR(2).
Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1:
Mô hình AR(1):
Mô hình AR(2):
2.6.3. Mô hình MA(q) (Moving Average)
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến
sai số dự báo quá khứ và hiện tại. Mô hình bình quân di động là một trung
bình trọng số của những sai số mới nhất.
(2.35)
Trong đó:
: quan sát dừng hiện tại
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
46
: sai số dự báo ngẫu nhiên, giá trị của nó không đƣợc biết và giá trị
trung bình của nó là 0.
: sai số dự báo quá khứ (thông thƣờng mô hình sẽ
sử dụng không quá 2 biến này)
: giá trị trung bình của và các hệ số bình quân di động.
: sai số quá khứ đƣợc dùng trong mô hình bình quân di động, nếu ta
sử dụng hai sai số quá khứ thì sẽ có mô hình bình quân di động bậc 2 là
MA(2).
Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1:
Mô hình MA(1):
Mô hình MA(2):
2.6.4. Sai phân I(d)
Chuỗi dừng: Chuỗi thời gian đƣợc coi là dừng nếu nhƣ trung bình và
phƣơng sai của nó không đổi theo thời gian và giá trị của đồng phƣơng sai
giữa hai thời đoạn chỉ phụ thuộc vào khoảng cách và độ trễ về thời gian giữa
hai thời đoạn này chứ không phụ thuộc vào thời điểm thực tế mà đồng
phƣơng sai đƣợc tính.
Sai phân chỉ sự khác nhau giữa giá trị hiện tại và giá trị trƣớc đó. Phân
tích sai phân nhằm làm cho ổn định giá trị trung bình của chuỗi dữ liệu, giúp
cho việc chuyển đổi chuỗi thành một chuỗi dừng.
Sai phân lần 1 (I(1)):
Sai phân lần 2 (I(2)):
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
47
2.6.5. Mô hình ARIMA
- Mô hình ARMA(p,q): là mô hình hỗn hợp của AR và MA. Hàm
tuyến tính sẽ bao gồm những quan sát dừng quá khứ và những sai số dự báo
quá khứ và hiện tại:
(2.36)
Trong đó:
: quan sát dừng hiện tại
, và : quan sát dừng và sai số dự báo quá khứ.
: các hệ số phân tích hồi quy
Ví dụ: ARMA(1,2) là mô hình hỗn hợp của AR(1) và MA(2)
Đối với mô hình hỗn hợp thì dạng là phổ biến. Tuy nhiên,
giá trị p và q đƣợc xem là những độ trễ cho ACF và PACF quan trọng sau
cùng. Cả hai điều kiện bình quân di động và điều kiện dừng phải đƣợc thỏa
mãn trong mô hình hỗn hợp ARMA.
- Mô hình ARIMA(p,d,q): Do mô hình Box-Jenkins chỉ mô tả chuỗi
dừng hoặc những chuỗi đã sai phân hóa, nên mô hình ARIMA(p,d,q) thể hiện
những chuỗi dữ liệu không dừng, đã đƣợc sai phân (ở đây, d chỉ mức độ sai
phân).
Khi chuỗi thời gian dừng đƣợc lựa chọn (hàm tự tƣơng quan ACF giảm
đột ngột hoặc giảm đều nhanh), chúng ta có thể chỉ ra một mô hình dự định
bằng cách nghiên cứu xu hƣớng của hàm tự tƣơng quan ACF và hàm tự tƣơng
quan từng phần PACF. Theo lý thuyết, nếu hàm tự tƣơng quan ACF giảm đột
biến và hàm tự tƣơng quan từng phần PACF giảm mạnh thì chúng ta có mô
hình tự tƣợng quan. Nếu hàm tự tƣơng quan ACF và hàm tự tƣơng quan từng
phần PACF đều giảm đột ngột thì chúng ta có mô hình hỗn hợp.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
48
Về mặt lý thuyết, không có trƣờng hợp hàm tự tƣơng quan ACF và hàm
tự tƣơng quan từng phần cùng giảm đột ngột. Trong thực tế, hàm tự tƣơng quan
ACF và hàm tự tƣơng quan từng phần PACF giảm đột biến khá nhanh. Trong
trƣờng hợp này, chúng ta nên phân biệt hàm nào giảm đột biến nhanh hơn, hàm
còn lại đƣợc xem là giảm đều. Do đôi lúc sẽ có trƣờng hợp giảm đột biến đồng
thời khi quan sát biểu đồ hàm tự tƣơng quan ACF và hàm tự tƣơng quan từng
phần PACF, biện pháp khắc phục là tìm vài dạng hàm dự định khác nhau cho
chuỗi thời gian dừng. Sau đó, kiểm tra độ chính xác mô hình tốt nhất.
Mô hình ARIMA (1, 1, 1):
Hoặc
Với ở sai phân đầu tiên: .
Tương tự ARIMA(1,2,1):
Với ở sai phân thứ hai: .
Theo [7], trong thực hành d lớn hơn 2 rất ít đƣợc sử dụng
2.6.6. Các bước phát triển mô hình ARIMA.
George Box và Gwilym Jenkins (1976) đã nghiên cứu mô hình ARIMA
(Autoregressive Integrated Moving Average - Tự hồi qui tích hợp Trung bình
trƣợt), và tên của họ thƣờng đƣợc dùng để gọi tên các quá trình ARIMA tổng
quát, áp dụng vào việc phân tích và dự báo các chuỗi thời gian. Theo [3, 7],
phƣơng pháp Box – Jenkins bao gồm các bƣớc chung:
• Xác định mô hình
• Ƣớc lƣợng tham số
• Kiểm định độ chính xác
• Dự báo.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
49
• Xác định mô hình: Mô hình ARIMA chỉ đƣợc áp dụng đối với chuỗi
dừng. Mô hình có thể trình bày theo dạng AR, MA hay ARMA. Phƣơng pháp
xác định mô hình thƣờng đƣợc thực hiện qua nghiên cứu chiều hƣớng biến
đổi của hàm tự tƣơng quan ACF hay hàm tự tƣơng quan từng phần PACF.
Chuỗi ARIMA không dừng: cần phải đƣợc chuyển đồi thành chuỗi
dừng trƣớc khi tính ƣớc lƣợng tham số bình phƣơng tối thiểu. Việc chuyển
đổi này đƣợc thực hiện bằng cách tính sai phân giữa các giá trị quan sát dựa
vào giả định các phần khác nhau của các chuỗi thời gian đều đƣợc xem xét
tƣơng tự, ngoại trừ các khác biệt ở giá trị trung bình. Nếu việc chuyển đổi này
không thành công, sẽ áp dụng tiếp các kiểu chuyển đổi khác (chuyển đồi
logarithm chẳng hạn).
• Ƣớc lƣợng tham số: tính những ƣớc lƣợng khởi đầu cho các tham số
của mô hình dự định. Sau đó xây dựng những ƣớc lƣợng
sau cùng bằng một quá trình lặp.
• Kiểm định độ chính xác: Sau khi các tham số của mô hình tổng quát
đã xây dựng, ta kiểm tra mức độ chính xác và phù hợp của mô hình với dữ
liệu. Chúng ta kiểm định phần dƣ và có ý nghĩa cũng nhƣ mối quan
hệ các tham số. Nếu bất cứ kiểm định nào không thỏa mãn, mô hình sẽ nhận
dạng lại các bƣớc trên đƣợc thực hiện lại.
• Dự báo: Khi mô hình thích hợp với dữ liệu đã tìm đƣợc, ta sẽ thực
hiện dự báo tại thời điểm tiếp theo . Do đó, mô hình ARMA(p,q):
2.7. Các bƣớc tiến hành ngoại suy
Bước 1: Lựa chọn, thu thập và xử lý số liệu
Việc lựa chọn, thu thập và xử lý số liệu dựa trên một số nguyên tắc cơ
bản sau:
- Thu thập các số liệu cần thiết thể hiện đƣợc tình huống cần dự báo
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
50 - Cần cấu trúc vấn đề để sử dụng tối đa kiến thức của ngƣời dự báo
- Làm sạch số liệu để giảm thiểu sai số đo lƣờng
- Điều chỉnh các chuỗi số liệu đứt quãng
Bước 2: Lựa chọn phương pháp
Trong nhiều trƣờng hợp, số liệu có chu kỳ dƣới 1 năm (nhƣ ngày, tuần,
tháng, quý) đòi hỏi phải điều chỉnh thời vụ. Đây là điều cần thiết nhằm giảm
thiểu sai số trong dự báo theo chuỗi số liệu. Các yếu tố thời vụ thƣờng đƣợc
ƣớc lƣợng bằng 1 trong 2 cách sau:
- Phƣơng trình hồi quy (trong đó các tháng đƣợc biểu diễn bằng biến giả).
- Mối tƣơng quan giữa giữa từng tháng và trung bình trƣợt tƣơng ứng
của nó (thƣờng đƣợc gọi là phƣơng pháp tỷ lệ so với trung bình trƣợt).
Khó có thể nói cách nào chính xác hơn trong 2 cách đó. Do vậy, việc
lựa chọn cách nào để ƣớc lƣợng điều chỉnh thời vụ tuỳ theo bạn cảm thấy
cách nào thuận tiện hơn hoặc chi phí thấp hơn. Thƣờng thì nhà nghiên cứu
kiểm nghiệm các nhân tố thời vụ trƣớc và sau đó chỉ sử dụng nếu chúng có ý
nghĩa về thống kê. Phép kiểm nghiệm đòi hỏi số liệu ít nhất 3 năm, song thực
tế thƣờng từ 5 năm trở lên.
Bước 3: Tiến hành ngoại suy
Sau khi đã thu thập đƣợc số liệu cần thiết và đã xử lý số liệu, cần quyết
định là sẽ ngoại suy số liệu nhƣ thế nào. Cách làm chuẩn là tách số liệu ra
thành mức, xu thế và chu kỳ.
Ƣớc lƣợng mức. Tổ hợp các ƣớc lƣợng về mức.
Ngoại suy xu thế. Nên sử dụng cách biểu diễn xu thế đơn giản. Trong
chuỗi số liệu, cần coi trọng các số liệu gần đây hơn các số liệu ban đầu khi sai
số đo lƣờng nhỏ, tầm dự báo ngắn và chuỗi ổn định. Cần dùng phạm vi kiến
thức của mình để xác định trƣớc các điều chỉnh sẽ đƣợc thực hiện đối với
phép ngoại suy. Cần sử dụng các phép thống kê để hỗ trợ lựa chọn phƣơng
pháp ngoại suy và thƣờng xuyên cập nhật các ƣớc lƣợng về thông số
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
51
Ƣớc lƣợng chu kỳ. Sử dụng chu kỳ khi thấy có bằng chứng thời điểm
và biên độ tƣơng lai có độ chính xác cao
Bước 4: Đánh giá tính bất định
Đánh giá tính bất định dựa trên các nguyên tắc cơ bản sau:
- Sử dụng các ƣớc lƣợng thực chứng rút ra từ các phép kiểm nghiệm từ
trong mẫu
- Đối với các số liệu theo thang tỷ lệ, ƣớc lƣợng khoảng thời gian dự
báo bằng các cách sử dụng dạng loga của giá trị thực và giá trị dự báo.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
52 Chƣơng 3
ÁP DỤNG KỸ THUẬT NGOẠI SUY VÀO BÀI TOÁN DỰ BÁO
3.1. Mô hình ARIMA cho dự báo tài chính, chứng khoán
3.1.1. Dữ liệu tài chính
Dữ liệu chúng ta sử dụng là dữ liệu chuỗi thời gian. Đặc điểm chính để
phân biệt giữa dữ liệu có phải là thời gian thực hay không đó chính là sự tồn
tại của cột thời gian đƣợc đính kèm trong đối tƣợng quan sát. Nói cách khác,
dữ liệu thời gian thực là một chuỗi các giá trị quan sát của biến :
với là giá trị của biến tại thời
điểm .
Mục đích chính của việc phân tích chuỗi thời gian thực là thu đƣợc một
mô hình dựa trên các giá trị trong quá khứ của biến quan sát
cho phép ta dự đoán đƣợc giá trị của biến trong tƣơng
lai, tức là có thể dự đoán đƣợc các giá trị .
Trong bài toán của chúng ta, dữ liệu chứng khoán đƣợc biết tới nhƣ một
chuỗi thời gian đa dạng bởi có nhiều thuộc tính cùng đƣợc ghi tại một thời điểm
nào đó. Với dữ liệu đang xét, các thuộc tính đó là: Ngày Thay đổi, Mở cửa, Cao
nhất, Thấp nhất, Đóng cửa, Trung bình, Đóng cửa ĐC, Khối lƣợng.
3.1.2. Mô hình ARIMA cho bài toán dự báo tài chính
Dựa vào trình tự cơ bản của phƣơng pháp luận cùng cấu trúc và hoạt
động của mô hình ARIMA trong chƣơng 2. Để áp dụng mô hình ARIMA vào
bài toán dự báo giá cổ phiếu, ta xây dựng mô hình dự báo.
Mô hình gồm 3 quá trình chính:
Xác định mô hình: Với đầu vào là tập dữ liệu chuỗi thời gian trong tài
chính giúp cho việc xác định ban đầu các thành phần trong mô hình p, d, q, S.
• Ƣớc lƣợng, kiểm tra: Mô hình ARIMA là phƣơng pháp lặp, sau khi
xác định các thành phần, mô hình sẽ ƣớc lƣợng các tham số, sau đó thì kiểm
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
53 tra độ chính xác của mô hình: Nếu hợp lý, tiếp bƣớc sau, nếu không hợp lý,
quay trở lại bƣớc xác định
• Dự báo: Sau khi đã xác định các tham số, mô hình sẽ đƣa ra dự báo
cho ngày tiếp theo.
3.1.3. Thiết kế mô hình ARIMA cho dữ liệu
Việc thiết kế thành công mô hình ARIMA phụ thuộc vào sự hiểu biết
rõ ràng về vấn đề, về mô hình, có thể dựa vào kinh nghiệm của các chuyên
gia dự báo…
Trong quá trình tìm hiểu, khóa luận sẽ đƣa ra các bƣớc để xây dựng
một mô hình nhƣ sau:
1. Chọn tham biến
2. Chuẩn bị dữ liệu
• Xác định tính dừng của chuỗi dữ liệu
• Xác định yếu tố mùa vụ
• Xác định yếu tố xu thế
3. Xác định các thành phần p, q trong mô hình ARMA
4. Ƣớc lƣợng các tham số và chẩn đoán mô hình phù hợp nhất
5. Dự báo ngắn hạn
3.1.3.1 Chọn tham biến
Hƣớng tiếp cận phổ biến trong dữ liệu tài chính là tập trung xây dựng
mô hình dự báo giá cổ phiếu đóng cửa sau khi kết thúc mỗi phiên giao dịch
(Đóng cửa ĐC).
3.1.3.2 Chuẩn bị dữ liệu
• Xác định tính dừng của chuỗi dữ liệu: Dựa vào đồ thị của chuỗi và đồ
thị của hàm tự tƣơng quan.
• Nếu đồ thị của chuỗi một cách trực quan nếu chuỗi đƣợc
coi là dừng khi đồ thị của chuỗi cho trung bình hoặc phƣơng sai không đổi
theo thời gian (chuỗi dao động quanh giá trị trung bình của chuỗi)
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
54
• Dựa vào đồ thị của hàm tự tƣơng quan ACF nếu đồ thị cho ta một
chuỗi giảm mạnh và tắt dần về 0 sau q độ trễ.và tắt dần về 0 sau q độ trễ.
• Xác định yếu tố mùa vụ cho chuỗi dữ liệu: Dựa vào đồ thị của chuỗi
dữ liệu .
• Xác định yếu tố xu thế cho chuỗi dữ liệu.
3.1.3.3 Xác định thành phần p, q trong mô hình ARMA
Sau khi loại bỏ các thành phần: Xu thế, mùa vụ, tính dừng thì dữ liệu
trở thành dạng thuần có thể áp dụng mô hình ARMA cho quá trình dự báo.
Việc xác định 2 thành phần p và q.
• Chọn mô hình AR(p) nếu đồ thì PACF có giá trị cao tại độ trễ 1, 2,
…, p và giảm nhiều sau p và dạng hàm ACF giảm dần
• Chọn mô hình MA(q) nếu đồ thị ACF có giá trị cao tại độ trễ 1, 2, …,
q và giảm nhiều sau q và dạng hàm PACF giảm dần.
3.1.3.4. Ước lượng các thông số của mô hình và kiểm định mô hình phù hợp nhất
Có nhiều phƣơng pháp khác nhau để ƣớc lƣợng. Ở đây, khóa luận tập
trung vào: Khi đã chọn đƣợc mô hình, các hệ số của mô hình sẽ đƣợc ƣớc
lƣợng theo phƣơng pháp tối thiểu tổng bình phƣơng các sai số. Kiểm định các
hệ số của mô hình bằng thống kê . Ƣớc lƣợng sai số bình phƣơng trung
bình của phần dƣ :
Trong đó: = phần dƣ tại thời điểm
= số phần dƣ
= tổng số hệ số ƣớc lƣợng
Tuy nhiên: công thức chỉ đƣa ra để tham khảo...Hiện nay phƣơng pháp
ƣớc lƣợng có hầu hết trong các phần mềm thống kê: ET, MICRO TSP vaø
SHAZAM, Eviews...
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
55
Nếu phần dƣ là nhiễu trắng thì có thể dừng và dùng mô hình đó để dự báo.
3.1.3.5 . Kiểm tra mô hình phù hợp nhất
Dựa vào các kiểm định nhƣ
• BIC nhỏ (Schwarz criterion đƣợc xác định bởi: n.Log(SEE) +
k.Log(n)
• SEE nhỏ [11]
• R2 lớn: R-squared = (TSS-RSS)/TSS [11]
,
3.1.3.6. Dự báo ngắn hạn mô hình
Dựa vào mô hình đƣợc chọn là tốt nhất, với dữ liệu quá khứ tới thời
điểm t, ta sử dụng để dự báo cho thời điểm kế tiếp .
3.2. Áp dụng
Ứng dụng mô hình ARIMA vào bài toán dự báo chứng khoán của của
Công ty Công ty Cổ phần Sữa Việt Nam (VNM: HOSE)
Sử dụng Phần mềm EVIEWS để dự đoán (Ứng dụng của mô hình
ARIMA cho bài toán dự đoán chuỗi thời gian).
3.2.1. Môi trường thực nghiệm
Môi trƣờng thực nghiệm Eview chạy trên hệ điều hành Window XP
3.2.2. Dữ liệu
Chọn loại dữ liệu dự báo: Dữ liệu đƣợc lấy từ
http: //www.stockbiz.vn/Stocks/VNM/HistoricalQuotes.aspx
Trong đó ta chọn Cổ phiếu có mã VNM để dự đoán, và sử dụng riêng
Giá đóng cửa.
Dữ liệu ở đây có dạng nhƣ sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
56
Bảng 3.1: Dữ liệu đầu vào
MaCK MaCK Ngày tháng
VNM Ngày tháng 05/05/2014 Giá đóng cửa 110,69 VNM 12/08/2014 Giá đóng cửa 112,5
VNM 06/05/2014 107,45 VNM 13/08/2014 114
VNM 07/05/2014 108,26 VNM 14/08/2014 116
VNM 08/05/2014 100,99 VNM 15/08/2014 116
VNM 09/05/2014 105,03 VNM 18/08/2014 115
VNM 12/05/2014 100,18 VNM 19/08/2014 114
VNM 13/05/2014 99,36 VNM 20/08/2014 112
VNM 14/05/2014 101,82 VNM 21/08/2014 113
VNM 15/05/2014 98,54 VNM 22/08/2014 113
VNM …….. VNM 25/08/2014 112
Dữ liệu cho quá trình dự báo đƣợc bắt đầu từ ngày 05/05/2014 đến
ngày 25/08/2014. Ở đây ta chỉ tập trung vào Giá đóng cửa, và quá trình dự
báo sẽ giúp ta xác định đƣợc Giá đóng cửa của ngày kế tiếp ngay sau đó.
Hình 3.1: chọn giadongcua làm mục tiêu dự báo
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
57
3.2.3. Kiểm tra tính dừng của chuỗi chứng khoán VNM
Dựa vào biểu đồ của biến giá đóng cửa của chổi chứng khoán.
3.2.4. Nhận dạng mô hình
Xác định các tham số p, d, q trong mô hình ARIMA
Hình 3.2: Xác định d = 0,1,2 ?
Ta có thể xác định các tham số p, d, q trong mô hình ARIMA dựa vào
biểu đồ tƣơng quan.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
58
Hình 3.3: Biểu đồ của SAC và SPAC của chuỗi giadongcua
Nhìn vào hình, ta thấy biểu đồ hàm tự tƣơng quan ACF giảm dần một
cách từ từ về 0. Chuỗi chƣa dừng, ta phải tính sai phân lần 1.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
59
Kiểm tra đồ thị Correlogram của chuỗi sai phân bậc 1.
Hình 3.4: Biểu đồ của SPAC và SAC ứng với d=1
Nhƣ vậy sau khi lấy sai phân bậc 1 chuỗi đã dừng: → d=1, ACF tắt
nhanh về 0 sau 1 độ trễ →q=1, PAC giảm nhanh về 0 sau 2 độ trễ: → p=2
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
60
3.2.5. Ước lượng và kiểm định với mô hình ARIMA
Xây dựng mô hình ARIMA (2,1,1)
Chọn Quick/Estimate Equation, sau đó gõ" LS GIADONGCUA C
AR(2) MA(1)"
Hình 3.5: Ước lượng mô hình ARIMA(2,1,1)
Click “Ok” kết quả là:
Hình 3.6: Kết quả mô hình ARIMA(2,1,1)
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
61
Chọn “View/Residual tests/Correlogram-Q- Statistic”
Hình 3.7: Kiểm tra phần dư có nhiễu trắng
Nhƣ vậy, sai số của mô hình ARIMA(2,1,1) là một chuỗi dừng và nó
có phân phối chuẩn. Sai số này là nhiễu trắng.
Ta có bảng xác định các tiêu chuẩn đánh giá sau khi đã thử với một vài
mô hình khác nhau:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
62 Bảng 3.2: Tiêu chuẩn đánh giá các mô hình ARIMA
Mô hình ARIMA Adjusted R2 BIC SEE
ARIMA(1,1,1) 3.98 0.91 1.66
ARIMA(1,1,2) 3.96 0.91 1.63
ARIMA(2,1,1) 3.93 0.91 1.62
ARIMA(2,1,2) 4.43 0.86 2.08
3.2.6 Thực hiện dự báo
Tại cửa sổ Equation ấn nút Forecas
Hình 3.8: Dự báo
Tại Forecast sample: ta chỉnh ngày dự báo: 25/08/2014 - 29/08/2014
Kết quả là:
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
63
Hình 3.9: Kết quả dự báo của 04 ngày: 26/08/2014 - 29/08/2014
Bảng 3.3: Đánh giá dự báo
Ngày Giá thực tế Giá dự báo Đánh giá Sai số (%)
26/08/2014 112 110.9012 1.10 0.98
27/08/2014 112 110.1849 1.82 1.62
28/08/2014 111 109.4208 1.58 1.42
29/08/2014 111 108.9157 2.08 1.88
Ta xác định đƣợc sai số trung bình bình phƣơng đƣợc MSE nhƣ sau:
Qua thực nghiệm dự báo đƣợc 4 ngày từ ngày 26/08/2014 -
29/08/2014, chúng ta nhận thấy kết quả đƣa ra khá chính xác so với giá thực
tế của mã chứng khoán VMN. (Mức độ sai số rất thấp, từ xấp xỉ 0.98% đến
1.88%)
Tuy số lƣợng ngày dự báo thử nghiệm chƣa nhiều song có thể nhận
định rằng mô hình ARIMA(2,1,1) là khá phù hợp để dự báo mã CK VNM
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
64 KẾT LUẬN
Luận văn đã trình bày đƣợc tổng quan dữ liệu, dữ liệu chuỗi thời gian
và một số kỹ thuật ngoại suy dữ liệu. Trong đó luận văn tập trung vào ngoại
suy dữ liệu chuỗi thời gian áp dụng vào bài toán thực tế đang đƣợc quan tâm
đó là bài toán dự báo nói chung và dự báo giá chứng khoán nói riêng.
Luận văn cũng đã trình bày đƣợc một số nội dung cơ sở lý thuyết về
chuỗi thời gian thực, về các mô hình hồi quy tuyến tính, mô hình san mũ
Holt-Winter và mô hình ARIMA (các công cụ áp dụng trong mô hình, quy
trình xây dựng mô hình) và áp dụng Eviews để thi hành các bƣớc của mô hình
ARIMA trong dự báo chứng khoán.
Luận văn đã áp dụng những cơ sở lý thuyết nghiên cứu tiến hành thực
nghiệm trên chuỗi chứng khoán (chỉ số chứng khoán VNM) dựa trên dữ liệu
lịch sử của mỗi chuỗi (gồm 81 quan sát trong quá khứ) và đã dự báo đƣợc giá
đóng cửa của 4 ngày tiếp theo. Kết quả dự báo đã đƣợc phân tích, kiểm tra,
đối chiếu với giá thực tế và cho thấy kết quả đó là khá chính xác, độ tin cậy
cao. Nhƣ vậy cũng cho thấy rằng mô hình ARIMA đƣa ra cho chuỗi chứng
khoán trong luận văn là khá phù hợp để dự báo ngắn hạn giá cổ phiếu.
Bên cạnh những kết quả đã đạt đƣợc, luận văn còn một số hạn chế:
- Thuật toán để ƣớc lƣợng cũng nhƣ đánh giá còn nhiều hạn chế.
- Trong các phiên giao dịch còn có thể có tác động của các yếu tố ngoại
lai lớn nhƣ tâm lý nhà đầu tƣ, tác động của các thị trƣờng chứng khoán khác,
thông tin về sự thay đổi chính sách, … sẽ làm cho sai số dự báo tăng. Do đó
kết quả của mô hình đƣa ra vẫn chỉ mang tính chất tham khảo nhiều hơn. Đây
chỉ là mô hình phân tích kĩ thuật, chƣa thể dự báo một cách chính sách, bởi
chỉ phụ thuộc vào một biến – Thời gian, trong khi quá trình dự báo phụ thuộc
vào nhiều yếu tố.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
65 TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]. Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến thức và Thực hành, NXB
Thống kê, Hà Nội
[2]. Nguyễn Thị Hiền Nhã. Sử dụng mô hình ARIMA cho việc giải quyết bài toán dự báo tỷ giả. Luận văn thạc sĩ tin học, Đại học Khoa Học Tự Nhiên – Đại Học Quốc Gia TP.HCM, 2002.
[3]. Nguyễn Văn Huân, Phạm Việt Bình, Nguyễn Việt Hùng, Nguyễn Thị Hằng, Nguyễn Thị Hải Yến, (2013), Phân tích dữ liệu và dự báo kinh tế, NXB Đại học Quốc gia Hà Nội.
[4]. Nguyễn Quang Dong, Nguyễn Thị Minh (2012), Giáo trình Kinh tế
lượng, NXB Đại học Kinh tế quốc dân.
[5]. Phùng Duy Quang, (2007), Mô hình chuỗi thời gian dùng để dự báo biến động giá chứng khoán và áp dụng vào thị trường chứng khoán Việt Nam, Đề tài Cấp trƣờng Đại học Ngoại Thƣơng, Mã số NT 2007-02.
[6]. TS. Trần Tiến Khai, ThS. Trƣơng Đăng Thụy, ThS. Lƣơng Vinh Quốc Duy, ThS. Nguyễn Thị Song An, ThS. Nguyễn Hoàng Lê (2009), Phương pháp nghiên cứu kinh tế, Khoa Kinh tế Phát triển, Trƣờng ĐH Kinh tế TP. Hồ Chí Minh.
Tiếng Anh
[7]. Boris Kovalerchuk and Evgenii Vityaev (2001). Data Mining in Finance: Advances in Relational and Hybrid Methods, Kluwer Academic Publishers, Boston, Dordrecht - London, 2001.
[8]. Roy Batchelor. Box-Jenkins Analysis. Cass Business School, City
of Lodon.
[9]. http: //www.pstat.ucsb.edu/faculty/feldman/174-3/lectures/l13.pdf.
Sample PACF; Durbin - Levinson algorithm.
[10]. Ross Ihaka. Time Series Analysis, Lecture Notes for 475.726,
Statistics Department, University of Auckland, 2005.
[11]. http: //www.stata.com/statalist/archive/2006-06/msg00554.html.
R-Squared with ARIMA
[12]. http: //en.wikipedia.org/wiki/Extrapolation.