B GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIT NAM
HC VIN KHOA HỌC VÀ CÔNG NGHỆ
-------------------------------
ĐÀO XUÂN KỲ
NG DỤNG MÔ HÌNH XÍCH MARKOV
VÀ CHUỖI THI GIAN M TRONG D BÁO
Chuyên ngành: Cơ sở Toán học cho Tin hc
Mã số: 62.46.01.10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Ni, 2017
Danh mục các công trình của tác gi
[1]
Dao Xuan Ky, Luc Tri Tuyen, Phm Quoc Vuong, A combination of
higher order markov model and fuzzy time series for stock market
forecasting, Hi tho ln th 19: Mt s vấn đề chn lc của Công
ngh thông tin và truyền thông, Hà Ni, pages 16, 2016.
[2]
Đào Xuân K, Lục Trí Tuyen, Phạm Quốc Vương, Thạch Th Ninh,
hình markov-chui thi gian m trong d báo chứng khoán, Hi
tho ln th 18: Mt s vấn đề chn lc của Công ngh thông tin
truyền thông, TP HCM, pages 119124, 2015.
[3]
Dao Xuan Ky, Luc Tri Tuyen, A markov-fuzzy combination model
for stock market forecasting, International Journal of Applied
athematics and StatisticsTM, 55(3):109121, 2016.
[4]
Dao Xuan Ky, Luc Tri Tuyen, A Higher order Markov model for
time series forecasting, International Journal of Applied athematics
and StatisticsTM, vol 57(3), 2018.
[5]
Lục Trí Tuyên, Nguyễn Văn Hùng, Thạch Th Ninh, Phm Quc
Vương, Nguyễn Minh Đức, Đào Xuân Kỳ, A normal-hidden markov
model model in forecasting stock index, Journal of Computer Science
and Cybernetics, 28(3):206216, 2012.
MỞ ĐẦU
Bài toán dự báo chuỗi thi gian với đối ng d báo biến ngẫu nhiên
X
thay đổi
theo thi gian nhm đạt được độ chính xác dự báo cao luôn thách thức đối với các nhà khoa
học không chỉ trong nước còn đi với các nhà khoa học trên thế gii. Bi lẽ, giá trị ca
biến ngẫu nhiên y tại thời điểm
t
sinh ra một cách ngẫu nhiên việc tìm một phân phối
xác xuất phù hợp cho không phải lúc nào cũng dễ dàng. Muốn làm được điều y dữ liu
lch s cần được thu thập và phân tích, từ đó tìm ra phân phối ướm khít với nó. Tuy nhiên, một
phân phối tìm được thể phù hợp vi d liu một giai đoạn y, nhưng th sai lch ln
so với giai đoạn khác. Do đó, việc s dng một phân phối ổn định cho đối tượng d đoán
không phù hợp với bài toán dự báo chuỗi thi gian.
Chính vì lý do trên, để xây dựng mô hình d báo chuỗi thi gian cn thiết phải có sự liên
h, cp nht d liệu tương lai vi d liu lch sử, xây dựng nh phụ thuc giữa giá trị d
liệu được ti thời điểm t với giá trị tại c thời điểm trước đó
. Nếu xây dựng
quan h
1 1 2 2 1 1
t t t p t p t t q t q
X X X X
cho ta nh hồi quy tuyến
tính ARIMA[15]. hình này đã được áp dụng rộng rãi bởi sở thuyết d hiểu dễ
thực hành, hơn nữa hình y đã được tích hợp vào hầu hết các phần mm thng hiện
nay như Eviews, SPSS, Matlab, R,…. Tuy nhiên, nhiu chui thi gian thc tế cho thy
không biến đổi tuyến nh. Do đó hình tuyến tính như ARIMA không phù hp. R. Parrelli
đã chỉ ra trong [28], các chuỗi thi gian v độ dao động ca ch s kinh tế hay tài chính thưng
quan hệ phi tuyến. hình phổ biến cho d báo chuỗi thi gian phi tuyến phi k đến
hình GARCH [25,28]. Hn chế của hình GARCH lại nm vic phi gi s d liu dao
động tuân theo một phân phi c định (thường phân phối chun) trong khi d liu thc tế
cho thy phân phối thống lại phân phối nặng đuôi [39] (trong khi phân phi chuẩn độ
lệch cân đối). Mt la chọn khác cho d báo chuỗi thời gian được phát triển gần đây hơn
nh mng thần kinh nhân tạo (ANN). Các nh ANN không dựa trên phân phối tt
định cho d liệu nó hoạt động tương tự b não con người, c gắng m ra quy luật
đường đi của d liệu đào tạo, kim tra thc nghiệm tổng quát hóa kết qu. Với cách hoạt
động của nó, các hình ANN thưng s dng cho mục đích phân lớp d liu [23]. Gần đây
hơn, thuyết mi v học máy thống đang đưc nhiều nhà khoa học chú ý phương pháp
vector học y (SVM) cho bài toán phân lớp dự báo [36,11,31]. SVM được áp dụng rng
rãi hơn trong nhiều lĩnh vực như xấp x hàm, ước lượng hồi quy và dự báo [11,31]. Tuy nhiên,
hn chế ln nht của SVM khi tập đào tạo lớn, đòi hỏi ợng tính toán khổng l cũng
như độ phc tp của bài toán hồi quy tuyến tính trong đó.
Để khc phục các hạn chế phát huy các điểm mnh của các phương pháp đã có, mộ
xu thế nghiên cứu đang tr nên thịnh hành gần đây hương tiếp cn kết hợp (CA), nghĩa
kết hp mt s phương pháp không giống nhau để tăng độ chính xác của d báo. Rất nhiu
nghiên cứu đã được thc hiện theo hướng y rất nhiều các hình kết hp mới đã
được công bố [43,5,6]. Mt s phương pháp trong đó sử dụng xích Markov (MC) cũng n
hình Markov n (HMM). Refiul Hassan [19] đã phát triển một hình hp nht bng
cách kết hp mt HMM vi một ANN GA, để tạo ra các dự o trong một ngày-trưc ca
giá c phiếu. hình y đã cố gắng để xác định các mẫu d liệu tương tự t các dữ liu lch
sử. Sau đó ANN GA đã được s dụng để nội suy các giá trị lân cn của hình d liu
được xác định. Yang [41] đã kết hợp nh HMM với k thuật phân cụm đồng b nhm
tăng độ chính xác cho hình d báo. hình Markov vi trng s đã được Peng [27] áp
dng trong d báo và phân tích t l truyn nhim bnh tỉnh Giang Tô, Trung Quốc. Các
hình kết hợp y đã mang lại nhng kết qu ý nghĩa trong thực tin cũng nhưng tăng đáng
k độ chính xác trong d báo so với các hình truyền thng [27,41,19]. Các hình trên
tuy đã những ci thiện đáng kể v độ chính xác trong dự báo nhưng vẫn gặp khó khăn đối
vi nhng d liu m (có những phân tử mà không biết chc).
Để đối phó với nhng d liu m, một hướng nghiên cứu mi trong d báo chuỗi thi
gian được m ra gần đây sử dụng hình chuỗi thi gian m (FTS). Kết qu đầu tiên cn
được k đến trong vic áp dụng thuyết này Song and Chissom [34]. Những nghiên cứu
tập trung theo hướng ci thiện các hình chuỗi thi gian m tìm cách áp dụng vào bài
toán dự báo. Jilani et al. and Nan et al.kết hợp hình Heuristic với chui thi gian m để
nâng cao độ chính xác của hình [24]. Chen Hwang mở rộng thêm các chui thi gian
m vào hình Binary [14] sau đó Hwang and Yu phát triển thành hình N bậc để d
báo chỉ s chứng khoán [21]. Trong một bài báo gần đây [35], BaiQing Sun et al. đã mở rng
hình mờ cho thi gian m đa cấp để d báo giá tương lai của th trưng chng khoán.
Qisen Cai et al. [10] đã kết hợp mô hình dự báo chuỗi thi gian m vi tối ưu hóa đàn kiến
t động hồi quy để được mt kết qu tốt hơn. Việt Nam, mô hình chui thi gian m gn
đây cũng đã được áp dng trong mt s lĩnh vc c thể. Có thể k đến nghiên cứu ca Nguyn
Duy Hiếu cng s [2] trong phân tích ng nghĩa. Ngoài ra, các công trình của tác giả
Nguyễn Công Điều [3,4] đã kết hợp hình chuỗi thi gian m vi mt s k thuật điều
chnh tham s trong thut toán hay những đặc trưng riêng của d liệu để làm tăng độ chính xác
ca d báo. Nghiên cứu của tác giả Nguyễn Cát Hồ [1] đã ng dụng đi s gia t vào dự báo
chui thi gian m cho thy độ chính xác dự báo cao hơn mt s mô hình hiện có.
Cho đến nay, mặc đã nhiều hình mới được y dựng theo hướng kết hợp các
hình sẵn nhằm ci thiện độ chính xác của d báo nhưng mặc hình rất phc tp
trong khi đ chính xác dự báo cải thiện không đáng kể. Do đó một s hướng thể thc hin
nhằm đơn giản hóa mô hình và đảm bo hoặc tăng đ chính xác dự o có thể được phát triển.
Mục tiêu của luận án tập trung nghiên cu hai vấn đề chính. Th nht hình hóa
chui thi gian bi nhng trạng thái trong đó mỗi trạng thái một phân phối xác xuất tt
định (phân phối chun). Dựa vào kết qu thc nghiệm để đánh giá sự phù hợp của hình.
Th hai, kết hợp ch Markov và chuỗi thi gian m thành hình mới nhm ci thin độ
chính xác của d báo. Hơn nữa, m rộng hình với xích Markov bậc cao nhm tương thích
vi nhng d liệu có tính cht thi v.
Luận án gồm 3 chương. Chương I. trình bày nghiên cứu tng quan xích Markov
hình Marko ẩn cũng như chuỗi thi gian m. Chương II. trình bày mô hình hóa chui thi gian
thành những trạng thái trong đó: (1) mi trng thái một phân phi chun với trung bình
i
,
phương sai
2
i
,
1,2,...,im
vi
m
số trạng thái; (2) các trạng thái theo thời gian tuân theo
một xích Markov. Sau đó, mô hình được thc nghiệm trên dữ liu ch s VN-Index đ đánh giá
hiu qu d o của mô hình. Cuối chương luận văn phân tích những hn chế và sự không phù
hp ca hình dự báo với phân phối xác suất tất định làm động cho hình kết hợp đề
xut Chương 3. Chương 3. trình bày hình kết hợp xích Markov chuỗi thi gian m
trong d o chui thời gian. Chương này cũng trình bày hình mở rộng cho xích Markov
bc cao với hai khái niệm xích Markov bậc cao c điển (CMC) và xích Markov bậc cao ci tiến
(IMC). Mô hình sau đó lập trình trên ngôn ngữ R và thực nghim với các tập d liu tương ứng
chính xác với tp d liu của các mô hình so sánh.
Chương 1. BÀI TOÁN ĐỀ XUẤT VÀ KIẾN THC TNG QUAN
1.1. Xích Markov
1.1.1. Các định nghĩa
Ta xét một h thng kinh tế hoc mt h thng vt cht
S
vi
m
trạng thái có thể, hiu
bi tp
I
:
1,2,..., .Im
h thng
S
tiến hóa ngẫu nhn trong thi gian ri rc (
0,1,2,..., ,...tn
),
đặt
n
C
biến ngẫu nhiên tương ng vi trạng thái của h thng
S
thời điểm
(C )
n
nI
.
Định nghĩa 1.1.1. y biến ngẫu nhiên (
,
n
Cn
) là một xích Markov nếu và ch nếu vi tt c
01
,c ,...,cn
c I
:
0 0 1 1 1 1 1 1
( | , ,..., ) ( | )
n n n n n n n n
Pr C c C c C c C c Pr C c C c
(1.1.1)
(với điều kiện xác suất nàynghĩa)
Định nghĩa 1.1.2. Mt xích Markov đưc gi thuần nht nếu ch nếu c sut trong (1.1.1)
không ph thuộc vào
n
không thun nht trong các trường hợp còn li.
Hin ti, ta ch xét trưng hp thun nht mà với ta viết:
11
( | )
n n n n ij
Pr C c C c

,
ta đưa ra ma trn
Γ
đưc định nga:
.
ij


Γ
Để định nghĩa đầy đủ s tiến trin ca mt xích Markov, cn thiết phi c định mt phân phối ban
đầu cho trạng ti
0
C
, chng hn, mt véc tơ:
12
( , ,..., ),
m
p p pp
Vn đề chương này ta chỉ dng li việc xem t ch Markov thuần nht được đặc
trưng bởi cp
( , )pΓ
.
Định nghĩa 1.2.3. Mt ma trn Markov
Γ
đưc gi là chính quy nếu tn ti mt s nguyên
ơng
k
sao cho tt c c phần t ca ma trn
()k
Γ
thực s dương.
1.1.2. Phân loi trạng thái xích Markov
Ly
iI
đặt
()di
là ưc chung ln nht ca tập các số nguyên
n
sao cho
() 0.
n
ii
Định nghĩa 1.2.4. Nếu
( ) 1di
, trng thái
i
đưc gi là tuần hoàn chu kỳ
()di
. Nếu
( ) 1,di
thì
trạng thái
i
không tuần hoàn.
D thy, nếu
0
ii
thì
i
là không tuần hoàn. Tuy nhiên, điều ngượi li ca chắc đúng.
Định nghĩa 1.2.5. Mt xích Markov mà tất c các trạng thái của không tuần hoàn được gọi là
ch Markov không tuần hoàn.
Định nghĩa 1.2.6. Mt trng thái
i
đưc gọi vươn ti trạng thái
j
(viết là
ij
) nếu tn ti s
nguyên dương
n
sao cho
0.
n
ij
ijC
nghĩa là
i
không ơn tới đưc
j
.
Định nghĩa 1.2.7. Trạng thái
i
j
đưc gi ln thông nếu
ij
ji
, hoc nếu
.ij
Ta
viết
.ij
Định nga 1.2.8. Trạng thái
i
đưc gọi cốt yếu nếu liên thông với mi trng ti mà
ơn tới; tng hợp ngược li gi không cốt yếu.
Quan h c định mt quan h tương đương trên không gian trạng thái
I
dn ti mt s
chia lớp trên
.I
Lớp tương đương chứa
i
đưc ký hiệu bi
()Cl i
.
Định nga 1.2.9. Xích Markov đưc gọi không khai triển đưc nếu ch tn ti duy nht mt
lp tương đương trên.
Định nga 1.2.10. Tp con
E
của không gian trạng thái
I
đưc gọi đóng nếu: