ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TR N T NGỌ
NG N U P ỆU V NG NG P N T U T T TRƢỜNG NG O N
LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN
HÀ NỘI – 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TR N T NGỌ
NG N U P ỆU V NG NG P N T U T T TRƢỜNG NG O N
Ngành: H thống th ng tin
Chuyên ngành: H thống thông tin
Mã số: 60 48 01 04
LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN
NGƢỜ ƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM
HÀ NỘI – 2015
1
Ờ M ĐO N
T i xin cam đoan luận văn “Nghiên cứu khai phá dữ li u và ứng dụng phân tích xu thế thị trường chứng khoán" là c ng trình nghiên cứu của riêng t i. Các số li u, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa được c ng bố trên bất cứ c ng trình nào khác. T i đã trích dẫn đầy đủ các tài li u tham khảo, c ng trình nghiên cứu liên quan. Ngoại trừ các tài li u tham khảo này, luận văn hoàn toàn là nghiên cứu của riêng t i.
Luận văn được hoàn thành trong thời gian t i là học viên tại Khoa C ng ngh
th ng tin, Trường Đại học C ng ngh , Đại học Quốc gia Hà Nội.
Hà Nội, ngày 18 tháng 10 năm 2015
ọc viên
Tr n T c N ọc
2
Ờ ẢM ƠN
Lời đầu tiên, t i xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Nguyễn Hà Nam đã tận tình hướng dẫn t i trong suốt quá trình thực hi n luận văn tốt nghi p.
T i xin trân trọng cảm ơn các Thầy, C giáo đã tận tình chỉ dạy, cung cấp cho t i những kiến thức quý báu và lu n nhi t tình giúp đỡ, tạo điều ki n thuận lợi nhất trong suốt quá trình t i học tập tại Trường Đại học C ng ngh .
T i xin gửi lời cảm ơn tới các bạn trong nhóm do thầy Nguyễn Hà Nam hướng dẫn đã lu n sát cánh và hỗ trợ cho t i trong suốt quá trình học tập cũng như quá trình làm luận văn.
Cuối cùng, t i muốn được gửi lời cảm ơn tới gia đình, đồng nghi p và bạn bè, những người lu n bên cạnh, động viên và tạo điều ki n tốt nhất cho t i trong suốt quá trình học tập và thực hi n luận văn tốt nghi p.
T i xin chân thành cảm ơn!
3
M
LỜI CAM ĐOAN ....................................................................................................................... 1
LỜI CẢM ƠN ............................................................................................................................. 2
MỤC LỤC .................................................................................................................................. 3
AN MỤC N ............................................................................................................ 5
AN MỤC ẢN I ........................................................................................................ 6
MỞ Đ .................................................................................................................................... 7
1.
Đ t v n ...............................................................................................................................7
2.
M c tiêu n iên c u ..............................................................................................................7
3.
Đối tƣợng nghiên c u. ............................................................................................................7
4.
P ƣơn p áp n iên c u. ......................................................................................................7
5.
u tr c uận văn ..................................................................................................................8
Ch g N Q AN R ỜN C N O N C C Ỹ THUẬT TRUY N THỐNG ..................................................................................................................... 9
1.1. T trƣờn c n oán .......................................................................................................9
1.2.1.
1.2. Một số kỹ thuật cơ bản dùng trong th trƣờng ch ng khoán. ..........................................10 Phân tích kỹ thuật (Technical Analysis). ..................................................................................... 10 1.2.1.1. Biểu đồ dạng đường (Line chart). ........................................................................................... 11 1.2.1.2. Biểu đồ dạng then chắn (Bar chart). ....................................................................................... 11 1.2.1.3. Biểu đồ cây nến (Candlestick chart). ...................................................................................... 11 Một số chỉ báo kỹ thuật cơ bản Technical Indicator . ................................................................ 12
1.2.2.
1.2.2.1. Tính hội tụ và phân k của đường trung bình động MACD (Moving Average Convergence Divergence). ............................................................................................................................................. 12 1.2.2.2. MACD – Histogram. ............................................................................................................... 12 1.2.2.3. Dải băng Bollinger. ................................................................................................................. 13 1.2.2.4. Chỉ số sức mạnh tương đối RSI (Relative Strength Index). .................................................... 13 1.2.2.5. Aroon. ..................................................................................................................................... 14
1.3.1.
1.3.2.
1.3. Kỹ thuật dự báo nâng cao. ...................................................................................................14 Phân tích hồi quy (Regression Analysis)..................................................................................... 14 1.3.1.1. H số tương quan coefficient correlation . ............................................................................ 14 1.3.1.2. H số xác định coefficient of determination . ........................................................................ 15 Mô hình RIM utoRegressive Integrated Moving verage . .............................................. 15 1.3.2.1. Quá trình AR(p). ..................................................................................................................... 16 1.3.2.2. Quá trình MA(q). .................................................................................................................... 16 1.3.2.3. Mô hình ARMA. ..................................................................................................................... 16 1.3.2.4. Quá trình tích hợp I(d). ........................................................................................................... 17 1.3.2.5. M hình RIM p,d,q t ng quát. ......................................................................................... 17
1.4. t uận ................................................................................................................................18
Ch g AI P I C C Ỹ THUẬT PHÂN TÍCH DỰ BÁO. .............. 19
2.1. Khai phá tri th c và khai phá dữ liệu. ...............................................................................19 Khai phá tri thức. ......................................................................................................................... 19 Khai phá dữ li u. ......................................................................................................................... 20
2.1.1. 2.1.2.
4
2.1.2.1. Phân lớp. ................................................................................................................................. 20 2.1.2.2. Đánh giá m hình phân lớp. .................................................................................................... 21
2.2. Mạng Neural nhân tạo (Artificial Neural Network). ........................................................22 Kiến trúc mạng Neural ................................................................................................................ 22 Mạng Perceptron. ........................................................................................................................ 23 Mạng MLP .................................................................................................................................. 24 Huấn luy n mạng Neural ............................................................................................................. 25 Thuật toán lan truyền ngược (Back Propagation) ........................................................................ 26
2.2.1. 2.2.2. 2.2.3. 2.2.4. 2.2.5.
2.3.
P ƣơn p áp ensemb e .......................................................................................................28 Giới thi u phương pháp ensemble ............................................................................................... 28 Kỹ thuật Bagging ........................................................................................................................ 29 Kỹ thuật Boosting ....................................................................................................................... 29
2.3.1. 2.3.2. 2.3.3.
2.4. t uận .................................................................................................................................31
Ch g P ƠN P P IẢI Q ỰC N I M Đ N I C O I O N Ự O R ỜN C N O N ............................................................. 32
3.1.1.
3.1.2.
3.1. Xây dựn b i toán dự báo t trƣờn c n oán .........................................................32 Mô tả bài toán.............................................................................................................................. 32 3.1.1.1. Tính khả thi của bài toán. ........................................................................................................ 32 3.1.1.2. C ng cụ hỗ trợ giải quyết bài toán. ......................................................................................... 32 Quy trình giải quyết bài toán. ...................................................................................................... 32 3.1.2.1. Thu thập dữ li u. ..................................................................................................................... 33 3.1.2.2. Tiền xử lý dữ li u. ................................................................................................................... 34 3.1.2.3. T chức dữ li u. ...................................................................................................................... 34 3.1.2.4. Huấn luy n m hình. ............................................................................................................... 35 3.1.2.5. Đánh giá m hình và nhận x t kết quả. ................................................................................... 35
3.2. M n xu t. ...................................................................................................................35
3.3.1. 3.3.2.
3.3.3.
3.3.4.
3.3. Thực nghiệm. ........................................................................................................................36 Mô hình ARIMA. ........................................................................................................................ 36 M hình mạng neural truyền thống. ............................................................................................ 37 3.3.2.1. Thực hi n dự đoán theo chu k T+1. ...................................................................................... 37 3.3.2.2. Thực hi n dự đoán theo chu k T+4. ...................................................................................... 39 Cải tiến 1: M hình mạng neural và b sung một số chỉ báo kỹ thuật. ....................................... 42 3.3.3.1. Phân lớp. ................................................................................................................................. 42 3.3.3.2. Hồi quy. .................................................................................................................................. 43 Cải tiến 2: Mạng neural có thêm các chỉ báo và sử dụng phương pháp ensemble. ..................... 47 Phân lớp. ................................................................................................................................. 47 3.3.4.1. 3.3.4.2. Hồi quy. .................................................................................................................................. 47
3.4.
P n t c ..............................................................................................................................49
3.5. K t luận. ................................................................................................................................51
K T LUẬN .............................................................................................................................. 52
I I AM ẢO ........................................................................................................ 53
5
N M N V
Hình 1.1: Biểu đồ dạng đường. ..............................................................................................................11 Hình 1.2: Biểu đồ dạng then chắn. .........................................................................................................11 Hình 1.3. Biểu đồ dạng cây nến. ............................................................................................................11 Hình 2.1: Phương pháp Holdout trong bài toán phân lớp. .....................................................................22 Hình 2.2: Mạng truyền thẳng. ................................................................................................................22 Hình 2.3: Mạng phản hồi........................................................................................................................23 Hình 2.4: M hình một Perceptron. ........................................................................................................23 Hình 2.5: M hình mạng MLP. ..............................................................................................................25 Hình 2.6: M hình quá trình huấn luy n mạng MLP b ng thuật toán lan truyền ngược. ......................26 Hình 2.7: Giải thuật thuật toán lan truyền ngược. ..................................................................................27 Hình 2.8: Phương pháp Ensemble. .........................................................................................................28 Hình 3.1: Quy trình giải quyết bài toán. .................................................................................................32 Hình 3.2: M hình mạng Neural trong giải quyết bài toán dự báo chứng khoán. ..................................33 Hình 3.3: M hình đề xuất: Mạng Neural có b sung thêm các chỉ báo kỹ thuật. .................................35 Hình 3.4: M hình đề xuất: Mạng neural có thêm các chỉ báo và sử dụng phương pháp ensemble. .....36 Hình 3.5: Luồng công vi c thực nghi m. ...............................................................................................36 Hình 3.6: T l lỗi qua các lần Epoch của m hình mạng Neural. .........................................................38 Hình 3.7: T l lỗi MSE. ........................................................................................................................38 Hình 3.8: H số tương quan R. ...............................................................................................................38 Hình 3.9: T l lỗi qua các lần Epoch của m hình mạng Neural. .........................................................39 Hình 3.10: Biểu đồ thống kê kết quả dự báo của mô hình mạng neural theo tiếp cận phân lớp. ...........40 Hình 3.11: T l lỗi MSE. ......................................................................................................................40 Hình 3.12: H số tương quan R. .............................................................................................................40 Hình 3.13: Biểu đồ thể hi n giá trị MSE và h số tương quan qua 20 lần kiểm nghi m. ......................41 Hình 3.14: T l lỗi qua các Epoch của m hình mạng Neural. .............................................................42 Hình 3.15: Biểu đồ thống kê kết quả dự báo theo hướng tiếp cận phân lớp sau cải tiến 1. ...................43 Hình 3.16: T l lỗi MSE. ......................................................................................................................44 Hình 3.17: H số tương quan R. .............................................................................................................44 Hình 3.18: Biểu đồ thể hi n giá trị MSE và h số tương quan qua 20 lần kiểm nghi m. ......................44 Hình 3.19: H số tương quan R b ng phương pháp Ensemble cho mạng neural. ..................................48 Hình 3.20: Đồ thị giá đóng cửa thực tế và giá dự đoán. .........................................................................49
6
N M ẢNG U
Bảng 3.1: Dữ li u c phiếu MSFT. ........................................................................................................33 Bảng 3.2: So sánh các kết quả thực nghi m b ng m hình rima. ........................................................37 Bảng 3.3: Kết quả dự đoán b ng m hình rima. ..................................................................................37 Bảng 3.4: Kết quả phân lớp b ng mạng Neural. ....................................................................................39 Bảng 3.5: Kết quả dự đoán khi phân tích hồi quy b ng mạng Neural truyền thống. .............................41 Bảng 3.6: So sánh giá trị MAPE trung bình của nhiều mô hình. ...........................................................42 Bảng 3.7: Kết quả phân lớp b ng mạng Neural. ....................................................................................43 Bảng 3.8: Kết quả dự đoán khi phân tích hồi quy b ng mạng Neural cải tiến 1. ...................................45 Bảng 3.9: Kết quả sử dụng mạng neural để phân lớp dữ li u. ...............................................................46 Bảng 3.10: Kết quả sử dụng mạng neural để phân tích hồi quy dữ li u. ................................................46 Bảng 3.11: Kết quả dự đoán của mạng Neural truyền thống và mạng Neural cải tiến 1. ......................46 Bảng 3.12: Kết quả phân lớp b ng phương pháp Ensemble cho mạng neural. ......................................47 Bảng 3.13: T ng hợp các kết quả dự đoán của nhiều mô hình thực nghi m. ........................................48 Bảng 3.14: Lời khuyên cho các nhà đầu tư chứng khoán. .....................................................................51
7
MỞ Đ U
1.
Đ t v n
Sự phát triển của công ngh thông tin và những ứng dụng công ngh thông tin
trong nhiều lĩnh vực của đời sống, kinh tế xã hội đã sản sinh ra một lượng dữ li u
kh ng lồ. Các phương pháp quản trị và khai thác dữ li u thủ công, truyền thống tỏ ra
kém hi u quả trước nhu cầu khai thác và phát hi n th ng tin có giá trị ẩn chứa trong
lượng lớn dữ li u này. Sự ra đời của các kỹ thuật mới như là khai phá tri thức
(Knowledge Discovery in Databases) và khai phá dữ li u Data Mining đã đem lại
hi u quả cao trong vấn đề khai thác và phát hi n tri thức, áp dụng trên nhiều lĩnh vực
khác nhau. Đặc bi t trong m i trường kinh doanh, người ta mong muốn có thật nhiều
thông tin hữu ích để hỗ trợ kinh doanh hi u quả. Trong đó, nhu cầu dự báo cho thị
trường chứng khoán để hạn chế rủi ro và thua lỗ được các t chức cũng như các nhà
đầu tư cá nhân đặt làm mối quan tâm hàng đầu.
Dự đoán xu thế của thị trường chứng khoán là một c ng vi c kh ng đơn giản.
Sự không tuyến tính của thị trường kèm theo sự tác động của nhiều yếu tố bên ngoài
cũng làm ảnh hưởng tới giá cả của thị trường chứng khoán. Do đó, vi c xây dựng một
h thống phân tích dự báo với các tiêu chí đầy đủ, khách quan và khoa học cả về định
tính và định lượng, cả về góc độ tài chính và phi tài chính là cần thiết.
2. M c tiêu n iên c u
Luận văn của tôi tập trung nghiên cứu cả hai phương pháp định tính và định lượng với mong muốn có được một h thống dự đoán xu thế thị trường chứng khoán đủ mạnh hỗ trợ đắc lực cho các nhà đầu tư chứng khoán.
3. Đối tƣợn n iên c u
Đối tượng mà luận văn của tôi nghiên cứu chính là xu thế thị trường chứng khoán. Cụ thể, t i sử dụng giá c phiếu MSFT của công ty Microsoft Corporation thu thập từ trang finance.yahoo.com niêm yết trên sàn NASDAQ (National Association of Securities Dealers Automated Quotations) để tiến hành dự đoán.
4. P ƣơn p áp n iên c u
Luận văn tập trung vào vi c tìm hiểu m hình khai phá dữ li u và các phân tích kỹ thuật cơ bản dùng trong lĩnh vực chứng khoán theo cả hai phương pháp định tính và định lượng. Luận văn thực hi n vi c kết hợp mô hình khai phá dữ li u: mạng neural và các phân tích kỹ thuật cơ bản, sử dụng phương pháp ensemble giúp gia tăng độ chính xác cho mạng neural để đưa ra đánh giá nh m hỗ trợ các nhà đầu tư trong vi c ra quyết định mua bán c phiếu.
8
5. u tr c uận văn
Bố cục của bài luận văn được trình bày trong 3 chương.
ƣơn 1: Tổng quan v th trƣờn c n oán v các kỹ thuật truy n
thống.
Chương này trình bày một số kiến thức nền tảng về thị trường chứng khoán, các phương pháp nghiên cứu cơ bản và những đặc trưng của thị trường chứng khoán thông qua các biểu đồ, các chỉ báo như M CD, dải băng Bollinger, RSI, roon . Và tìm hiểu mô hình hồi quy ARIMA chuyên dụng trong vi c dự đoán giá cả thị trường chứng khoán.
ƣơn 2: K ai p á dữ iệu v các ỹ t uật p n t c dự báo
T i tìm hiểu các đặc trưng cơ bản của lĩnh vực khai phá tri thức, khai phá dữ li u và các bài toán đặc trưng trong lĩnh vực này. M hình mạng neural là một trong những m hình khai phá dữ li u điển hình, có khả năng áp dụng cao cho bài toán phân tích xu thế thị trường chứng khoán. Ngoài ra để gia tăng độ chính xác cho m hình khai phá dữ li u, phương pháp ensemble được coi là một trong những giải pháp tối ưu. Chương này chủ yếu xây dựng kiến thức nền tảng để t i tiến hành những thực nghi m ở chương sau.
ƣơn 3: P ƣơn p áp iải quy t, thực nghiệm v án iá c o b i toán
dự báo th trƣờng ch ng khoán.
Nội dung chủ yếu của chương 3 là áp dụng các m hình đã tìm hiểu vào vi c dự báo thị trường chứng khoán. Đầu tiên, t i tiến hành thực nghi m bài toán với mô hình truyền thống: RIM và mạng neural. Tiếp đó t i cải tiến độ chính xác cho mạng neural, b ng cách sử dụng bộ dữ li u chứng khoán và b sung thêm một số chỉ báo kỹ thuật cơ bản như M CD, RSI, roon... Nh m gia tăng độ chính xác cho m hình mạng neural tôi tiếp tục cải tiến lần 2 với kỹ thuật ensemble. Cuối cùng, tôi tiến hành đánh giá kết quả dự đoán của từng mô hình để tìm ra lời khuyên tin cậy nhất cho các nhà đầu tư, nhà kinh doanh chứng khoán.
9
ƣơn 1: T NG QU N V T TRƢỜNG NG O N V Ỹ T UẬT TRUY N T ỐNG
1.1. T trƣờn c n oán
Trong nền kinh tế hi n đại, thị trường chứng khoán là nơi diễn ra các hoạt động giao dịch mua bán chứng khoán trung và dài hạn. Vi c mua bán này được tiến hành ở thị trường sơ cấp khi người mua mua được chứng khoán lần đầu từ những người phát hành, và ở thị trường thứ cấp khi có sự mua đi bán lại các chứng khoán đã được phát hành ở thị trường sơ cấp. Như vậy, xét về mặt hình thức, thị trường chứng khoán là nơi diễn ra các hoạt động trao đ i, mua bán, chuyển nhượng các loại chứng khoán, qua đó thay đ i các chủ thể nắm giữ chứng khoán [1].
Các hình thức của thị trường chứng khoán bao gồm: thị trường tập trung, thị
trường phi tập trung và thị trường chợ đen.
Với mỗi một mã chứng khoán trên sàn giao dịch đều bao gồm các chỉ số cơ bản
như:
- Cột giá tham chiếu: Là giá đóng cửa của ngày giao dịch trước đó và là cơ sở để
xác định giá trần, giá sàn của ngày giao dịch hi n tại.
- Cột giá trần: Là mức giá cao nhất mà nhà đầu tư có thể đặt l nh mua, l nh bán
chứng khoán.
- Cột giá mở cửa: Là mức giá thực hi n đầu tiên trong ngày giao dịch. - Cột giá đóng cửa: Là mức giá thực hi n cuối cùng trong ngày giao dịch. - Cột giá khớp l nh: Là mức giá mà tại đó khối lượng chứng khoán được giao
dịch nhiều nhất.
- Cột khối lượng khớp l nh: Là khối lượng chứng khoán được thực hi n tại giá
khớp l nh.
- Cột chênh l ch +/- : Là thay đ i của mức giá hi n tại so với giá tham chiếu
trong ngày giao dịch = giá hi n tại – giá tham chiếu .
- Cột mua: Gồm 6 cột biểu thị cho 3 mức giá đặt mua cao nhất tương ứng với các khối lượng đặt mua tại các mức giá cao nhất đó. Khi kết thúc phiên giao dịch, bảng đi n tử sẽ hiển thị các th ng tin về khối lượng chứng khoán tương ứng với các mức giá chưa được khớp l nh dư mua .
- Cột bán: Gồm 6 cột biểu thị cho 3 mức giá đặt bán thấp nhất tương ứng với các
khối lượng đặt bán tại các mức giá thấp nhất đó.
Trong kinh tế thị trường, không có hoạt động đầu tư kinh doanh nào mà lại không có rủi ro. Lợi nhuận càng cao, rủi ro càng lớn... Đầu tư chứng khoán cũng chịu tác động của quy luật này, nhưng ở mức sâu đậm và đa di n hơn. Do vậy để đạt được t l lợi nhuận cao trong đầu tư chứng khoán, vấn đề đặt ra là phải có kiến thức để chủ động nhận biết các loại rủi ro này [2].
10
1.2. Một số ỹ t uật cơ bản dùn tron t trƣờn c n oán.
Sự bất n của thị trường kèm theo đó là tác động của nhiều yếu tố bên ngoài cũng làm ảnh hưởng tới giá cả của thị trường chứng khoán. Vì vậy, làm thế nào để dự đoán chính xác được sự lên xuống của thị trường là một bài toán mà mọi nhà đầu tư đều quan tâm, nghiên cứu. Các nhà nghiên cứu, chuyên gia thường dựa trên vi c phân tích kỹ thuật và sử dụng những chỉ báo để xác định xu hướng và thời điểm đầu tư thích hợp. Phần này trình bày một số kỹ thuật hay được sử dụng.
1.2.1. P n t c ỹ t uật (Tec nical Analysis).
Phân tích kỹ thuật nghiên cứu các hành vi của các bên tham gia thị trường thông qua sự biến động của giá, khối lượng chứng khoán giao dịch nh m xác định được xu thế biến động giá và thời điểm đầu tư. Phân tích kỹ thuật dựa trên giả định r ng lịch sử lặp lại và hướng thị trường trong tương lai có thể được xác định b ng cách kiểm tra giá vừa qua. Công cụ cơ bản của phân tích kỹ thuật là biểu đồ. Biểu đồ thể hi n chuỗi dao động của giá trong một khoảng thời gian.
u điểm:
Giúp xác định chiến lược kinh doanh ngắn hạn, trung hạn và dài hạn. Giúp xác định các đường ti m cận giá để có quyết định mua vào – bán ra c
phiếu một cách hợp lý.
Giúp xác định các khoảng dao động của giá để xác định thời điểm nên hay chưa
nên tham gia vào thị trường.
Khuyết điểm:
Phân tích kỹ thuật hoàn toàn dựa vào dữ li u lịch sử mà lịch sử thì không phải
bao giờ cũng lặp lại.
Phân tích kỹ thuật nghiên cứu kết quả của một mô hình chứ không nghiên cứu
các nguyên nhân tạo ra m hình đó.
Các chỉ số có thể dẫn tới sự hiểu nhầm hoặc hiểu không chính xác trong các tình huống khác nhau trên thị trường. Tình trạng các nhà đầu cơ áp dụng chiến lược giao dịch tương tự nhau nhưng lại thu được kết quả khác xa nhau rất thường xuyên xảy ra. Lý do là các chỉ số được áp dụng trong các khoảng biên độ thời gian khác nhau, các tín hi u được hiểu khác nhau và chiến lược kiểm soát rủi ro được áp dụng cũng khác nhau.
Quan điểm cá nhân của nhà kinh doanh cũng có ảnh hưởng đến vi c diễn giải
các dữ li u lịch sử và dữ li u mới cập nhật.
Hi n nay trên thị trường chứng khoán các chuyên viên phân tích dùng rất nhiều các loại biểu đồ khác nhau để phân tích, trong đó có 3 loại biểu đồ được dùng ph biến đó là: biểu đồ dạng đường (Line chart), biểu đồ dạng then chắn (Bar chart), biểu đồ dạng cây nến (Candlestick chart) [1].
11
1.2.1.1. Biểu đồ dạ g đ ờng (Line chart).
Biểu đồ dạng đường ưu điểm dễ sử dụng. Nhưng do diễn biến của thị trường
Hình 1.1: Biểu đồ dạng đường.
chứng khoán ngày càng phức tạp cho nên loại biểu đồ này ngày càng ít được sử dụng.
1.2.1.2. Biểu đồ dạng then chắn (Bar chart).
Hình 1.2: Biểu đồ dạng then chắn.
Biểu đồ dạng then chắn phản ánh rõ nét sự biến động của giá chứng khoán. Các chuyên viên phân tích thường sử dụng loại biểu đồ này để phân tích trên các thị trường chứng khoán hi n đại khớp l nh theo hình thức khớp l nh liên tục và độ dao động của giá chứng khoán trong một phiên giao dịch là tương đối lớn.
1.2.1.3. Biểu đồ cây nến (Candlestick chart).
Hình 1.3. Biểu đồ dạng cây nến.
Dạng biểu đồ này phản ánh rõ nét nhất về sự biến động của giá chứng khoán trên thị trường chứng khoán khớp l nh theo hình thức khớp l nh định k . Ở biểu đồ này nếu giá đóng cửa cao hơn giá mở cửa, nến sẽ màu xanh, và giá đóng cửa thấp hơn giá mở cửa, nến sẽ màu đỏ.
12
1.2.2. Một số c ỉ báo ỹ t uật cơ bản (Technical Indicator).
Các chuyên gia lĩnh vực kinh tế thường dựa trên kinh nghi m sử dụng đường chỉ báo để xác định xu hướng và thời điểm đầu tư thích hợp. Những chỉ báo này có thể sử dụng độc lập hoặc song song để b trợ thêm tính chính xác cho vi c đầu tư.
1.2.2.1. Tính hội tụ v h của đ ờng tru g bì h động MACD (Moving
Average Convergence Divergence).
M CD được sử dụng để nhận biết xu hướng, tín hi u thị trường đảo chiều [19]. M CD được xác định b ng cách lấy giá trị trung bình động lũy thừa EMA (Exponential Moving Average của giá c phiếu ngắn hạn giả sử 12 ngày trừ đi giá trị EM của giá c phiếu dài hạn giả sử 26 ngày .
M CD là một chỉ báo chỉ ra sự hội tụ và phân k của đường trung bình động. Sự hội tụ xảy ra khi đường chỉ báo MACD di chuyển cùng chiều tăng/giảm với đường giá, báo hi u xu hướng tăng giá trong tương lai. Sự phân k xảy ra khi đường MACD di chuyển ngược chiều với đường giá, báo hi u xu hướng giảm giá trong tương lai. Hi n tượng phân k có 2 loại: phân k dương đường chỉ báo tăng còn đường giá giảm), phân k âm đường chỉ báo giảm mà đường giá lại tăng .
u điểm: M CD vừa chỉ ra xu thế của thị trường, vừa xác định các tín hi u mua bán trên cùng một đồ thị. Khoảng cách giữa trung bình động ngắn hạn và trung bình động dài hạn thể hi n xu thế tăng hoặc giảm của thị trường.
Khuyết điểm: M CD sử dụng nhiều đường trung bình động để đưa ra tín hi u
mua bán có thể làm tăng độ trễ cho quyết định của nhà đầu tư.
1.2.2.2. MACD – Histogram.
Năm 1986, Thomas spray giới thi u MACD – Histogram như một giải pháp làm giảm thiểu độ trễ của MACD [19]. Giá trị của MACD – Histogram được tính b ng hi u của M CD và EM 9 ngày của chính MACD.
Nếu đường M CD đang ở trên đường EMA - 9, giá cả đang lên nhưng M CD – Histogram có sự xuất hi n của phân k âm thì lúc này nhà đầu tư có thể ra quyết định bán ra sớm hơn là chờ đợi sự giao cắt mới ra quyết định bán.
Nếu đường M CD đang ở dưới đường EMA - 9, giá cả đang xuống nhưng MACD – Histogram có sự xuất hi n của phân k dương thì lúc này nhà đầu tư có thể ra quyết định mua vào sớm hơn là chờ đợi sự giao cắt mới ra quyết định mua.
u điểm: MACD – Histogram dự đoán được sự xuất hi n của điểm báo hi u cho các hành vi mua, bán của nhà đầu tư trước khi nó xảy ra, nhờ đó nhà đầu tư có thể ra quyết định mua, bán kịp thời hơn so với vi c chờ đợi sự giao cắt giữa MACD và đường EMA của chính nó.
Khuyết điểm: MACD – Histogram không thật sự hi u quả trong vi c đánh giá
mức độ quá mua (overbought) và quá bán (oversold).
13
1.2.2.3. ải b g i ger.
Năm 1980, John Bollinger giới thi u dải Bollinger nh m xác định thị trường đang giao dịch s i động hay trầm lắng. Dải Bollinger có biên dao động dựa vào sự biến động giá và độ l ch chuẩn [19]. Dải Bollinger gồm:
Dải Bollinger giữa cho thấy xu hướng chu k trung gian. Th ng thường nó là đường trung bình đơn giản SM Simple Moving verage với chu k là 20 ngày. Dải Bollinger phía trên giống dải giữa, nhưng được dịch chuyển lên trên thêm hai lần độ l ch chuẩn. Dải Bollinger phía dưới giống dải giữa, nhưng nó được dịch chuyển xuống dưới thêm hai lần độ l ch chuẩn.
Các chiến lược được sử dụng dựa trên nguyên lý r ng giá lu n có xu hướng quay trở lại vùng giữa của dải Bollinger. Đưa ra quyết định mua khi giá chạm vào rìa của dải Bollinger dưới, quyết định bán khi giá chạm vào rìa của dải Bollinger trên.
u điểm: Dải băng Bollinger xác định tốt các khoảng thời gian có độ biến động
lớn do đó có thể đáp ứng vai trò một c ng cụ cảnh báo động thái của giá c phiếu.
Khuyết điểm: Dải băng bollinger xác định chiều của một biến động mạnh chỉ
khi được kết hợp cùng các c ng cụ khác.
1.2.2.4. Chỉ số sức mạ h t g đối RSI (Relative Strength Index).
Năm 1978, J. elles ilder giới thi u chỉ số RSI với vai trò là chỉ số dùng để đo sức mạnh/yếu của một loại chứng khoán khi nó tự so sánh với chính nó trong một khoảng thời gian nhất định [19]. Th ng thường chu k tính RSI là 14 ngày.
RS là t số giá trung bình các phiên tăng và giá trung bình các phiên giảm. Khi
đó, chỉ số sức mạnh tương đối:
Nếu đường RSI tăng vượt qua đường 50 ở giữa, giá của c phiếu đó có k vọng tăng giá. Ngược lại, nếu đường RSI giảm xuống dưới đường này, giá của c phiếu đó có k vọng giảm giá.
Đường 70 được coi là ngưỡng lỗ mua overbought . Nếu đường RSI vượt qua ngưỡng này là lúc nhà đầu tư sẽ bán bớt c phiếu ra để trở về mức cân b ng của thị trường. Đường 30 được coi là ngưỡng lỗ bán oversold . Nếu đường RSI vượt qua ngưỡng này là lúc nhà đầu tư sẽ mua vào để đẩy giá lên về với mức cân b ng của thị trường.
u điểm: RSI là một chỉ báo rất tốt để đưa ra tín hi u nhanh.
Khuyết điểm: Sử dụng RSI cho cơ hội giao dịch kh ng thường xuyên, thi thoảng vẫn có tín hi u sai. Do đó, cần phải quan sát theo d i tín hi u RSI thường xuyên. Khuyến nghị nên sử dụng RSI kết hợp với các chỉ báo khác.
14
1.2.2.5. Aroon.
Năm 1995, Tushar Chande giới thi u roon nh m xác định xu thế giá cả của thị trường chứng khoán [19]. Ý tưởng tính toán Aroon là dựa trên vi c xác định phiên nhỏ nhất (hoặc cao nhất) cách phiên hi n tại bao xa trong số các phiên lấy trong chu k tính Aroon. Th ng thường chu k tính roon là 25 ngày.
Aroon Up = 100 x (25- số ngày cách phiên lớn nhất trong chu k 25 ngày /25.
Aroon Down=100x(25- số ngày cách phiên thấp nhất trong chu k 25 ngày /25.
roon tương quan = roon up – Aroon down.
Nếu giá trị roon tương quan lớn hơn 50 thì thị trường đang trong xu hướng
tăng mạnh và tại đây có thể sẽ diễn ra sự đảo chiều của xu hướng.
Nếu giá trị roon tương quan có giá trị gần 0 tức là roon up và roon down xấp xỉ nhau, đây là lúc thị trường đang chuyển giao hoặc kh ng có xu hướng. Nếu giá trị roon tương quan giảm từ 0 đến -50 thì đường giá có hướng di chuyển giảm. Nếu giá trị roon tương quan nhỏ hơn -50 có nghĩa là thị trường đang trong xu hướng giảm rất thấp, nếu sau đó giá trị roon tương quan bắt đầu tăng trên -50 và hướng về đường 0 thì xu hướng giảm giá đã yếu, sự đảo chiều bắt đầu được hình thành.
u điểm: chỉ báo roon xác định hướng đi của đường giá. Chỉ báo này tăng khi đường giá tăng và giảm khi đường giá giảm, giúp cho nhà đầu tư biết thị trường đang trong xu thế tăng hay trong xu thế giảm hoặc đang dao động trong một phạm vi giá nào đó.
Khuyết điểm: chỉ báo Aroon hỗ trợ xác định xu hướng mạnh hơn nếu được kết
hợp cùng các c ng cụ chỉ báo khác.
1.3. ỹ t uật dự báo n n cao
1.3.1. P n t c ồi quy (Regression Analysis).
Phân tích hồi quy nghiên cứu mối quan h của biến được dự đoán vào một hay nhiều biến quan sát, nh m mục đích ước lượng hoặc tiên đoán giá trị k vọng của biến được dự đoán khi biết trước giá trị của biến quan sát [7]. Phân tích hồi quy dựa trên giả định biến quan sát là xác định trong khi biến được dự đoán là ngẫu nhiên.
Để đánh giá bài toán hồi quy, chúng ta thường dùng các đại lượng sau.
1.3.1.1. ố t g ua c efficie t c rre ati
H số tương quan R đo mức độ liên kết chặt chẽ giữa đại lượng thực tế X và
dự đoán Y.
(1.1)
Trong đó: là giá trị trung bình tương ứng của tập các giá trị Xi, Yi thuộc
, hai đại lượng X, Y.
15
r có giá trị từ -1 đến 1; r b ng 0 (hay gần 0 có nghĩa là hai đại lượng X và Y không có liên h gì với nhau; ngược lại nếu r b ng -1 hay 1 có nghĩa là hai đại lượng X và Y có mối liên h chặt chẽ. H số này kh ng có đơn vị đo cụ thể.
1.3.1.2. ố c đ h c efficie t f deter i ati
là giá trị trung bình của X. H số xác định R2 dùng để đánh giá mức độ phù hợp của m hình hồi quy, thể hi n mối quan h tương quan giữa các đại lượng. H số xác định chính là bình phương của h số tương quan. H số xác định diễn đạt t l của giá trị thực tế X và giá trị dự đoán Y.
• TSS (Total Sum of Squares : T ng bình phương chung đo biến đ i của giá trị
thực tế Xi quanh giá trị trung bình
ESS (Explained Sum of Squares): T ng bình phương được giải thích b ng mô hình hồi quy, đo sự biến đ i giữa các giá trị được dự đoán Yi quanh giá trị trung
(1.2)
bình
RSS (Residual Sum of Squares): T ng bình phương của phần dư, đo sự sai khác
(1.3)
giữa giá trị thực tế X và giá trị được dự đoán Y.
(1.4)
Do: TSS = ESS + RSS. Nên (1.5)
Miền xác định của R2: 0 R2 1.
R21: mô hình hồi quy càng phù hợp.
R20: mô hình hồi quy càng ít phù hợp.
Ví dụ: Nếu r = 0.922 thì R2 = 0.850, có nghĩa là 85% t ng số biến được dự đoán trong Y được giải thích b ng mối quan h giữa X và Y, còn 15% t ng số biến còn lại thì không giải thích được b ng mối liên h này.
1.3.2. M n R M ( utoRe ressive nte rated Moving Average).
Mô hình ARIMA này được đưa ra bởi Box & Jenkins năm 1970 [6]. Đây là mô hình dự báo kinh tế được sử dụng rộng rãi. RIM được kết hợp bởi 3 quá trình chính: utoregression “ R” quá trình tự hồi quy , Integrated “I” quá trình tích hợp) và Moving verage “M ” quá trình trung bình trượt).
16
1.3.2.1. Quá trình AR(p).
M hình tự hồi quy R, dự báo các biến tương lai b ng cách xây dựng hàm
tuyến tính từ các giá trị quan sát trong quá khứ [13].
(1.6)
Trong đó:
: quan sát ở hi n tại.
c: h ng số.
là h số tương ứng với các giá trị quan sát .
et: sai số nhiễu trắng white noise). Tính “nhiễu trắng” xảy ra khi: kì vọng và hi p phương sai b ng 0, còn phương sai là một h ng số kh ng phụ thuộc vào thời gian.
K vọng:
.
Phương sai: với Hi p phương sai: cov et, et-k) = 0 với k ≠0.
p là số giá trị quan sát trong quá khứ, khi đó p cũng thể hi n số bậc của mô hình tự hồi quy, được kí hi u là R p . Nếu ta sử dụng hai quan sát trong quá khứ, ta có mô hình tự hồi quy bậc hai AR(2). Tức là, giá trị của y tại thời điểm t phụ thuộc vào giá trị
của nó tại hai thời điểm t-1 và t-2 và có phương trình sau:
1.3.2.2. Quá trình MA(q).
M hình trung bình trượt di động là một hàm tuyến tính phụ thuộc vào các sai
(1.7)
số dự báo ở quá khứ và hi n tại [13].
Trong đó :
: quan sát ở hi n tại.
: h ng số.
là h số tương ứng với giá trị sai số nhiễu trắng
q là số lượng sai số nhiễu trắng sử dụng trong m hình hàm trung bình trượt di động, q cũng thể hi n số bậc của m hình M , kí hi u M q . í dụ, m hình M 2 sử dụng hai sai số nhiễu trắng có dạng:
1.3.2.3. Mô hình ARMA.
M hình kết hợp tự hồi quy bậc p và trung bình trượt bậc q được ký hi u là
RM p,q có dạng đơn giản:
(1.8)
17
Gọi B là toán tử thực hi n dịch chuyển dữ li u ngược lại một bước thời gian
(shifting the data back one period) [13].
Đại lượng B hữu ích cho vi c biểu diễn sai phân. . Nếu dịch chuyển
về hai thời điểm trước thời điểm hi n tại ta lấy: .
Như vậy: (1.8)
(1.9)
Kết hợp RM với quá trình tích hợp I d tạo nên m hình RIM . Thành
phần này được định nghĩa trong tiểu mục 1.3.2.4.
1.3.2.4. Quá trình tích hợp I(d).
Ramanathan đã nhận định: Hầu hết các chuỗi thời gian về kinh tế là kh ng dừng vì chúng thường có một xu hướng tuyến tính hoặc mũ theo thời gian [13]. Quá trình tích hợp I có tác dụng chuyển đ i chuỗi thời gian kh ng dừng này thành chuỗi dừng thông qua sai phân.
Chuỗi thời gian được coi là dừng khi giá trị trung bình, phương sai, hi p
phương sai tại các độ trễ khác nhau đều kh ng đ i ở bất k thời điểm nào.
d là bậc sai phân, kí hi u I d . Nếu sai phân bậc 1 làm chuỗi thời gian thành có
tính dừng thì kí hi u tương ứng là I 1 :
Nếu sai phân bậc 2 làm chuỗi thời gian có tính dừng thì kí hi u tương ứng là
I(2):
1.3.2.5. M hì h ARIMA d t g u t.
Mô hình ARIMA là một mô hình dự báo định lượng theo thời gian, giá trị tương lai sẽ phụ thuộc vào xu thế vận động của đối tượng đó trong quá khứ. Mô hình RIM phân tích tính tương quan giữa các dữ li u quan sát để đưa ra m hình dự báo th ng qua các bước nhận dạng m hình, ước lượng các tham số từ dữ li u quan sát và kiểm tra các tham số ước lượng để tìm ra mô hình thích hợp. Mô hình thích hợp này được chọn để dự báo giá trị tương lai.
Kết hợp 3 quá trình R p , I d , M q ta thu được m hình RIM p,d,q .
(1.10)
Bộ tham số (p,d,q) này được kiểm nghi m qua độ tin cậy của các giá trị dự
đoán.
18
1.4. t uận.
Trong chương 1, luận văn đã giới thi u những kiến thức cơ bản về thị trường
chứng khoán và trình bày được một số kỹ thuật truyền thống dùng trong lĩnh vực phân
tích, dự báo chứng khoán. Tiếp cận theo phương di n phân tích cơ bản với thế mạnh là
dự đoán xu hướng và thời điểm đầu tư thích hợp, các nhà nghiên cứu, chuyên gia
chứng khoán thường dựa trên vi c phân tích biểu đồ giá, các chỉ báo như M CD, dải
băng Bollinger, RSI, roon .. Với cách tiếp cận theo phương di n kỹ thuật phân tích
nâng cao thì mô hình hồi quy và m hình RIM được sử dụng rộng rãi hơn trong
vi c dự đoán định lượng giá cả chứng khoán. Cả hai cách tiếp cận này đều có ưu điểm
riêng và dự đoán được xu thế của thị trường chứng khoán.
19
ƣơn 2: P ỆU VÀ Ỹ T UẬT P N T Ự O
2.1. ai p á tri t c v ai p á dữ iệu.
Khai phá tri thức từ cơ sở dữ li u (Knowledge Discovery in Database - KDD) và khai phá dữ li u (Data Mining- DM được xem như một cách tiếp cận mới trong vi c tìm kiếm tri thức từ các nguồn dữ li u có sẵn. Nhờ đó mà từ những tập dữ li u kh ng lồ và hỗn tạp có thể tìm ra được những tri thức hữu ích [3].
Khai phá tri thức và khai phá dữ li u đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, viễn th ng, internet Rất nhiều t chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ li u vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn. Một ứng dụng điển hình của khai phá dữ li u như: Đơn vị Able Danger của Quân đội Mỹ đã dùng khai phá dữ li u dựa trên lượng dữ li u lớn 2.5 terabyte và tìm kiếm phân tích các vụ khủng bố có liên quan trước đó đã tìm ra kẻ đứng đầu cuộc tấn công ngày 11/9/2001, kết quả cho thấy Mohamed Atta và ba kẻ tấn công khác là các thành viên bị nghi ngờ thuộc lực lượng l Qaeda đã hoạt động ở Mỹ một năm trước khi xảy ra vụ khủng bố trên.
2.1.1. ai p á tri t c.
Quá trình khai phá tri thức gồm các bước:
1. Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu và các dữ li u không cần thiết.
2. Tích hợp dữ liệu: (data integration): tích hợp dữ li u từ các nguồn khác nhau
như: CSDL, kho dữ li u
3. Trích chọn dữ liệu (data selection): trích chọn dữ li u từ kho dữ li u và chuyển đ i về dạng thích hợp cho quá trình khai phá tri thức. Quá trình này bao gồm cả vi c xử lý dữ li u nhiễu (noisy data), dữ li u kh ng đầy đủ (incomplete data)...
4. Chuyển đổi dữ liệu (data transformation): Trong quá trình này, dữ li u sẽ được t chức lại ở dạng phù hợp với các mô hình khai phá ở bước 5, b ng cách thực hi n thao tác nhóm hoặc tập hợp.
5. Khai phá dữ liệu (data mining): Quá trình này sử dụng những kỹ thuật, mô hình
học máy tiên tiến nhất để chắt lọc ra những mẫu dữ li u có giá trị.
6. Đánh giá mẫu (Pattern evaluation): Dựa vào một số ph p đo, đánh giá sự hữu
ích của các mẫu biểu diễn tri thức nhận được từ bước khai phá dữ li u.
7. Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật
(biểu đồ, hình vẽ để biểu diễn trực quan hóa tri thức thu được.
20
2.1.2. ai p á dữ iệu.
Khai phá dữ li u là quá trình trích xuất các thông tin có ích, tiềm ẩn bên trong lượng dữ li u kh ng lồ như cơ sở dữ li u, kho dữ li u nh m mục đích dự đoán các xu thế, các hành vi trong tương lai [11].
Khai phá dữ li u là một quá trình quan trọng trong quá trình khám phá tri thức.
Về bản chất đây là quá trình duy nhất tìm được tri thức ẩn chứa trong cơ sở dữ li u.
Ba phương pháp th ng dụng nhất trong khai phá dữ li u là: phân cụm (Clustering), phân lớp (Classification) và khai phá luật kết hợp (Association Rules Mining).
Phân cụm với mục tiêu chính là nhóm các đối tượng tương tự nhau vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng với nhau, còn các đối tượng thuộc các cụm khác nhau sẽ kh ng tương đồng. Trong phương pháp này, số lượng và tên cụm chưa được biết trước. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng n m trong các cụm khác nhau là nhỏ nhất.
Phân lớp với mục tiêu dự đoán nhãn lớp cho các mẫu dữ li u. Mỗi dữ li u được giả thiết thuộc một lớp đã định nghĩa trước. Phân lớp được thực hi n qua 2 bước: ây dựng m hình và sử dụng m hình để phân lớp dữ li u. M hình được dùng để dự đoán nhãn lớp chỉ khi độ chính xác của m hình đó là chấp nhận được.
Khai phá luật kết hợp với mục tiêu phát hi n và đưa ra các mối liên h giữa các đối tượng trong CSDL. Kết quả đầu ra của giải thuật khai phá dữ li u là tập luật mạnh. Khai phá luật kết hợp được thực hi n qua 2 bước: Bước một, tìm tất cả các tập mục ph biến, một tập mục ph biến được xác định qua độ hỗ trợ cực tiểu. Bước hai, sinh ra các luật mạnh từ tập mục ph biến, các luật này phải thoả mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu [3].
Các phương pháp khai phá dữ li u trên thường được chia thành 2 nhi m vụ
chính:
Mô tả (Descriptive): có nhi m vụ mô tả về các tính chất hoặc các đặc tính
chung của dữ li u trong cơ sở dữ li u hi n có.
Dự đoán (Predictive): có nhi m vụ đưa ra các dự đoán dựa vào các suy diễn
trên dữ li u hi n thời.
2.1.2.1. Ph .
Ngày nay, phân lớp dữ li u là một trong những hướng nghiên cứu chính của khai phá dữ li u [17]. Phân lớp là vi c phân loại các mẫu dữ li u thành các lớp có thể và dựa trên mô hình. Mỗi dữ li u được giả thiết thuộc một lớp đã định nghĩa trước. Phân lớp dự đoán giá trị của những nhãn xác định hay những giá trị rời rạc, nghĩa là phân lớp thao tác với những đối tượng dữ li u có bộ giá trị biết trước.
21
Bài toán được phát biểu như sau:
Input:
- Tập dữ li u D = {di}. - Tập các lớp C1, C2, , Ck mỗi dữ li u di thuộc một lớp Ci. - Tập Dexam = D1+D2+ + Dk . Trong đó Di ={dDexam: d thuộc Ci}.
Output: Mô hình phân lớp (tức là tìm ánh xạ từ D sang C).
Bài toán phân lớp gồm hai pha sau:
Pha 1: Dạy bộ phân lớp (Learning Model)
Tách Dexam thành Dtrain+ Dtest. Dtrain và Dtest có đặc trưng “đại di n” cho miền ứng
dụng.
Dtrain: xây dựng mô hình phân lớp. Một số mô hình huấn luy n thông dụng như: luật kết hợp, cây quyết định, mạng neural, S M Ở bước này cần xác định tham số cho mô hình.
Dtest: đánh giá m hình phân lớp xem mục 2.1.2.2 để chọn mô hình có chất
lượng cao nhất. Pha 2: Sử dụng bộ phân lớp (Apply Model)
ới mỗi d D\Dexam cần xác định lớp của d.
2.1.2.2. Đ h gi hì h h
Đánh giá độ chính xác của bộ phân lớp rất quan trọng, bởi vì nó cho biết độ tin cậy của các kết quả phân lớp cho những dữ li u tương lai. Độ chính xác còn giúp so sánh các m hình phân lớp khác nhau.
(2.1)
Trong phương pháp Holdout, dữ li u được chia ngẫu nhiên thành 2 tập: tập dữ
li u huấn luy n và tập dữ li u kiểm tra được kí hi u như sau.
Toàn bộ tập ví dụ D được chia thành 2 tập con không giao nhau:
Tập huấn luy n Dtrain dùng để huấn luy n mô hình. Tập kiểm tra Dtest dùng để đánh giá hi u năng của mô hình đã học.
→ D = Dtrain ∪ Dtest, và thường là |Dtrain| >> |Dtest|.
Dữ li u bất k thuộc vào tập kiểm tra Dtest đều kh ng được sử dụng trong quá
trình huấn luy n mô hình.
Dữ li u bất k thuộc vào Dtrain đã sử dụng trong giai đoạn huấn luy n đều kh ng
được sử dụng vào vi c đánh giá mô hình.
(1/3).|D|. Cách chia cơ bản nhất là: |Dtrain| (2/3).|D|, |Dtest|
22
Hình 2.1: Phương pháp Holdout trong bài toán phân lớp.
2.2. Mạn Neural nhân tạo (Artificial Neural Network).
Mạng neural nhân tạo, gọi tắt là mạng neural [20], là một m hình m phỏng theo cách thức xử lý thông tin của h neural sinh học, bao gồm nhiều phần tử xử lý (neuron) kết nối với nhau thông qua các liên kết để giải quyết một vấn đề nào đó.
2.2.1. i n tr c mạn Neura
Dựa theo cách thức kết nối các neuron đầu vào tới các neuron đầu ra, người ta
chia thành 2 loại kiến trúc mạng.
Mạng truyền thẳng (Feedforward Neural Network : Cấu trúc mạng truyền thẳng cho phép tín hi u di chuyển theo một hướng duy nhất; từ lớp đầu vào tới lớp đầu ra. Mạng Perceptron nhiều lớp MLP (MultiLayer Perceptron) là một mạng truyền thẳng điển hình.
Hình 2.2: Mạng truyền thẳng.
23
Hình 2.3: Mạng phản hồi
Mạng phản hồi (Recurrent Neural Network): Các tín hi u được lan truyền theo cả hai hướng. Trong khi mạng truyền thẳng truyền tín hi u một cách tuyến tính từ đầu vào đến đầu ra thì mạng phản hồi truyền tín hi u từ các giai đoạn xử lý sau ngược lại các giai đoạn xử lý trước.
2.2.2. Mạn Perceptron
Mỗi perceptron neuron là một đơn vị xử lý thông tin và là thành phần cơ bản
Hình 2.4: M hình một Perceptron.
của một mạng neural.
Các thành phần cơ bản của một Perceptron bao gồm:
Tập các u vào bao gồm các tín hi u vào của neural, các tín hi u này thường
được đưa vào dưới dạng một vector R chiều: (p1, p2, p3,.., pR, ).
Tập các liên k t: Mỗi liên kết giữa neuron và tín hi u đầu vào được thể hi n bởi một trọng số, gọi là trọng số liên kết. Th ng thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình huấn luy n mạng. Tập các liên kết được kí hi u là
.
m tổng (Summing function): Bao gồm t ng của các tích đầu vào với trọng số
liên kết tương ứng của nó. (2.2)
N ƣỡng b
(bias) tham gia tạo thành một thành phần của hàm truyền (Transfer function), có chức năng tịnh tiến đồ thị mà kh ng làm thay đ i hình dáng của đồ thị, do đó ta có thể tùy chỉnh cho phù hợp với bài toán.
24
Hàm truy n hay còn gọi là hàm kích hoạt được dùng để giới hạn phạm vi đầu ra của mỗi neural. Nó nhận đầu vào là t ng của hàm t ng và ngưỡng đã cho.
(2.3)
Th ng thường, phạm vi đầu ra của mỗi neural được giới hạn trong đoạn [0,1] hoặc [-1, 1 . Do đó, hàm truyền phải thỏa mãn điều ki n f(x) là hàm đơn đi u tăng, bị chặn và khả vi. Vi c lựa chọn hàm truyền tu thuộc vào từng bài toán và mục đích của người thiết kế mạng. Có một số hàm truyền th ng dụng sau [20]:
1. Hàm đồng nhất (Linear function, Identity function)
(2.4)
2. Hàm ngưỡng (Threshold function hay Heaviside function):
(2.5)
3. Hàm sigmoid (Sigmoid function)
(2.6)
4. Hàm sigmoid lưỡng cực (Bipolar sigmoid function)
(2.7)
Đ u ra là kết quả của hàm truyền.
Mạng Perceptron rất hữu ích trong vi c phân loại một tập các đầu vào thuộc vào hai lớp. Mạng Perceptron này tính t ng trọng số các đầu vào, rồi b sung thêm thành phần ngưỡng, dựa trên kết quả tính toán của hàm truyền, trả về kết quả đầu vào đó n m trong lớp nào.
2.2.3. Mạn M P
Khả năng tính toán của perceptron còn khá hạn chế. Năm 1986, Rumelhart và
McClelland đã cải tiến mạng perceptron thành mạng MLP.
Mạng MLP có một hoặc nhiều lớp neuron, trong đó các tín hi u chỉ truyền theo một chiều từ input qua các lớp, cho đến output. Mạng MLP thuộc vào kiến trúc feedforward nên có ít nhất một lớp input, một lớp output và có thể có một hoặc nhiều lớp ẩn (hidden layers).
Trong cấu trúc đa lớp này, các nút đầu vào truyền th ng tin, xử lý (tính t ng trọng số, gửi tới hàm truyền) rồi đưa ra kết quả cho các neuron trong lớp ẩn đầu tiên, sau đó kết quả từ các lớp ẩn đầu tiên được truyền qua các lớp tiếp theo, và cứ tiếp tục
25
như vậy cho đến khi gặp lớp ẩn cuối cùng và đưa ra kết quả ở lớp ra. Độ phức tạp tính toán tăng lên nhiều so với mạng perceptron.
Hình 2.5: Mô hình mạng MLP.
M hình mạng MLP t ng quát có thể mô tả như sau:
Đầu vào là các vector trong không gian N chiều, đầu ra là các
vector trong không gian M chiều. Đối với các bài toán phân loại,
N chính là kích thước của mẫu đầu vào, M chính là số lớp cần phân loại.
Mỗi neuron thuộc lớp sau liên kết với các neuron thuộc lớp liền trước nó. Liên kết giữa các lớp có thể là liên kết đầy đủ (mỗi neuron thuộc lớp sau liên kết với tất cả các neuron ở lớp trước đó hoặc liên kết chọn lọc (mỗi neuron thuộc lớp sau chỉ liên kết với một vài neuron ở lớp trước đó .
Đầu ra của lớp trước là đầu vào của neuron thuộc lớp liền sau nó.
Các ứng dụng mạng neural ra đời ngày càng nhiều và ngày càng hoàn thi n hơn như xử lý ngôn ngữ (Language Processing), nhận dạng kí tự (Character Recognition), nhận dạng tiếng nói (Voice Recognition), nhận dạng mẫu (Pattern Recognition), xử lý tín hi u (Signal Processing), Lọc dữ li u Data Filtering ,
2.2.4. u n uyện mạn Neura
Mạng neural nhân tạo được cấu hình cho một bài toán cụ thể thông qua quá trình huấn luy n học từ các mẫu huấn luy n. Về bản chất học chính là quá trình hi u chỉnh trọng số liên kết giữa các neuron. Trong quá trình này, các trọng số của mạng sẽ hội tụ dần tới các giá trị tối ưu sao cho với mỗi vector đầu vào x từ tập huấn luy n, mạng sẽ cho ra vector đầu ra như mong muốn.
Có ba phương pháp học ph biến là học có giám sát (supervised learning), học
không giám sát (unsupervised learning) và học tăng cường (Reinforcement learning).
Nhiều nghiên cứu cho thấy r ng: phương pháp học có giám sát là phương pháp huấn luy n ph biến và hi u quả đối với mạng neural truyền thẳng đa lớp MLP [14]. Một số thuật toán điển hình trong phương pháp học có giám sát là: thuật toán LMS (Least Mean Square error), thuật toán lan truyền ngược sai số (Back Propagation ,
26
2.2.5. T uật toán an truy n n ƣợc (Back Propagation)
Kiến trúc mạng ph biến nhất cho mạng neural tài chính là mạng MLP được huấn luy n b ng thuật toán lan truyền ngược. Đây là quá trình lan truyền ngược lỗi từ lớp đầu ra về phía lớp đầu vào trong quá trình huấn luy n. Thuật toán này là cần thiết bởi vì các lớp ẩn kh ng có giá trị đích để sử dụng cho huấn luy n nên phải huấn luy n các lớp này b ng lỗi của các lớp ở phía đầu ra. Lớp đầu ra là lớp duy nhất có giá trị để so sánh. Khi lỗi được lan truyền ngược lại thì các trọng số, ngưỡng được thay đ i cho đến khi lỗi ở các lớp này còn chấp nhận được [15].
Huấn luy n mạng MLP sử dụng thuật toán lan truyền ngược gồm hai quá trình:
quá trình truyền tuyến tính và quá trình truyền ngược [14].
Trong quá trình truyền thẳng, tín hi u sẽ được lan truyền lần lượt trên từng lớp mạng theo chiều từ đầu vào tới đầu ra. Trong quá trình truyền ngược, giá trị hàm sai số sẽ được truyền ngược lại cho quá trình huấn luy n lần lượt từ lớp đầu ra cho tới lớp đầu vào để hi u chỉnh trọng số liên kết i và ngưỡng bk sao cho sai số của mạng càng nhỏ càng tốt. Sai số (Error) của mạng được đo b ng độ chênh l ch giữa giá trị dự đoán so với giá trị thực tế và được đánh giá b ng cách sử dụng giá trị sai số tuy t đối trung bình MAPE (Mean Absolute Percentage Error):
(2.8)
Hoặc giá trị sai số trung bình bình phương MSE Mean Square Error :
(2.9)
Trong đó: Tập các đầu vào x = x1, x2, . . ., xn) ∈ , tập đầu ra dự đoán y = (yl,
y2, . . ., ym) ∈ Y, tập đầu ra thực tế z = (z1, z2, . . ., zn) ∈ Z.
Các giá trị MSE, M PE đều được dùng để đánh giá hi u quả của m hình khai
phá đã sử dụng. Tuy nhiên MSE có ưu điểm hơn M PE ở một số đặc điểm sau:
Hình 2.6: M hình quá trình huấn luy n mạng MLP b ng thuật toán lan truyền ngược.
- MSE phạt nặng những lỗi lớn. - MSE có tính thống kê. - MSE đưa ra giá trị tuy t đối. Trong khi M PE chỉ đưa ra được giá trị tương đối, bị lỗi t l và kh ng đối xứng, với cùng giá trị độ l ch như nhau nhưng t l % giữa chúng là khác nhau.
27
Hình 2.7: Giải thuật thuật toán lan truyền ngược.
Giải thuật như sau:
Trong đó: Số lượng “Epoch” xác định số lần mô hình mạng neural được huấn luy n (hay số lần đưa tất cả các dữ li u trong tập huấn luy n vào huấn luy n mô hình).
Những h hăn và hạn chế của thuật toán lan truyền ngược:
Khó khăn:
- ề lý thuyết, khi tăng số lớp ẩn thì độ chính xác của m hình tăng. Tuy nhiên càng có nhiều lớp ẩn thì chi phí để huấn luy n m hình thời gian, CPU) lại càng nhiều.
- Tốc độ học (learning rate) là một trong những th ng số phản ánh khả năng tiếp thu cái mới của mạng neural. Điều chỉnh tham số tốc độ học làm ảnh hưởng rất lớn đến thời gian huấn luy n cũng như hi u quả của m hình. Do đó vi c lựa chọn giá trị tốc độ học thường khá phức tạp và giá trị này thường được chọn b ng thực nghi m.
- ấn đề quá khớp “overfitting” xảy ra khi mạng được luy n quá khớp với dữ li u huấn luy n kể cả nhiễu , nên nó sẽ trả lời chính xác những gì đã được học, còn những gì kh ng được học thì nó kh ng trả lời được. Do đó, mạng kh ng có khả năng t ng quát hóa.
Hạn chế:
- Mạng li t network paralysis): xảy ra khi những trọng số được điều chỉnh tới những giá trị rất lớn khiến cho hàm t ng đạt giá trị cao và qua hàm truyền sigmoid kết quả gần 0 hoặc rất gần 1. Theo nghiên cứu của Barnard và Wessels,
28
năm 1992, [4] thì vi c khởi tạo các trọng số liên kết wi nên trong phạm vi
với ki là số liên kết của neuron i.
- Cực trị địa phương Local Minima) [4]: Trong quá trình huấn luy n, mạng có thể bị mắc bẫy tại một cực trị địa phương khi có nhiều cực tiểu thấp hơn gần bên cạnh. Để tránh tình trạng này, thuật toán lan truyền ngược được cải tiến b ng cách b sung thêm h ng số “momentum”. Khi đó, thuật toán tăng tốc để thoát khỏi cực trị địa phương với mục tiêu tìm được cực trị toàn cục.
2.3. P ƣơn p áp ensemb e.
2.3.1. Giới t iệu p ƣơn p áp ensemb e
Các phương pháp ensemble có thể được dùng để gia tăng độ chính xác trong phân lớp [13][12]. Một ensemble cho phân lớp là một m hình kết hợp nhiều m hình phân lớp thành phần khác nhau. Trong đó mỗi m hình phân lớp thành phần có thể là: cây quyết định, naives bayes, mạng neural,... Kết quả phân lớp được dự đoán dựa trên vi c t ng hợp kết quả phân lớp của các m hình thành phần [22 [25].
Các m hình học máy truyền thống giả định r ng các lớp dữ li u có phân lớp tốt. Nhưng trong thực tế, dữ li u thường kh ng cân b ng giữa các lớp (class imbalance problem) [16]. B ng vi c sử dụng nhiều m hình khác nhau, các phương pháp ensemble hướng tới giải quyết vấn đề kh ng cân b ng này và cho độ chính xác cao hơn các m hình phân lớp thành phần khi có sự đa dạng đáng kể giữa các m hình.
Một ensemble kết hợp một chuỗi k m hình phân lớp đã học M1, M2, , Mk để tạo m hình M* có độ chính xác cao hơn. Tập dữ li u D đã cho được dùng để tạo k tập huấn luy n D1, D2, , Dk. Mỗi tập Di được dùng để tạo m hình phân lớp Mi. Mỗi phần tử của tập dữ li u đầu vào mới được đưa vào từng m hình Mi. Tùy theo các kỹ thuật khác nhau mà k kết quả đơn phiếu pi được t hợp thành kết quả phân lớp cuối [5]. Có 2 kỹ thuật:
Bagging: T hợp phiếu dựa trên đa số, tức là chọn lớp được bỏ phiếu nhiều
nhất.
Boosting: T hợp phiếu dựa trên t ng có trọng số từ các kết quả đơn trọng số
Hình 2.8: Phương pháp Ensemble.
được xác định từ lỗi của từng m hình phân lớp trong quá trình huấn luy n).
29
2.3.2. ỹ t uật Bagging
Kỹ thuật bagging [18] có thể được sử dụng với mục đích giảm thiểu lỗi trong quá trình phân lớp. Ý tưởng của kỹ thuật bagging là tạo ra nhiều mẫu ngẫu nhiên các mẫu bootstrap từ một số mẫu ban đầu. Các mẫu này được sử dụng để huấn luy n các m hình phân lớp khác nhau. Sau đó phân lớp của mẫu mới được xác định từ kết quả của các m hình phân lớp này th ng qua bỏ phiếu đa số. Kích thước của các mẫu bootstrap này có thể khác nhau [10].
Thuật toán Bagging:
Input: Chuỗi k m hình phân lớp m hình phân lớp có thể là cây quyết định,
Naïve Bayes, mạng Neural, và tập dữ li u huấn luy n D.
(1)
for i 1 tạo m h nh ph n lớp
(2)
ạo thành á mẫu ootstr p i ngẫu nhi n th y thế t tập .
(3)
ử dụng Di tạo m h nh ph n lớp Mi.
(4)
endfor.
Output: Bộ phân lớp kết hợp bagging M*. Phương pháp:
Sử dụng bộ phân lớp bagging M*
như sau: Tập dữ li u mới được đưa qua các M* m hình phân lớp Mi, kết quả phân lớp được coi là một phiếu. Bộ phân lớp bagging đếm số phiếu và gán kết quả phân lớp của mỗi phần tử thuộc th ng qua bỏ phiếu đa số.
Phân lớp b ng bagging cho kết quả có độ chính xác cao hơn hẳn so với các m hình phân lớp thành phần Mi. M hình này ít bị ảnh hưởng hơn với trường hợp có nhiều dữ li u nhiễu và quá khớp.
Kỹ thuật bagging có thể dự đoán định lượng giá trị đầu ra b ng cách lấy giá trị
trung bình cộng của tập các giá trị dự đoán.
2.3.3. ỹ t uật Boosting
Boosting là một kỹ thuật tương tự như Bagging nhưng có thêm trọng số trong
quá trình học và bỏ phiếu [9 .
Sau khi bộ phân lớp Mi được học, các trọng số của từng bộ số trong dữ li u học sẽ được cập nhật lại để bộ phân lớp Mi+1 phân loại tốt hơn các bộ số mà Mi phân loại sai. Trong quá trình bỏ phiếu cuối cùng, phiếu của mỗi bộ phân lớp được gán một trọng số dựa trên độ chính xác của nó.
Một phương pháp gán trọng số th ng dụng là phương pháp daBoost daptive Boosting . ới tập dữ li u D gồm d bộ dữ li u được gán nhãn (X1,Y1),
30
(X2,Y2), (X3,Y4 , , d,Yd). Ban đầu phương pháp daBoost gán trọng số vj b ng 1/d cho từng bộ dữ li u học. k bộ phân lớp được tạo ra sau k lần lặp. Trong lần lặp thứ i các bộ dữ li u được lấy mẫu từ D để tạo tập huấn luy n Di có kích thước d. i c lấy mẫu này có thay thế – một bộ dữ li u có thể được chọn nhiều lần. Khả năng một bộ dữ li u được chọn dựa trên trọng số của nó. Tập Di được dùng để huấn luy n bộ phân lớp Mi. Nếu một bộ dữ li u bị Mi phân loại sai thì trọng số của nó được tăng lên hoặc giảm đi nếu phân loại đúng. Các trọng số này được dùng trong quá trình tạo tập dữ li u huấn luy n trong lần lặp tiếp theo.
T l lỗi của bộ phân lớp Mi như sau:
(2.10)
Trong đó err(Xj = 0 nếu j được phân lớp đúng và err(Xj = 1 nếu j bị phân lớp sai. Nếu bộ phân lớp Mi có t l lỗi lớn hơn 0.5 thì tập huấn luy n Di được thay thế b ng một tập mới để huấn luy n lại Mi.
T l lỗi của Mi ảnh hưởng tới phương thức mà trọng số của tập huấn luy n được cập nhật. Nếu một bộ dữ li u trong lần lặp thứ i được phân loại chính xác, trọng
số của nó được nhân với . Sau khi cập nhật xong trọng số các bộ dữ
li u được phân loại đúng, trọng số của tất cả các bộ dữ li u được chuẩn hóa để t ng của chúng được giữ nguyên.
. Khi bỏ phiếu, trọng số của một bộ phân lớp gi có biểu thức
Cho mỗi lớp c, t ng của tất cả các bộ phân lớp cho kết quả là lớp c được so sánh với t ng này của các lớp khác. Lớp nào có t ng lớn nhất là kết quả cuối cùng.
Thuật toán daBoost như sau:
Input: Tập dữ li u huấn luy n đã gán nhãn D với d bộ dữ li u, số vòng lặp k (một bộ phân lớp được tạo trong 1 vòng) và m hình phân lớp m hình phân lớp có thể là cây quyết định, Na ve Bayes hoặc mạng Neural .
Output: Bộ phân lớp kết hợp.
(1) h i tạo trọng s 1 d ho t ng ộ dữ liệu trong D.
(2)
for i =1: k
(3)
ấy mẫu t th y thế dự theo trọng s để tạo i.
(4)
ử dụng tập Di mới huấn luyện ộ ph n lớp i.
(5)
nh t lệ l i ủ Mi (error(Mi theo ng thứ 2.10.
Phương pháp:
31
(6)
if (error(Mi) >0.5)
hự hiện lại ướ 3.
(7)
endIf.
(8)
(9)
for với m i ộ dữ liệu trong Di đượ ph n loại đ ng.
Nh n trọng s ủ m i ộ dữ liệu với
// ập nhật trọng s
(10)
(11)
hu n h trọng s ho m i ộ dữ liệu.
(12) Endfor.
(1) h i tạo trọng s ho m i lớp là 0.
(2)
for i 1 với m i ộ ph n lớp.
trọng s ủ phiếu ủ m i ộ ph n lớp.
(3)
c =
ộ ph n lớp
đư r dự đoán ho .
(4)
ộng
ho trọng s ủ lớp .
(5)
(6)
endfor
(7)
rả về lớp trọng s lớn nhất.
Sử dụng bộ phân lớp daBoosting cho tập dữ li u mới X như sau:
Do phương pháp boosting chú trọng đến các bộ dữ li u bị phân loại sai, dễ dẫn đến tình trạng quá khớp overfitting của m hình t ng hợp với bộ dữ li u ban đầu. Do đó, m hình boosting tạo ra có thể k m chính xác hơn m hình khác với cùng một tập dữ li u. Bagging ít bị overfitting. Khi mà cả 2 phương pháp đều cho độ chính xác tốt hơn từng bộ phân lớp thành phần thì Boosting đạt được độ chính xác cao hơn [5 .
2.4. t uận
Trong chương 2 luận văn đã trình bày được một số khái ni m cơ bản và những kiến thức có liên quan về khai phá tri thức và khai phá dữ li u, mô hình mạng neural và phương pháp ensemble gia tăng độ chính xác cho mạng neural. Từ đó làm cơ sở lý thuyết thực nghi m ở chương sau.
32
ƣơn 3: P ƢƠNG P P G Ả QUY T T Ự NG ỆM V Đ N G O TO N Ự O T TRƢỜNG NG O N
3.1. y dựn b i toán dự báo t trƣờn c n oán
3.1.1. M tả b i toán
3.1.1.1. h hả thi của b i t .
Dự báo là một nhu cầu không thể thiếu cho những hoạt động của con người trong bối cảnh bùng n thông tin. Dự báo sẽ cung cấp những cơ sở cần thiết cho các hoạch định, và có thể nói r ng nếu không có khoa học dự báo thì những định hướng tương lai của con người vạch ra sẽ không có sự thuyết phục.
Bài toán phân tích xu thế thị trường chứng khoán chính là thực hi n dự báo xu hướng giá cả c phiếu trong tương lai dựa vào thông tin thu thập được trong quá khứ và hi n tại. Đã có nhiều nhóm nghiên cứu về bài toán này, đưa ra những mô hình dự đoán khác nhau và đạt được nhiều kết quả khả quan, ví dụ như nghiên cứu của Kuo- Cheng Tseng trong dự báo thị trường chứng khoán "Time series and neural network forecast of daily stock prices” [24].
3.1.1.2. C g cụ h trợ giải u ết b i t .
MATLAB là một m i trường tính toán số và lập trình, được thiết kế bởi công ty MathWorks, công cụ này hỗ trợ đắc lực cho những người nghiên cứu chuyên sâu về các m hình toán học phức tạp. Matlab xây dựng toolbox hỗ trợ vi c thống kê và học máy “Neural Network Toolbox” [8][21]. Do đó, tôi sử dụng m i trường này để cài đặt lập trình những thử nghi m của t i.
3.1.2. Quy tr n iải quy t b i toán.
Hình 3.1: Quy trình giải quyết bài toán.
Tôi áp dụng các kiến thức đã nghiên cứu ở trên để tiến hành dự đoán thị trường chứng khoán theo m hình truyền thống - mô hình ARIMA và mô hình khai khá dữ li u - mạng neural.
Vi c dự báo thị trường chứng khoán bao gồm dự đoán định tính cho biết xu hướng của thị trường tăng hay giảm) và dự báo định lượng (dự đoán giá trị c phiếu là bao nhiêu). Các kết quả đạt được sẽ làm cơ sở cho những chiến lược đầu tư c phiếu phù hợp. Hình vẽ 3.2 thể hi n khả năng ứng dụng mạng Neural trong giải quyết bài toán này.
33
Hình 3.2: M hình mạng Neural trong giải quyết bài toán dự báo chứng khoán.
3.1.2.1. hu th d i u.
Dữ li u được sử dụng trong bài toán dự báo này là giá c phiếu MSFT của công ty Microsoft Corporation được thu thập từ 13/03/1986 đến 15/07/2015 niêm yết trên sàn NASDAQ từ trang http://finance.yahoo.com .
Dữ li u giá c phiếu tải về có dạng:
Date
Open High
Low
Close
Volume
1-Jun-15
47.06
47.77
46.62
47.23
28,837,300
2-Jun-15
46.93
47.35
46.62
46.92
21,498,300
3-Jun-15
47.37
47.74
46.82
46.85
28,002,200
4-Jun-15
46.79
47.16
46.20
46.36
27,745,500
5-Jun-15
46.31
46.52
45.84
46.14
25,438,100
Bảng 3.1: Dữ li u c phiếu MSFT.
Trong đó:
Date: là trường chỉ ngày giao dịch.
Open: là giá c phiếu tại thời điểm mở cửa trong ngày.
High: là giá c phiếu cao nhất trong ngày.
Low: là giá cố phiếu thấp nhất trong ngày.
Close: là giá c phiếu được niêm yết tại thời điểm đóng cửa trong ngày.
Volume: là khối lượng giao dịch c phiếu trong ngày.
34
3.1.2.2. i d i u.
Trong khai phá dữ li u, quá trình tiền xử lý dữ li u là rất quan trọng. Quá trình tiền xử lý dữ li u giúp cho vi c chuẩn hóa dữ li u trước khi đưa vào sử dụng. Vi c chuẩn hóa dữ li u nh m loại bỏ tính không minh bạch của thị trường chứng khoán.
3.1.2.3. chức d i u.
Sau khi tiền xử lý dữ li u, tôi chia dữ li u thành ba tập: tập huấn luy n training
set , tập kiểm chứng validation set) và tập kiểm tra (test set).
Tập huấn luy n là tập lớn nhất được mô hình sử dụng để học các mẫu trong tập
dữ li u. Tập huấn luy n chiếm khoảng 70% dữ li u.
Tập kiểm chứng được sử dụng để tối ưu bộ tham số trong mô hình huấn luy n
được sử dụng. Tập kiểm chứng chiếm khoảng 15% của tập dữ li u.
Tập kiểm tra có kích cỡ chiếm khoảng 15% của tập dữ li u, nó được dùng để
đánh giá khả năng khái quát hoá của mô hình huấn luy n.
3.1.2.3.1. ộ dữ liệu hứng hoán.
a. Trong phân tích định tính.
Bộ dữ li u chứng khoán gồm 7385x5 bản ghi. Trong đó các cột tương ứng với
số li u của giá đóng cửa ngày i, i-1, i-2, i-3, i-4.
Nhãn của hàng i được cho trong hàm 3.1 close(i) là giá đóng cửa của ngày i,
(3.1)
close i+s là giá đóng cửa của ngày (i+s), với .
sign(i) = 1: sau s ngày, giá đóng cửa của ngày i có xu hướng tăng giá. sign(i) = 0: sau s ngày giá đóng cửa của ngày i có xu hướng kh ng đ i. Tương tự sign(i) = -1, s ngày sau giá đóng cửa ngày i có xu hướng giảm giá. Tập huấn luy n có 5169 mẫu, tập kiểm chứng có 1108 mẫu, tập kiểm tra có
1108 mẫu.
b. Trong phân tích định lượng.
ẫn sử dụng bộ dữ li u trong mục 3.1.2.3.1.a nhưng nhãn của hàng i chính là
giá đóng cửa của ngày i+s) [23].
Tập huấn luy n có 5169 mẫu, tập kiểm chứng có 1108 mẫu, tập kiểm tra có
1108 mẫu.
3.1.2.3.2. ộ dữ liệu hứng hoán ết hợp với h báo kỹ thuật.
a. Trong phân tích định tính.
Bộ dữ li u chứng khoán kết hợp với chỉ báo kỹ thuật gồm 7360x14 bản ghi. Trong đó các cột tương ứng với số li u của giá đóng cửa ngày i, i-1, i-2, i-3, i-4, MACD, MACD – Histogram, Bollinger giữa, Bollinger dưới, Bollinger trên, RSI, roon up, roon down, và roon tương quan.
Nhãn của hàng i được tính theo công thức (3.1).
35
Tập huấn luy n có 5152 mẫu, tập kiểm chứng có 1104 mẫu, tập kiểm tra có
1104 mẫu.
b. Trong phân tích định lượng.
ẫn sử dụng bộ dữ li u trong mục 3.1.2.3.2.a nhưng nhãn của hàng i chính là
giá đóng cửa của ngày i+s).
Tập huấn luy n có 5152 mẫu, tập kiểm chứng có 1104 mẫu, tập kiểm tra có
1104 mẫu.
3.1.2.4. u u hì h.
Luận văn t i sử dụng m hình mạng neural MLP với thuật toán lan truyền
ngược. Kiến trúc mạng gồm có:
Lớp đầu tiên là lớp vào.
Lớp thứ hai là lớp ẩn. Theo lý thuyết thì có thể có nhiều lớp ẩn, ở đây t i chọn
số lớp ẩn là 10.
Lớp ra thể hi n kết quả: phân lớp (giá c phiếu tăng/giảm/kh ng đ i hoặc hồi
quy (giá trị của giá c phiếu).
Hàm kích hoạt được sử dụng là hàm sigmoid (công thức 2.6).
Các tham số :
Khởi tạo trọng số liên kết và ngưỡng ngẫu nhiên. Tốc độ học: 0.01. Momentum Constant: 0.9. Số lần Epoch tối đa là: 1000.
3.1.2.5. Đ h gi hì h v h t ết uả
Mục đích chính của vi c đánh giá m hình là chỉ ra độ chính xác của mô hình dự đoán. Nếu như kết quả của mô hình là đáng tin cậy, chúng ta hoàn toàn có thể tin tưởng r ng giá trị dự đoán sẽ không l ch nhiều so với kết quả thực tế khi ta đưa dữ li u mới vào mô hình.
3.2. M n xu t.
Kết hợp những kiến thức đã tìm hiểu, tôi đề xuất hai phương án cải tiến vi c dự
báo xu thế thị trường chứng khoán. Hai phương án này có nội dung như sau:
Hình 3.3: M hình đề xuất: Mạng Neural có b sung thêm các chỉ báo kỹ thuật.
Đề xuất 1: Mô hình mạng Neural có b sung thêm các chỉ báo kỹ thuật.
36
Đề xuất 2: Mô hình mạng neural có thêm các chỉ báo và sử dụng phương pháp
Hình 3.4: M hình đề xuất: Mạng neural có thêm các chỉ báo và sử dụng phương pháp ensemble.
ensemble.
3.3. T ực n iệm
Hình 3.5: Luồng công vi c thực nghi m.
Luồng các công vi c thực nghi m được miêu tả trong hình vẽ 3.5.
3.3.1. Mô hình ARIMA.
ARIMA(1,1,2) MODEL: PARAMETER ---------------- CONSTANT AR(1) MA(1) MA(2)
VALUE ---------------- -0.000168588 0.166607 -0.168176 -0.0353645
Dữ li u sử dụng là cột đầu tiên trong bộ dữ li u được định nghĩa trong mục 3.1.2.3.1.b. Như đã trình bày lý thuyết ở mục 1.3.2, t i sử dụng bộ tham số p,d,q = 1,1,2 để thực nghi m m hình arima và cho kết quả dự đoán theo chu k T+1 như sau:
Phương trình hồi quy t ng quát:
37
Giá trị MAPE (công thức 2.8) càng nhỏ cho kết quả tin cậy càng cao. Kết quả thực nghi m của t i được in đậm) gần với giá trị thực tế hơn so với kết quả của bài báo [24] với cùng bộ tham số RIM 1,1,2 .
8.05
14.50
0.37
4.04
8.73
Mean Maximum Minimum Standard error Median
(7.28)
(13.46)
(0.08)
Giá trị MAPE (%)
(3.38)
(7.13)
Bảng 3.2: So sánh các kết quả thực nghi m b ng m hình rima.
Kết quả dự đoán thể hi n trong bảng 3.3, cột chênh l ch thể hi n độ sai khác
giữa giá dự đoán so với giá thực tế.
N y i
Giá ngày i
ên ệc
Giá t ực t ngày i+1
Giá dự oán ngày i+1
48.42 47.70 47.59 46.90 47.17 46.95 46.67 45.16 45.74 47.52 47.66 47.98 48.45 48.14 47.88 47.45
4-Dec-14 5-Dec-14 8-Dec-14 9-Dec-14 10-Dec-14 11-Dec-14 12-Dec-14 15-Dec-14 16-Dec-14 17-Dec-14 18-Dec-14 19-Dec-14 22-Dec-14 23-Dec-14 24-Dec-14 26-Dec-14
48.84 48.42 47.70 47.59 46.90 47.17 46.95 46.67 45.16 45.74 47.52 47.66 47.98 48.45 48.14 47.88
48.48 48.04 47.81 46.69 46.88 46.97 47.16 45.90 46.50 48.55 48.63 48.76 49.38 49.54 49.28 48.67
0.06 0.34 0.22 -0.21 -0.29 0.02 0.49 0.74 0.76 1.03 0.97 0.78 0.93 1.40 1.40 1.22
Bảng 3.3: Kết quả dự đoán b ng m hình rima.
3.3.2. M n mạn neura truy n t ốn .
Trong phần này, tôi sử dụng mạng neural truyền thống để dự đoán 2 xu hướng của thị trường chứng khoán. Đầu tiên tôi thực hi n dự đoán T+1 và để phù hợp với chu k thanh khoản của sàn giao dịch nên tôi tiếp tục thực hi n dự đoán với chu k T+4.
3.3.2.1. Thực hi n dự đ the chu T+1.
3.3.2.1.1. Thực hiện phân lớp.
Dữ li u sử dụng được định nghĩa trong mục 3.1.2.3.1.a. Sau khi thực hi n phân
lớp b ng m hình mạng neural, độ chính xác của thuật toán đạt 85.39%.
38
Trải qua 48 lần học, t l lỗi giảm dần như hình 3.6, tại lần học thứ 42 m hình
Hình 3.6: T l lỗi qua các lần Epoch của m hình mạng Neural.
đạt t l lỗi nhỏ nhất và kh ng giảm trong các lần học tiếp theo.
3.3.2.1.2. Thực hiện hồi quy.
Dữ li u sử dụng được định nghĩa trong mục 3.1.2.3.1.b. Sau khi thực hi n phân
tích hồi quy b ng m hình mạng neural, giá trị MSE b ng 9.7456.
Hình 3.7: T l lỗi MSE.
Hình 3.8: H số tương quan R.
Trải qua 23 lần học, giá trị MSE giảm dần như hình 3.7, tại lần học thứ 17 m hình đạt giá trị lỗi nhỏ nhất và kh ng giảm trong các lần học tiếp theo. Lúc này, h số tương quan b ng 0.99654 (hình 3.8). Giá trị M PE trung bình là 3.72%.
39
3.3.2.2. Thực hi n dự đ the chu T+4.
3.3.2.2.1. Thực hiện phân lớp.
Dữ li u sử dụng được định nghĩa trong mục 3.1.2.3.1.a. Sau khi thực hi n phân
lớp b ng m hình mạng neural, độ chính xác của thuật toán đạt 82.99%.
Trải qua 69 lần học, t l lỗi giảm dần như hình 3.9, tại lần học thứ 63 m hình
Hình 3.9: T l lỗi qua các lần Epoch của m hình mạng Neural.
đạt t l lỗi nhỏ nhất và kh ng giảm trong các lần học tiếp theo.
Kết quả phân lớp b ng mạng neural được thể hi n trong bảng 3.4:
N y i
ự oán
T ực t
N y
ự oán
T ực t
4-Dec-14
-1
16-Dec-14
-1
1
1
5-Dec-14
-1
17-Dec-14
-1
-1
1
8-Dec-14
1
18-Dec-14
-1
1
1
9-Dec-14
-1
19-Dec-14
-1
1
1
10-Dec-14
1
22-Dec-14
-1
-1
-1
11-Dec-14
-1
23-Dec-14
-1
-1
-1
12-Dec-14
1
24-Dec-14
1
-1
-1
15-Dec-14
1
26-Dec-14
1
-1
-1
Bảng 3.4: Kết quả phân lớp b ng mạng Neural.
Thực hi n kiểm tra độ n định của thuật toán sau 20 lần kiểm nghi m cho kết quả trong hình 3.10. Độ chính xác của thuật toán n định và n m trong khoảng 82.9005 ± 0.2025 (%).
40
84.24
)
%
83.68
( p ớ
83.12
n p c á x n
82.56
c
ộ Đ
82.00
Lần 1
Lần 2
Lần 3
Lần 4
Lần 5
Lần 6
Lần 7
Lần 8
Lần 9
Lần 12
Lần 11
Lần 10
Lần 14
Lần 15
Lần 16
Lần 17
Lần 18
Lần 19
Lần 20
Lần 13 Độ chính xác phân lớp (%)
Hình 3.10: Biểu đồ thống kê kết quả dự báo của mô hình mạng neural theo tiếp cận phân lớp.
3.3.2.2.2. Hồi quy.
Dữ li u sử dụng được định nghĩa trong mục 3.1.2.3.1.b. Sau khi thực hi n phân
tích hồi quy b ng m hình mạng neural, giá trị MSE b ng 31.5816.
Hình 3.11: T l lỗi MSE.
Hình 3.12: H số tương quan R.
Trải qua 13 lần học, giá trị MSE giảm dần như hình 3.11, tại lần học thứ 7 m hình đạt giá trị lỗi nhỏ nhất và kh ng giảm trong các lần học tiếp theo. Lúc này, h số tương quan b ng 0.9892 (hình 3.12).
41
Thực hi n kiểm tra độ n định của thuật toán sau 20 lần kiểm nghi m cho kết
0.9910
39
0.9905
34
0.9900
0.9895
29
0.9890
24
0.9885
quả trong hình 3.13, độ lỗi MSE của thuật toán là: 26.20145 ± 7.17975.
M S E
R n a u q n ơ t
0.9880
19
0.9875
ố s ệ
0.9870
14
Lần 1
Lần 2
Lần 3
Lần 4
Lần 5
Lần 6
Lần 7
Lần 9
Lần 10
Lần 11
Lần 12
Lần 15
Lần 16
Lần 17
Lần 18
Lần 19
Lần 20
Lần 8 R
Lần Lần 13 14 MSE
Hình 3.13: Biểu đồ thể hi n giá trị MSE và h số tương quan qua 20 lần kiểm nghi m.
Kết quả dự đoán trong bảng 3.5, cột chênh l ch thể hi n độ sai khác giữa giá dự
đoán so với giá thực tế.
N y i
Giá ngày i
Giá ngày i-1
Giá ngày i-2
Giá ngày i-3
Giá ngày i-4
Giá t ực t ngày i+4
Giá dự oán ngày i+4
Chênh ệc
1.62
48.84
48.52
4-Dec-14
48.08
48.46
48.62
47.81
46.90
1.51
48.42
48.68
5-Dec-14
48.84
48.08
48.46
48.62
47.17
-0.12
47.70
46.83
8-Dec-14
48.42
48.84
48.08
48.46
46.95
-0.44
47.59
46.23
9-Dec-14
47.70
48.42
48.84
48.08
46.67
-4.88
40.28
10-Dec-14 46.90
47.59
47.70
48.42
48.84
45.16
-3.95
41.79
11-Dec-14 47.17
46.90
47.59
47.70
48.42
45.74
-4.36
43.16
12-Dec-14 46.95
47.17
46.90
47.59
47.70
47.52
-3.58
44.08
15-Dec-14 46.67
46.95
47.17
46.90
47.59
47.66
-0.96
47.02
16-Dec-14 45.16
46.67
46.95
47.17
46.90
47.98
0.93
49.38
17-Dec-14 45.74
45.16
46.67
46.95
47.17
48.45
-0.16
47.98
18-Dec-14 47.52
45.74
45.16
46.67
46.95
48.14
-2.14
45.74
19-Dec-14 47.66
47.52
45.74
45.16
46.67
47.88
0.39
47.84
22-Dec-14 47.98
47.66
47.52
45.74
45.16
47.45
0.26
47.28
23-Dec-14 48.45
47.98
47.66
47.52
45.74
47.02
0.29
46.74
24-Dec-14 48.14
48.45
47.98
47.66
47.52
46.45
0.58
47.34
26-Dec-14 47.88
48.14
48.45
47.98
47.66
46.76
Bảng 3.5: Kết quả dự đoán khi phân tích hồi quy b ng mạng Neural truyền thống.
42
Các mô hình Mô hình ARIMA [24] Mạng Neural [24] Mô hình ARIMA Mạng Neural T+1 Mạng Neural T+4
Bảng 3.6: So sánh giá trị MAPE trung bình của nhiều mô hình.
8.05 3.78 7.28 3.72 8.47 MAPE trung bình
Các kết quả thực nghi m của mô hình ARIMA (1,1,2), mạng Neural cùng dự đoán chu k T+1 và mạng Neural dự đoán theo chu k T+4, được t ng hợp trong bảng 3.6. Qua đây t i có vài lời nhận xét sau:
-
-
Mô hình mạng neural cho kết quả chính xác hơn m hình RIM với cùng dự đoán chu k T+1. Kết quả dự đoán T+4 của m hình Neural k m chính xác hơn so với kết quả dự đoán T+1.
Do hi n nay chu k thanh khoản của hầu hết các quốc gia và ở Vi t Nam là T+3, một số ít quốc gia chọn T+2, ngay như Mỹ là có 1 thị trường chứng khoán rất phát triển họ vẫn để T+4. Bởi vậy, để phù hợp với tính thực tế, t i thực hi n dự đoán ngày T+4 cho các mô hình cải tiến tiếp theo của mạng Neural. MSE có ưu điểm hơn hẳn so với MAPE nên tôi sử dụng giá trị này để đánh giá hi u năng của các lần thực nghi m tiếp theo.
3.3.3. ải ti n 1: M n mạn neura v bổ sun một số c ỉ báo ỹ t uật.
Trong phần này tôi thực hi n cải tiến lần 1 với mô hình mạng neural có b sung thêm một số chỉ báo kỹ thuật trên cả 2 hướng tiếp cận phân lớp và hồi quy để dự đoán ngày thứ T+4.
3.3.3.1. Phân l p.
Dữ li u sử dụng được định nghĩa trong mục 3.1.2.3.2.a. Sau khi thực hi n phân
lớp b ng m hình mạng neural, độ chính xác của thuật toán đạt 83.25%.
Trải qua 75 lần học, t l lỗi giảm dần như hình 3.14, tại lần học thứ 69 m
hình đạt t l lỗi nhỏ nhất và kh ng giảm theo các lần học tiếp theo.
Hình 3.14: T l lỗi qua các Epoch của m hình mạng Neural.
43
Kết quả phân lớp b ng mạng neural được thể hi n trong bảng 3.7.
N y i
ự oán
T ực t
N y
ự oán
T ực t
16-Dec-14
-1
1
1
4-Dec-14
-1
17-Dec-14
-1
1
1
5-Dec-14
-1
18-Dec-14
-1
-1
1
8-Dec-14
-1
19-Dec-14
-1
1
1
9-Dec-14
1
22-Dec-14
-1
-1
-1
10-Dec-14
-1
23-Dec-14
-1
-1
-1
11-Dec-14
-1
24-Dec-14
1
-1
-1
12-Dec-14
1
26-Dec-14
1
1
-1
15-Dec-14
1
Bảng 3.7: Kết quả phân lớp b ng mạng Neural.
84.50
Thực hi n kiểm tra độ n định của thuật toán sau 20 lần kiểm nghi m cho kết quả trong hình 3.15. Độ chính xác của thuật toán n m trong khoảng 82.9595% ± 0.2855%.
)
84.00
%
( p ớ
83.50
83.00
n p c á x n
c
82.50
ộ Đ
82.00
Lần 1
Lần 2
Lần 3
Lần 4
Lần 5
Lần 6
Lần 8
Lần 7
Lần 10
Lần 11
Lần 13
Lần 14
Lần 15
Lần 16
Lần 17
Lần 18
Lần 19
Lần 20
Lần Lần 12 9 Độ chính xác phân lớp (%)
Hình 3.15: Biểu đồ thống kê kết quả dự báo theo hướng tiếp cận phân lớp sau cải tiến 1.
3.3.3.2. Hồi quy.
Dữ li u được sử dụng định nghĩa trong mục 3.1.2.3.2.b. Sau khi thực hi n phân
tích hồi quy b ng m hình mạng neural, giá trị MSE là 16.2156.
Thuật toán dừng sau 62 lần học, giá trị MSE giảm dần như hình 3.16, tại lần học thứ 57 m hình đạt giá trị lỗi nhỏ nhất và kh ng giảm theo các lần học tiếp theo. Lúc này h số tương quan là 0.99203 (hình 3.17).
44
Hình 3.16: T l lỗi MSE.
Hình 3.17: H số tương quan R.
Thực hi n kiểm tra độ n định của thuật toán sau 20 lần kiểm nghi m cho kết
35
0.9940
0.9930
30
0.9920
0.9910
25
0.9900
0.9890
quả trong hình 3.18, độ lỗi MSE của thuật toán n m trong khoảng: 23.9596 ± 8.4688.
M S E
20
0.9880
R n a u q n ơ ƣ t
0.9870
15
ố s ệ
0.9860
10
0.9850
Lần 1
Lần 2
Lần 3
Lần 4
Lần 5
Lần 6
Lần 7
Lần 9
Lần 10
Lần 11
Lần 12
Lần 15
Lần 16
Lần 17
Lần 18
Lần 19
Lần 20
Lần 8 R
Lần Lần 13 14 MSE
Hình 3.18: Biểu đồ thể hi n giá trị MSE và h số tương quan qua 20 lần kiểm nghi m.
45
Bảng 3.8 thể hi n kết quả dự đoán giá của ngày t+4 th ng qua phân tích hồi quy. Trong đó cột chênh l ch thể hi n độ sai khác giữa
giá dự đoán so với giá thực tế.
N y i
MACD
RSI
MACD histogram
Bollinger iữa
Bollinger dƣới
Bollinger trên
Aroon up
Aroon down
Chênh ệc
Aroon tƣơn quan
Giá dự oán ngày i+4
Giá ngày i
Giá ngày i-1
Giá ngày i-2
Giá ngày i-3
Giá ngày i-4
Giá t ực t ngày i+4
4-Dec-14
48.84
48.08
48.46
48.62
47.81
0.39
-47.93
48.54
47.32
49.76
58.95
7.14
57.14
-50.00
46.90
46.32
-0.58
5-Dec-14
48.42
48.84
48.08
48.46
48.62
0.37
-47.96
48.53
47.31
49.74
54.77
7.14
50.00
-42.86
47.17
46.66
-0.51
8-Dec-14
47.70
48.42
48.84
48.08
48.46
0.30
-47.91
48.48
47.21
49.74
48.44
85.71
42.86
42.86
46.95
50.16
3.21
9-Dec-14
47.59
47.70
48.42
48.84
48.08
0.23
-47.86
48.41
47.11
49.72
47.53
78.57
35.71
42.86
46.67
53.05
6.38
10-Dec-14
46.90
47.59
47.70
48.42
48.84
0.11
-47.74
48.32
46.87
49.76
42.21
71.43 100.00
-28.57
45.16
50.77
5.61
11-Dec-14
47.17
46.90
47.59
47.70
48.42
0.04
-47.67
48.23
46.72
49.74
44.81
64.29
92.86
-28.57
45.74
52.91
7.17
12-Dec-14
46.95
47.17
46.90
47.59
47.70
-0.03
-47.59
48.10
46.63
49.57
43.11
57.14
85.71
-28.57
47.52
49.47
1.95
15-Dec-14
46.67
46.95
47.17
46.90
47.59
-0.11
-47.49
47.96
46.52
49.39
40.97
50.00 100.00
-50.00
47.66
48.17
0.51
16-Dec-14
45.16
46.67
46.95
47.17
46.90
-0.29
-47.22
47.74
46.02
49.47
31.81
42.86 100.00
-57.14
47.98
48.86
0.88
17-Dec-14
45.74
45.16
46.67
46.95
47.17
-0.38
-47.08
47.59
45.72
49.46
37.58
35.71
92.86
-57.14
48.45
48.45
0.00
18-Dec-14
47.52
45.74
45.16
46.67
46.95
-0.30
-47.17
47.56
45.71
49.40
51.23
28.57
85.71
-57.14
48.14
46.90
-1.24
19-Dec-14
47.66
47.52
45.74
45.16
46.67
-0.23
-47.25
47.50
45.73
49.27
52.11
21.43
78.57
-57.14
47.88
46.76
-1.12
22-Dec-14
47.98
47.66
47.52
45.74
45.16
-0.15
-47.36
47.50
45.73
49.27
54.16
14.29
71.43
-57.14
47.45
46.95
-0.50
23-Dec-14
48.45
47.98
47.66
47.52
45.74
-0.04
-47.50
47.55
45.73
49.36
57.07
7.14
64.29
-57.14
47.02
47.00
-0.02
24-Dec-14
48.14
48.45
47.98
47.66
47.52
0.02
-47.58
47.58
45.75
49.42
54.61
92.86
57.14
35.71
46.45
47.15
0.70
26-Dec-14
47.88
48.14
48.45
47.98
47.66
0.04
-47.61
47.59
45.75
49.43
52.56
85.71
50.00
35.71
46.76
48.25
1.49
Bảng 3.8: Kết quả dự đoán khi phân tích hồi quy b ng mạng Neural cải tiến 1.
46
Nhận x t: Sau khi thực hi n dự đoán theo chu k thanh khoản T+4, theo cả 2 hướng tiếp cận phân lớp và hồi quy trên dữ li u giá c phiếu MSFT t i nhận thấy: khi được b sung thêm các chỉ báo kỹ thuật, mạng Neural cho độ chính xác cao hơn khi chưa sử dụng những chỉ báo kỹ thuật này (xem bảng t ng hợp 3.9 và 3.10). Vì thế các kết quả tính toán sau này tôi chỉ sử dụng bộ dữ li u đã b sung thêm chỉ báo kỹ thuật.
ác ộ o Mạng Neural truy n thống Mạng neural với cải ti n 1
Độ chính xác trung nh (%). 82.93 82.99
Bảng 3.9: Kết quả sử dụng mạng neural để phân lớp dữ li u.
Độ lệ h hu n (%). 0.09 0.16
ác ộ o Mạng Neural truy n thống Mạng neural với cải ti n 1
trung nh. 26.2933 21.5628
Độ lệ h hu n. 4.0677 5.0158
0.9901 0.9921
Bảng 3.10: Kết quả sử dụng mạng neural để phân tích hồi quy dữ li u.
Hệ s tư ng quan R lớn nhất Hệ s tư ng qu n nhỏ nhất 0.9879 0.9896
Tôi tiến hành so sánh với kết quả dự đoán của mô hình mạng Neural truyền thống và mạng Neural cải tiến 1 đã thu được ở trên, giá dự đoán được b i đậm thể hi n gần với giá thực tế hơn bảng 3.11).
N y i
Giá ngày i
Giá t ực t n y i+4 46.90
Giá dự oán của Neura truy n t ốn 48.52
4-Dec-14
48.84
Giá dự oán của Neura cải ti n 1 46.32
5-Dec-14
48.42
47.17
48.68
8-Dec-14
47.70
46.95
46.66 50.16
46.83
9-Dec-14
47.59
46.67
53.05
46.23
10-Dec-14
46.90
45.16
50.77
40.28
11-Dec-14
47.17
45.74
52.91
12-Dec-14
46.95
47.52
41.79 43.16
49.47
15-Dec-14
46.67
47.66
44.08
48.17
16-Dec-14
45.16
47.98
47.02
48.86
17-Dec-14
45.74
48.45
49.38
18-Dec-14
47.52
48.14
48.45 46.90
19-Dec-14
47.66
47.88
47.98 45.74
22-Dec-14
47.98
47.45
46.76 46.95
47.84 47.28
23-Dec-14 24-Dec-14
48.45 48.14
47.02 46.45
47.00 47.15
46.74
26-Dec-14
47.88
46.76
48.25
47.34
Bảng 3.11: Kết quả dự đoán của mạng Neural truyền thống và mạng Neural cải tiến 1.
47
Kết quả t l chính xác của m hình mạng Neural truyền thống và mạng neural cải tiến 1 lần lượt là 50% và 50%. Tuy vậy nhưng kết quả đự đoán của mạng Neural cải tiến 1 cũng thể hi n chính xác về mặt xu hướng và giá trị so với giá trị thực tế.
3.3.4. ải ti n 2: Mạn neura có t êm các c ỉ báo v sử d n p ƣơn
pháp ensemble.
Trong phần này, tôi thực hi n cải tiến lần 2 b ng cách sử dụng phương pháp ensemble để gia tăng độ chính xác cho mô hình mạng neural ở cải tiến 1 với bộ dữ li u chứng khoán có b sung một số chỉ báo kỹ thuật. Dựa trên kỹ thuật bagging, tôi thực hi n cả hai hướng tiếp cận phân lớp và hồi quy trên bộ dữ li u c phiếu MSFT đã định nghĩa ở mục 3.1.2.3.2.b, gọi tắt là tập D.
3.3.4.1. Ph
Từ tập huấn luy n ban đầu D, lấy ngẫu nhiên 10 tập con Di có số lượng phần tử khác nhau, các phần tử trong tập mẫu Di này có thể trùng nhau. ới mỗi tập Di ta huấn luy n được một mạng neural Mi.
Đưa tập dữ li u mới vào lần lượt các m hình Mi đã được huấn luy n, bộ phân lớp bagging đếm số phiếu, thì sau khi bỏ phiếu dựa trên đa số, hi u suất của bộ phân lớp đạt 87.87%.
N y i
ự oán
T ực t
N y
ự oán
T ực t
4-Dec-14
-1
16-Dec-14
-1
1
1
5-Dec-14
-1
17-Dec-14
-1
1
1
8-Dec-14
1
18-Dec-14
-1
1
1
9-Dec-14
-1
19-Dec-14
-1
-1
1
10-Dec-14
-1
22-Dec-14
-1
-1
-1
11-Dec-14
-1
23-Dec-14
-1
-1
-1
12-Dec-14
1
24-Dec-14
1
-1
-1
15-Dec-14
1
26-Dec-14
1
-1
-1
Bảng 3.12: Kết quả phân lớp b ng phương pháp Ensemble cho mạng neural.
3.3.4.2. Hồi u
ới cách thực hi n thuật toán bagging như trên, sử dụng tập dữ li u mới đưa qua lần lượt các m hình mạng neural Mi, giá trị dự đoán được tính b ng trung bình cộng các giá trị dự đoán của từng mô hình này. Khi đó, độ lỗi MSE của tập giá trị dự đoán chỉ còn 5.270 và h số tương quan là 0.9766 xem hình 3.19).
48
Hình 3.19: H số tương quan R b ng phương pháp Ensemble cho mạng neural.
Giá dự oán bằn Neura
N y i
Giá ngày i
Giá t ực t ngày i+4
Giá dự oán bằn Neura truy n t ốn
Giá dự oán bằn p ƣơn pháp ensemble
cải ti n 1
4-Dec-14
48.84
46.90
48.52
46.32
46.88
5-Dec-14
48.42
47.17
48.68
46.66
47.26
8-Dec-14
47.70
46.95
46.83
50.16
46.93
9-Dec-14
47.59
46.67
53.05
47.12
46.23
10-Dec-14
46.90
45.16
40.28
50.77
46.37
11-Dec-14
47.17
45.74
41.79
52.91
46.78
12-Dec-14
46.95
47.52
43.16
49.47
47.97
15-Dec-14
46.67
47.66
44.08
48.17
47.48
16-Dec-14
45.16
47.98
47.02
48.86
47.54
17-Dec-14
45.74
48.45
49.38
48.83
48.45
18-Dec-14
47.52
48.14
46.9
46.84
47.98
19-Dec-14
47.66
47.88
45.74
46.23
46.76
22-Dec-14
47.98
47.45
46.95
45.91
47.84
23-Dec-14
48.45
47.02
47.28
45.84
47.00
24-Dec-14
48.14
46.45
47.15
45.90
46.74
26-Dec-14
47.88
46.76
48.25
47.69
47.34
Bảng 3.13: T ng hợp các kết quả dự đoán của nhiều mô hình thực nghi m.
Qua thống kê ở bảng 3.13, tôi thu được t l chính xác của các m hình: mạng Neural truyền thống, mạng Neural cải tiến 1 và mạng neural sử dụng phương pháp ensemble lần lượt là 31.25%, 18.75% và 50%. Nhận thấy, khi sử dụng kỹ thuật
49
bagging thì độ chính xác của mạng neural tăng lên đáng kể. Đồ thị giá đóng cửa thực tế và giá dự đoán b ng phương pháp ensemble (hình 3.20).
49.5
48.7
47.8
47.0
46.2
45.3
44.5
Giá thực tế ngày i+4
Giá dự đoán b ng Ensemble
Hình 3.20: Đồ thị giá đóng cửa thực tế và giá dự đoán.
3.4. P n t c .
Dự đoán xu thế của thị trường chứng khoán là một công vi c kh ng đơn giản, sự bất n của thị trường kèm theo đó là tác động của nhiều yếu tố bên ngoài cũng làm ảnh hưởng tới giá cả của thị trường chứng khoán. Bởi vậy để xây dựng một mô hình dự báo xu thế thị trường chứng khoán đem lại hi u quả cao cho các nhà đầu tư là một công vi c cần thiết.
Trong chương 3 của luận văn này, t i đã sử dụng những lý thuyết đã tìm hiểu được ở chương 1, chương 2 áp dụng vào bài toán, hoàn thành thực nghi m với bộ dữ li u thực tế thu thập từ trang finance.yahoo.com cho mã c phiếu MSFT niêm yết trên NASDAQ. Các kết quả thực nghi m đều có độ chính xác cao trên 80%. Luận văn thực hi n kết hợp kiến thức của khoa học máy tính với các kiến thức tài chính hỗ trợ đắc lực cho các nhà đầu tư, kinh doanh có quyết định chính xác đúng thời điểm nh m gia tăng lợi nhuận tối đa.
Luận văn này tập trung vào vi c tìm hiểu mô hình khai phá dữ li u và kỹ thuật chuyên dụng của các chuyên gia kinh tế dùng trong lĩnh vực chứng khoán theo cả hai khía cạnh định tính và định lượng.
Đầu tiên, tôi thử nghi m bộ dữ li u này với mô hình phân tích hồi quy ARIMA chuyên dụng của ngành tài chính và mô hình khai phá dữ li u mạng Neural. Tôi tiến hành so sánh kết quả thực nghi m của tôi với nghiên cứu của Kuo-Cheng Tseng và cộng sự [24] với cùng mô hình sử dụng ARIMA(1,1,2) và mạng neural cho dữ li u c phiếu MSFT thì nhận thấy kết quả thực nghi m của tôi tốt hơn. Sở dĩ t i đạt được kết quả này là vì tôi sử dụng với nhiều dữ li u đầu vào hơn so với bài báo [24 nên cho độ chính xác tốt hơn. Từ đây t i thấy r ng: muốn tăng độ chính xác dự báo thì cần cung cấp nhiều thông tin hữu ích cho quá trình huấn luy n mô hình.
50
Đồng thời kết quả dự đoán ngày T+1 của mô hình mạng Neural cho kết quả chính xác hơn m hình rima với cùng bộ dữ li u MSFT. Tuy nhiên, kết quả dự đoán ngày thứ T+4 của mô hình mạng neural lại k m hơn so với dự đoán T+1. Nguyên nhân có thể do vi c dự đoán càng xa khiến cho khả năng dự đoán càng kém chính xác. Kết quả chi tiết trong bảng 3.6. Nhưng để phù hợp chu k thanh toán hi n tại của thị trường chứng khoán, tôi tiến hành cải tiến nh m gia tăng độ chính xác cho mạng neural với chu k thanh khoản T+4.
Tôi thực cải tiến lần 1 cho mô hình mạng neural b ng cách thực hi n b sung dữ li u đầu vào với một vài chỉ báo phân tích cơ bản. Kết quả nhận được cho thấy, khi được b sung cách tiếp cận kinh tế, mô hình mạng neural cho độ chính xác cao hơn, kết quả phân lớp tăng từ 82.9005(%) ± 0.2025(%) lên 82.9595(%) ± 0.2855(%). B ng cách cung cấp thêm th ng tin đầu vào cho quá trình huấn luy n mạng neural, tôi có kết quả như trong bảng 3.9 và 3.10. Từ đây t i càng khẳng định r ng: muốn tăng độ chính xác dự báo thì cần cung cấp nhiều thông tin hữu ích cho quá trình huấn luy n mô hình.
Tôi tiếp tục sử dụng bộ dữ li u này và tiến hành cải tiến lần 2 với phương pháp ensemble cho mạng neural cụ thể là kỹ thuật bagging và kết quả tăng lên đáng kể với độ chính xác đạt mức 87.87%. Kết quả chi tiết được thể hi n trong bảng 3.12 và 3.13 cho thấy vi c kết hợp những kiến thức của khoa học máy tính với các kiến thức tài chính có thể hỗ trợ cho các nhà đầu tư, kinh doanh trong vi c đưa ra những chiến lược đầu tư phù hợp nhất.
Kỹ thuật boosting chú trọng đến bộ dữ li u bị phân lớp sai, thể hi n trong vi c tăng trọng số cho bộ dữ li u học sai này để ưu tiên nó hơn trong quá trình học, do đó dẫn dễ đến tình trạng overfitting của m hình t ng hợp với dữ li u ban đầu. Tình trạng overfitting sẽ làm cho m hình kh ng có khả năng khái quát hóa, chỉ trả lời được với những gì m hình đã được huấn luy n, còn khi đưa dữ li u mới vào thì m hình kh ng trả lời được. ậy nên, m hình boosting tạo ra có thể k m chính xác. Trong khi đó bagging ít khi gặp overfitting hơn. ì vậy đây chính là ưu điểm mà tôi lựa chọn sử dụng thuật toán bagging để giải quyết bài toán này.
Có thể chia tập dữ li u thành nhiều tập con khác nhau để huấn luy n m hình.
Ở đây tôi chọn ph p chia thành 10 m hình con vì những lý do sau đây:
-) chia thành càng nhiều tập dữ li u con thì càng có nhiều mô hình neural thành phần. Do đó thời gian tính toán cũng tăng nên theo số lượng mô hình neural thành phần ,
-) Số lượng tập dữ li u con càng ít thì số mô hình neural thành phần càng ít làm cho độ chính xác càng giảm và ngược lại số lượng tập dữ li u tăng thì độ chính xác tăng
-) chia thành càng nhiều tập dữ li u con thì số lượng dữ li u huấn luy n trong một m hình càng ít. Khi có nhiều tập dữ li u con thì số lượng mô hình neural thành phần là nhiều sẽ dẫn đến dữ li u đầu vào kh ng đảm bảo đầy đủ th ng tin để huấn luy n mô hình dự báo chính xác.
51
Dựa vào các kết quả thu nhận được tôi có vài lời khuyên cho các nhà đầu tư,
các nhà kinh doanh chứng khoán như trong bảng 3.14.
N y
u ƣớn dự oán
ời uyên
4-Dec-14
-1
Nên giữ nguyên hoặc có thể bán
5-Dec-14
-1
Nên bán
8-Dec-14
1
Nên giữ nguyên hoặc mua
9-Dec-14
-1
Nên giữ nguyên hoặc có thể bán
10-Dec-14
-1
Nên giữ nguyên hoặc có thể bán
11-Dec-14
-1
Không nên giữ nguyên mà nên bán
12-Dec-14
1
Nên giữ nguyên hoặc có thể mua
15-Dec-14
1
Nên mua.
16-Dec-14
1
Nên mua.
17-Dec-14
1
Nên mua.
18-Dec-14
1
Nên bán.
19-Dec-14
-1
Nên giữ nguyên hoặc có thể bán
22-Dec-14
-1
Không nên giữ nguyên mà nên bán
23-Dec-14
-1
Nên bán
24-Dec-14
-1
Nên bán
26-Dec-14
-1
Nên bán
Bảng 3.14: Lời khuyên cho các nhà đầu tư chứng khoán.
3.5. t uận.
Trong chương này, luận văn của t i đã thực hi n kết hợp giữa kiến thức khoa học máy tính với các kiến thức tài chính để dự đoán xu thế thị trường chứng khoán. Dựa vào các kết quả đạt được, t i đưa ra lời khuyên hỗ trợ cho các nhà đầu tư, kinh doanh ra quyết định mua hay bán c phiếu trong phiên tiếp theo. Các kết quả thực nghi m của t i tuy chưa thực sự giải quyết được hết các vấn đề của thị trường chứng khoán nhưng cũng đủ để cung cấp th ng tin và định hướng ban đầu cho các nghiên cứu tiếp theo của tôi.
52
T UẬN
Kết quả đạt được:
Từ vi c nghiên cứu yêu cầu bài toán và thực nghi m trên dữ li u lịch sử giao
dịch c phiếu, luận văn của tôi đã thực hi n được một số nội dung sau:
- Tìm hiểu về thị trường chứng khoán và các kỹ thuật truyền thống trong vi c dự
báo thị trường chứng khoán.
- Tìm hiểu mô hình khai phá dữ li u - mô hình mạng neural, mô hình hồi quy - RIM và kỹ thuật cải tiến gia tăng độ chính xác cho mạng neural mà điển hình là phương pháp ensemble.
- Tiến hành thực nghi m và so sánh đánh giá các kết quả đạt được.
- Hỗ trợ người dùng trong vi c đưa ra lời khuyên cho người dùng nên mua, bán
Hướng phát triển của luận văn:
hay giữ nguyên giá c phiếu trong phiên tiếp theo.
Trong thời gian tới, tôi sẽ tiếp tục xây dựng, hoàn thi n h thống dự báo chứng khoán nh m hỗ trợ người dùng trong vi c đưa ra lời khuyên chính xác. Thêm vào đó, tôi sẽ tiếp tục nghiên cứu các phương pháp học máy dùng trong khai phá dữ li u và kết hợp với khai phá dữ li u trên mạng xã hội như Facebook, các diễn đàn chuyên về chứng khoán nh m nâng cao kết quả dự báo xu thế thị trường chứng khoán.
53
T ỆU T M ẢO
Ti n việt:
1. Nguyễn Trọng Hoài, Phùng Thanh Bình, Nguyễn Khánh Duy, (2009), Dự Báo và Phân Tích Dữ Liệu trong Kinh Tế và Tài Chính, NXB Thống Kê.
2. Nguyễn Minh Phong, 2007 , "Nhận di n rủi ro trong đầu tư chứng khoán," ạp h ài h nh 5 511 .
3. Hà Quang Thụy, 2013 , ài giảng nhập m n h i phá dữ liệu, Đại học C ng Ngh - ĐHQG Hà Nội.
Ti n an :
4. E. Barnard, L. Wessels, (1992), "Avoiding False Local Minima by Proper Initialization of Connections", IEEE Trans. on Neural Networks, vol. 3, no. 6, pp. 809- 905.
5. E. Bauer, R. Kohavi, 1999 , “ n empirical comparison of voting classification algorithms: Bagging, Boosting and variants”, Machine Learning 36 (1-2) (1999), pp. 105-139.
6. G. Box, G. Jenkins, (1970), Time series analysis: Forecasting and control, Wiley, San Francisco.
7. Samprit A. Chattefuee, Ali S. Hadi, (2006), Regression Analysis by Example, Fourth Edition, Wiley Interscience, Canada, pp. 1, 21-44.
8. H. Demuth, M. Beale, (1998), Neural network toolbox for use with MATLAB, The MathWorks Inc., Massachusetts, USA.
9. H. Drucker, R. Schapire, P. Simard, 1993 , “Improving performance in neural networks using a boosting algorithm”, Advances in Neural Information Processing Systems 5, California, pp. 42-49.
10. B. Efron, R. Tibshirani, (1993), An Introduction to the Bootstrap, Chapman & Hall, New York.
11. David Hand, Heikki Mannila, Padhraic Smyth, (2001), Principles of Data Mining, MIT Press, Massachusetts.
12. L.K. Hansen, P. Salamon, “Neural network ensembles”, 1990 , IEEE Trans. Pattern Analysis and Machine Intelligence 12 (10) 993-1001.
13. Rob J Hyndman, George Athanasopoulos, (2014), Forecasting: principles and practice, OTexts, Australia, pp. 63-77.
14. Kiyoshi Kawaguchi, (2000), A multithreaded software model for backpropagation neural network applications, MSc. Thesis, The University of Texas at El Paso.
54
15. Zabir Haider Khan, Tasnim Sharmin Alin, Md. Akter Hussain, (2011), "Price prediction of share market using Artificial Neural Network (ANN)", International Journal of Computer Applications (0975 – 8887), Volume 22, No.2.
16. Rushi Longadge, (2013), "Class Imbalance Problem in Data Mining: Review", International Journal of Computer Science and Network, vol. 2, no. 1.
17. Jian Pei, Jiawei Han, Micheline Kamber, (2006), Data Mining: Concepts and Techniques, 2rd edition, Morgan Kaufmann, pp. 327-337.
18. Jian Pei, Jiawei Han, Micheline Kamber, (2011), Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, pp. 377-38.
19. Mariela Qirici, Sebastian Franco, Jonathan Baiden, Craig Nesbitt, (2013), Forex Trading and Investment, Project Report, Worcester Polytechnic Insitute, pp. 38-55.
20. Saed Sayad, (2015), artificial neural network, http://www.saedsayad.com/artificial_neural_network.htm
21. Neural Network Toolbox (version 8.2.1 – R2014b), http://www.mathworks.com/help/stats/
22. Joaquín Torres Sospedra, 2011 , Ensembles of Artificial Neural Network and development of design methods, Ph.D Thesis, The Universitat Jaume in Spanish.
23. Dave Touretzky and Kornel Laskowski, 2006 , “Neural Networks for Time Series Prediction”, 15-486/782: Artificial Neural Network, School of Computer Science, Carnagie Mellon.
24. Kuo-Cheng Tseng, Ojoung Kwon, Luna C. Tjung, (2012), "Time series and neural network forecast of daily stock prices", Investment Management and Financial Innovations, vol. 9, no. 1.
25. Zhi-Hua Zhou, Jianzin u, ei Tang, 2002 , “Ensembling neural networks: Many could be better than all”, Artificial Intelligence 137(1-2), pp 239-263.