Xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:10

Thêm vào BST

Báo xấu

47
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này xây dựng một giải pháp để xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều bằng phương pháp phân tích thành phần chính. Phần ứng dụng dựa vào dữ liệu trên trang Web của Tổng cục Thống kê. Kết quả cho thấy, việc sử dụng phương pháp phân tích thành phần chính đã đưa ra trình tự hồi qui chính xác, góp phần nâng cao hiệu quả của dự báo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều

Nghiên cứu khoa học công nghệ XÁC ĐỊNH TRÌNH TỰ HỒI QUI TRONG VIỆC DỰ BÁO HỆ THỐNG DỮ LIỆU ĐA CHIỀU Hà Gia Sơn* Tóm tắt: Bài báo này xây dựng một giải pháp để xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều bằng phương pháp phân tích thành phần chính. Phần ứng dụng dựa vào dữ liệu trên trang Web của Tổng cục Thống kê. Kết quả cho thấy, việc sử dụng phương pháp phân tích thành phần chính đã đưa ra trình tự hồi qui chính xác, góp phần nâng cao hiệu quả của dự báo. Từ khóa: Dự báo, Chuỗi thời gian, Dữ liệu đa chiều, Phân tích thành phần chính. 1. ĐẶT VẤN ĐỀ “Dự báo là dự kiến, tiên đoán về những sự kiện, hiện tượng, trạng thái nào đó có thể hay nhất định sẽ xảy ra trong tương lai.” (từ điển Bách khoa). Ở nước ngoài, có nhiều công trình nghiên cứu về vấn đề này, đã có một hệ thống lý thuyết gồm nhiều phương pháp, qui trình cũng như nhiều mô hình để dự báo tương lai như tài liệu [10]. Tài liệu [8] đã phân tích và thăm dò các yếu tố của chuỗi thời gian, các mô hình của chuỗi thời gian, quy trình Box-Jenkins dành để dự báo. Tài liệu [9] nêu tổng quan về các phương pháp dự báo trong kinh doanh. Trong thời gian gần đây, ở trong nước, chúng ta đã quan tâm nhiều hơn tới lĩnh vực dự báo, đã có nhiều đề tài các cấp, với những mục đích và cách tiếp cận khác nhau về dự báo như các công trình [1-5], [7]. Hiện tại, xuất hiện nhiều mô hình dự báo có hiệu quả cao, tuy nhiên, mọi sự vật và hiện tượng đều không xuất hiện hay biến đổi đơn độc mà còn chịu tác động của những sự việc, hiện tượng khác, chúng phụ thuộc và ảnh hưởng lẫn nhau. Tổng hợp các công trình nghiên cứu cho thấy, khi dự báo những bộ dữ liệu thu thập được tập hợp thành một bảng lớn (dữ liệu đa chiều), người ta thường dùng mô hình phân tích hồi quy tuyến tính để phân tích quan hệ giữa biến phụ thuộc Y với một hay nhiều biến độc lập X để tìm sự liên quan giữa các cột (biến) của bảng dữ liệu này. Tuy nhiên, trong thực tế, các biến X lại không độc lập mà phụ thuộc lẫn nhau, chính vì vậy, cần phải xác định chính xác trình tự đề hồi qui, hay cụ thể hơn, cần dự báo biến X nào trước, sau đó, lấy kết quả dự báo của biến này và các biến khác để hồi qui ra các biến X, Y tiếp theo. Trong bài viết, phần đầu là cơ sở lý thuyết chung và phương pháp phân tích thành phần chính, ở mục tiếp theo, tác giả đưa các giải thuật về ứng dụng và phát triển phương pháp phân tích thành phần chính để xác định trình tự hồi qui, ứng dụng dựa vào dữ liệu trên trang http://gso.gov.vn. Kết quả cho thấy, việc sử dụng phương pháp phân tích thành phần chính đã đưa ra trình tự hồi qui chính xác, nâng cao hiệu quả của dự báo. 2. NỘI DUNG CẦN GIẢI QUYẾT 2.1. Xây dựng lý thuyết 2.1.1. Giả thiết ban đầu Trong dự báo, số liệu trong quá khứ và hiện tại quyết định xu hướng vận động của các hiện tượng trong tương lai. Tạp chí Nghiên cứu KH&CN quân sự, Số 45, 10 - 2016 99 Công nghệ thông tin & Cơ sở toán học cho tin học 2.1.2. Phương pháp thường sử dụng trong dự báo hệ thống dữ liệu đa chiều. Như đã nói ở trên, dữ liệu đa chiều là một bộ số liệu dạng bảng các giá trị bằng số cùng các thứ nguyên hoặc đơn vị đo của nó , đó là những yếu tố định lượng hay định tính của một hoặc nhiều biến ngẫu nhiên nào đó. Dự báo hệ thống dữ liệu đa chiều là việc xác định các giá trị của bảng này ở thời điểm tương lai. Việc dự báo này chia làm 02 giai đoạn: Giai đoạn 1: dự báo từng cột của bảng dự liệu này. Đề làm được việc này, Theo ([10]), người ta thường dùng các mô hình dự báo định lượng, nó sẽ khắc phục được tính chủ quan và cảm tính trong dự báo bằng cách sử dụng các công cụ toán học. Giai đoạn 2: Theo ([10]), người ta thuờng dùng mô hình hồi quy bội để tìm sự liên quan giữa các biến (các cột) trong bảng với nhau để xác định lại các giá trị dự báo, nghĩa là liên hệ biến phụ thuộc Y cho trước với nhiều biến độc lập X1, X2, ..., Xn. Mô hình có công thức tổng quát như sau: Y=  X1X2 + X3+…….nXn +n+1Yt (2.1) Nhược điểm của phương pháp này chính là việc coi các biến X1, X2, ..., Xn độc lập với nhau, tuy nhiên trong thực tế, chúng lại có sự liên quan với nhau, ví dụ Xk tác động vào Xi nhưng ta lại dự báo Xi trước mà không tính tới sự biến động (kết quả dự báo) của Xk . Vì vậy, để sử dụng tốt mô hình hồi qui trong dự báo, cần phải đưa ra được trình tự để hồi qui, nếu không sẽ dẫn tới việc kết quả dự báo sẽ rất thiếu chính xác. 2.1.3. Phương pháp phân tích thành phần chính Dùng kỹ thuật “Phân tích thành phần chính” để xác định, mục đích của kỹ thuật này là rút ra thông tin chủ yếu chưa trong bảng dữ liệu bằng cách xây dựng một biểu diễn đơn giản hơn, sao cho trong biểu diễn đó, đám mây số liệu thể hiện rõ nhất, mà thông tin không sai lạc. Theo [6], thuật toán này như sau:  x1,1 x1, 2 ..........x1, p    x 2,1 x 2, 2 ..........x 2, p Cho bảng số liệu: X n, p     ...............    x n,1 x n, 2 ............x n, p  Trong đó, xi,j là giá trị mà biến Xj; j = 1, p ; nhận trên cá thể i; i= 1, n . Để biết mối quan hệ giữa các biến, giữa các cá thể cần chuyển chung qua không gian con với số chiều ít hơn. Các bước tiến hành như sau: -Bước 1: Qui tâm bảng số liệu: Mỗi giá trị thứ i trên cá thể i của Xj đều được trừ cho số bình quân x j của biến Xj . Ta được ma trận qui tâm X = x i , j np .   -Bước 2: Tính ma trận phương sai- hiệp phương sai : M 0  1 X ' X (2.2) n 100 Hà Gia Sơn, “Xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều.” Nghiên cứu khoa học công nghệ -Bước 3: Tìm các giá trị riêng: 1  2  3  ........ q  .......  p (q< p) bằng cách giải phương trình: M 0  I  0 (2.3) -Bước 4: Tìm trục chính bằng cách giải phương trình  M0  j Iuj  0 (2.4) uj = (u1j, u2j , .....upj )’ là véc tơ riêng (đơn vị) ứng với giá trị riêng  j ( j = 1, q < p). Trục chính thứ nhất và thứ hai tạo nên mặt phẳng chính thứ nhất … - Bước 5: Hình chiếu của cá thể i trên trục chính j là: zij = x’i ui (2.5) - Bước 6: Tìm thành phần chính: thứ j trong Rn ( j  1, q ) theo công thức:  1 Nếu  j là nghiệm riêng của X’X  j Xu j (2.6)  vj   1  Xu j Nếu  j là nghiệm riêng của M0  1 X'X  n j  n -Bước 7: Tái lập các điểm – biến: hình chiếu của điểm biến Xj trên thành phần chính thứ k ( k = 1, q ) là X’j vk. Dưới dạng tường minh, ta có: X ' j v k  u j ,k k (2.7) 2.1.4.Ứng dụng phương pháp phân tích thành phần chính để xác định trình tự hồi qui Giả sử ta đã có tất cả các hình chiếu của các biến trên thành phần chính, khi đó, theo [6] (tr 103), nếu coi biến Xi là biến cần giải thích, và biến Xk là biến giải thích thì Xk tác động vào Xi khi và chỉ khi góc giữa 2 véc tơ Xk, Xi nhỏ hơn hoặc bằng 900 và X i > X k ( X i - độ dài của véc tơ Xi, và X k là độ dài của véc tơ Xk). Lúc này, ta đã biết được tọa độ của các véc tơ , nên có thể xác định được chúng theo công thức: X i  xi2  yi2 (2.8) ( xi, yi là tọa độ của Xi trên mặt phẳng tạo bởi 2 trục chính). Góc giữa 02 véc tơ Xk, Xi được xác định bởi công thức: xi xk  yi yk Cos ( X i , X k )  (2.9) x  yi2 . xk2  yk2 2 i Vì thế, ý tưởng của thuật toán để xác định trình tự hồi qui là dùng phương pháp phân tích thành phần chính để đưa các biến (các cột) về 1 mặt phẳng của 02 thành phần chính, sau đó sắp xếp theo độ lớn của các biến, và xem xét các góc giữa 02 biến để phân tích sự liên quan giữa chúng, khi đó, giả sử như biến Xi là biến cần giải thích, ta sẽ tìm được các biến Xk1, Xk2… Xkn giải thích cho biến Xi, sử dụng kết quả dự báo, phương pháp bình phương tối thiểu để giải phương trình: Xi =  Xk1Xk2 + Xk3+…….nXkn +n+1Xi . Lập lại như vậy cho tới khi hết bảng dữ liệu. Tạp chí Nghiên cứu KH&CN quân sự, Số 45, 10 - 2016 101 Công nghệ thông tin & Cơ sở toán học cho tin học 2.2. Ví dụ ứng dụng Từ dữ liệu của tổng cục thống kê tại địa chỉ http://gso.gov.vn, có bảng như sau: Bảng 1. Biến động của thu nhập quốc dân, dân số, vốn đầu tư của Việt Nam. Thu Thu nhập Dân số Vốn đầu tư Dân số Vốn đầu tư Năm Năm nhập (1) (2) (3) (1) (2) (3) 1995 228677 71996 72447 2005 897222 82392 343135 1996 269654 73157 87394 2006 1038755 83311 404712 1997 308600 74307 108370 2007 1211806 84219 532093 1998 352836 75456 117134 2008 1567964 85119 616735 1999 392693 76597 131171 2009 1731221 86025 708826 2000 435319 77631 151183 2010 2075578 86947 830278 2001 474855 78621 170496 2011 2660076 87860 924495 2002 527056 79538 200145 2012 3115227 88809 1010114 2003 603688 80467 239246 2013 3430668 89760 1094542 2004 701906 81436 290927 2014 3745515 90729 1220724 (ĐVT của dân số: ngàn người, ĐVT của thu nhập và vốn đầu tư: tỷ đồng). Ta hãy xem xét xem 3 đại lượng này tác động vào nhau như thế nào. Từ nội dung 2.1.2 và 2.1.3 ta sẽ xây dựng các thuật toán sau: 2.2.1. Qui tâm bảng số liệu (bước 1 trong mục 2.1.2) - Thuật toán 1 Ta xác định số bình quân x j của biến Xj, sau đó, xác định ma trận qui tâm bằng cách mỗi giá trị thứ i trên cá thể i của Xj đều được trừ cho số bình quân x j . Input: mảng dữ liệu mangdl gồm 03 cột (như Bảng 1 trên) Output: ma trận qui tâm matranX Xác định x1tb, x2tb, x3tb //x1tb, x2tb, x3tb là số bình quân của các cột 1,2,3 Xác định matranX//matranX la ma tran qui tam 2.2.2. Tính ma trận phương sai- hiệp phương sai theo công thức (2.2) - Thuật toán 2 Xác định ma trận quán tính bằng tích của ma trận qui tâm và mà trận chuyển vị của ma trận qui tâm. Tiếp tục xác định ma trận phương sai, hiệp phương sai bằng thương của ma trận quán tính với n (số phần tử). Input: ma trận qui tâm (matranX - đã xác định ở bước 1) Output: ma trận phương sai, hiệp phương sai (matranMxx) for i=1 to 3 for j=1 to n matranXcv[i,j]=matranX[j,i] //matranXcv - ma tran chuyen vi Tìm ma trận quán tính //matranXX là Ma tran quan tinh , bang tich cua matranXcv va matranX Tìm ma trận matranMxx // matranMxx -Ma tran phuong sai, hiep phuong sai bang ma tran quan tinh chia cho n 102 Hà Gia Sơn, “Xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều.” Nghiên cứu khoa học công nghệ 2.2.3. Tìm các giá trị riêng bằng cách giải phương trình (2.3) – Thuật toán 3 Sử dụng thuật toán 1 và thuật toán 2, áp dụng bảng 1, ta sẽ tìm được ma trận phương sai, hiệp phương sai: 1227055586 090.96 5614397002 .62 4033680799 09.62  matranMxx   5614397002 .61 31072242.3 2 1935481159 .90    4033680799 09.62 1935481159 .90 1353730725 94.32  Từ đó, ta phải tìm giá trị riêng từ định thức : 1227055586 090.96 -  5614397002 .62 4033680799 09.62   5614397002 .61 31072242.3 2 -  1935481159 .90 0 (2.10)    4033680799 09.62 1935481159 .90 1353730725 94.32 -   Khai triển (2.10), ta sẽ có 1 phương trình bậc 3: -3 + 1362459730927.615.2 -3.41154321560627E+21. + 8.41790339265994E+27 = 0 Sử dụng phương pháp Cardano để tìm nghiệm phương trình này, ta sẽ có 3 giá trị là : 1= 2469913.036 , 2=2509948729.001, 3=1359951164797.464 Tiếp tục, sẽ dùng thuật toán sau để xác định trục chính. Input: ma trận phương sai, hiệp phương sai matranMxx ( đã có trong bước 2) Output: trục chính l1, l2 Giải phương trình bậc 3 bằng phương pháp Cardano để xác định x1, x2, x3 l1=x1;l2=x2; l3=x3; max=x1+x2; if max3 then breck; end for i=1 to n for j=1 to 3 matranX[i,j]=matranX[i,j]/(dl[j]*SQRT(n)) for i=1 to 3 104 Hà Gia Sơn, “Xác định trình tự hồi qui trong việc dự báo hệ thống dữ liệu đa chiều.” Nghiên cứu khoa học công nghệ for j=1 to n matranY[i,j]= matranX[j,i] for i=1 to 3 for j=1 to n begin matrankq[i,1]=matrankq[i,1]+xu1[j]*matranY[i,j]; matrankq[i,2]=matrankq[i,2]+xu2[j]*matranY[i,j]; matrankq[i,3]=SQRT(matrankq[i,1]^2+matrankq[i,2]^2); end 2.2.7. Xác định trình tự hồi qui-thuật toán 7 Thuật toán tìm góc và sự phụ thuộc giữa các véc tơ xác định bởi (2.9) như sau: Input: ma trận kết quả (đã xác định bởi thuật toán 6) Output: Góc giữa các vectơ và kết quả tác động for i=1 to 3 for k=i+1 to 3 begin kos=(matrankq[i,1]*matrankq[k,1]+matrankq[i,2]*matrankq[k,2]) / (matrankq[i,3]+matrankq[k,2]) goc=ACOS(kos)*180/3.14; if matrankq[i,3]>matrankq[k,3] AND goc