YOMEDIA
ADSENSE
ứng. Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm
73
lượt xem 4
download
lượt xem 4
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
ứng. Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến độc lập x1 , x 2 , x 3 , ..., x M . Giả sử rằng ảnh hưởng của mỗi trong số M biến độc lập x j lên biến phụ thuộc y có thể mô tả bằng ảnh hưởng tuyến tính. Khi đó phương trình cơ bản của hồi quy tuyến tính đa biến có dạng ˆ yi = a0 + a j ( xij − x j ) + ei = yi + ei...
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: ứng. Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm
- ứng. Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến độc lập x1 , x 2 , x 3 , ..., x M . Giả sử Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC rằng ảnh hưởng của mỗi trong số M biến độc lập x j lên biến phụ thuộc QUÁ TRÌNH y có thể mô tả bằng ảnh hưởng tuyến tính. Khi đó phương trình cơ bản của hồi quy tuyến tính đa biến có dạng M yi = a0 + a j ( xij − x j ) + ei = yi + ei , ˆ (1.1) 1.1. PHÂN TÍCH HỒI QUY ĐA CHIỀU. HỒI QUY TUYẾN TÍNH j =1 ĐA CHIỀU trong đó i − số hiệu quan trắc trong tập giá trị mẫu độ dài N , Đặt bài toán ( i = 1, ..., N ), j − số hiệu biến độc lập x j ( j = 1, ..., M ); Hiện nay, công cụ hồi quy tuyến tính đa biến là một trong những a 0 , a1 , a 2 , ..., a M − những hệ số hồi quy tuyến tính; x j − trị số trung phương tiện thống kê toán học được xây dựng hoàn thiện nhất. Giống 1N bình của biến j x j = xi j ; y i − trị số quan trắc thứ i của biến phụ ˆ như nhiều ý tưởng khác, khái niệm phân tích hồi quy được Gauss hình N i =1 thành hơn một trăm năm trước đây. Hệ phương pháp được áp dụng rộng thuộc, được khôi phục nhờ phương trình hồi quy; ei − sai lệch giữa trị số rãi hầu như trong tất cả các khoa học ứng dụng, điều đó làm cho nó phát ˆ khôi phục y i và trị số quan trắc y i . triển mạnh và thích hợp với nhiều bài toán [70, 80, 139, 140,163, 190]. Giải bài toán xây dựng mô hình hồi quy tuyến tính đa biến quy về Trong thực tiễn nghiên cứu khí tượng thủy văn, phương pháp hồi tìm những trị số của các hệ số hồi quy a 0 , a1 , a 2 , ..., a M sao cho khôi quy tuyến tính đa biến được sử dụng nhiều nhất để mô tả và dự báo phục được sự biến thiên của biến phụ thuộc y với các sai số e nhỏ nhất. những biến riêng rẽ trên cơ sở tính đến ảnh hưởng của một số nhân tố tác Vì người nghiên cứu chưa biết những trị số thực của các hệ số hồi động. Ngoài ra, phương pháp hồi quy tuyến tính đa biến thường sử dụng quy, nên phải thực hiện ước lượng thống kê những hệ số này dựa trên cực để giải quyết những vấn đề liên quan tới nội suy các trường hải dương thiểu hoá phương sai sai số s R : trong không gian cả theo phương thẳng đứng lẫn theo phương ngang. Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là 1N ( yi − yi ) 2 → min . sR = ˆ một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều N − 1 i =1 phương pháp khác nghiên cứu những mối phụ thuộc giữa các biến [12, Phương pháp truyền thống tìm những trị số a 0 , a1 , a 2 , ..., a M theo 72, 144]. điều kiện này là phương pháp bình phương tối thiểu, hiệu quả sử dụng Lời phát biểu tổng quát bài toán hồi quy tuyến tính đa biến dưới đây phương pháp này, và do đó, độ chính xác của phương trình hồi quy tuyến có thể phổ biến sang một loạt các mô hình phân tích hồi quy khác. Chẳng tính đa biến, phụ thuộc vào những điều kiện đơn giản sau: hạn, cho trường hợp hồi quy đa thức mà phương trình cơ bản của nó có − Sao cho các sai số hồi quy có trị số trung bình bằng không: thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương 18
- N N 1 1 ei = 0 yi ; e= y = a0 = N N i =1 i =1 X − ma trận các trị số của những biến độc lập, gồm N dòng, M (ở đây dấu e chỉ toán tử kỳ vọng toán học của chuỗi e ); cột (dòng thứ i là vectơ quan trắc về M biến, cột thứ j là vectơ gồm N − Những biến ảnh hưởng phải độc lập thống kê với nhau: trị số của biến j ); j≠l. ( x j , xl ) = 0 khi A − vectơ cột những hệ số hồi quy A T = {a0 , a1 , a2 , ..., aM } ; Nói cách khác, chúng không tương quan với nhau: E − vectơ cột gồm N sai số của mô hình hồi quy. r ( x j , xl ) = 0 . Với những ký hiệu mới này, phương trình cơ bản của hồi quy tuyến Nếu thoả mãn những tính chất kể trên, việc tính các trị số của những tính đa biến có dạng hệ số hồi quy sẽ quy về giải hệ phương trình chuẩn tắc dạng Y = X ⋅ AT + E . xi 1 xi 2 . . . xi M N a0 Hệ các phương trình chuẩn tắc để ước lượng những hệ số hồi quy xi 1 xi21 xi 1 xi 2 . . . xi 1 xi M ⋅ a1 được viết như sau = ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ( X T ⋅ X) ⋅ A = X T ⋅ Y , x a i M xi M xi 1 xi M xi 2 . . . xi2M chỉ số T chỉ ma trận chuyển vị hay vectơ chuyển vị (xem [3, 12, 86]). M yi Thấy rằng, nếu chuyển ma trận ( X T ⋅ X) sang vế phải, nghiệm của hệ xi 1 yi phương trình chuẩn tắc sẽ được viết dưới dạng = , ⋅ ⋅ ⋅ ⋅ A = ( X T ⋅ X) −1 ⋅ X T ⋅ Y . (1.2) x y i M i Nghiệm của bài toán hồi quy tuyến tính đa biến dưới dạng (1.2) có một loạt những tính chất đáng giá đối với người nghiên cứu: trong đó tổng (Σ) lấy theo toàn độ dài tập mẫu gồm N quan trắc. Rõ − Theo định nghĩa, vectơ giá trị của các hệ số hồi quy ràng, khi số lượng biến lớn ( M > 3 ) cách viết theo từng thành phần như A = {a0 , a1 , a2 , ..., aM } làm cực tiểu tổng bình phương các sai số, khẳng T trên trở nên rất cồng kềnh. Dạng viết ma trận sẽ thuận tiện hơn. Độc giả định tính tối ưu của mô hình này so với nhiều mô hình khác cùng loại; nên ôn lại những khái niệm cơ bản về đại số ma trận trong [12, 86]. − Bản thân những hệ số hồi quy a j là những hàm tuyến tính của các Để chuyển sang dạng viết ma trận, ta đưa ra những khái niệm sau: quan trắc Y và là những ước lượng không chệch của những giá trị hệ số y − vectơ cột các giá trị quan trắc gồm N trị số, y − {y1 − y , y 2 − y , ...} − các giá trị quy tâm theo trung bình số học hồi quy thực (nhưng chưa biết); T − Những ước lượng các hệ số hồi quy có phương sai cực tiểu so với tất cả những ước lượng tuyến tính khác. 19
- của nước (hình 1.1). Mật độ là biến phụ thuộc vào nhiệt độ T và độ muối Ta sẽ xét một đặc trưng quan trọng nữa của mô hình hồi quy tuyến tính đa biến, gọi là hệ số tương quan đa biến R0 . Chỉ tiêu này là một đặc S . Phương trình hồi quy đa biến cần tìm được viết dưới dạng ˆ trưng định lượng về sự tương tự giữa những trị số y quan trắc và y tính σ i = a0 + a1Ti + a 2 S i . toán của biến phụ thuộc. Hệ số tương quan đa biến tính theo công thức N 1 σ Ở đây đại lượng hệ số a0 = là giá trị mật độ trung bình từ N i N ( y i − y )( y i − y ) ˆ i =1 tập mẫu hiện có. Các giá trị tính được σ làm thành một mặt phẳng i =1 R0 = . (1.3) nghiêng với các trục T và S . Đại lượng hệ số hồi quy a1 = tg (α 1 ) sẽ N N ( y1 − y ) 2 ( yi − y ) 2 ˆ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng i =1 i =1 (σ, T ) . Đại lượng hệ số hồi quy a2 = tg (α 2 ) sẽ tương ứng với góc 2 Đại lượng R0 gọi là hệ số xác định, vì nó là đặc trưng khái quát đơn nghiêng của mặt phẳng hồi quy so với mặt phẳng (σ, S ) . Đại lượng sai giản về hệ số tương quan r 2 ( x, y ) cho trường hợp nhiều biến độc lập và số ei sẽ tương đương khoảng cách từ trị số quan trắc σi tới hình chiếu tỷ lệ với phần phương sai của biến y được mô tả bởi mô hình hồi quy. ˆ của nó lên mặt phẳng hồi quy σi . Trong trường hợp một biến độc lập, ta có đẳng thức R0 = r 2 ( x, y ) . Dễ 2 2 dàng nhận thấy rằng khi R0 = 1 thì những giá trị quan trắc và tính toán σ của biến độc lập hoàn toàn trùng nhau. Ý nghĩa của hệ số tương quan đa biến có phần khác so với quan σ niệm về hệ số tương quan cặp kinh điển. Vấn đề là hệ số tương quan đa biến có giới hạn biến thiên từ 0 đến 1 và, do đó, nó không cho biết dấu liên hệ giữa y và tập hợp x1 , ..., x M . Ngoài ra, đại lượng hệ số tương εi σi quan đa biến có thể lớn hơn hoặc bằng hệ số tương quan cặp cực đại α2 σi rj ( x j , y ) trong ma trận số liệu đang xét. ˆ T 0 Nên giải thích hệ số tương quan đa biến như là đại lượng liên hệ α2 tuyến tính tổng quát giữa biến phụ thuộc và các biến độc lập đã chọn, đồng thời là chỉ tiêu về hiệu quả của mô hình hồi quy tuyến tính đa biến. S Điều khẳng định này xuất phát từ thực tế rằng bình phương của hệ số tương quan đa biến về trị số bằng phần phương sai của biến y mà Hình 1.1. Ý nghĩa hình học của phương trình hồi quy tuyến tính phương trình hồi quy tuyến tính đa biến có thể mô tả. Tính toán theo mô hình hồi quy tuyến tính đa biến Ý nghĩa hình học của hồi quy tuyến tính đa biến Ta sẽ xét thuật toán tổng quát tính toán theo sơ đồ hồi quy tuyến tính Giả sử có hệ tọa độ với ba trục: nhiệt độ, độ muối và mật độ quy ước đa biến. 20
- 1. Tính các ước lượng trung bình số học và độ lệch chuẩn của tất cả s y D xy j aj = . các tham số xuất phát: s x j D yy N N 1 1 y x y= , xj = , 5. Dựa trên các giá trị hệ số hồi quy nhận được lập phương trình hồi i ij N N i =1 i =1 ˆ quy và tính các giá trị y : 1N 1N ( y1 − y )2 , sx j = N − 1 ( xi j − x j )2 . sy = M y i = a 0 + ( xi j − x j ) a j . N − 1 i =1 ˆ i =1 j =1 Lập các vectơ những trị số trung bình và độ lệch chuẩn: x , S x . 6. Ước lượng hệ số tương quan đa biến theo công thức (1.3) hay 2. Tính ma trận tương quan R gồm các hệ số tương quan cặp giữa 1− D tất cả các biến: R0 = . D yy ryx1 ryx2 ⋅ ⋅ ⋅ ryx ryy 7. Tính các ước lượng độ lệch chuẩn cho các hệ số hồi quy và kiểm M r rx1x1 rx1x2 ⋅ ⋅ ⋅ rx1 x 1T R= X X= 1 . tra mức ý nghĩa của các tham số hồi quy theo tiêu chuẩn Student ( tν ): xy M ⋅ ⋅ ⋅⋅ ⋅⋅⋅⋅ ⋅⋅⋅ N Ns y aj ⋅ ⋅ ⋅ rx rxM y rx rx sa j = tv ≥ . , M x1 M x2 M xM sa j ( N − M ) ( D / D yy ) Các hệ số tương quan thường tính theo những công thức truyền thống và 8. Kiểm tra tính phù hợp chung của mô hình đối với số liệu xuất phát kiểm tra mức ý nghĩa theo tiêu chuẩn Student. bằng cách tính tiêu chuẩn thực nghiệm Fisher: 3. Tính các định thức của ma trận tương quan và các ma trận con của F * = sD / sR , nó. Trong hồi quy tuyến tính đa biến, định thức của ma trận tương quan có dạng trong đó ryx2 ⋅ ⋅ ⋅ ryx 1 ryx1 1N N 1 ( yi − y ) 2 , s R = N − M − 1 ( yi − yi ) 2 . ˆ sD = M r rx1 x2 ⋅ ⋅ ⋅ rx1 x 1 N − 1 i =1 D= 1 . xy i =1 M ⋅⋅ ⋅⋅ ⋅⋅⋅⋅ ⋅⋅⋅ Nếu độ lớn của tỷ số F * lớn hơn giá trị bảng FT tại mức ý nghĩa đã cho ⋅ ⋅ ⋅ rx rxM y rx rx và các bậc tự do ν 1 = M và ν 2 = N − M − 1 , thì giả thiết về tính phù M x1 M x2 M xM hợp của mô hình được chấp nhận. Các ma trận con để tính những định thức dạng D y x j tạo ra bằng Sơ đồ ước lượng các tham số mô hình hồi quy trên đây là sơ đồ tổng cách loại bỏ dòng thứ y và cột thứ x j từ ma trận R . quát nhất và thường gặp trong các chương trình phân tích thống kê trên 4. Tính các hệ số hồi quy theo các công thức (1.2) hay máy tính các loại. 21
- − Ước lượng tin cậy những tham số hồi quy. Sự phức tạp trong khi thực hiện sơ đồ đầy đủ này trên máy tính liên quan tới vấn đề biểu diễn và xử lý ma trận số liệu trong điều kiện công Ta sẽ xét những kinh nghiệm phân tích hồi quy trong hải dương học suất hạn chế của các máy tính. Với những máy tính mạnh hơn, ta có thể có liên quan tới những vấn đề này. thực hiện tính toán theo sơ đồ đầy đủ của hồi quy tuyến tính đa biến và Cách tiếp cận hồi quy là cơ sở mô tả những quy luật vật lý cơ bản về tiến hành khảo sát toàn diện về những mối phụ thuộc hồi quy. Những sự phát triển các quá trình đại dương. Những công thức tính toán các đặc phần mềm trợ giúp thực hiện phân tích hồi quy tuyến tính đa biến trên trưng phát triển và tan băng [62], các tham số tương tác nhiệt giữa đại dương và khí quyển [61] và các biến trong phương trình trạng thái nước máy tính có thể tìm thấy trong [4, 12, 70, 77, 80, 139, 140, 185]. biển [27] đều dựa trên nguyên tắc hồi quy tuyến tính. Chẳng hạn, trong đa số các phần mềm đó, ta có thể từng bước loại Nếu nhìn lại những thập niên gần đây, thì thấy rõ sự tiến triển bỏ hay bổ sung thêm các biến độc lập nhằm chọn số biến độc lập tối ưu. nhanh chóng của phần lớn những phương trình hồi quy. Thoạt đầu đó là Ngoài ra, còn có thể biến đổi sơ bộ những biến xuất phát để thể hiện những phương trình bậc thấp, ít tham số. Theo mức độ hiểu biết sâu hơn chúng thuận lợi hơn trong mô hình hồi quy tuyến tính (nhờ các phương về những quy luật vật lý và tích luỹ ngày càng nhiều quan trắc, các nhà pháp tuyến tính hoá đã biết). Khi kiểm tra tính phù hợp của mô hình hồi nghiên cứu hướng tới mô tả chính xác tối đa những mối liên hệ giữa các quy tuyến tính đa biến, các thủ tục vẽ đồ thị phần dư trong những phần đặc trưng hải dương học bằng những công thức hồi quy. Vì vậy, những mềm này sẽ trợ giúp người nghiên cứu rất nhiều. phương trình hồi quy thường biến đổi theo hướng là dạng của chúng phức tạp dần. Ứng dụng hồi quy tuyến tính đa biến trong nghiên cứu hải Thứ nhất, ngày càng có nhiều biến độc lập được đưa vào xét bổ sung dương học cho những mối liên hệ tương quan đã phát hiện. Trong lịch sử, các phương trình hồi quy đã được sử dụng vào nghiên Thứ hai, hoàn thiện dần hình thức mô tả các mối phụ thuộc: dưới cứu hải dương học ngay từ khi hình thành khoa học về đại dương. Từ dạng các biến độc lập, người ta đã sử dụng những đặc trưng tổng hợp, đó việc tính toán các tham số của phương trình hồi quy một biến, dần dần là những tổ hợp khác nhau của những tham số vật lý xuất phát. với thời gian, các nhà hải dương học chuyển sang sử dụng toàn bộ hệ Xu thế này thể hiện rõ trong các phương trình trạng thái nước biển. thống phương pháp phân tích hồi quy nói chung. Xu thế này bắt đầu hình Hải dương học hiện đại sử dụng nhiều loại phương trình trạng thái thực thành rõ nét vào những năm bảy mươi, khi đó người ta bắt đầu giải quyết nghiệm, bắt đầu từ phương trình đơn giản nhất: những bài toán về xây dựng mô hình hồi quy tối ưu cho tập mẫu quan ρ − ρ 0 = a1T + a 2 S trắc. Ngày nay, phương pháp luận phân tích hồi quy có vị trí bền vững trong nghiên cứu hải dương học ứng dụng. Tuy nhiên, vẫn còn những khó và cuối cùng là những công thức của Chang−Millero [87], trong đó liên khăn trong việc ứng dụng thực tế phân tích hồi quy trong hải dương học, hệ giữa mật độ, nhiệt độ, độ muối và áp suất được mô tả bằng đa thức thường liên quan tới những vấn đề sau đây: hỗn hợp bậc năm. Dạng phương trình cụ thể nào được dùng là tuỳ thuộc − Chọn dạng tối ưu của phương trình hồi quy; vào độ chính xác xấp xỉ mật độ nước mà ta muốn và được xác định chủ yếu bởi tập mẫu quan trắc mật độ, nhiệt độ, độ muối. Tuy nhiên, cơ sở 22
- của các tính toán hồi quy vẫn là nguyên tắc tuyến tính hoá các mối phụ hoá học... thuộc và ước lượng các tham số hồi quy theo phương pháp bình phương Ta lấy thí dụ về những nghiên cứu hải dương học nghề cá, mục đích tối thiểu [3, 78]. của những nghiên cứu này nhằm mô tả một cách tin cậy những dao động Khi nghiên cứu phân bố không gian của các trường hải dương, liên quan lẫn nhau của các đặc trưng hải dương học và các đặc trưng sinh phương pháp hồi quy được ứng dụng rộng rãi để giải các bài toán nội suy học [202], trên cơ sở đó sau này hình thành quy luật tác động của môi [25, 27]. Những nguyên tắc thường dùng trong hải dương học để xây trường lên những đối tượng sinh học [108]. dựng bản đồ trên cơ sở khôi phục các giá trị tại mỗi nút của vùng lưới đã Những mối phụ thuộc hồi quy có ý nghĩa đặc biệt khi ta muốn khôi sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý. phục những số liệu khuyết trong lưu trữ quan trắc hải dương học. Tuy Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của nhiên, ở đây người nghiên cứu động chạm tới vấn đề tính bất đồng nhất phương trình, cũng như dạng của các biến, được chọn xuất phát từ điều của các mối phụ thuộc trong thời gian. Chúng ta đã biết rằng, những dao kiện sao cho phương trình mô tả đúng những dị thường không gian ở quy động chu kỳ dài trong hệ thống khí hậu làm phát sinh những hiệu ứng mô đang xét. không dừng về kỳ vọng toán học và phương sai trong các chuỗi mẫu. Quan điểm hồi quy cũng là cơ sở của phương pháp nội suy khách Tính không dừng, về phần mình, thể hiện ở sự bất ổn định của quan và đồng bộ hoá các trường hải dương [53, 57, 199]. Ở đây các những mối liên hệ tương quan, và do đó, trong ước lượng các tham số hồi phương trình hồi quy được ước lượng cho từng nút của vùng nước như là quy. Trước hết, những ảnh hưởng đó làm giảm tính phù hợp của các mô hàm của các quan trắc tại những điểm xung quanh. Việc hoà hợp và đồng hình hồi quy đã xây dựng. Cách thường dùng nhất để khắc phục những bộ hoá các trường cũng được thực hiện bằng cách sử dụng phương pháp khó khăn nêu trên là thay thế những phương trình hồi quy tổng quát bằng trên đối với những đặc trưng hải dương học khác nhau và đối với những những phương trình bộ phận. chuỗi quan trắc [27, 101, 212, 218, 251]. Nói cách khác, thay vì một mô hình hồi quy chung duy nhất cho toàn Mô tả hồi quy sự biến động của các đặc trưng hải dương học trong khối dữ liệu, người ta xây dựng một số phương trình hồi quy bộ phận. thời gian có ý nghĩa rất quan trọng trong nghiên cứu đại dương và được Những phương trình này sẽ xấp xỉ tốt hơn các mối liên hệ giữa các biến thừa nhận là phương pháp quan trọng nhất để phát hiện ra những quy luật hải dương học trên một khoảng biến thiên cụ thể và không vận hành tốt vật lý. Sự phụ thuộc tiềm năng của các quá trình hải dương học trong trên những khoảng thời gian quan trắc khác. không gian và thời gian chính là lý do để người ta tiến tới mô tả sự phụ Như vậy, ứng dụng phân tích hồi quy cho phép xây dựng những mô thuộc đó bằng các mô hình hồi quy và dự báo được những xu thế phát hình tuyến tính từng đoạn và đạt được sự mô tả tối ưu bộ phận về các đặc triển của các quá trình. trưng hải dương học. Thí dụ về kiểu mô tả này có thể là kinh nghiệm Việc xây dựng thành công những mô hình hồi quy về biến động thời phân tích hồi quy với các trường nhiệt muối đại dương [25], ở đây đã gian của một số đặc trưng hải dương học có vai trò quan trọng, vì nó cho nhận được một tập hợp những mối phụ thuộc hồi quy giữa nhiệt độ và độ phép lý giải một cách tin cậy về những dao động đồng thời được điều muối cho những độ sâu và những vùng khác nhau ở Đại dương Thế giới. khiển bởi những quy luật vật lý vận hành các quá trình thủy vật lý, thủy Thí dụ khác liên quan tới bài toán kinh điển mô tả hồi quy trắc diện 23
- thẳng đứng của những tham số hải dương học. Sự phân tầng phức tạp của một nghịch lý lạ lùng: thậm chí với một tập hợp lớn những biến độc lập đại dương, sự hiện diện của một số đới cấu trúc có cơ chế vật lý hình thành hoàn toàn có căn cứ vật lý vẫn không đảm bảo sự tối ưu của phương trình phân bố thẳng đứng của các đặc trưng hải dương học khác nhau đáng kể, hồi quy. Nguyên nhân của sự nghịch lý này là ở chỗ không thoả mãn làm cho chúng ta không thể nhận được những mô hình hồi quy tổng quát những đòi hỏi cơ bản trong khi lập các mô hình hồi quy. về các trắc diện nhiệt độ, độ muối, mật độ. Vì vậy, người ta hay sử dụng Trong nhiều trường hợp, tính tuỳ thuộc lẫn nhau tự nhiên của các những mô hình tuyến tính từng đoạn, trong đó những tham số của các quá trình hải dương sinh ra sự liên hệ thống kê tuyến tính giữa các biến phương trình hồi quy được chọn riêng biệt cho từng đới cấu trúc mặt và các độc lập với nhau. Thực tế này mâu thuẫn với điều kiện hạn chế ban đầu đới ở dưới sâu [54, 55, 89, 106, 166]. của mô hình hồi quy đa biến. Nếu không tính tới điều đó, sẽ dẫn tới sự Khi mô tả thống kê về biến động thời gian của các đặc trưng hải bất ổn định tính toán, mà kết cục là ước lượng kém hiệu quả các tham số dương học, người nghiên cứu phải mô tả tỉ mỉ những bất đồng nhất được hồi quy và tính phù hợp thấp của phương trình hồi quy nói chung. gây nên bởi biến trình mùa của phần lớn những quá trình ở lớp trên đại Khía cạnh thứ hai của cùng vấn đề này liên quan tới những khó khăn dương. Theo đó chọn ra những phương trình hồi quy bộ phận để mô tả những đặc điểm phân bố thẳng đứng của những tham số lớp nước phía có tính chất hải dương học thuần tuý, đó là do ít số liệu xuất phát. Trong trên và những mối liên hệ của các đặc trưng nhiệt động lực học cơ bản nhiều trường hợp thực tế, số quan trắc chỉ bằng số các biến độc lập đưa của khí quyển và đại dương [47, 54]. vào phương trình. Kết quả là sự bất định của nghiệm không cho phép đạt được ước lượng đúng của các tham số hồi quy, và mô hình mất giá trị. Lĩnh vực ứng dụng đặc biệt của phân tích hồi quy đa biến là lĩnh vực dự báo hải dương học. Hồi quy đa biến thường hay được xem như là một Thông thường, trong những mô hình tương tự như vậy không thể lý giải hình thức mô tả những mối liên hệ không đồng pha giữa biến phụ thuộc được ý nghĩa của những mối liên hệ hồi quy mà ta mô tả. và các biến độc lập. Các phương trình được lập sao cho dao động hiện Rõ ràng, phải lựa chọn hết sức cẩn thận các biến xuất phát trước khi thời của các biến độc lập quyết định sự biến động tương lai của biến phụ ước lượng những tham số hồi quy. Tuy nhiên, phải làm gì nếu như những thuộc. Bằng cách đó tọa độ "thời gian" được biến đổi thành trục tọa độ biến "tồi" vẫn tham gia vào mô hình? Trong trường hợp này phải chọn các dao động đồng pha − thành không gian pha. Bằng cách chọn thực mô hình hồi quy tốt nhất bằng cách tuyển chọn tuần tự tất cả những nghiệm mức độ bất đồng pha (tức bước trễ) giữa các biến, ta làm cho các phương án biến độc lập xuất phát khả dĩ khác nhau. Có rất nhiều phương dao động trở thành đồng pha và do đó, ước lượng một cách tin cậy những pháp tuyển chọn. Đó là hồi quy từng bước, hệ phương pháp thêm dần và tham số tương quan − hồi quy [1, 61, 104]. bớt dần, chọn định hướng... [3, 15, 122, 140, 144, 157, 158, 163]. Phương pháp luận tương tự đã tỏ ra khả quan trong dự báo những Đối với tất cả những phương pháp đã liệt kê, thì các chỉ tiêu chung đặc trưng trạng thái nhiệt, động lực và băng ở đại dương [62, 65, đánh giá sự tối ưu của phương trình hồi quy là độ phù hợp cao của mô 102,130, 209]. hình theo tiêu chuẩn phương sai của Fisher, độ mô tả cực đại sự biến Trong quá trình lựa chọn những biến độc lập tốt nhất cho phương động của các biến theo hệ số tiên định và độ tin cậy các ước lượng hệ số trình hồi quy tối ưu, người nghiên cứu không phải là hiếm khi đối mặt với hồi quy theo chỉ tiêu Student. 24
- 1.2. PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ Xo X Y M M 2M Ro Đặt bài toán phân tích tương quan X Y 2M R11 R12 Thực tiễn nghiên cứu hải dương học hiện đại nhiều khi đặt ra nhiệm R21 R22 vụ đánh giá định lượng về mối liên hệ giữa các quá trình khí tượng thủy văn tại những vùng khác nhau trên Đại dương Thế giới. 2M N N Thí dụ, nghiên cứu sự liên hệ trong chế độ các trường khí tượng thủy R* M M văn hai biển Hắc Hải và Kaxpi, trước hết đòi hỏi đánh giá mức độ hiệp 1 2M M Λ A B B đồng dao động ở những điểm khác nhau của hai thủy vực này. Có thể phân tích một tập hợp các chuỗi nhiệt độ (độ muối, mực nước, v.v...) theo M M M kết quả tính những hệ số tương quan cặp đơn giản giữa những tham số ở N các cặp điểm thuộc hai thủy vực. Tuy nhiên, phương pháp này chỉ cho Hình 1.2. Sơ đồ tuần tự tổng quát giải bài toán phân tích tương quan phép phát hiện những liên hệ địa phương, mà không thể khái quát thành chuẩn hoá hai tập hợp quan trắc X và Y những liên hệ cho các thủy vực nói chung. Giả sử có dữ liệu xuất phát dưới dạng hai tập hợp: X gồm những Phương pháp phân tích tương quan chuẩn hoá chính là nhằm làm sao quan trắc về M 1 biến và Y gồm những quan trắc về M 2 biến. Ta thể mô tả được mức độ liên hệ tổng quát của hai (hoặc một số) đối tượng hiện những tập hợp này dưới dạng những ma trận hình chữ nhật có N nghiên cứu trọn vẹn theo kết quả phân tích đồng thời một tập hợp những dòng và M 1 và M 2 cột (hình 1.2). Ta sẽ liên kết các ma trận thành một tham số quan trắc. Bản chất toán học của phương pháp phân tích tương ma trận số liệu tổng quát, gồm N dòng và M = M 1 + M 2 cột. Ở đây ma quan chuẩn hoá là tìm những biến đổi trực giao tuyến tính đối với các dấu hiệu (biến) xuất phát, sao cho chúng vừa mô tả được những đặc điểm trận số liệu tổng quát tạo thành từ hai khối: khối 1 − ma trận X, khối 2 − chung nhất của mỗi đối tượng, vừa đồng thời lại tương quan với nhau ma trận Y. Để ước lượng mối liên hệ của các biến ta tính những hệ số càng cao càng tốt. Những biến đổi như vậy gọi là những biến chuẩn hoá. tương quan cặp giữa tất cả các biến trong ma trận số liệu tổng quát. Còn sự tương quan giữa chúng gọi là tương quan chuẩn hoá. Nhờ kết quả tính toán, ta nhận được ma trận tương quan tổng quát R, Rõ ràng, ý tưởng phương pháp phân tích tương quan chuẩn hoá có gồm bốn khối: khối 1 − R11 − đặc trưng cho sự tương quan của các biến nhiều nét giống với cách tiếp cận trong phương pháp các thành phần thuộc ma trận X, khối 2 − R22 − đặc trưng cho cho sự liên hệ của các biến chính. Sự khác biệt căn bản là ở chỗ: trong phương pháp phân tích tương thuộc ma trận Y, các khối 3 và 4 đặc trưng cho mức độ tương quan giữa quan chuẩn hoá, người nghiên cứu phải biến đổi trực giao một ma trận số các biến của ma trận X và Y − R12 và R21. Thực chất phương pháp phân liệu xuất phát, gọi là ma trận khối, mỗi khối của ma trận đó là một tập tích tương quan chuẩn hoá là tìm những tổ hợp tuyến tính của các nhóm quan trắc của một trong những đối tượng khảo sát. biến nghiên cứu tương quan tối đa với nhau dạng: 25
- U i = A i X , Vi = B i Y , (1.4) − L ⋅ R 11 ⋅ A + R 12 ⋅ B = 0 , R 21 ⋅ A − L ⋅ R 22 ⋅ B = 0 . trong đó U i và Vi − những biến chuẩn hoá, A i và B i − những hệ số chuyển đổi sang các biến chuẩn hoá từ các tập hợp xuất phát. Từ hệ phương trình này, nhận được phương trình cơ bản của phương Trong quá trình tính toán phải tuân thủ những điều kiện sau đây: pháp phân tích tương quan chuẩn hoá: − Kỳ vọng toán học của các biến chuẩn hoá bằng không: R* − Λ I = 0 . (1.6) U i = Vi = 0 ; Nhân tử R* = R 11 ⋅ R 12 ⋅ R −1 là một ma trận tương quan vuông bất −1 22 − Phương sai của các biến chuẩn hoá được quy chuẩn và bằng 1: đối xứng kích thước M dòng và M cột. Kết quả là quá trình giải lại quy về bài toán các giá trị riêng và các vectơ riêng của ma trận R * . ( U i2 ) = (Vi2 ) = 1 . Nếu triển khai định thức nằm trong dấu ngoặc của biểu thức (1.6), Liên hệ giữa các biến chuẩn hoá của hai tập hợp được xác định bằng thì có thể tính được các giá trị riêng Λ, thế những giá trị riêng đó vào giá trị của hệ số tương quan chuẩn hoá ρi : phương trình đã cho sẽ cho phép giải phương trình này để nhận những ρi = (U i , Vi ) , vectơ riêng A . Tính toán biến chuẩn hoá được thực hiện theo công thức (1.4), còn hệ số tương quan tương ứng với biến chuẩn hoá này hệ số này thoả mãn điều kiện cực đại mối liên hệ này: được ước lượng theo công thức ρi = A iT R12 ⋅ B i = B iT ⋅ R 21 ⋅ A i → max . ρi = λi . (1.7) Sau khi tìm được cặp các biến chuẩn hoá thứ nhất mô tả phần phương sai liên hệ cao nhất của các tập hợp nghiên cứu, người ta chuyển Bằng cách như vậy xác định đơn trị dạng của biến chuẩn hoá cho tập hợp sang tính những cặp biến chuẩn hoá tiếp theo. Trong quá trình này, phải thứ hai: tuân thủ điều kiện sao cho cặp biến chuẩn hoá phải phản ánh tối đa tương 1 ⋅ R −1 ⋅ R 21 ⋅ A . B= (1.8) quan dư giữa các nhóm, đồng thời tuân thủ điều kiện không tương quan 22 λ giữa những biến chuẩn hoá mới U i +1 , Vi +1 và các biến chuẩn hoá trước Sơ đồ tính toán của phương pháp phân tích tương quan chuẩn đó. hoá − L ⋅ R 11 R 12 A ⋅ = 0, (1.5) R − L ⋅ R 22 B Thủ tục tiến hành phân tích tương quan chuẩn hoá có thể chia ra 21 thành một số giai đoạn chính giúp dễ dàng chương trình hoá [34, 73, 77]: trong đó R ij − các khối của ma trận tương quan tổng quát, L − nhân tử 1. Tính các hệ số tương quan cặp đối với tất cả những biến quan trắc Lagrange, A và B − các hệ số chuyển đổi cần tìm. trong tất cả các tập hợp và lập ma trận tương quan tổng quát R . Dạng viết ma trận trên đây có thể viết lại dưới dạng 26
- 2. Tách ma trận R thành các khối và tính ma trận phụ trợ: Ứng dụng phân tích tương quan chuẩn hoá trong hải dương học R * = R 11 ⋅ R 12 ⋅ R −1 ⋅ R 21 . −1 Phân tích tương quan chuẩn hoá đối với những quá trình và trường 22 hải dương hiện mới được sử dụng một cách dè dặt. Trên cơ sở phân tích 3. Tính những giá trị riêng λ của ma trận phụ trợ R * trên cơ sở những ấn phẩm hải dương học về phương pháp phân tích tương quan phương trình đặc trưng nhận được từ điều kiện bằng không của định thức chuẩn hoá, rất khó rút ra kết luận giống nhau về những nguyên nhân của ma trận: sự dè dặt này, hơn nữa hai mươi năm trước đây trong các công trình của R* − Λ I = 0 . N. A. Bagrov [15−19] và G. A. Karpeev [90, 91] đã phân tích so sánh tỉ 4. Tính những vectơ riêng ( A ) của ma trận phụ trợ R * bằng cách mỉ những ưu việt của việc ứng dụng phương pháp này để giải quyết giải hệ phương trình dạng những bài toán khí tượng thủy văn. Chẳng hạn, ở đây đã chỉ ra rằng biến đổi chuẩn hoá cho phép giữ nguyên "thông tin dự báo" không bị sai lệch, A ⋅ (R * − Λ I ) = 0 . còn vai trò của phương pháp phân tích tương quan chuẩn hoá trong khoa 5. Tính những hệ số của vectơ riêng ( B ) cho tập hợp thứ hai Y theo học dự báo rất giống vai trò của phương pháp các thành phần chính khi công thức giải quyết những bài toán chẩn đoán. 1 Những kết luận về sau này đã được khẳng định nhiều lần bằng các ⋅ R −1 ⋅ R 21 ⋅ A . B= 22 λ kết quả tính toán thực nghiệm về phân tích những mối liên hệ của các 6. Tính những hệ số tương quan chuẩn hoá ( ρ ) theo công thức trường khí tượng và hải dương [58, 220], cũng như trong khi xây dựng những mối phụ thuộc dự báo những trường này [22, 134, 148, 193, 243]. ρi = λi . Nếu xem xét toàn bộ những kết quả phân tích chuẩn hoá hiện có 7. Ước lượng M giá trị của các biến chuẩn hoá U và V : trong hải dương học nói chung, có thể nhận ra một sơ đồ ứng dụng U = A⋅X, phương pháp phân tích tương quan chuẩn hoá tổng quát như sau: V =B⋅Y. − Những tập hợp mẫu được đưa vào khảo sát là những tập hợp trong tọa độ không gian − thời gian; 8. Ước lượng lượng mang thông tin tương đối của những biến chuẩn hoá theo nghĩa chúng mô tả độ biến động chung của các biến được khảo − Các tác giả thường cố gắng chọn những vectơ quan trắc có cùng sát: (hoặc gần nhau) về kích thước; λi − Số tập hợp được khảo sát thường bằng hai; di = . M λ − Khi giải quyết những bài toán chẩn đoán, những tập hợp được j j =1 khảo sát được đồng bộ hoá về thời gian; khi ước lượng những mối phụ thuộc dự báo, thường xem xét những mômen tương quan không đồng 27
- thấp (ít hơn 50−60%), thì nên hoặc là thay đổi tập hợp khảo sát, hoặc là pha; không áp dụng hệ phương pháp này nữa. − Lý giải những đặc trưng khai triển chuẩn hoá được thực hiện chủ yếu tương tự như lý giải các thành phần chính. 4. Những ước lượng các biến chuẩn hoá tỏ ra rất nhạy cảm đối với các điều kiện dừng của các chuỗi ban đầu. Vì vậy, trước khi triển khai Vì phương pháp này chưa được ứng dụng đủ rộng rãi trong thực phương pháp phân tích tương quan chuẩn hoá, nên kiểm tra giả thiết dừng hành nghiên cứu hải dương học, nên ngay từ bây giờ chưa thể nhận ra tất và nếu cần thiết, hãy tiến hành những phép biến đổi tương ứng đối với cả những ưu việt và nhược điểm của nó. Chúng tôi sẽ chỉ dừng lại ở một các số liệu xuất phát. số ưu khuyết điểm chính trong số đó mà chúng ta đã được biết cho tới hiện nay. 1. Nếu có nhiều hệ số tương quan cặp với trị số lớn trong ma trận số liệu tổng quát R0 , thì sẽ dẫn tới khó quay ma trận này trong khi giải bài toán các giá trị riêng. Do đó, độ chính xác ước lượng tương quan chuẩn hoá và bản thân những biến chuẩn hoá sẽ kém. 2. Đại lượng tương quan chuẩn hoá trong phương pháp phân tích tương quan chuẩn hoá, theo định nghĩa, là luôn dương, vì được ước lượng từ biểu thức (1.7). Rõ ràng rằng dấu thực của những mối liên hệ của các tập hợp biến xuất phát hoàn toàn không phải lúc nào cũng dương. Vì vậy, trong thực tế người nghiên cứu buộc phải khảo sát thêm những hệ số tương quan cặp và tiến hành những suy luận vật lý để đánh giá về dấu của tương quan chuẩn hoá. 3. Tính định hướng hẹp trong khi xác định những chỉ tiêu, chủ yếu là chỉ tiêu nói lên sự tương quan giữa các nhóm của các tập hợp biến, chứ không phải là bản thân phương sai của các tập hợp xuất phát, có thể xem là nhược điểm cơ bản trong phát biểu bài toán phân tích chuẩn hoá. Do đó, nếu khi khai triển ma trận tương quan tổng quát R0 theo các giá trị riêng mà hội tụ yếu, thì sẽ xuất hiện tình huống mối phụ thuộc tìm được ít mang thông tin do phần phương sai bên trong những tập hợp được khảo sát chuyển cho các biến chuẩn hoá bị nhỏ. Nếu phần đóng góp của hai ba biến chuẩn hoá đầu tiên tương đối 28
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn