intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian

Chia sẻ: Nguyen Nhi | Ngày: | Loại File: PDF | Số trang:0

73
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian M dấu hiệu, tạo thành từ tập mẫu X gồm N quan trắc về M biến. Yêu cầu tách ra một cách có căn cứ và tin cậy về mặt thống kê k tập hợp con (nhóm, lớp quan trắc) ω1 , ω2 , ω3 , ..., ωk : Ω = ω1  ω2  ⋅ ⋅ ⋅  ω k . Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH 3.1. PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG Để tách ra những tập con, trước tiên cần phải...

Chủ đề:
Lưu

Nội dung Text: phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian

  1. phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian M dấu hiệu, tạo thành từ tập mẫu X gồm N quan trắc về M biến. Yêu cầu tách ra một cách có Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH căn cứ và tin cậy về mặt thống kê k tập hợp con (nhóm, lớp quan trắc) ω1 , ω2 , ω3 , ..., ωk : Ω = ω1  ω2  ⋅ ⋅ ⋅  ω k . 3.1. PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG Để tách ra những tập con, trước tiên cần phải có những điều kiện sau: Những quá trình diễn ra trong đại dương, những hiện tượng và đối tượng mà nhà hải dương học tiếp xúc, khác biệt nhau bởi sự đa dạng. Khó 1) Những tập con nhận được không giao nhau: mà tìm được hai quá trình hay hai đối tượng giống nhau một cách tuyệt ωi  ω j với mọi i ≠ j ; đối. Song trong những quá trình và những đối tượng riêng lẻ bao giờ nói cách khác, mỗi vectơ xl chứa M giá trị của các biến quan trắc cũng có thể nhận thấy những tính chất và những đặc điểm chung, cho x l = {x l 1 , xl 2 , ..., xl M } sẽ chỉ thuộc một trong những tập con được tách phép gộp chúng thành những nhóm, kiểu, lớp. ra. Theo nghĩa rộng, lớp có thể đồng nhất với hình tượng, vì trong lý 2) Mỗi tập con không được rỗng: thuyết nhận dạng, hình tượng được hiểu là một tập hợp những hiện tượng ωi ≠ 0 với i = 1, 2, . . . , k , liên kết với nhau bởi những tính chất chung. Sự tất yếu phải đưa ra khái niệm hình tượng (lớp) là do nhu cầu thực tiễn tiếp cận tới những phạm trù tức trong mỗi lớp tách ra phải có ít nhất một quan trắc xl . Từ đây, hiển chung hơn so với khái niệm quá trình hay đối tượng cá thể, cũng như nhiên suy ra rằng số các lớp được tách ra không thể vượt quá số quan trắc không thể bao quát tất cả những quá trình hay đối tượng tham gia vào lớp k ≤ N . Đồng thời số lớp luôn lớn hơn không − k ≥ 1 . này hay lớp kia [12, 107, 182]. Đặt bài toán Khi xét sự phân loại như là cơ sở của mô hình này hay mô hình kia, trước hết phải nhớ rằng: phân loại cần phải không chỉ khái quát thông tin, Nhiệm vụ phân loại là một trong những nhiệm vụ quan trọng nhất mà còn phản ánh được những mặt riêng lẻ của thực tế khách quan. Trong của mọi lĩnh vực khoa học. Trình độ phân loại, độ tin cậy của phân loại phân loại khoa học, chúng ta tiếp cận với những hình tượng, những lớp quyết định trình độ tri thức thực sự về đối tượng nghiên cứu. Bài toán trừu tượng, với vô vàn tính chất. Từ đó nảy sinh sự cần thiết phải tiếp cận phân loại trong hải dương học trước hết liên quan tới những vấn đề phân với những hình tượng được cho trong không gian các dấu hiệu đa chiều. loại khối nước, vấn đề phân vùng đại dương thế giới theo những dấu hiệu nào đó, hay bài toán phân tách ra những loại biến động đặc trưng của khí Đó là lý do vì sao bài toán nhận dạng có quan hệ trực tiếp với những hậu đại dương v.v... bài toán phân tích đa chiều. Tuy nhiên, trong trường hợp này, nó có thể được giải chỉ trên cơ sở những phương pháp phân loại bằng máy, tức Sự muôn hình muôn vẻ của những vấn đề thực dụng làm nảy sinh sự những phương pháp phân loại tự động, trong đó người nghiên cứu chỉ đa dạng các phương pháp phân vùng tự động thích ứng để giải quyết 43
  2. với những vấn đề lý giải hình học về phương pháp phân loại tự những nhiệm vụ cụ thể khá hẹp. Có lẽ đến ngày nay, chưa có một cách động. tiếp cận chung, vận hành tốt như nhau trong mọi tình huống. Vì vậy, khi xem xét những vấn đề phân loại áp dụng vào nghiên cứu đại dương, trước hết, ta sẽ đề cập tới những hệ phương pháp đã từng được thử thách trong khi giải quyết những nhiệm vụ thuần tuý hải dương học. Sè hiÖu b−íc Phân loại là gì? Đó là quá trình chia tập đối tượng thành một số những tập con (các lớp). Mỗi tập con bao gồm trong nó những đối tượng giống nhau theo một bộ những dấu hiệu phân biệt đã biết, và gọi là một lớp. Như vậy, kết quả của phân loại có thể biểu diễn dưới dạng những bộ đối tượng nằm trong không gian các dấu hiệu và phân cách bởi các biên của các lớp. Tuy nhiên, cách lý giải này − không phải là duy nhất. Một điều không kém phần quan trọng trong quá trình phân loại là sắp xếp những đối tượng theo mức độ chúng liên hệ lẫn nhau và chỉ ra Hình 3.1. Thể hiện phân loại các quan trắc dưới dạng cây phân loại cấu trúc của sự liên kết các đối tượng thành những lớp. Khía cạnh này d − mức giống nhau của các lớp của phân loại được thể hiện bằng cách xây dựng "cây phân loại". Cây này dẫn trên hình 3.1. Cây như vậy cho phép phân tích được sự tuỳ thuộc của Ý nghĩa hình học của phương pháp phân loại tự động các lớp và các đối tượng và xây dựng cấu trúc đa tầng của các lớp. Ta xét vấn đề này qua thí dụ phân tích các khối nước chỉ dựa vào ba Với cách mô tả sự phân loại bằng đồ hoạ như vậy, thay vì một bức biến: nhiệt độ, độ muối và nồng độ silic. Những dấu hiệu xuất phát tạo tranh phân chia cố định duy nhất, ta có một bộ các nhánh phân chia, mỗi thành một không gian dấu hiệu, không gian này có thể được biểu diễn nhánh có một ý nghĩa vật lý của nó. dưới dạng ba trục tọa độ trực giao (hình 3.2). Những bài toán phân loại cụ thể có thể hình thành theo tuần tự sau: Những quan trắc thực được biểu diễn trong không gian dấu hiệu này − Chọn các biến ban đầu; như là những điểm tạo thành đám mây các quan trắc không đồng nhất về − Chọn biểu thức định lượng về mức độ giống nhau của các quan mật độ. Một cách trực giác, thấy rằng mỗi khối nước được đặc trưng bởi trắc; những giá trị gần nhau của các tham số quan trắc. Do đó, khối nước có thể được biểu thị trong không gian các dấu hiệu như là một khối thể tích − Chọn thuật toán phân loại; khép kín nào đó, bên trong nó các điểm quan trắc tạo thành một nhóm − Lý giải kết quả. khá đậm đặc và gọn. Thể tích này có thể tách khỏi những điểm còn lại Việc chọn hệ thống những biến xuất phát bao giờ cũng đi trước bằng một mặt phân cách nhân tạo. Nếu liên kết tất cả số liệu quan trắc thủ tục tính toán thực sự, vì vậy quá trình này có thể xét riêng cùng thành những thể tích khép kín tương tự, thì coi như ta đã giải quyết bài toán phân loại. 44
  3. Ta trở lại vấn đề chọn các biến. Giả sử không có số liệu quan trắc về năng phân loại toàn diện, nó bù đắp bớt phần trừu tượng từ phía chúng ta. Và với ý nghĩa này − về phương diện hình thành ý tưởng phân loại, thì nồng độ silic. Khi đó toàn bộ đám mây quan trắc sẽ chiếu lên mặt phẳng tọa độ T , S . Bây giờ thấy rõ rằng những lớp đã phân chia ra trước đây − mọi phép phân loại đều có nét chủ quan. những kiểu khối nước, sẽ giao nhau và không thể phân tách ra được nữa, vì mật độ phân bố các quan trắc đại khái đồng đều trong toàn đám mây. Thí dụ này trực quan cho thấy rằng phân loại quan trắc chỉ thành công khi những dấu hiệu lựa chọn có khả năng cho phép phân loại dựa theo sự không đồng nhất hiện có trong đám mây số liệu. Vì vậy, theo ý kiến phần lớn những người nghiên cứu, việc lựa chọn các dấu hiệu thực tế quyết định kết cục thành công hay không thành công của sự phân loại. Vậy làm thế nào chọn được những dấu hiệu một cách tốt nhất? Để giải một bài toán đặc thù cụ thể nào đó (thí dụ, phân loại điều kiện băng), thì bộ dấu hiệu là do điều kiện vật lý của hiện tượng được phân loại quyết định. Trong trường hợp tổ chức phân loại vạn năng một đối tượng tự nhiên lớn, thí dụ khi phân vùng Đại dương Thế giới, phải sử dụng tất cả Hình 3.2. Ý nghĩa hình học của phân loại trong không gian ba dấu hiệu (nhiệt độ, độ những tham số quan trắc hiện có. muối, silic) và hai dấu hiệu (nhiệt độ, độ muối) Có phải cứ dùng số lượng lớn các dấu hiệu sẽ luôn luôn đảm bảo sự Trong thực tế nghiên cứu hải dương học, hiếm khi chúng ta có được thành công của bài toán không? Kinh nghi ệ m cho bi ế t rằng sự phân một bộ dấu hiệu lớn đến mức có thể xem là bão hoà. Vì vậy, trong phần loại có thể ổn định ngay cả với một số lượng tương đối nhỏ những dấu lớn trường hợp phải dựa vào kinh nghiệm truyền thống tuyển chọn các hiệu. biến. Điều này là do phần lớn những dấu hiệu quan trắc mô tả quá trình, hay hiện tượng, thường liên hệ thống kê với nhau (nếu không thì tình Đánh giá định lượng độ giống nhau của những quan trắc hình chắc chắn sẽ vô vùng lộn xộn). Vì vậy, nếu đưa thêm những biến Biểu thức định lượng về sự giống nhau của các quan trắc theo một mới vào một bộ dấu hiệu đã khá lớn, thì chúng cũng không góp thêm bộ dấu hiệu có thể là khoảng cách đơn giản giữa hai điểm trong không thông tin gì đáng kể về vị trí tương hỗ của các đối tượng trong không gian gian các biến (xem hình 3.2). Tiêu chí giống nhau này được gọi là khoảng dấu hiệu, vì trong bộ dấu hiệu này, rất có thể có một hoặc một số dấu hiệu cách Ơclit và được xác định theo công thức đã tương quan cao với từng biến trong số những biến vừa đưa vào. 1/ 2 M  =  wk ( x i k − x j k ) 2  Nói cách khác, có thể tưởng tượng một tập hữu hạn các dấu hiệu cho , (3.1) di j  k =1  phép phản ánh cấu trúc của các đối tượng tự nhiên được nghiên cứu. Tuy trong đó xi k − giá trị quan trắc thứ i của biến k , wk − tỷ trọng tương nhiên, cần luôn nhớ rằng bộ dấu hiệu lớn này dù sao cũng phản ánh chức 45
  4. đối của biến k . biến thiên của các dấu hiệu thành một số khoảng và lấy số hiệu của khoảng làm giá trị của biến và như vậy loại trừ được khá nhiều ảnh Khoảng cách Ơclit sử dụng tiện lợi khi tất cả các dấu hiệu có cùng hưởng của nhiễu và sự phân loại sẽ tin cậy hơn. thứ nguyên, nếu các biến không phụ thuộc lẫn nhau và phần đóng góp tương đối của chúng được biết. Những tiêu chí giống nhau liệt kê trên đây biểu thị sự gần nhau của các quan trắc trong không gian tuyến tính và là đặc trưng số hữu hiệu khi Trong trường hợp những điều kiện này không thoả mãn, có thể sử tìm các lớp có dạng hình cầu hoặc ellip trong không gian biến đa chiều. dụng khoảng cách Magalonobis, khi tính nó những thứ nguyên của các Tuy nhiên, hoàn toàn không phải bao giờ cũng gặp dạng đám mây tản biến có thể khác nhau. Dưới dạng vectơ, công thức tính khoảng cách mạn đơn giản như thế, vì vậy, người ta buộc phải tìm những biểu thức phi Magalonobis có thể viết như sau: tuyến phức tạp hơn làm tiêu chí giống nhau. Nhằm những mục đích đó, d i j = (x i − x j ) T ⋅ S −1 ⋅ (x i − x j ) , (3.2) người ta thường hay sử dụng những hàm thế vị, những hàm này nhận trong đó (x i − x j ) − vectơ cột, tạo thành bởi những hiệu các giá trị của được nhờ kết quả biến đổi phi tuyến những tiêu chí giống nhau tuyến tính M biến ứng với những quan trắc thứ i và thứ j , S − ma trận hiệp đơn giản: phương sai của các biến gồm M dòng và M cột. Pi j = 1 / (1 + d i j ) , Khoảng cách Magalonobis là tiêu chí giống nhau rất hiệu quả trong Pi j = 1 + exp ( d i j ) . trường hợp các biến tương quan với nhau. Những hàm thế vị này sẽ hiệu quả nhất trong khi phân loại những Trong thực tế không hiếm những tình huống, khi mà những biến quan trắc có dạng móng ngựa, hình con nhép v.v... quan trắc được biểu diễn không phải bằng thang đo định lượng, mà bằng thang đo định tính, thí dụ, khi nghiên cứu những thang đo lượng băng, Chọn một tiêu chí giống nhau cụ thể hoàn toàn tuỳ thuộc vào người cường độ gió, sóng, hoặc khi phân tích những chuỗi tình huống hiện diện nghiên cứu. hay không hiện diện của một hiện tượng nào đó. Trong trường hợp này, Thủ tục tính toán của phương pháp phân loại tự động không nên sử dụng những tiêu chí đã dẫn trên đây, mà nên dùng khoảng cách Hemming: Tất cả những thuật toán của phương pháp phân loại tự động có thể phân chia thành những thuật toán xác suất và thuật toán luận lý. Những M d i j =  xi k − x j k . thuật toán xác suất dựa trên nguyên tắc tối thiểu hoá độ mạo hiểm trung k =1 bình nếu sự phân loại quan trắc bị sai và chúng không được xét ở đây. Ở đây xi k − giá trị độ lớn của dấu hiệu k theo thang chuẩn hoá. Những thuật toán luận lý hiện nay thường hay được sử dụng trong Khoảng cách Hemming chỉ gồm những giá trị số nguyên, cận dưới là hải dương học hơn. Đó là vì tính hiệu quả của nó cao và thủ tục tính toán số không tương ứng với tình huống trùng hợp hoàn toàn các giá trị của tất không phức tạp. Thực chất của các thuật toán luận lý phân loại là ở chỗ cả biến đối với hai quan trắc. Ở đây phải nhận xét rằng sử dụng khoảng trong các thuật toán này, người ta chấp nhận những quy tắc logic, linh cách Hemming rất hiệu quả trong những trường hợp các biến xuất phát cảm, được thừa nhận để tìm các lớp đồng nhất. Vì vậy, các thủ tục tính chứa các sai số ngẫu nhiên hoặc các nhiễu. Khi đó người ta chia miền 46
  5. toán tiên định nhằm tới một dạng cụ thể của các lớp. Có hai loại thủ tục hồ nhảy truyền từ một chiếc lá này sang một chiếc lá khác gần đó, bằng phân loại luận lý: loại thứ nhất thường hay được dùng để phân chia chính những bước nhảy của mình, nó đã liên kết tất cả các lá thành một những tập con, đồng tính trong không gian dấu hiệu, loại thứ hai thực mạng lưới với chi phí công nhảy cực tiểu. Nguyên tắc tính toán của hiện những nguyên tắc phân chia những lớp đồng dạng (giống nhau về phương pháp mạng liên kết ngắn nhất là sao cho khi lấy một điểm quan hình dạng). trắc ban đầu tuỳ ý, phải tìm được quan trắc khác giống nhất với nó dựa theo khoảng cách cực tiểu giữa các điểm trong số tất cả những điểm chưa Người ta thường hiểu những tập con đồng tính là những tập có dạng thuộc mạng lưới. Khi đã liên kết điểm này vào mạng, phải tìm cực tiểu hình cầu xét theo hình thức vị trí tương hỗ của các quan trắc. Trong của khoảng cách đến những điểm còn lại so với tất cả các điểm đã hoà không gian dấu hiệu nhiều chiều, dạng này được xem như dạng đa cầu vào mạng. (Гиперсферическая форма). Vì vậy nên các thủ tục tính toán cũng có tên là "những thuật toán đa cầu" [4, 74, 79]. Ý nghĩa của các thuật toán Sau khi liên kết vào mạng tất cả các điểm quan trắc, người ta chính này như sau: thức thực hiện phân chia thành những lớp thu gọn. Muốn làm điều đó, Đối với mỗi quan trắc xl = {xl 1 , xl 2 , ..., xl m } người ta dựng một đa người ta đưa ra khoảng cách tới hạn d c r . Theo điều kiện d i j ≤ d c r tiến cầu với bán kính ρ trong không gian dấu hiệu M chiều. Sau đó xác định hành phân chia mạng thành những đoạn riêng biệt, đó chính là những lớp số quan trắc rơi vào bên trong đa cầu, và hình thành tập con ω i gồm cần tìm. những quan trắc đứng cách xa quan trắc xuất phát một khoảng d nhỏ Cần đặc biệt chú ý tới vấn đề phân loại tối ưu. Trong bản thân lời hơn bán kính ρ đã cho: d ≤ ρ . phát phát biểu bài toán phân loại, ta đã nhận thấy tính không đơn trị của kết quả cuối cùng. Vì vậy, việc tối ưu hoá sự phân chia thành các lớp Người ta chọn lớp thứ nhất là lớp mà rơi vào bên trong nó là số tối được tiến hành ở giai đoạn tính toán cuối cùng, khi đánh giá độ tin cậy đa các quan trắc lân cận. Đối với những quan trắc còn lại, thủ tục dựng tương đối của một số kết quả phân loại nhờ những chỉ tiêu thống kê − được lặp lại cho đến khi hết toàn bộ tập. thực nghiệm bổ sung. Những thuật toán phân loại các lớp đồng dạng nhằm phát hiện Thông thường nhất, việc chọn mức phân loại tối ưu thực hiện dựa những cấu trúc tương tự nhau về hình thức phân bố tương hỗ các quan trên tương quan tản mạn dạng: trắc trong không gian dấu hiệu nhiều chiều. Từ linh cảm thấy rõ rằng sự đa dạng các mối liên hệ của các quan trắc sẽ sinh ra những hình thức tụ Q = J 2 / J1 Q = J 2 − J1 , hay (3.3) tập quan trắc rất khác nhau trong không gian dấu hiệu. trong đó J 1 − khoảng cách trung bình theo toàn tập hợp mẫu giữa các Trong thực tế phân tích các quá trình khí tượng thủy văn, sự tụ tập quan trắc phân bố bên trong các lớp (khoảng cách trung bình nội tại lớp); các quan trắc có dạng những thành tạo "kiểu chuỗi xích" kéo dài. Vì vậy, J 2 − khoảng cách trung bình giữa các quan trắc phân bố trong các lớp phương pháp dựng mạng liên hệ ngắn nhất (KCC) [125, 172] được sử khác nhau (khoảng cách trung bình giữa các lớp). dụng phổ biến trong khảo sát hải dương học. Ý nghĩa của chỉ tiêu Q ở chỗ nó cho thấy tỷ số giữa mức độ khác Thực chất của phương pháp này là liên kết từng cặp liên tiếp các biệt trung bình của các lớp và mật độ tập trung trung bình các quan trắc quan trắc gần nhau vào mạng chung. Ví thể như, khi một con ếch trong 47
  6. bên trong một lớp. Rõ ràng, cực đại của đại lượng Q tương ứng với sự hình 3.3, trên đó biểu diễn đồ thị khoảng cách giữa các đối tượng liên tiếp được liên kết vào mạng. Rõ ràng rằng những cực đại của trị số d trên đồ phân loại mà trong đó các quan trắc được nhóm vào những lớp rất gắn bó thị này tương ứng với tình huống khi liên kết vào mạng những đối tượng với nhau, nhưng cách xa nhau tối đa. Phương án phân chia tập hợp thành rất xa nhau, có thể thuộc về một nhóm khác. Còn bên trong các lớp, ở đó những lớp như vậy là tối ưu. các đối tượng rất giống nhau, thì khoảng cách giữa chúng nhỏ, đó là những Những công thức tính J 1 và J 2 có dạng: dải thấp của đồ thị. Vậy khi ta đề ra một mức tới hạn d c r nào đó, chính là 1k1  Nj ta đã quy định biên giới giữa các lớp. Với giá trị d c r cực đại, ta nhận được  d ( xl , x p ∈ ω j )  , J1 = k j =1  N j  lp   số lớp cực tiểu, và sự phân chia trở thành ít chi tiết. Với giá trị d c r nhỏ, sự l =1 phân loại thành ra chi li quá mức. Nếu lấy tối ưu độ lớn của khoảng cách 1 k −1  dl p ( xl ∈ ω j , x p ∉ ω j ) , J2 = tới hạn giữa các lớp theo chỉ tiêu Q , người nghiên cứu sẽ chọn được k − 1 j =1 phương án phân loại sao cho đối với tập hợp đối tượng đang xét, thì các lớp trong đó k − số lớp được chia ra; N j − số quan trắc trong lớp j ; d l p − được phân chia ra khá khác nhau, đồng thời đảm bảo độ gắn bó bên trong khoảng cách giữa các cặp quan trắc thuộc một lớp (đối với J 1 ) hoặc mỗi lớp khá cao. thuộc các lớp khác nhau (đối với J 2 ). Trong một thuật toán phân loại bất kỳ, có một tham số quyết định sự nhạy cảm của phương pháp đối với cấu trúc phân bố các quan trắc và kết cục là hình thành nên các lớp. Trong các thuật toán đa cầu tham số đó là bán kính đa cầu ρ . ρ càng nhỏ thì sẽ tìm được những lớp càng gắn bó, và ngược lại, khi ρ tăng tính gắn bó trong các lớp sẽ giảm. Thông thường, việc chọn bán kính ban đầu của đa cầu căn cứ vào những kết quả phân tích sơ bộ về cấu trúc thống kê của sự bất đồng nhất quan trắc. Khi thay đổi ρ sẽ nhận được một số phương án phân loại khác Số hiệu bước nhau, từ đó người ta chọn lấy phương án tối ưu. Đối với những phương pháp có tính đa tầng, như phương pháp mạng Hình 3.3. Đồ thị liên kết các quan trắc vào mạng liên hệ ngắn nhất liên hệ ngắn nhất đã xét trên đây, thì tất cả những phương án phân loại có (Những đường thẳng đứt đoạn là những mức khoảng cách tới hạn giữa các lớp) thể có đã thể hiện trong mạng nhận được. Ở đây tham số quyết định phân Ứng dụng phương pháp phân loại tự động trong nghiên cứu hải loại là độ lớn của khoảng cách tới hạn d c r , nó có thể được người nghiên dương học cứu thay đổi trong phạm vi từ cực tiểu đối với tập quan trắc đã cho (ta có Một trong những bài toán đầu tiên nhà hải dương học gặp phải khi N lớp) đến cực đại đối với tập (ta có 1 lớp). ứng dụng phương pháp phân loại tự động là tìm một hệ phương pháp hữu Có thể dễ dàng thấy ý nghĩa của việc lựa chọn tối ưu một cách tỉ mỉ từ 48
  7. hiệu phân loại tập quan trắc cụ thể. Bắt tay vào sử dụng các phương pháp phức tạp, do đó người ta đã sử dụng những công thức hoàn hảo hơn để phân loại, người nghiên cứu không có trước những quan niệm chắc chắn tính toán các ước lượng phi tuyến về khoảng cách giữa các lớp và nội lớp về cấu trúc các lớp. Anh ta chỉ có thể có một số suy luận ban đầu căn cứ [178, 203, 205, 207]. vào những ước lượng định lượng của phép phân tích thống kê sơ bộ, Vào cuối những năm tám mươi, lần đầu tiên trong hải dương học đã những cơ chế vật lý chung đã biết về sự hình thành những quá trình được ứng dụng hệ phương pháp phân loại dựa trên lý thuyết "các tập mờ" [110, nghiên cứu và linh nghiệm của bản thân. 232]. Theo cách tiếp cận này, người ta bác bỏ tiên đề xuất phát cơ bản Số lớp, hình thức của chúng và những quan trắc cụ thể thuộc vào lớp của phân loại kinh điển rằng các lớp đã phân chia ra không được giao nào thì chỉ được phỏng đoán. Khi lựa chọn một hệ phương pháp phân loại nhau. chúng ta cần chú ý rằng kết quả cuối cùng phụ thuộc rất nhiều vào sự Ngược lại, bản thân khái niệm tập mờ dựa trên giả thiết về sự giao đúng đắn và có căn cứ của việc lựa chọn này. nhau của các lớp, trong điều kiện đó những quan trắc riêng lẻ có thể đồng Cho đến nay, trong nghiên cứu hải dương học sử dụng rộng rãi tất cả thời thuộc hai hay một số lớp kề cận [97]. Trong cách tiếp cận này biên những thuật toán đã nêu ở trên, và chưa thể coi trọng một thuật toán nào giới lớp được hiểu theo một cách hoàn toàn mới. Nếu như trong bài toán kinh điển − biên giới là một đa mặt tách các quan trắc thành các lớp khác trong số đó. Nhưng nói chung có một xu thế hướng tới sử dụng những sơ đồ tính toán càng đơn giản càng tốt. Vì vậy những phương pháp phân loại nhau, thì trong ngôn ngữ các tập mờ, biên giới được hiểu như là một vùng được phát triển trên cơ sở xây dựng mạng liên hệ ngắn nhất và đường giao nhau của các lớp có những quan trắc thuộc vùng đó. Quan niệm mới không khép kín ngắn nhất được phổ biến trong những năm sáu mươi − cho phép trong khi phân loại các quá trình hải dương chú ý đặc biệt tới bảy mươi [125, 172]. Sự đơn giản tính toán, chỉ yêu cầu ít tài nguyên máy những đới chuyển tiếp, những đới biến dạng những tính chất và v.v... tính kết hợp với tính trực quan và tính lý giải được của kết quả là nguyên Kinh nghiệm tích luỹ được khẳng định rằng phương pháp luận phân nhân phổ cập của phương pháp này. loại tự động đã được ứng dụng để giải nhiều bài toán hải dương học thực Trong nửa sau của thập kỷ 70 người ta thường hay sử dụng những dụng, có lẽ, phổ biến nhất là bài toán phân loại các khối nước của những thuật toán nhóm hệ thống dựa trên việc xây dựng những đa cầu trong vùng Đại dương Thế giới [24, 28, 38, 46, 56, 88, 98, 250]. Có nhiều lý do không gian dấu hiệu [79, 199]. Tuy nhiên, kinh nghiệm áp dụng trong hải về sự ứng dụng này, nhưng về cơ bản có lẽ do hai nguyên nhân: thứ nhất, dương học lại phát hiện ra rằng những thuật toán này ít nhạy cảm với cấu người ta muốn tự động hoá phương pháp "thủ công" truyền thống phân trúc của các lớp được phân chia, do đó rất khó xây dựng hệ phân loại tối chia các khối nước; thứ hai, người ta muốn vươn tới khái quát một cách ưu. Vì vậy, tới cuối những năm bảy mươi, đầu những năm tám mươi, khi tin cậy nhất về các khối nước, sử dụng nhiều tham số thủy lý, thủy hoá và bắt đầu xử lý những nguồn lưu trữ dữ liệu lớn, thì việc ứng dụng phương sinh học. pháp phân loại tự động tiến sang một trình độ mới. Trong giai đoạn này, Quan điểm phân loại tỏ ra đặc biệt nổi trội khi phân tích cấu trúc để đạt được kết quả tối ưu, các tác giả thực hiện phân loại tập hợp nhiều thẳng đứng của nước đại dương theo phân bố của các tham số thủy vật lý lần bằng nhiều phương pháp, bằng nhiều quan điểm đánh giá sự giống và thủy âm học [56, 100, 167]. Công việc này cho phép xác lập những nhau của các quan trắc [56, 92, 161, 185]. Sự chú ý đặc biệt được giành tham số điển hình về sự phân tầng nước và sau đó phân vùng đại dương cho vấn đề phân chia một cách tin cậy đối với những lớp có hình dạng 49
  8. tuân theo sự phân loại nhận được. quá trình này có thể nảy sinh những khó khăn do không phù hợp giữa số lớp đã phân chia ra một cách hình thức và số lớp đồng nhất trong tọa độ Trong các bài toán đã liệt kê, việc phân loại thực hiện trong hệ trục địa lý các vùng. Hiện tượng này là do sự hiện diện của một số vùng tự tọa độ "không gian − các biến", còn sự biến động thời gian chỉ quyết định nhiên khá xa cách nhau nhưng có những giá trị gần bằng nhau của các kết quả một cách gián tiếp. Sự phân loại các quá trình khí tượng thủy văn dấu hiệu quan trắc. có tính tới biến động không gian và thời gian của các quan trắc đóng vai trò quyết định trong phân vùng đại dương. Trong trường hợp này các lớp Chẳng hạn, nếu quay lại với thí dụ đã xét về phân tích các khối thường được đồng nhất với những dạng phân bố không gian điển hình nước, phải nhớ rằng những khối nước cận nhiệt đới với những đặc trưng của các trường hải dương và khí tượng học và phản ánh xu thế chung của như nhau quan trắc thấy cả ở Đại Tây Dương, Thái Bình Dương và Ấn những quá trình vật lý [123, 130, 149, 174, 185]. Vì vậy, đối tượng phân Độ Dương. Vì vậy, trong trường hợp khác nhau về số lớp đồng nhất và tích vật lý ở đây sẽ là những đặc điểm cơ bản của các trường điển hình các vùng đồng nhất người nghiên cứu phải thực hiện những biện pháp cũng như tuần tự thay thế các lớp trong thời gian. cần thiết để có được bức tranh phân chia chi tiết và đầy đủ hơn, rồi sau đó tiếp tục phân loại. Vấn đề lý giải, tức suy xét về ý nghĩa vật lý của các kết quả phân chia các quan trắc một cách hình thức, là giai đoạn cuối cùng của phương Trong nhiều tình huống thực tế, vấn đề phân loại đúng đắn không chỉ pháp phân loại tự động, kết thúc quá trình tính toán. Đồng thời đây cũng tuỳ thuộc vào số lượng quan trắc xuất phát, mà chủ yếu tuỳ thuộc vào tập có thể là nấc thang đầu tiên tiến tới khảo sát tiếp về khả năng ứng dụng phân hợp những dấu hiệu đem ra xem xét. Đối với phương pháp phân loại tự loại đối với tập đã cho. động, vấn đề tuyển chọn các dấu hiệu có nội hàm khác hẳn so với các phương pháp thống kê nhiều biến khác. Vấn đề là ở chỗ không phải lúc nào cũng có được một lý giải vật lý về các lớp mà ta nhận được lúc phân chia. Sẽ là tốt nếu những nhóm đối Biến đổi ma trận dấu hiệu xuất phát tượng đồng nhất cho phép người nghiên cứu xếp đặt chúng theo những Khi phân loại, một phần thông tin xuất phát luôn bị bỏ mất. Đó là do tính chất vật lý đã biết trước của đối tượng nghiên cứu. Để thực hiện quy sự liên kết những đối tượng khác nhau ở mức độ nào đó vào một lớp gắn trình này, nên tiến hành tính những trị số trung bình của các dấu hiệu bên liền với sự loại bỏ những thông tin đặc trưng cho những nét riêng của mỗi trong mỗi lớp, phương sai và biến phân của các dấu hiệu bên trong các đối tượng. Rõ ràng những nét riêng kiểu này là vụn vặt, so với những tính lớp, đánh giá những liên hệ tương quan giữa các dấu hiệu, nói cách khác, chất chung hơn, đặc trưng cho tất cả các đối tượng của một lớp nào đó. tiến hành phân tích sơ bộ các quan trắc theo từng lớp đã nhận được. Vậy làm thế nào tách biệt những nét chung nhất này, những tính chất điển Những ước lượng này có tính tới khoảng tin cậy của chúng sẽ cho phép hình cho phần lớn các đối tượng? Điều này có thể đạt được bằng cách tiến hành so sánh định lượng những kết quả phân loại với những tài liệu biến đổi thông tin xuất phát. khảo sát đã tích luỹ trước đây. Biến đổi thông tin xuất phát phản ánh một trong những tư tưởng Một bước lý giải nữa rất quan trọng là làm sao biểu diễn các lớp chính của vấn đề nhận dạng và phân loại. Việc giải quyết nhiều bài toán quan trắc đã nhận được lên tọa độ không gian − thời gian quen thuộc. khó phát biểu có thể sẽ được giảm nhẹ đáng kể nhờ kỹ năng biến đổi Đưa kết quả phân loại lên tọa độ không gian gọi là sự phân vùng. Trong thông tin xuất phát thành một số không nhiều các dấu hiệu, vừa đủ để mô 50
  9. tả đầy đủ những đối tượng nghiên cứu. Những dấu hiệu khái quát ấy giúp sai lầm có thể có khi quy nạp sai một quan trắc vào những lớp đã phân ta không phải chú ý tới những chi tiết ít đáng kể đối với việc phân loại. chia, điều này quyết định tính hiệu quả của hệ phương pháp trong thực hành. Đặc điểm biến đổi dữ liệu xuất phát cũng phụ thuộc vào dạng dữ liệu. Trong hải dương học, cũng như trong khí tượng thủy văn nói chung, Dưới hình thức đầy đủ, phương pháp phân tích phân biệt thuộc lĩnh những phương pháp biến đổi là phương pháp các thành phần chính và vực khoa học gọi là phép "nhận dạng" [17, 130]. Những đặc trưng thống phân tích nhân tố. kê của các lớp đã phân chia trước là những dạng, căn cứ vào những dạng này mà người ta phân tích dạng của một vectơ quan trắc mới cũng hình Điều quan trọng là những phương pháp này cho phép nhận được thành từ những đặc trưng thống kê tương tự. một hệ các dấu hiệu độc lập nhau, làm đơn giản rất nhiều thuật toán phân loại. Phương pháp các thành phần chính được sử dụng phổ biến để Thí dụ kinh điển về vận dụng lý thuyết nhận dạng trong nghiên cứu biến đổi thông tin khi phân chia các khối nước. hải dương học có thể là bài toán phân loại phân bố thẳng đứng mật độ nước ở Đại dương thế giới. 3.2. PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT Thủy vực đại dương đã được phân vùng khá chi tiết theo các kiểu phân bố thẳng đứng của mật độ nước. Đối với từng vùng đã xác định Đặt bài toán những đặc trưng thống kê về phân bố mật độ (giá trị trung bình, phương Quá trình tích luỹ tri thức về đại dương gắn liền với việc quy nạp sai, độ bất đối xứng), thiết lập quan hệ thống nhất giữa một tập hợp các những dữ liệu mới với những thông tin có sẵn và thu gom được trước tham số trạng thái đại dương khác như: chế độ nhiệt muối, động lực, các đây. Thông thường, thông tin có sẵn về đại dương gồm những tri thức đặc trưng quang học và âm học, phân bố các chỉ tiêu sinh học và hoá học, dưới dạng những khái quát. Đó là những lớp hay những kiểu hiện tượng với phân bố mật độ. Nếu ta xác định được một cách khách quan một trắc và quá trình mà người ta đã phát hiện được nhờ khảo sát toàn bộ khối dữ diện thẳng đứng vừa mới quan trắc thuộc vào lớp nào trong số các lớp đã liệu lưu trữ đã tích luỹ được. phân chia, thì có nghĩa rằng ta có được toàn bộ thông tin tương ứng với Những kiểu là những trạng thái có khả năng nhất, ổn định nhất của lớp đó và nắm được bản chất vật lý của các quá trình đang diễn ra. các đối tượng nghiên cứu; đối với những kiểu đó người ta không chỉ đã Bây giờ chúng ta chuyển sang phát biểu bài toán của phương pháp xác định được những đặc trưng thống kê, mà còn hình thành được những phân tích phân biệt. Trong quá trình vận dụng phương pháp phân tích quy luật vật lý về sự xuất hiện, tồn tại và chuyển hoá lẫn nhau của chúng. phân biệt đòi hỏi giải quyết hai vấn đề: Sự quy nạp thông tin mới với thông tin đã phân loại chính là nhiệm vụ cơ − Hình thành quy tắc toán học quy kết các đối tượng vào một trong bản về ứng dụng phương pháp phân tích phân biệt. Bản thân hệ phương những lớp đã phân chia; pháp ở đây đóng vai trò một quy tắc toán học hình thức, theo đó, bằng − Xác định một vectơ quan trắc mới thuộc lớp nào. cách so sánh thống kê những đặc trưng của các quan trắc đang xét và những lớp đã phân chia trước đó mà người ta xếp vectơ quan trắc đang Tập dữ liệu lưu trữ, đã được phân chia thành những lớp đồng nhất, được sử dụng làm tập xuất phát, còn được gọi là tập thầy x , gồm N xét vào lớp nào. quan trắc về M biến. Các quan trắc thuộc về k lớp. Đối với mỗi lớp i , Vận dụng phương pháp phân tích phân biệt giúp giảm thiểu những 51
  10. đã tính được những đặc trưng thống kê ban đầu (trung bình của M tham x i = {x1i , x 2i , ..., x M i } , phương sai của số tham số M s i = {s1i , s 2i , ..., s M i } ) và xây dựng những tổ chức đồ Pi ( x1 , x 2 , ..., x M ) . Dựa theo tập thầy, người ta phải hình thành quy tắc giải. Quy tắc giải là biểu thức toán học − hàm phân biệt, theo giá trị của hàm này có thể rút ra kết luận đơn trị quy kết vectơ quan trắc thuộc vào lớp cụ thể nào. Ý nghĩa hình học của phương pháp phân tích phân biệt Việc giải bài toán đã phát biểu trong phương pháp phân tích phân biệt có thể giải thích trên ví dụ hình học đơn giản. Ta biểu diễn tập dữ liệu xuất phát, gồm N quan trắc về M = 2 biến, dưới dạng những đám mây tản mát trên mặt phẳng tọa độ (hình 3.4). Giả sử có hai đám mây dữ Hình 3.4. Ý nghĩa hình học của phương pháp phân tích phân biệt liệu được phân chia rõ rệt, ta tiên định phân nhóm chúng thành hai lớp: − x1 , x 2 những dấu hiệu xuất phát; P ( x1 ), P ( x 2 ) − mật độ xác suất quan trắc theo các dấu lớp 1 và lớp 2. z− hàm phân biệt; P ( z ) − mật độ xác suất phân bố quan trắc chiếu lên hàm hiệu; Đối với từng lớp đã tính giá trị của phương sai và kỳ vọng toán học theo từng dấu hiệu trong hai dấu hiệu. Ngoài ra, đối với mỗi dấu hiệu đã Khi chuyển từ không gian dấu hiệu hai chiều sang không gian nhiều xây dựng các tổ chức đồ tổng quát của các đám mây tản mát: P1 ( x) và chiều, phải thấy rằng thay vì một đường thẳng, hàm phân biệt sẽ biểu P2 ( x) . diễn hình học bằng một mặt phân cách các lớp (mặt đa diện đối với số Từ những tổ chức đồ đã dẫn, thấy rằng một phần những giá trị dấu hiệu lớn hơn ba). quan trắc rơi vào vùng giao nhau của các đường cong, bên trong Tính các hàm phân biệt vùng đó không thể định chính xác các quan trắc thuộc lớp nào. Ý Giả sử rằng những tổ chức đồ phân bố thực nghiệm theo các lớp tuân nghĩa của phân tích phân biệt là ở chỗ tìm một quy tắc giải, làm theo quy luật phân bố chuẩn. Ta sẽ xét cách xây dựng và tính các hàm giảm thiểu sai lầm phân loại. Về mặt hình học, điều này tương phân biệt dựa trên quy tắc Bayes, quy tắc này đảm bảo tối thiểu hoá lỗi đương với việc tìm ra một đường thẳng z , sao cho các hình chiếu phân loại sai. Ký hiệu c1 là sai số quy kết sai đối tượng từ lớp 1 sang lớp các đám mây của các lớp lên đường thẳng đó sẽ cách xa nhau tối 2, còn c 2 − sai số quy kết sai đối tượng từ lớp 2 sang lớp 1. Khi đó quy đa, còn diện tích vùng giao nhau của các tổ chức đồ của các lớp trở tắc giải được thay như sau: nên cực tiểu. Khi đó trên đường thẳng z , gọi là hàm phân biệt, các biên giới của các lớp z 0 cũng được chiếu lên. Điểm z 0 đặc trưng cho biên giới các lớp, gọi là chỉ số phân biệt. 52
  11. 1M  1 P1 (x) c2 p2  b j (x1 j + x 2 j ) = 2 B ⋅ (x1T + x T ) , z0 =  x ∈ A1 , nÕu ≥ 2  P2 (x) c1 p1 2 j =1 (3.4)  P1 (x) c2 p2 x ∈ A2 , nÕu < . B − vectơ cột các hệ số của hàm phân biệt, tính theo công thức  P2 (x) c1 p1  B = S −1 ⋅ ( x1 − x T ) T (3.6) Ở đây Pi (x) − mật độ phân bố xác suất xuất hiện quan trắc đang xét 2 trong đó S − ma trận hiệp biến của các dấu hiệu, tính theo toàn tập hợp. trong lớp Ai , p i − giá trị được cho trước của xác suất của sự kiện rằng Hàm phân biệt nhận được có những trị số cụ thể đối với mỗi vectơ quan trắc này được thực hiện với đối tượng từ lớp i . quan trắc bất kỳ từ tập hợp đang xét. Biên phân cách các lớp được cho Các giá trị p i do người nghiên cứu cho trước khi tiến hành phân tích bởi chỉ số phân biệt, chỉ số này tính như số hạng tự do z 0 . phân biệt trên cơ sở giả thiết về xác suất xuất hiện trong tương lai một Trong thực hành, thủ tục nhận dạng bằng hệ phương pháp phân tích quan trắc thuộc vào lớp i . Nhiều khi, trong trường hợp thiếu thông tin như vậy thì xác suất p i được cho bằng nhau đối với tất cả các lớp phân biệt quy về việc tính trị số của hàm phân biệt cho vectơ quan trắc mới x l = {x1 l , x 2 l , ..., x M l } . Nếu giá trị của hàm phân biệt z (x l ) lớn hơn p1 = p 2 = ... = p k , điều này ứng với tình huống quy kết với xác suất như không, thì vectơ quan trắc mới phải thuộc lớp Al , và ngược lại. nhau một đối tượng vào một lớp bất kỳ. Cách tiếp cận Bayes trong phân tích phân biệt như đã trình bày, cùng Biểu thức tổng quát đã nhận được có thể đơn giản hoá nếu giả thiết: với sự đơn giản và hiệu quả, cũng có một nhược điểm căn bản. Nó đòi − Các vectơ phương sai dấu hiệu theo các lớp bằng nhau: s1 = s 2 ; hỏi thoả mãn điều kiện về tính chuẩn của phân bố các lớp xuất phát. − Các sai số nhận dạng sai bằng nhau: c1 = c 2 . Trong thực tế nghiên cứu thực nghiệm không phải bao giờ cũng đáp ứng Vậy, sau khi lấy logarit biểu thức (3.4), ta được biểu thức tường đòi hỏi này. Cách tiếp cận thứ hai thay thế phương pháp Bayes có thể là minh cho hàm phân biệt: phương pháp phi tham số do Fisher đề xuất.  ≥ 0, x ∈ A1  P ( x)   Ưu điểm của phương pháp phân tích phân biệt phi tham số là ở đây ln  1  = z (x) − z 0 =  không yêu cầu những điều kiện về dạng phân bố xác suất theo các lớp, và P2 (x)  < 0, x ∈ A2 .   để giải bài toán nhận dạng chỉ cần biết các quan trắc thuộc lớp nào, Nếu cho rằng hàm phân biệt z ( x) phụ thuộc tuyến tính vào các tham những ước lượng của các vectơ giá trị trung bình các dấu hiệu theo các số, ta sẽ tìm giá trị của nó cho quan trắc i dựa theo phương pháp hồi quy lớp x1 , x 2 , ước lượng ma trận hiệp biến tổng quát cho toàn tập hợp S . kinh điển dưới dạng Lập luận của phương pháp phân tích phân biệt phi tham số dựa trên M z ( x) = z 0 +  b j x i j = z 0 + B ⋅ giả thiết bất biến về tính tuyến tính của hàm phân biệt z (x) . Việc tìm các xT . (3.5) i j =1 hệ số của hàm phân biệt thực hiện trên cơ sở thoả mãn điều kiện cực đại Ở đây z 0 − số hạng tự do của hàm, được tính theo công thức hiệu các giá trị trung bình giữa các lớp: ( x1 − x 2 ) → max . 53
  12. x1 ⋅ s1 + x 2 ⋅ s 2 Ta sẽ biểu diễn điều kiện này dưới dạng ma trận, sau khi tách riêng z0 = , s1 + s 2 vectơ các giá trị trung bình của lớp thứ nhất x1 , vectơ các giá trị trung bình của lớp thứ hai x 2 và vectơ các giá trị trung bình cho toàn tập dữ 1  ( z j − z1 ) − trong đó s1 = những trị số phương sai của các giá trị liệu x 0 = {x1 , x 2 , ..., x M } . Lập các ma trận độ khác biệt của các giá trị N1 j trung bình của các lớp bằng phép nhân vectơ: hàm phân biệt z đối với các vectơ thuộc lớp thứ nhất; s 2 − tương tự đối T U 1 = ( x1 − x 0 ) ⋅ ( x1 − x 0 ) , với lớp thứ hai. T U 2 = (x 2 − x 0 ) ⋅ (x 2 − x 0 ) . Ứng dụng phương pháp phân tích phân biệt trong hải dương học Từ các ma trận U 1 và U 2 lập ma trận tổng quát độ khác biệt các giá Nội dung cơ bản của phương pháp phân tích phân biệt là phân tách trị trung bình: tối ưu các đối tượng thành những lớp theo một quy tắc toán học hữu hiệu U = N1 U1 + N 2 U 2 , đã chọn (hàm phân biệt). Vì vậy, giá trị thực dụng của phương pháp phân trong đó N 1 và N 2 − số quan trắc trong lớp 1 và lớp 2. tích phân biệt có thể xem xét theo hai khía cạnh: về các kết quả của bản Trong không gian M biến xuất phát, ma trận khác biệt giá trị trung thân sự phân loại các quan trắc xuất phát và về tính hiệu quả của hàm bình U quyết định định hướng của ellip tản mát các khác biệt giữa các phân biệt nhận được nhằm phục vụ những tính toán tương tự khác. lớp. Trục lớn của ellip khác biệt trùng hướng với vị trí của hàm phân biệt. Những kết quả phân định nhóm nhờ các hàm phân biệt đáng tin, giải Vì vậy, những trị số của vectơ riêng thứ nhất của ma trận U sẽ đồng thời thích được về mặt vật lý, đã thu hút sự quan tâm ứng dụng của các nhà là những hệ số của hàm phân biệt. khí tượng thủy văn đối với phương pháp này ngay từ cuối những năm sáu Trong trường hợp này nên dựng hàm phân biệt như sau: Đầu tiên mươi [132, 188]. phải giải phương trình đặc trưng dạng Phân tích những kinh nghiệm tích luỹ được về vận dụng phương U − ΛS = 0 (3.7) pháp phân tích phân biệt [83] ngay từ những năm bảy mươi đã cho thấy rằng: trong trường hợp biết trước những đặc trưng của các lớp quan trắc và xác định giá trị riêng cực đại thứ nhất λ1 , sau đó thế λ1 vào hệ được nghiên cứu, thì phương pháp này sẽ hiệu quả nhất. Nói cách khác, phương trình dạng sự cần thiết phải sử dụng tập thầy đã trở nên rõ ràng. Vì vậy, trong tương B ⋅ (U − ΛS) = 0 (3.8) lai việc ứng dụng phương pháp phân tích phân biệt được hình thành trên và giải nó theo vectơ riêng thứ nhất B1 . Những hệ số của vectơ riêng cơ sở xử lý những tập quan trắc đa chiều, tính phân lớp được của những b11 , b12 , ..., b1M sẽ là những hệ số của hàm phân biệt. tập này được quy định bởi chính cấu trúc của dữ liệu. Trong ứng dụng khí tượng [84, 85], những lớp đó là dông, hiện tượng dính băng, mưa rào, Số hạng tự do z 0 của hàm phân biệt trong trường hợp này được tính trong hải dương học [145] − các đợt băng, những dạng băng, những kiểu theo công thức sóng. Giai đoạn hiện đại của việc sử dụng phương pháp phân tích phân 54
  13. biệt trong các bài toán phân loại có đặc điểm là người ta đã đưa hệ nhược điểm, làm giảm chất lượng phân loại. Thí dụ, sự đơn giản của phương pháp này vào lĩnh vực xử lý các kết quả viễn thám đại dương. phương pháp phân tích phân biệt tuyến tính kinh điển là do điều kiện định Những lớp ở đây đã được xác định trước − đó là lục địa, đại dương, mây. trước về sự bằng nhau của các ma trận hiệp biến của các lớp. Trong thực Tính đa chiều của thông tin thể hiện ở những bức ảnh đa dải về mặt Trái tế đòi hỏi này không phải lúc nào cũng được kiểm tra về mặt thống kê. Đất. Vai trò của việc ứng dụng phương pháp phân tích phân biệt là ở chỗ Chính sự không bằng nhau của các phương sai nội tại các lớp sẽ dẫn tới nó giúp giải mã hữu hiệu các bức ảnh theo những thuật ngữ (các lớp) do làm chệch những ước lượng chỉ số phân biệt của bản thân các lớp và các người nghiên cứu đề ra [10, 11, 116, 244]. biên giới của chúng. Trong một thủ tục phân loại nào đó, thì vấn đề cơ bản chính là định ra biên giới các lớp một cách tin cậy. Phương pháp Gần đây, cách tiếp cận tương tự cũng được triển khai để xử lý những phân tích phân biệt tuyến tính có thể dẫn tới những sai lầm nghiêm trọng tín hiệu từ các trạm rađa trên đất và trên máy bay nhằm phân tích những khi ước lượng biên giới các lớp trong trường hợp có sự khác biệt đáng kể bất đồng nhất cục bộ của mặt biển và băng [214, 242]. Trong những ứng về thống kê trong các ma trận hiệp biến của các lớp. dụng đó tốc độ xử lý thông tin có vai trò đáng kể. Sự đơn giản tương đối và tốc độ cao của các thuật toán tính toán của phương pháp phân tích Ở mức độ nào đó có thể khắc phục nhược điểm này, nếu ta giữ phân biệt đã làm cho phương pháp này rất phổ dụng trong khi giải quyết nguyên những phương sai nội lớp trong các công thức tính hàm phân biệt các bài toán xử lý nghiệp vụ những kiểu ảnh khác nhau. [188, 196, 198]. Tuy nhiên, trong trường hợp này hàm phân biệt trở nên phi tuyến. Từ lâu nay, các nhà khí tượng thủy văn đã chú ý tới vấn đề Nội dung thực dụng quan trọng của các lớp phân biệt còn quyết định này. Và phân tích phân biệt phi tuyến đã hơn một lần được sử dụng để một hướng ứng dụng nữa của phương pháp phân tích phân biệt − đó là dự giải quyết các bài toán thực dụng [180, 217, 269]. báo sự phát triển của các quá trình khí tượng thủy văn. Trong lĩnh vực này, các thủ tục phân tích phân biệt sẽ được dùng để thể hiện toàn khối Vấn đề có tính nguyên tắc thứ hai của phương pháp phân tích phân lưu trữ quan trắc trong quá khứ thành dạng chuỗi tuần tự các lớp [9, 63, biệt liên quan tới dạng phân bố các dấu hiệu bên trong các lớp. Theo 108, 110, 135, 156, 217]. truyền thống người ta giả thiết tồn tại phân bố chuẩn đa chiều. Trên thực tế sự sai khác của luật phân bố thực nghiệm trực tiếp dẫn tới sai số trong Mỗi một lớp có kèm theo những giá trị cụ thể của một bộ những đặc khi tính toán xác suất các quan trắc thuộc lớp này hay lớp kia. trưng khí tượng thủy văn (những tiên lượng) làm thành "vectơ trạng thái khí hậu" [62, 117]. Việc dự báo một lớp tương lai cùng với vectơ trạng Trong thực hành, vấn đề này được giải quyết hoặc bằng cách tuyển thái tương ứng với nó sẽ được thực hiện hoặc trên cơ sở quy luật xác suất chọn bổ sung những dấu hiệu mang thông tin, hoặc bằng cách sử dụng đã tìm được về sự thay thế lẫn nhau của các lớp, hoặc bằng cách ngoại phương pháp phân tích phân biệt phi tham số. Ý tưởng tuyển chọn các suy hồi quy những tiên lượng riêng biệt. Phương pháp tiếp cận này đặc dấu hiệu tối ưu để phân biệt các quan trắc thường hay được giải quyết biệt thành công trong dự báo những hiện tượng nguy hiểm [130, 152] và bằng hệ phương pháp phân tích phân biệt từng bước [196, 249, 269]. điều kiện băng [129]. Giống như trong phân tích hồi quy từng bước, ở đây cũng thực hiện Tuy nhiên, trong nhiều trường hợp, những ưu việt của phương pháp nguyên tắc loại dần dần hoặc bổ sung dần dần các dấu hiệu. Chỉ tiêu hiệu quả của việc lựa chọn các dấu hiệu chính là những ước lượng D 2 − phân tích phân biệt làm cho nó phổ dụng lại đồng thời trở thành những 55
  14. khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật phân bố chuẩn. Hiện nay, kỹ thuật của phương pháp phân tích phân biệt phi tham số Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC đang phát triển. Hệ phương pháp phân tích phân biệt dựa trên việc giải PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ bài toán các giá trị riêng và các vectơ riêng của ma trận hiệp biến khối đã ĐA CHIỀU có ứng dụng trong giải quyết nhiều vấn đề hải dương học trong các công trình của Iu. V. Nhikolaev [130]. Phương pháp tiếp cận này, có tên gọi là phân tích phân biệt chuẩn hoá, cũng vẫn đang là đối tượng nghiên cứu lý Những kết luận khi tiến hành chẩn đoán thống kê cung cấp cho ta thuyết [94, 95]. khái niệm về cơ chế của quá trình đa chiều, quá trình này được xác định với độ chính xác cho trước thông qua một số hữu hạn những biến thống kê đã biết, điều đó có thể xem là căn cứ đầy đủ để triển khai những sơ đồ dự báo các quá trình. Chúng ta sẽ xét vấn đề này trong khuôn khổ hai quan điểm tiếp cận chẩn đoán cơ bản − quan điểm cấu trúc và quan điểm phân loại các quá trình đa chiều. Nhiệm vụ chính của chương này − xác định nên ưu tiên những phương pháp dự báo thống kê xác suất nào để dự báo những đặc trưng tổng quát trong những tình huống cụ thể. Sự phong phú các phương pháp dự báo về phía mình lại đặt ra nhiệm vụ liên kết (phối hợp) hiệu quả một số phương pháp nhằm xây dựng dự báo tối ưu. Khi suy xét về những nét ưu việt quan trọng của giải pháp phương pháp luận này so với những giải pháp truyền thống, cũng không nên bỏ qua những hạn chế khách quan của nó liên quan tới bản thân tính có dự báo được hay không về mặt thống kê của quá trình nghiên cứu. Khái niệm này khi áp dụng vào những quá trình hải dương nhiều chiều còn chưa được phân tích trong các tài liệu ứng dụng, mặc dù nó rất lý thú về mặt thực tiễn, vì nó giúp ta tránh được sự tự mãn hẹp hòi trừu tượng trong dự báo và quay về với thực tại sinh động của công tác dự báo hải dương học. 4.1. DỰ BÁO CẤU TRÚC CỦA CÁC QUÁ TRÌNH Nhờ kết quả khai triển trực giao ma trận các biến quan trắc, cấu trúc của các quá trình hải dương được khái quát trong hai tập hợp các tham số 56
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1