Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27, Số 1S (2011) 17-28
17
Tổng quan hệ thống đồng hóa lọc Kalman tổ hợp và ứng dụng
cho mô hình dự báo thời tiết WRF
Kiều Quốc Chánh*
Khoa Khí tượng Thủy văn và Hải dương học, Trường Đại học Khoa học Tự nhiên, ĐHQGHN,
334 Nguyễn Trãi, Hà Nội, Việt Nam
Nhận ngày 29 tháng 4 năm 2011
Tóm tắt. Trong bài báo này, blọc Kalman biến thể tổ hợp cho phép ng dụng trong các
hình dự báo số sẽ được trình bày chi tiết. Một biến thể lọc Kalman tổ hợp địa phương sau đó sẽ
được chọn thử nghiệm và đưa vào hình WRF. Các kết quả ban đầu cho thấy bộ lọc Kalman tổ
hợp có khả năng nắm bắt tốt số liệu quan trắc vệ tinh.
Từ khóa: Đồng hóa số liệu, lọc Kalman, mô hình WRF, dự báo tổ hợp, lọc Kalman tổ hợp.
1. Mở đầu
Một cách tổng quát, đồng hóa số liệuquá
trình tạo trường ban đầu tốt nhất có thể cho một
mô hình dự báo, dựa trên các mối quan hệ động
lực xác xuất thống kê. Do đặc thù của
hình dự báo thời tiết bằng hình số tính
phụ thuộc ban đầu mạnh, các bản tin dự báo
thời tiết đôi khi cho các kết quả hoàn toàn sai
lệch do điều kin ban đầu kng chính xác [1-5].
Qtrình đồng hóa về bản bao gồm hai
bước chính 1) phân tích khách quan 2)
ban đầu hóa [6]. Theo bước phân tích khách
quan, trường quan trắc sẽ được ngoại suy về
điểm lưới của hình số một cách tối ưu.
Trong bước tiếp theo, trường ngoại suy này sẽ
được cân bằng hóa sao cho các biến quan trắc
phụ thuộc lẫn nhau sẽ được ràng buộc bởi một
mối quan hệ động lực cho trước. Điều này
_______
ĐT: 01642541065.
E-mail: chanhkq@vnu.edu.vn
cần thiết để tránh đưa vào các giá trị quan trắc
tùy ý. Mặc đồng hoá số liệu trong khí tượng
đã được quan tâm từ đầu những năm 1950
[7,8], bài toán này lại ch thực s phát triển
mạnh trong thời gian gần 20 năm gần đây do sự
phát triển mạnh của máy tính cho phép thực
hiện được các thuật toán một cách nhanh chóng
và có hiệu quả.
Các thuật toán khởi điểm của đồng hoá số
liệu bao gồm thuật toán Cressman thuật toán
Barner. Các đồ này dựa trên các phép lặp
hoặc ép (nudge) số liệu quan trắc xung quanh
một điểm nút lưới cho trước về một giá trị mới
sau một số vòng lặp cho trước. Cách tiếp cận
địa phương này tuy nhiên không thoả mãn
chúng không tính được yếu tố động lực cũng
như các đòi hỏi cân bằng của hình. Do đó
rất nhiều các thuật toán ban đầu hóa đã được
phát triển. Theo quan điểm hiện đại, c đồ
đồng hóa số liệu hiện nay thể được tạm chia
hai thành 2 loại [9]. Một loại, tạm gọi bài
K.Q. Chánh / Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27, Số 1S (2011) 17-28
18
toán đồng hoá biến phân (ĐHBP), tập trung vào
việc tìm kiếm trạng thái khí quyển khả năng
xảy ra cao nhất ứng với một tập quan trắc
một trạng thái nền cho trước [10-15]. Phụ thuộc
o cách xử số liệu tức thời hay trong một
khoảng thời gian, bài toán ĐHBP th chia
nhỏ thành bài toán 3 chiều (3DVAR) hay 4
chiều (4DVAR).
Cách tiếp cận chung của bài toán ĐHBP là
tìm một trường phân tích nào đó khả năng
xảy ra cao nhất bằng cách tối thiểu hoá một
hàm độ đo sai số, còn gọi hàm giá. Phương
pháp ĐHBP ưu điểm hàm giá được cực
tiểu hoá trên toàn miền và do đó kết quả trường
phân tích s loại bỏ được những tình huống
“mắt trâu” trong đó trạng thái phân tích chỉ
nhận giá trị xung quanh điểm quan trắc.
Mặc một số ưu điểm kể trên, ĐHBP
một số nhược điểm lớn không thể bỏ qua.
Nhược điểm thứ nhất là ĐHBP không cho phép
tính đến sự biến đổi của ma trận sai số hiệp biến
trạng thái nền theo thời gian [16]. Đây một
điểm yếu lớn trong thực tế sai số nền biến
thiên mạnh theo thời gian hình thế thời tiết.
Điểm yếu thứ hai của ĐHBP việc hội tcủa
phép lặp khi m trạng thái phân tích phụ thuộc
nhiều vào sự tồn tại của các cực trị địa phương
không kiểm soát được. Do đó, ĐHBP thể sẽ
hội tụ đến nhưng cực tiểu địa phương không
chính xác. Một nhược điểm nữa của ĐHBP là
việc nghịch đảo ma trận sai số nền trong thực tế
không thể. Do đó, rất nhiều các giả thiết đơn
giản hoá cho ma trận này phải được đưa vào để
loại bỏ các tương quan chéo không cần thiết
giữa các biến.
Phương pháp đồng hóa thứ hai phương
pháp đồng hóa dãy (ĐHD). Khác với ĐHBP,
phương pháp đồng hóa dãy tìm trạng thái
phân tích theo cách làm tối thiểu hoá sai số của
trạng thái phân tích so với quan trắc trạng
thái nền. Tiêu biểu nhất cho phương pháp ĐHD
các bài toán đồng hóa lọc Kalman [17-24].
Điểm khác biệt bản nhất giữa ĐHD and
ĐHBP là ma trận sai số hiệp biến của trạng thái
nền trong ĐHD được tích phân theo thời gian
thay giữ không đổi như trong cách tiếp cận
ĐHBP. Có hai quá trình đòi hỏi khối lương tính
toán rất lớn trong các phương pháp ĐHD các
tính toán nghich đảo ma trận tính toán
hình tiếp tuyến. Các tính toán này là quá lớn
ngay cả với một hình đơn giản, hầu như
không thể tính toán được trong các bài toán
thực tế. Để khắc phục nhược điểm này của lọc
Kalman, một biến thể khác của lọc Kalman dưa
trên dự báo Monte-Carlo tính khả thi hơn đã
được phát triển bộ lọc Kalman t hợp
(EnKF). Với sự phát triển mạnh mcủa phương
tiện tính toán, EnKF đã liên tục phát triển với
nhiểu biến thể khác nhau và hiện đã trở thành
một cách tiếp cận mũi nhọn trong việc giải
quyết bài toán đồng hóa số liệu cho các
hình dự báo. Cách tiếp cận tổ hợp có ý nghĩa rất
lớn không chỉ về mặt cho phép ma trận hiệp
biến biến thiên theo thời gian điểm quan
trọng cho phép ước lượng độ cả bất định
của nh. Do đó, tích phân tổ hợp cho phép
tính được một phổ rộng của trường dự báo thay
vì đơn thuần một dự báo duy nhất.
Mặc EnKF một vài nhược điểm liên
quan đến tính địa phương hóa của số liệu quan
trắc xung quanh các điểm nút quan trắc sự
phụ thuộc của ma trận sai số vào số lượng thành
phần tổ hợp, ưu điểm nổi trội của EnKF
không đòi hỏi phải phát triển các hình tiếp
tuyến như trong phương pháp ĐHBP. Điều này
cho phép EnKF được áp dụng dễ dàng vào hầu
hết các hình không cần can thiệp vào
phần lõi của hình. Thêm vào đó, EnKF cho
phép tạo ra các trường nhiễu ban đầu biến đổi
theo thời gian. Do đó, EnKF tại thời điểm hiện
tại đang được coi là một cách tiếp cận tiềm
năng nhất cho dự báo tổ hợp trong tương lai.
Trong nghiên cứu này, chúng tôi sẽ trình
bày một phát triển của hệ thống đồng hóa lọc
K.Q. Chánh / Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27, Số 1S (2011) 17-28
19
Kalman tổ hợp dựa trên một biến thể của lọc
Kalman thợp, gọi lọc Kalman tổ hợp biến
đổi địa phương (Local Ensemble Transform
Kalman Filter, LETKF) cho nh Weather
Research and Forecasting (WRF, V3.2). Hệ
thống đồng hóa này sẽ tiền đề để phát triển
hệ thống dự báo tổ hợp trong các nghiên cứu
tiếp theo.
2. Cơ sở lí thuyết bộ lọc Kalman
Một cách hình thức, KF bao gồm hai bước
chính gọi bước dự báo (forecast) bước
phân tích (analysis). Trong bước dự báo, một
trạng thái ban đầu của khí quyển sai số
tương ứng của trạng thái này (do trạng thái ban
đầu không phải là trạng thái thực) sẽ đồng thời
được tích phân theo thời gian. Trong bước phân
tích, kết quả của bước dự báo tại một thời điểm
trong tương lai sẽ được kết hợp với số liệu quan
trắc tại thời điểm đó để tạo ra được một trạng
thái ban đầu mới sai số của trạng thái ban
đầu này cho quá trình dự báo tiếp theo. Chúng
ta sẽ đi vào từng quá trình một cách chi tiết hơn
trong các phần tiếp theo.
Bước dự báo
Giả thiết khí quyển tại một thời điểm i nào
đó được đặc trưng bởi một trạng thái
a
i
x
với
một sai số
a
i
ε
. Đầu tiên chúng ta sẽ dự báo cho
trạng thái đến thời điểm i + 1 sẽ cho bởi:
)(
1
a
i
f
iMxx
(1)
trong đó M là mô hình dự báo. Do mô hình này
không hoàn hảo, dự báo bằng mô hình này sẽ
một sai số nào đó kể cả khi điều kiện ban
đầu là chính xác. Gọi sai số nội tại này của
hình
, khi đó một cách lý thuyết giá trị sai
số này sẽ được xác đnh như sau:
)(
1
t
i
t
iMxx
(2)
trong đó
t
ii )1(
x
trạng thái thực của khí quyển
tại thời điểm i (i + 1). Chúng ta sẽ giả thiết rằng
sai số nội tại này không lệch ma trận sai
số hiệp biến của được cho bởi một ma trận
Q, nghĩa là
T

Q;0
(3)
Song song với dự báo trạng thái, chúng ta
sẽ dự báo cả sai số từ thời điểm thứ i đến thời
điểm thứ i + 1 sử dụng hình tiếp tuyến L
được định nghĩa dựa trên dạng biến phân của
phương trình (1) như sau:
(4)
Với hình tiếp tuyến L này, sai số của
trạng thái tại thời điểm thứ i + 1 sẽ được cho
bởi
i
a
ii εxLε)(
1
(5)
Trong thực tế, chúng ta không bao giờ biết
được sai số tuyệt đối thực i và như thế không
thể dự báo được sai số cho bước tiếp theo. Tuy
nhiên, trong đa số các trường hợp, chúng ta lại
có thể biết hoặc xấp xỉ được đặc trưng thống kê
của sai số được đặc trưng bởi ma trận sai số
hiệp biến P <T>. Thêm vào đó, ma trận này
ng sẽ được sử dụng để đồng hóa cho bước
tiếp theo. Do đó, chúng ta sẽ viết lại (5) cho ma
trận sai số hiệp biến thay vì cho sai số tuyệt đối
i. Lưu ý theo định nghĩa rằng
t
i
f
i
f
ixxε
,
t
i
a
i
a
i
xxε
chúng ta sẽ có mối quan hệ sau
QLLP
η)εLη)εL
xxxxεεP
T


Ta
i
a
i
a
i
Tt
i
f
i
t
i
f
i
T
ii
f
i
((
))((11111
(6)
Chú ý thêm rằng chúng ta đã giả thiết sai
số hình sai số trạng thái
a
i
ε
không
có tương quan với nhau. Như vậy, cho trước giá
trị sai số hình Q, hình M, hình
tiếp tuyến L, phương trình (2) (6) cấu thành
một quá trình dự báo bản trong bước dự báo
K.Q. Chánh / Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27, Số 1S (2011) 17-28
20
theo đó trạng thái
a
i
x
và sai số
a
i
ε
tại thời điểm i
sẽ được dự báo đến thời điểm i + 1.
Bước phân tích
Trong bước phân tích tiếp theo, giả sử tại
thời điểm i + 1, chúng ta có một bộ số liệu quan
trắc yo với sai số quan trắc o. Nhiệm vụ của
chúng ta trong bước này phải kết hợp được
trạng thái dự báo
f
i1
x
sai s
f
i1
P
với quan
trắc để tạo được một bộ số liệu đầu vào mới tốt
hơn tại thời điểm i + 1. Lưu ý rằng mặc
a
i
x
ước lượng tốt nhất của trạng thái khí
quyển tại thời điểm i, giá trị dự báo
f
i1
x
tại thời
điểm i + 1 lại không phải tốt nhất do sai số
của hình của
a
i
x
. Do đó chúng ta cần
phải đồng hóa tại thời điểm i + 1 để trạng thái
dự báo không bị lệch khỏi trạng thái thực tại
các thời điểm này. Một cách hình thức, chúng ta
sẽ ước lượng trạng thái khí quyển mới tốt hơn
tại thời điểm i + 1 như sau:
)]([ 111
f
i
of
i
a
iH xyKxx
(7)
trong đó H một toán tử quan trắc nội suy từ
trường mô hình sang các giá trị điểm lưới, và K
là ma trận trọng số. Một cách trực quan, ma trận
K càng lớn, ảnh hưởng của quan trắc lên trường
phân tích ng nhiều. Do đó, ma trận K rất
quan trọng và phải được dẫn ra một cách tối ưu
nhất thể. Để thuận tiện cho việc suy dẫn K,
chúng ta định nghĩa một vài biến sai số sau:
t
i
a
i
a
ixxε
,
t
i
f
i
f
ixxε
,
)( t
i
oo
iHxyε
(8)
Để tìm ma trận K, chúng ta trước hết phải
tính ma trận sai số hiệp biến Pa cho trạng thái
phân tích
a
i1
x
sau đó cực tiểu hóa ma trận
này. Theo định nghĩa:


T
Ta
i
)(
)
1
t
1i
a
1i
t
1i
a
1i
a
1i
a
1i
x-x)(x-x
(εεP
(9)
Thay (7) vào (9) xắp xếp lại, chúng ta sẽ
thu được:

T
a
i)εH-εKε)εH-εKεPf
1i
o
1i
f
1i
f
1i
o
1i
f
1i ((((
1
(10)
trong đó ma trận H là tuyến tính hóa của toán tử
quan trắc H.
Đặt

Tf
i)
1
f
1i
f
1i (εεP
,

T
)
o
1i
o
1i (εεR
,
giả thiết trạng thái nền không tương quan
với trạng thái phân tích, chúng ta sẽ thu được từ
(10) phương trình sau:
TTf
i
a
iKRKKHIPKHIP )()( 11
(11)
Ma trận trọng số K sẽ cực tiểu hóa vết của
ma trận sai số
a
i1
P
khi và chỉ khi
0))(( 1
a
i
trace P
K
(12)
trong đó trace() ký hiệu vết của ma trận. Ở đây,
đạo hàm theo ma trận sẽ được hiểu là đạo hàm
từng thành phần của ma trận. Lý do cho việc
cực tiểu hóa vết của ma trận thay vì trực tiếp ma
trận do tổng các thành phần trên đường chéo
của ma trận
a
i1
P
sẽ chính bình phương của
tổng sai số căn quân phương trong trường hợp
các biến không tương quan chéo. Do vết của
một ma trận là bảo toàn trong các phép biến đổi
trực chuẩn, chúng ta luôn thể chéo hóa ma
trận sai số
a
i1
P
để đưa về một sở trong
đó tổng sai số n quân phương sẽ tổng của
các thành phần đường chéo. Lấy đạo hàm vết
của ma trận
a
i1
P
, chúng ta khi đó sẽ thu được
từ (11) và (12)
1
11 )(
Tf
i
Tf
iHHPRHPK
(13)
Với giá trị ma trận trọng số K cho bởi (13)
trên, giá trị cực tiểu của ma trận sai số hiệp
biến phân tích khi đó sẽ thu được bằng cách
thay (13) vào (11). Biến đổi tường minh chúng
ta sẽ thu được:
.)( 11
f
i
a
i PKHIP
(14)
K.Q. Chánh / Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27, Số 1S (2011) 17-28
21
Như vậy, bước phân tích này chúng ta đã
thu được một ước lượng ban đầu mới tốt hơn từ
một trạng thái dự báo (hay dự báo nền) và quan
trắc cho trước. Sau khi thu được trạng thái mới
a
i1
x
ma trận sai số mới
a
i1
P
, quá trình dự
báo lại được lặp lại cho bước đồng hóa kế tiếp
theo. Một cách tóm tắt, lọc Kalman được cho
bởi minh họa trongnh 1.
nh 1. Minh họa haiớc chính của bộ lọc Kalman.
Mặc ưu điểm vượt trội so với c
phương pháp đồng hóa biến phân khác, lọc
Kalman cho bởi hệ các phương trình (1), (6),
(7), (13), (14) lại rất khó áp dụng trực tiếp trong
các hình thời tiết tính phi tuyến cao
bậc tự do rất lớn. Ba khó khăn chính của bộ lọc
Kalman trên là 1) xây dựng hình tiếp
tuyến L; 2) lưu trữ thao tác các ma các trận
sai số với số chiều kích thước quá lớn; 3)
sai số nội tại của hình Q không được biết
đầy đủ. Khó khăn thứ nhất thể đưc giải
quyết bằng cách sử dụng một biến thể của bộ
lọc Kalman, gọi Kalman tổ hợp mở rộng
(EnKF) được đề xuất ban đầu bởi Evensen năm
1994. Khó khăn thứ hai được khắc phục bằng
cách địa phương hóa các số liệu quan trắc xung
quanh từng điểm nút lưới (localization) hoặc
đồng hóa lần lượt từng giá trị quan trắc theo
chuỗi (serial). nhiều các biến thể của EnKF
dựa trên việc địa phương hóa hay xử lý chuỗi.
Hai trong số đó sẽ được trình bày trong mục
sau. Về sai số nội tại của mô hình, đây một
hướng phát triển còn mở của bộ lọc Kalman
trong thời gian gần đây rất nhiều phương
pháp xử lý. Ví dụ kỹ thuật tăng cấp cộng tính,
kỹ thuật tăng cấp nhân, kỹ thuật hiệu chỉnh độ
lệch hệ thống, kỹ thuật cộng nhiễu ngẫu nhiên.
Trong nghiên cứu gần đây, tác giả trình bày
một kỹ thuật khác, tạm gọi là kỹ thuật nhiễu lực
[25]. Chi tiết hơn về các thuật toán hiệu chỉnh
sai số hình thể được tham khảo trong
[26].
Như đã đề cập trong phần giới thiệu, quá
trình đồng hóa phải bao gồm hai bước chính
phân tích khách quan ban đầu hóa. Trong
bước phân tích của bộ lọc Kalman trình bày
trên, chúng ta thấy rằng dường như bộ lọc
Kalman chưa quá trình ban đầu hóa một
cách cụ thể. Tuy nhiên, các phân tích chi tiết
cho thấy trong thực tế, bộ lọc Kalman đã tính
đến quá trình ban đầu hóa một cách nội tại
trong bước dự báo. Điều này do trong bước
dự báo này, ma trận sai số hiệp biến nền sẽ
được tích phân theo thời gian. Do đó, các tương
quan chéo giữa các biến động lực sẽ được hiệu
chỉnh theo thời gian. Ở một giới hạn đủ dài, ma
trận sai số hiệp biến nền thu được từ bộ lọc này
sẽ khả năng phản ánh được các tương quan
chéo giữa các biến động lực như vậy thông
tin quan trắc thu được của bất kỳ một biến nào
cũng sẽ được cập nhất cho tất cả các biến
hình khác. Đây chính ưu điểm của bộ lọc
Kalman, đặc biệt trong vùng độ thấp tại đó
không tồn tại một ràng buộc lý thuyết tường
minh cho các mối quan hệ động lực giữa các
biến giống như trong vùng ngoại nhiệt đới.
(Trong vùng ngoại nhiệt đới, mối quan hệ động
lực giữa các biến thường được sử dụng là mối
quan hệ địa chuyển, cân bằng thủy tĩnh, hay cân
bằng gradient.) Chúng ta sẽ xem xét phần này
chi tiết hơn trong các mục sau.
3. Lọc Kalman tổ hợp
a) Lọc Kalman tổ hợp
Do khả năng phát triển hình tiếp tuyến
ch phân ma trận sai số hiệp biến theo thời
gian với hình tiếp tuyến không thực tế