Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
<br />
Møc ®é th« nh¸p cña hµm sè vµ øng dông<br />
PHAN THU HÀ<br />
Tóm tắt: Bài báo đưa ra khái niệm mức độ thô nháp của hàm số f(x) cho trước đối với<br />
hệ hàm cơ sở đã cho. Trong bài đã dẫn ra ví dụ ở đó sự hội tụ theo luật của dãy các phân<br />
bố thiết kế tới giới hạn, kể cả khi các phân bố đó thuộc loại hỗn hợp (liên tục và rời rạc),<br />
cũng chưa đảm bảo sự hội tụ của độ thô nháp. Phân tích lưu lượng nước trung bình ngày<br />
đêm cực tiểu của sông Hồng đưa ra độ thô nháp của hàm mô hình đối thuyết và chỉ ra có<br />
tồn tại điểm chuyển trạng thái tại quan sát số 44 ứng với năm 1999.<br />
Từ khóa: Mô hình hồi quy, Thiết kế thí nghiệm, Điểm chuyển, Độ thô nháp, Sự hội tụ.<br />
<br />
1. GIỚI THIỆU<br />
Khởi đầu, vấn đề điểm chuyển (change-point problem) xuất phát từ kiểm tra chất<br />
lượng, khi người ta quan sát đầu ra một dây chuyền sản xuất và muốn phát ra tín hiệu báo<br />
động khi số đo về sản phẩm vượt quá mức chấp nhận được. Một điều quan tâm trong dịch<br />
tễ học là phải chăng tỷ lệ mắc bệnh không đổi theo thời gian, và nếu có, ước tính số lần,<br />
(các) thời điểm thay đổi nhằm khuyến nghị các nguyên nhân có thể. Ví dụ khác là phân<br />
tích nhịp tim trong điện tâm đồ, ở đó việc dùng các phương pháp phát hiện điểm chuyển là<br />
phần then chốt của nhận dạng mẫu cũng như phân đoạn quá trình. Phát hiện điểm chuyển<br />
cũng là mối quan tâm trong xử lý các chuỗi thời gian chỉ số kinh tế phục vụ mục đích dự<br />
báo, tín hiệu địa chấn, hay chuỗi thời gian có tính chất phong tục, nghiên cứu văn bản lịch<br />
sử, bản thảo, trong các nghiên cứu về vị trí khảo cổ…<br />
Chính vì thế, nhiều nhà thống kê trong mấy chục năm gần đây đã nỗ lực nghiên cứu<br />
vấn đề điểm chuyển. Kiểm định sự tồn tại điểm chuyển có thể thấy trong các công trình<br />
[4], [5]. Ước lượng (ƯL) điểm chuyển thường tiến hành theo phương pháp hợp lý cực đại<br />
(xem [1], [6], [9]). Phương pháp dựa vào tổng tích lũy CUSUM (xem[3]) cũng rất được ưa<br />
chuộng. Tuy nhiên, trong các trường hợp khó khăn hơn do thiếu thông tin, người ta phải<br />
dùng đến phương pháp tái tạo mẫu boostrap (xem [8]). Phương pháp dãy để kiểm định và<br />
ƯL điểm chuyển làm tối thiểu hóa số quan sát cũng như cực tiểu thời gian từ lúc xảy ra<br />
điểm chuyển đến lúc phát hiện ra nó được đề cập đến trong [5]. Trong các công trình trên,<br />
khi cần tìm sức mạnh của kiểm định (the power of test), thường người ta chỉ dùng nghiên<br />
cứu mô phỏng đối với một lưới điểm của các tham số thống kê đối thuyết, mà không có<br />
một nghiên cứu đầy đủ về sức mạnh, không đưa ra được công thức hiển cho sức mạnh của<br />
kiểm định đưa ra. Có một ngoại lệ, đó là bài báo [7], ở đó đã chỉ ra công thức hiển cho<br />
hàm sức mạnh; tuy nhiên các quan sát ở đó dựa trên quá trình nhiễu trắng dừng, rất ít xảy<br />
ra trong những tình huống thực tế.<br />
Gần đây, vấn đề sức mạnh của kiểm định đã được gắn với độ thô nháp của hàm mô<br />
hình (xem [2]). Lợi thế của độ thô nháp là có thể dùng các phần mềm thống kê thông dụng<br />
như SPSS, EVIEW hay R để tính toán. Bài báo này phát triển những ý tưởng về độ thô<br />
nháp của hàm số và được bố trí như sau. Sau phần giới thiệu ở Bài 1, Bài 2 đưa ra các định<br />
nghĩa về độ thô nháp, nhắc lại một số khái niệm cần thiết, tính chất đã biết, cũng như<br />
những khảo sát mới khác về độ thô nháp. Bài 3 nêu một số ứng dụng của vấn đề nghiên<br />
cứu khi xử lý các số liệu về dòng chảy của Sông Hồng và cuối cùng là phần kết luận.<br />
2. ĐỘ NHÁP CỦA HÀM SỐ THEO HỆ HÀM ĐÃ CHO<br />
Cho f (x), x [a, b] là hàm số được quan sát tại các điểm x i [a, b] , một số điểm x i<br />
có thể trùng nhau. Giả sử {u1 (x),..., u p (x)} là hệ các hàm số liên tục và độc lập tuyến tính<br />
<br />
<br />
<br />
<br />
34 Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
cho trước xác định trên [a, b]. Chúng ta muốn xấp xỉ hàm f(x) theo hệ hàm<br />
{u1 (x),..., u p (x)} tại các điểm x i , muốn vậy ta xét mô hình hồi quy<br />
f (x i ) a1u i (x i ) ... a p u p (x i ) i , i 1,..., n . (1)<br />
Đặt u(x) (u1 (x),..., u p (x)), U (u(x)),..., (u(x))),<br />
<br />
Y (f (x i ),..., f (x n )) , (1 ,..., n ) , a (a1 ,..., a p );<br />
hệ (1) được viết lại dưới dạng ma trận<br />
Y Ua . (2)<br />
Lưu ý rằng trong bài báo này chúng ta dùng chữ in đậm để chỉ ma trận hoặc véc tơ, ma<br />
trận chuyển vị của ma trận A ký hiệu là A. Chúng ta luôn giả thiết rằng Rank(U ) p .<br />
ƯL làm cực tiểu tổng bình phương trung bình các sai số<br />
1 n<br />
(f (xi ) u(xi )a)2<br />
n i 1<br />
(3)<br />
<br />
là duy nhất và đạt được tại aˆ = (UU)1 UY . ƯL cho sai số của mô hình (1) là<br />
1 n<br />
S2 f (x i ) u(x i ) aˆ 2 . (4)<br />
n i1<br />
Giá trị này được gọi là độ thô nháp của hàm f(x) theo hệ hàm {u1 (x),..., u p (x)} dựa vào<br />
thiết kế {x1 ,..., x n } và ký hiệu là S2 (f , u, (x i )).<br />
Để nghiên cứu trường hợp giới hạn cũng như các mục đích khác, chúng ta coi mỗi hàm<br />
phân bố F(x) có giá trên đoạn I, giá đó chứa ít nhất p điểm phân biệt là một thiết kế (suy<br />
rộng) trên I. Như vậy, mỗi thiết kế rời rạc { x1 ,..., x n } có ít nhất p điểm phân biệt là thiết<br />
kế suy rộng F(x) - là hàm phân bố mẫu của mẫu {x1,..., x n } .<br />
Bây giờ cho hàm mô hình f (x), x [a, b] , hệ các hàm xu thế {u1 (x),..., u p (x)} độc<br />
lập tuyến tính và thiết kế F(x) có giá trong [a, b]. Chúng ta biểu diễn f(x) qua hệ hàm xu<br />
thế theo phương trình<br />
f (x) a1u1 (x) ... a p u p (x) (x). (5)<br />
Giả sử aˆ là ƯL của véc tơ tham số a (a1,..., a n ) làm cực tiểu bình phương trung bình<br />
có trọng lượng các sai số<br />
2<br />
[a,b] f (x) u(x) a dF(x). (6)<br />
<br />
Để các tính toán có nghĩa, chúng ta giả sử các hàm f (x), u i (x) là bình phương khả tích<br />
theo độ đo dF(x). Dễ thấy rằng, a i là nghiệm của hệ<br />
u1 , u 1 F a1 ... u 1 , u p F a p u1 , f F<br />
(7)<br />
. . . . . . . . . . . . . . . .<br />
u , u a ... u , u a u , f ,<br />
p 1 F 1 p p F p p F<br />
trong đó, h, g F là tích vô hướng của hai hàm h(x) và g(x) theo độ đo dF(x):<br />
h, g F h(x)g(x)dF(x). (8)<br />
[a, b]<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 35<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
Đối với thiết kế suy rộng, chúng ta luôn giả thiết thêm rằng ma trận u, u F các hệ số<br />
của hệ (7) không suy biến. Khi ấy, nghiệm của (7) tồn tại và duy nhất, ký hiệu là aˆ xác<br />
định bởi<br />
1<br />
aˆ (aˆ1 ,..., aˆ n ) u, u F u, f F . (9)<br />
ƯL cho sai số của mô hình (5) là<br />
S2 f (x) u (x)aˆ 2 dF(x) .<br />
[a , b]<br />
(10)<br />
<br />
Giá trị này được gọi là độ thô nháp của hàm f(x) theo hệ hàm xu thế {u1 (x),..., u p (x)}<br />
<br />
dựa vào thiết kế F(x), ký hiệu bởi S2 (f , u, F) (xem [2]).<br />
Như đã nói, mỗi thiết kế cố định {x1,..., x n } được xem như một thiết kế suy rộng, (3),<br />
(4) là trường hợp đặc biệt của (6), (10).<br />
Các hàm mô hình gãy có vai trò quan trọng đặc biệt trong nghiên cứu điểm chuyển.<br />
Trong trường hợp mô hình tuyến tính với p 2, u1 (x) 1, u 2 (x) x , người ta xét hai loại<br />
điểm chuyển: gãy và gãy rời ([5]). Hàm mô hình gãy là hàm gãy khúc liên tục<br />
(11)<br />
f (x) a 0 a1x h(x x )<br />
a 0 ,a1 ,h, x<br />
<br />
trong đó, a 0 , a1, h, x là những hằng số cho trước, h 0, x (0,1) . Khi ấy, hàm mô hình<br />
<br />
<br />
<br />
liên tục, tuy nhiên hệ số góc thay đổi từ a1 thành a1 h tại điểm chuyển x . Với trường<br />
hợp gãy rời, ngoài việc hệ số góc biến thiên một lượng h tại x , điểm chuyển còn là điểm<br />
gián đoạn với dao độ k:<br />
(12)<br />
f (x) a 0 a1x k I (x) h(x x )<br />
a 0 ,a1, k, h, x (x ,1]<br />
trong đó IA (x) là hàm chỉ tiêu của tập A.<br />
Định lý (xem [2]). Giả sử dãy các thiết kế Fn (x) hội tụ yếu đến thiết kế F(x) với độ đo<br />
Lebesgue-Stieltjes (dF); f(x) là hàm đo được, bị chặn trên [0, 1]. Nếu tập các điểm gián<br />
đoạn D f của hàm f(x) có độ đo (dF) bằng không: (dF)(Df ) 0 thì:<br />
(i) lim aˆ n aˆ <br />
n <br />
<br />
(ii) lim S2 (f , u , Fn ) S2 (f , u , F) .<br />
n <br />
Trong [2] đã đưa ra ví dụ chứng tỏ điều kiện độ đo (dF) của tập điểm gián đoạn của<br />
hàm mô hình bằng không là không bỏ qua được. Tuy nhiên ở đó độ đo (dFn ) là gián đoạn,<br />
tập trung tại 3 điểm. Vì thế ví dụ đó chỉ có tính chất minh họa lý thuyết mà không sát thực<br />
tiễn. Ví dụ sau đây đề cập đến dãy độ đo (dFn ) thuộc loại hỗn hợp (rời rạc và liên tục).<br />
<br />
Ví dụ. Xét hàm mô hình 0, 0 x 1/ 2<br />
f (x) <br />
1, 1/ 2 x 1<br />
và dãy hàm phân bố Fn (x) có giá trên đoạn [0,1] sao cho trên đoạn này thì<br />
0.1<br />
1 / 2 h x, khi 0 x 1 / 2 h n<br />
n<br />
Fn (x) <br />
1<br />
(0.4x 0.1 h n ), khi 1 / 2 h n x 1<br />
1 / 2 h n<br />
<br />
<br />
<br />
36 Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
<br />
trong đó, h n (1)n / n. Rõ ràng xảy ra sự hội tụ theo luật<br />
0.2x khi 0 x 0.5<br />
Fn (x) F(x) (n ) .<br />
0.8x 0.2 khi 0.5 x 1<br />
Bởi vì điểm gián đoạn 1 / 2 của hàm f(x) có (dF)-độ đo bằng 1 / 2 nên chúng ta không<br />
thể áp dụng Định lý 3 được. Cụ thể hơn, các hệ số của hệ (7) trở thành<br />
u1 , u1 Fn 1 1 (n ),<br />
0.2 23<br />
u1 , u 2 Fn 0.55 (0.5 h n ) <br />
(0.5 h n )<br />
<br />
1 (0.5 h n ) 2 <br />
40<br />
(n ),<br />
<br />
0.1 1 0.4 11<br />
u 2 , u 2 Fn (0.5 h n ) 2 <br />
3<br />
<br />
2 3(0.5 h n )<br />
<br />
1 (0.5 h n ) 3 <br />
30<br />
(n ),<br />
<br />
0.1h n 0.4<br />
u1 , f Fn u(h n ) 0.5 0.5 h n u(h n ) ,<br />
0.5 h n 0.5 h n<br />
u(h n ) 0.1 0.2 3 2<br />
u 2 ,f Fn <br />
2 0.5 h n<br />
<br />
h n h 2n 0.5 h n <br />
0.5 h n 4<br />
u(h n ) h n h n <br />
<br />
trong đó, u(x) 0 khi x 0, u(x) 1 khi x 0. Từ đó:<br />
9 4 9 3<br />
lim u1 ,f F2n , lim u1 ,f F2n 1 , lim u 2 ,f F2n , lim u 2 ,f F2n 1 ;<br />
n 10 n 10 n 20 n 10<br />
66 156 124 336 <br />
n 0<br />
<br />
lim aˆ 2n , bˆ 2n ,<br />
173 173 <br />
,<br />
n 0<br />
<br />
lim aˆ 2n 1 , bˆ 2n 1 ,<br />
173 173 <br />
;<br />
<br />
lim S22n 0.0604 lim S22n 1 0.1040.<br />
n n 0<br />
<br />
Như vậy, cả ba giới hạn lim aˆ n , lim bˆ n , lim S2n đều không tồn tại.<br />
n n n <br />
Ví dụ trên nhắc ta cần thận trọng khi tính giới hạn độ nháp của hàm số. Đối với hàm<br />
mô hình gãy (liên tục), việc chuyển qua giới hạn là bình thường. Có thể chuyển qua giới<br />
hạn cho trường hợp hàm f(x) gãy rời chỉ nếu thiết kế F(x) không tập trung khối lượng tại<br />
điểm gãy, kể cả khi độ đo (dF) thuộc loại hỗn hợp (rời rạc kết hợp liên tục).<br />
3. NGHIÊN CỨU THỰC NGHIỆM<br />
Chế độ thủy văn Sông Hồng tại trạm Sơn Tây được quan sát từ năm 1956 đến 2012<br />
(gồm 57 quan sát). Để đánh giá mức độ khô cạn của hạ lưu, chúng tôi quan tâm đến lưu<br />
lượng nước trung bình ngày đêm (m3/s) cực tiểu trong năm.<br />
Dữ liệu có chứa quan sát ngoại lai. Thực vậy, khi dùng mô hình hồi quy tuyến tính đơn<br />
chúng ta nhận được hàm hồi quy là y 622.77 4.461t . Tuy nhiên, vì y 40 1870 nên sai<br />
số tại quan sát số 40 (ứng với năm 1995) là 1870 801.21 1068.79 và sai số chuẩn hóa<br />
tương ứng là 4.819, lớn hơn rất nhiều so với 3 (ngưỡng 99.93%). Vậy, ta coi quan sát thứ<br />
40 là ngoại lại, bị loại. Từ đây, ta coi dữ liệu khuyết quan sát thứ 40.<br />
Hàm hồi quy với dự liệu khuyết là y 622.77 4.461t . Hệ số xác định R 2 0.119 là<br />
rất nhỏ, giá trị thống kê Durbin-Watson là 1.172 nằm trong miền tương quan chuỗi. Vậy<br />
chúng ta bác bỏ mô hình này.<br />
Bây giờ giả sử hàm mô hình có dạng (12), ta viết quan sát dưới dạng<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 37<br />
Kỹ thuật điện tử & Khoa học máy tính<br />
<br />
a1 b1i i , 1 i k <br />
yi (i 40).<br />
<br />
a 2 b 2i i , k 1 i 57<br />
Gọi Q1, Q2 lần lượt là tổng bình phương các phần dư (yi yˆ i )2 của mô hình tuyến<br />
tính dựa vào k quan sát đầu tiên và n k 56 k quan sát cuối cùng. Theo [9], k <br />
được ước lượng là giá trị mà tổng Q1 Q 2 đạt giá trị nhỏ nhất. Tính toán cụ thể bằng phần<br />
mềm R ta nhận được cực tiểu của tổng này là 6814, đạt được tại k 44 (ứng với năm<br />
1999). Đối với pha đầu, 1 i 44 , hệ số xác định thấp: R 2 0.126, độ lệch chuẩn ước<br />
lượng khá cao: ˆ 1 147.46, mức ý nghĩa (significal level) của thống kê t cho hệ số chặn<br />
a1 và hệ số góc b1 lần lượt là 0.0194, 0.000, nhỏ so với mức 0,05; giá trị của thống kê<br />
Durbin-Watson là 1.556 , nằm trong miền chưa có kết luận. Như vậy, mô hình tuyến tính<br />
áp dụng cho giai đoạn đầu không được hoàn hảo, có tính khiên cưỡng (xem hình 1, pha<br />
đầu). Đối với pha sau, 45 i 57 , hệ số xác định cao: R 2 0.904, độ lệch chuẩn ước<br />
lượng khá thấp: ˆ 2 69.86 , mức ý nghĩa (significal level) của thống kê t cho hệ số chặn<br />
a 2 và hệ số góc b 2 lần lượt là 0.0000, 0.0000, rất nhỏ so với mức 0,05, coi các hệ số này<br />
khác 0 một cách có ý nghĩa; giá trị của thống kê Durbin-Watson là 2.434, nằm trong miền<br />
không có tương quan chuỗi. Các đồ thị, hàng rào P-P chuẩn cũng như Histogram của phần<br />
dư đều khẳng định mô hình tuyến tính là phù hợp (xem hình 1, pha sau). Như vậy, mặc<br />
dầu không hoàn hảo, có thể nói rằng, đã xảy ra điểm chuyển tại t 44 ứng với năm 1999<br />
và coi hàm mô hình là<br />
606.63 4.359 x, 1 x 44<br />
f (x) <br />
3521.27 52.791x, 44 x 57<br />
<br />
<br />
<br />
<br />
Hình 1. Lưu lượng nước trung bình ngày cực tiểu tại trạm Sơn Tây loại đi quan sát số<br />
40, các đường xu thế trước và sau số liệu 44 (1999).<br />
Hệ số của biến x âm ở pha sau thể hiện xu hướng suy kiệt của dòng chảy vào mùa khô.<br />
Độ thô nháp của hàm này theo hệ hàm cơ sở {1, x} và thiết kế đều trên đoạn [0, 57] tính<br />
theo (10) là S2 0.313542 568 :570 0.1031 . Theo [2], đây là giá trị khá lớn.<br />
<br />
4. KẾT LUẬN<br />
Khái niệm độ thô nháp được giới thiệu và nêu lên cách tính toán nó thông qua các phần<br />
mềm thống kê thông dụng. Để có thể tính toán độ nháp đối với hàm phân bố giới hạn,<br />
<br />
<br />
<br />
38 Phan Thu Hà, “Mức độ thô nháp của hàm số và ứng dụng.”<br />
Nghiên cứu khoa học công nghệ<br />
<br />
chúng ta phải thận trọng, kể cả khi các hàm phân bố đó thuộc loại hỗn hợp. Kết quả nghiên<br />
cứu lý thuyết được áp dụng cho phân tích lưu lượng nước trung bình ngày đêm cực tiểu<br />
trong năm.<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Aue, A., Horvath, L., Huskova, M. and Kokoszka, P., “Testing for changes in<br />
polynomial regression”, Bernoulli, 14, No. 3 (2008), pp. 637-660.<br />
[2]. Ban, T.V., Quyen, N.T., Ha, P.T., “The roughness of model function to the basis<br />
functions”, J. of Math. and System Science, 3, No. 8 (2013), 385-390.<br />
[3] Berkes, I., Horvath, L., Schauer, J., “Asymptotics of trimmed CUSUM statistics”,<br />
Bernoulli, 17. No. 4 (2011), pp.1344–1367.<br />
[4] Bischoff, W., Miller, F., “Asymptotically optimal test and optimal designs for<br />
testing the mean in regression models with appications to change-point problems”,<br />
Ann. Inst. Statist. Math., 52, No. 4 (2000), pp. 658-679.<br />
[5] Brodsky, B., Darkhovsky, B., “Asymptotically Optimal Sequential Change-Point<br />
Detection under Composite Hypotheses”, Proceedings of the 44th IEEE<br />
Conference on Decision and Control, and the European Control Conference,<br />
December 2005, Seville, Spain, pp. 12-15.<br />
[6] Chow, G.C., “Tests of equality between sets of coefficients in two linear<br />
regressions”, Econometrica, 28, No.3 (1960), pp. 591-605.<br />
[7] Farley, J.U., Hinich, M., McGuire, T. W., “Some comparisons of test for a shift in<br />
the slopes of a multivariate linear time series model”, J. Econometrics, 3 (1975),<br />
pp. 297-318.<br />
[8]. Huskova, M., Kirch, C., “Bootstrapping sequential change-point tests for linear<br />
regression”, Metrika 75, No. 05 (2012), pp. 673-708.<br />
[9] Koul, H.L., Qian, L., “Asymptotics of maximum likelihood estimator in a two-<br />
phase linear regression model”, J. of Statistical Planning and Inference, 108<br />
(2002), pp. 99-119.<br />
<br />
ABSTRACT<br />
THE ROUGHNESS OF FUNCTIONS AND APPLICATIONS<br />
<br />
We introduce the concept of the roughness of a given function for system of basis<br />
functions. The paper cites example in which the convergence in law of sequence of<br />
the distribution functions to limit - even if those distribution functions belong to the<br />
mixture (continuous and discrete) type - does not ensure the convergence of the<br />
roughness. Analysis of minimum average day-and-night water flow of the Red River<br />
shows the roughness of the alternative model function and presence of a change-<br />
point at the observation number 44 corresponding to the year 1999.<br />
<br />
Keywords: Regression model, Design, Change-point, Roughness, Convergence.<br />
<br />
<br />
Nhận bài ngày 03 tháng 09 năm 2013<br />
Hoàn thiện ngày 07 tháng 12 năm 2013<br />
Chấp nhận đăng ngày 18 tháng 03 năm 2014<br />
<br />
<br />
Địa chỉ: Khoa Công nghệ thông tin, Học viện KTQS, ĐT: 0985 193 986<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN Quân sự, Số 30, 04 - 2014 39<br />