Luận văn Thạc sĩ Khoa học: Một số tiêu chuẩn lựa chọn mô hình

Chia sẻ: Na Na | Ngày: | Loại File: PDF | Số trang:59

Thêm vào BST

Báo xấu

79
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Việc lựa chọn một mô hình phù hợp là trung tâm cho tất cả các công tác thống kê với dữ liệu. Lựa chọn các biến để sử dụng trong một mô hình hồi quy là một trong những ví dụ quan trọng. Luận văn trình bày hai tiêu chuẩn thông tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin của Bayesian. Luận văn được chia làm ba chương. Mời các bạn tham khảo.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học: Một số tiêu chuẩn lựa chọn mô hình

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ HOA MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ HOA MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 60 46 15 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS. TRẦN MẠNH CƯỜNG Hà Nội - 2013
MỞ ĐẦU Lựa chọn mô hình (Model selection) là một bài toán cơ bản của thống kê cũng như nhiều ngành khoa học khác như học máy (machine learning), kinh tế lượng (econometrics), ... Theo R. A. Fisher có 3 bài toán chính trong thống kê suy luận và dự báo gồm - Xác định mô hình (model specification) - Ước lượng tham số (estimation of model parameters) - Dự báo (prediction) Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán sau với giả thiết là mô hình đã biết. Sau khi xuất hiện công trình của Akaike (1973) thì bài toán lựa chọn mô hình thu hút được sự quan tâm của cộng đồng làm thống kê. Với một bộ dữ liệu đưa ra, có thể đặt vào nó rất nhiều mô hình và với các mô hình đưa ra, mô hình nào là tốt nhất? Để trả lời cho câu hỏi trên, người ta đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp như tiêu chuẩn thông tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian (BIC)... Việc lựa chọn một mô hình phù hợp là trung tâm cho tất cả các công tác thống kê với dữ liệu. Lựa chọn các biến để sử dụng trong một mô hình hồi quy là một trong những ví dụ quan trọng. Luận văn của tôi trình bày hai tiêu chuẩn thông tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin của Bayesian. Luận văn được chia làm ba chương Chương 1. Kiến thức chuẩn bị Trong chương này, tôi trình bày các kiến thức cơ bản về lượng thông tin Fisher, ước lượng hợp lí cực đại, và các dạng của phân tích hồi quy như hồi quy tuyến tính, hồi quy Poisson và hồi quy logistic. Chương 2. Một số tiêu chuẩn lựa chọn mô hình Chương này, trình bày khoảng cách Kullback- Leibler, mối liên hệ giữa ước lượng hợp lí cực đại và khoảng cách Kullback-Leibler, định nghĩa AIC và mối liên hệ giữa AIC và khoảng cách Kullback-Leibler, tiêu chuẩn Takeuchi, AIC hiệu chỉnh cho hồi quy tuyến tính và chuỗi thời gian tự hồi quy, trình bày nguồn gốc và định nghĩa của BIC. Chương 3. Áp dụng Trong chương này giới thiệu về phần mềm R, đưa ra một bộ dữ liệu cụ thể về bốn phép đo trên hộp sọ của người Ai cập ở năm thời kỳ khác nhau và được lấy trong website: ”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”, i
áp dụng với năm mô hình ứng cử viên và dùng phần mềm R chạy để tìm giá trị AIC và BIC cho mỗi trong số năm mô hình ứng cử viên để tìm ra mô hình tốt nhất theo AIC và BIC đối với bộ dữ liệu này, code R cũng được tham khảo trong website trên . Do thời gian và trình độ còn hạn chế nên luận văn không tránh khỏi những thiếu sót, tác giả hy vọng sẽ nhận được nhiều ý kiến đóng góp từ các thầy cô giáo và bạn đọc để luận văn được hoàn chỉnh hơn. ii
LỜI CẢM ƠN Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh Cường, tôi đã hoàn thành luận văn tốt nghiệp với đề tài: “Một số tiêu chuẩn lựa chọn mô hình”. Trong suốt quá trình học tập, triển khai nghiên cứu đề tài, tôi đã nhận được rất nhiều sự giúp đỡ của các thầy cô trong bộ môn Xác suất thống kê, các thầy cô trong khoa Toán - Cơ - Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là TS. Trần Mạnh Cường. Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới TS. Trần Mạnh Cường – người đã tận tình chỉ bảo, giúp đỡ tôi trong quá trình nghiên cứu đề tài. Tôi xin gửi lời cảm ơn tới Ban giám hiệu, Phòng sau đại học, các thầy cô trong khoa Toán - Cơ - Tin học nói chung và các thầy cô trong bộ môn xác suất thống kê - Trường Đại học Khoa học Tự nhiên nói riêng đã tạo những điều kiện thuận lợi nhất để tôi có thể hoàn thành luận văn này. Hà nội, tháng 02 năm 2013 iii
Danh mục các kí hiệu AIC Tiêu chuẩn thông tin của Akaike AICc AIC hiệu chỉnh a.s. hầu chắc chắn BIC tiêu chuẩn thông tin Bayesian BIC∗ xấp xỉ của BIC BICexact BIC chính xác h(.) tỷ lệ nguy hiểm H(.) tỷ lệ nguy hiểm tích lũy KL khoảng cách kullback - Leibler L, Ln hàm hợp lý `, `n loga hàm hợp lý P Np (ξ, ) phân phối chuẩn của p biến ngẫu nhiên với vectơ trung bình ξ và P ma trận phương sai Op (n−1 ) Xn = Op (n−1 ) nghĩa là Xn /n−1 hội tụ tới 0 theo xác suất Var phương sai d → − hội tụ theo phân phối p → − hội tụ theo xác suất TIC tiêu chuẩn thông tin Takeuchi Tr vết của ma trận kết thúc chứng minh hoặc ví dụ. iv
Mục lục Lời cảm ơn iii 1 Kiến thức chuẩn bị 1 1.1 Lượng thông tin Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3.1 Giới thiệu mô hình hồi quy tuyến tính cổ điển . . . . . . . 4 1.3.2 Phương pháp ước lượng bình phương cực tiểu . . . . . . . 5 1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Hồi quy Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.5 Hồi quy logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2 Một số tiêu chuẩn lựa chọn mô hình 10 2.1 Tiêu chuẩn thông tin Akaike . . . . . . . . . . . . . . . . . . . . . . 10 2.1.1 Khoảng cách Kullback- Leibler . . . . . . . . . . . . . . . . 10 2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler 11 2.1.3 Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.4 AIC và khoảng cách Kullback- Leibler . . . . . . . . . . . . 19 2.1.5 Tiêu chuẩn Takeuchi . . . . . . . . . . . . . . . . . . . . . . 24 2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính . . . . . . . . . . . 25 2.2 Tiêu chuẩn thông tin Bayesian(BIC) . . . . . . . . . . . . . . . . . 28 2.2.1 Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.2 Định nghĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.3 Ai là người viết ’The Quiet Don’ ? . . . . . . . . . . . . . . 35 3 Áp dụng 38 3.1 Giới thiệu về phần mềm R . . . . . . . . . . . . . . . . . . . . . . 38 3.2 Áp dụng với bộ số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 38 v
MỤC LỤC Kết luận 46 Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Tài liệu tham khảo 51 vi
Chương 1 Kiến thức chuẩn bị 1.1 Lượng thông tin Fisher Định nghĩa 1.1.1. Cho X là biến ngẫu nhiên hoặc vectơ ngẫu nhiên có phân bố phụ thuộc vào tham số
chưa
biết θ ∈ Θ, với mật độ f (x, θ), θ ∈ Θ. Giả sử rằng R
df (x,θ)
f (x, θ) khả vi theo θ và
dθ
dλ < ∞. Khi đó lượng thông tin Fisher về tham X số θ chứa trong X là dlnf (X, θ) IX (θ) = Eθ [ ]2 . dθ Dễ dàng chỉ ra rằng Eθ [ dlnfdθ(X,θ) ] = 0. Do đó dlnf (X, θ) IX (θ) = V ar[ ] dθ Với một điều kiện không quá chặt đặt lên f (x, θ) người ta cũng chứng minh được d2 lnf (X, θ) IX (θ) = −E[ ] dθ2 Chú ý: Nếu X1 , X2 là hai biến ngẫu nhiên độc lập cùng phụ thuộc vào tham số θ thì mật độ đồng thời của X1 , X2 là: f (x1 , x2 , θ) = fX1 (θ).fX2 (θ) Nên: dlnf (X1 , X2 , θ) dlnfX1 (X1 , θ) dlnfX2 (X2 , θ) I(X1 ,X2 ) (θ) = V ar[ ] = V ar[ ] + V ar[ ] dθ dθ dθ = IX1 (θ) + IX2 (θ) Do đó nếu X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên về X, thì lượng thông tin Fisher về tham số θ chứa trong mẫu là: 1
Chương 1. Kiến thức chuẩn bị I(θ) = I(X1 ,X2 ,...,Xn ) (θ) = nIX1 (θ) Ví dụ 1.1.1. Tính lượng thông tin trong mẫu đơn giản (X1 , X2 , . . . , Xn ) lấy từ họ phân bố chuẩn với tham số (µ, σ 2 ) đối với tham số σ 2 . Ta có hàm mật độ đồng thời của X1 , X2 , . . . , Xn là n 2 1 1 X p(X, µ, σ ) = 2 n exp[− 2 (Xi − µ)2 ] (2πσ ) 2 2σ i=1 n 2 n n 2 1 X lnp(X, µ, σ ) = − ln2π − lnσ − 2 (Xi − µ)2 2 2 2σ i=1 n ∂ lnp(X, µ, σ 2 ) n 1 X 2 =− 2 + 4 (Xi − µ)2 ∂σ 2σ 2σ i=1 ∂ lnp(X, µ, σ 2 ) 2 ∂ lnp(X, µ, σ 2 ) ⇒ IX (σ 2 ) = E( ) = V ar( ) ∂σ 2 ∂σ 2 n n = 8 V ar[(X1 − µ)2 ] = 4 . 4σ 2σ Trường hợp nhiều chiều: Khi phân bố của X phụ thuộc N tham số θ = (θ1 , θ2 , . . . , θN )T thì ma trận thông tin Fisher có dạng ∂ lnf (X, θ) ∂ lnf (X, θ) [I(θ)]i,j = Eθ [ . ]. ∂θi ∂θj Đây là ma trận đối xứng, xác định không âm. Với một số điều kiện chính quy người ta chỉ ra được rằng ∂ 2 lnf (X, θ) [I(θ)]i,j = −Eθ [ ]. ∂θi ∂θj 1.2 Ước lượng hợp lý cực đại Cho một mô hình thống kê (X, B, Pθ , θ ∈ Θ), trong đó Θ là khoảng mở trong không gian Euclide k chiều và Pθ µ với µ là độ đo σ− hữu hạn trên B. Đặt dPθ p(x, θ) = dµ 2
Chương 1. Kiến thức chuẩn bị Nếu p(xi , θ) là hàm mật độ theo nghĩa rộng của biến ngẫu nhiên Xi thì p(x, θ) = Qn i=1 p(xi , θ) Qn Định nghĩa 1.2.1. Hàm L(X, θ) = i=1 p(Xi , θ) được xét như hàm của tham ẩn θ với X cố định gọi là hàm hợp lý. ˆ Định nghĩa 1.2.2. Thống kê θ(X) : X −→ Θ được gọi là ước lượng hợp lý cực đại của tham ẩn θ nếu: ˆ L(X, Θ(X)) = sup L(X, θ) θ∈Θ Từ định nghĩa suy ra muốn tìm ước lượng hợp lý cực đại phải tìm điểm dừng. • Nếu θ ∈ R1 , ta giải phương trình sau gọi là phương trình hợp lý ∂L(X, θ) = 0; ∂θ phương trình trên tương đương với phương trình ∂ ln L(X, θ) = 0. ∂θ • Nếu θ = (θ1 , . . . , θp ) thì phương trình hợp lý là ∂L(X, θ) = 0; i = 1, p ∂θi tương đương với phương trình ∂ lnL(X, θ) = 0; i = 1, p ∂θi Nghiệm của phương trình hợp lý gọi là ước lượng hợp lý cực đại. Để xét xem nghiệm của phương trình hợp lý có là ước lượng hợp lý cực đại không thì không dễ dàng. Người ta chứng minh được rằng nếu nghiệm của phương trình hợp lý không phải là hằng số thì nghiệm đó sẽ làm cực đại hàm hợp lý, do đó nó là ước lượng hợp lý cực đại. Ví dụ 1.2.1. Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối chuẩn N (µ; σ 2 ). Tìm ước lượng hợp lý cực đại của (µ; σ 2 ). Ta có 1 − 2σ12 n P 2 i=1 (Xi −µ) . L(X, µ, σ 2 ) = 2 n/2 .e (2πσ ) 3
Chương 1. Kiến thức chuẩn bị Khi đó phương trình hợp lý là ∂ lnL(X,µ,σ 2 ) ( Pn ∂µ = i=1 (Xi − µ) = 0 ∂ lnL(X,µ,σ 2 ) Pn ∂σ 2 = − 2σn2 + 2σ1 4 i=1 (Xi − µ)2 = 0 Suy ra ( Pn 1 µ ˆ= Xi = X n 1 Pi=1 n ˆ2 = σ n i=1 (Xi − X)2 = s2 1.3 Hồi quy tuyến tính 1.3.1 Giới thiệu mô hình hồi quy tuyến tính cổ điển Giả sử X1 , . . . , Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự báo. Ví dụ, ta giả sử Y là giá nhà ở hiện hành. Khi đó Y phụ thuộc chủ yếu vào các yếu tố sau: • X1 là diện tích sử dụng (m2 ), • X2 là vị trí vùng, • X3 là giá của năm qua, • X4 là chất lượng xây dựng (giá xây dựng trên một m2 ). Sự phụ thuộc giữa biến Y theo các biến X1 , . . . , Xk nói chung là rất phức tạp. Tuy nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các Xi (nghĩa là Y là một biểu thức bậc nhất của X1 , . . . , Xk ) và sai số ngẫu nhiên ε. Như vậy, Y = β0 + β1 X1 + . . . + βk Xk + ε, trong đó βi , i = 0, k là các hệ số chưa biết. Bây giờ ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , . . . , Xk , Y. Giả sử các số liệu quan sát tuân theo mô hình sau: y1 = β0 + β1 x11 + . . . + βk x1k + ε1 y2 = β0 + β1 x21 + . . . + βk x2k + ε2 ..................................................... yn = β0 + β1 xn1 + . . . + βk xnk + εn 4
Chương 1. Kiến thức chuẩn bị trong đó các sai số ε1 , . . . , εn thỏa mãn 3 điều kiện sau: (i) E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống), (ii) D(εj ) = σ 2 (phương sai không đổi hay độ chuẩn xác đo đạc như nhau) (iii) cov(εi , εj ) = 0 với mọi i 6= j = 1, n (các sai lệch từng bước không ảnh hưởng đến nhau) Mô hình trên có thể viết dưới dạng ma trận như sau:        y1 1 x11 . . . x1k β0 ε1  y  1 x 21 . . . x2k  β1     ε   2   2 =  ..   .. .. . . + .   .   . . . . . ..   ..   ..     yn 1 xn1 . . . xnk βk εn hoặc đơn giản hơn Y = Xβ + ε, (1.1) ở đó   1 x11 . . . x1k 1 x 21 . . . x2k   X = . ;   .. ... . . . ...  1 xn1 . . . xnk Y = [y1 , y2 , . . . , yn ]T ; β = [β0 , β1 , . . . , βk ]T ; ε = [ε1 , ε2 , . . . , εn ]T ; và 1.E(ε) = 0, (1.2) 2.cov(ε) = E(εεT ) = σ 2 In . 1.3.2 Phương pháp ước lượng bình phương cực tiểu Một bài toán đặt ra là hãy dựa trên ma trận X và vectơ Y của các giá trị quan sát hãy ước lượng vectơ tham số β và σ 2 . Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát yj và 5
Chương 1. Kiến thức chuẩn bị b1 xj1 + . . . + bk xjk sẽ bị một độ lệch yj − b0 − (b1 xj1 + . . . + bk xjk ), nói chung độ lệch này sẽ khác không. Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của vectơ b sao cho n X S(b) = (yj − b0 − b1 xj1 − . . . − bk xjk )2 j=1 = (Y − Xb)T (Y − Xb) → min. Đại lượng βˆ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực tiểu của β , còn εˆj = yj − (βˆ0 + βˆ1 xj1 + . . . + βˆk xjk ), j = 1, n gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo X1 , . . . , Xk là tuyến tính, nên phương trình Yˆ = βˆ0 + βˆ1 x1 + . . . + βˆk xk được gọi là phương trình hồi quy tuyến tính mẫu. Ta có kết quả sau: Đặt yˆj = βˆ0 + βˆ1 xj1 + . . . + βˆk xjk Yˆ = (ˆy1 , . . . , yˆn )T . Mệnh đề 1.3.1. Nếu ma trận X không ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương cực tiểu có dạng: βˆ = (X T X)−1 X T Y Khi đó Yˆ = X βˆ = X(X T X)−1 Y = HY, trong đó, H = X(X T X)−1 X T ; εˆ = Y − Yˆ = (In − H)Y, 6