ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - - - - - - - - - - - - - - - - - - - - - - -

PHẠM THỊ HƯƠNG

HỒI QUY BỘI TUYẾN TÍNH HỒI QUY PHI TUYẾN VÀ ỨNG DỤNG

Chuyên ngành: Lý thuyết Xác suất và Thống kê toán học

Mã số:

60406106

TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - Năm 2015

1

Công trình được hoàn thành tại: Trường Đại học Khoa hoc Tự nhiên - Đại học

Quốc gia Hà Nội

Người hướng dẫn khoa học: GS.TSKH Đặng Hùng Thắng

Hội đồng chấm luận văn:

• Chủ tịch: PGS.TS Phan Viết Thư - Đại học Khoa học Tự Nhiên - ĐHQGHN

• Phản biện 1: TS. Nguyễn Mạnh Thế - Đại học Kinh Tế Quốc Dân

• Phản biện 2: TS. Trịnh Quốc Anh - Đại học Khoa học Tự Nhiên - ĐHQGHN

• Thư ký: TS. Trần Mạnh Cường - Đại học Khoa học Tự Nhiên - ĐHQGHN

• Ủy viên: TS. Nguyễn Hồng Hải - Học Viện Kỹ Thuật Quân Sự

Luận văn đã được bảo vệ trước Hội đồng chấm luận văn thạc sĩ họp tại: Khoa Toán-Cơ-Tin học Trường Đại học Khoa học Tự nhiên (ĐHQGHN) vào 9h giờ 00 ngày 1 tháng 2 năm 2016

Có thể tìm đọc luận văn tại: - Trung tâm thư viện Đại học Quốc gia Hà Nội

Mục lục

1 HỒI QUY BỘI TUYẾN TÍNH

3 3 1.1 Nhắc lại hồi quy đơn tuyến tính . . . . . . . . . . . . . . . . . . . 5 1.2 Các mô hình hồi quy bội . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1 Sự cần thiết phải đưa ra nhiều biến dự báo . . . . . . . . 5 1.2.2 Mô hình bậc nhất với hai biến dự báo . . . . . . . . . . . . 6 1.2.3 Mô hình bậc nhất với nhiều hơn hai biến dự báo . . . . . . 1.2.4 Mô hình hồi quy tuyến tính tổng quát . . . . . . . . . . . . 6 1.3 Dạng ma trận của mô hình hồi quy tuyến tính tổng quát . . . . . 10 1.4 Ước lượng các hệ số hồi quy . . . . . . . . . . . . . . . . . . . . . . 10 1.5 Ước lượng mẫu và phần dư . . . . . . . . . . . . . . . . . . . . . . . 11 1.6 Các kết quả phân tích phương sai . . . . . . . . . . . . . . . . . . . 12 1.7 Các kết luận về các tham số hồi quy . . . . . . . . . . . . . . . . . 14 . . . . . . 15 1.8 Ước lượng trung bình đáp ứng và dự báo quan sát mới 1.9 Chẩn đoán và biện pháp khắc phục . . . . . . . . . . . . . . . . . . 17

2 HỒI QUY PHI TUYẾN VÀ MÔ HÌNH MẠNG NƠ RON

1

21 2.1 Mô hình hồi quy tuyến tính và phi tuyến . . . . . . . . . . . . . . 21 2.2 Ước lượng các tham số hồi quy . . . . . . . . . . . . . . . . . . . . 23 2.3 Ước lượng bình phương cực tiểu trong hồi quy phi tuyến . . . . . 24 2.3.1 Nghiệm của phương trình chuẩn . . . . . . . . . . . . . . . 24 2.3.2 Tìm kiếm số trực tiếp - Phương pháp Gauss-Newton . . . 25 2.3.3 Các thủ tục tìm kiếm trực tiếp khác . . . . . . . . . . . . . 26 2.4 Xây dựng và chẩn đoán mô hình . . . . . . . . . . . . . . . . . . . 27 2.5 Các kết luận về tham số hồi quy phi tuyến . . . . . . . . . . . . . 27 2.5.1 Ước lượng phương sai sai số . . . . . . . . . . . . . . . . . . 27 2.5.2 Định lí mẫu lớn . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5.3 Khi nào định lý mẫu lớn dùng được? . . . . . . . . . . . . . 27

Luận văn tốt nghiệp

Phạm Thị Hương

. . . . . . . . . . . . . . . . 28 2.5.4 Biện pháp khắc phục hậu quả. 2.5.5 Khoảng ước lượng của γk . . . . . . . . . . . . . . . . . . . 28 2.5.6 Khoảng tin cậy đồng thời cho một số γk . . . . . . . . . . . 28 2.5.7 Kiểm tra tính liên quan của một tham số γk . . . . . . . . 29 2.5.8 Kiểm định đồng thời một số γk . . . . . . . . . . . . . . . . 29 2.6 Giới thiệu về mô hình mạng Nơ ron . . . . . . . . . . . . . . . . . 29 2.6.1 Mô hình mạng Nơ ron . . . . . . . . . . . . . . . . . . . . . 29 2.6.2 Mạng đại diện . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.6.3 Mạng Nơ ron như sự tổng quát của hồi quy tuyến tính. . . 31 2.6.4 Ước lượng tham số: Bình phương cực tiểu penalized . . . . 32 2.6.5 Một số bình luận cuối về mô hình mạng Nơ ron . . . . . . 33

3 Ứng dụng

34 3.1 Ứng dụng 1: Dự báo doanh số bán hàng . . . . . . . . . . . . . . . 34 3.1.1 Đặt bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1.2 Các tính toán cơ bản . . . . . . . . . . . . . . . . . . . . . . 35 3.1.3 Ước lượng hàm hồi quy . . . . . . . . . . . . . . . . . . . . 36 3.1.4 Các ước lượng mẫu và phần dư . . . . . . . . . . . . . . . . 37 3.1.5 Phân tích sự phù hợp của mô hình . . . . . . . . . . . . . . 37 3.1.6 Phân tích phương sai . . . . . . . . . . . . . . . . . . . . . . 39 3.1.7 Ước lượng các tham số hồi quy . . . . . . . . . . . . . . . . 40 3.1.8 Ước lượng trung bình đáp ứng . . . . . . . . . . . . . . . . 41 3.1.9 Giới hạn dự báo cho các quan sát mới . . . . . . . . . . . . 42 3.2 Ứng dụng 2: Dự báo mức độ phục hồi sau khi xuất viện . . . . . . 43 3.3 Ứng dụng 3: Đường cong học tập . . . . . . . . . . . . . . . . . . . 49 3.4 Ứng dụng 4: Bệnh thiếu máu cơ tim . . . . . . . . . . . . . . . . . 52

2

Tài liệu tham khảo 55

MỞ ĐẦU

Phân tích hồi quy là phương pháp có ứng dụng rộng rãi nhất trong các phương pháp thống kê. Hiện nay, các mô hình hồi quy được sử dụng nhiều trong quản trị kinh doanh, kinh tế, kỹ thuật và xã hội, y tế, khoa học và sinh học. . . ..Các mô hình hồi quy rất đa dạng bao gồm: hồi quy tuyến tính, hồi quy phi tuyến. Các loại mô hình gồm nhiều dạng nhỏ khá phức tạp.

Mục đích của luận văn này là đưa ra các dạng cơ bản của hồi quy tuyến tính bội, hồi quy phi tuyến, các kết quả phân tích để ứng dụng vào các mô hình hữu ích trong thực tế.

Bản luận văn được chia làm 3 chương: Chương 1: Hồi quy bội tuyến tính Trình bày các mô hình hồi quy bội tuyến tính, các ước lượng hồi

quy bội và các phân tích về các ước lượng hồi quy đó.

Chương 2: Hồi quy phi tuyến và mô hình mạng Nơ ron Chương này trình bày một số mô hình hồi quy phi tuyến thường gặp, các ước lượng của mô hình và việc phân tích, xây dựng chẩn đoán mô hình.

3

Chương 3: Ứng Dụng Đề cập đến các ứng dụng của mô hình hồi quy bội tuyến tính và hồi quy phi tuyến ngoài thực tế. Trong mỗi ứng dụng có nhấn mạnh đến việc xây dựng mô hình, ước lượng tham số và đánh giá mô hình. Mặc dù có nhiều cố gắng, xong do nhiều yếu tố khách quan và chủ quan, nên trong quá trình chọn lọc tư liệu và trình bày nội dung khó tránh khỏi những thiếu sót. Vì vậy tôi rất mong nhận được những ý kiến chỉ bảo của thầy cô, sự góp ý chân thành của các bạn học viên để luận văn được hoàn thiện hơn.

Chương 1

HỒI QUY BỘI TUYẾN TÍNH

1.1 Nhắc lại hồi quy đơn tuyến tính

1.1.1 Mô hình dạng chuẩn

Mô hình được xây dựng như sau:

Yi = β0 + β1Xi + εi

(1.1)

1.1.2 Các đặc trưng quan trọng của mô hình

1. Yi là biến ngẫu nhiên.

2. Hàm hồi quy cho mô hình (1.1) là:

E{Y } = β0 + β1X

(1.2)

3. Giá trị đáp ứng Yi trong thử nghiệm thứ i sai khác với giá trị hàm hồi

quy một lượng là sai số εi.

4. Đáp ứng Yi cũng có phương sai không đổi:

σ2{Yi} = σ2

(1.3)

5. Đáp ứng Yi và Yj cũng không tương quan.

4

6. Tóm lại, mô hình (1.1) chỉ ra rằng đáp ứng Yi có phân phối xác suất mà trung bình của nó là E{Yi} = β0 + β1Xi và phương sai của nó là σ2 và là như

Luận văn tốt nghiệp

Phạm Thị Hương

nhau với mọi giá trị của X. Hơn nữa, hai giá trị đáp ứng Yi và Yj là không tương quan.

1.1.3 Dạng biến đổi của mô hình hồi quy

Đặt X0 là hằng số có giá trị bằng 1. Khi đó mô hình (1.1) có thể được viết

như sau:

X0 ≡ 1

Yi = β0X0 + β1Xi + εi

(1.4)

Do vậy dạng mô hình biến đổi là:

Yi = β∗

0 + β1(Xi − ¯X) + εi

(1.5)

1.1.4 Ước lượng hàm hồi quy

Phương pháp bình phương cực tiểu

n (cid:88)

Q =

Hàm tiêu chuẩn Q:

(Yi − β0 − β1Xi)2

i=1

(1.6)

Các ước lượng của β0 và β1 tương ứng là b0 và b1 làm cực tiểu hóa hàm tiêu

chuẩn Q đối với các mẫu quan sát (X1, Y1), (X2, Y2), . . . , (Xn, Yn) đưa ra.

Tính chất của các ước lượng bình phương cực tiểu:

Định lí 1.1.1. (Gauss-Markov): Với các điều kiện của mô hình hồi quy (1.1), các ước lượng bình phương cực tiểu b0 và b1 trong (1.10) là không chệch và có phương sai nhỏ nhất trong tất cả các ước lượng tuyến tính không chệch khác.

1.1.5 Ước lượng phương sai sai số σ2

n (cid:88)

n (cid:88)

SSE =

Tổng bình phương phần dư:

(Yi − ¯Y )2 =

e2 i

i=1

i=1

5

(1.7)

Luận văn tốt nghiệp

Phạm Thị Hương

s2 = M SE =

=

=

SSE n − 2

i=1(Yi − ¯Y )2 n − 2

i=1 e2 i n − 2

(cid:80)n (cid:80)n (1.8)

E{M SE} = σ2

MSE là ước lượng không chệch của σ2:

(1.9)

M SE.

Và ước lượng của độ lệch chuẩn đơn giản là s =

1.2 Các mô hình hồi quy bội

1.2.1

Sự cần thiết phải đưa ra nhiều biến dự báo

Các mô hình hồi quy bao gồm một biến đáp ứng hay biến phản hồi và một số lượng các biến dự báo. Một biến dự báo đơn lẻ trong mô hình không cung cấp sự mô tả đầy đủ vì một số lượng các biến dự báo chìa khóa tác động đến biến đáp ứng theo các cách đặc biệt và quan trọng. Vì vậy cần đưa ra mô hình nhiều hơn một biến dự báo.

1.2.2 Mô hình bậc nhất với hai biến dự báo

Khi có hai biến dự báo X1 và X2 mô hình hồi quy:

Yi = β0 + β1Xi1 + β2Xi2 + εi

(1.10)

được gọi là mô hình bậc nhất với hai biến dự báo.

Hàm hồi quy cho mô hình (1.23) là:

E{Y } = β0 + β1X1 + β2X2

(1.11)

Hàm hồi quy (1.24) là một mặt phẳng. Hình (1.1) đưa ra một phần mặt

phẳng đáp ứng:

E{Y } = 10 + 2X1 + 5X2

6

(1.12)

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 1.1: Hàm đáp ứng là một mặt phẳng

1.2.3 Mô hình bậc nhất với nhiều hơn hai biến dự báo

Mô hình hồi quy:

Yi = β0 + β1Xi1 + β2Xi2 + ... + βp−1Xip−1 + εi

(1.13)

được gọi là mô hình bậc nhất với p − 1 biến dự báo. Hàm đáp ứng cho mô hình (1.27) là:

E{Y } = β0 + β1X1 + β2X2 + ... + βp−1Xp−1

(1.14)

1.2.4 Mô hình hồi quy tuyến tính tổng quát

Tổng quát, định nghĩa mô hình tuyến tính tổng quát với điều kiện các sai số

chuẩn như sau:

Yi = β0 + β1Xi1 + β2Xi2 + ... + βp−1Xip−1 + εi

(1.15)

Hàm đáp ứng cho mô hình hồi quy (1.29) là :

E{Y } = β0 + β1X1 + β2X2 + ... + βp−1Xp−1

(1.16)

Mô hình tuyến tính tổng quát bao gồm một loạt các tình huống rất đa dạng

7

:

Luận văn tốt nghiệp

Phạm Thị Hương

p-1 biến dự báo

Khi X1, . . . , Xp−1 biểu diễn p − 1 biến dự báo khác nhau, mô hình tuyến tính tổng quát (1.29) là mô hình bậc nhất không có các ảnh hưởng tương tác giữa các biến dự báo.

Các biến dự báo định tính

Mô hình hồi quy tuyến tính tổng quát (1.29) bao gồm không chỉ các biến dự báo định lượng mà còn bao gồm các biến dự báo định tính. Chúng ta sử dụng các biến chỉ số nhận giá trị 0 và 1 để định nghĩa các lớp giá trị của biến định tính.

Hồi quy đa thức

Đây là mô hình hồi quy đa thức với một biến dự báo:

Yi = β0 + β1Xi + β2X 2

i + εi

(1.17)

i thì có thể viết (1.34) như sau:

Yi = β0 + β1Xi1 + β2Xi2 + εi

Nếu chúng ta cho Xi1 = Xi và Xi2 = X 2

Đây là dạng của mô hình hồi quy tuyến tính tổng quát (1.29).

Biến biến đổi

Các mô hình với biến biến đổi liên quan đến hàm đáp ứng là các đường cong phức tạp vẫn là trường hợp đặc biệt của mô hình hồi quy tuyến tính tổng quát. Xét mô hình sau với biến biến đổi Y:

logYi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + εi

(1.18)

i = logYi ta có:

Y (cid:48) i = β0 + β1Xi1 + β2Xi2 + β3Xi3 + εi

Nếu đặt Y (cid:48)

8

đây là dạng của mô hình hồi quy tuyến tính tổng quát (1.29) mà biến đáp ứng là hàm logarit của Y.

Luận văn tốt nghiệp

Phạm Thị Hương

Nhiều mô hình khác có thể biến đổi được thành mô hình hồi quy tuyến tính

tổng quát. Ví dụ mô hình:

Yi =

1 β0 + β1Xi1 + β2Xi2 + εi

i = 1/Yi ta

(1.19)

Y (cid:48) i = β0 + β1Xi1 + β2Xi2 + εi

có thể đưa về mô hình hồi quy tuyến tính tổng quát bằng cách đặt Y (cid:48) có:

Ảnh hưởng tương tác.

Ví dụ một mô hình hồi quy không cộng tính với hai biến dự báo X1, X2 là:

Yi = β0 + β1Xi1 + β2Xi2 + β3Xi1Xi2 + εi

(1.20)

Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + εi

Đặt Xi3 = Xi1Xi2 và viết lại (1.37) như sau:

đây chính là dạng của mô hình hồi quy tuyến tính tổng quát (1.29).

Sự kết hợp của các trường hợp.

Một mô hình hồi quy có thể có sự kết hợp của một số trường hợp ở trên và ta vẫn có thể đưa được về mô hình hồi quy tuyến tính tổng quát. Xét mô hình hồi quy với hai biến dự báo sau có chứa các điều kiện tuyến tính và bình phương cho mỗi biến và một điều kiện tương tác:

Yi = β0 + β1Xi1 + β2X 2

i1 + β3Xi2 + β4X 2

i2 + β5Xi1Xi2 + εi

(1.21)

Zi1 = Xi1

Zi3 = Xi2

Zi5 = Xi1Xi2

Zi2 = X 2 i1

Zi4 = X 2 i2

Định nghĩa:

Yi = β0 + β1Zi1 + β2Zi2 + β3Zi3 + β4Zi4 + β5Zi5 + εi

Khi đó mô hình hồi quy (1.38) như sau:

9

đây là dạng của mô hình hồi quy tuyến tính tổng quát (1.29).

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 1.2: Ví dụ cộng tính của hàm đáp ứng

Ý nghĩa tuyến tính trong mô hình hồi quy tuyến tính tổng quát.

Điều kiện mô hình tuyến tính đề cập đến một thực tế là mô hình (1.29) là tuyến tính với các tham số, không phải đề cập đến hình dáng của mặt đáp ứng.

Nói một mô hình hồi quy là tuyến tính với các tham số khi nó có thể được

viết dưới dạng:

Yi = ci0β0 + ci1β1 + ci2β2 + ... + cip−1βp−1 + εi

(1.22)

10

trong đó các giá trị ci0, ci1,... là các hệ số liên quan đến biến dự báo.

Luận văn tốt nghiệp

Phạm Thị Hương

1.3 Dạng ma trận của mô hình hồi quy tuyến tính

tổng quát

Định nghĩa cho các ma trận sau:

=

=

   

X (cid:124)(cid:123)(cid:122)(cid:125) n×p

Y (cid:124)(cid:123)(cid:122)(cid:125) n×1

. . . X1,p−1 . . . X2,p−1 . . . . . . Xn,p−1

  (1.40b)   (1.40a)     ...

=

=

   

ε (cid:124)(cid:123)(cid:122)(cid:125) n×1

β (cid:124)(cid:123)(cid:122)(cid:125) p×1

Y1 Y2 ... Yn β0 β1 ... βp

1 X11 X12 1 X21 X22 ... ... ... 1 Xn1 Xn2 ε1 ε2 ... εn

(1.23)     (1.40c)     (1.40d)

Dạng ma trận của mô hình hồi quy tuyến tính tổng quát (1.29) là:

= X (cid:124)(cid:123)(cid:122)(cid:125) n×p

Y (cid:124)(cid:123)(cid:122)(cid:125) n×1

+ ε (cid:124)(cid:123)(cid:122)(cid:125) n×1

β (cid:124)(cid:123)(cid:122)(cid:125) p×1

(1.24)

= Xβ

Do đó, véc tơ ngẫu nhiên Y có kỳ vọng:

E{Y } (cid:124) (cid:123)(cid:122) (cid:125) n×1

(1.25)

= σ2I

và ma trận hiệp phương sai của Y là giống với ε

σ2{Y } (cid:124) (cid:123)(cid:122) (cid:125) n×n

(1.26)

1.4 Ước lượng các hệ số hồi quy

n (cid:88)

n (cid:88)

Q =

Tiêu chuẩn bình phương cực tiểu:

(Yi − β0 − · · · − βp−1Xi,p−1)2

ε2 i =

i=1

i=1

(1.27)

Biểu diễn véc tơ ước lượng các hệ số hồi quy b0, b1, . . . , bp−1 là b:

=

 

b (cid:124)(cid:123)(cid:122)(cid:125) p×1

b0 b1 ... bp−1

11

(1.28)    

Luận văn tốt nghiệp

Phạm Thị Hương

Các phương trình chuẩn:

= X (cid:48) (cid:124)(cid:123)(cid:122)(cid:125) p×n

b (cid:124)(cid:123)(cid:122)(cid:125) p×1

Y (cid:124)(cid:123)(cid:122)(cid:125) n×1

(X (cid:48)X) (cid:124) (cid:123)(cid:122) (cid:125) p×p

(1.29)

và các ước lượng bình phương cực tiểu là:

b (cid:124)(cid:123)(cid:122)(cid:125) p×1

X (cid:48)Y (cid:124)(cid:123)(cid:122)(cid:125) p×1

= (X (cid:48)X)−1 (cid:124) (cid:123)(cid:122) (cid:125) p×p

(1.30)

Hàm hợp lý cho hồi quy bội như sau:

n (cid:88)

L(β, σ2) =

exp

(cid:34) (cid:35)

(Yi − β0 − β1Xi1 − · · · − βp−1Xi,p−1)2

−1 2σ2

1 (2πσ2)n/2

i=1

(1.31)

1.5 Ước lượng mẫu và phần dư

Gọi ˆY là véc tơ ước lượng mẫu ˆYi và e là véc tơ phần dư ei = Yi − ˆYi, ta có:

(1.49a)

=

(1.49b)

=

   

ˆY (cid:124)(cid:123)(cid:122)(cid:125) n×1

e (cid:124)(cid:123)(cid:122)(cid:125) n×1

e1 e2 ... en

ˆY1 ˆY2 ... ˆYn

(1.32)          

= Xb

Khi đó, các ước lượng mẫu được xác định bởi:

ˆY (cid:124)(cid:123)(cid:122)(cid:125) n×1

(1.33)

= Y − ˆY = Y − Xb

và phần dư

e (cid:124)(cid:123)(cid:122)(cid:125) n×1

(1.34)

= HY

Véc tơ ước lượng mẫu có thể được biểu diễn dưới dạng ma trận mũ H như sau:

ˆY (cid:124)(cid:123)(cid:122)(cid:125) n×1

(1.35)

= X(X (cid:48)X)−1X (cid:48)

trong đó

H (cid:124)(cid:123)(cid:122)(cid:125) n×n

12

(1.52a)

Luận văn tốt nghiệp

Phạm Thị Hương

= (I − H)Y

Tương tự vậy, véc tơ phần dư có thể được biểu diễn như sau:

e (cid:124)(cid:123)(cid:122)(cid:125) n×1

(1.36)

= σ2(I − H)

Ma trận hiệp phương sai của phần dư là:

σ2{e} (cid:124) (cid:123)(cid:122) (cid:125) n×n

(1.37)

= M SE(I − H)

được ước lượng bởi:

s2{e} (cid:124) (cid:123)(cid:122) (cid:125) n×n

(1.38)

1.6 Các kết quả phân tích phương sai

1.6.1 Tổng bình phương và trung bình bình phương

SST O = Y (cid:48)Y −

Y

J

I −

SSE = e(cid:48)e = (Y − Xb)(cid:48)(Y − Xb) = Y (cid:48)Y − b(cid:48)X (cid:48)Y = Y (cid:48)(I − H)Y

Y (cid:48)JY = Y (cid:48) (cid:104)

J

Y

SSR = b(cid:48)X (cid:48)Y −

H −

(cid:17) (cid:17) (cid:105) Tổng bình phương cho phân tích phương sai dạng ma trận là: Y (cid:48)JY = Y (cid:48) (cid:104) (1.39) (cid:16) 1 n (cid:16) 1 n (1.40) (cid:17) (cid:17) (cid:105) (1.41) (cid:16) 1 n (cid:16) 1 n

Bảng 1.1 chỉ ra các kết quả phân tích phương sai, cũng như trung bình bình

M SR =

phương M SR và M SE:

M SE =

(1.42)

SSR p − 1 SSE n − p

(1.43)

Kỳ vọng của M SR là σ2 cộng thêm một lượng không âm. Ví dụ, khi p − 1 = 2,

ta có:

(Xi2 − ¯X2)2+

E(M SR) = σ2 + [β2 1

(Xi1 − ¯X1)2 + β2 2 (cid:88)

(cid:88) (cid:88)

2β1β2

(Xi1 − ¯X1)(Xi2 − ¯X2)]/2

(1.44)

SS

SSR = b(cid:48)X (cid:48)Y − (cid:0) 1 n

SSE = Y (cid:48)Y − b(cid:48)X (cid:48)Y

(cid:1) Y (cid:48)JY

SST O = Y (cid:48)Y − (cid:0) 1 n

MS M SR = SSR p−1 M SE = SSE n−p df p − 1 n − p n − 1 (cid:1) Y (cid:48)JY Nguồn biến đổi Hồi quy Sai số Tổng số

13

Bảng 1.1: Bảng Anova cho mô hình hồi quy tuyến tính tổng quát (1.41)

Luận văn tốt nghiệp

Phạm Thị Hương

1.6.2. Kiểm định F cho quan hệ hồi quy

Để kiểm định liệu có hay không quan hệ hồi quy giữa biến đáp ứng và các

H0 : β1 = β2 = . . . = βp−1 = 0

biến X: X1, . . . , Xp−1, tức là lựa chọn giữa các giả thiết:

Ha : không phải tất cả βk(k=1,. . . ,p-1) bằng 0

(1.61a)

F ∗ =

ta dùng một thống kê kiểm định:

M SR M SE

(1.61b)

Quy tắc để kiểm tra sai lầm loại I tại mức α là:

(1.61c) Nếu F ∗ ≤ F (1 − α; p − 1; n − p) chấp nhận H0 Nếu F ∗ > F (1 − α; p − 1; n − p) chấp nhận Ha

1.6.3. Hệ số xác định bội

R2 =

= 1 −

Hệ số xác định bội, ký hiệu R2, được định nghĩa như sau:

SSR SST O

SSE SST O

(1.45)

0 ≤ R2 ≤ 1

Theo trên ta có:

(1.46)

R2

= 1 −

Hệ số xác định bội hiệu chỉnh, ký hiệu R2 a:

a = 1 −

SSE n−p SST O n−1

(1.47) (cid:18) n − 1 n − p (cid:19) SSE SST O

1.6.4. Hệ số tương quan bội

R2

R =

Hệ số tương quan bội R là căn bậc hai của R2:

14

(1.48)

Luận văn tốt nghiệp

Phạm Thị Hương

1.7 Các kết luận về các tham số hồi quy

E(b) = β

Các ước lượng bình phương cực tiểu và hợp lý cực đại b là không chệch:

(1.49)

Ma trận hiệp phương sai σ2(b):

. . . σ(b0, bp−1) . . . σ(b1, bp−1)

=

 

σ2(b0) σ(b1, b0) ...

σ(b0, b1) σ2(b1) ...

σ2(b) (cid:124) (cid:123)(cid:122) (cid:125) p×p

. . .

σ(bp−1, b0) σ(bp−1, b1)

(1.50)       ... σ2(bp−1)

= σ2(X (cid:48)X)−1

được xác định bởi:

σ2(b) (cid:124) (cid:123)(cid:122) (cid:125) p×p

(1.51)

Ma trận hiệp phương sai ước lượng s2(b):

. . . s(b0, bp−1) . . . s(b1, bp−1)

=

 

s2(b0) s(b1, b0) ...

s(b0, b1) s2(b1) ...

s2(b) (cid:124)(cid:123)(cid:122)(cid:125) p×p

. . .

s(bp−1, b0) s(bp−1, b1)

(1.52)       ... s2(bp−1)

= M SE(X (cid:48)X)−1

được xác định bởi:

s2(b) (cid:124)(cid:123)(cid:122)(cid:125) p×p

(1.53)

1.7.1 Ước lượng khoảng tin cậy cho βk

∼ t(n − p)

k = 0, 1, . . . , p − 1

Đối với mô hình hồi quy sai số chuẩn (1.41), ta có:

bk − βk s(bk)

(1.54)

nên khoảng tin cậy cho βk với độ tin cậy 1 − α là:

bk ± t(1 − α/2; n − p)s{bk}

(1.55)

15

1.7.2 Kiểm định cho βk

Phạm Thị Hương

Luận văn tốt nghiệp

H0 : βk = 0

Để kiểm định:

Ha : βk (cid:54)= 0

(1.72a)

t∗ =

ta dùng thống kê t:

bk s{bk}

(1.72b)

và kết luận theo quy tắc:

nếu |t∗| ≤ t(1 − α/2; n − p) chấp nhận H0

(1.72c) Ngược lại chấp nhận Ha

Kết luận chung

Nếu g tham số cùng được ước lượng (g ≤ p), khoảng tin cậy với cùng độ tin

cậy 1 − α là:

bk ± Bs{bk}

(1.56)

B = t(1 − α/2; n − p)

trong đó:

(1.73a)

1.8 Ước lượng trung bình đáp ứng và dự báo quan

sát mới

1.8.1 Ước lượng khoảng tin cậy của E{Yh}

Định nghĩa véc tơ Xh như sau:

=

 

Xh (cid:124)(cid:123)(cid:122)(cid:125) p×1

1 Xh1 ... Xh,p−1

(1.57)    

Khi đó, trung bình đáp ứng được ước lượng là:

E{Yh} = X (cid:48) hb

16

(1.58)

Luận văn tốt nghiệp

Phạm Thị Hương

Ước lượng trung bình đáp ứng theo Xh kí hiệu là ˆYh:

ˆYh = X (cid:48) hb

(1.59)

đây là ước lượng không chệch:

E{ ˆYh} = X (cid:48)

hb = E{Yh}

(1.60)

và phương sai:

σ2{ ˆYh} = X (cid:48)

h(X (cid:48)X)−1Xh

(1.61)

Các ước lượng phương sai s2{ ˆYh} được tính như sau:

s2{ ˆYh} = M SE(X (cid:48)

hs2{b}Xh

h(X (cid:48)X)−1Xh)) = X (cid:48)

(1.62)

Giới hạn tin cậy 1 − α cho E{Yh} là:

ˆYh ± t(1 − α/2; n − p)s{ ˆYh}

(1.63)

1.8.2 Miền tin cậy cho mặt hồi quy

Các điểm giới hạn của miền tin cậy tại Xh có được từ:

ˆYh ± W s{ ˆYh}

(1.64)

1.8.3 Khoảng tin cậy đồng thời cho một số trung bình đáp ứng

1. Sử dụng miền giới hạn tin cậy Working-Hotelling (1.81) cho các véc tơ Xh

khác nhau:

ˆYh ± W s{ ˆYh}

(1.65)

2. Khi thực hiện g ước lượng khoảng, khoảng tin cậy Boferroni là:

ˆYh ± Bs{ ˆYh}

(1.66)

B = t(1 − α/2g; n − p)

trong đó:

(1.83a)

17

1.8.4 Dự báo quan sát mới Yh(new)

Luận văn tốt nghiệp

Phạm Thị Hương

Giới hạn dự báo 1 − α cho quan sát mới Yh(new) ứng với Xh là:

ˆYh ± t(1 − α/2; n − p)s{pred}

(1.67)

1.8.5 Dự báo trung bình của m quan sát mới tại Xh

¯Yh(new) được dự báo, khoảng dự báo 1 − α là:

Khi m quan sát mới được lựa chọn với cùng mức Xh và trung bình của chúng

ˆYh ± t(1 − α/2; n − p)s{predmean}

(1.68)

s2{predmean} =

M SE m

hs2(b)Xh + X (cid:48) (cid:17)

= M SE

+ X (cid:48)

trong đó:

M SE m h(X (cid:48)X)−1Xh

+ s2( ˆYh) = (cid:16) 1 m

(1.85a)

1.8.6 Các dự đoán của g quan sát mới

Khoảng dự báo đồng thời cho g quan sát mới tại g mức khác nhau của Xh

với độ tin cậy 1 − α được đưa ra bởi:

ˆYh ± Ss(pred)

(1.69)

Có thể dùng khoảng dự báo đồng thời Bonferroni để đưa ra khoảng tin cậy

đồng thời 1 − α cho g dự báo mới:

ˆYh ± Bs{pred}

(1.70)

1.8.7 Thận trọng về phép ngoại suy ẩn

Khi ước lượng trung bình đáp ứng hoặc dự đoán quan sát mới trong hồi quy bội, cần đặc biệt cẩn thận khi ước lượng hoặc dự báo không nằm ngoài phạm vi của mô hình.

1.9 Chẩn đoán và biện pháp khắc phục

1.9.1 Ma trận đồ phân tán

Phân tích được dễ dàng hơn nếu các biểu đồ phân tán được lắp ráp trong

18

một ma trận đồ phân tán, ví dụ hình 1.4:

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 1.3: miền quan sát X1, X2 và so sánh với phạm vi của X1, X2

Hơn nữa, ma trận đồ phân tán rất hữu ích trong trường hợp ma trận tương

quan. Định dạng của ma trận tương quan sau là của ma trận đồ phân tán:

 

1 rY 1 ...

rY 2 r12 ...

. . . rY,p−1 r1,p−1 . . . ... 1

. . .

rY 1 1 ... rY,p−1 r1,p−1 r2,p−1

(1.71)    

1.9.2 Biểu đồ phân tán ba chiều

Một số gói thống kê tương tác đưa ra biểu đồ phân tán ba chiều hay đám mây điểm, và cho phép quay các biểu đồ này để người xem thấy đám mây điểm từ các quan điểm khác nhau.

1.9.3 Biểu đồ phần dư

19

Biểu đồ phần dư ứng với các ước lượng mẫu rất hữu ích cho việc đánh giá sự phù hợp của hàm hồi quy bội và tính không đổi của phương sai các sai số, cũng như là việc cung cấp thông tin về các giá trị ngoại lai, giống như hồi quy

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 1.4: Ma trận đồ phân tán & ma trận tương quan

Hình 1.5: Biểu đồ phân tán ba chiều

đơn. Tương tự như vậy, một biểu đồ phần dư đối với thời gian hoặc với một số trình tự khác cung cấp các thông tin chẩn đoán về sự tương quan giữa các sai số trong hồi quy bội. Biểu đồ hộp và các biểu đồ phân phối chuẩn của các phần dư rất có ý nghĩa cho việc kiểm tra xem các sai số có phân phối chuẩn hay không.

1.9.3 Kiểm định tương quan cho tính chuẩn

Kiểm định tương quan cho tính chuẩn của hồi quy bội áp dụng tương tự từ

hồi quy đơn.

20

1.9.4 Kiểm định Brown-Forsythe cho phương sai sai số không đổi

Luận văn tốt nghiệp

Phạm Thị Hương

Thống kê kiểm định Brown-Forsythe của hồi quy đơn cho giả định phương sai sai số không đổi có thể được sử dụng một cách dễ dàng cho hồi quy bội khi phương sai sai số tăng hoặc giảm với một trong các biến dự báo.

1.9.5 Kiểm định Breusch-Pagan cho phương sai sai số không đổi

Kiểm định Breusch-Pagan cho phương sai sai số không đổi trong hồi quy bội được áp dụng từ hồi quy đơn khi phương sai sai số tăng hoặc giảm với một trong các biến dự báo. Các phần dư bình phương đơn giản là hồi quy đối với các biến dự báo được chứa trong tổng bình phương hồi quy SSR∗, và kiểm định tiến hành như trong hồi quy đơn, sử dụng tổng bình phương sai số SSE cho toàn bộ mô hình hồi quy bội.

1.9.4 Kiểm định F cho sự không phù hợp

E{Y } = β0 + β1X1 + . . . + βp−1Xp−1

Kiểm định xem liệu hàm đáp ứng hồi quy bội:

H0 : E{Y } = β0 + β1X1 + . . . + βp−1Xp−1

có mặt đáp ứng thích hợp hay không. Do vậy, với việc kiểm định:

Ha : E{Y } (cid:54)= β0 + β1X1 + . . . + βp−1Xp−1

(1.89a)

F ∗ =

÷

=

thống kê kiểm định thích hợp là:

SSLF c − p

SSP E n − c

M SLF M SP E

(1.89b)

và kết luận:

(1.89c) nếu F ∗ ≤ F (1 − α; c − p, n − c) chấp nhận H0 nếu F ∗ ≥ F (1 − α; c − p, n − c) chấp nhận Ha

1.9.7 Biện pháp khắc phục

Biện pháp khắc phục của hồi quy đơn tuyến tính đơn cũng có thể áp dụng

21

cho hồi quy bội.

Chương 2

HỒI QUY PHI TUYẾN VÀ MÔ HÌNH MẠNG NƠ RON

2.1 Mô hình hồi quy tuyến tính và phi tuyến

2.1.1 Mô hình hồi quy tuyến tính

Các mô hình tuyến tính với các tham số biểu diễn bởi mô hình hồi quy tuyến

tính tổng quát (1.29):

Yi = β0 + β1Xi1 + β2Xi2 + ... + βp−1Xip−1 + εi

(2.1)

p − 1 biến dự báo mà có thể phức tạp hơn:

Các mô hình hồi quy tuyến tính, bao gồm không chỉ mô hình bậc nhất của

Yi = β0 + β1Xi1 + β2X 2

i1 + β3Xi2 + β4X 2

i2 + β5X1Xi2 + εi

(2.2)

Các mô hình với các biến thay đổi:

Xi1 + β2 exp(Xi2) + εi

log10 Yi = β0 + β1

(cid:112) (2.3)

Trường hợp tổng quát, ta có thể phát biểu một mô hình tuyến tính có dạng:

Yi = f (Xi, β) + εi

(2.4)

22

2.1.2 Mô hình hồi quy phi tuyến

Luận văn tốt nghiệp

Phạm Thị Hương

Mô hình hồi quy phi tuyến:

Yi = f (Xi, γ) + εi

(2.5)

Mỗi quan sát Yi vẫn là tổng của trung bình đáp ứng f (Xi, γ) xác định bởi

hàm đáp ứng phi tuyến f (X, γ) và sai số εi.

2.1.3 Mô hình hồi quy dạng mũ.

Yi = γ0 exp(γ1Xi) + εi

(2.6)

Hàm đáp ứng cho mô hình là:

f (X, γ) = γ0 exp(γ1X)

(2.7)

Mô hình này không tuyến tính với các tham số γ0 và γ1.

Một dạng hồi quy phi tuyến dạng mũ tổng quát hơn là:

Yi = γ0 + γ1 exp(γ2Xi) + εi

(2.8)

Hàm đáp ứng cho mô hình này là:

f (X, γ) = γ0 + γ1 exp(γ2X)

(2.9)

2.1.4 Mô hình hồi quy logistic.

Yi =

+ εi

γ0 1 + γ1 exp(γ2Xi)

(2.10)

f (X, γ) =

Hàm đáp ứng là:

γ0 1 + γ1 exp(γ2Xi)

(2.11)

23

trong mô hình này, hàm đáp ứng là hàm không tuyến tính với các tham số γ0, γ1, γ2.

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 2.1: Hàm đáp ứng dạng mũ và logistic

2.1.5 Mô hình hồi quy phi tuyến dạng tổng quát.

Dạng tổng quát của mô hình hồi quy phi tuyến được biểu diễn như sau:

Yi = f (Xi, γ) + εi

(2.12)

2.2 Ước lượng các tham số hồi quy

Khi ước lượng các tham số của mô hình hồi quy phi tuyến thường sử dụng phương pháp bình phương cực tiểu hoặc phương pháp hợp lý cực đại. Cũng như trong hồi quy tuyến tính, cả hai phương pháp ước lượng giá trị các tham số khi sai số trong mô hình hồi quy phi tuyến (2.12) là độc lập cùng phân phối chuẩn và phương sai không đổi.

24

Khác với mô hình hồi quy tuyến tính, thường không thể tìm thấy các biểu thức giải thích cho các ước lượng bình phương cực tiểu và hợp lý cực đại trong mô hình hồi quy phi tuyến. Thay vào đó, các thủ tục tìm kiếm số được sử dụng với cả hai thủ tục dự đoán này, đòi hỏi phải tính toán chuyên sâu. Do đó phân tích mô hình hồi quy phi tuyến thường dùng các phần mềm máy tính chuyên dụng.

Luận văn tốt nghiệp

Phạm Thị Hương

2.3 Ước lượng bình phương cực tiểu trong hồi quy

phi tuyến

Phương pháp bình phương cực tiểu cho hồi quy đơn tuyến tính yêu cầu việc

n (cid:88)

Q =

cực tiểu hóa hàm tiêu chuẩn:

[Yi − (β0 + β1Xi)]2

i=1

(2.13)

Tiêu chuẩn bình phương cực tiểu được viết lại cho hồi quy phi tuyến như

n (cid:88)

Q =

sau:

[Yi − f (Xi, γ)]2

i=1

(2.14)

2.3.1 Nghiệm của phương trình chuẩn

Đạo hàm riêng của Q đối theo γk là:

n (cid:88)

=

−2[Yi − f (Xi, γ)]

∂Q ∂γk

i=1

(cid:21) (2.15) (cid:20)∂f (Xi, γ) ∂γk

n (cid:88)

n (cid:88)

= 0

k = 0, 1, . . . , p − 1

Yi

f (Xi, γ)

(cid:21) (cid:21)

γ=g

γ=g

i=1

i=1

p phương trình chuẩn: (cid:20)∂f (Xi, γ) ∂γk (cid:20)∂f (Xi, γ) ∂γk

(2.16)

trong đó g là véc tơ các ước lượng bình phương cực tiểu gk:

=

 

g (cid:124)(cid:123)(cid:122)(cid:125) p×1

g0 g1 ... gp−1

(2.17)    

25

Phương trình chuẩn (2.16) cho mô hình hồi quy phi tuyến là phi tuyến với tham số ước lượng gk và thường rất khó tìm ra nghiệm, thậm chí trong trường hợp đơn giản nhất. Do đó, thường dùng các thủ tục tìm kiếm số lặp để tìm nghiệm của phương trình chuẩn. Nếu có nghiệm bội mọi việc còn khó khăn hơn.

Luận văn tốt nghiệp

Phạm Thị Hương

2.3.2 Tìm kiếm số trực tiếp - Phương pháp Gauss-Newton

1 , . . . , g(0)

0 , g(0)

k . Với trường hợp thứ i ta có:

Phương pháp Gauss-Newton bắt đầu với các giá trị khởi đầu cho các tham số γ0, γ1, . . . , γp−1. Ta đặt các giá trị này là g(0) p−1. Xấp xỉ trung bình đáp ứng f (Xi, γ) cho n trường hợp bằng các điều kiện tuyến tính trong các khai triển Taylor quanh giá trị khởi đầu g(0)

p−1 (cid:88)

f (Xi, γ) ≈ f (Xi, g(0)) +

(γk − g(0) k )

γ=g(0)

k=0

(cid:21) (2.18) (cid:20)∂f (Xi, γ) ∂γk

(2.19a)

(2.19b)

k

Để đơn giản, ta ký hiệu như sau:

(2.19c)

f (0) i = f (Xi, g(0)) k = γk − g(0) β(0) D(0)

ik =

γ=g(0)

(cid:21) (2.19) (cid:20)∂f (Xi, γ) ∂γk

p−1 (cid:88)

f (Xi, γ) ≈ f (0)

i +

D(0) ik β(0)

k

k=0

Khi đó, xấp xỉ Taylor (2.18) cho trung bình đáp ứng cho trường hợp thứ i là:

p−1 (cid:88)

và xấp xỉ của mô hình hồi quy phi tuyến (2.12) Yi = f (Xi, γ) + εi là:

Yi ≈ f (0)

i +

ik β(0) D(0)

k + εi

k=0

(2.20)

i = Yi − f (0)

i

i tuyến tính xấp xỉ như sau:

p−1 (cid:88)

ta có một mô hình hồi quy Chuyển f (0) sang vế trái và đặt Y (0)

Y (0) i ≈

k + εi

ik β(0) D(0)

k=0

(2.21)

Y (0) ≈ D(0)β(0) + ε

Dạng ma trận của mô hình hồi quy tuyến tính xấp xỉ (2.21) là:

(2.22)

Do đó chúng ta có thể ước lượng các tham số β(0) bằng bình phương cực tiểu

b(0) = (D(0)(cid:48)

D(0))−1D(0)(cid:48)

Y (0)

thông thường và có được như sau:

26

(2.23)

Luận văn tốt nghiệp

Phạm Thị Hương

Sau đó dùng các ước lượng bình phương cực tiểu này để hiệu chỉnh lại các

k bằng công thức (2.19b):

k

k + b(0)

k = g(0) g(1)

ước lượng hệ số hồi quy g(1)

g(1) = g(0) + b(0)

Thủ tục hiệu chỉnh dạng ma trận như sau:

(2.24)

n (cid:88)

n (cid:88)

)2

SSE(0) =

Đánh giá các hệ số hồi quy ban đầu g(0) là SSE(0):

(Yi − f (0)

[Yi − f (Xi, g(0))]2 =

i

i=1

i=1

(2.25)

n (cid:88)

n (cid:88)

SSE(1) =

)2

Tiêu chí đánh giá bình phương cực tiểu ở bước lặp này là SSE(1):

[Yi − f (Xi, g(1))]2 =

(Yi − f (1)

i

i=1

i=1

(2.26)

Nếu phương pháp Gauss-Newton làm việc hiệu quả trong bước thứ nhất thì SSE(1) sẽ nhỏ hơn SSE(0) vì các ước lượng điều chỉnh g(1) là ước lượng tốt hơn.

Thủ tục lặp tiếp tục cho tới khi sự khác biệt giữa các ước lượng hệ số liên tiếp g(S+1) − g(s) và hoặc là sự khác biệt giữa hai tiêu chí đánh giá bình phương cực tiểu liên tiếp SSE(s+1) − SSE(s) là không đáng kể. Ở bước cuối cùng, biểu diễn các ước lượng của hệ số hồi quy là g và tiêu chí đánh giá bình phương cực tiểu có tổng bình phương sai số là SSE.

Phương pháp Gauss-Newton làm việc hiệu quả trong nhiều ứng dụng hồi quy phi tuyến. Tuy nhiên trong một số ví dụ, phương pháp này yêu cầu nhiều bước lặp trước khi hội tụ, và một số ít trường hợp có thể không hội tụ.

2.3.3 Các thủ tục tìm kiếm trực tiếp khác

27

Bên cạnh phương pháp Gauss-Newton, hai thủ tục tìm kiếm trực tiếp khác thường được sử dụng là phương pháp giảm nhanh nhất và thuật toán Marquardt.

Luận văn tốt nghiệp

Phạm Thị Hương

2.4 Xây dựng và chẩn đoán mô hình

Quá trình xây dựng mô hình cho các mô hình hồi quy phi tuyến có khác mô hình hồi quy tuyến tính. Một số mô hình hồi quy phi tuyến tự thêm và bớt các biến dự báo một cách trực tiếp. Sử dụng các công cụ chẩn đoán để kiểm tra sự phù hợp của một mô hình đóng một vai trò quan trọng trong quá trình xây dựng một mô hình hồi quy phi tuyến.

2.5 Các kết luận về tham số hồi quy phi tuyến

2.5.1 Ước lượng phương sai sai số

M SE =

=

=

SSE n − p

(2.27) (cid:80)(Yi − ˆYi)2 n − p (cid:80)[Yi − f (Xi, g)2] n − p

Với hồi quy phi tuyến, M SE không là ước lượng không chệch của σ2, nhưng chệch ít khi cỡ mẫu lớn.

2.5.2 Định lí mẫu lớn

E{g} = γ

(2.28a)

Định lí 2.5.1. Khi sai số εi là độc lập N(0,σ2) và cỡ mẫu n là tương đối lớn, phân phối mẫu của g là xấp xỉ chuẩn. Giá trị kỳ vọng của véc tơ trung bình xấp xỉ là:

s2{g} = M SE(D(cid:48)D)−1

(2.28b)

(2.28)

Như vậy, theo định lí, suy luận cho các tham số hồi quy phi tuyến sẽ tương

tự như hồi quy tuyến tính khi cỡ mẫu là lớn đáng kể.

2.5.3 Khi nào định lý mẫu lớn dùng được?

1. Sự hội tụ nhanh của thủ tục lặp tìm kiếm các ước lượng tham số hồi quy

28

phi tuyến .

Luận văn tốt nghiệp

Phạm Thị Hương

2. Một số đánh giá được phát triển cho việc cung cấp nguyên tắc về sự phù

hợp khi dùng các thủ tục kết luận mẫu lớn.

3. Mẫu chương trình khởi động đưa ra cách trực tiếp xác định có hay không phân phối mẫu của các ước lượng tham số hồi quy phi tuyến là xấp xỉ chuẩn, có hay không phương sai của phân phối mẫu là gần với phương sai của mô hình xấp xỉ phi tuyến, và có hay không độ chệch trong mỗi tham số là nhỏ.

2.5.4 Biện pháp khắc phục hậu quả.

Một số biện pháp khắc phục hậu quả dùng để ước lượng chương trình khởi động chính xác và thay thế khoảng tin cậy của suy luận mẫu lớn. Tuy nhiên, khi xấp xỉ phi tuyến ở (2.25) là không xấp xỉ gần mô hình hồi quy phi tuyến, sự hội tụ có thể rất chậm, ước lượng chương trình khởi động chính xác và khoảng tin cậy có thể khó có được. Một biện pháp khắc phục hậu quả khác mà đôi khi sẵn có là tăng cỡ mẫu.

2.5.5 Khoảng ước lượng của γk

Dựa vào định lí mẫu lớn (2.28), kết quả xấp xỉ sau vẫn giữ nguyên khi cỡ

∼ t(n − p)

k = 0, 1, . . . , p − 1

mẫu là lớn và sai số có phân phối chuẩn:

gk − γk s{gk}

t(n − p) là là biến t với n − p bậc tự do. Giới hạn tin cậy 1 − α cho γk được xác định như (1.50):

(2.29)

gk ± t(1 − α/2; n − p)s{gk}

(2.30)

với t(1 − α/2; n − p) là (1 − α/2)100% của phân phối t với n − p bậc tự do.

2.5.6 Khoảng tin cậy đồng thời cho một số γk

Nếu m tham số được ước lượng với cùng độ tin cậy 1 − α, giới hạn tin cậy

Bonferroni là:

gk ± Bs{gk}

29

(2.31)

Luận văn tốt nghiệp

Phạm Thị Hương

2.5.7 Kiểm tra tính liên quan của một tham số γk

H0 : γk = γk0

Để kiểm định:

Ha : γk (cid:54)= γk0

(2.32a)

t∗ =

Sử dụng kiểm định t∗ dựa trên (1.49) khi n tương đối lớn:

gk − γk0 s{gk}

(2.32b)

Quy tắc kết luận cho việc kiểm soát các nguy cơ mắc phải sai lầm loại I là α là:

(2.32c) Nếu |t∗| ≤ t(1 − α/2; n − p) chấp nhận H0 Nếu |t∗| > t(1 − α/2; n − p) chấp nhận Ha

2.5.8 Kiểm định đồng thời một số γk

F ∗ =

÷ M SE(F )

Khi muốn kiểm định đồng thời các γk với mẫu lớn, có thể sử dụng cách tiếp cận như trong hồi quy tuyến tính. Trước tiên với mô hình đầy đủ ta tính SSE(F ), sau đó với mô hình rút gọn ta tính SSE(R) và cuối cùng tính kiểm định thống kê giống như hồi quy tuyến tính:

SSE(R) − SSE(F ) dfR − dfF

(2.32)

với n lớn, thống kê kiểm định này được phân phối xấp xỉ như F (dfR − dfF , dfF ) khi cố định H0.

2.6 Giới thiệu về mô hình mạng Nơ ron

2.6.1 Mô hình mạng Nơ ron

Trong phần này chúng ta sẽ mô tả một cách đơn giản nhất, nhưng được sử dụng rất rộng rãi, mô hình mạng Nơ-ron, single hidden layer, mạng Nơ ron feedforward. Trong mô hình mạng Nơ ron biến đáp ứng thứ i Yi được mô hình như một hàm phi tuyến gY của m biến dự báo ban đầu: Hi0, Hi1, . . . , Hi,m−1:

Yi = gY (β0Hi0 + β1Hi1 + . . . + βm−1Hi,m−1) + εi = gY (H (cid:48)

iβ) + εi

30

(2.33)

Luận văn tốt nghiệp

Phạm Thị Hương

Đặt Hi0 = 1 và với j = 1, . . . , p − 1, giá trị dự báo thứ j cho quan sát thứ i Hij

j = 1, . . . , m − 1

là một hàm phi tuyến gj của một tổ hợp tuyến tính của các biến dự báo gốc:

Hij = gj(X (cid:48)

iαj)

(2.34)

m−1 (cid:88)

(cid:35) (cid:34)

β0 +

βjgj(X (cid:48)

+ εi

Yi = gY (H (cid:48)

iαj)

iβ) + εi = gY

j=1

m hàm gY , g1, . . . , gm−1 được gọi là hàm kích hoạt ở các mạng Nơ ron. Một lựa chọn thông thường cho mỗi hàm kích hoạt này là hàm logistic:

1

g(Z) =

(2.35)

1 + e−Z = [1 + e−Z]−1

(2.36)

là hàm linh hoạt và có thể thích nghi với nhiều trường hợp. Ví dụ đơn giản, xét trường hợp một biến đơn, X1. Từ công thức (2.34), dự báo thứ j cho quan sát thứ i là:

gj(X (cid:48)

iαj) = [1 + exp(−αj0 − αj1Xi1)]−1

(2.37)

(2.37) là sự tham số hóa lại của (2.11) với γ0 = 1, γ1 = eαj0 và γ2 = −αj1. Các hàm này được mô tả trong hình 2.2 với các giá trị khác nhau của αj0 và αj1.

Thay g trong công thức (2.36) vào gY , g1, . . . , gm−1 trong công thức (2.35)

Yi = [1 + exp(−H (cid:48)

iβ)]−1 + εi

đưa ra mô hình mạng Nơ ron mà đang được thảo luận:

m−1 (cid:88)

(cid:34) (cid:34) (cid:35)(cid:35)−1

=

1 + exp

−β0 −

βj[1 + exp(−X (cid:48)

+ εi

iαj)]−1

j=1

= f (Xi, α1, . . . , αm−1, β) + εi

(2.38)

2.6.2 Mạng đại diện

Sơ đồ mạng được dùng để mô tả mô hình mạng Nơ ron. Hàm hồi quy tuyến

tính chuẩn:

E{Y } = β0 + β1X1 + . . . + βp−1Xp−1

31

(2.39)

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 2.2: Hàm kích hoạt logistic với một biến dự báo

có thể đại diện cho một mạng như hình 2.3a. Mỗi biến dự báo Xi kết nối đến biến đáp ứng được gán nhãn với tham số hồi quy tương ứng, βi.

Mạng truyền thẳng, mô hình mạng Nơ ron single-hidden-layer (2.38) được chỉ ra trong hình 2.3b. Các điểm dự báo được gán nhãn X0, X1, . . . , Xp−1 nằm phía bên trái của sơ đồ. Ở trung tâm của biểu đồ là m nút ẩn kết nối với p điểm dự báo theo ẩn kết nối tới biến đáp ứng Y bằng các tham số β.

2.6.3 Mạng Nơ ron như sự tổng quát của hồi quy tuyến tính.

g(Z) = Z

32

Dễ dàng thấy rằng mô hình hồi quy bội chuẩn là một trường hợp đặc biệt của mô hình mạng Nơ ron (2.38). Nếu chọn cho mỗi hàm kích hoạt gY , g1, . . . , gm−1:

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 2.3: Mạng quan hệ của mô hình hồi quy tuyến tính và mô hình mạng Nơ ron.

ta có:

E{Yi} = β0 + β1Hi1 + . . . + βp−1Hi,m−1

(2.39a)

và:

Hij = αj0 + αj1Xi1 + . . . + αj,p−1Xi,p−1

(2.39b)

Thay (2.39b) vào (2.39a) và sắp xếp lại ta có:

m−1 (cid:88)

+

β0 +

E{Yi} =

βjαj0

βjαj1

Xi1 + . . . +

βjαj,p−1

Xj,p−1

j=1

j=1

= β∗

(cid:34) (cid:35) (cid:35) (cid:35) (cid:34)m−1 (cid:88) (cid:34)m−1 (cid:88)

0 + β∗

j=1 1Xi1 + . . . + β∗

p−1Xi,m−1

(2.40)

Khi đó, mạng Nơ ron với các hàm kích hoat được biến đổi thành mô hình

hồi quy tuyến tính chuẩn.

2.6.4 Ước lượng tham số: Bình phương cực tiểu penalized

n (cid:88)

Q =

Tiêu chuẩn bình phương cực tiểu penalty là:

[Yi − f (Xi, β, α1, . . . , αm−1]2 + pλ(β, α1, . . . , αm−1)

i=1

33

(2.41)

Luận văn tốt nghiệp

Phạm Thị Hương

trong đó quá phù hợp penalty là:

p−1 (cid:88)

m−1 (cid:88)

pλ(β, α1, . . . , αm−1) = λ

α2 ij

β2 i +

i=0

i=1

i=0

(cid:35) (cid:34)m−1 (cid:88) (2.41a)

Do vậy, penalty là hằng số dương, λ, là số lần tổng bình phương các hệ số hồi quy phi tuyến. Chú ý rằng penalty được áp dụng không phải trên số lượng m + mp các tham số mà trên tổng độ lớn các tham số. Trong mạng Nơ ron, việc tìm kiếm một tập các giá trị tham số mà cực tiểu hóa hàm tiêu chuẩn (2.41) được gọi là huấn luyện mạng. Số lượng các tìm kiếm được tiến hành trước khi đưa ra ước lượng cuối cùng được gọi là số lượng tour.

2.6.5 Một số bình luận cuối về mô hình mạng Nơ ron

Trong những năm gần đây, các mạng Nơ ron được ứng dụng rất rộng rãi trong nhiều lĩnh vực. Chúng trở thành một trong những công cụ chuẩn trong lĩnh vực khai thác dữ liệu, và ứng dụng của chúng tiếp tục lớn lên. Điều này phần lớn là do sự phổ biến của của máy tính cho phép phù hợp các mô hình phức tạp có hàng chục, hàng trăm, thậm chí hàng nghìn tham số.

Một số từ vựng được phát triển là duy nhất với lĩnh vực mạng Nơ ron. Bảng dưới đây đưa ra danh sách số lượng các điều kiện mà được sử dụng rộng rãi bởi các nhà thống kê đối với các mạng Nơ ron: Điều kiện thống kê Điều kiện mạng Nơ ron hệ số trọng số dự báo đầu vào đáp ứng kết quả quan sát mẫu

ước lượng tham số huấn luyên hoặc học tập độ dốc nhanh nhất lan truyền ngược

giá trị chặn điều kiện chệch dự báo gốc nút ẩn

34

hàm penalty trọng số phân rã

Chương 3

Ứng dụng

3.1 Ứng dụng 1: Dự báo doanh số bán hàng

3.1.1 Đặt bài toán

Hình 3.1: ứng dụng dự báo doanh số bán hàng của Dwaine Studio

35

Dwaine Studios, Inc., điều hành các studio chân dung trong 21 thành phố quy mô vừa. Các studio này chuyên môn trong chân dung của trẻ nhỏ. Công ty đang xem xét việc mở rộng sang các thành phố khác của nhóm thành phố quy mô vừa và mong muốn điều tra xem liệu doanh số bán hàng (Y) trong một cộng đồng có thể được dự báo từ số trẻ trong độ tuổi

Luận văn tốt nghiệp

Phạm Thị Hương

16 hoặc trẻ hơn trong cộng đồng (X1) và thu nhập cá nhân cho mỗi đầu người ở cộng đồng đó (X2). Dữ liệu cho các biến trong những năm gần đây nhất cho 21 thành phố mà Dwaine Studios đang có được hiển thị trong hình 3.1b. Doanh số bán hàng có đơn vị nghìn đô la, được dán nhãn Y hay SALES; số người trong độ tuổi 16 hoặc trẻ hơn có đơn vị nghìn người, được dán nhãn X1 hay T ARGT P OP ; và bình quân thu nhập mỗi cá nhân có đơn vị nghìn đô la, dán nhãn X2 hay DISP OIN C cho thu nhập bình quân đầu người.

Mô hình bậc nhất là:

Yi = β0 + β1Xi1 + β2Xi2 + εi

Hình 3.2: Đám mây điểm trước và sau khi quay

(3.1)

Từ biểu đồ đưa ra kết luận sơ bộ rằng ở đây mặt đáp ứng có thể là một hàm

hồi quy hợp lý để sử dụng.

3.1.2 Các tính toán cơ bản

Các ma trận X và Y cho ứng dụng Dwaine Studios như sau:

X =

Y =

   

1 68.5 16.7 1 45.2 16.8 ... ... ... 1 52.3 16.0

174.4 164.4 ... 166.5

36

(3.2)        

Luận văn tốt nghiệp

Phạm Thị Hương

ta cần tính: 1.

360.0

X (cid:48)X =

1, 302.4 1, 302.4 87, 707.9 22, 609.2 6, 190.3 22, 609.2 360.0

(cid:35) (cid:34) 21.0 (3.3)

2.

X (cid:48)Y =

(cid:35)

(3.4) (cid:34) 3, 820 249, 643 66, 073

3.

(cid:35)

(X (cid:48)X)−1 =

.0722 −1.9926 .00037 −.0056 .1363

−1.9926 −.0056

(cid:34) 29.7289 .0722 (3.5)

3.1.3 Ước lượng hàm hồi quy

Các ước lượng bình phương cực tiểu:

b = (X (cid:48)X)−1X (cid:48)Y =

(cid:35)

(3.6) (cid:34) −68.857 1.455 9.366

ˆY = −68.857 + 1.455X1 + 9.366X2

và hàm hồi quy được ước lượng là:

Hình 3.3 là biểu đồ ba chiều của hàm hồi quy ước lượng và các giá trị đáp ứng.

Phương trình chuẩn dạng đại số

Yi = nb0 + b1

Xi2

(cid:88) (cid:88) (cid:88)

Xi1 + b2 (cid:88)

X 2

Xi1Yi = b0

Xi1 + b1

i1 + b2

(cid:88) (cid:88) (cid:88) (3.7)

Xi1Xi2 (cid:88)

Xi2Yi = b0

Xi2 + b1

Xi1Xi2 + b2

X 2 i2

37

(cid:88) (cid:88) (cid:88)

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.3: Biểu đồ mặt hồi quy ước lượng

3.1.4 Các ước lượng mẫu và phần dư

Để kiểm tra sự phù hợp của mô hình hồi quy cần có các ước lượng mẫu ˆYi

ˆY = Xb

và phần dư e = Yi − ˆYi. Từ (1.50) ta có:

=

   

187.2 154.2 ... 157.1

ˆY1 ˆY2 ... ˆY21

         

e = Y − ˆY

Hơn nữa, từ (1.51) ta có:

   

−12.8 10.2 ... 9.4

e1 e2 ... e21

    =    

3.1.5 Phân tích sự phù hợp của mô hình

Phân tích sự phù hợp của mô hình hồi quy bằng cách xem xét biểu đồ phần

38

dư e đối với các ước lượng mẫu ˆY trong hình 3.4 dưới đây:

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.4: Biểu đồ chẩn đoán của Dwaine studio

39

Luận văn tốt nghiệp

Phạm Thị Hương

Qua biểu đồ này ta thấy các độ lệch không có hệ thống trên mặt đáp ứng, phương sai của sai số cũng không thay đổi theo mức của ˆY . Các biểu đồ phần dư e đối với X1 và X2 tương ứng trong hình 3.4b và 3.4c là hoàn toàn phù hợp với các kết luận về sự phù hợp tốt bởi hàm đáp ứng và điều kiện sai số có phương sai không đổi.

Hình 3.5: Biểu đồ chẩn đoán - ví dụ Dwaine studio

Các ứng dụng hồi quy bội thường có các ảnh hưởng tương tác. Để làm rõ ảnh hưởng này cho trường hợp Dwaine Studio, ta vẽ biểu đồ phần dư e đối với các ảnh hưởng tương tác X1X2 trong hình 3.4d.

3.1.6 Phân tích phương sai

Y (cid:48)Y = 721, 072.40

Để kiểm định doanh thu bán hàng có liên quan đến mục tiêu dân số và thu nhập bình quân đầu người hay không, ta cần đến bảng ANOVA. Các giá trị cơ bản cần có là:

Y (cid:48)JY = 694, 876.19

(cid:17)

(cid:16) 1 n

Do vậy:

Y (cid:48)JY = 26, 196.21

SST O = Y (cid:48)Y −

(cid:17)

40

(cid:16) 1 n

Luận văn tốt nghiệp

Phạm Thị Hương

SSE = Y (cid:48)Y − b(cid:48)X (cid:48)Y = 2, 180.93

và từ kết quả của (3.4) và (3.8) ta có:

SSR = SST O − SSE = 26, 196.21 − 2, 180.93 = 24, 015.28

Cuối cùng, ta lấy hiệu:

Kiểm định quan hệ hồi quy

Để kiểm định xem doanh thu bán hàng có liên quan đến mục tiêu dân số và

H0 : β1 = 0và β2 = 0

Ha : Không phải cả hai β1và β2bằng 0

thu nhập bình quân hay không:

F ∗ =

=

= 99.1

M SR M SE

12, 007.64 121.1626

ta sử dụng thống kê kiểm định (1.61b):

Với α = 0.05, ta có F (.95; 2, 18) = 3.35. Vì F ∗ = 99.1 > 3.35 nên chấp nhận Ha, điều này có nghĩa là doanh thu bán hàng có liên quan đến mục tiêu dân số và thu nhập bình quân đầu người.

Hệ số xác định bội.

R2 =

=

= .917

SSR SST O

24, 015.28 26, 196.21

Từ (1.62) ta có:

Do vậy, khi hai biến dự báo, mục tiêu dân số và doanh thu bình quân đầu người, được xem xét, sự thay đổi trong doanh thu bán hàng được giảm bớt 91.7%.

3.1.7 Ước lượng các tham số hồi quy

41

Dwaine Studio không quan tâm đến tham số β0 vì nó không liên quan đến độ dốc của mô hình mà quan tâm đến việc ước lượng β1 và β2 với cùng độ tin cậy .90. Ta dùng giới hạn tin cậy đồng thời Bonferroni (1.73).

Luận văn tốt nghiệp

Phạm Thị Hương

(cid:35)

s2{b} =

8.748 −241.43 .0448 −.679 16.514

−241.43 −.679

(cid:34) 3, 602.0 8.748 (3.8)

s2{b1} = .0448 ⇒ s{b1} = .212

s2{b2} = 16.514 ⇒ s{b2} = 4.06

Hai phương sai ước lượng là:

B = t[1 − 10/2(2); 18] = t(0.975; 18) = 2.101

Tiếp theo, ta xác định các ước lượng đồng thời với g = 2:

2.101(4, 06) mà khoảng tin cậy là:

1.01 ≤ β1 ≤ 1.90

.84 ≤ β2 ≤ 17.9

Do đó, hai cặp giới hạn tin cậy đồng thời là: 1.455 ± 2.101(.212) và 9.366 ±

Với cùng độ tin cậy .90 chấp nhận rằng β1 nằm trong khoảng 1.01 và 1.90

và β2 nằm trong khoảng .84 và 17.9.

Các khoảng tin cậy đồng thời chỉ ra cả β1 và β2 là dương, điều này là tuân theo sự kỳ vọng giả thuyết đó là doanh thu bán hàng sẽ tăng khi mục tiêu dân số cao hơn và thu nhập bình quân đầu người cao hơn, biến còn lại được coi là hằng số.

3.1.8 Ước lượng trung bình đáp ứng

Dwaine Studio muốn ước lượng dự kiến doanh thu bán hàng (trung bình) ở các thành phố với mục tiêu dân số Xh1 = 65.4 nghìn người ở độ tuổi 16 hoặc trẻ hơn và thu nhập bình quân đầu người Xh2 = 17.6 nghìn đô la với khoảng tin cậy 95%.

ˆYh = X (cid:48)

hb = 191.10

42

Ước lượng điểm của doanh thu bán hàng trung bình theo công thức (1.76):

Luận văn tốt nghiệp

Phạm Thị Hương

s2{ ˆYh} = X (cid:48)

hs2{b}Xh = 7.656

Ước lượng phương sai là:

s{ ˆYh} = 2.77

hay

Đối với hệ số tin cậy .95, ta có t(.975; 18) = 2.101 và theo công thức (1.80)

185.3 ≤ E{Y } ≤ 196.9

giới hạn tin cậy là 191.10 ± 2.101(2.77). Khoảng tin cậy cho E{Y } là:

Dạng đại số cho ước lượng phương sai s2{ ˆYh}.

s2{ ˆYh} = X (cid:48)

hs2{b}Xh

Do từ công thức (1.79):

s2{ ˆYh} = s2{b0} + X 2

h1s2{b1} + X 2

h2s2{b2} + 2Xh1s{b0, b1}

với trường hợp hai biến dự báo trong mô hình bậc nhất ta có:

+ 2Xh2s{b0, b2} + 2Xh1Xh2s{b1, b2}

(3.9)

3.1.9 Giới hạn dự báo cho các quan sát mới

Dwaine Studio muốn mở rộng dự báo doanh thu bán hàng cho hai thành

phố mới, với các đặc điểm sau:

Thành phố A Thành phố B

Xh1 Xh2

65.4 17.6 53.1 17.7

Và mong muốn các khoảng dự báo với cùng độ tin cậy 90%. Chú ý rằng hai thành phố mới có các đặc điểm nằm trong phạm vi mô hình của 21 thành phố là cơ sở của các phân tích hồi quy.

Với thành phố A, ta dùng các kết quả có được khi ước lượng trung bình

M SE = 121.1626

ˆYh = 191.10

s2{ ˆYh} = 7.656

43

doanh thu bán hàng vì các mức của các biến dự báo là như nhau. Ta có:

Luận văn tốt nghiệp

Phạm Thị Hương

s2{pred} = M SE + s2{ ˆYh} = 121.1626 + 7.656 = 128.82

Do đó, từ (1.84a):

s{pred} = 11.35

hay:

s{pred} = 11.93

ˆYh = 174.15

Tính toán tương tự với thành phố B ta có:

Theo trên, hệ số Bonferroni bội là B = 2.101. Do đó, theo công thức (1.66) giới hạn dự báo Bonferroni đồng thời với hệ số tin cậy .90 là 191.10 ± 2.101(11.35) và 174.15 ± 2.101(11.93), nên khoảng tin cậy đồng thời là:

Thành phố A: 167.3 ≤ Yh(new) ≤ 214.9 Thành phố B: 149.1 ≤ Yh(new) ≤ 199.2

3.2 Ứng dụng 2: Dự báo mức độ phục hồi sau khi

xuất viện

44

Một quản lý bệnh viện muốn phát triển một mô hình hồi quy cho việc dự báo mức độ phục hồi sau khi xuất viện từ bệnh viện cho bệnh nhân bị thương nặng. Biến dự báo là số ngày nằm viện (X), và biến đáp ứng là chỉ số tiên lượng phục hồi dài hạn (Y). Dữ liệu nghiên cứu cho 15 bệnh nhân được biểu diễn trong bảng 3.1 và biểu đồ phân tán dữ liệu được chỉ ra trong hình 3.6:

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.6: biểu đồ phân tán và hàm hồi quy phi tuyến mẫu

45

bảng 3.1: dữ liệu các bệnh nhân bị thương nặng

Luận văn tốt nghiệp

Phạm Thị Hương

Do đó, quyết định điều tra sự phù hợp của hai tham số trong mô hình hồi quy phi tuyến dạng mũ (2.6):

Yi = γ0 exp(γ1Xi) + εi

(3.10)

n (cid:88)

Q =

[Yi − γ0 exp(γ1X)]2

i=1

Do đó, tiêu chuẩn bình phương cực tiểu là:

Ta có, trung bình đáp ứng cho trường hợp thứ i là:

f (Xi, γ) = γ0 exp(γ1Xi)

(3.11)

Các phương trình chuẩn là:

exp(2g1Xi) = 0

Yi exp(g1Xi) − g0 (cid:88)

(cid:88) (cid:88)

Xi exp(2g1Xi) = 0

YiXi exp(g1Xi) − g0

(cid:88) (3.12)

Các phương trình chuẩn này không tuyến tính đối với g0 và g1, và không tồn tại nghiệm kín . Do vậy, đòi hỏi cần có các phương pháp số lặp để tìm nghiệm cho các ước lượng bình phương cực tiểu.

Các giá trị khởi đầu của các tham số γ0 và γ1 được lấy là các ước lượng của

loge γ0[exp(γ1X)] = loge γ0 + γ1X

các tham số này bằng cách biến đổi logarit hàm đáp ứng tuyến tính hóa:

Do đó, mô hình hồi quy tuyến tính với biến biến đổi Y được phù hợp như là

Y (cid:48) i = β0 + β1Xi + εi

một xấp xỉ ban đầu cho mô hình dạng mũ:

1 = b1 = −.03797.

Mô hình hồi quy tuyến tính này được phù hợp bởi bình phương cực tiểu thông thường và đưa ra các hệ số hồi quy ước lượng là b0 = 4.0371 và b1 = −.03797. Do đó, các giá trị khởi đầu là g(0) 0 = exp(b0) = exp(4.0371) = 56.6646 và g(0)

0 và g(0) f (X1, g(0)) = f (0)

1 . Ví dụ trong trường hợp này, với X1 = 2 chúng ta có: 1 = g(0) exp(g(0)

1 X1) = (56.6646 exp[−.03797(2)] = 52.5208

46

Tiêu chí đánh giá bình phương cực tiểu trong bước này yêu cầu đánh giá hàm hồi quy phi tuyến (2.7) cho mỗi trường hợp, sử dụng các giá trị tham số khởi đầu g(0)

Luận văn tốt nghiệp

Phạm Thị Hương

Bảng 3.2: Ma trận Y (0) và D(0)

1 = Y1 − f (0) Y (0)

1 = 54 − 52.5208 = 1.4792

Do Y1 = 54, trung bình đáp ứng là:

)2

)2 =

SSE(0) =

(Yi − f (0)

(Y (0) i

i

= (1.4792)2 + . . . + (1.1977)2 = 56.0869

47

(cid:88) (cid:88)

Luận văn tốt nghiệp

Phạm Thị Hương

b(0) =

(cid:21)

(cid:20) 1.8932 −.001563

g(1) = g(0) + b(0) =

(cid:21)

(cid:20) 58.5578 −.03953

0 = 58.5578 và g(1)

1 = −.03953 là các ước lượng tham số hiệu chỉnh ở

Do đó, g(1)

cuối bước lặp thứ nhất.

Bảng 3.3

ˆY = 58.6065 exp(−.03959X)

Do đó, thủ tục tìm kiếm được chất dứt sau bước lặp thứ 3 và các hệ số hồi quy ước lượng cuối cùng là g0 = 58.6065 và g1 = −.03959 và hàm hồi quy phù hợp là:

(3.13)

Các phần dư được đưa ra bằng cách sử dụng việc phù hợp hàm hồi quy phi

ei = Yi − (58.6065) exp(−.03959Xi)

48

tuyến (3.15)

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.7: biểu đồ chuẩn đoán phần dư

55.43 ≤ γ0 ≤ 61.79

Muốn có khoảng ước lượng đồng thời cho γ0 và γ1 với cùng hệ số tin cậy 90%. Với thủ tục Bonferroni ta cần tách khoảng tin cậy cho hai tham số, mỗi loại với hệ số tin cậy 95%. Chúng ta đã thu được khoảng tin cậy cho γ1 với hệ số tin cậy 95%. Tuyên bố 95% giới hạn tin cậy cho γ0, sử dụng các kết quả ở bảng 3.3b, là 58.6065 ± 2.160(1.472) và khoảng tin cậy cho γ0 là:

55.43 ≤ γ0 ≤ 61.79

Do đó, khoảng tin cây với hệ số tin cậy đồng thời là 90%:

−.0433 ≤ γ1 ≤ −.0359

(3.14)

H0 : γ0 = 54

Ha : γ0 (cid:54)= 54

Ta muốn kiểm định:

t∗ =

= 3.13

58.6065 − 54 1.472

Thống kê kiểm định (2.36b) ở đây là:

49

với α = .01 ta có t(.995; 13) = 3.012. Do |t∗| = 3.13 > 3.012 chúng ta chấp nhận giả thuyết Ha rằng γ0 (cid:54)= 54. Giá trị P xấp xỉ hai phía của kiểm định là .008.

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.8: Phân phối mẫu bootstrap

3.3 Ứng dụng 3: Đường cong học tập

50

Một công ty sản xuất sản phẩm điện tử đã tiến hành sản xuất một sản phẩm mới tại hai địa điểm (địa điểm A: mã X1 = 1 và địa điểm B: mã X1 = 0). Địa điểm B có các cơ sở hiện đại hơn và do đó được kỳ vọng là hiệu quả hơn địa điểm A, thậm chí ngay sau thời gian học tập ban đầu. Một kỹ sư công nghiệp tính toán chi phí đơn vị dự kiến cho mỗi địa điểm mà thể hiện như một phần của kỳ vọng giá. Đối ứng của phần này là một độ đo hiệu quả tương đối và độ đo hiệu quả tương đối này được dùng như là biến đáp ứng Y trong nghiên cứu.

Luận văn tốt nghiệp

Phạm Thị Hương

Bảng 3.4: dữ liệu cho ứng dụng đường cong học tập

Biết rằng hiệu quả tăng theo thời gian khi một sản phẩm mới được sản xuất ra, và những cải tiến cuối cùng thường giảm và quá trình trở nên ổn định. Do dó, ứng dụng quyết định sử dụng một mô hình hàm mũ với tiệm cận trên để diễn tả mối quan hệ giữa hiệu quả Y và thời gian X2, và để kết hợp hiệu ứng liên tục cho sự khác biệt trong hai địa điểm sản xuất. Mô hình quyết định là:

Yi = γ0 + γ1Xi1 + γ3 exp(γ2Xi1) + εi

(3.15)

Các dữ liệu hàng tuần về hiệu quả sản xuất liên quan đến mỗi địa điểm là

có sẵn.

51

Mô hình hồi quy (3.17) là phi tuyến với các tham số γ2 và γ3. Do đó, một thủ tục ước lượng tìm kiếm số được thực hiện, với các giá trị khởi đầu cho các

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.9: biểu đồ phân tán của đường cong học tập

1.012 = 1.025 − (.5) exp(30γ2)

γ2 là nghiệm của phương trình nên giá trị khởi đầu g(0)

2 = −.122.

tham số là cần thiết. Các nghiên cứu trước đây chỉ ra rằng γ3 khá gần với -.5 nên g(0) 3 = −.5 được sử dụng làm giá trị khởi đầu. Do sự khác biệt hiệu suất tương đối giữa địa điểm A và B cho mỗi tuần có trung bình là -.0459 trong suốt 90 tuần, do đó giá trị khởi đầu g(0) 1 = −.0459. Hiệu suất tương đối lớn nhất theo quan sát cho địa điểm B là 1.028, vì vậy giá trị khởi đầu g(0) 0 = 1.025 là hợp lý. Phần còn lại là chọn giá trị khởi đầu cho γ2.Do Y24 = 1.012, tương ứng X24,1 = 0, X24,2 = 30 và các giá trị khởi đầu cho các hệ số hồi quy khác (bỏ qua sai số):

2 = −.122, và g(0)

1 = −.0459, g(0)

0 = 1.025, g(0)

3 = −.5, một gói tính toán của chương trình tìm kiếm số trực tiếp được thực hiện để có được ước lượng bình phương cực tiểu. Các hệ số hồi quy bình phương cực tiểu

52

Với bốn giá trị khởi đầu g(0)

Luận văn tốt nghiệp

Phạm Thị Hương

ổn định sau năm bước lặp. Vậy mô hình hồi quy phù hợp là:

ˆY = 1.0156 − .4727X1 − (.5524) exp(−.1348X2)

bảng 3.5: Ước lượng bình phương cực tiểu phi tuyến và độ lệch chuẩn

Hình 3.10: biểu đồ Histogram của phân phối mẫu bootstrap

(3.16)

−.0557 ≤ γ1 ≤ −.0388

Đặc biệt quan tâm đến tham số γ1, tham số phản ánh hiệu quả của địa điểm.Xây dựng khoảng tin cậy 95% cho tham số này. Ta có t(.975; 26) = 2.056 và s{g1} = .004109. Khi đó:

3.4 Ứng dụng 4: Bệnh thiếu máu cơ tim

53

Dữ liệu được sưu tập trong một dự án bảo vệ sức khỏe và đưa ra thông tin liên quan đến 788 người phát sinh từ bệnh tim mạch vành. Biến đáp ứng Y là tổng giá của dịch vụ được cung cấp và biến dự báo được nghiên cứu ở đây là:

Luận văn tốt nghiệp

Phạm Thị Hương

số lượng các can thiệp hay các thủ tục thực hiện

X4 Số lượng các biến chứng - các điều kiện khác phát sinh trong

biến dự báo Mô tả X1 X2 Số lượng các thuốc theo dõi được sử dụng X3 Số lượng các bệnh đi kèm - các điều kiện khác hiện có làm phức tạp các điều trị

quá trình điều trị bệnh tim.

Hình 3.11: JMP control panel cho phù hợp mô hình mạng Nơ ron

400 quan sát đầu tiên được sử dụng để phù hợp mô hình (2.38) và n∗ = 388 quan sát được xác nhận. Sử dụng JMP để phù hợp và đánh giá mô hình mạng Nơ ron.

Ở đây, ta chọn 5 nút ẩn và dùng λ = .05 như là trọng số penalty. Cũng như vậy, chọn các giá trị mặc định cho số lượng tour (20), số lượng cực đại của các bước lặp cho thủ tục tìm kiếm (50) và tiêu chuẩn hội tụ (.00001). Bằng cách kiểm tra hộp đăng nhập tour, ta sẽ duy trì được một mảng các kết quả của mỗi tour trong 20 tour. Một đại diện JMP của mô hình (2.38) được chỉ ra trong hình 3.12. Chú ý rằng, đại diện này không bao gồm nút X0 và H0. Ta có m = 6 nút ẩn và p = 5 nút biến dự báo, và cần ước lượng m + p(m − 1) = 6 + 5(6 − 1) = 31 tham số.

54

Sau 20 phép thử các kết quả phù hợp tốt nhất được chỉ ra trong hình 3.13.

Luận văn tốt nghiệp

Phạm Thị Hương

Hình 3.12: sơ đồ mạng Nơ ron JMP

Hình 3.13: kết quả JMP cho sự phù hợp mạng Nơ ron

55

Tài liệu tham khảo

[1] Phạm Hữu Đức Dục (2009),Mạng Nơ ron và ứng dụng trong điều khiển tự

động, Nhà xuất bản khoa học kỹ thuật.

[2] Đào Hữu Hồ - Nguyễn Văn Hữu - Hoàng Hữu Như, Thống kê toán học, Nhà

xuất bản Đại Học Quốc Gia.

[3] Đặng Hùng Thắng (2005),Thống kê và Ứng dụng, Nhà xuất bản Giáo dục.

[4] John Neter - William Wasserman - Michael H.Kutner (1983), Applied linear

regression models, Richard D.Irwin,INC.

56

[5] Kutner- Nachtsheim - Neter (2004), Applied linear regression models.