Luận văn Thạc sĩ Khoa học: Phân tích thống kê hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương

Chia sẻ: Na Na | Ngày: | Loại File: PDF | Số trang:65

Thêm vào BST

Báo xấu

87
lượt xem 11
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn trình bày về phương pháp phân tích hồi qui logistic, mô tả những số liệu về thông tin của các bệnh nhân điều trị vô sinh tại Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009 đến tháng 12/2009 và giới thiệu về phần mềm SPSS; áp dụng phương pháp phân tích hồi qui logistic để phân tích các yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm tại Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009 đến tháng 12/2009; bàn luận về các kết quả thu được trong chương III, từ đó tìm ra các yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm, làm cơ sở để nâng cao hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương nói riêng cũng như các bệnh viện điều trị vô sinh trên cả nước nói chung.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học: Phân tích thống kê hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ------------------ NGUYỄN THỊ THUẦN PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐIỀU TRỊ VÔ SINH TẠI BỆNH VIÊN PHỤ SẢN TRUNG ƯƠNG LUẬN VĂN THẠC SỸ TOÁN HỌC Chuyên ngành: LÍ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN Mã số: 60460106 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. HỒ ĐĂNG PHÚC HÀ NỘI - 2014
Mục lục Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Chương 1. Phương pháp hồi qui logistic . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1 Hàm logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Mô hình hồi qui logistic nhị phân . . . . . . . . . . . . . . . . . . . . . 8 1.2.1 Ước lượng các tham số trong mô hình . . . . . . . . . . . . . . . 9 1.2.2 Ước lượng sai số chuẩn của các hệ số hồi qui . . . . . . . . . . . 13 1.2.3 Kiểm tra sự phù hợp của mô hình . . . . . . . . . . . . . . . . . 14 1.2.4 Ý nghĩa các hệ số trong mô hình hồi qui logistic nhị phân . . . 16 1.2.5 Kiểm tra ảnh hưởng tương tác của các biến độc lập lên biến phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.3 Mô hình hồi qui logistic bội . . . . . . . . . . . . . . . . . . . . . . . . 24 1.3.1 Định nghĩa mô hình hồi qui logistic bội . . . . . . . . . . . . . . 24 1.3.2 Ước lượng các tham số trong mô hình hồi qui logistic bội . . . 26 Chương 2. Mô tả số liệu và phần mềm sử dụng trong phân tích . . . . . . . . . . . 29 2.1 Nguồn gốc số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2 Mô tả số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 Các biến độc lập . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.2 Các biến phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3 Phần mềm phân tích SPSS . . . . . . . . . . . . . . . . . . . . . . . . . 43 Chương 3. Phân tích kết quả điều trị vô sinh tại bệnh viện phụ sản trung ương . 45 1
3.1 Ảnh hưởng của các biến độc lập lên biến "hình thành noãn" . . . . . . 45 3.2 Ảnh hưởng của các biến độc lập lên biến "nhóm số noãn" . . . . . . . . 47 3.3 Ảnh hưởng của các biến độc lập lên biến "hình thành thai" . . . . . . . 51 3.4 Ảnh hưởng của các biến độc lập lên biến "sảy1" . . . . . . . . . . . . . 54 3.5 Ảnh hưởng của các biến độc lập lên biến "lưu" . . . . . . . . . . . . . . 56 3.6 Ảnh hưởng của các biến độc lập lên biến "sinh1" . . . . . . . . . . . . 58 Chương 4. Bàn luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.1 Bàn luận về yếu tố ảnh hưởng đến kết quả hình thành noãn . . . . . . 61 4.2 Bàn luận về yếu tố ảnh hưởng đến kết quả có thai . . . . . . . . . . . . 61 4.3 Bàn luận về yếu tố ảnh hưởng đến kết quả sảy thai sau thu tinh trong ống nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4 Bàn luận về yếu tố ảnh hưởng đến kết quả sinh con sau thu tinh trong ống nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.5 Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2
Lời cảm ơn Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. HỒ ĐĂNG PHÚC, người thầy đã tận tình hướng dẫn để tôi có thể hoàn thành luận văn này. Đồng thời tôi cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Toán - Cơ - Tin học, Đại học Khoa học Tự Nhiên, Đại học Quốc gia Hà Nội, và các thầy cô giảng dạy cao học ngành Toán học đã dạy bảo tôi tận tình trong suốt quá trình học tập tại Trường. Tôi cũng xin được gửi lời cảm ơn chân thành tới các bạn lớp cao học khóa 2012 - 2014 cùng những người thân trong gia đình tôi, những người đã luôn bên cạnh cổ vũ, động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn thành luận văn. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Ban giám đốc, tập thể các y bác sĩ của Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương đã nhiệt tình cung cấp những dữ liệu chính xác quý báu giúp tôi thực hiện luận văn này. Tuy đã có nhiều cố gắng trong quá trình thực hiện, song chắc chắn luận văn của tôi không thể tránh khỏi những thiếu sót. Tôi rất mong nhận được những ý kiến đóng góp quý báu của các thầy cô, các nhà nghiên cứu Xác suất Thống kê, các độc giả quan tâm để luận văn của tôi được hoàn thiện hơn. Tôi xin chân thành cảm ơn! Tác giả NGUYỄN THỊ THUẦN 3
Lời nói đầu Vô sinh là vấn đề lớn về mặt xã hội, là một bệnh lý phức tạp, do nhiều nguyên nhân. Theo báo cáo của Tổ chức Y tế Thế giới, có khoảng 8-12 % các cặp vợ chồng bị vô sinh, còn theo thống kê của Bộ Y tế Việt Nam có khoảng 12-13 % các cặp vợ chồng bị vô sinh. Trong đó, vô sinh nữ chiếm khoảng 40 %, vô sinh nam chiếm 23 %, do cả hai vợ chồng chiếm 17 % và có khoảng 10 % là không rõ nguyên nhân. Thụ tinh trong ống nghiệm (TTTON) là một phương pháp điều trị vô sinh tích cực được phát triển nhanh chóng trong những năm gần đây. Từ sau sự ra đời của Louis Brown - đứa trẻ TTTON đầu tiên - kĩ thuật này phát triển nhanh chóng ở nhiều nước và không ngừng được hoàn thiện. Đơn vị đầu tiên ở Việt Nam áp dụng thành công kĩ thuật TTTON là Bệnh viện Phụ Sản Từ Dũ (Thành phố Hồ Chí Minh) vào năm 1998. Tháng 10 năm 2000 Bệnh viện Phụ Sản Trung ương chính thức áp dụng kĩ thuật TTTON và đến 26/6/2001 cháu bé đầu tiên ra đời. Hiện nay ở nước ta có 10 cơ sở thực hiện kĩ thuật này và có khoảng 7.000 em bé TTTON ra đời. Phương pháp TTTON đã mạng lại hi vọng cho nhiều cặp vợ chồng không có khả năng sinh con tự nhiên. Vì vậy nghiên cứu dự đoán những yếu tố ảnh hưởng đến kết quả TTTON để từ đó làm tăng hiệu quả điều trị vô sinh là việc làm cần thiết. Sử dụng phương pháp thống kê để phân tích làm rõ những yếu tố ảnh hưởng đến kết quả TTTON từ đó làm tăng hiệu quả điều trị vô sinh là mục tiêu của luận văn: Phân tích thống kê hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương. Nội dung luận văn gồm có bốn chương: Chương I trình bày về phương pháp phân tích hồi qui logistic, cơ sở lý thuyết của luận văn này. Chương II dành để mô tả những số liệu về thông tin của các bệnh nhân điều trị vô 4
MỤC LỤC sinh tại Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009 đến tháng 12/2009 và giới thiệu về phần mềm SPSS - phần mềm phân tích được sử dụng chủ yếu trong luận văn này. Chương III là phần áp dụng phương pháp phân tích hồi qui logistic để phân tích các yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm tại Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009 đến tháng 12/2009. Chương IV bàn luận về các kết quả thu được trong chương III. Từ đó tìm ra các yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm, làm cơ sở để nâng cao hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương nói riêng cũng như các bệnh viện điều trị vô sinh trên cả nước nói chung. 5 NGUYỄN THỊ THUẦN
Chương 1 Phương pháp hồi qui logistic Phương pháp phân tích hồi qui là một phương pháp phân tích thống kê nghiên cứu mối quan hệ phụ thuộc giữa biến phụ thuộc (hay còn gọi là biến đáp ứng, biến được giải thích) với tập hợp các biến độc lập (các biến dùng để dự báo, biến giải thích). Ngoài ra nó còn được sử dụng để đánh giá hiệu quả tác động của biến độc lập lên biến phụ thuộc. Có nhiều loại mô hình hồi qui như: • Mô hình hồi qui tuyến tính; • Mô hình hồi qui logistic; • Mô hình hồi qui Poisson; v.v Trong khuôn khổ luận văn này chúng ta nghiên cứu về mô hình hồi qui logistic. Mô hình hồi qui logistic được sử dụng khi biến phụ thuộc Y nhận các giá trị có tính chất phân loại. Ví dụ: sống hay chết, bị bệnh hay không bị bệnh, thành công hay thất bại,... Biến độc lập X có thể là biến định tính hoặc biến định lượng. Phân loại mô hình hồi qui logistic: Có 2 loại mô hình hồi qui logistic là mô hình hồi qui logistic nhị phân và mô hình hồi qui logistic bội. a. Mô hình hồi qui logistic nhị phân: Được sử dụng khi biến phụ thuộc chỉ nhận hai giá trị phân loại. Để thuận tiện hai giá trị phân loại này thường được mã hóa thành hai số 0 và 1. Thông thường những trường hợp thành công được mã hóa bằng số 1 và những trường hợp thất bại được mã hóa bằng số 0. Ví dụ 1.0.1. Trong điều trị vô sinh, biến phụ thuộc Y biểu thị tình trạng bệnh nhân có thai sau thụ tinh trong ống nghiệm hay không. Ta mã hóa Y bởi các giá trị 6
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC y = 1 nếu sau điều trị bệnh nhân có thai; y = 0 nếu sau điều trị bệnh nhân không có thai. b. Mô hình hồi qui logistic bội: Được sử dụng khi biến phụ thuộc nhận từ 3 giá trị phân loại trở lên. Ví dụ 1.0.2. Trong điều trị vô sinh biến phụ thuộc Y biểu thị số lượng noãn chọc hút được sau điều trị . Mã hóa Y bởi các giá trị: y = 1 nếu chọc hút được từ 1 đến 5 noãn y = 3 nếu chọc hút được từ 6 đến 10 noãn y = 2 nếu chọc hút được từ 11 noãn trở lên Có nhiều mô hình toán học khác cũng có thể được sử dụng để dự đoán biến phân loại Y nhưng đến nay mô hình hồi qui logistic là mô hình phổ biến nhất. Vì sao vậy? Để giải thích về sự phổ biến của mô hình này chúng ta bắt đầu từ hàm logit. 1.1 Hàm logit a. Hàm logit là hàm số có dạng: ez 1 F (z) = = 1+e z 1 + e−z với z ∈ R Nhận xét: Khi z → +∞ thì F (z) → 1. Khi z → −∞ thì F (z) → 0 . Từ đó ta thấy với mọi giá trị của đối số z thì hàm logit F (z) luôn nhận giá trị từ 0 đến 1. Do đó mô hình logistic luôn đảm bảo ước lượng xác suất nhận được là một số chỉ nhận giá trị giữa 0 và 1. Vì vậy khi sử dụng mô hình logistic ta không bao giờ nhận được ước lượng nguy cơ lớn hơn 1 hoặc nhỏ hơn 0. Điều này không phải luôn đúng với các mô hình khác. Điều đó giải thích tại sao mô hình logistic là lựa chọn hàng đầu để ước lượng xác suất. b. Về đồ thị của hàm logit: Nhìn vào đồ thị của hàm logit F (z) ta thấy, tại z = −∞ hàm F (z) nhận giá trị bằng 0. Khi z bắt đầu tăng dần giá trị của hàm F (z) tăng dần nhưng vẫn gần điểm 0 trong một khoảng tương đối dài. Sau đó F (z) tăng đáng kể hướng tới 1. Cuối cùng dừng lại ở 1 khi z → +∞. Kết quả là ta có một bức tranh hình chữ S. 7 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC Hình 1.1: Đồ thị của hàm logit Trong hàm logit, đối số z nhận giá trị tùy ý trên R. Điều đó gợi ý cho các nhà nghiên cứu xem xét z là tổ hợp tuyến tính của các biến độc lập. Khi đó F (z) tượng trưng cho ảnh hưởng của tổ hợp tuyến tính của các biến độc lập lên xác suất xuất hiện một giá trị của biến phụ thuộc. Đồng thời giá trị của hàm logit chỉ giới hạn trong đoạn [0; 1] ứng với miền giá trị của xác suất. 1.2 Mô hình hồi qui logistic nhị phân Giả sử X1 , X2 , X3 , X4 , ..., Xk là k biến độc lập dùng để dự báo. Kí hiệu vecto X = (X1 , X2 , X3 , X4 , ...Xk )T . Các biến Xi có thể là biến định tính hoặc biến định lượng. Biến phụ thuộc cần dự báo Y là biến nhị phân chỉ nhận một trong hai giá trị được mã hóa thành hai số 0 hoặc 1. Định nghĩa 1.2.1. Một mô hình gọi là mô hình logistic nhị phân nếu biểu thức xác suất có dạng : 1 P (Y = 1 | X1 , ..., Xk ) = k P −(α+ βi Xi ) 1+e i=1 trong đó các tham số α, βi là các tham số chưa biết. Chúng ta không thể tính toán được một cách chính xác các tham số α, βi mà chỉ có thể dựa vào dữ liệu thu được từ Xs và Y để ước lượng các tham số đó mà thôi. Ước lượng của các tham số được kí hiệu là α b, βbi . 8 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC 1.2.1 Ước lượng các tham số trong mô hình Có nhiều phương pháp để ước lượng tham số trong mô hình hồi qui logistic, ở đây chúng ta trình bày phương pháp ước lượng hợp lý cực đại - phương pháp ước lượng sao cho hàm hợp lý đạt giá trị lớn nhất. Giả sử có n quan sát độc lập {(yi , xi )}i∈{1,2,...,n} ∈ ({0, 1} × Rk+1 )n với yi là giá trị của biến phụ thuộc Y và xi = (xi1 , xi2 , .., xik )T là giá trị của các biến độc lập tại quan sát thứ i. Hàm hợp lý là hàm của các tham số chưa biết trong mô hình kí hiệu là L(θ) với θ = (α, β1, , β2 , β3 , ..., βk )T và được xác định bởi công thức: L(θ) =P (Y1 = y1 , Y2 = y2 , ..., Yn = yn ) Hàm hợp lý L(θ) đạt giá trị cực đại khi và chỉ khi lnL(θ) đạt giá trị cực đại. Các ước lượng hợp lý cực đại của các tham số α, βj được tìm bằng cách giải hệ phương trình đạo hàm riêng  ∂lnL(θ)  ∂α =0 ∂lnL(θ)  ∂βj =0 với j = 1, k Theo định nghĩa 1.2.1 , tại quan sát thứ i xác suất có điều kiện để biến phụ thuộc Y nhận giá trị bằng 1, theo các giá trị của biến độc lập Xj là 1 P (Yi = 1 | X1 = xi1 , ..., Xk = xik ) = k P −(α+ βj xij ) 1+e j=1 k P α+ βj xij e j=1 = k P α+ βj xij 1+e j=1 Như vậy xác suất có điều kiện để tại quan sát thứ i biến phụ thuộc Y nhận giá trị bằng 0 theo các giá trị của biến độc lập Xj là 9 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC P (Yi = 0 | X1 = xi1 , ..., Xk = xik ) =1 − P (Yi = 1 | X1 = xi1 , ..., Xk = xik ) 1 =1 − k P −(α+ βj xij ) 1+e j=1 k P −(α+ βj xij ) e j=1 = k P −(α+ βj xij ) 1+e j=1 Để thuận tiện ta kí hiệu P (Yi = 1 | X1 = xi1 , ..., Xk = xik ) = πi . Khi đó P (Yi = 0 | X1 = xi1 , ..., Xk = xik ) = 1 − πi . Xác suất để biến phụ thuộc Y nhận giá trị bằng y tại quan sát thứ i là P (Yi = yi | X1 = xi1 , ..., Xk = xik ) =π(xi )yi [1 − π(xi )]1−yi Các bước để ước lượng tham số trong mô hình hồi qui logistic bằng phương pháp ước lượng hợp lí cực đại là: Bước 1 : Lập hàm hợp lý L(θ) và sử dụng giả thiết về tính độc lập của các quan sát ta có L(θ) =P (Y1 = y1 , Y2 = y2 , ..., Yn = yn ) =P (Y1 = y1 )P (Y2 = y2 )...P (Yn = yn ) n Y = (πi )yi [1 − πi ]1−yi i=1 n Y (πi )yi (1 − πi ) = i=1 (1 − πi )yi n Y π i yi = ( ) (1 − πi ) (1.2.1) i=1 1 − πi Vì P (Yi = 1 | X1 = xi1 , ..., Xk = xik ) = πi nên k P α+ βj xij e j=1 πi = k P −(α+ βj xij ) 1+e j=1 và 1 1 − πi = k P α+ βj xij 1+e j=1 10 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC Do đó k P πi α+ βj xij = e j=1 (1.2.2) 1 − πi Thay (1.2.2) vào (1.2.1) ta được : k k n P P Y yi (α+ βj xij ) α+ βj xij L(θ) = e j=1 (1 + e j=1 )−1 (1.2.3) i=1 Bước 2 : Lấy ln 2 vế của phương trình 1.2.3 ta được: k n k P X X α+ βj xij lnL(θ) = [yi (α + βj xij ) − ln(1 + e j=1 )] i=1 j=1 Bước 3 : Lấy đạo hàm riêng của hàm lnL(θ) theo các biến α, βj ta được: ∂lnL(θ) =y1 − π1 + y2 − π2 + ... + yk − πk ∂α Xn = [yi − πi ] i=1 ∂lnL(θ) =x1j (y1 − π1 ) + x2j (y2 − π2 ) + ... + xkj (yk − πk ) ∂βj n X = xij [yi − πi ] i=1 với j = 1, k Bước 4 : Giải hệ phương trinh đạo hàm riêng :   Pn [y − π ] = 0 i=1 i i (1.2.4)  n x [y − π ] = 0 P i=1 ij i i với j = 1, k Nghiệm của hệ phương trình 1.2.4 chính là ước lượng hợp lý cực đại của các tham số α, βj Chứng minh Lấy đạo hàm riêng cấp 2 của hàm lnL(θ) theo các biến α, βj ta được: n ∂ 2 lnL(θ) X = − πi (1 − πi ) ∂ 2α i=1 n ∂ 2 lnL(θ) X =− πi (1 − πi )xij ∂α∂βj i=1 n ∂ 2 lnL(θ) X =− xij xim πi (1 − πi ) ∂βj ∂βm i=1 11 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC với j, m = 1, k Đặt y = (y1 , y2 , ..., yn )T , π = (π1 , π2 , ..., πn )T là các ma trận cấp n × 1, X là ma trận thiết kế cấp n × (k + 1) được xác định bởi công thức:   1 x11 x12 . . . x1k      1 x21 x22 . . . x2k  X=     ... ... ... ... ...    1 xn1 xn2 . . . xnk V = (vij ) là ma trận đường chéo cấp n × n mà các phần tử trên đường chéo được xác định bởi vii = πi (1 − πi ) với i = 1, n   π1 (1 − π1 ) 0 0 ... 0   π2 (1 − π2 )    0 0 ... 0  V =     ... ... ... ... ...    0 0 0 . . . πn (1 − πn ) Khi đó đạo hàm cấp 1, đạo hàm cấp 2 của hàm lnL(θ) theo các biến α, βj được viết dưới dạng ma trận như sau: l0 (θ) = X T (y − π) l00 (θ) = −X T V X Để chứng minh nghiệm của hệ phương trình đạo hàm riêng là ước lượng hợp lý cực đại của các tham số α, βj ta chứng minh rằng đạo hàm cấp 2 của hàm lnL(θ) không dương với mọi θ ∈ Rk+1 . Thật vậy giả sử u là một phần tử bất kỳ thuôc Rk+1 . Biểu diễn uT l00 (θ)u dưới dạng ma trận ta được Pn uT l00 (θ)u = −uT X T V Xu = − T 2 i=1 (xi u) V Mà các phần tử nằm trên đường chéo chính của ma trận V là các số dương nên uT l00 (θ)u ≤ 0 với mọi u ∈ Rk+1 . Do vậy hàm lnL(θ) là một hàm lõm nên điểm cực trị là điểm cực đại. Ví dụ 1.2.1. Ước lượng các tham số trong mô hình hồi qui logistic nhị phân với biến phụ thuộc là biến "hình thành thai" và 2 biến độc lập: "niêm mạc tử cung", "thời gian 12 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC vô sinh". Trong đó "niêm mạc tử cung" là biến nhị phân nhận một trong hai giá trị được mã hóa bởi 0 và 1, "thời gian vô sinh" là biến liên tục. Bảng 1.1: ước lượng hệ số βb p-value Tỷ số chênh OR nmtc .682 .008 1.978 thoigianvs -.042 .011 .959 Constant -1.299 .000 .273 Từ bảng 1.1 ta thấy ước lượng hệ số của biến "niêm mạc tử cung" là 0.682, và của biến "thời gian vô sinh" là - 0.042. 1.2.2 Ước lượng sai số chuẩn của các hệ số hồi qui Ma trân hiệp phương sai S của các hệ số được xác định bởi công thức S = (X T V X)−1 trong đó ma trận X, V được xác định như trong mục 1.2.1. Khi đó ước lượng ma trân hiệp phương sai Sb tương ứng được xác định bởi công thức: Sb = (X T Vb X)−1 với Vb xác định như sau:   πb1 (1 − πb1 ) 0 0 ... 0   πb2 (1 − πb2 )    0 0 ... 0  V = b     ... ... ... ... ...    0 0 0 cn (1 − π ... π cn ) Cách tính ước lượng sai số chuẩn: Ước lượng sai số chuẩn của các ước lượng hệ số là căn bậc hai của các phần tử nằm trên đường chéo chính của ước lượng ma trận hiệp phương sai. 13 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC 1.2.3 Kiểm tra sự phù hợp của mô hình Kiểm tra sự phù hợp của mô hình hồi qui logistic nhị phân chính là kiểm tra giả thuyết H : β1 = β2 = ... = βk = 0 Với đối thuyết K : ∃j : βj 6= 0 Có hai phương pháp để kiểm tra sự phù hợp của mô hình hồi qui logistic nhị phân. Đó là phương pháp kiểm tra tỷ số hợp lý và phương pháp dùng tiêu chuẩn Wald. A. Phương pháp kiểm tra tỷ số hợp lý Ta kí hiệu LH là giá trị cực đại của hàm hợp lý trong mô hình không có biến độc lập, với giá trị ước lượng tương ứng là Lc H . Tương tự LK là giá trị cực đại của hàm hợp lý trong mô hình có k biến độc lập, với giá trị ước lượng tương ứng là Lc K. Tỷ số Lc H /LK được gọi là tỷ số hợp lý của mô hình hồi qui logistic. Khi đó đại c lượng thống kê Lc H LR = − 2ln( ) Lc K được dùng làm tiêu chuẩn để kiểm tra sự phù hợp của mô hình hồi qui logistic với bộ số liệu đã thu thập được. Định lý 1.2.1 (Định lý Hosmer - Lemeshow). Nếu giả thuyết H đúng thì đại lượng thống kê LR có phân phối xấp xỉ phân phối Khi bình phương với k bậc tự do. Định lý trên đã được chứng minh bằng phương pháp mô phỏng. Các bước để kiểm tra giả thuyết: Bước 1 : Tính đại lượng thống kê LR. Đặt giá trị này là c. Bước 2 : Gọi Z là biến ngẫu nhiên có phân phối Khi bình phương với k bậc tự do. Ta đặt α = P (Z > c) Bước 3: So sánh α với mức ý nghĩa α0 cho trước; - Nếu α ≤ α0 ta bác bỏ giả thuyết H (với mức ý nghĩa α0 .100%) 14 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC - Nếu α > α0 ta chấp nhận giả thuyết H ( với độ tin cậy (1 − α0 ).100%) B. Kiểm định theo tiêu chuẩn Wald Tiêu chuẩn thống kê Wald kí hiệu là W, được xác định bởi công thức: T (X T V X)θ W = θc b trong đó θb = (b α, βc b T 1, , β2 , β3 , ..., βk ) là ước lượng hợp lý cực đại của vecto hệ số, X là b b ma trận thiết kế, V là ma trận đường chéo được xác định như trong mục 1.2.2 Định lý 1.2.2. Nếu giả thuyết H là đúng thì đại lượng thống kê W có phân phối xấp xỉ phân phối Khi bình phương với k bậc tự do. Từ đó ta có các bước kiểm tra giả thuyết theo tiêu chuẩn Wald là Bước 1 : Tính tiêu chuẩn thống kê W Bước 2 : Gọi Z là biến ngẫu nhiên có phân phối Khi bình phương với k bậc tự do. Ta đặt α = P (Z > W ) (1.2.5) Bước 3 : So sánh α với mức ý nghĩa α0 cho trước: - Nếu α ≤ α0 ta bác bỏ giả thuyết H (với độ tin cậy α0 .100%). - Nếu α > α0 ta chấp nhận giả thuyết H (với độ tin cậy (1 − α0 ).100%) Chú ý : Trong trường hợp mô hình chỉ có một biến độc lập thì tiểu chuẩn thống kê Wald có thể tính theo công thức đơn giản sau : βb1 W = SE(βc 1) với βb1 là ước lượng của tham số β1 theo phương pháp ước lượng hợp lý cực đại, SE(βc 1) là sai số chuẩn của ước lượng βb1 . Khi đó định lý 1.2.2 có thể phát biểu lại như sau: Nếu giả thuyết H đúng thì đại lượng thống kê W có phân phối xấp xỉ phân phối chuẩn N(0,1). Các bước kiểm tra tiêu chuẩn Wald trong trường hợp mô hình chỉ có một biến độc lập hoàn toàn tương tự như trường hợp tổng quát. Tuy nhiên trong Bước 2 ta dùng Z là biến ngẫu nhiên có phân phối chuẩn N(0,1). Nhận xét: Khi mô hình chỉ có một biến độc lập thì kiểm tra theo tiêu chuẩn Wald đơn giản hơn theo tiêu chuẩn tỷ số hợp lý. Vì vậy mà tiêu chuẩn Wald được ưu tiên 15 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC sử dụng trong kiểm tra mô hình chỉ có một biến độc lập cũng như trong kiểm tra giả thuyết bằng không của từng hệ số hồi qui. 1.2.4 Ý nghĩa các hệ số trong mô hình hồi qui logistic nhị phân a. Mô hình có biến độc lập nhị phân: Xét mô hình hồi qui logistic nhị phân với một biến độc lập X: 1 P (Y = 1 | X) = 1 + e−(α+βX) trong đó X là biến nhị phân chỉ nhận một trong hai giá trị được mã hóa bởi hai số 0 và 1, giá trị mã hóa bởi 0 gọi là nhóm chứng và giá trị mã hóa bởi 1 gọi là nhóm thử. Độ chênh (odds) giữa hai giá trị của biến phụ thuộc Y tại một giá trị của biến độc lập X là tỷ số P (Y = 1 | X = x) (1.2.6) P (Y = 0 | X = x) Gọi odds1 là độ chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X nhận giá trị bằng 1; odds0 là độ chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X nhận giá trị bằng 0. Từ công thức 1.2.6 ta có P (Y = 1 | X = 1) odds1 = P (Y = 0 | X = 1) 1 1+e−(α+β ) = 1 1+eα+β α+β 1+e = 1 + e−(α+β) =eα+β (1.2.7) 16 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC P (Y = 1 | X = 0) odds0 = P (Y = 0 | X = 0) 1 −α = 1+e1 1+eα 1 + eα = 1 + e−α =eα (1.2.8) Tỷ số chênh (odds ratio) kí hiệu là OR là tỷ số giữa hai độ chênh odds1 OR = (1.2.9) odds0 Thay 1.2.7 và 1.2.8 vào 1.2.9 ta suy ra: eα+β OR = = eβ (1.2.10) eα Ý nghĩa của hệ số β: So sánh sự khác biệt về mức độ ảnh hưởng giữa nhóm thử và nhóm chứng tác động lên xác suất biến phụ thuộc nhận giá trị bằng 1. Ý nghĩa của tỷ số chênh OR: Theo công thức 1.2.10 thì OR = eβ . Do đó tỷ số chênh OR chính là exp của hệ số β. Như vậy ta có - Nếu β = 0 ⇔ eβ = 1 thì ta kết luận không có sự khác biệt giữa nhóm thử và nhóm chứng tác động lên xác suất biến phụ thuộc nhận giá trị bằng 1; - Nếu β > 0 ⇔ eβ > 1 thì ta kết luận nhóm thử làm tăng xác suất biến phụ thuộc nhận giá trị bằng 1 so nhóm chứng; - Nếu β < 0 ⇔ eβ < 1 thì ta kết luận nhóm thử làm giảm xác suất biến phụ thuộc nhận giá trị bằng 1 so nhóm chứng. Ước lượng khoảng tin cậy của hệ số β với độ tin cậy 100(1 − α)% là: (βb − Z1− α2 SE( c β); b βb + Z1− α SE( 2 c β)) b trong đó Z1− α2 là phân vị của phân bố chuẩn tắc. Với mức ý nghĩa α cho trước khi tra bảng có thể tìm được giá trị của Z1− α2 . Ước lượng khoảng tin cậy của tỷ số chênh với đội tin cậy 100(1 − α)% là: β−Z b 1− α SE(β) d b β+Z b 1− α SE(β) d b (e 2 ;e 2 ) 17 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC Ví dụ 1.2.2. Xét mô hình hồi qui logistic nhị phân với biến phụ thuộc là biến "hình thành thai" và biến độc lập là biến "fshn3". Trong đó biến "fshn3" là biến nhị phân được mã hóa như sau: 0: Nếu nồng độ FSH ngày thứ 3 của vòng kinh > 10 IU/L. 1: Nếu nồng độ FSH ngày thứ 3 của vòng kinh ≤ 10 IU/L. Bảng 1.2: Ảnh hưởng của biến độc lập fshn3 lên biến phụ thuộc hình thành thai B S.E Wald Sig Exp(B) fshn3 .882 .279 9.967 .002 2.416 Constant -1.727 .271 40.528 .000 .178 Từ bảng 1.2 ta thấy ước lượng hệ số cho biến "fshn3" là 0.882 > 0 cho biết bệnh nhân có nồng độ fsh ngày 3 bình thường (≤ 10 IU/L) làm tăng khả năng có thai so với nhóm bệnh nhân có nồng độ fsh ngày 3 cao (> 10 IU/L). Tỷ số chênh OR là e−0.194 = 2.416 cho biết bệnh nhân có nồng độ fsh3 bình thường có khả năng có thai cao gấp 2.4 lần so với bệnh nhân có nồng độ fsh3 không bình thường. Ước lượng khoảng tin cậy cho β với độ tin cậy 95 % là: (0.334; 1.429). Ước lượng khoảng tin cậy cho tỷ số chênh OR với độ tin cậy 95 % là: (1.397 ; 4.178). b. Mô hình có biến độc lập nhận nhiều giá trị: Xét mô hình hồi qui logistic nhị phân với một biến độc lập X nhân k giá trị phân loại (với k > 2). 1 P (Y = 1 | X) = (1.2.11) 1+ e−(α+βX) Đối với mô hình này chúng ta phải chọn một trong số các giá trị phận loại của biến độc lập làm giá trị đối chứng (thông thường các phần mềm tự động chọn giá trị đối chứng là giá trị phân loại thứ k). Sau đó lập k − 1 biến nhị phân giả X1 , X2 , .., Xk−1 để phân biệt giữa các giá trị phân loại khác nhau của biến độc lập. Khi đó phương trình 1.2.11 tương đương với : 1 P (Y = 1 | X1 , X2 , .., Xk−1 ) = 1 + e−(α+β1 X1 +β2 X2 +...+βk−1 Xk−1 ) trong đó mã hóa X1 , X2 , ..., Xk−1 như sau: 18 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC  1 Nếu biến độc lập X nhân giá trị phân loại thứ nhất  X1 = 0 Trong các trường hợp còn lại .   1 Nếu biến độc lập X nhân giá trị phân loại thứ hai  X2 = 0 Trong các trường hợp còn lại .  ...  1 Nếu biến độc lập X nhân giá trị phân loại thứ k-1  Xk−1 = 0 Trong các trường hợp còn lại .  Nếu X1 = 0, X2 = 0, ..., Xk−1 = 0 tương ứng với trường hợp biến độc lập X nhận giá trị phân loại thứ k. Ta kí hiệu oddsi là số chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X nhận giá trị phân loại thứ i (i = 1, k). Theo định nghĩa về số chênh ta suy ra công thức tính như sau: P (Y = 1 | Xi = 1, Xj = 0∀j 6= i) oddsi = P (Y = 0 | Xi = 1, Xj = 0∀j 6= i) 1 1+e−(α+βi ) = 1 1+eα+βi α+βi 1+e = 1 + e−(α+βi ) =eα+βi với i = 1, k − 1 Trong trường hợp biến độc lập X nhận giá trị phân loại thứ k thì P (Y = 1 | X1 = 0, X2 = 0, X3 = 0, ..., Xk−1 = 0) oddsk = P (Y = 0 | X1 = 0, X2 = 0, X3 = 0, ..., Xk−1 = 0) 1 −α = 1+e1 1+eα 1 + eα = 1 + e−α =eα Công thức tính tỷ số chênh giữa giá trị phân loại thứ i và giá trị đối chứng: Kí hiệu ORi,k là tỷ số chênh giữa giá trị phân loại thứ i và giá trị phân loại thứ k ( i = 1, k − 1). 19 NGUYỄN THỊ THUẦN