
Tóm tắt Luận án Tiến sĩ Toán học: Một số phương pháp ước lượng tuổi thọ trung bình
lượt xem 2
download

Tóm tắt Luận án Tiến sĩ Toán học "Một số phương pháp ước lượng tuổi thọ trung bình" được nghiên cứu với mục tiêu: Lý thuyết xác suất, lý thuyết phân tích sống sót và một số phương pháp ước lượng tuổi thọ trung bình; Đề xuất hai phương pháp mới cho ước lượng tuổi thọ trung bình; Kết quả áp dụng các phương pháp (phương pháp Kaplan-Meier, phương pháp tham số hóa địa phương, phương pháp Chiang, phương pháp Silcocks) trên bộ dữ liệu thực tế FilaBavi.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tóm tắt Luận án Tiến sĩ Toán học: Một số phương pháp ước lượng tuổi thọ trung bình
- VIỆN HÀM LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN TOÁN HỌC NGUYỄN THANH NGA MỘT SỐ PHƯƠNG PHÁP ƯỚC LƯỢNG TUỔI THỌ TRUNG BÌNH Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học Mã số: 9 46 01 06 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2024
- Luận án được hoàn thành tại: Viện Toán học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học: PGS.TS. HỒ ĐĂNG PHÚC Phản biện 1: .......................................... Phản biện 2: .......................................... Phản biện 3: .......................................... Luận án sẽ được bảo vệ trước hội đồng chấm Luận án cấp Viện họp tại Viện Toán học - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi ..........giờ....... ngày........tháng.........năm ...... Có thể tìm luận án tại: - Thư viện Quốc gia Hà nội - Thư viện Viện Toán học
- Mở đầu Tuổi thọ trung bình, cách gọi thông thường thường của kì vọng sống (life ex- pectancy), thường được hiểu là thời gian sống trung bình của con người. Tuổi thọ trung bình đã được William Farr sử dụng để đánh giá sức khỏe của người dân và dùng để so sánh về sức khỏe giữa các quốc gia (xem Eyler [1979]). Ngày nay, tuổi thọ trung bình cũng được các nhà nghiên cứu lựa chọn là một chỉ số để đánh giá sự mất cần bằng trong địa lý và nhân khẩu xã hội về tỷ lệ tử vong (xem Griffiths and Fitzpatrick [2001]). Có nhiều phương pháp khác nhau được xây dựng nhằm ước lượng tuổi thọ trung bình, trong đó phương pháp xây dựng bảng sống nhằm ghi lại tỷ lệ sống sót ở mỗi độ tuổi thường được các nhà nhân khẩu học sử dụng. Một số phương pháp đã được các nhà thống kê đánh giá cao về nền tảng lý thuyết cũng như tính ứng dụng, trong đó nổi bật là phương pháp Chiang (xem Chiang [1972], Chiang [1984]) và phương pháp Silcocks (xem Silcocks et al. [2001]). Phương pháp Chiang sử dụng bảng sống hiện tại dạng rút gọn để tổng hợp dữ liệu về số người chết và dân số theo các khoảng tuổi dưới 1, 1–4, 5–9 ... 80–84, 85 tuổi trở lên. Dữ liệu tổng hợp về số ca tử vong và dân số ở các nhóm tuổi giúp tính toán tỉ suất tử vong đặc trưng theo khoảng tuổi và từ đó được sử dụng để ước tính xác suất tử vong ở mỗi khoảng tuổi. Những xác suất này sau đó được áp dụng trên một quần thể giả định gồm tập hợp các trẻ em lúc mới sinh, để tạo ra công thức ước tính tuổi thọ trung bình. Tuy nhiên nhiều nghiên cứu đã chỉ ra một số vấn đề tồn tại trong phương này. Cụ thể, một số nghiên cứu như Pollard [1989], Hsieh [1991], Wilmoth et al. [2007] đã chỉ ra kết quả ước lượng kì vọng sống theo phương pháp Chiang bị sai lệch do ảnh hưởng bởi ước lượng tỉ suất chết trên mỗi khoảng tuổi Mi và xác suất chết trên mỗi khoảng tuổi qi (xem Golbeck [1986], Meulen [2012], Pollard [1989]). Bên cạnh đó, phương pháp Chiang không xây dựng được công thức để tính toán tỉ phần sống sót trung bình trên mỗi khoảng tuổi (kí hiệu là ai ), và với việc coi ai = 0.5 sẽ dẫn đến hàm sống sót trên mỗi khoảng tuổi sẽ có dạng tuyến tính (là một đường thẳng), điều này được coi là không phù hợp đối với những khoảng tuổi có độ dài 5 năm (xem Schoen [1978]). Một hạn chế khác trong phương pháp 1
- Chiang đã được nhiều nghiên cứu đề cập đến đó là khi quần thể dân số có kích thước giảm dần thì sai số chuẩn của các ước lượng tuổi thọ trung bình sẽ tăng lên (xem Eayres and Williams [2004], Toson and Baker [2003]). Ngoài ra, trong trường hợp khoảng tuổi không có sự kiện chết xảy ra cũng sẽ gây khó khăn cho việc tính toán phương sai của ước lượng tuổi thọ trung bình theo phương pháp Chiang. Luận án này đề cập đến việc xây dựng phương pháp mới cho ước lượng tuổi thọ trung bình và có thể khắc phục được một số vấn đề của phương pháp Chiang. Luận án gồm 3 chương chính. Chương 1 nhắc lại một số kiến thức cơ bản liên quan đến lý thuyết xác suất, lý thuyết phân tích sống sót và một số phương pháp ước lượng tuổi thọ trung bình, phương pháp Bootstrap, giới thiệu bộ số liệu FilaBavi. Trong Chương 2, chúng tôi đề xuất hai phương pháp mới cho ước lượng tuổi thọ trung bình. Trong đó, phương pháp thứ nhất (được đặt tên là phương pháp Kaplan-Meier) xây dựng dựa trên ước lượng Kaplan-Meier cho hàm sống sót và áp dụng cho dữ liệu bán thuần tập (trích xuất thông tin đầy đủ từ dữ liệu được ghi đầy đủ ngày sinh và ngày mất của tất cả các quan sát trong một khoảng thời gian nhất định) nhằm đem lại một kết quả khá chính xác cho ước lượng tuổi thọ trung bình. Phương pháp thứ hai (được đặt tên là phương pháp tham số hóa địa phương) xây dựng dựa trên mô hình tham số hóa địa phương quá trình sống sót theo phân phối Weibull và áp dụng cho dữ liệu thu gon (chỉ chứa một cặp số người chết và số người trong mỗi khoảng tuổi - kiểu dữ liệu thường sử dụng trong ước lượng tuổi thọ trung bình). Với phương pháp này chúng tôi đã xây dựng được công thức ước tính tuổi thọ trung bình, phương sai của ước lượng, chứng minh ước lượng có phân phối tiệm cận chuẩn để từ đó đưa ra công thức cho khoảng tin cậy của tuổi thọ trung bình. Trong Chương 3, chúng tôi trình bày các kết quả áp dụng các phương pháp (phương pháp Kaplan-Meier, phương pháp tham số hóa địa phương, phương pháp Chiang, phương pháp Silcocks) trên bộ dữ liệu thực tế FilaBavi. Các kết quả tính toán cho thấy, phương pháp tham số hóa địa phương đem lại các ước lượng tuổi thọ trung bình chính xác và hiệu quả hơn so với phương pháp Chiang, phương pháp Silcocks. 2
- Chương 1 Một số kiến thức chuẩn bị Trong chương này, chúng tôi nhắc lại một số khái niệm và kết quả liên quan đến lý thuyết phân tích sống sót và tuổi thọ trung bình. 1.1 Một số kiến thức về lý thuyết xác suất Trong phần này, chúng tôi trình bày các khái niệm về hội tụ của dãy biến ngẫu nhiền và một số kết quả liên quan đến Định lý giới hạn trung tâm và Định lý Slutsky (xem Jacod and Protter [2004]). 1.2 Mô hình phân tích sống sót Trong phần này chúng tôi giới thiệu sơ lược về mô hình phân tích sống sót (hàm sống sót, hàm tỉ suất rủi ro, hàm rủi ro tích lũy), một số phân phối thông dụng trong lý thuyết phân tích sống sót (như phân phối mũ, phân phối Weibull,..) và dữ liệu mất theo dõi. 1.3 Ước lượng Kaplan - Meier Trong phần này, chúng tôi trình bày về ước lượng Kaplan-Meier cho hàm sống sót và các tính chất, và một số ước lượng khác cho hàm rủi ro tích lũy. 1.4 Kiểm định so sánh hàm sống sót giữa các nhóm Trong phần này, chúng tôi trình bày về các kiểm định so sánh hàm sống sót giữa hai hoặc nhiều nhóm. 3
- 1.5 Ước lượng tuổi thọ trung bình Trong phần này chúng tôi trình bày hai phương pháp ước lượng tuổi thọ trung bình dựa trên bảng sống hiện tại là phương pháp Chiang (Chiang [1972], Chiang [1984]), phương pháp Silcocks (Silcocks et al. [2001], Silcocks [2004]). 1.5.1 Phương pháp Chiang Phương pháp Chiang ước lượng tuổi thọ trung bình dựa trên việc ước lượng qi là xác suất chết ở khoảng tuổi [xi ; xi + oi ) thông qua ước lượng của Mi là tỉ suất chết ở khoảng tuổi [xi ; xi + oi ). Trong đó, tỉ suất chết Mi được ước lượng bởi tỉ lệ deathi là ước lượng cho tỉ suất chết Mi . Khi đó, ước lượng xác suất chết ở mỗi popi khoảng tuổi được áp dụng cho quần thể giả định với giả sử số quan sát tại thời điểm lúc sinh ra là l1 = 100.000 (lưu ý: giá trị của l1 là tùy ý) nhằm đưa ra công thức ước lượng tuổi thọ trung bình. 1.5.2 Phương pháp Silcocks Silcocks xây dựng phương pháp ước lượng tuổi thọ trung bình dựa trên giả thuyết thời gian sống sót trên mỗi khoảng tuổi có phân phối mũ. 1.6 Phương pháp Bootstrap Trong phần này, chúng tôi giới thiệu sơ lược về phương pháp Boostrap, một phương pháp thống kê hiện đại đơn giản nhưng có tính ứng dụng cao (xem Efron and Tibshirani [1994]). 1.7 Bộ dữ liệu FilaBavi Trong phần này, chúng tôi giới phần giới thiệu về bộ số liệu thực tế FilaBavi (xem Chuc and Diwan [2003]). 4
- Chương 2 Phương pháp mới cho ước lượng tuổi thọ trung bình Trong chương này chúng tôi đề xuất hai phương pháp mới cho ước lượng tuổi thọ trung bình gồm: phương pháp Kaplan-Meier cho dữ liệu bán thuần tập và phương pháp tham số địa phương cho dữ liệu rút gọn. 2.1 Phương pháp Kaplan-Meier cho ước lượng tuổi thọ trung bình Từ kết quả trình bày tại mục 1.1.1, theo công thức (1.2) nếu kí hiệu LE là tuổi thọ trung bình, ta có +∞ LE = E[T ] = S(t)dt. (2.1) 0 Do đó, tuổi thọ trung bình có thể được ước lượng gián tiếp dựa trên hàm sống sót. Sau đây chúng tôi sẽ trình bày về cách mở rộng ước lượng Kaplan–Meier cho hàm sống sót, nhằm thu được một ước lượng tốt cho tuổi thọ trung bình theo kết quả của công thức (2.1). 2.1.1 Phương pháp Kaplan-Meier cho ước lượng tuổi thọ trung bình với tập dữ liệu thuần tập Trong trường hợp dữ liệu thuần tập (là dữ liệu theo dõi các cả thể từ lúc sinh ra đến lúc chết đi) có xảy ra tình huống mất theo dõi, việc ước lượng tuổi thọ trung bình đã được chỉ ra ở nhiều nghiên cứu (chẳng hạn, xem Lee and Wang [2003]). ˆ Cụ thể, dựa trên ước lượng Kaplan-Meier cho hàm sống sót Sn,KM (t) thì tuổi thọ 5
- trung bình có thể ước lượng bởi: I−1 LE = ˆ ˆ t(i+1) [Sn,KM (t(i) ) − Sn,KM (t(i+1) )], (2.2) i=0 trong đó, t(1) ≤ t(2) ≤ t(3) ≤ · · · ≤ t(I) là các tuổi quan sát được. 2.1.2 Phương pháp Kaplan-Meier cho ước lượng tuổi thọ trung bình với tập dữ liệu bán thuần tập Chúng tôi sử dụng thuật ngữ "dữ liệu bán thuần tập" để chỉ dữ liệu theo chiều dọc có được từ việc theo dõi một vùng dân cư trong một khoảng thời gian khá ngắn, thay vì toàn bộ thời gian sống sót của vùng dân cư đó. Trước hết, sử dụng ước lượng Kaplan-Meier nhằm ước lượng hàm sống sót ở mỗi khoảng tuổi [j; j + 1), j = 0, 1, ..., L, với L là phần nguyên của tuổi lớn nhất trong dữ liệu. Sau đó, từ các ước lượng hàm sống sốt này, ta thu được ước lượng cho hàm sống sót toàn bộ là ˆ S0 (t) với t ∈ [0; 1), ˆ = J−1 S(t) (2.3) ˆ I ˆ Sj (tjj ) ×SJ (t) với t ∈ [J; J + 1), J = 1, 2, ..., L, j=0 ˆ với Sj (t) là ước lượng hàm sống sót ở khoảng tuổi [j; j + 1). Khi đó, áp dụng công thức (2.2) ta đạt được ước lượng cho tuổi thọ trung bình (kí hiệu là LEKM ) như sau L−1 Ij −1 LEKM = i ˆ i ˆ i+1 tj · S tj − S tj ˆ I ˆ 1 + tjj · S tjj − S tj+1 I + j=1 x=1 IL −1 + i ˆ i ˆ i+1 tL · S tL − S tL ˆ I + tLj · S tLj . I i=1 (2.4) Nhận xét 2.1.1 Dựa trên việc tận dụng tất cả các thông tin từ tập dữ liệu bán thuần tập về tuổi lúc chết và tuổi lúc mất theo dõi của các đối tượng cho thấy phương pháp Kaplan–Meier theo công thức (2.4) có thể được coi là ước lượng khá chính xác cho tuổi thọ trung bình. 6
- 2.2 Phương pháp tham số hóa địa phương cho ước lượng tuổi thọ trung bình Trên thực tế, các nhà nghiên cứu hiếm khi có được dữ liệu thuần tập, thậm chí là dữ liệu bán thuần tập. Thay vào đó, dữ liệu thu thập thường ở dạng rút gọn gồm: số người chết deathi và số người popi thuộc mỗi khoảng tuổi [xi ; xi + oi ) (thường là các khoảng tuổi: [0; 1), [1; 5), [5; 10), ..., [80; 85), và [85; ∞)). Trong phần này, chúng tôi đề xuất một phương pháp ước lượng tuổi thọ trung bình mới dựa trên dữ liệu rút gọn. Phương pháp này được đặt tên là Phương pháp tham số hóa địa phương (Phương pháp LP). 2.2.1 Mô hình tham số hóa địa phương cho quá trình sống sót Trong phương pháp này, chúng tôi cũng chia tuổi của con người thành 19 khoảng tuổi như trong phương pháp Chiang là [0; 1), [1; 5), [5; 10), ..., [80; 85), và [85; ∞). Để thuận tiện, chúng tôi kí hiệu [xi ; xi + oi ), i = 1, 2, . . . , 19 để chỉ các khoảng tuổi, oi là độ dài khoảng tuổi thứ i, như vậy o1 = 1; o2 = 4; oj = 5 với j = 3, 4, · · · , 18; và o19 = ∞. Kí hiệu Wi , i = 1, 2, · · · , 19 là dãy biến ngẫu nhiên độc lập chỉ số năm sống sau tuổi xi . Chúng tôi giả sử Wi có phân phối Weibull với hàm mật độ xác suất ki fi (t) = ki λki tki−1 e−(λt) , với t ≥ 0, j (2.5) λi > 0 là hệ số co dãn, ki > 0 là hệ số hình dạng. Khi đó, ta xây dựng các biến ngẫu nhiên sau: Ui = Wi × 1[0;oi ) (Wi ) + oi × 1[oi ;∞) (Wi ) , i = 1, 2, . . . , 18; U19 = W19 , (2.6) ở đó, 1A là hàm chỉ tiêu của tập A. Ta đặt T1 = U1 ; Ti = Ui × 1[o1 ;∞) (W1 ) × 1[o2 ;∞) (W2 ) · · · × 1[oi−1 ;∞) (Wi−1 ) , (2.7) với j = 2, · · · , 19. Khi đó, biến ngẫu nhiên T được xác định bởi T = T1 + T2 + T3 + · · · + T18 + T19 , (2.8) phản ánh tuổi thọ của một người, với Ti phản ánh số năm sống của người đó ở khoảng tuổi thứ i. Do vậy, E[T ] là tuổi thọ trung bình của một người. Nhận xét 2.2.1 7
- Do hệ số hình dạng ki , i = 1, 2, . . . , 19 phản ánh sự biến động của tỉ suất rủi ro ở mỗi khoảng tuổi nên trong phương pháp LP chúng tôi đề xuất trước một bộ giá trị hợp lý cho các giá trị ki cho mỗi khoảng tuổi. Từ đó, với các giá trị có sẵn của ki , cùng với tập dữ liệu rút gọn được sử dụng để ước lượng hệ số tỉ lệ λi . Bộ giá trị đề xuất cho các hệ số hình dạng Dựa trên ý nghĩa của các hệ số ki , i = 1, 2, . . . , 19 và sự biến động thực tế của tỉ suất chết qua các khoảng tuổi, chúng tôi đề xuất rằng trong những khoảng tuổi đầu, cụ thể [0; 1); [1, 5), và [5, 10) thì giá trị của các hệ số ki là nhỏ hơn 1, trong đó khoảng tuổi đầu tiên thường có tỉ suất chết cao nhất nên k1 sẽ có giá trị nhỏ nhất. Ngoài ra, đối với các khoảng tuổi tiếp theo, hệ số ki , i = 4, 5, . . . , 17 sẽ ổn định và có thể nhận giá trị 1, k18 nhận giá trị lớn hơn 1 và với khoảng tuổi cuối chúng tôi đề xuất k19 = 1. Với ý tưởng đề xuất như trên, chúng tôi kiểm tra tính hợp lý của việc đề xuất bộ giá trị hệ số ki , i = 1, 2, . . . , 19 thông qua việc sử dụng bộ số liệu FilaBavi. Theo đó, việc ước lượng các hệ số ki được thực hiện như sau: Dựa trên giả thuyết Wi , i = 1, 2, 3, · · · , 18 có phân phối Weibull, nên để ước lượng tham số ki chúng tôi sử dụng mô hình hồi qui tuyến tính dạng Z = β0 + β1 U, (2.9) với biến phụ thuộc Z = ln [− ln Si (t)] và biến độc lập U = ln t, trong đó hệ số góc β1 chính là tham số hình dạng ki . Theo đó, chúng tôi sử dụng bộ dữ liệu bán thuần tập cho 15 năm theo dõi từ 2000 đến 2014 được trích suất từ bộ số liệu FilaBavi để ước lượng hàm sống sót Si (t) theo ước lượng Kaplan-Meier cho từng khoảng tuổi, từ đó thu được kết quả ước lượng của ki là k1 = 0.0151; k2 = 0.157; k3 = 0.56; k4 = 1.02; k5 = 1.35; k6 = 1.36; k7 = 0.89; k8 = 1.06; k9 = 0.97; k10 = 0.82; k11 = 0.87; k12 = 0.95; k13 = 1; k14 = 1; k15 = 1.01; k16 = 1.02; k17 = 0.98; k18 = 1.1; k19 = 0.97. Trên cơ cở đó, chúng tôi đề xuất bộ giá trị mới cho tham số ki là: {ki } = {0.1; 0.2; 0.9; 1; 1; 1; 1; 1; 1; 1; ; 1; ; 1; 1; 1; ; 1; 1; 1; 1; 1}, (2.10) trong đó k1 = 0.1; k2 = 0.2; k3 = 0.9 cho các khoảng tuổi đầu và ki = 1, i = 4, 5, . . . , 19 cho các khoảng tuổi còn lại. 8
- Ước lượng hệ số co dãn Việc ước lượng các hệ số λi dựa trên tập dữ liệu dân số rút gọn được báo cáo hàng năm gồm deathi là số người chết có tuổi thuộc khoảng [xi ; xi + oi ) và popi là số người thuộc khoảng tuổi [xi ; xi + oi ) tại thời điểm giữa năm quan sát (1/7), i = 1, 2, . . . , 18, 19. Chúng tôi gọi tập dữ liệu rút gọn này là dữ liệu rút gọn giữa năm (MAD). Theo phương pháp LP, tập dữ liệu rút gọn được sử dụng trong phương pháp LP để ước lượng các hệ số co dãn λi sẽ được tổ chức khác với tập dữ liệu rút gọn dạng MAD. Cụ thể, phương pháp mới này tuổi tính tại ngày cuối cùng (31 tháng 12) của năm quan sát hiện tại được sử dụng để chỉ tuổi của từng cá nhân. Theo đó, kí hiệu ni là số người có tuổi cuối năm thuộc vào khoảng [xi ; xi + oi ), và tương ứng di là số người chết (tính trong số ni người) được ghi nhận tại năm quan sát. Chúng tôi gọi tập dữ liệu gồm các cặp (ni , di ) là tập dữ liệu dạng rút gọn tính theo cuối năm (EAD). Dựa trên phân tích từ biểu đồ Lexis, ta thu được mệnh đề sau Mệnh đề 2.1 Cho biến ngẫu nhiên T là thời gian sống sót của một người, được mô hình hóa theo phân phối Weibull xác định theo công thức từ (2.5-2.8), với các biến ngẫu nhiên W1 , W2 , · · · , W19 là độc lập. Khi đó, dựa trên tập dữ liệu rút gọn giữa năm (MAD) gồm deathi và popi , i = 1, 2, . . . , 19 ta thu được kết quả ước lượng sau cho các hệ số co dãn λi . 1 4(k1 + 1) death1 k1 λ1 ≈ × . (2.11) k1 + 4 n1 1 20(k2 + 1) dead2 + d1;2 k1 λk1 1 k2 λ2 ≈ k2 (k + 1) + 4k2 +1 − 3k2 +1 − 5 × − , 4 2 n2 4(k1 + 1) (2.12) trong đó, λk1 1 λk1 1 d1;2 ≈ n1 × − . (2.13) 4 4(k1 + 1) Với các hệ số λi , i = 3, 4, . . . , 18, k k k k +1 1/ki 1 5(deathi + di−1;2 ) λi−1 (oi−1 + ki−1 oi−1 − oi−1 + (oi−1 − 1)ki−1 +1 ) i−1 i−1 i−1 i−1 λi ≈ − , oi ni ki−1 + 1 (2.14) 9
- với n2 k2 λk2 (4k2 +1 − 3k2 +1 ) d2;2 ≈ × (4λ2 ) − 2 , (2.15) 5 k2 + 1 và ni ki λki (oki +1 − (oi − 1)ki +1 ) di;2 ≈ × (λi oi ) − i i , i = 4, 5, . . . , 18. (2.16) 5 ki + 1 Ngoài ra, µ × death19 λ19 ≈ . (2.17) (n19 − d18;2 ) (1 − e−µ ) − death19 2.3 Ước lượng tuổi thọ trung bình theo mô hình tham số hóa địa phương Trong mục này, chúng tôi trình bày kết quả ước lượng tuổi thọ trung bình và phương sai của ước lượng dựa trên mô hình tham số hóa địa phương đã được xây dựng ở Mục 2.2.1. Ngoài ra, dựa trên mô hình này chúng tôi cũng đưa ra công thức để ước lượng tuổi thọ trung bình dựa trên cách tiếp cận xây dựng bảng sống, tương tự như các phương pháp của Chiang, phương pháp Silcocks. 2.3.1 Ước lượng tuổi thọ trung bình theo mô hình tham số hóa địa phương Các kết quả được thể hiện thông qua các mệnh đề dưới đây. Mệnh đề 2.2 Cho biến ngẫu nhiên T là thời gian sống sót của một người, được mô hình hóa theo phân phối Weibull xác định theo công thức từ (2.5-2.8), với các biến ngẫu nhiên W1 , W2 , · · · , W19 là độc lập. Khi đó, tuổi thọ trung bình E[T ] được xác định bởi E[T ] =E W1 1[0;o1 ) (W1 ) + o1 p1 + E W2 1[0;o2 ) (W2 ) + o2 p2 p1 + E W3 1[0;o3 ) (W3 ) + o3 p3 p1 p2 + . . . (2.18) + E W18 1[0;o18 ) (W18 ) + o18 p18 p1 p2 · · · p17 + E [W19 ] p1 p2 · · · p18 , với pj = P (Wj ≥ oj ) , i = 1, 2, · · · , 18. Để xác định phương sai của T ta có mệnh đề sau: 10
- Mệnh đề 2.3 Cho biến ngẫu nhiên T là thời gian sống sót của một người, được mô hình hóa theo phân phối Weibull xác định theo công thức từ (2.5-2.8), với các biến ngẫu nhiên W1 , W2 , . . . , W19 là độc lập. Khi đó, phương sai của T là 19 18 19 Var[T ] = Var [Tj ] + 2 × Cov [Tj , Ti ] , j=1 j=2 i=j+1 trong đó, Var [Tj ], j = 1, 2, . . . , 18, 19 được cho các bởi công thức 2 Var [T1 ] = E W12 1[0;o1 ) (W1 ) + o2 p1 − E W1 1[0;o1 ) (W1 ) + o1 p1 ; 1 (2.19) Var [Tj ] = E Wj2 1[0;oj ) (Wj ) + o2 pj j 2 (2.20) − E Wj 1[0;oj ) (Wj ) + oj pj p1 · · · pj−1 p1 · · · pj−1 ; và Var[T19 ] = E[W19 ] − E[W19 ]2 p1 · · · p18 p1 · · · p18 . 2 (2.21) Hơn thế nữa, các Cov [Tj , Ti ] được xác định bởi Cov [T1 , Ti ] = E Wi 1[0;oi ) (Wi ) + oi pi p1 · · · pi−1 (2.22) × o1 − E W1 1[0;o1 ) (W1 ) − o1 p1 , với i = 2, 3, . . . , 18; Cov [Tj , Ti ] = E Wi 1[0;oi ) (Wi ) + oi pi p1 · · · pi−1 (2.23) × oj − E Wj 1[0;oj ) (Wj ) + oj pj p1 · · · pj−1 , với 2 ≤ j < i = 3, . . . , 18; và Cov[Tj , T19 ] = E[W19 ]p1 · · · p18 oj − (E[Wj 1[0;oj ) (Wj )] + oj pj )p1 · · · pj−1 , (2.24) với j = 1, 2, . . . , 18. Hệ quả 2.1 Véc tơ các biến ngẫu nhiên (T1 , T2 , . . . , T19 ) có ma trận tương quan hữu hạn. Kí hiệu nj là kích thước mẫu quan sát ở khoảng tuổi thứ j, j = 1, 2, . . . , 19, đặt n = n1 + n2 + · · · + n19 . Khi đó, ta xét n bản sao độc lập cùng phân phối của véc 11
- tơ ngẫu nhiên T = (T1 , T2 , . . . , T19 ): T 1 = (T1,1 , T2,1 , . . . , T19,1 ); T 2 = (T1,2 , T2,2 , . . . , T19,2 ); ··· T n = (T1,n , T2,n , . . . , T19,n ). ¯ ¯ Đặt Tj = Tj,1 + Tj,2 + . . . + Tj,nj /nj , thì Tj là ước lượng của E[Tj ], và T =¯ ¯ ¯ ¯ T1 + T2 + . . . + T19 là ước lượng của E[T ]. Theo kết quả của Định lý giới hạn trung tâm và từ Hệ quả 2.1 ta thu được mệnh đề dưới đây. Mệnh đề 2.4 Giả sử {T 1 , T 2 , . . . , T n } với n = n1 + n2 + . . . n19 là các bản sao độc lập, cùng phân phối của véc tơ ngẫu nhiên T = (T1 , T2 , . . . , T19 ), và ¯ √ ¯ Tj = Tj,1 + Tj,2 + . . . + Tj,nj /nj , j = 1, 2, · · · , 19. Khi đó n T − E[T ] có phân phối tiệm cận chuẩn khi n1 , n2 , . . . , n19 , n tiến ra vô cùng. ¯ Hệ quả 2.2 Với n1 , n2 , . . . , n19 đủ lớn thì T có phân phối xấp xỉ chuẩn. Mệnh đề 2.5 Cho biến ngẫu nhiên T là thời gian sống sót của một người, được mô hình hóa theo phân phối Weibull xác định theo công thức từ (2.5-2.8), với các biến ngẫu nhiên W1 , W2 , . . . , W19 là độc lập. Giả sử {T 1 , T 2 , . . . , T n } với n = n1 + n2 + . . . n19 là các bản sao độc lập, cùng phân phối của véc tơ ngẫu nhiên ¯ T = (T1 , T2 , . . . , T19 ), và Tj = Tj,1 + Tj,2 + . . . + Tj,nj /nj , j = 1, 2, . . . , 19. ¯ ¯ ¯ ¯ Khi đó, T = T1 + T2 + . . . + T19 là ước lượng không chệch của tuổi thọ trung bình E[T ], cụ thể ¯ E[T ] = E[T1 ] + E[T2 ] + · · · + E[T19 ] = E[T ], (2.25) và k1 λk1 1 k1 λ2k1 1 k2 λk2 ok2 +1 k2 λ2k2 o2k2 +1 2 2 2 2 E[T ] ≈ − + o1 p1 + − + o2 p2 p1 k1 + 1 2k1 + 1 k2 + 1 2k2 + 1 k3 λk3 ok3 +1 k3 λ2k3 o2k3 +1 3 3 3 3 + − + o3 p3 p1 p2 + · · · + k3 + 1 2k3 + 1 k18 λk18 ok18 +1 k18 λ2k18 o2k18 +1 18 18 18 18 1 + − + o18 p18 p1 · · · p17 + p1 · · · p18 . k18 + 1 2k18 + 1 λ19 (2.26) ¯ Phương sai của T được cho bởi công thức 19 18 19 ¯ Var[T ] = ¯ Var Tj + 2 × ¯ ¯ Cov Tj , Ti , (2.27) j=1 j=2 i=j+1 12
- ở đó, k 2k k 2k 2 k1 λ11 k1 λ1 1 k1 λ11 k1 λ1 1 k1 +2 − 2k1 +2 + o2 p1 1 − k1 +1 − 2k1 +1 + o1 p1 ¯ Var T1 ≈ , (2.28) n1 k k +2 2k 2k +2 ¯ 1 kj λj j oj j kj λj j oj j Var Tj ≈ × − + o2 pj j nj kj + 2 2kj + 2 k k +1 2k 2k +1 2 (2.29) kj λj j oj j kj λj j oj j − − + oj pj p1 · · · pj−1 p1 · · · pj−1 , kj + 1 2kj + 1 với j = 2, 3, . . . , 18, và 2 1 λ2 − λ2 1 p · · · p18 p1 · · · p18 ¯ Var T19 ≈ 19 19 . (2.30) n19 Thêm vào đó k k +1 2k 2k +1 k 2k ki λi i oi i ki λ i i o i i k1 λ 1 1 k1 λ 1 1 ki +1 − 2ki +1 + oi pi p1 p2 · · · pi−1 1− k1 +1 − 2k1 +1 − p1 ¯ ¯ Cov T1 , Ti ≈ , max (n1 ; ni ) (2.31) với j = 2, 3, . . . , 18; ¯ ¯ 1 ki λki oki +1 ki λ2ki o2ki +1 i i i i Cov Tj , Ti ≈ × − + oi pi p1 · · · pi−1 max (nj ; ni ) ki + 1 2ki + 1 k k +1 2k 2k +1 kj λj j oj j kj λj j oj j × oj − − + oj pj p1 · · · pj−1 , kj + 1 2kj + 1 (2.32) với 2 ≤ j < i = 3, . . . , 18, và k k +1 2kj 2kj +1 1 kj λj j oj j kj λ j oj p λ19 1 · · · p18 oj − kj +1 − 2kj +1 + oj pj p1 · · · pj−1 ¯ ¯ Cov Tj , T19 ≈ , max(nj ; n19 ) (2.33) với j = 2, 3, . . . , 18. kj kj Ngoài ra, pj = P (Wj ≥ oj ) = e−λj oj , j = 1, 2, 3, . . . , 18. Nhận xét 2.3.1 13
- Dựa trên kết quả của Mệnh đề 2.4, ta có khoảng tin cậy cho ước lượng tuổi thọ ¯ trung bình E[T ] với độ tin cậy 1 − α, α ∈ (0, 1) là ¯ T − z1−α/2 × ¯ ¯ V ar[T ]; T + z1−α/2 × ¯ V ar[T ] , (2.34) với zβ là phân vị mức β của phân phối chuẩn tắc. 2.3.2 Uớc lượng tuổi thọ trung bình theo phương pháp xây dựng bảng sống hiện tại Trong mục này, chúng tôi trình bày phương pháp ước lượng tuổi thọ trung bình bằng cách xây dựng bảng sống hiện tại với nền tảng là ước lượng xác suất chết và thời gian sống trung bình ở mỗi khoảng tuổi, sau đó áp dụng trên quần thể giả định. Bước 1: Ước lượng xác suất chết ở mỗi khoảng tuổi Kí hiệu qi là xác suất chết ở khoảng tuổi [xi ; xi + oi ), i = 1, 2, . . . , 18. Ta có qi = P (xi ≤ T < xi+1 ) = P (0 ≤ Wi < oi ) . Do đó, ki qi = 1 − e−(λi oi ) . (2.35) Bước 2: Ước lượng thời gian sống trung bình của một người chết trong khoảng tuổi • Xét với khoảng tuổi [0, 1), kí hiệu DRL1 là thời gian sống trung bình của một người chết ở khoảng tuổi này. Ta có k1 λk1 1 k1 λ2k1 1 1 DRL1 ≈ − k1 (2.36) k1 + 1 2k1 + 1 1 − e−λ1 • Xét với khoảng tuổi [xi , xi+1 ), i = 2, 3, . . . , 18, kí hiệu DRLi là thời gian sống trung bình của một người chết ở khoảng tuổi này. Ta có 1 ki λki oki +1 ki λ2ki o2ki +1 j i j i DRLi ≈ − . (2.37) 1 − exp − (λi oi ) ki ki + 1 2ki + 1 • Xét với khoảng tuổi [x19 , +), kí hiệu DRL19 là thời gian sống trung bình của một người chết ở khoảng tuổi này. Ta có 1 DRL19 = . (2.38) λ19 14
- Nhận xét 2.3.2 Như vậy, khác biệt so với phương pháp Chiang khi không đưa ra được công thức để xác định các giá trị ai , đối với phương pháp LP, chúng tôi đã đưa ra được công thức tính toán giá trị này dựa trên các công thức (2.36, 2.37, 2.38). Bước 3: Ước lượng tuổi thọ trung bình dựa trên quần thể giả định Xem xét quần thể giả định với giả sử số quan sát tại thời điểm lúc mới sinh là l1 = 100.000 người (lưu ý: giá trị của l1 được chọn tùy ý). Theo đó, li là số người sống tại độ tuổi xi , di là số người chết trong khoảng tuổi [xi ; xi + oi ) được xác định như sau di = li qi , i = 1, 2, . . . , 19 và l2 = l1 − d1 , l3 = l2 − d2 , . . . , l19 = l18 − d18 . Kí hiệu T RLi là tổng thời gian sống trung bình trong mỗi khoảng tuổi [xi ; xi + oi ) của li người, i = 1, 2, . . . , 18. Ta có T RLi = li+1 oi + di DRLi . (2.39) Riêng với khoảng tuổi cuối cùng, thời gian sống trung bình ở khoảng tuổi này của l19 người (kí hiệu: T RL19 ) là T RL19 = l19 DRL19 . (2.40) Và như vậy, tuổi thọ trung bình được ước lượng bởi LELP với TRL1 + TRL2 + TRL3 + . . . + TRL18 + TRL19 LELP = . (2.41) l1 Nhận xét 2.3.3 Tuổi thọ trung bình được ước lượng dựa trên quần thể giả định theo công thức (2.41) hoặc theo công thức (2.25) là như nhau. 15
- Chương 3 So sánh các phương pháp ước lượng tuổi thọ khác nhau dựa trên dữ liệu thực tế Trong chương này, chúng tôi sử dụng bộ dữ liệu sống sót theo dõi theo chiều dọc có tên là FilaBvi (xem Chuc and Diwan [2003]) nhằm so sánh các phương pháp Kaplan-Meier, phương pháp LP, phương pháp Chiang, phương pháp Silcocks. 3.1 So sánh về kết quả ước lượng tuổi thọ trung bình giữa các phương pháp Để đánh giá về kết quả ước lượng tuổi thọ trung bình giữa các phương pháp, chúng tôi sử dụng kết quả ước lượng tuổi thọ trung bình từ phương pháp Kaplan- Meier làm "tiêu chuẩn" để đối sánh nhằm đưa ra nhận định về độ chính xác của các phương pháp này. Trước hết, sự chênh lệch giữa ước lượng theo phương pháp Chiang và phương pháp Kaplan-Meier được thể hiện thông qua cột ”Ch. Res" của các bảng. Từ các giá trị chênh lệch này, ta nhận thấy trong mọi trường hợp phương pháp Chiang cho kết quả ước lượng chênh lệch khá cao so với phương pháp Kaplan-Meier. Theo đó, trung bình chênh lệch (tính trên giá trị tuyệt đối) của các chênh lệch trong 15 năm quan sát đối với dân số “cả hai giới”, “nam” và “nữ” tương ứng là 0.74; 0.59; và 1.09. Tiếp theo, sự chênh lệch giữa ước lượng tuổi thọ trung bình theo phương pháp LP và ước lượng tuổi thọ trung bình theo phương pháp Kaplan-Meier được thể hiện trong cột "LP Res" của các bảng. Từ các giá trị chênh lệch này cho thấy ước lượng tuổi thọ trung bình theo phương pháp LP sai lệch khá ít so với ước 16
- Bảng 3.1: Ước lượng tuổi thọ trung bình và chênh lệch cho cả hai giới Year K-M Est Ch Est Ch Res Sil Est Sil Res LP Est LP Res 2000 76.82 77.55 0.73 77.57 0.75 76.97 0.15 2001 76.31 76.92 0.61 76.94 0.63 76.43 0.12 2002 76.63 77.34 0.72 76.37 0.74 76.83 0.20 2003 77.83 78.23 0.40 76.24 0.4 77.61 -0.22 2004 76.92 77.88 0.96 77.91 0.99 77.28 0.36 2005 75.92 76.80 0.88 76.82 0.9 76.25 0.33 2006 76.66 77.98 1.32 78.00 1.34 77.36 0.71 2007 77.98 79.19 1.22 79.21 1.23 78.59 0.61 2008 76.98 77.61 0.63 77.64 0.66 77.22 0.24 2009 77.13 77.80 0.67 77.81 0.68 77.34 0.21 2010 77.25 77.91 0.66 77.93 0.68 77.45 0.20 2011 76.99 77.42 0.43 77.44 0.45 76.97 -0.02 2012 77.37 77.81 0.44 77.83 0.46 77.43 0.05 2013 78.99 79.95 0.95 79.96 0.97 79.35 0.36 2014 80.02 80.50 0.48 80.53 0.51 80.10 0.08 Trung 0.74 0.76 0.22 bình Bảng 3.2: Ước lượng tuổi thọ trung bình và chênh lệch cho nam giới Year K-M Est Ch Est Ch Res Sil Est Sil Res LP Est LP Res 2000 72.60 73.18 0.58 73.24 0.64 72.95 0.35 2001 71.65 72.15 0.5 72.14 0.49 71.81 0.16 2002 71.27 71.71 0.42 71.73 0.46 71.57 0.30 2003 72.81 73.11 0.93 73.12 0.31 72.63 -0.18 2004 71.08 71.91 0.83 71.93 0.85 71.48 0.40 2005 69.68 70.63 0.95 70.67 0.99 70.36 0.68 2006 71.51 72.14 0.63 72.15 0.64 71.83 0.32 2007 72.29 71.63 -0.66 73.24 0.95 72.85 0.56 2008 71.60 71.63 0.03 71.65 0.05 71.35 -0.25 2009 71.10 71.60 0.50 71.59 0.49 71.31 0.21 2010 71.13 72.01 0.88 72.00 0.87 71.67 0.54 2011 71.41 72.16 0.75 72.17 0.76 71.93 0.52 2012 70.98 71.51 0.53 71.54 0.56 71.45 0.47 2013 73.71 74.25 0.54 74.30 0.59 73.89 0.18 2014 74.58 74.67 0.09 74.65 0.07 74.66 0.08 Trung 0.59 0.58 0.35 bình 17
- Bảng 3.3: Ước lượng tuổi thọ trung bình và chênh lệch cho nữ giới Year K-M Est Ch Est Ch Res Sil Est Sil Res LP Est LP Res 2000 80.06 80.05 -0.01 81.04 0.98 80.29 0.15 2001 80.14 81.23 1.09 81.21 1.07 80.54 0.40 2002 81.25 82.95 1.70 82.92 1.67 81.95 0.70 2003 81.99 82.50 0.68 82.59 0.60 81.83 -0.16 2004 81.97 83.37 1.40 83.35 1.38 82.70 0.73 2005 81.90 82.84 0.94 82.85 0.95 82.26 0.36 2006 81.10 83.20 2.10 83.19 2.09 82.43 1.33 2007 83.04 84.65 1.61 84.68 1.64 83.91 0.87 2008 82.37 83.33 0.96 83.29 0.92 82.85 0.48 2009 82.95 83.75 0.80 83.79 0.84 83.23 0.28 2010 83.13 83.90 0.77 83.95 0.82 83.47 0.34 2011 82.42 83.75 1.33 82.78 0.36 82.35 -0.07 2012 83.58 84.22 0.64 84.25 0.67 83.75 0.17 2013 84.06 85.33 1.27 85.32 1.26 84.52 0.46 2014 85.23 86.25 1.02 86.23 1.00 85.70 0.47 Trung 1.09 1.08 0.46 bình lượng tuổi thọ trung bình theo phương pháp Kaplan-Meier, với trung bình chênh lệch đối với dân số “cả hai giới”, “nam” và “nữ” tương ứng là 0.22; 0.35; và 0.46. Tương tự, sự chênh lệch giữa ước lượng theo phương pháp Silcocks và phương pháp Kaplan-Meier được thể hiện qua các cột "Sil Res" của các bảng. Do kết quả ước lượng của phương pháp Chiang và Silocks là gần nhau nên chênh lệch của phương pháp Silcocks và phương pháp Kaplan-Meier là khá tương đồng với phương pháp Chiang. 3.2 So sánh phương sai và khoảng tin cậy của ước lượng tuổi thọ trung bình giữa các phương pháp Trước hết, để đánh giá về phương sai của ước lượng tuổi thọ trung bình giữa hai phương pháp này, chúng tôi sử dụng kiểm định sau 2 2 H0 : σCH = σLP 2 2 H1 : σCH > σLP , 2 2 trong đó, σCH , σLP lần lượt là phương sai của ước lượng tuổi thọ trung bình theo phương pháp Chiang, phương pháp LP. Kết quả quả kiểm định cho thấy phương 18

CÓ THỂ BẠN MUỐN DOWNLOAD
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Chiến lược Marketing đối với hàng mây tre đan xuất khẩu Việt Nam
27 p |
335 |
18
-
Tóm tắt Luận án Tiến sĩ Kinh tế: Thúc đẩy tăng trưởng bền vững về kinh tế ở vùng Đông Nam Bộ đến năm 2030
27 p |
387 |
17
-
Tóm tắt Luận án Tiến sĩ Luật học: Hợp đồng dịch vụ logistics theo pháp luật Việt Nam hiện nay
27 p |
439 |
17
-
Tóm tắt Luận án Tiến sĩ Y học: Nghiên cứu điều kiện lao động, sức khoẻ và bệnh tật của thuyền viên tàu viễn dương tại 2 công ty vận tải biển Việt Nam năm 2011 - 2012
14 p |
443 |
16
-
Tóm tắt Luận án Tiến sĩ Triết học: Giáo dục Tư tưởng Hồ Chí Minh về đạo đức cho sinh viên trường Đại học Cảnh sát nhân dân hiện nay
26 p |
302 |
12
-
Tóm tắt luận án Tiến sĩ: Nghiên cứu tối ưu các thông số hệ thống treo ô tô khách sử dụng tại Việt Nam
24 p |
308 |
12
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Nghiên cứu tính toán ứng suất trong nền đất các công trình giao thông
28 p |
370 |
11
-
Tóm tắt Luận án Tiến sĩ Kinh tế Quốc tế: Rào cản phi thuế quan của Hoa Kỳ đối với xuất khẩu hàng thủy sản Việt Nam
28 p |
328 |
9
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển kinh tế biển Kiên Giang trong tiến trình hội nhập kinh tế quốc tế
27 p |
254 |
8
-
Tóm tắt Luận án Tiến sĩ Xã hội học: Vai trò của các tổ chức chính trị xã hội cấp cơ sở trong việc đảm bảo an sinh xã hội cho cư dân nông thôn: Nghiên cứu trường hợp tại 2 xã
28 p |
296 |
8
-
Tóm tắt Luận án Tiến sĩ Luật học: Các tội xâm phạm tình dục trẻ em trên địa bàn miền Tây Nam bộ: Tình hình, nguyên nhân và phòng ngừa
27 p |
362 |
8
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phản ứng của nhà đầu tư với thông báo đăng ký giao dịch cổ phiếu của người nội bộ, người liên quan và cổ đông lớn nước ngoài nghiên cứu trên thị trường chứng khoán Việt Nam
32 p |
323 |
6
-
Tóm tắt Luận án Tiến sĩ Luật học: Quản lý nhà nước đối với giảng viên các trường Đại học công lập ở Việt Nam hiện nay
26 p |
278 |
5
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các yếu tố ảnh hưởng đến xuất khẩu đồ gỗ Việt Nam thông qua mô hình hấp dẫn thương mại
28 p |
161 |
4
-
Tóm tắt Luận án Tiến sĩ Ngôn ngữ học: Phương tiện biểu hiện nghĩa tình thái ở hành động hỏi tiếng Anh và tiếng Việt
27 p |
275 |
4
-
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu cơ sở khoa học và khả năng di chuyển của tôm càng xanh (M. rosenbergii) áp dụng cho đường di cư qua đập Phước Hòa
27 p |
151 |
4
-
Tóm tắt luận án Tiến sĩ Kinh tế: Các nhân tố ảnh hưởng đến cấu trúc kỳ hạn nợ phương pháp tiếp cận hồi quy phân vị và phân rã Oaxaca – Blinder
28 p |
176 |
3
-
Tóm tắt luận án Tiến sĩ Kinh tế: Phát triển sản xuất chè nguyên liệu bền vững trên địa bàn tỉnh Phú Thọ các nhân tố tác động đến việc công bố thông tin kế toán môi trường tại các doanh nghiệp nuôi trồng thủy sản Việt Nam
25 p |
319 |
2


Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn
