intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Toán học: Một số phương pháp ước lượng tuổi thọ trung bình

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:96

2
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Toán học "Một số phương pháp ước lượng tuổi thọ trung bình" trình bày các nội dung chính sau: Các phương pháp mới được đề xuất cho ước lượng tuổi thọ trung bình; Các kết quả áp dụng các phương pháp (phương pháp KaplanMeier, phương pháp LP, phương pháp Chiang, phương pháp Silcocks) trên bộ số liệu thực tế FilaBavi.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Một số phương pháp ước lượng tuổi thọ trung bình

  1. VIỆN HÀM LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN TOÁN HỌC NGUYỄN THANH NGA MỘT SỐ PHƯƠNG PHÁP ƯỚC LƯỢNG TUỔI THỌ TRUNG BÌNH LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2024
  2. VIỆN HÀM LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN TOÁN HỌC NGUYỄN THANH NGA MỘT SỐ PHƯƠNG PHÁP ƯỚC LƯỢNG TUỔI THỌ TRUNG BÌNH Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học Mã số: 9 46 01 06 LUẬN ÁN TIẾN SĨ TOÁN HỌC Người hướng dẫn: PGS.TS HỒ ĐĂNG PHÚC Hà Nội - 2024
  3. Tóm tắt Luận án này được dành để nghiên cứu về một số phương pháp ước lượng tuổi thọ trung bình. Luận án gồm 3 chương chính. Trong Chương 1, chúng tôi nhắc lại các kiến thức chuẩn bị gồm: một số kiến thức trong lý thuyết xác suất, lý thuyết phân tích sống sót (mô hình phân tích sống sót, ước lượng Kaplan-Meier). Bên cạnh đó, chúng tôi cũng trình bày về hai phương pháp ước lượng tuổi thọ trung bình (phương pháp Chiang, phương pháp Silcocks) hiện đang được sử dụng rộng rãi và một số vấn đề tồn tại của hai phương pháp này. Ngoài ra, chúng tôi cũng giới thiệu về phương pháp Bootstrap - một phương pháp thống kê hiện đại đơn giản và có tính ứng dụng cao. Cuối cùng, chúng tôi giới thiệu về bộ số liệu thực tế FilaBavi. Trong Chương 2, chúng tôi đề xuất hai phương pháp mới cho ước lượng tuổi thọ trung bình. Phương pháp thứ nhất (được đặt tên là phương pháp Kaplan-Meier) được xây dựng dựa trên ước lượng Kaplan-Meier cho hàm sống sót và áp dụng cho dữ liệu bán thuần tập (trích xuất thông tin từ dữ liệu được ghi đầy đủ ngày sinh và ngày mất của tất cả các quan sát trong một khoảng thời gian nhất định) nhằm đem lại một kết quả khá chính xác cho ước lượng tuổi thọ trung bình. Phương pháp thứ hai (được đặt tên là phương pháp tham số hóa địa phương) được xây dựng dựa trên mô hình tham số hóa địa phương quá trình sống sót theo phân phối Weibull và áp dụng cho dữ liệu thu gon (chỉ chứa một cặp số người chết và số người trong mỗi khoảng tuổi - kiểu dữ liệu thường được sử dụng trong ước lượng tuổi thọ trung bình). Với phương pháp này chúng tôi đã xây dựng được công thức ước lượng tuổi thọ trung bình, công thức tính phương sai của ước lượng, chứng minh ước lượng có phân phối tiệm cận chuẩn để từ đó đưa ra công thức cho khoảng tin cậy cho tuổi thọ trung bình. Trong Chương 3, chúng tôi trình bày các kết quả áp dụng các phương pháp (phương pháp Kaplan-Meier, phương pháp tham số hóa địa phương, phương pháp Chiang, phương pháp Silcocks) trên bộ dữ liệu thực tế FilaBavi. Các kết quả tính toán cho thấy, phương pháp tham số hóa địa phương có ước lượng tuổi thọ trung bình chính xác và hiệu quả hơn so với phương pháp Chiang, phương pháp Silcocks. ii
  4. Abstract This thesis is devoted to studying some methods for estimating life expectancy. The thesis consists of 3 chapters. In Chapter 1, we review the preparatory knowledge including some knowledge in probability theory, and survival analysis theory (survival analysis model, Kaplan- Meier estimation). In addition, we present two methods of estimating average life expectancy (Chiang method, Silcocks method) that are currently widely used, as well as some existing problems with these two methods. Besides, we introduce the Bootstrap method, which is a simple and highly applicable modern statistical method. Finally, we introduce the FilaBavi data set. In Chapter 2, we propose two new methods for estimating life expectancy. The first method (named the Kaplan-Meier method) is built based on the Kaplan- Meier estimate for the survival function. It is applied to the semi-cohort dataset, extracting complete information from data fully recorded birth date and death date of all death individuals, providing the most accurate estimation of life ex- pectancy. Therefore, that method can be adopted as a "standard" in the accuracy investigation of other life expectancy estimations. The second method, called the local parametric method, is tailored according to the theoretical background of the survival process with local parametric Weibull distributions and can be applied to abridged datasets containing only a pair of number of deaths and persons in each age group. With this method, we have built a formula to estimate the average life expectancy and variance of the estimate, proving that the estimate has an approximately normal distribution to then provide a formula for the confidence interval of the life expectancy. In Chapter 3, we present the results of applying the methods (Kaplan-Meier method, local parametric method, Chiang method, Silcocks method) on the real FilaBavi data set. The calculation results show that the local parameter method provides a more accurate and higher effective life expectancy estimation than the Chiang and Silcocks methods. iii
  5. Lời cam đoan Tôi xin cam đoan luận án này là công trình nghiên cứu của tôi, dưới sự hướng dẫn của PGS.TS Hồ Đăng Phúc. Những kết quả được trích từ các bài báo được viết chung đã nhận được sự cho phép sử dụng của các đồng tác giả khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được một ai khác công bố. Tác giả Nguyễn Thanh Nga iv
  6. Lời cảm ơn Lời đầu tiên tôi xin gửi lời cảm ơn chân thành đến PGS.TS Hồ Đăng Phúc, người hướng dẫn khoa học cho luận án của tôi. Đối với tôi, thầy là một con người hiền lành và thân thiện, thầy luôn khiến tôi cảm thấy khâm phục về sự hiểu biết của thầy trong rất nhiều lĩnh vực. Tôi rất biết ơn những công lao của thầy đã giúp tôi có thể bước chân trên con đường làm nghiên cứu sinh của mình. Tôi xin trân trọng cảm ơn Viện Toán học - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Trung tâm đào tạo Sau đại học đã tạo những điều kiện tốt nhất trong suốt quá trình làm nghiên cứu sinh của tôi. Tôi cũng xin gửi lời cảm ơn chân thành đến GS.TSKH Đoàn Thái Sơn, TS. Phạm Việt Hùng, TS. Cấn Văn Hảo và các thành viên của Phòng Lý thuyết xác suất và Thống kê toán học đã luôn giúp đỡ, động viên và cho tôi những lời khuyên vô cùng quí báu về nghiên cứu của tôi. Tôi cũng xin gửi lời cảm ơn đến PGS.TS Ngô Hoàng Long (Đại học Sư phạm Hà Nội), người đã tận tình giúp đỡ và có nhiều đóng góp khoa học đối với các bài báo của tôi. Tôi cũng xin đặc biệt gửi lời cảm ơn đến TS. Trịnh Thị Hường (Đại học Thương mại Hà Nội) - người bạn thân thiết, người đồng hành và luôn hỗ trợ tôi trong mọi lúc khó khăn trên con đường nghiên cứu sinh của tôi. Và còn rất nhiều lời cảm ơn tôi muốn gửi đến những người đã luôn động viên và giúp đỡ tôi trong suốt thời gian 7 năm vừa qua. Lời cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, bố mẹ và anh trai tôi, những người đã luôn ở bên tôi, động viên tôi trong mọi hoàn cảnh để tôi có thể hoàn thành được luận án này. Hà Nội, tháng 11, 2023 Nguyễn Thanh Nga v
  7. Mục lục Bảng các kí hiệu viii Lời mở đầu 1 1 Một số kiến thức chuẩn bị 5 1.1 Một số kiến thức trong lý thuyết xác suất . . . . . . . . . . . . . . 5 1.1.1 Một số khái niệm về sự hội tụ của dãy biến ngẫu nhiên . . . 5 1.1.2 Định lý giới hạn trung tâm . . . . . . . . . . . . . . . . . . 6 1.2 Mô hình phân tích sống sót . . . . . . . . . . . . . . . . . . . . . 7 1.2.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . 7 1.2.2 Một số phân phối thông dụng trong lý thuyết phân tích sống sót . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2.3 Dữ liệu mất theo dõi . . . . . . . . . . . . . . . . . . . . . 10 1.3 Ước lượng Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . 12 1.3.1 Trường hợp dữ liệu không bị mất theo dõi . . . . . . . . . . 12 1.3.2 Ước lượng Kaplan-Meier cho hàm sống sót . . . . . . . . . 13 1.3.3 Ước lượng Breslow cho hàm rủi ro tích lũy . . . . . . . . . 16 1.3.4 Ước lượng Nelson-Aalen cho hàm rủi ro tích lũy . . . . . . 17 1.4 Kiểm định so sánh hàm sống sót giữa các nhóm . . . . . . . . . . 18 1.4.1 So sánh hàm sống sót giữa hai nhóm . . . . . . . . . . . . 18 1.4.2 So sánh hàm sống sót giữa nhiều nhóm . . . . . . . . . . . 20 1.5 Ước lượng tuổi thọ trung bình . . . . . . . . . . . . . . . . . . . . 22 1.5.1 Khái niệm bảng sống . . . . . . . . . . . . . . . . . . . . . 22 1.5.2 Tuổi thọ trung bình . . . . . . . . . . . . . . . . . . . . . 22 1.5.3 Phương pháp Chiang . . . . . . . . . . . . . . . . . . . . . 23 1.5.4 Phương pháp Silcocks . . . . . . . . . . . . . . . . . . . . 27 1.6 Phương pháp Bootstrap . . . . . . . . . . . . . . . . . . . . . . . 29 1.7 Giới thiệu bộ số liệu FilaBavi . . . . . . . . . . . . . . . . . . . . 32 1.8 Kết luận của Chương 1 . . . . . . . . . . . . . . . . . . . . . . . 34 vi
  8. 2 Phương pháp mới cho ước lượng tuổi thọ trung bình 35 2.1 Phương pháp Kaplan-Meier cho ước lượng tuổi thọ trung bình . . . 36 2.1.1 Phương pháp ước lượng tuổi thọ trung bình với dữ liệu thuần tập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.1.2 Phương pháp Kaplan-Meier cho ước lượng tuổi thọ trung bình với dữ liệu bán thuần tập . . . . . . . . . . . . . . . . 38 2.2 Phương pháp tham số hóa địa phương cho ước lượng tuổi thọ trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2.1 Mô hình tham số hóa địa phương cho quá trình sống sót . . 40 2.2.2 Ước lượng tuổi thọ trung bình theo mô hình tham số hóa địa phương . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3 Kết luận của Chương 2 . . . . . . . . . . . . . . . . . . . . . . . 65 3 So sánh các phương pháp ước lượng tuổi thọ trung bình khác nhau dựa trên dữ liệu thực tế 66 3.1 So sánh về kết quả ước lượng tuổi thọ trung bình giữa các phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2 So sánh phương sai và khoảng tin cậy của ước lượng tuổi thọ trung bình giữa các phương pháp . . . . . . . . . . . . . . . . . . . . . 70 3.3 So sánh ảnh hưởng của quy mô quần thể đến ước lượng tuổi thọ trung bình giữa các phương pháp . . . . . . . . . . . . . . . . . . 71 3.4 Kết luận của Chương 3 . . . . . . . . . . . . . . . . . . . . . . . 75 Phụ lục A 77 Công trình liên quan đến luận án 81 Bảng thuật ngữ 82 Tài liệu tham khảo 84 vii
  9. Bảng các kí hiệu Exp(λ) phân phối mũ tham số λ W (λ, k) phân phối Weibull tham số λ, k LN (µ, σ 2 ) phân phối Log-normal tham số µ, σ Gamma(γ, λ) phân phối Gamma tham số γ, λ ϕ(t), φ(t) hàm phân phối, hàm mật độ phân phối chuẩn tắc H(., ., .) phân phối siêu bội χ2 (n) phân phối Khi bình phương n bậc tự do N (0, 1) phân phối chuẩn tắc Γ(.) hàm Gamma Cov(X, Y ) hiệp phương sai của X và Y E[X] kì vọng của X Var[X] phương sai của X A⊥ ma trận chuyển vị của ma trận A A−1 ma trận nghịch đảo của ma trận A h.c.c −→ hội tụ hầu chắc chắn D −→ hội tụ theo phân phối P −→ hội tụ theo xác suất. viii
  10. Lời mở đầu Tuổi thọ trung bình, cách gọi thông thường của kì vọng sống (life expectancy), thường được hiểu là thời gian sống trung bình của con người, đã được sử dụng làm thước đo tình trạng sức khỏe của người dân Anh và xứ Wales kể từ những năm 1840. Ví dụ, vào năm 1841 tuổi thọ của nam giới ở Surrey là 44 tuổi, so với 25 tuổi của nam giới ở Liverpool. Đồng thời, tuổi thọ trung bình đã được William Farr sử dụng để đánh giá sức khỏe của người dân và dùng để so sánh về sức khỏe giữa các quốc gia (xem [1]). Tuổi thọ trung bình cũng được coi là chỉ số tổng hợp đáng chú ý nhất phản ảnh mức độ tử vong của một quần thể (xem [2]). Ngày nay, tuổi thọ trung bình cũng được các nhà nghiên cứu lựa chọn là một chỉ số để đánh giá sự chênh lệch về tỷ lệ tử vong giữa các nhóm dân cư được phân chia theo khu vực địa lý và theo tính chất nhân khẩu học xã hội (xem [3]). Có nhiều phương pháp khác nhau được xây dựng nhằm ước lượng tuổi thọ trung bình, trong đó phương pháp xây dựng bảng sống nhằm ghi lại tỉ lệ sống sót ở mỗi độ tuổi thường được các nhà nhân khẩu học sử dụng. Về mặt lý thuyết, để xác định tuổi thọ trung bình thực sự cần phải có dữ liệu thuần tập, tức là dữ liệu theo dõi của các cá thể của quẩn thể trong hơn 100 năm (tính từ thời điểm sinh ra cho đến lúc chết đi của mọi quan sát) và các bảng sống được xây dựng dựa trên dữ liệu thuần tập (còn được gọi là bảng sống thuần tập) là không thực tế và khó xây dựng được. Tuy nhiên, với bảng tuổi thọ nhân khẩu học hiện tại (còn được gọi là bảng sống hiện tại) với dữ liệu thu gọn chỉ gồm số người chết và dân số được ghi nhận theo các khoảng tuổi, chúng ta có thể định nghĩa tuổi thọ trung bình khi sinh là tuổi thọ trung bình của một đứa trẻ mới sinh, nếu tỉ lệ tử vong cụ thể theo tuổi hiện tại đang hoặc sẽ có hiệu lực trong tương lai. Do đó, tuổi thọ trung bình khi sinh ở một khu vực có thể được xác định là ước tính số năm trung bình mà một đứa trẻ mới sinh sẽ sống sót, nếu trong suốt cuộc đời của mình các đứa trẻ đó đều sống trong khu vực có cùng sự tương đồng về tỉ lệ tử vong theo tuổi trong khoảng thời gian nghiên cứu. Đã có rất nhiều nghiên cứu về việc xây dựng bảng sống dạng này (xem [4], [5], [6]). Tuy nhiên, nhìn chung nhiều nhà thống kê đã nhận thấy là các nghiên cứu này chưa được thỏa đáng vì thiếu nền tảng rõ ràng 1
  11. về mặt lý thuyết (xem [7], [8]). Theo thời gian, các nhà nghiên cứu tiếp tục hoàn thiện và phát triển các phương pháp ước lượng tuổi thọ trung bình dựa trên việc xây dựng bảng sống hiện tại. Cụ thể, một số phương pháp đã được các nhà thống kê đánh giá cao về nền tảng lý thuyết cũng như tính ứng dụng, trong đó nổi bật là phương pháp Chiang (xem [9], [8]). Phương pháp Chiang sử dụng bảng sống hiện tại dạng rút gọn để tổng hợp dữ liệu về số người chết và dân số theo các khoảng tuổi dưới 1, 1–4, 5–9 ... 80–84, 85 tuổi trở lên. Dữ liệu tổng hợp về số ca tử vong và dân số ở các nhóm tuổi giúp tính toán tỉ suất tử vong đặc trưng theo khoảng tuổi và từ đó được sử dụng để ước tính xác suất tử vong ở mỗi khoảng tuổi. Những xác suất này sau đó được áp dụng trên một quần thể giả định gồm tập hợp các trẻ em lúc mới sinh, để tạo ra công thức ước tính tuổi thọ trung bình. Tuy nhiên nhiều nghiên cứu đã chỉ ra một số vấn đề tồn tại trong phương này. Cụ thể, một số nghiên cứu như [10], [11], [12] đã chỉ ra kết quả ước lượng kì vọng sống theo phương pháp Chiang bị sai lệch do ảnh hưởng bởi ước lượng tỉ suất chết ở mỗi khoảng tuổi Mi và xác suất chết ở mỗi khoảng tuổi qi (xem [7], [13], [10]). Bên cạnh đó, phương pháp Chiang không xây dựng được công thức để tính toán tỉ phần sống sót trung bình ở mỗi khoảng tuổi (kí hiệu là ai ), và với việc coi ai = 0.5 sẽ dẫn đến hàm sống sót trên mỗi khoảng tuổi sẽ có dạng tuyến tính, điều này được coi là không phù hợp đối với những khoảng tuổi có độ dài 5 năm (xem [14]). Một hạn chế khác trong phương pháp Chiang, cũng như phương pháp Silcocks đã được nhiều nghiên cứu đề cập đến đó là khi quần thể dân số có kích thước giảm dần thì sai số chuẩn của các ước lượng tuổi thọ trung bình sẽ tăng lên (xem [15], [16]). Ngoài ra, trong trường hợp khoảng tuổi không có sự kiện chết xảy ra cũng sẽ gây khó khăn cho việc tính toán phương sai của ước lượng tuổi thọ trung bình theo phương pháp Chiang. Luận án này đề cập đến việc sử dụng lý thuyết phân tích sống sót nhằm đề xuất phương pháp mới cho ước lượng tuổi thọ trung bình và có thể khắc phục được một số vấn đề của phương pháp Chiang. Những kết quả của luận án có thể thực hiện và áp dụng cho số liệu thực tế, cung cấp thêm một công cụ cho ước lượng tuổi thọ trung bình, nhằm giúp các nhà nhân khẩu học, nhà nghiên cứu, nhà hoạch định chính sách đưa ra những so sánh, đánh giá, nhận định về các vấn đề liên quan đến xã hội, sức khỏe, y tế, bảo hiểm, ... Luận án gồm 3 chương chính: Chương 1 nhắc lại một số kiến thức cơ bản liên quan đến lý thuyết xác suất, lý thuyết phân tích sống sót và phương pháp ước lượng tuổi thọ trung bình. Cụ thể, Phần 1.1 nhắc lại một số kiến thức trong lý thuyết xác suất; Phần 1.2 giới thiệu 2
  12. sơ lược về mô hình phân tích sống sót (hàm sống sót, hàm tỉ suất rủi ro, hàm rủi ro tích lũy), một số phân phối thông dụng trong lý thuyết phân tích sống sót (như phân phối mũ, phân phối Weibull,..) và dữ liệu mất theo dõi. Trong Phần 1.3 chúng tôi trình bày về ước lượng Kaplan-Meier cho hàm sống sót (xem [17]) và các tính chất, và một số ước lượng khác cho hàm rủi ro tích lũy. Ước lượng Kaplan-Meier cho hàm sống sót đóng vai trò then chốt cho một số kết quả được tình bày ở các chương sau. Phần 1.4 được dành để trình bày về các kiểm định so sánh hàm sống sót giữa các nhóm. Trong Phần 1.5 chúng tôi trình bày về hai phương pháp ước lượng tuổi thọ trung bình đang được sử dụng một cách rộng rãi là phương pháp Chiang (xem [8]), phương pháp Silcocks (xem [18]), bên cạnh đó chúng tôi chỉ ra những vẫn đề còn tồn tại của hai phương pháp này. Phần 1.6 dành để nói về phương pháp Bootstrap - một phương pháp thống kê hiện đại đơn giản và có tính ứng dụng cao (xem [19]), phương pháp này được sử dụng nhằm trình bày một số kết quả ở Chương 3. Cuối cùng, phần 1.7 giới thiệu về bộ số liệu thực tế FilaBavi được áp dụng cho các kết quả tính toán ở Chương 3. Chương 2 trình bày các phương pháp mới được đề xuất cho ước lượng tuổi thọ trung bình. Cụ thể, Phần 2.1 chúng tôi trình bày về phương pháp Kaplan-Meier cho ước lượng tuổi thọ trung bình, áp dụng cho dữ liệu bán thuần tập (dữ liệu gồm thông tin chi tiết về ngày sinh, ngày chết, ngày mất theo dõi của các cá thể trong 1 năm theo dõi từ 1/1 đến 31/12), phương pháp này được xây dựng dựa trên ước lượng Kaplan-Meier cho hàm sống sót. Kết quả ước lượng của phương pháp này được coi là khá chính xác và được dùng là "tiêu chuẩn" cho đánh giá kết quả ước lượng tuổi thọ trung bình của các phương pháp khác. Trong Phần 2.2, chúng tôi trình bày phương pháp tham số hóa địa phương (phương pháp LP) cho ước lượng tuổi thọ trung bình, áp dụng cho tập dữ liệu thu gọn. Phương pháp này được xây dựng dựa trên mô hình tham số hóa địa phương quá trình sống sót theo phân phối Weibull. Từ mô hình này, chúng tôi đưa ra hai cách tiếp cận cho ước lượng tuổi thọ trung bình, cách thứ nhất đưa ra công thức trực tiếp từ mô hình tham số hóa địa phương, cách thứ hai dựa trên xây dựng bảng sống hiện tại. Ngoài ra, chúng tôi cũng xây đựng được công thức tính phương sai của ước lượng theo phương pháp LP, chứng minh được ước lượng này có phân phối tiệm cận chuẩn, và từ đó đưa ra công thức cho khoảng tin cậy của tuổi thọ trung bình. Chương 3 trình bày các kết quả áp dụng các phương pháp (phương pháp Kaplan- Meier, phương pháp LP, phương pháp Chiang, phương pháp Silcocks) trên bộ số liệu thực tế FilaBavi. Các kết quả tính toán được thực hiện dựa trên phần mềm R. Phần 3.1 chúng tôi trình bày so sánh về kết quả ước tính tuổi thọ trung bình của 3
  13. bốn phương pháp nêu trên, kết quả cho thấy khi so sánh với kết quả từ phương pháp Kaplan-Meier thì phương pháp LP cho kết quả ít sai lệch hơn so với phương pháp Chiang và phương pháp Silcocks. Phần 3.2 chúng tôi trình bày kết quả so sánh về ước tính phương sai và khoảng tin cậy giữa phương pháp LP và phương pháp Chiang. Kết quả cho thấy phương sai của ước lượng theo phương pháp mới đề xuất nhỏ hơn phương sai của ước lượng theo phương pháp Chiang, đồng thời cũng cung cấp khoảng tin cậy hẹp hơn. Phần 3.3 kết thúc bằng việc thảo luận về so sánh ảnh hưởng của quy mô quần thể đến ước tính tuổi thọ trung bình giữa phương pháp LP và phương pháp Chiang. Cụ thể, khi xem xét trên kích thước của quần thể là 5000 đối với dữ liệu nam giới, và 5000 đối với dữ liệu của nữ giới thì ước lượng tuổi thọ trung bình của hai phương pháp không có nhiều biến động, trong khi đó phương sai của các ước lượng đều tăng lên. Tuy nhiên do phương sai của ước lượng theo phương pháp LP nhỏ hơn 2 lần so với phương sai theo phương pháp Chiang, nên khoảng tin cậy của ước lượng theo phương pháp LP hẹp hơn so với với phương pháp Chiang. Điều này giúp phương pháp LP có lợi thế hơn phương pháp Chiang trong việc so sánh sự khác biệt giữa tuổi thọ trung bình của nam giới và nữ giới ở những quần thể có kích thước nhỏ. 4
  14. Chương 1 Một số kiến thức chuẩn bị Chương này trình bày các kiến thức chuẩn bị cho luận án: một số kiến thức trong lý thuyết xác suất, mô hình phân tích sống sót, Ước lượng Kaplan-Meier, kiểm định so sánh giữa các hàm sống sót, ước lượng tuổi thọ trung bình theo phương pháp Chiang và Silcocks, phương pháp Boostrap và giới thiệu về bộ số liệu FilaBavi. Nội dung của chương này được tham khảo chủ yếu từ các tài liệu [8], [9], [18], [19] [20], [21], [22],[23], [24]. 1.1 Một số kiến thức trong lý thuyết xác suất Trong phần này, chúng tôi trình bày một số kiến thức về sự hội tụ của dãy biến ngẫu nhiên và Định lý giới hạn trung tâm được tham khảo từ tài liệu [23]. 1.1.1 Một số khái niệm về sự hội tụ của dãy biến ngẫu nhiên Định nghĩa 1.1.1 (Hội tụ hầu chắc chắn) Dãy biến ngẫu nhiên (Xn ) được gọi là hội tụ hầu chắc chắn (h.c.c) đến biến ngẫu nhiên X nếu A = ω : lim Xn (ω) ̸= X(ω) có P(A) = 0. n→∞ h.c.c Kí hiệu, Xn −→ X . Định nghĩa 1.1.2 (Hội tụ theo xác suất) Dãy biến ngẫu nhiên (Xn ) được gọi là hội tụ theo xác suất đến biến ngẫu nhiên X nếu với ϵ > 0 bất kì lim P ({ω : |Xn (ω) − X(ω)| > ε}) = 0. n→∞ P Kí hiệu, Xn −→ X . 5
  15. Định nghĩa 1.1.3 (Hội tụ yếu) Dãy hàm phân phối (Fn ) được gọi là hội tụ yếu đến hàm phân phối F trong Rd (d ≥ 1) nếu với mỗi hàm f liên tục và bị chặn trong Rd thì lim f (x)dFn (x) = f (x)dF (x). n→∞ Rd Rd Định nghĩa 1.1.4 (Hội tụ theo phân phối) Giả sử (Xn ), X là các biến ngẫu nhiên xác định trên Rd (d ≥ 1). Ta nói dãy biến ngẫu nhiên (Xn ) gọi là hội tụ theo phân phối đến biến ngẫu nhiên X nếu dãy hàm phân phối tương ứng (Fn ) hội D tụ yếu đến hàm phân phối F . Kí hiệu, Xn −→ X . 1.1.2 Định lý giới hạn trung tâm Định lý 1.1 (Định lý giới hạn trung tâm) Giả sử (Xj )j≤1 là dãy biến ngẫu nhiên độc lập, cùng phân phối với E[Xj ] = µj và Var[Xj ] = σ 2 , 0 < σ 2 < ∞. n Đặt Sn = j=1 Xj . Khi đó, Sn − nµ D √ −→ N (0, σ 2 ) n Định nghĩa 1.1 (Phân bố chuẩn nhiều chiều) Véc tơ ngẫu nhiên X = (X1 , X2 , . . . , Xd ) được gọi là có phân bố chuẩn nhiều chiều nếu đối với mọi véc tơ hằng số (α1 , α2 , . . . , αd ) thì tổ hợp tuyến tính α1 X1 + α2 X2 + . . . + αd Xd đều là biến ngẫu nhiên có phân phối chuẩn. Từ định nghĩa này ta thu được một số kết quả như sau: Mệnh đề 1.1 Nếu véc tơ ngẫn nhiên X = (X1 , X2 , . . . , Xd ) có phân phối chuẩn nhiều chiều thì • Mỗi biến ngẫu nhiên Xi , i = 1, 2, . . . , d đều có phân phối chuẩn. • Mỗi véc tơ con đều có phân phối chuẩn nhiều chiều. Định lý 1.2 (Định lý giới hạn trung tâm nhiều chiều) Giả sử X 1 , X 2 , . . . , X n là dãy Rd -véc tơ ngẫu nhiên độc lập, cùng phần phối với véc tơ kì vọng µ = E[Xj ], j = 1, 2, . . . , d và ma trận hiệp phương sai Σ: Σ = (Σk,l )1≤k,l≤n , với Σk,l = Cov Xjk , Xjl , với Xjk là thành phần thứ k của véc tơ Xj . Đặt S n = X 1 +···+X n n , khi đó √ D n (S n − µ) −→ N (0, Σ). Định lý 1.3 (Định lý Slutsky) Giả sử (X n ), (Y n ) là dãy Rd -véc tơ ngẫu nhiên, D P D nếu X n − X và ∥X n − Y n ∥ → 0 thì Y n − X . → − → 6
  16. 1.2 Mô hình phân tích sống sót Nghiên cứu sống sót là sự mô tả của một vòng đời hoặc một quá trình sống trước khi có sự thay đổi về một trạng thái nào đó, tức là có sự kiện xảy ra. Phân tích sống sót được hiểu là các phương pháp để phân tích dữ liệu với biến đầu vào là khoảng thời gian cho tới lúc xảy ra sự kiện được quan tâm, còn được gọi là thời gian sống sót. Kiểu dữ liệu này có tên gọi là dữ liệu sống sót. • Sự kiện là chỉ sự kiện được quan tâm như: chết, mắc bệnh, thất nghiệp, ... • Thời gian được đo bởi ngày, tuần, tháng, năm, ... Ví dụ 1.2.1 Nếu sự kiện mà nghiên cứu quan tâm là bệnh nhân bị đột quỵ tim, thì thời gian sống sót được hiểu là khoảng thời gian tính từ lúc bắt đầu nghiên cứu cho tới khi quan sát được bệnh nhân bị đột quỵ tim (có thể tính bằng ngày, tuần, tháng,...). 1.2.1 Các khái niệm cơ bản Giả sử T là biến ngẫu nhiên không âm chỉ thời gian sống sót với hàm phân phối xác suất F (t). Định nghĩa 1.2 (Hàm sống sót) Hàm sống sót, kí hiệu là S(t), là xác suất để một cá thể sống quá thời gian t S(t) = P(T > t). (1.1) Nhận thấy,  1 nếu t = 0, S(t) = 0 nếu t = +∞. Theo đó, kì vọng của biến ngẫu nhiên T có thể biểu thị thông qua hàm sống sót +∞ +∞ E[T ] = tdF (t) = S(t)dt. (1.2) 0 0 Định nghĩa 1.3 (Hàm tỉ suất rủi ro) Hàm tỉ suất rủi ro, kí hiệu là h(t) P(t ≤ T < t + ∆t | T ≥ t) h(t) = lim . (1.3) ∆t−→0 ∆t 7
  17. Hàm tỉ suất rủi ro phản ảnh xác suất tức thời để xảy ra sự kiện tại thời điểm t trên một đơn vị thời gian với điều kiện cá thể đó đã sống sót đến thời điểm t. Hàm h(t) có thể tăng, giảm, là hằng số, hoặc có thể là kết hợp các quá trình đó. Nếu T là biến ngẫu nhiên liên tục với hàm mật độ xác suất f (t). Từ công thức (1.3), ta có f (t) f (t) h(t) = = . 1 − F (t) S(t) Định nghĩa 1.4 (Hàm tỉ suất rủi ro tích lũy) Hàm tỉ suất rủi ro tích lũy, kí hiệu là H(t) t H(t) = h(u)du. (1.4) 0 Có thể chứng minh các hàm trên có mối quan hệ như sau: t S(t) = e− 0 h(u)du = e−H(t) ; H(t) = − ln(S(t)); t f (t) = h(t)S(t) = h(t)e− 0 h(u)du . Trường hợp đặc biệt: Nếu T là biến ngẫu nhiên rời rạc nhận các giá trị t1 < t2 < ... < tn < .... Khi đó, F (t) = pi , i:ti ⩽t trong đó, pi = P (T = ti ). Hàm tỉ suất rủi do được xác định bởi pi h (ti ) = P (T = ti | T ⩾ ti ) = . S (ti−1 ) Hàm rủi ro tích lũy được xác định bởi H(t) = h (ti ) . i:ti ⩽t Hàm sống sót được xác định bởi S(t) = [1 − h (ti )] . i:ti ⩽t 1.2.2 Một số phân phối thông dụng trong lý thuyết phân tích sống sót Do đại lượng chỉ thời gian sống sót là một biến ngẫu nhiên nên việc xác định phân phối của biến ngẫu nhiên này giúp ta có thể tìm hiểu được các vấn đề của lý 8
  18. thuyết thống sót. Trong mục này, chúng tôi xin được trình bày một số phân phối phổ biến được dùng trong lý thuyết phân tích sống sót như: phân phối mũ, phân phối Weibull, phân phối Log–normal, phân phối Gamma. 1. Phân phối mũ Giả sử T ∼ Exp(λ) với hàm mật độ xác suất  λe−λt nếu t ≥ 0, f (t) = 0 nếu t < 0. Khi đó S(t) = e−λt ; h(t) = λ; H(t) = λt. Nhận thấy, h(t) = λ là hằng số nên phân phối mũ phù hợp với những sự kiện xảy ra mà không phụ thuộc vào thời gian. Bên cạnh đó, khi xét trong những khoảng tuổi ngắn và sự kiện xảy ra có tính ổn định thì phân phối mũ vẫn được áp dụng. Chẳng hạn, trong nghiên cứu về dân số thì tỉ suất chết, tỉ suất mắc một loại bệnh nào đó có thể coi là hằng số trong những khoảng tuổi đơn lẻ. Ngoài ra, do S(t) = e−λt suy ra ln S(t) = −λt nên ln S(t) là một hàm tuyến tính theo biến t. 2. Phân phối Weibull Giả sử T ∼ W (λ, k) với hàm mật độ xác suất  kλk tk−1 e−(λt)k , nếu t ≥ 0 f (t) = 0, nếu t < 0. trong đó, λ > 0 là hệ số co dãn, k > 0 là hệ số hình dạng. Khi đó k S(t) = e−(λt) ; h(t) = kλ(λt)k−1 ; H(t) = (λt)k . Nhận thấy, nếu k < 1 thì h(t) là hàm giảm, k = 1 thì h(t) = λ là hằng số, và k > 1 thì h(t) là hàm tăng. Ngoài ra, do H(t) = (λt)k suy ra ln H(t) = k ln λ + k ln t nên H(t) là hàm tuyến tính theo ln(t). 3. Phân phối Log-normal Giả sử X ∼ LN (µ, σ 2 ) với hàm mật độ xác suất 1 − −(ln t−µ)2 f (t) = √ e 2σ 2 , t > 0. tσ 2π 9
  19. Khi đó ln t − µ S(t) = 1 − ϕ ; σ f (t) 1 tσ φ ln t−µ σ h(t) = = ln t−µ , S(t) 1 − ϕ σ với ϕ(t), φ(t) làm hàm phân phối xác suất, hàm mật độ xác suất của phân phối chuẩn tắc. Nhận thấy, hàm h(t) trong phân phối Log-normal có tính chất tăng mạnh tới giá trị cực đại trong khoảng thời gian đầu, sau đó sẽ giảm dần về 0 khi thời gian tiến đến vô tận, nên phân phối Log-normal phù hợp với những mô hình sống sót có hàm h(t) tăng mạnh lúc đầu, và sau đó giảm dần. 4. Phân phối Gamma Giả sử X ∼ Gamma(γ, λ), với với hàm mật độ xác suất γ λ γ−1 −λt f (t) = t e , t > 0, Γ(γ) với λ > 0 là hệ số co dãn, γ > 0 là hệ số hình dạng, và +∞ Γ(γ) = tγ−1 e−t dt. 0 Khi đó tγ−1 e−t h(t) = , Γ(γ)[1 − F (t)] với F (t) là hàm phân phối xác suất của X . Nhận thấy, nếu γ < 1 thì h(t) là hàm giảm, γ = 1 thì h(t) là hằng số, và γ > 1 thì h(t) là hàm tăng. 1.2.3 Dữ liệu mất theo dõi Trong lý thuyết phân tích sống sót, thời gian sống sót là khoảng thời gian tính từ thời điểm theo dõi cho tới lúc xáy ra sự kiện. Tuy nhiên, các quan sát trong quá trình nghiên cứu có thể bị mất theo dõi vì nhiều lý do khác nhau, do vậy tình huồng sự kiện được quan tâm có thể không xảy ra trong quá trình theo dõi, chính vì vậy thông tin về thời gian sống sót của quan sát đó là không đầy đủ. Khi đó, khoảng thời gian mà ta quan sát được của mỗi cá thể mất theo dõi gọi là thời gian cho đến mất theo dõi. Sự kiện mất theo dõi được chia cơ bản làm 2 loại: mất theo dõi bên phải, mất 10
  20. Hình 1.1: Minh họa về dữ liệu mất theo dõi. theo dõi bên trái. Mất theo dõi bên phải: Là trường hợp xảy ra khi cá thể quan sát rời khỏi nghiên cứu (quá trình theo dõi) trước khi sự kiện được quan tâm xảy ra hoặc trong trường hợp khi nghiên cứu kết thúc mà sự kiện quan tâm vẫn chưa xảy ra. Nếu T là thời gian sống sót, C là thời gian cho đến mất theo dõi thì T > C . Trong quan sát thực nghiệm, các quan sát mất theo dõi thường ở trường hợp mất theo dõi bên phải. Mất theo dõi bên trái: Là trường hợp sự kiện cần kiểm duyệt trước khi đưa vào theo dõi lại xảy ra trước khi quan sát đó được theo dõi, nhưng không biết chính xác thời điểm xảy ra sự kiện này. Nếu T là thời gian sống sót, C là thời gian cho đến mất theo dõi thì T < C . Mất theo dõi bên trái thường xảy ra ở những nghiên cứu gồm hai giai đoạn riêng biệt. Những quan sát đăng ký vào quá trình lựa chọn đầu tiên nhưng không đủ điều kiện cho quy trình thứ hai. Ví dụ 1.2.2 Thực hiện nghiên cứu trên 5 bệnh nhân nhằm xem xét thời gian từ lúc mắc bệnh cho đến lúc xảy ra sự kiên chết. Trong hình 1.1, kí hiệu TO và TC là thời điểm bắt đầu và thời điểm kết thúc nghiên cứu, D là bệnh nhân tử vong, A là bệnh nhân vẫn còn sống trong suốt thời gian nghiên cứu, L là bệnh nhân vẫn còn sống đến thời điểm TL . Khi đó, 11
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2