Thực hành phân tích gộp sử dụng STATA: Hướng dẫn chi tiết

Ngày nhận bài: 21-02-2025 / Ngày chấp nhận đăng bài: 10-03-2025 / Ngày đăng bài: 12-03-2025

*Tác giả liên hệ: Hoàng Tùng. Trường Đại học Khoa học Sức khỏe, Đại học Quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh,

Việt Nam. E-mail: htung@uhsvnu.edu.vn

https://www.tapchiyhoctphcm.vn 141

ISSN: 1859-1779

Nghiên cứu Y học

Tạp chí Y học Thành phố Hồ Chí Minh; 28(2):141-153

https://doi.org/10.32895/hcjm.m.2025.02.18

Thực hành phân tích gộp sử dụng STATA

Hoàng Tùng1,*, Trương Mai Vân1, Nguyễn Thị Huyền Trâm1, Trần Tiểu Trang1

1Trường Đại học Khoa học Sức khỏe, Đại học Quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh, Việt Nam

Tóm tắt

Đặt vấn đề: Phân tích gộp đóng vai trò quan trọng trong y học thực chứng, cho phép tổng hợp kết quả từ nhiều nghiên

cứu để đưa ra bằng chứng y học có độ tin cậy cao.

Mục tiêu: Trong nghiên cứu này, chúng tôi mô tả cách tiến hành phân tích gộp sử dụng phần mềm STATA.

Đối tượng và phương pháp nghiên cứu: Cách tiến hành được mô tả cho các trường hợp dữ liệu đầu vào bao gồm các

biến số cho từng nhóm nghiên cứu hoặc các giá trị mức độ ảnh hưởng so sánh giữa hai nhóm, khi kết quả đầu ra là biến

nhị phân hoặc biến liên tục. Đối với mỗi trường hợp, chúng tôi nêu các biến số cần thu thập từ các nghiên cứu, bố trí dữ

liệu, tính toán mức độ ảnh hưởng gộp thông qua mô hình tác động cố định và tác động ngẫu nhiên, tính toán tính bất

đồng nhất giữa các nghiên cứu sử dụng chỉ số I2, và hiển thị các kết quả đó trong biểu đồ rừng. Tiếp đó, tiến hành đánh

giá sai lệch xuất bản của vấn đề nghiên cứu sử dụng kiểm định Egger và kiểm định Begg.

Kết luận: Thông qua các ví dụ thực tế, hi vọng tài liệu sẽ hữu ích cho các bác sĩ, dược sĩ, và nghiên cứu viên, đồng thời

khuyến khích việc áp dụng phân tích gộp trong các nghiên cứu y học trong tương lai.

Từ khóa: phân tích gộp; thực hành; phần mềm STATA

Abstract

A STEP-BY-STEP META-ANALYSIS TUTORIAL USING STATA

Hoang Tung, Truong Mai Van, Nguyen Thi Huyen Tram, Tran Tieu Trang

Background: Meta-analysis is an essential statistical method in evidence-based medicine, allowing researchers to

synthesize findings from multiple studies to generate more comprehensive and robust conclusions.

Objectives: This tutorial provides a thorough introduction to meta-analysis, with a focus on conducting analyses using

STATA software, aimed at healthcare professionals, researchers, and anyone interested in medical research.

Method: We offered a detailed, step-by-step guide to conducting meta-analyses, especially for studies reporting binary

or continuous outcomes. Specifically, we covered data management for both arm-based and contrast-based data

formats, which allowed flexibility in working with various types of study designs. The tutorial guided users through

inputting study data, calculating pooled effect sizes using both fixed-effects and random-effects models, and assessing

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025

142 | https://www.tapchiyhoctphcm.vn https://doi.org/10.32895/hcjm.m.2025.02.18

study heterogeneity through the I² statistic, which helped to determine the consistency of results across studies. We

also demonstrated how to generate forest plots to visually present meta-analytic findings, offering a clear view of each

study's contribution to the pooled estimate. Additionally, to address publication bias, we included instructions on

performing Egger's and Begg's tests, providing users with methods to evaluate the potential influence of unpublished

studies on their results.

Conclusion: By using practical examples and step-by-step coding instructions, this tutorial aimed to equip users with

the skills needed to perform high-quality meta-analyses in STATA. Ultimately, this resource supports users in generating

reliable research findings that contribute to evidence-based medical practice.

Keywords: meta-analysis; tutorial; STATA

1. ĐẶT VẤN ĐỀ

Thuật ngữ “Y học dựa trên bằng chứng” được cho là bắt

nguồn từ giữa thế kỷ 19, nhấn mạnh tầm quan trọng của việc

sử dụng các bằng chứng khoa học đáng tin cậy để đưa ra

quyết định lâm sàng [1]. Trong tháp bằng chứng y học, tổng

quan hệ thống và phân tích gộp đứng ở mức cao nhất về độ

tin cậy, vì chúng kết hợp dữ liệu từ nhiều nghiên cứu độc lập,

giúp tăng cường độ chính xác và khả năng tổng quát hóa kết

quả [1].

Phân tích gộp có vai trò quan trọng trong việc làm rõ những

điểm còn tranh cãi hoặc chưa chắc chắn từ các nghiên cứu

đơn lẻ, cung cấp một bức tranh toàn diện hơn về hiệu quả của

các phương pháp điều trị hoặc các yếu tố nguy cơ [2]. Nhờ sự

kết hợp của các kết quả từ nhiều nghiên cứu, phân tích gộp

giúp tăng độ mạnh thống kê, giảm nguy cơ sai lệch và đưa ra

kết luận chính xác hơn [2]. Kết quả từ phân tích gộp cung cấp

bằng chứng quan trọng, có giá trị cao trong việc hỗ trợ đưa ra

quyết định lâm sàng, xây dựng hướng dẫn điều trị, và phát

triển chính sách y tế.

Trong các phần mềm thống kê có thể thực hiện phân tích

gộp, STATA (https://www.stata.com) tuy là một phần mềm

trả phí nhưng lại thuận tiện khi làm việc với dữ liệu, có cấu

trúc câu lệnh đơn giản và nhiều tính năng hiển thị kết quả.

Chính vì thế, trong bài nghiên cứu này, chúng tôi cung cấp

cho các bác sĩ, dược sĩ và nhà nghiên cứu hướng dẫn chi tiết

về cách thực hiện phân tích gộp bằng phần mềm STATA và

biện giải kết quả, nhằm hỗ trợ quá trình tự tiến hành phân tích

và áp dụng vào công việc chuyên môn.

2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP

NGHIÊN CỨU

2.1. Đối tượng nghiên cứu

Các dữ liệu đầu vào bao gồm các biến số cho từng nhóm

nghiên cứu hoặc các giá trị mức độ ảnh hưởng so sánh giữa

hai nhóm, lấy từ các công bố tổng quan hệ thống trước đây.

Nghiên cứu được thực hiện tại Trường Đại học Khoa học Sức

khỏe - Đại học Quốc gia Thành phố Hồ Chí Minh từ tháng

9/2024 đến tháng 12/2024.

2.2. Phương pháp nghiên cứu

2.2.1. Quy trình thực hiện

Hình 1. Sơ đồ các bước tiến hành phân tích gộp

Đầu tiên, dữ liệu từ các nghiên cứu gốc được thu thập và

mã hóa theo từng trường hợp cụ thể. Dữ liệu được phân loại

thành hai dạng chính tùy thuộc vào kết quả đầu ra: biến nhị

phân (ví dụ: tình trạng mắc bệnh hoặc không mắc bệnh, điều

trị khỏi bệnh hoặc không khỏi bệnh) hoặc biến liên tục (ví dụ:

huyết áp, lượng đường huyết, mỡ máu). Ở mỗi trường hợp,

dữ liệu cũng được bố trí khi nghiên cứu gốc cung cấp số

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025

https://doi.org/10.32895/hcjm.m.2025.02.18 https://www.tapchiyhoctphcm.vn | 143

lượng đối tượng ở từng nhóm nghiên cứu (arm-based data)

hoặc mức độ ảnh hưởng (effect size) giữa hai nhóm nghiên

cứu (contrast-based data) (Hình 1).

Tiếp theo, tùy thuộc và mức độ bất đồng nhất của kết quả

từ các nghiên cứu gốc, mô hình tác động cố định (fixed-

effects model) hoặc mô hình tác động ngẫu nhiên (random

effect model) sẽ được sử dụng để tính toán mức độ ảnh hưởng

gộp của yếu tố nguy cơ hoặc liệu pháp can thiệp. Mức độ ảnh

hưởng trong trường hợp kết quả đầu ra là biến nhị phân bao

gồm tỷ số chênh (odds ratio), nguy cơ tương đối (relative risk,

NCTĐ), và tỷ lệ rủi ro (hazard ratio). Đối với kết quả đầu ra

là biến liên tục, mức độ ảnh hưởng bao gồm khác biệt trung

bình (mean difference, KBTB) và khác biệt trung bình chuẩn

hóa (standardized mean difference). Mức độ ảnh hưởng gộp

cũng như mức độ ảnh hưởng của các nghiên cứu thành phần

và khoảng tin cậy (KTC) 95% được thể hiện trong biểu đồ

rừng (forest plot). Cuối cùng, mức độ bất đồng nhất sẽ được

báo cáo thông qua chỉ số Cochrane I2 (3) và sai lệch xuất bản

sẽ được đánh giá bằng kiểm định Egger (4) và kiểm định

Begg (5).

2.2.4. Xử lý số liệu

Trong nghiên cứu, chúng tôi sử dụng dữ liệu từ hai tổng

quan hệ thống và phân tích gộp trước đây làm ví dụ để mô tả

quy trình tiến hành và cách chạy câu lệnh trong STATA (Hình

2A-2D) [6,7]. Hai bài báo được xuất bản trên các tạp chí truy

cập mở (Open Access) theo giấy phép CC BY 4.0 và do đó

được miễn phê duyệt đạo đức và có thể sử dụng [6,7]. Các dữ

liệu này được tổng hợp thành bảng trong phần mềm Excel,

sau đó được sao chép và dán vào ô “Data Editor” trong phần

mềm STATA.

Để thực hiện các câu lệnh trong phân tích gộp, gói bổ trợ

“metan” được cài đặt theo câu lệnh: ssc install metan.

Hình 2. Mẫu dữ liệu sử dụng cho phân tích gộp trong trường hợp. (A) dữ liệu đầu vào cho từng nhóm nghiên cứu, kết quả đầu ra là

biến nhị phân; (B) dữ liệu đầu vào so sánh hai nhóm nghiên cứu, kết quả đầu ra là biến nhị phân; (C) dữ liệu đầu vào cho từng nhóm

nghiên cứu, kết quả đầu ra là biến liên tục; (D) dữ liệu đầu vào so sánh hai nhóm nghiên cứu, kết quả đầu ra là biến liên tục

3. KẾT QUẢ

3.1. Phân tích gộp cho kết quả đầu ra là biến nhị phân

3.1.1. Dữ liệu phân tích là số lượng đối tượng ở từng

nhóm nghiên cứu

Khi các nghiên cứu gốc cung cấp số lượng đối tượng ở mỗi

nhóm nghiên cứu, để tiến hành phân tích gộp với kết quả đầu

ra là biến nhị phân, chúng tôi sử dụng dữ liệu mẫu về hiệu

quả của việc sử dụng aspirin trong dự phòng biến cố tim

mạch. Trong trường hợp này, kết quả đầu ra là tình trạng tử

vong hoặc không tử vong do bệnh tim mạch [6].

Cấu trúc dữ liệu đầu vào

Phân tích gộp sử dụng dữ liệu từ 13 nghiên cứu, bao gồm

số lượng người tham gia nghiên cứu trong nhóm sử dụng

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025

144 | https://www.tapchiyhoctphcm.vn https://doi.org/10.32895/hcjm.m.2025.02.18

aspirin (biến i) và nhóm không sử dụng aspirin (biến p), cũng

như số lượng cá thể tử vong do biến cố tim mạch ở mỗi nhóm

(biến ci và cp) (Hình 2A). Sau đó, số lượng cá thể không tử

vong do biến cố tim mạch ở mỗi nhóm (biến ni và np) được

tính thông qua hàm generate với câu lệnh:

• generate ni=i-ci

• generate np=p-cp

Biểu đồ rừng

NCTĐ gộp và KTC 95% cho mối liên hệ giữa sử dụng

aspirin và tử vong do biến cố tim mạch được tính thông qua

hàm metan dựa trên mô hình tác động cố định và mô hình tác

động ngẫu nhiên lần lượt theo hai câu lệnh:

• metan ci ni cp np, xlab(0.1, 1, 2) label(namevar=study) fixed

• metan ci ni cp np, xlab(0.1, 1, 2) label(namevar=study)

random

Trong đó, tùy chọn xlab xác định cụ thể các giá trị được

hiển thị trên biểu đồ rừng của kết quả, tùy chọn label dùng để

chỉ định tên cụ thể của từng nghiên cứu được lấy từ biến

study, tùy chọn fixed được sử dụng khi tính toán theo mô hình

tác động cố định, và random khi tính toán theo mô hình tác

động ngẫu nhiên.

Theo đó, phần mềm STATA cho ra cùng kết quả ước tính

NCTĐ=0,90 (KTC 95% 0,86-0,94) cho mô hình tác động cố

định (Bảng 1A) và mô hình tác động ngẫu nhiên (Bảng 1B).

Do vậy, việc sử dụng aspirin có liên quan đến giảm 10% nguy

cơ tử vong do biến cố tim mạch, và mối liên quan này có ý

nghĩa thống kê.

Bên cạnh đó, tính bất đồng nhất về khác biệt giữa kết quả

các nghiên cứu thành phần được thể hiện qua chỉ số I2. Với

kết quả 0%, các nghiên cứu thành phần không có sự dị biệt.

Các kết quả về mức độ ảnh hưởng và tính bất đồng nhất cũng

được thể hiện trong biểu đồ rừng (Hình 3).

Sai lệch xuất bản

Để đánh giá sai lệch xuất bản, trước tiên logarit tự nhiên

của NCTĐ (biến logrr) và sai số chuẩn (biến selogrr) cho từng

nghiên cứu thành phần được tính thông qua hàm generate,

phép toán log, và phép toán sqrt theo câu lệnh sau:

• generate logrr=log((ci/i)/(cp/p))

• generate selogrr=sqrt((1/ci)-(1/i)+(1/cp)-(1/p))

Sau đó, kiểm định Egger và kiểm định Begg cho sai lệch

xuất bản được tiến hành sử dụng hàm metabias theo câu lệnh:

• metabias logrr selogrr, egger

• metabias logrr selogrr, begg

Kết quả giá trị p=0,49 trong kiểm định Egger và p=0,67

trong kiểm định Begg (p >0,05) cho thấy không có sai lệch

xuất bản trong các nghiên cứu đánh giá hiệu quả của việc sử

dụng aspirin trong dự phòng biến cố tim mạch (Hình 4).

Bảng 1. Kết quả phân tích gộp sử dụng mô hình (A) tác động cố định và (B) tác động ngẫu nhiên với dữ liệu đầu vào cho từng nhóm

nghiên cứu và kết quả đầu ra là biến nhị phân

(A)

(B)

Study

----------------

HOT

TPT

PPP

WHS

BDS

PHS

AAA

POPADAD

JPAD

JPPP

ASCEND

ARRIVE

ASPREE

----------------

M-

H pooled RR

---------

------

| RR [95% Conf. Interval] % Weight

+----------------------------------------

| 0.858 0.743 0.992 11.31

| 0.763 0.599 0.972 4.07

| 0.717 0.492 1.045 1.87

| 0.914 0.809 1.033 15.41

| 1.015 0.838 1.229 5.63

| 0.830 0.715 0.963 10.93

| 0.985 0.784 1.239 4.02

| 0.962 0.774 1.196 3.90

| 0.810 0.575 1.140 2.05

| 0.935 0.771 1.135 6.10

| 0.923 0.825 1.033 17.33

| 0.955 0.792 1.151 6.43

| 0.890 0.770 1.030 10.95

+---------------------------------------

| 0.900 0.858 0.944 100.00

----------------

-------------------

----

Study

----------

--------

HOT

TPT

PPP

WHS

BDS

PHS

AAA

POPADAD

JPAD

JPPP

ASCEND

ARRIVE

ASPREE

----------

--------

D+L pooled RR

---------

RR [95% Conf. Interval] % Weight

+------------------------------------------

| 0.858 0.743 0.992 10.85

| 0.763 0.599 0.972 3.88

| 0.717 0.492 1.045 1.60

| 0.914 0.809 1.033 15.08

| 1.015 0.838 1.229 6.17

| 0.830 0.715 0.963 10.21

| 0.985 0.784 1.239 4.33

| 0.962 0.774 1.196 4.79

| 0.810 0.575 1.140 1.93

| 0.935 0.771 1.135 6.06

| 0.923 0.825 1.033 17.93

| 0.955 0.792 1.151 6.50

| 0.890 0.770 1.030 10.69

+---------------------------------------

| 0.901 0.859 0.945 100.00

----------------

-------------------

----

Heterogeneity chi-squared = 8.42 (d.f. = 12) p = 0.751

I-squared (variation in RR attributable to heterogeneity) =

0.0%

Test of RR=1 : z= 4.34 p = 0.000

eterogeneity chi

squared = 8.4

2 (d.f. = 12) p = 0.751

I-squared (variation in RR attributable to heterogeneity) =

0.0%

Estimate of between-study variance Tau-squared = 0.0000

Test of RR=1 : z= 4.30 p = 0.000

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025

https://doi.org/10.32895/hcjm.m.2025.02.18 https://www.tapchiyhoctphcm.vn | 145

Hình 3. Biểu đồ rừng kết quả phân tích gộp sử dụng mô hình (A) tác động cố định và (B) tác động ngẫu nhiên về hiệu quả của việc

sử dụng aspirin trong dự phòng biến cố tim mạch

Hình 4. Kết quả kiểm định Egger và kiểm định Begg đánh giá sai lệch xuất bản các nghiên cứu về hiệu quả của việc sử dụng

aspirin trong dự phòng biến cố tim mạch

Thực hành phân tích gộp sử dụng STATA

Phân tích gộp đóng vai trò quan trọng trong y học thực chứng, cho phép tổng hợp kết quả từ nhiều nghiên cứu để đưa ra bằng chứng y học có độ tin cậy cao. Bài viết mô tả cách tiến hành phân tích gộp sử dụng phần mềm STATA.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi