Ngày nhận bài: 21-02-2025 / Ngày chấp nhận đăng bài: 10-03-2025 / Ngày đăng bài: 12-03-2025
*Tác giả liên hệ: Hoàng Tùng. Trường Đại học Khoa học Sức khỏe, Đại học Quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh,
Việt Nam. E-mail: htung@uhsvnu.edu.vn
© 2025 Bản quyền thuộc về Tạp chí Y học Thành phố Hồ Chí Minh.
https://www.tapchiyhoctphcm.vn 141
ISSN: 1859-1779
Nghn cứu Y học
Tạp chí Y học Thành phố Hồ Chí Minh; 28(2):141-153
https://doi.org/10.32895/hcjm.m.2025.02.18
Thc hành phân tích gp sdụng STATA
Hng Tùng1,*, Trương Main1, Nguyễn Thị Huyền Trâm1, Trần Tiểu Trang1
1Tờng Đại học Khoa học Sức khỏe, Đại học Quốc gia Thành phố HChí Minh, Thành phố HChí Minh, Việt Nam
Tóm tắt
Đặt vấn đề: Phânch gộp đóng vai trò quan trọng trong y học thực chứng, cho phép tổng hợp kết quả từ nhiều nghiên
cứu để đưa ra bằng chứng y học độ tin cậy cao.
Mục tu: Trong nghiên cứu này, chúng tôi tả cách tiếnnh phân tích gộp sử dụng phần mềm STATA.
Đối tượng và phương pháp nghiên cứu: Cách tiến hành được mô tả cho các trường hợp dữ liệu đầu vào bao gồm các
biến số cho từng nm nghiên cứu hoặc các g trị mức độ ảnh hưởng so sánh giữa hai nhóm, khi kết quả đầu ra biến
nhị phân hoặc biến liên tục. Đi với mỗi trường hợp, chúng i nêu các biến số cần thu thập từ các nghiên cứu, bố trí dữ
liệu, tính toán mức độ ảnh ởng gộp thông qua mô hình tác động cđịnh và c động ngẫu nhiên, tính toán tính bất
đồng nhất giữa các nghn cứu sdụng chỉ sI2, và hiển thị các kết quả đó trong biểu đồ rừng. Tiếp đó, tiến hành đánh
giá sai lệch xuất bản của vấn đnghiên cứu s dụng kiểm định Egger kiểm định Begg.
Kết luận: Thông qua các dụ thc tế, hi vọng i liệu sẽ hữu ích cho c bác, ợc sĩ, nghiên cứu vn, đồng thời
khuyến khích việc áp dụng phân ch gộp trong các nghiên cứu y học trong ơng lai.
Từ khóa: phânch gộp; thực hành; phần mềm STATA
Abstract
A STEP-BY-STEP META-ANALYSIS TUTORIAL USING STATA
Hoang Tung, Truong Mai Van, Nguyen Thi Huyen Tram, Tran Tieu Trang
Background: Meta-analysis is an essential statistical method in evidence-based medicine, allowing researchers to
synthesize findings from multiple studies to generate more comprehensive and robust conclusions.
Objectives: This tutorial provides a thorough introduction to meta-analysis, with a focus on conducting analyses using
STATA software, aimed at healthcare professionals, researchers, and anyone interested in medical research.
Method: We offered a detailed, step-by-step guide to conducting meta-analyses, especially for studies reporting binary
or continuous outcomes. Specifically, we covered data management for both arm-based and contrast-based data
formats, which allowed flexibility in working with various types of study designs. The tutorial guided users through
inputting study data, calculating pooled effect sizes using both fixed-effects and random-effects models, and assessing
Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
142 | https://www.tapchiyhoctphcm.vn https://doi.org/10.32895/hcjm.m.2025.02.18
study heterogeneity through the I² statistic, which helped to determine the consistency of results across studies. We
also demonstrated how to generate forest plots to visually present meta-analytic findings, offering a clear view of each
study's contribution to the pooled estimate. Additionally, to address publication bias, we included instructions on
performing Egger's and Begg's tests, providing users with methods to evaluate the potential influence of unpublished
studies on their results.
Conclusion: By using practical examples and step-by-step coding instructions, this tutorial aimed to equip users with
the skills needed to perform high-quality meta-analyses in STATA. Ultimately, this resource supports users in generating
reliable research findings that contribute to evidence-based medical practice.
Keywords: meta-analysis; tutorial; STATA
1. ĐT VẤN Đ
Thuật ng Y học dựa trên bằng chứngđược cho là bắt
nguồn từ giữa thế k19, nhấn mạnh tầm quan trọng của việc
sdụng c bằng chứng khoa học đáng tin cậy để đưa ra
quyết định lâm sàng [1]. Trong tháp bằng chứng y học, tổng
quan hệ thống và phân tích gộp đứng ở mức cao nhất về đ
tin cậy, vì chúng kết hợp dliệu từ nhiều nghiên cứu độc lập,
gp tăng cường độ chính xác khả năng tổng quát hóa kết
quả [1].
Phân tích gộp vai trò quan trọng trong việc làm những
điểm còn tranh cãi hoặc chưa chắc chắn từ c nghiên cứu
đơn lẻ, cung cấp một bức tranh toàn diện hơn vhiệu qucủa
c phương pháp điều trị hoặc các yếu tnguy [2]. Nhs
kết hợp của các kết quả từ nhiều nghiên cứu, phân tích gộp
gp tăng độ mạnh thống kê, giảm nguy sai lệch đưa ra
kết luận chính xác hơn [2]. Kết quả tphân ch gộp cung cấp
bằng chứng quan trọng, giá trcao trong việc htrđưa ra
quyết định lâm sàng, xây dựng hướng dẫn điều trị, phát
triển chínhch y tế.
Trong c phần mềm thống kê có ththực hiện phân tích
gộp, STATA (https://www.stata.com) tuy một phần mềm
trả phí nhưng lại thuận tiện khi làm việc với dữ liệu, có cấu
tc u lệnh đơn giản nhiều tính năng hiển thị kết quả.
Chính thế, trong bài nghiên cứu y, chúng i cung cấp
cho các bác sĩ, dược sĩ và nhà nghiên cứu hướng dẫn chi tiết
về cách thực hiện phân ch gộp bằng phần mềm STATA
biện giải kết quả, nhằm htrợ quá trình ttiến hành phân tích
và áp dụng vào công việc chuyênn.
2. ĐỐI TƯỢNG PHƯƠNG PHÁP
NGHIÊN CỨU
2.1. Đối tượng nghiên cứu
Các dữ liệu đầu o bao gồm c biến số cho từng nhóm
nghiên cứu hoặc các giá trị mức độ ảnh hưởng so sánh giữa
hai nhóm, lấy từ các công bố tổng quan hệ thống trước đây.
Nghn cứu được thực hiện tại Trường Đại học Khoa học Sức
khỏe - Đại học Quốc gia Thành phHồ Chí Minh ttháng
9/2024 đến tháng 12/2024.
2.2. Pơng pháp nghiên cứu
2.2.1. Quy trình thực hiện
nh 1. đồ các bước tiến hành phân tích gộp
Đầu tiên, dữ liệu từ các nghiên cứu gốc được thu thập
mã hóa theo từng trường hợp cụ thể. D liệu được phân loại
tnh hai dạng chính y thuộc o kết quả đầu ra: biến nh
phân (ví dụ: tình trạng mắc bệnh hoặc không mắc bệnh, điều
trị khỏi bệnh hoặc không khỏi bệnh) hoặc biến liên tục (ví dụ:
huyết áp, lượng đường huyết, mmáu). Ở mỗi trường hợp,
dữ liệu ng được bố tkhi nghiên cứu gốc cung cấp số
Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
https://doi.org/10.32895/hcjm.m.2025.02.18 https://www.tapchiyhoctphcm.vn | 143
lượng đối tượng từng nhóm nghiên cứu (arm-based data)
hoặc mc đảnh hưởng (effect size) giữa hai nhóm nghn
cứu (contrast-based data) (Hình 1).
Tiếp theo, tùy thuộc mức độ bất đồng nhất của kết qu
tcác nghiên cứu gốc, hình tác động cố định (fixed-
effects model) hoặc mô hình tác động ngẫu nhiên (random
effect model) sẽ được sử dụng để tính tn mức độ ảnh hưởng
gộp của yếu tnguy hoặc liệu pp can thiệp. Mức độ ảnh
ởng trong trường hợp kết quả đầu ra là biến nhphân bao
gồm tỷ số chênh (odds ratio), nguy ơng đối (relative risk,
NC), và tỷ lệ ri ro (hazard ratio). Đối với kết quả đầu ra
là biến liên tục, mức độ ảnh ng bao gồm khác biệt trung
nh (mean difference, KBTB) và kc biệt trungnh chuẩn
hóa (standardized mean difference). Mức độ ảnh ởng gộp
ng như mức độ ảnh hưởng của các nghiên cứu thành phần
và khoảng tin cậy (KTC) 95% được thhiện trong biểu đồ
rừng (forest plot). Cuối cùng, mức độ bất đồng nhất sẽ được
o cáo thông qua chsố Cochrane I2 (3) sai lệch xuất bản
sđược đánh giá bằng kiểm định Egger (4) và kiểm định
Begg (5).
2.2.4. Xử số liệu
Trong nghiên cứu, chúng tôi sử dụng dữ liệu thai tổng
quan hthống phânch gộp trước đây làm ví dụ đtả
quy trình tiến hành và ch chạy câu lệnh trong STATA (Hình
2A-2D) [6,7]. Hai bài báo được xuất bản trên c tạp chí truy
cập mở (Open Access) theo giấy phép CC BY 4.0 và do đó
được miễn phê duyệt đạo đức thể sử dụng [6,7]. Các d
liệu này được tổng hợp thành bảng trong phần mềm Excel,
sau đó được sao chép dáno ô Data Editor” trong phần
mềm STATA.
Để thực hiện các câu lệnh trong phân ch gộp, gói bổ trợ
“metan” được cài đặt theo câu lệnh: ssc install metan.
nh 2. Mẫu d liệu sử dụng cho phân tích gộp trong trường hợp. (A) dữ liệu đầu vào cho từng nhóm nghiên cứu, kết quả đầu ra là
biến nhphân; (B) dữ liu đầu o so sánh hai nhóm nghiên cứu, kết qu đầu ra biến nhị phân; (C) dữ liệu đu o cho từng nm
nghiên cứu, kết quđu ra là biến liên tục; (D) dữ liệu đầu vào so sánh hai nhóm nghn cứu, kết quả đầu ra là biến liên tục
3. KẾT QUẢ
3.1. Phân tích gộp cho kết quđầu ra là biến nh pn
3.1.1. Dliệu pn tích sợng đốiợng ở từng
nhóm nghiên cứu
Khi c nghiên cứu gốc cung cấp slượng đối ợng mỗi
nhóm nghiên cứu, đtiến hành phân ch gộp với kết quả đầu
ra biến nhị phân, chúng tôi sử dụng dữ liệu mẫu v hiệu
qucủa vic sử dụng aspirin trong dự phòng biến cố tim
mạch. Trong trường hợp này, kết quả đầu ra là tình trạng tử
vong hoặc không tử vong do bệnh tim mạch [6].
Cấu trúc dữ liệu đầuo
Phân tích gộp sử dụng dữ liệu từ 13 nghiên cứu, bao gồm
sợng người tham gia nghiên cứu trong nhóm sdụng
Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
144 | https://www.tapchiyhoctphcm.vn https://doi.org/10.32895/hcjm.m.2025.02.18
aspirin (biến i) và nhóm không sử dụng aspirin (biến p), ng
như sợng thtử vong do biến ctim mạch mỗi nhóm
(biến ci cp) (Hình 2A). Sau đó, số lượng cá thể không tử
vong do biến cố tim mạch ở mỗi nhóm (biến ni và np) được
tính thông qua hàm generate với câu lệnh:
generate ni=i-ci
generate np=p-cp
Biểu đồ rừng
NC gộp KTC 95% cho mối liên hgiữa sử dụng
aspirin và tử vong do biến cố tim mạch được tính thông qua
hàm metan dựa trên nh c động cố định hình tác
động ngẫu nhiên lần lượt theo hai câu lệnh:
metan ci ni cp np, xlab(0.1, 1, 2) label(namevar=study) fixed
metan ci ni cp np, xlab(0.1, 1, 2) label(namevar=study)
random
Trong đó, y chọn xlab xác định cụ thể c giá trđược
hiển thị trên biểu đồ rừng của kết qu, y chọn label dùng đ
chđịnh tên cụ thcủa từng nghiên cứu được lấy từ biến
study, y chọn fixed được sử dụng khi tính toán theo hình
tác động cố định, random khi tính toán theo nh tác
động ngẫu nhiên.
Theo đó, phần mềm STATA cho ra cùng kết quả ước tính
NCTĐ=0,90 (KTC 95% 0,86-0,94) cho mô hình tác động c
định (Bảng 1A) và hình c động ngẫu nhiên (Bảng 1B).
Do vậy, việc sử dụng aspirin có liên quan đến giảm 10% nguy
tử vong do biến cố tim mạch, và mối liên quan này ý
nghĩa thống kê.
n cạnh đó, tính bất đồng nhất về khác biệt giữa kết qu
c nghiên cứu thành phần được thhiện qua chỉ số I2. Với
kết quả 0%, các nghiên cứu thành phần không có sự dị biệt.
Các kết quvề mức độ ảnh ởng tính bất đồng nhấtng
được thhiện trong biểu đồ rừng (Hình 3).
Sai lệch xuất bản
Để đánh giá sai lệch xuất bản, trước tiên logarit tự nhiên
của NCTĐ (biến logrr) sai số chuẩn (biến selogrr) cho từng
nghiên cứu thành phần được tính thông qua hàm generate,
phép toán log, phép toán sqrt theo câu lệnh sau:
generate logrr=log((ci/i)/(cp/p))
generate selogrr=sqrt((1/ci)-(1/i)+(1/cp)-(1/p))
Sau đó, kiểm định Egger kiểm định Begg cho sai lệch
xuất bản được tiến hành sử dụng hàm metabias theo câu lệnh:
metabias logrr selogrr, egger
metabias logrr selogrr, begg
Kết qu giá trp=0,49 trong kiểm định Egger p=0,67
trong kiểm định Begg (p >0,05) cho thấy không có sai lệch
xuất bản trong các nghiên cứu đánh giá hiệu quả của việc s
dụng aspirin trong dự phòng biến cố tim mạch (Hình 4).
Bảng 1. Kết quả pn tích gộp sử dụng mô hình (A) tác động cố định và (B) tác động ngẫu nhn với dữ liệu đầu vào cho tng nhóm
nghiên cứu và kết quả đầu ra biến nhphân
(A)
(B)
Study
----------------
HOT
TPT
PPP
WHS
BDS
PHS
AAA
POPADAD
JPAD
JPPP
ASCEND
ARRIVE
ASPREE
----------------
M-
H pooled RR
---------
------
--
| RR [95% Conf. Interval] % Weight
+----------------------------------------
| 0.858 0.743 0.992 11.31
| 0.763 0.599 0.972 4.07
| 0.717 0.492 1.045 1.87
| 0.914 0.809 1.033 15.41
| 1.015 0.838 1.229 5.63
| 0.830 0.715 0.963 10.93
| 0.985 0.784 1.239 4.02
| 0.962 0.774 1.196 3.90
| 0.810 0.575 1.140 2.05
| 0.935 0.771 1.135 6.10
| 0.923 0.825 1.033 17.33
| 0.955 0.792 1.151 6.43
| 0.890 0.770 1.030 10.95
+---------------------------------------
| 0.900 0.858 0.944 100.00
+
----------------
-------------------
----
Study
----------
--------
HOT
TPT
PPP
WHS
BDS
PHS
AAA
POPADAD
JPAD
JPPP
ASCEND
ARRIVE
ASPREE
----------
--------
D+L pooled RR
---------
---------
|
RR [95% Conf. Interval] % Weight
+------------------------------------------
| 0.858 0.743 0.992 10.85
| 0.763 0.599 0.972 3.88
| 0.717 0.492 1.045 1.60
| 0.914 0.809 1.033 15.08
| 1.015 0.838 1.229 6.17
| 0.830 0.715 0.963 10.21
| 0.985 0.784 1.239 4.33
| 0.962 0.774 1.196 4.79
| 0.810 0.575 1.140 1.93
| 0.935 0.771 1.135 6.06
| 0.923 0.825 1.033 17.93
| 0.955 0.792 1.151 6.50
| 0.890 0.770 1.030 10.69
+---------------------------------------
| 0.901 0.859 0.945 100.00
+
----------------
-------------------
----
Heterogeneity chi-squared = 8.42 (d.f. = 12) p = 0.751
I-squared (variation in RR attributable to heterogeneity) =
0.0%
Test of RR=1 : z= 4.34 p = 0.000
H
eterogeneity chi
-
squared = 8.4
2 (d.f. = 12) p = 0.751
I-squared (variation in RR attributable to heterogeneity) =
0.0%
Estimate of between-study variance Tau-squared = 0.0000
Test of RR=1 : z= 4.30 p = 0.000
Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
https://doi.org/10.32895/hcjm.m.2025.02.18 https://www.tapchiyhoctphcm.vn | 145
nh 3. Biểu đồ rừng kết quả phân tích gộp sử dụng hình (A)c động cố định (B)c động ngẫu nhiên vhiệu quả của việc
sử dụng aspirin trong dự phòng biến c tim mạch
nh 4. Kết quả kiểm định Egger và kiểm định Begg đánh g sai lệch xut bảnc nghn cứu vhiệu quả của việc sử dụng
aspirin trong dự phòng biến ctim mạch