
Ngày nhận bài: 21-02-2025 / Ngày chấp nhận đăng bài: 10-03-2025 / Ngày đăng bài: 12-03-2025
*Tác giả liên hệ: Hoàng Tùng. Trường Đại học Khoa học Sức khỏe, Đại học Quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh,
Việt Nam. E-mail: htung@uhsvnu.edu.vn
© 2025 Bản quyền thuộc về Tạp chí Y học Thành phố Hồ Chí Minh.
https://www.tapchiyhoctphcm.vn 141
ISSN: 1859-1779
Nghiên cứu Y học
Tạp chí Y học Thành phố Hồ Chí Minh; 28(2):141-153
https://doi.org/10.32895/hcjm.m.2025.02.18
Thực hành phân tích gộp sử dụng STATA
Hoàng Tùng1,*, Trương Mai Vân1, Nguyễn Thị Huyền Trâm1, Trần Tiểu Trang1
1Trường Đại học Khoa học Sức khỏe, Đại học Quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh, Việt Nam
Tóm tắt
Đặt vấn đề: Phân tích gộp đóng vai trò quan trọng trong y học thực chứng, cho phép tổng hợp kết quả từ nhiều nghiên
cứu để đưa ra bằng chứng y học có độ tin cậy cao.
Mục tiêu: Trong nghiên cứu này, chúng tôi mô tả cách tiến hành phân tích gộp sử dụng phần mềm STATA.
Đối tượng và phương pháp nghiên cứu: Cách tiến hành được mô tả cho các trường hợp dữ liệu đầu vào bao gồm các
biến số cho từng nhóm nghiên cứu hoặc các giá trị mức độ ảnh hưởng so sánh giữa hai nhóm, khi kết quả đầu ra là biến
nhị phân hoặc biến liên tục. Đối với mỗi trường hợp, chúng tôi nêu các biến số cần thu thập từ các nghiên cứu, bố trí dữ
liệu, tính toán mức độ ảnh hưởng gộp thông qua mô hình tác động cố định và tác động ngẫu nhiên, tính toán tính bất
đồng nhất giữa các nghiên cứu sử dụng chỉ số I2, và hiển thị các kết quả đó trong biểu đồ rừng. Tiếp đó, tiến hành đánh
giá sai lệch xuất bản của vấn đề nghiên cứu sử dụng kiểm định Egger và kiểm định Begg.
Kết luận: Thông qua các ví dụ thực tế, hi vọng tài liệu sẽ hữu ích cho các bác sĩ, dược sĩ, và nghiên cứu viên, đồng thời
khuyến khích việc áp dụng phân tích gộp trong các nghiên cứu y học trong tương lai.
Từ khóa: phân tích gộp; thực hành; phần mềm STATA
Abstract
A STEP-BY-STEP META-ANALYSIS TUTORIAL USING STATA
Hoang Tung, Truong Mai Van, Nguyen Thi Huyen Tram, Tran Tieu Trang
Background: Meta-analysis is an essential statistical method in evidence-based medicine, allowing researchers to
synthesize findings from multiple studies to generate more comprehensive and robust conclusions.
Objectives: This tutorial provides a thorough introduction to meta-analysis, with a focus on conducting analyses using
STATA software, aimed at healthcare professionals, researchers, and anyone interested in medical research.
Method: We offered a detailed, step-by-step guide to conducting meta-analyses, especially for studies reporting binary
or continuous outcomes. Specifically, we covered data management for both arm-based and contrast-based data
formats, which allowed flexibility in working with various types of study designs. The tutorial guided users through
inputting study data, calculating pooled effect sizes using both fixed-effects and random-effects models, and assessing

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
142 | https://www.tapchiyhoctphcm.vn https://doi.org/10.32895/hcjm.m.2025.02.18
study heterogeneity through the I² statistic, which helped to determine the consistency of results across studies. We
also demonstrated how to generate forest plots to visually present meta-analytic findings, offering a clear view of each
study's contribution to the pooled estimate. Additionally, to address publication bias, we included instructions on
performing Egger's and Begg's tests, providing users with methods to evaluate the potential influence of unpublished
studies on their results.
Conclusion: By using practical examples and step-by-step coding instructions, this tutorial aimed to equip users with
the skills needed to perform high-quality meta-analyses in STATA. Ultimately, this resource supports users in generating
reliable research findings that contribute to evidence-based medical practice.
Keywords: meta-analysis; tutorial; STATA
1. ĐẶT VẤN ĐỀ
Thuật ngữ “Y học dựa trên bằng chứng” được cho là bắt
nguồn từ giữa thế kỷ 19, nhấn mạnh tầm quan trọng của việc
sử dụng các bằng chứng khoa học đáng tin cậy để đưa ra
quyết định lâm sàng [1]. Trong tháp bằng chứng y học, tổng
quan hệ thống và phân tích gộp đứng ở mức cao nhất về độ
tin cậy, vì chúng kết hợp dữ liệu từ nhiều nghiên cứu độc lập,
giúp tăng cường độ chính xác và khả năng tổng quát hóa kết
quả [1].
Phân tích gộp có vai trò quan trọng trong việc làm rõ những
điểm còn tranh cãi hoặc chưa chắc chắn từ các nghiên cứu
đơn lẻ, cung cấp một bức tranh toàn diện hơn về hiệu quả của
các phương pháp điều trị hoặc các yếu tố nguy cơ [2]. Nhờ sự
kết hợp của các kết quả từ nhiều nghiên cứu, phân tích gộp
giúp tăng độ mạnh thống kê, giảm nguy cơ sai lệch và đưa ra
kết luận chính xác hơn [2]. Kết quả từ phân tích gộp cung cấp
bằng chứng quan trọng, có giá trị cao trong việc hỗ trợ đưa ra
quyết định lâm sàng, xây dựng hướng dẫn điều trị, và phát
triển chính sách y tế.
Trong các phần mềm thống kê có thể thực hiện phân tích
gộp, STATA (https://www.stata.com) tuy là một phần mềm
trả phí nhưng lại thuận tiện khi làm việc với dữ liệu, có cấu
trúc câu lệnh đơn giản và nhiều tính năng hiển thị kết quả.
Chính vì thế, trong bài nghiên cứu này, chúng tôi cung cấp
cho các bác sĩ, dược sĩ và nhà nghiên cứu hướng dẫn chi tiết
về cách thực hiện phân tích gộp bằng phần mềm STATA và
biện giải kết quả, nhằm hỗ trợ quá trình tự tiến hành phân tích
và áp dụng vào công việc chuyên môn.
2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP
NGHIÊN CỨU
2.1. Đối tượng nghiên cứu
Các dữ liệu đầu vào bao gồm các biến số cho từng nhóm
nghiên cứu hoặc các giá trị mức độ ảnh hưởng so sánh giữa
hai nhóm, lấy từ các công bố tổng quan hệ thống trước đây.
Nghiên cứu được thực hiện tại Trường Đại học Khoa học Sức
khỏe - Đại học Quốc gia Thành phố Hồ Chí Minh từ tháng
9/2024 đến tháng 12/2024.
2.2. Phương pháp nghiên cứu
2.2.1. Quy trình thực hiện
Hình 1. Sơ đồ các bước tiến hành phân tích gộp
Đầu tiên, dữ liệu từ các nghiên cứu gốc được thu thập và
mã hóa theo từng trường hợp cụ thể. Dữ liệu được phân loại
thành hai dạng chính tùy thuộc vào kết quả đầu ra: biến nhị
phân (ví dụ: tình trạng mắc bệnh hoặc không mắc bệnh, điều
trị khỏi bệnh hoặc không khỏi bệnh) hoặc biến liên tục (ví dụ:
huyết áp, lượng đường huyết, mỡ máu). Ở mỗi trường hợp,
dữ liệu cũng được bố trí khi nghiên cứu gốc cung cấp số

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
https://doi.org/10.32895/hcjm.m.2025.02.18 https://www.tapchiyhoctphcm.vn | 143
lượng đối tượng ở từng nhóm nghiên cứu (arm-based data)
hoặc mức độ ảnh hưởng (effect size) giữa hai nhóm nghiên
cứu (contrast-based data) (Hình 1).
Tiếp theo, tùy thuộc và mức độ bất đồng nhất của kết quả
từ các nghiên cứu gốc, mô hình tác động cố định (fixed-
effects model) hoặc mô hình tác động ngẫu nhiên (random
effect model) sẽ được sử dụng để tính toán mức độ ảnh hưởng
gộp của yếu tố nguy cơ hoặc liệu pháp can thiệp. Mức độ ảnh
hưởng trong trường hợp kết quả đầu ra là biến nhị phân bao
gồm tỷ số chênh (odds ratio), nguy cơ tương đối (relative risk,
NCTĐ), và tỷ lệ rủi ro (hazard ratio). Đối với kết quả đầu ra
là biến liên tục, mức độ ảnh hưởng bao gồm khác biệt trung
bình (mean difference, KBTB) và khác biệt trung bình chuẩn
hóa (standardized mean difference). Mức độ ảnh hưởng gộp
cũng như mức độ ảnh hưởng của các nghiên cứu thành phần
và khoảng tin cậy (KTC) 95% được thể hiện trong biểu đồ
rừng (forest plot). Cuối cùng, mức độ bất đồng nhất sẽ được
báo cáo thông qua chỉ số Cochrane I2 (3) và sai lệch xuất bản
sẽ được đánh giá bằng kiểm định Egger (4) và kiểm định
Begg (5).
2.2.4. Xử lý số liệu
Trong nghiên cứu, chúng tôi sử dụng dữ liệu từ hai tổng
quan hệ thống và phân tích gộp trước đây làm ví dụ để mô tả
quy trình tiến hành và cách chạy câu lệnh trong STATA (Hình
2A-2D) [6,7]. Hai bài báo được xuất bản trên các tạp chí truy
cập mở (Open Access) theo giấy phép CC BY 4.0 và do đó
được miễn phê duyệt đạo đức và có thể sử dụng [6,7]. Các dữ
liệu này được tổng hợp thành bảng trong phần mềm Excel,
sau đó được sao chép và dán vào ô “Data Editor” trong phần
mềm STATA.
Để thực hiện các câu lệnh trong phân tích gộp, gói bổ trợ
“metan” được cài đặt theo câu lệnh: ssc install metan.
Hình 2. Mẫu dữ liệu sử dụng cho phân tích gộp trong trường hợp. (A) dữ liệu đầu vào cho từng nhóm nghiên cứu, kết quả đầu ra là
biến nhị phân; (B) dữ liệu đầu vào so sánh hai nhóm nghiên cứu, kết quả đầu ra là biến nhị phân; (C) dữ liệu đầu vào cho từng nhóm
nghiên cứu, kết quả đầu ra là biến liên tục; (D) dữ liệu đầu vào so sánh hai nhóm nghiên cứu, kết quả đầu ra là biến liên tục
3. KẾT QUẢ
3.1. Phân tích gộp cho kết quả đầu ra là biến nhị phân
3.1.1. Dữ liệu phân tích là số lượng đối tượng ở từng
nhóm nghiên cứu
Khi các nghiên cứu gốc cung cấp số lượng đối tượng ở mỗi
nhóm nghiên cứu, để tiến hành phân tích gộp với kết quả đầu
ra là biến nhị phân, chúng tôi sử dụng dữ liệu mẫu về hiệu
quả của việc sử dụng aspirin trong dự phòng biến cố tim
mạch. Trong trường hợp này, kết quả đầu ra là tình trạng tử
vong hoặc không tử vong do bệnh tim mạch [6].
Cấu trúc dữ liệu đầu vào
Phân tích gộp sử dụng dữ liệu từ 13 nghiên cứu, bao gồm
số lượng người tham gia nghiên cứu trong nhóm sử dụng

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
144 | https://www.tapchiyhoctphcm.vn https://doi.org/10.32895/hcjm.m.2025.02.18
aspirin (biến i) và nhóm không sử dụng aspirin (biến p), cũng
như số lượng cá thể tử vong do biến cố tim mạch ở mỗi nhóm
(biến ci và cp) (Hình 2A). Sau đó, số lượng cá thể không tử
vong do biến cố tim mạch ở mỗi nhóm (biến ni và np) được
tính thông qua hàm generate với câu lệnh:
• generate ni=i-ci
• generate np=p-cp
Biểu đồ rừng
NCTĐ gộp và KTC 95% cho mối liên hệ giữa sử dụng
aspirin và tử vong do biến cố tim mạch được tính thông qua
hàm metan dựa trên mô hình tác động cố định và mô hình tác
động ngẫu nhiên lần lượt theo hai câu lệnh:
• metan ci ni cp np, xlab(0.1, 1, 2) label(namevar=study) fixed
• metan ci ni cp np, xlab(0.1, 1, 2) label(namevar=study)
random
Trong đó, tùy chọn xlab xác định cụ thể các giá trị được
hiển thị trên biểu đồ rừng của kết quả, tùy chọn label dùng để
chỉ định tên cụ thể của từng nghiên cứu được lấy từ biến
study, tùy chọn fixed được sử dụng khi tính toán theo mô hình
tác động cố định, và random khi tính toán theo mô hình tác
động ngẫu nhiên.
Theo đó, phần mềm STATA cho ra cùng kết quả ước tính
NCTĐ=0,90 (KTC 95% 0,86-0,94) cho mô hình tác động cố
định (Bảng 1A) và mô hình tác động ngẫu nhiên (Bảng 1B).
Do vậy, việc sử dụng aspirin có liên quan đến giảm 10% nguy
cơ tử vong do biến cố tim mạch, và mối liên quan này có ý
nghĩa thống kê.
Bên cạnh đó, tính bất đồng nhất về khác biệt giữa kết quả
các nghiên cứu thành phần được thể hiện qua chỉ số I2. Với
kết quả 0%, các nghiên cứu thành phần không có sự dị biệt.
Các kết quả về mức độ ảnh hưởng và tính bất đồng nhất cũng
được thể hiện trong biểu đồ rừng (Hình 3).
Sai lệch xuất bản
Để đánh giá sai lệch xuất bản, trước tiên logarit tự nhiên
của NCTĐ (biến logrr) và sai số chuẩn (biến selogrr) cho từng
nghiên cứu thành phần được tính thông qua hàm generate,
phép toán log, và phép toán sqrt theo câu lệnh sau:
• generate logrr=log((ci/i)/(cp/p))
• generate selogrr=sqrt((1/ci)-(1/i)+(1/cp)-(1/p))
Sau đó, kiểm định Egger và kiểm định Begg cho sai lệch
xuất bản được tiến hành sử dụng hàm metabias theo câu lệnh:
• metabias logrr selogrr, egger
• metabias logrr selogrr, begg
Kết quả giá trị p=0,49 trong kiểm định Egger và p=0,67
trong kiểm định Begg (p >0,05) cho thấy không có sai lệch
xuất bản trong các nghiên cứu đánh giá hiệu quả của việc sử
dụng aspirin trong dự phòng biến cố tim mạch (Hình 4).
Bảng 1. Kết quả phân tích gộp sử dụng mô hình (A) tác động cố định và (B) tác động ngẫu nhiên với dữ liệu đầu vào cho từng nhóm
nghiên cứu và kết quả đầu ra là biến nhị phân
(A)
(B)
Study
----------------
HOT
TPT
PPP
WHS
BDS
PHS
AAA
POPADAD
JPAD
JPPP
ASCEND
ARRIVE
ASPREE
----------------
--
M-
H pooled RR
---------
------
--
| RR [95% Conf. Interval] % Weight
+----------------------------------------
| 0.858 0.743 0.992 11.31
| 0.763 0.599 0.972 4.07
| 0.717 0.492 1.045 1.87
| 0.914 0.809 1.033 15.41
| 1.015 0.838 1.229 5.63
| 0.830 0.715 0.963 10.93
| 0.985 0.784 1.239 4.02
| 0.962 0.774 1.196 3.90
| 0.810 0.575 1.140 2.05
| 0.935 0.771 1.135 6.10
| 0.923 0.825 1.033 17.33
| 0.955 0.792 1.151 6.43
| 0.890 0.770 1.030 10.95
+---------------------------------------
| 0.900 0.858 0.944 100.00
+
----------------
-------------------
----
Study
----------
--------
HOT
TPT
PPP
WHS
BDS
PHS
AAA
POPADAD
JPAD
JPPP
ASCEND
ARRIVE
ASPREE
----------
--------
D+L pooled RR
---------
---------
|
RR [95% Conf. Interval] % Weight
+------------------------------------------
| 0.858 0.743 0.992 10.85
| 0.763 0.599 0.972 3.88
| 0.717 0.492 1.045 1.60
| 0.914 0.809 1.033 15.08
| 1.015 0.838 1.229 6.17
| 0.830 0.715 0.963 10.21
| 0.985 0.784 1.239 4.33
| 0.962 0.774 1.196 4.79
| 0.810 0.575 1.140 1.93
| 0.935 0.771 1.135 6.06
| 0.923 0.825 1.033 17.93
| 0.955 0.792 1.151 6.50
| 0.890 0.770 1.030 10.69
+---------------------------------------
| 0.901 0.859 0.945 100.00
+
----------------
-------------------
----
Heterogeneity chi-squared = 8.42 (d.f. = 12) p = 0.751
I-squared (variation in RR attributable to heterogeneity) =
0.0%
Test of RR=1 : z= 4.34 p = 0.000
H
eterogeneity chi
-
squared = 8.4
2 (d.f. = 12) p = 0.751
I-squared (variation in RR attributable to heterogeneity) =
0.0%
Estimate of between-study variance Tau-squared = 0.0000
Test of RR=1 : z= 4.30 p = 0.000

Tạp chí Y học Thành phố Hồ Chí Minh * Tập 28 * Số 2 * 2025
https://doi.org/10.32895/hcjm.m.2025.02.18 https://www.tapchiyhoctphcm.vn | 145
Hình 3. Biểu đồ rừng kết quả phân tích gộp sử dụng mô hình (A) tác động cố định và (B) tác động ngẫu nhiên về hiệu quả của việc
sử dụng aspirin trong dự phòng biến cố tim mạch
Hình 4. Kết quả kiểm định Egger và kiểm định Begg đánh giá sai lệch xuất bản các nghiên cứu về hiệu quả của việc sử dụng
aspirin trong dự phòng biến cố tim mạch

