Nghiên cứu tần suất alen 21 locus STR ở người Kinh Việt Nam

TNU Journal of Science and Technology

230(05): 353 - 360

http://jst.tnu.edu.vn 353 Email: jst@tnu.edu.vn

ALLELES FREQUENCY OF 21 STR LOCI OF VIETNAM KINH POPULATION

Duong Thi Thu Thuy1*, Le Thi Quynh2, Tran Van Cuong2, Le Thi Thu Thuy1, Bui Anh Tuan1

1Institute of Forensic Science - Ministry of Public Security

2People’s Security Academy - Ministry of Public Security

ARTICLE INFO

ABSTRACT

Received:

29/8/2024

To draw conclusions from forensic DNA typing to trace individuals or

paternity testing, it is necessary to include statistic probability based

on allele and genotype frequencies specific to each population. The

use of 21 core STR loci in DNA typing are widely implemented,

however data on extended STR loci in the Vietnamese (Kinh)

population is still lacking. In this study, the frequency and

polymorphism assessment indices of alleles in the studied population

were calculated and surveyed to build a table on the frequency of

alleles of 21 gene loci of Kinh population according to the GlobalFiler

kit. The results built an allele frequency table of 21 gene loci,

identified a number of typical genetic characteristics such as the

highest and the lowest polymorphism locus, and some common

alleles. Research results are an essential data, providing scientific

basis for each forensic DNA conclusion, serving litigation

requirements.

Revised:

06/02/2025

Published:

07/02/2025

KEYWORDS

DNA profiling

21 STR loci

GlobalFiler

Allele frequency

Vietnamese

NGHIÊN CỨU TẦN SUẤT CÁC ALEN CỦA 21 LOCUS STR

Ở NGƯỜI KINH VIỆT NAM

Dương Thị Thu Thủy1*, Lê Thị Quỳnh2, Trần Văn Cường2, Lê Thị Thu Thủy1, Bùi Anh Tuấn1

1Viện Khoa học hình sự - Bộ Công an, 2Học viện An ninh nhân dân - Bộ Công an

THÔNG TIN BÀI BÁO

TÓM TẮT

Ngày nhận bài:

29/8/2024

Để đưa ra kết luận giám định ADN phục vụ truy nguyên cá thể hoặc

xác định quan hệ huyết thống, cần kèm theo con số xác suất dựa trên

dữ liệu tần suất alen và tần suất kiểu gen đặc trưng cho mỗi quần thể.

Việc sử dụng 21 locus STR lõi trong giám định ADN hình sự đã

được thực hiện rộng rãi trên thế giới và ở Việt Nam, tuy nhiên dữ liệu

của các locus STR mở rộng trên quần thể người Việt (Kinh) hiện vẫn

còn thiếu. Trong nghiên cứu này, tần suất và các chỉ số đánh giá tính

đa hình các alen trong quần thể nghiên cứu được tính toán khảo sát

nhằm xây dựng được bảng dữ liệu về tần suất các alen của 21 locus

gen của người Việt (Kinh) theo bộ kit GlobalFiler. Kết quả nghiên

cứu đã xây dựng được bảng tần suất alen của 21 locus gen, xác định

được một số đặc điểm di truyền đặc trưng như locus có tính đa hình

cao nhất và thấp nhất, một số alen phổ biến. Kết quả nghiên cứu là

nguồn dữ liệu thiết yếu, cung cấp căn cứ khoa học cho mỗi kết luận

giám định ADN, phục vụ các yêu cầu tố tụng.

Ngày hoàn thiện:

06/02/2025

Ngày đăng:

07/02/2025

TỪ KHÓA

Giám định gen (DNA)

21 locus gen

GlobalFiler

Tần suất các alen

Người Việt Nam

DOI: https://doi.org/10.34238/tnu-jst.11032

* Corresponding author. Email: thuthuysinhhoc@gmail.com

TNU Journal of Science and Technology

230(05): 353 - 360

http://jst.tnu.edu.vn 354 Email: jst@tnu.edu.vn

1. Giới thiệu

Giám định DNA là phương pháp nghiên cứu, phân tích ở mức độ phân tử (nghiên cứu đặc

điểm cấu trúc phân tử DNA) từ các dấu vết, mẫu vật có nguồn gốc sinh vật bằng các kỹ thuật

sinh học phân tử. Việc ứng dụng kỹ thuật phân tích DNA đã giúp ích rất nhiều cho công tác điều

tra, xét xử tội phạm [1]. Đây là lĩnh vực giám định cho phép truy nguyên cá thể với độ chính xác

cao hơn hẳn các phương pháp nhận dạng truyền thống.

Theo lý thuyết di truyền học, mỗi quần thể người (dân tộc, tộc người) khác nhau có những đặc

điểm di truyền đặc trưng, thể hiện bằng sự phân bố tần suất các alen trong mỗi quần thể là khác

nhau và không thể áp dụng cơ sở dữ liệu của quần thể này cho một quần thể khác [2], [3]. Trong

giám định DNA các nhà khoa học hình sự phải xem xét và chọn lọc những gen có tính đa alen

cao, khảo sát tần suất phân bố các alen xuất hiện trong từng quần thể, từ đó làm cơ sở để phân

tích, đánh giá tính toán xác suất và đưa ra kết luận giám định [4] - [6]. Việc thống kê tần suất

alen, tần suất dị hợp tử, chỉ số đa hình, khả năng phân biệt, khả năng loại trừ của từng locus STR

(Short Tandem Repeat) cùng các chỉ số kết hợp có vai tr quan trọng giúp đánh giá đúng mức độ

tin cậy của php phân tích trong từng trường hợp cụ thể từ đó đưa ra kết luận giám định một cách

chính xác, khoa học [7] - [9].

Bộ kit GlobalFiler bao gồm 13 locus thuộc hệ CODIS, có khả năng phân biệt cao, độ nhạy

cao, hạn chế các chất ức chế và cho kết quả tối ưu với các mẫu bị phân hủy. Hiên nay, bộ kit

GlobalFiler với 24 locus gen (gồm 21 locus gen STR trên nhiễm sắc thể thường và 3 locus gen

trên nhiễm sắc thể giới tính) đã và đang được sử dụng rộng rãi phục vụ nhận dạng cá thể người

và xác định quan hệ huyết thống tại các phng thí nghiệm giám định DNA hình sự trên thế giới

và trong nước nên việc tính toán tần suất các alen của quần thể người ở Việt Nam theo bộ kit này

là vô cùng cần thiết và cấp thiết, làm cơ sở khoa học để phân tích, đánh giá và đưa ra kết luận

giám định trong giám định ADN hình sự được khách quan, khoa học.

2. Đối tượng và phương pháp nghiên cứu

2.1. Đối tượng nghiên cứu

250 mẫu máu được thu từ 250 cá thể người Việt (dân tộc Kinh) trên lãnh thổ Việt Nam, các

mẫu được thu thập ngẫu nhiên từ những người không có quan hệ huyết thống (người được thu

mẫu tình nguyện cung cấp mẫu và thông tin cá nhân), mẫu được lưu giữ vào thẻ giấy FTA@. 250

cá thể được điều tra về nguồn gốc quần thể thông qua hồ sơ nhân khẩu và căn cước, đảm bảo độ

tin cậy khi được thu mẫu.

2.2. Phương pháp nghiên cứu

2.2.1. Xác định hồ sơ kiểu gen của các mẫu

Toàn bộ các mẫu máu nghiên cứu được tiến hành tách chiết bằng phương pháp tách chiết vô

cơ (sử dụng Chelex® 100 Resin hãng Bio-rad), định lượng DNA (bằng bộ kit “Quantiblot

Human DNA Quantitation kit” của hãng Perkin Elmer), chạy phản ứng PCR (khuếch đại DNA

bằng bộ kit GlobalFiler trên máy luân nhiệt ProFlex (hãng Applied Biosystems, Mỹ)), điện di

huỳnh quang mao quản trên hệ thống máy giải trình tự ABI3500 để phát hiện sản phẩm PCR.

Các bước thí nghiệm được thực hiện theo quy trình giám định mẫu DNA tại Viện Khoa học hình

sự, Bộ Công an. Sau điện di, kết quả được xử lý bằng phần mềm Genemapper ID-x để xác định

các alen của mỗi locus.

2.2.2. Phân tích và tính tần suất alen

Chúng tôi sử dụng phương pháp đếm để thống kê số lượng alen trong toàn bộ kiểu gen phân

tích được từ 250 mẫu nghiên cứu sau đó, sử dụng phần mềm Excel (Microsoft Office) để xử lý số

liệu thống kê.

TNU Journal of Science and Technology

230(05): 353 - 360

http://jst.tnu.edu.vn 355 Email: jst@tnu.edu.vn

Để số liệu nghiên cứu về tần suất alen của các locus có thể ứng dụng được trong giám định

DNA hình sự, cần thiết phải đánh giá xem các locus được phân tích từ mẫu có đảm bảo cấu trúc

di truyền (tần số tương đối của các alen và tần số các kiểu gen) có ổn định hay không qua các thế

hệ, nghĩa là có tuân theo định luật Hardy-Weinberg hay không [10]. Do đó, cần kiểm tra sự phù

hợp giữa quần thể mẫu nghiên cứu với quần thể cân bằng l thuyết thông qua đánh giá chênh lệch

giữa tần số quan sát thực tế với phân bố l thuyết của các kiểu gen ở mỗi locus được nghiên cứu

có sai khác nhau hay không [2], [4].

2.2.2.1. Xác định và tính tần suất các alen

Tính tần suất các alen của từng locus theo số liệu thu được theo biểu thức sau:

𝑃𝑖 = ∑𝑖

𝑛

2𝑁

(1)

Trong đó: Pi: Tần suất của alen i; i: alen i quan sát thấy; n: cá thể thứ n; N: Tổng số cá thể (N = 250)

2.2.2.2. Phương pháp kiểm định giả thiết Khi bình phương ( χ2)

Công thức để tính giá trị χ2 như sau: χ2 = ∑(𝑶−𝑬)𝟐

𝑬

𝒌

𝟏 (2)

Trong đó: O: tần suất alen quan sát được từ thực nghiệm; E: tần suất quan sát được, tính theo

lý thuyết; k: số alen xác định được.

Giá trị χ2 được xác định tại bảng phân bố χ2 với các bậc tự do tương ứng với các mức xác suất

tương ứng. Trong các thí nghiệm sinh học, 3 mức xác suất thường được sử dụng là P = 0,05; P =

0,01 hoặc P = 0,001. Với 250 mẫu nghiên cứu, chúng tôi lựa chọn giá trị P = 0,05 là phù hợp [1],

[5], [8], [10].

Nếu khi bình phương tính được nh hơn khi bình phương l thuyết thì phân bố thực tế phù

hợp với phân phối l thuyết, nghĩa là mẫu phù hợp với quần thể l thuyết.

Sử dụng phần mềm Microsoft Excel để tính toán tần suất và các chỉ số đánh giá tính đa hình

các alen của quần thể nghiên cứu đồng thời xác định tần suất thu thập được đã đủ độ tin cậy để sử

dụng vào việc tính xác suất truy nguyên cá thể hoặc xác suất quan hệ huyết thống cha, mẹ - con

chưa. Các chỉ số được đánh giá gồm [1] - [6]:

- Tần suất dị hợp tử quan sát (Observed Heterozygosity - H(ob)) là tổng tần suất của từng locus

dị hợp tử quan sát được trong toàn bộ mẫu nghiên cứu:

H(ob) = Số cá thể dị hợp tử

Tổng số cá thể quan sát

(3)

- Tần suất dị hợp tử lý thuyết (Expected Heterozygosity (Hexp))

H(exp) = 1 − ℎ = 1 − ∑ pi2

𝑛

𝑖=1

(4)

Trong đó: h là số cá thể đồng hợp tử (homozygosity)

ℎ = ∑pi2

𝑛

𝑖=1

(5)

- Chỉ số đa hình (Polymorphism information content - PIC), chỉ mức độ đa hình của một locus:

PIC = 1 − ∑pi2

𝑛

𝑖=1 −(∑pi2

𝑛

𝑖=1 )2+∑pi4

𝑛

𝑖=1

(6)

- Khả năng phân biệt (Power of discrimination - PD): Chỉ số này cho ta biết khả năng phân

biệt giữa 2 cá thể không liên quan được xác định về kiểu gen trong quần thể nghiên cứu, chỉ số

này càng gần tới giá trị 1 thì khả năng phân biệt càng cao. Chỉ số PD có thể đánh giá khả năng

truy nguyên cá thể từ dấu vết.

PD = 1 − 2(∑pi2

i=1 )2+∑pi4

i=1

(7)

- Khả năng loại trừ (Power of exclusion - PE): Chỉ số khả năng loại trừ nhằm xác định khả

năng ngẫu nhiên 2 cá thể không có quan hệ huyết thống mà trên thực tế lại có thể có các alen

giống nhau. Giá trị của chỉ số càng gần tới 1 thì khả năng nhận định sai về huyết thống trên lý

thuyết càng nh. Mỗi locus có khả năng loại trừ khác nhau, vì vậy, nó có vai tr quan trọng khác

nhau trong việc tính toán độ tin cậy. Locus càng có khả năng loại trừ cao thì càng có  nghĩa

trong giám định truy nguyên cá thể và xác định huyết thống cha - mẹ con.

TNU Journal of Science and Technology

230(05): 353 - 360

http://jst.tnu.edu.vn 356 Email: jst@tnu.edu.vn

PE = 1 − 2 ∑pi2

𝑛

𝑖=1 − 2(∑pi2

i=1 )2+ 2 ∑pi4

𝑛

𝑖=1 −∑pi3

𝑛

𝑖=1 + 3 ∑pi3∑pi3

𝑛

𝑖=1

i=1

(8)

- Chỉ số quan hệ huyết thống (Paternity index - PI): là giá trị tính toán được đưa ra từ một

locus, phản ánh khả năng gấp bao nhiêu lần cá thể đang được phân tích là người cha (mẹ) sinh

học so với một cá thể được lựa chọn ngẫu nhiên trong cùng quần thể. Nếu PI ≤ 1, locus đó hoàn

toàn không có  nghĩa trong việc xác định huyết thống cha, mẹ - con. Nếu PI >1, thì locus đó có

giá trị trong việc xác định huyết thống cha, mẹ - con. Tính đa hình của locus đó càng lớn thì giá

trị này càng cao và càng có giá trị cao trong việc xác định huyết thống cha, mẹ - con.

PI (TPI)= H+h

2h =(1−h)+h

2h =1

2(∑pi2)

𝑛

𝑖=1

(9)

Trong đó: pi: là tần suất của alen thứ i trong quần thể có n alen; h = đồng hợp tử; H = dị hợp tử.

2.2.2.3. Các chỉ số kết hợp đánh giá giá trị bảng tần suất alen

- Chỉ số kết hợp khả năng loại trừ (Combined power of exclusion - CPE): Mỗi một bảng tần

suất có một giá trị kết hợp khả năng loại trừ khác nhau dựa vào tần suất alen và số alen của tộc

người tính được. Trong thang đánh giá, các chỉ số CPE có giá trị cao có  nghĩa hơn giá trị CPE

thấp. L tưởng nhất là CPE càng gần giá trị 1,00 càng tốt, nếu chỉ số CPE là 1,00 có nghĩa là

không có khả năng buộc tội sai cho một nghi phạm nào đó khi có hai hồ sơ DNA giống nhau.

CPE = 1 - (1 - PE1)×(1 - PE2)×(1 - PE3)…(1 - PEn)

(10)

Trong đó: PEi là khả năng loại trừ của từng locus trong bảng tần suất

- Chỉ số kết hợp khả năng phân biệt (Power of discrimination - CPD) là chỉ số quan trọng để

đánh giá giá trị sử dụng của từng locus DNA trong bảng tần suất được tính.

CPD = 1 - (1 - PD1)×(1 - PD2) × (1 - PD3) ×… × (1 - PDn)

(11)

Trong đó: PDi là khả năng phân biệt của từng locus trong bảng tần suất

- Chỉ số kết hợp xác định quan hệ huyết thống đặc trưng (Combined Paternity index - CPI): là

chỉ số kết hợp giá trị PI của toàn bộ các locus được phân tích, phản ánh khả năng gấp bao nhiêu

lần cá thể đang được phân tích là người cha (mẹ) sinh học so với một cá thể được lựa chọn ngẫu

nhiên trong cùng quần thể. CPI = PI1 × PI2 × PI3 ×…× PIn (12)

3. Kết quả và bàn luận

Sau khi điện di kết quả thu được các alen của từng locus, chúng tôi so sánh với các alen trong

thang alen chuẩn [10] để xác định các alen đặc biệt đặc trưng, đồng thời tiến hành tính toán các

chỉ số đánh giá độ đa hình và xác suất thống kê (tần suất alen, các chỉ số H(ob), H(ex), PIC, PD, PE,

PI) đặc trưng cho quần thể mẫu nghiên cứu.

3.1. Bảng tần suất các alen của 21 locus STR trong quần thể nghiên cứu

Kết quả phân tích 250 hồ sơ kiểu gen STR của 250 cá thể người Kinh Việt Nam, cho thấy có

tổng số 10.500 alen (không kể các alen của locus trên các nhiễm sắc thể giới tính), gồm 62 loại

alen (từ 6 đến 35.2). Kết quả được thể hiện ở Bảng 1.

Bảng 1. Tần suất alen (%) của 21 locus trong quần thể nghiên cứu (N = 250) (1)

1.) Locus D3S1358

5.) Locus TPOX

11.) Locus TH01

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

4.0

25.0

0.2*

4.0

13.8

38.8**

31.0

5.0

55.4**

27.4

28.4

9.3

4.2*

34.0**

1.0*

10.8

2.2

5.8

9.0

3.) Locus D16S539

13.) Locus D22S1045

14.) Locus D5S818

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

0.4

11.2

0.2*

15.6

31.8**

2.4

22.6

24.6

24.8**

2.8

19.0

5.2

14.8

10.4

10.2

0.4*

24.0

23.8

0.6

28.0

1.4

6.4

2.6

30.4**

0.2*

15.) Locus D13S317

2.) Locus vWA

4.) Locus CSF1PO

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

TNU Journal of Science and Technology

230(05): 353 - 360

http://jst.tnu.edu.vn 357 Email: jst@tnu.edu.vn

(Ghi chú: *: tần suất alen thấp nhất **: tần suất alen cao nhất)

3.2. Đặc điểm các alen của 21 locus STR so với thang alen chuẩn trong quần thể nghiên cứu

Theo Bảng 1, các locus có các alen có tần suất xuất hiện cao nhất là: locus D16S539 với hai

alen có tần suất xuất hiện tương ứng là alen 9 và alen 12 (24,6% và 24,8%); locus D8S1179 có

alen 14 và alen 15 có tần suất xuất hiện cao nhất (tương ứng là 16,0% và 15,6%); D21S11 có alen

30 tần suất là 24,6%; alen 15 ở locus D18S51 là alen có tần suất cao nhất là 24,6%; D2S1338 tần

suất xuất hiện cao nhất ở alen 11 là 24,8%; locus D19S433 có alen số 13 và 14 là hai alen có tần

suất xuất hiện cao nhất đều lần lượt là 22,8% và 27,4%; alen 22 ở locus FGA có tần suất xuất

hiện cao nhất là 17,8%; locus D22S1045 có hai alen 16 và 17 trong quần thể nghiên cứu xuất

0.2*

23.0

28.2**

22.0

0.8

36.8**

31.0**

12.2

1.6

11.2

2.6

12.1

0.6*

13.4

3.2

15.2

0.2*

2.0

19.0

7.8

16.2

0.8

14.8

0.2*

30.6

1.8

19.8

16.) Locus D7S820

18.) Locus D10S1248

20.) Locus D12S391

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

7 7

0.8

36.0**

0.2*

24.4

1.8*

13.4

16.8

20.4

0.2*

9.6

10.4

6.2

2.4

7.0

1.4

16.0

10.2

9.1

1.0

0.2*

36.2**

0.4

18.2

1.8*

16.2

20.6

18.6**

6.) Locus D8S1179

9.) Locus D2S441

21.) Locus D2S1338

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

0.4

13.3

0.4

1.0

14.6

2.2

4.2

14.6

16.0**

9.1

1.8

12.3

0.2*

10.6

16.8

13.8

15.6

19.2

2.6

7.4

15.4

12.8

9.6

10.1

0.2*

13.1

0.2

19.6**

6.4

12.3

0.2*

0.8

24.8**

16.4

12.2

0.2*

15.4

0.4

11.3

17.8

1.2

5.0

7.) Locus D21S11

8.) Locus D18S51

10.) Locus D19S433

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

0.2*

31.2

9.0

0.2*

4.8

0.2*

14.2

10.0

4.8

3.4

0.4

4.0

8.6

24.2

32.2

17.2

5.4

2.4

0.2*

15.2

16.8

24.6**

1.0

14.6

1.2

3.4

0.4

30.2

1.6

33.2

6.0

18.8

1.6

12.2

0.6

16.2

4.0

30.3

0.2*

34.2

1.2

24.6**

0.2*

22.8

6.6

12.8

0.4

13.2

5.2

17.2

0.2*

8.4

0.2*

27.4**

18.2

0.2*

12.) Locus FGA

17.) Locus SE33

19.) Locus D1S1656

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

Alen

Tần suất

0.2*

23.2

1.8

0.2*

22.2

2.6

0.2*

16.3

0.8

0.6

13.8

0.2*

0.4

6.8

5.6

1.8

24.2

3.6

0.4

23.2

5.8

4.8

17.3

7.4

10.2

11.6

13.2

0.2*

7.6

2.4

6.0

25.2

0.8

0.2*

24.2

7.0

8.2

18.3

1.2

20.2

0.2*

3.2

14.2

0.6

25.2

7.6

31.6**

1.2

12.2

26.2

0.4

1.2

26.2

9.2**

15.3

0.6

19.3

0.2*

21.2

1.4

0.6

2.4

27.2

7.0

21.4

17.8**

0.2*

3.2

28.2

7.8

22.2

1.2

0.2*

5.2

29.2

8.6

12.2

6.6

30.2

4.4

5.0

31.2

4.8

20.2

0.6

32.2

1.8

2.2

33.2

0.4

21.2

1.6

35.2

0.2*

2.4

Nghiên cứu tần suất các alen của 21 locus STR ở người kinh Việt Nam

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi