ISSN 1859-1531 - TP CHÍ KHOA HC VÀ CÔNG NGH - ĐẠI HC ĐÀ NẴNG, VOL. 22, NO. 11A, 2024 43
KHÁM PHÁ HỢP CHẤT FLAVONOID VÀ THEAFLAVIN T
CHI CAMELLIA Ở VIỆT NAM THEO HƯỚNG ỨC CHẾ KEAP1-NRF2 BẰNG
PHƯƠNG PHÁP SÀNG LỌC IN SILICO
UNVEILING THE FLAVONOID AND THEAFLAVIN COMPOUNDS FROM
THE GENUS CAMELLIA IN VIETNAM TOWARDS INHIBITING KEAP1-NRF2 BY
IN SILICO SCREENING METHOD
Nguyễn Minh Quân1, Đoàn Nguyễn Việt1, Nguyễn Bùi Quốc Huy2,
Giang Thị Kim Liên2, Lê Nguyễn Thiên Hân3, Nguyễn Minh Hiền3*
1Trường THPT chuyên Trần Đại Nghĩa, Việt Nam
2Viện Nghiên cứu và Đào tạo Việt-Anh - Đại học Đà Nẵng, Việt Nam
3Trường Đại học Khoa học Sức khoẻ, Đại học Quốc gia Thành phố Hồ Chí Minh, Việt Nam
*Tác giả liên hệ / Corresponding author: nmhien@uhsvnu.edu.vn
(Nhận bài / Received: 24/9/2024; Sửa bài / Revised: 24/11/2024; Chấp nhận đăng / Accepted: 25/11/2024)
Tóm tắt - Các cây thuộc chi Chè Camellia từ lâu đã được chứng
minh có khả năng chống stress oxy hóa thông qua sự dập tắt các
gốc tự do. Nghiên cứu này sử dụng phương pháp sàng lọc ảo in
silico tích hợp thuật toán học máy để dự đoán khả năng chống oxy
hóa thông qua việc tăng cường biểu hiện Nrf2 của 5 loài thuộc chi
chè Camellia bao gồm Camellia sinensis, Camellia
quephongensis, Camellia oleifera, Camellia amplexicaulis
Camellia japonica. hình học máy phân loại hợp chất được
xây dựng dựa trên bốn thuật toán học máy bao gồm Support
vector machines (SVM), Random forests (RF), Extreme gradient
boosting (XGBoost) Multilayer Perceptron (MLP). Từ
hình phân loại hiệu suất tối ưu, nghiên cứu đã xác định được
33 hợp chất tiềm năng. Các hợp chất được phân loại có khả năng
kích hoạt Nrf2 được docking phân tử trên với thụ thể Keap1-Nrf2
(PDB ID: 2FLU). Kết quả cho thấy, có bốn hợp chất với số điểm
docking tốt nhất là camellianoside (-10,4 kcal/mol), theaflavin-3-
gallate (-9,9 kcal/mol), theaflavin-3'-gallate (-9,8 kcal/mol)
camelliaside B (-9,7 kcal/mol).
Abstract - Species from the Camellia genus have long been shown
antioxidant properties through the quenching of free radicals. This
study employed an in silico virtual screening approach, integrating
machine learning algorithms to predict the antioxidant potential of
five species from the Camellia genus, namely Camellia sinensis,
Camellia quephongensis, Camellia oleifera, Camellia amplexicaulis,
and Camellia japonica, by evaluating the capacity to inhibit Keap1-
Nrf2 complex, indirectly enhance Nrf2 expression. Four machine
learning algorithms including Support Vector Machines (SVM),
Random Forests (RF), Extreme Gradient Boosting (XGBoost), and
Multilayer Perceptron (MLP)-were utilized to build a classification
model for predicting compound activity. Based on the top-
performing model, 33 promising compounds were identified. These
Nrf2-activating compounds were further analyzed through molecular
docking with the Keap1-Nrf2 complex (PDB ID: 2FLU). The
docking results highlighted four compounds with the most favorable
binding affinities: camellianoside (-10.4 kcal/mol), theaflavin-3-
gallate (-9.9 kcal/mol), theaflavin-3'-gallate (-9.8 kcal/mol), and
camelliaside B (-9.7 kcal/mol).
Từ khóa - hình học máy; ức chế phức hợp Keap1-Nrf2; chi
Camellia; docking phân tử; in silico.
Key words - Machine learning; Keap1-Nrf2 inhibitor; Camellia
genus; molecular docking; in silico.
1. Đặt vấn đề
Stress oxy hóa là tình trng mt cân bng gia các gc
t do và cht kim soát biu hin chng oxy hóa do nguyên
nhân ni sinh như căng thng thn kinh, viêm nhim và
nguyên nhân ngoại sinh như chế độ ăn ung, vận động quá
mc, tia bc x, ô nhiễm môi trưng [1]. Trong điều kin
bình thường, các cht oxy hóa sn phm ph ca các hot
động sng của cơ thể, có mt s vai trò sinh lý như c tác
enzyme, kích hoạt con đường truyn tín hiu tế bào, vn
chuyển điện t nên đưc duy trì mt mức độ ổn định
trong thể [2]. Song, tình trng stress oxy hóa mn tính
th gây tn thương đến các tế bào xung quanh,
kích hot phn ứng viêm làm thúc đẩy tiến trình lão hóa và
nhiu bnh nguy hiểm n tim mạch, thoái hóa thn
kinh, ri lon chuyển hóa, ung thư [1].
1 Tran Dai Nghia High School for the Gifted, Vietnam (Nguyen Minh Quan, Doan Nguyen Viet Ha)
2 The University of Danang - VN-UK Institute for Research and Executive Education, Vietnam (Nguyen Bui Quoc
Huy, Giang Thi Kim Lien)
3 University of Health Sciences, Vietnam National University, Ho Chi Minh City VNU-HCM, Vietnam (Le Nguyen
Thien Han, Nguyen Minh Hien)
Nuclear factor erythroid-2 p45-related factor 2 (Nrf2) là
yếu t phiên mã quan trọng điu hòa hot động các gen bo
v tế bào chng li stress oxy hóa. điu kiện bình thường,
trong thể con ngưi, mật độ Nrf2 t do thưng mc
thp chúng b gi bi protein Keap1 (Kelch-like ECH-
associated protein 1) b ubiquitin hóa bi phc hp E3
ubiquitin ligase (Cul3 - Rbx1). Keap1 mt protein nhy
cm vi stress oxy hóa [3], gm 624 acid amin và bn min
chức năng riêng biệt: min BTB (Broad complex
TramtrackBric-a-brac), vùng can thip (IVR - Intervening
Region), min lp glycine kép (DGR - Double Glycine
Repeats), min C-terminal [4]. Miền BTB đảm nhim vai
trò liên kết với Cullin3/E3 ligase, thúc đẩy quá trình phân
hủy Nrf2 trong điều kin không stress oxy hóa. Min
DGR cấu trúc β-propeller sáu cánh, cho phép Keap1 liên
44 Nguyễn Minh Quân, Đoàn Nguyễn Vit Hà, Nguyn Bùi Quc Huy, Giang Th Kim Liên, Lê Nguyn Thiên Hân, Nguyn Minh Hin
kết vi min Neh2 của Nrf2 để điu hòa hoạt động ca nó.
Vùng IVR, nm gia BTB và DGR, giúp Keap1 di chuyn
khi nhân và hoạt động ch yếu trong tếo chất. Đặc bit,
min IVR BTB cha các gc cysteine nhy cảm, như
Cys151, Cys273, Cys288, th phn ng vi các tác
nhân oxy hóa gây stress, dẫn đến thay đổi cu trúc và chc
năng ca Keap1, t đó làm giảm liên kết vi Nrf2, gii phóng
Nrf2 vào nhân kích hot các gene bo v tế bào [5, 6]. Khi
nhiu gc cha oxy hot tính (Reactive oxygen species
ROS), amino acid cystein ca Keap1 s b biến đổi dn ti
s phân tách ca phc hp Keap1-Nrf2. Nrf2 sau đó đi vào
nhân tế bào, d hp vi các protein sMAF to ra phc hp
phiên kh năng liên kết vi ARE (Antioxidant
response element), làm biu hin các gen chng oxy hóa do
ARE kim soát giúp chng li ROS tn công tếo [7].
Hin nay, các nghiên cứu đã xác định được hai chế
chính giúp tăng biểu hin Nrf2 bao gm (1) phn ứng ái điện
t vi cystein Keap1 để bt hot Keap1 [8, 9]
(2) ngăn chặn s hình thành phc hp gia Keap1-Nrf2 bng
cách bt chuc cu trúc min liên kết Neh2 vi Kelch [10].
Cht kích hot Nrf2 thành công nhất cho đến nay este acid
fumaric, dimethyl fumarate (DMF) ca BG-12 được FDA
công nhận vào năm 2013 trong điều tr bnh đa xơ cứng tái
phát-thuyên gim (Relapsing-Remitting Multiple Sclerosis)
[11]. n cạnh đó, sulforaphane (SFN), một isothiocyanate
m thy di dào trong h Thp t (Cruciferae), đưc chng
minh có tim năng trong việc tăng biểu hin của Nrf2 được
s dụng trong điều tr bệnh đái tháo đường tuýp 2 [12].
chế chng oxy hóa của DMF và SFN đều da trên vic làm
biến đổi nhiu vùng liên kết khác nhau ca Keap1, c th là
phn ứng ái điện t ca DMF SFN vi Cys151 vùng
BTB của Keap1 m tăng biểu hin Nrf2 [13, 14]. Khi
Cys151 b biến đổi, kh năng tạo thành phc hp Cul3/Rbx1
vi Keap1 s gim xung, dn ti vic Keap1 vn liên kết
vi Nrf2 Nrf2 mi tng hp s t do trong môi trưng ni
bào do không còn b ubiquitin hóa thc hin hoạt động
phiên mã [15]. Tuy nhiên, các cht c chế tương tác protein-
protein gia Keap1-Nrf2 có tính chn lọc cao hơn các chất
ái điện t vì da trên vic bắt chước mô típ ETGE ca Nrf2
cu trúc phiến gập β đặc trưng gắn vào min Kelch ca
Keap1 thông qua các ơng tác k c tĩnh điện [12].
c cht c chế tương tác Keap1-Nrf2 hin nay đang được
nghiên cu LH601A, RA839, tetrahydroisoquinolin,
thiopyrimidin, naphthalen, carbazon [16, 17].
Chi Chè (Camellia) là mt thc ung dân, ph biến
Việt Nam đã được chng minh nhiu tác dng v c
như chống oxy hóa, kháng viêm, ngăn ngừa ung thư; trong
s đó, tác dụng dược được quan tâm hơn cả kh ng
chng oxy hóa [18, 19]. Nhiu nghiên cu trước đây đã cho
thy, kh năng dập tt gc t do H2O2 DPPH (2,2-
diphenyl-1-picrylhydrazyl) đáng kể ca nhiu cây thuc loài
Camellia sinensis. Đồng thi, các nghiên cứu cũng chỉ ra các
loài Camellia sinensis, Camellia oleifera Camellia
japonica chac polyphenol kh năng dp tt gc t do
như epicatechin (EC), epigallocatechin (EGC), epicatechin-
3-gallate (ECG) và epigallocatechin-3-gallate (EGCG) [20].
Tuy nhiên, vn rt ít các nghiên cứu đi u vào tìm hiểu
kh năng kháng oxy hóa thông qua sự c chế phc hp
Keap1-Nrf2 ca c cht trong chi Chè. Phương pháp sàng
lc o in silico vi ưu thế tin li, tiết kim kh năng xử
d đn s ng hp cht vô cùng ln đang càng trở nên
ph biến nhưng Việt Nam phương pháp in silico vẫn ít được
s dng. vy, nghn cu tp trung s dụng phương pháp
in silico đ kho sát kh ng kháng stress oxy hóa thông qua
s c chế phc hp Keap1-Nrf2 ca 5 loài thuc chi chè
Camellia bao gm C. sinensis (Trà xanh), C. oleifera (Hoa
S), C. quephongensis (Trà hoa ng Quế Phong), C.
amplexicaulis (Hi đường Vit Nam) C. japonica (Trà mi).
2. Nguyên liu
2.1. Các cơ sở d liu: PubChem, ChEMBL, PDB
Trong nghiên cứu này, 3 sở d liu miễn phí đưc
s dụng để thu thp các d liu cn thiết bao gm
PubChem, ChEMBL và Protein Data Bank (PDB).
PubChem (https://pubchem.ncbi.nlm.nih.gov) sở
d liu hóa hc m đưc xây dng bi NLM (National
Library of Medicine), mt vin nghiên cu trc thuc NIH
(U.S. National Institutes of Health). Nghiên cu s dng
sở d liệu PubChem đ trích xuất định dng canonical
SMILES ca các hp cht trong chi chè Camellia.
ChEMBL (https://www.ebi.ac.uk/chembl/) sở d
liu v các phân t hot tính sinh học được duy trì bi
EBI (European Bioinformatics Institute). Nghiên cu s
dụng sở d liu ChEMBL để thu thp các hp cht đã
đưc chng minh kh năng c chế phc hp Keap1-Nrf2.
Trong nghiên cứu này, cơ sở dữ liệu Protein Data Bank
(https://www.rcsb.org/) được sử dụng nhằm thu thập cấu
trúc 3D của phức hợp protein Keap1-Nrf2 (PDB ID: 2FLU)
để sử dụng trong mô hình docking phân tử.
2.2. Google colaboratory
Google colaboratory phn mm cho phép thc thi
Python trên nn tảng đám mây. Nghiên cứu đã sử dng
phn mềm để xây dng các hình hc máy bng ngôn
ng Python và trích xut các kết qu d liu.
2.3. AutoDock Vina
Đy dng mô hình docking pn t, nm nghiên cu
s dng phn mềm AutoDock Vina đưc phát trin bi vin
nghn cu Scripps (M). Phn mềm AutoDock Vina ưu thế
là s dng phương pp tối ưua Gradient trong tính toán và
d đn vị trí liên kết ca phi t vi th th, giúp ti ưu a
tốc đ nh tn tăng độ cnh xác ca c d đn [21].
2.4. BIOVIA
Nghiên cu s dng phn mm BIOVIA Discovery
Studio Visualizer (phiên bn 21.1.0) để phng 2D
3D kết qu docking phân t và các liên kết ca phi t vi
th th trong mô hình docking.
2.5. Swiss ADME
Nghiên cứu đã sử dng phn mm SwissADME
(http://www.swissadme.ch/index.php) để đánh giá tiềm
năng dược lý ca các hp cht thuc chi chè Camellia [22].
3. Phương pháp nghiên cu
3.1. Chun b d liệu để sàng lc o
Phc hp Keap1-Nrf2 của người (ID:
CHEMBL3038498) được s dng là th th gn kết nhm
ISSN 1859-1531 - TP CHÍ KHOA HC VÀ CÔNG NGH - ĐẠI HỌC ĐÀ NNG, VOL. 22, NO. 11A, 2024 45
kho sát các hp cht tiềm năng c chế phc hp Keap1-
Nrf2. Nghiên cu này s dụng thư viện hp cht ChEMBL
để thu thp d liu v các hp cht kh năng c chế phc
hp Keap1-Nrf2 bng cách s dng t khóa “inhibit
Keap1-Nrf2” hoặc “inhibit Keap1”. Đặc tính cu trúc
hóa hc ca các hp cht s đưc ng làm d liệu đầu
vào; giá tr IC50 ca hp chất đưc s dng đ phân loi
hp chất thành “có hoạt tínhđối vi hp cht giá tr
IC50 nh hơn giá trị ngưỡng “không hoạt tính” đối
vi hp cht giá tr IC50 lớn hơn hoặc bng giá tr
ngưng. Nghiên cu s dng bn phương pháp đ phân
loi hp chất tương ứng da trên hai giá tr IC50 ngưng là
10 μM 5 μM kết hp với phương pháp tạo hp cht
không có hoạt tính “decoy” bng công c DUDEZ.
3.1.1. Cơ sở d liu các hp cht trong chi chè Camellia
Da trên các nghiên cứu trước đây v các hp cht
trong 5 loài thuc chi chè Camellia, nhóm tiến hành tng
hp d liu t các bài báo khoa hc, sở d liu vi các
t khóa như “Chemical constitute”, “Chemical
composition” đã xây dựng sở d liu gm 399 hp
chất để sàng lc o vi các mc: loài cây, nhóm hp cht,
tên hp chất định dng canonical SMILES đưc truy
xut t cơ sở d liu PubChem.
3.1.2. Phương pháp mã hóa cấu trúc hóa hc
Nghiên cu s dng 4 phương pháp hóa cu trúc
hóa hc khác nhau bao gm: du vân tay Morgan 2,
Morgan 3 [23], MACCS [24] và RDKit [25].
3.1.3. Tp d liu hun luyn và kim tra
Đối vi tng tp d liu hun luyn, 80% s hp cht s
đưc s dụng để hun luyn mô nh và 20% s hp cht s
đưc s dng để đánh giá nh học y. c ng thc
a hc ca hp chất đưc biu din bng định dng SMILES,
được chuyn thành vecnhị phân bng các ng c
a gm MACCS, Morgan 2, Morgan 3 và Rdk5.
3.1.4. Phương pháp tạo hp cht không hot nh decoy
Nghiên cu tiến hành s dng công c DUDEZ
(https://tldr.docking.org/) để to hp cht không hot
tính “decoycho cả 2 tp d liu hun luyện đ to ra thêm
2 tp d liu ng vi 2 giá tr ngưng IC50 tương ng
10 μM và 5 μM.
3.2. Xây dng mô hình hc máy d đoán các chất c chế
phc hp Keap1-Nrf2
3.2.1. Mô hình thut toán s dng trong sàng lc o
Để xây dng hình hc máy, bn thut toán phân loi
khác nhau bao gm Support Vector Machines (SVM),
Random Forests (RF), Extreme Gradient Boosting
(XGBoost) Multilayer Perceptron (MLP) đã được s
dng. Các siêu tham s ca thut toán s dng cho 4 ln
chy vi 4 tp d liu hun luyện là tương tự nhau:
- hình SVM: Hàm kernel được cài đặt linear hoc
rbf tham s gamma được i đặt scale. Tham s C
được cài đặt là 2 ti 10 và tham s degree là 2 ti 5.
- hình RF: Giá tr max_depth được cài đặt 10, 20,
30; min_samples_leaf là 1, 2 và min_samples_split là 2, 3.
Giá tr n_estimators được cài đặt 50, 100, 200, 400
tham s max_features là sqrt hoc log2.
- Mô hình XGBoost: Giá tr max_depth được cài đặt là
2, 3, 5, 8, 10, 15. Tham s booster là gbtree hoc gblinear.
Giá tr learning_rate 0,05; 0,1; 0,15; 0,20. Giá tr
min_child_weight là 1, 2, 3, 4. Giá tr n_estimators là 100,
200, 300, 500, 900, 1100.
- Mô hình MLP: Tham s hidden_layer_sizes bao gm
các cp s (16; 8), (32; 16), (64; 32), (128; 64). Tham s
activation được cài đặt là relu hoc tanh và solver là adam
hoc sgd. Tham s learning_rate được cài đặt constant
hoc adaptive. Giá tr batch_size được cài đặt 32, 64, 128
và giá tr alpha là 0,001; 0,01; 0,1.
3.2.2. Các thông s đánh giá hiu sut mô hình
Hiu sut của mô hình được đánh g bng các thông s:
Độ chính xác (accuracy), độ nhạy (sensitivity), độ đặc hiu
(specificity), diện tích dưới đường cong biu diễn đặc điểm
hoạt động ca thut toán (Area Under the Curve - Receiver
Operating Characteristic - AUC - ROC) [26, 27]. Các thông
s đưc tính da trên bn giá trs hp cht có hot tính
tht (true positive - TP), s hp cht có hot tính gi (false
positive - FP), hp cht không hot nh tht (true negative
- TN), s hp cht không hot nh gi (false negative -
FN). Các thông s được tính toán nsau:
- Độ chính xác = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁
- Độ nhạy (tỷ lệ hợp chất có hoạt tính thật (true positive
rate TPR)) = 𝑇𝑃
𝑇𝑃+𝐹𝑁
- Độ đặc hiệu = 𝑇𝑁
𝑇𝑁+𝐹𝑃
- Tỷ lệ hợp chất không hoạt tính thật (false positive
rate FPR) = 𝐹𝑃
𝑇𝑁+𝐹𝑃
- AUC= 𝑇𝑃𝑅 (𝑥). 𝐹𝑃𝑅 (𝑥)
0
1= 2 (1 𝑥2). (1 𝑥)𝜕𝑥
0
1
3.2.3. Tối ưu hóa thuật toán
Phương pháp tìm kiếm lưới (gridsearch) xác thc
chéo năm lần (5-fold cross validation) được s dụng để
điu chnh siêu tham s cho các hình hc máy. Siêu
tham s ti ưu nht cho tng thut toán s được xác đnh
thông qua phương pháp grid search, thut toán ti ưu nhất
ca một phương pháp chun b d liu s được xác đnh
da trên giá tr độ chính xác (accuracy), diện tích dưới
đường cong (AUC), đ đặc hiu (specificity). Bn thut
toán tối ưu nhất ng vi bốn phương pháp chuẩn b d liu
s đưc so sánh và chn ra mô hình d đoán tốt nht.
3.3. Phân tích tương tác và kh năng gắn kết ca các cht
đưc d đoán có tiềm năng kích hoạt biu hin Nrf2 trên
protein mc tiêu Keap1 s dng mô hình docking phân t
Nhóm tiến hành docking phân t vi 33 hp chất được
sàng lc vi th th phc hp Keap1-Nrf2 (PDB ID:
2FLU). Nghiên cu s dng phn mềm Autodock Vina đ
mô phng và tính toán kh năng liên kết ca phi t và th
th. V trí docking đưc chn là vùng tương tác gia Nrf2
và Keap1 ti ta độ: x = 8,11; y = 16,25; z = 9,34 vi kích
thước: x = 26,65; y = 36,52; z = 43,72. Đim s docking
đưc s dụng để đánh giá khả năng liên kết.
3.4. Đánh giá điểm s ADME
ADME là các ch s dùng để đánh giá tiềm năng dưc
ca mt hp cht, bao gm Absorption - độ hp th,
46 Nguyễn Minh Quân, Đoàn Nguyễn Vit Hà, Nguyn Bùi Quc Huy, Giang Th Kim Liên, Lê Nguyn Thiên Hân, Nguyn Minh Hin
Distribution - s phân b trong th, Metabolism - s
chuyn hóa Excretion - s thi tr. Nghiên cứu đã tiến
hành đánh giá điểm s ADME ca 4 hp cht có kh năng
liên kết vi phc hp Keap1-Nrf2 tt nht bng công c
SwissADME (http://www.swissadme.ch/index.php).
4. Kết qu nghiên cu
4.1. Kết qu sàng lc hp cht t cơ sở d liu ChEMBL
và đánh giá hiệu sut mô hình hc máy
4.1.1. Kết qu sàng lc hp cht t sở d liu ChEMBL
Đối với ngưỡng giá tr IC50 = 10 μM, 379 hp cht
đưc phân loại “có hoạt tính” (active) 268 hp cht
đưc phân loại là “không hoạt tính” (inactive). Đối vi
ngưng giá tr IC50 = 5 μM, 338 hp chất được phân loi
“Có hoạt tính” 309 hp chất được phân loại “Không
có hot tính” (Hình 1). Trong c 2 trường hp, s hp cht
“Không hoạt tính” đều nhóm ít hơn đu chiếm
>40% tng s hp cht, cho thy cà 2 tp d liu ít b mt
cân bng và phù hợp để hun luyn thut toán.
Khi s dng công c DUDEZ để to hp cht không có
hoạt tính “decoy”, kết qu đối vi IC50 ngưỡng 10 μM,
379 cht có hot tính - 379 cht không hot tính, trong
khi đối vi IC50 ngưỡng = 5 μM, sử dng decoy: 338 cht
có hot tính - 338 cht không có hot tính.
Hình 2. Phân loại các hoạt chất có hoạt tính và không có
hoạt tính với ngưỡng IC50 = 10 µM và IC50 = 5 µM
4.1.2. Hiu sut mô hình hc máy
Mi tp d liu hun luyn ng vi tng phương pháp
chun b d liu s được dùng đ xây dng mt hình phân
loi hp cht. Để xây dng mô hình, bn thut tn phân loi
khác nhau đã đưc s dng bao gm SVM, RF, XGBoost
MLP. Giá tr độ chính xác, AUC, và độ đc hiu đưc chn
m các giá tr để xác định hiu sut ca hình hc máy.
Siêu tham s ti ưu của các thut tn ng vi 4 phương pháp
hóa, s dng 4 tp d liu hun luyện được th hin Ph
lc. Thut toán, siêu tham s ca thut toán và phương pháp
a cu tc tối ưu của cáchình ng vi từng phương
pháp chun b b d liu hun luyn c giá tr đánh giá
hiu sut của nh được th hin Bng 1.
Nghiên cứu xác đnh hình học máy SVM, phương
pháp hóa cấu trúc Morgan 3 phương pháp chun b
b d liu hun luyn vi giá tr IC50 = 10 µM kết hp ecoy
hình hc máy tối ưu nhất với độ chính xác cao nht
là 0,8487 và AUC cao nht là 0,9203 (Bng 1).
Nghiên cứu đng thi tính toán ch s tương đồng
Tanimoto gia 647 hp chất được s dng trong xây dng
hình hc máy và 399 hp cht trong b d liu th
nghiệm được hóa bằng phương pháp Morgan 3. Kết qu
ch s Tanimoto gia tp d liu hun luyn và tp d liu
th nghiệm đu nh hơn 0,3 [28]. Điều này cho thy, tp
d liu hun luyn đủ đa dạng th s dụng để hun
luyn thut toán. T các kết qu trên, nghiên cu s dng
hình SVM, kết hợp phương pháp hóa cu trúc
Morgan 3 và phương pháp chun b b d liu hun luyn
vi giá tr ngưng IC50 = 10 µM làm hình phân loi các
hp cht có kh năng ức chế phc hp Keap1-Nrf2.
Bảng 1. Mô hình học máy và hiệu suất mô hình học máy
IC50 = 10 µM
IC50 = 5 µM
Không
decoy
decoy
decoy
Thuật toán
SVM
SVM
RF
Phương pháp
mã hóa
Morgan3
Morgan3
Morgan2
Siêu tham số
C: 3
degree: 2
gamma:
scale
kernel:
rbf
C: 2
degree: 2
gamma:
scale
kernel:
rbf
max_depth: 30
max_features: sqrt
min_samples_leaf: 2
min_samples_split: 2
n_estimators: 50
Độ chính xác
0,8385
0,8487
0,8309
AUC
0,8878
0,9203
0,9137
Độ nhạy
0,8974
0,8718
0,8235
Độ đặc hiệu
0,7500
0,8243
0,8353
Hình 3. Đồ thị biểu diễn đường cong ROC (Receiver Operating
Characteristic) và giá trị diện tích dưới đường cong
(Area under curve)
4.2. Kết qu d đoán hợp cht tiềm ng sử dng
hình hc máy tối ưu
S dng tp d liu hun luyn, thuật toán phương
pháp hóa tối ưu nht (IC50 = 10 μM, decoy-SVM-
Morgan 3), nghiên cu tiến hành phân loi các hp cht t
nhiên trong 5 cây thuc chi Chè Camellia. Công thc phân
t ca 399 hp cht thuc 5 loài Camellia đưc viết dưới
định dng SMILES và chuyn thành chui vectơ nh phân
bằng phương pháp Morgan 3 để thut toán phân loi.
Nghiên cứu xác định 33 trong 399 hp chất được phân
loi tim năng c chế phc hp Keap1-Nrf2. Trong
các loài, 2 loài được xác định nhiu hp cht tim
năng nhất C. japonica vi 13 hp cht và C. sinesis vi
11 hp cht (Bng 2).
Nghiên cứu sau đó tiến hành docking phân t đối vi
33 hp cht tiềm năng trên với protein đích phức hp
Keap1-Nrf2 (PDB ID: 2FLU) s dng phn mm Autodock
Vina. Kết qu cho thy trong 33 hp cht, 4 hp cht có ái
lc liên kết vi th th Keap1 cao nht dựa vào đim s
docking lần lượt camellianoside (-10,4 kcal/mol),
theaflavin-3-gallate (-9,9 kcal/mol), theaflavin-3'-gallate
(-9,8 kcal/mol), camelliaside B (-9,7 kcal/mol).
ISSN 1859-1531 - TP CHÍ KHOA HC VÀ CÔNG NGH - ĐẠI HỌC ĐÀ NNG, VOL. 22, NO. 11A, 2024 47
Bảng 2. Điểm số docking của hợp chất tiềm năng từ kết quả
sàng lọc sử dụng mô hình học máy SVM-Morgan 3
Hợp chất
Điểm số docking
Cây
Rutin
-9,3
C. quephongensis
C. oleifera
C. sinensis
Camelliaside B
-9,7
C. oleifera
Camelliaside A
-8,3
C. oleifera
Camellianoside
-10,4
C. japonica
Camelliatannin A
-9,3
C. japonica
Camelliatannin C
-9,2
C. japonica
Camelliatannin H
NC*
C. japonica
Camelliatannin D
NC*
C. japonica
Camelliatannin F
-9,6
C. japonica
Camelliatannin G
-9
C. japonica
Chakasaponins I
-7,3
C. sinensis
Chakasaponins III
-7,7
C. sinensis
Floratheasaponins A
-7,6
C. sinensis
Floratheasaponins B
-7,7
C. sinensis
Floratheasaponins C
-7
C. sinensis
Floratheasaponins D
-7,7
C. sinensis
Floratheasaponins E
-6,6
C. sinensis
Floratheasaponins F
-7,3
C. sinensis
Camelliasaponins A2
-7,4
C. japonica
Camelliasaponins C1
-7,6
C. japonica
Theasaponin E1
-7,9
C. japonica
Yuchasaponin A
-7,8
C. oleifera
Yuchasaponin B
-7,7
C. oleifera
Sasanquasaponin
-8,3
C. oleifera
Camelliasaponin B2
-7,7
C. oleifera
Theaflavin-3'-gallate
-9,8
C. sinensis
Theaflavin-3-gallate
-9,9
C. sinensis
Camelliins A
NC*
C. japonica
Camelliins B
NC*
C. japonica
Camellioside D
-8
C. japonica
Oleanolic acid-3-O-β-D-
glucopyranoside
-8,5
C. oleifera
Camelliquercetiside C
-8,8
C. amplexicaulis
Camellioside A
-8,7
C. amplexicaulis
*NC: Không tính toán được do phân tcó nhiều hơn 100 nguyên tử
khác hydrogen
4.3. Đim s docking đánh gkhả năng gắn kết ca
các chất được d đoán
phỏng 2D các tương tác Hình 3 cho tht tt c
tương tác của bn hp cht vi các amino acid ca Keap1
liên kết hydro, tương tác π-cation, π xếp chng
π-alkyl. Các nhóm hydroxyl ca các phi t đóng vai trò là
cht cho hydro cho nhóm amin trên Val465, Leu365,
Tyr572, His436, Asn414, Ser431, Arg380, Arg483,
Ser508, Ser555 và Ile416. Bn hp chất trên điểm chung
đều tương tác với Arg380, Arg415, Ser555 vi vai trò
ch yếu cht cho electron. Mt s v trí tương tác mi
xut hin lần đầu vi c amino acid Val512, Ala 510,
Val465, Gly603, His436, Arg483, Gly643, Gly462, ch
yếu liên kết hydro. Các v trí gn kết Tyr334, Ser363,
Leu365, Asn382, Tyr525, Ala556, Asn414, Ile416,
Gln530, Ser508, Ser555, Arg415, Tyr572 tương đng vi
các nghiên cu khác khi thc hin docking hp cht trên
th th phc hp Keap1-Nrf2 [29,30]. Hơn nữa, mt s
nghiên cứu trước đã ch ra rng Tyr334, Ser363, Arg380,
Asn382, Arg415, Arg483 và Ser508 là các amino acid ca
Keap1 liên kết vi min Neh2 của Nrf2, đóng vai trò quan
trng trong vic hình thành phc hp Keap1-Nrf2 [29,30].
Vic bắt chước càng ging thế ca Nrf2 khi hình thành
phc hp Keap1-Nrf2 được cho gia tăng kh năng liên
kết ca các hp cht vi th th Keap1.
Hình 4. Mô phỏng 2D tương tác các acid amin của protein
Keap1 và camellianoside (A), theaflavin-3-gallate (B),
theaflavin-3'-gallate (C) và camelliaside B (D)
Bảng 3. Loại tương tác và vị trí amino acid của Keap1 tương
tác với bốn hợp chất có điểm số docking cao nhất
Hợp chất
Loại tương tác
Vị trí amino acid
tương tác
Camellianoside
Tương tác bất
lợi*
Val465
Liên kết hydro
Val512, Ala510, Gly603,
Ala556, Arg380, Ser555,
Arg415, Asn414, Leu365
𝜋-cation
Arg415
𝜋-alkyl
Ala556
Theaflavin-3-
gallate
Tương tác bất lợi
Asn414, Ser431
Liên kết hydro
Asn382, Arg380, Asn414,
Ser431, His436, Ser555,
Gln530, Tyr572
𝜋-cation
Arg415, Arg380
𝜋 xếp chồng
Tyr572
𝜋-alkyl
Arg415, Ala556
Theaflavin-3'-
gallate
Tương tác bất lợi
Arg483, Arg380
Liên kết hydro
Ser363, Arg415, Ser508,
Ser555, Asn414, Ser431
𝜋-cation
Arg380, Arg415
Camelliaside B
Tương tác bất lợi
Ser555
Liên kết hydro
Tyr334, Gly364, Ile416,
Gly462, Arg415, Ser363,
Arg380
𝜋-cation
Arg380
𝜋 xếp chồng
Tyr572, Tyr525, Tyr334
*Tương tác bất lợi biểu thị các tương tác đẩy/hút bất lợi giữa thụ
thể phối tử, thể gây ảnh hưởng đến độ bền giữa phức hợp
của phối tử và thụ thể trong các nghiên cứu docking [31].
4.4. Đim s ADME - d đoán kh năng hấp th các hp
cht của cơ thể con người
Nghiên cu đã tiến nh đánh giá đim s ADME ca bn
hp cht có kh ng liên kết vi Keap1 tt nht bng công
c SwissADME (http://www.swissadme.ch/index.php).