SO SÁNH CU TRÚC PROTEIN S DNG MÔ HÌNH TNG QUÁT
Văn Đình V Phương1, Phan Mnh Thường1 , Trn Văn Lăng2
(1) Khoa Công ngh thông tin, Trường Đại hc Lc Hng
(2) Vin Cơ hc và Tin hc ng dng, VAST
{phuong,thuong}@lhu.edu.vn, tvlang@vast-hcm.ac.vn
Tóm tt. Bài viết trình bày phương pháp so sánh hai cu trúc protein. Thc hin xếp chng
rút ngn khong cách gia nguyên t Carbon-
α
ca các phn t hai protein để tìm ra được
hình tương đồng cao nht ca hai protein. Ngun protein thc hin trong phương pháp được ly
t ngân hàng protein thế gii - Protein Data Bank (PDB). Mc nhiu phương pháp thc
hin so sánh cu trúc, nhưng vn còn nhiu vn đề cn nghiên cu m rng. Phương pháp
được trình bày trong bài báo được m rng t phương pháp Chimera. Phương pháp đưa ra
được kết qu ti ưu hơn so vi cách sp xếp chng đơn thun. Tính toán s trùng khp t vic
xếp hàng cu trúc, rút ngn khong cách hai cu trúc tiến hành dch chuyn, giúp cho vic
th hin s tương đồng ca protein mt cách chính xác hơn. Tuy nhiên, vn còn mt s hn chế
gp phi chưa gii quyết được: x lý đnh hướng chui liên kết; so sánh nhiu cu trúc
protein ti mt thi đim.
T khoá: cu trúc protein, so sánh cu trúc
1. Đt vn đề
Protein đóng vai trò chính trong quá trình sinh hc ca đng, thc vt. Vi chui trình t amino
acid ging nhau, nhưng s liên kết phn t, nếp gp khác nhau s to ra cu trúc protein khác
nhau, dn đến chc năng cách thc hot đng ca protein đó cũng khác nhau. Vic d đoán
cu trúc bc 3 ca protein để biết quy trình hot đng, chc năng ca protein vn mt thách
thc ln trong lĩnh vc sinh hc tính toán.
nhiu cách thc đ tìm cu trúc protein, bng k thut thc nghim phương pháp chp x-
quang tinh th, cng hưởng t ht nhân, hoc bng các phương pháp d đoán như Ab-Initio,
hình hóa tương đồng.
Phương pháp cng hưởng t ht nhân (NMR) [1] được s dng để xác định cu trúc và tính năng
ca các protein. Vic xác định cu trúc ca protein theo phương pháp này mt quá trình tn
thi gian đòi hi phi phân tích tương tác ca d liu. Có rt nhiu giai đon liên quan đến
vic thc hin cng hưởng t ht nhân; chng hn như chun b mu, cng hưởng, to ra bn tr,
tính toán và xác định cu trúc.
Vi phương pháp X-quang tinh th [3] hay được gi là nhiu x đơn tinh th qua tia X, là mt k
thut phân tích trong đó s dng các mô hình nhiu x to ra bng cách bn phá mt tinh th duy
nht vi tia X để xác định cu trúc tinh th. Các hình nhiu x được ghi li sau đó phân
tích để tìm ra bn cht ca tinh th. Phương pháp này được s dng trong sinh hóa để xác định
cu trúc ca mt lot các phân t bao gm DNA và protein.
Vic tìm kiếm cu trúc protein bng các phương pháp thc nghim rt khó khăn và tn thi gian,
các nhà nghiên cu đã c gng để t động hóa quá trình xác định cu trúc ba chiu ca protein
bng các phương pháp d đoán.
Đối vi các phương pháp d đoán, trong đó phương pháp mô hình hóa tương đồng [4] là phương
pháp liên quan đến vic xác định mt cu trúc protein được gi mu vi các chui truy
vn. Sau đó các nguyên t trong chui tìm kiếm s được so khp vi bn đồ các nguyên t
trong bn mu. Các chui so khp vi các mu cu trúc được s dng để to ra mt hình cu
trúc kết qu. Phương pháp này da trên nguyên tc trong hu hết các trường hp tương đồng
v trình t thì cũng ging nhau v cu trúc. Các bước chính liên quan đến vic hình hóa
tương đồng được tóm tt như sau: chn mu, sp hàng mu đích, xây dng hình đánh giá
mô hình.
Phương pháp Ab-initio [2] xây dng mô hình ba chiu ca protein t đầu da trên các nguyên lý
vt lýkhông đòi hi bt k d liu đầu vào như là mt cu trúc đã được biết đến hoc mt mô
hình cu trúc. D đoán cu trúc protein theo phương pháp Ab-Initio đòi hi các thut toán mnh
m và tài nguyên tính toán ln.
Hin nay s lưng các cu trúc protein trong PDB (Ngân hàng d liu protein) [5] phát trin
nhanh chóng vi khong 73.153 (17/5/2011) cu trúc đã biết. Tuy nhiên, đây cũng ch là mt con
s quá nh so vi nhng cơ th sng đang có xung quanh con người chúng ta. Chính vì vy, vic
gom nhóm tìm hiu cu trúc ca protein để phát hin các mi quan h tiến hóa, xác đnh các
motif (đon lp), phát hin mi quan h gia cu trúc và chc năng ca protein là mt nhu cu to
ln ca khoa hc v s sng.
Bài viết được trình bày trong 4 phn; phn th nht gii thiu v vn đề cn gii quyết, phn th
hai trình bày phương pháp được đ xut đ xây dng thut toán tính toán; phn th ba gii thiu
mu d liu để th nghim và phn cui cùng nêu lên mt s kết lun và hn chế.
2. Phương pháp gii quyết
Xét hai protein P1 và P2. Trong Chimera trình t đặt ra là sp xếp cu trúc (trình t amino acid)
hai protein, ri sau đó xếp chng hai protein; tiến hành thay đổi v trí và thu nh khong cách các
phân t để tìm s tương đồng cu trúc tt nht.
Cách tiếp cn trong bài viết thc hin theo quy trình ngược li, vic xếp chng hai protein được
thc hin trước tiên. Sau đó, tính toán các khong cách ca c nguyên t α-carbon được sp
hàng trong hai cu trúc protein bng cách thc hin vic chi tiết hóa v cu trúc so khp để gim
thiu hơn na khong cách. Phương pháp tng quát này cho mt kết qu sp hàng ti ưu, có th
tóm tt như sau:
§ Xây dng mt tp các v trí chng khp ban đầu gia hai cu trúc c định bng cách gi
nguyên mt cu trúc, cu trúc còn li được dch chuyn hoc xoay để tìm v trí so khp
tt nht.
§ Sau khi xếp chng, xác định các khong cách RMSD (Root Mean Square Deviation) ti
thiu.
§ Tính toán li khong cách gia các nguyên t α-carbon
Hình 1. Xếp chng cu trúc protein
Phương pháp này s dng các v trí hình hc ca các nguyên t α-carbon chính ca cu trúc
protein làm d liu đầu vào. D liu th nghim bao gm các protein độ dài khác nhau t
l nhn dng khác nhau. Thut toán chi tiết được c th qua 2 giai đon:
Giai đon 1: Xếp chng cu trúc
P1
P2
Xếp chng P1 lên P2
§ Gi c định P2 và xếp chng P1 trên P2.
§ Tiến hành dch chuyn P1 để tìm được s tương đồng cao nht. Bài toán so sánh cu trúc
ca các protein được chuyn thành bài toán so sánh các cu trúc con gia hai protein
(hình 1).
Giai đon 2: Rút ngn khong cách - cc tiu hóa khong cách gia các nguyên t được sp
hàng trong protein
2.1 Xếp chng cu trúc protein
Gi xi ta độ ban đu ca nguyên t th i, x'i ta đ ca nguyên t th i sau khi đưc dch
chuyn và xoay, vi a là vector tnh tiến và R là ma trn xoay [7][8]:
x'i = a + Rxi (1)
Phương pháp trong Chimera [6] được s dng để tìm so khp ca các nguyên t X1, ..., Xn trong
P1 vi các nguyên t Y1, ..., Yn trong P2, vi điu kin là P2 được gi c định và P1 được chuyn
dch.
2.2 Cc tiu hóa khong cách
Sau khi xếp chng, vic cc tiu hóa khong cách hai cu trúc protein da trên vic tính toán
khong cách gia các nguyên t α-carbon.
Phương pháp sp hàng tng quát là mt quá trình ba bước:
Bước 1: Cho Dj khong cách nguyên t Yj, 1 j N. Vic tính toán Dj mt quá trình bao
gm hai bước:
§ Bt đầu vi cu trúc chng như mô t trên.
§ Tiến hành so khp nguyên t Yj vi nguyên t Vj, trong đó Vj được chn t tp (Xj-1, Xj,
Xj+1) để cc tiu Dj trong công thc (3) Dst(A, B) khong cách Euclide gia hai
đim A và B được tính toán theo công thc (2).
ε
=1
NDst(a+Rxi,yi)2
i=1
N
(2)
{ }
),(),,(),,(min 11 jjjjjjj YXDstYXDstYXDstD+
=
(3)
Bước 2: Tính toán các khong cách gia mi cp nguyên t YjVj theo công thc (4).
Gi s Vj có ta độ
(vj
1,vj
2,vj
3)
Yj có ta độ
),,( 321
jjj yyy
. Đối vi giá tr T c định (T là tham s
nhit độ vi giá tr T = 10 để các nguyên t được n định), chúng ta tính toán tt c các giá tr
như sau:
(4)
Trong hình 3 là cu trúc sp hàng mi, tt hơn vic xếp chng đơn thun trong hình 2.
Hình 2. Sp hàng protein thông thường
Hình 3. Sp hàng protein sau khi tính giá tr
Bước 3: Tính khong cách gia các nguyên t carbon-α được sp hàng.
Cho
),(,),,(),,( ''22'11 NN VYVYVY
biu th các cp ca các nguyên t được so khp.
Trong đó,
Vj=vj
1' +vj
2' +vj
3', 1 jN
biu th khong cách ti thiu ti bước lp như mô t
trên. Khong cách da trên sp hàng cu trúc tng quát cui cùng εf được tính bi công thc (5).
)...(
1
21 Nf vvv
N+++=
ε
(5)
3. D liu mu
D liu mu dùng để kim tra và mô phng được ly t ngân hàng protein PDB [5]. Mi cu trúc
mt s nhn dng bn ký t được gi PDB ID hoc s nhn biết PDB, d: 2RZS,
1GWB, và được lưu tr trong mt tp tin định dng *.pdb hoc *.ent.
Tp tin cha thông tin v trình t amino acid, ta đ ca phn t trong không gian ba chiu
v.v… Ta đ ca amino acid nucleotide trong các protein acid nucleic được lit thành
tng dòng (ATOM). Bài viết tp trung ch yếu vào ta đ không gian x, y, z để xác định ta đ
nguyên t trong không gian - ct (G), (H), (I) ca Bng 1.
Bng 1: Ví d mu v mc trong PDB
S.No.
(A)
(B)
(C)
(D)
(E)
(F)
(G)
(H)
(I)
(J)
(K)
(1)
ATOM
1
N
MET
A
1
40.184
17.101
24.260
1.00
50.62
(2)
ATOM
2
CA
MET
A
1
38.989
16.442
23.757
1.00
49.62
4. Kết lun
Mc nhiu phương pháp thc hin so sánh cu trúc, nhưng vn còn nhiu vn đề cn
nghiên cu m rng. Phương pháp được trình bày trong bài báo được m rng t phương
pháp Chimera. Phương pháp đưa ra được kết qu ti ưu hơn so vi cách sp xếp chng đơn
thun. Tính toán s trùng khp t vic xếp hàng cu trúc, rút ngn khong cách hai cu trúc
tiến hành dch chuyn, giúp cho vic th hin s tương đồng ca protein mt cách chính xác hơn.
Tuy nhiên, vn còn mt s hn chế gp phi chưa gii quyết được như: x lý định hướng
chui liên kết; so sánh nhiu cu trúc protein ti mt thi đim.
i liu tham kho
[1] Hashim M., Hashimi A.L., Gorin A., Majumdar A., Gosser Y., Patel D.J. (2002). “Towards
structural genomics of RNA: Rapid NMR resonance assignment and simultaneous RNA
tertiary structure determination using residual dipolar coupling.” J.Mol.Biol, Vol.318, pp.
637-649.
[2] Wikipedia wikipedia, the free encyclopedia, 2010. [Online]. Available from:
http://en.wikipedia.org/wiki/De_novo_protein_structure_prediction
[3] Lonsdale K. (1960). “International tables for X-ray crystallography errata.” Acta Cryst,
Vol.13, p. 49.
[4] Reddy C.S., Vijayasarathy K., Srinivas E., Sastry G.M., Sastry G.N. (2006). “Homology
modeling for membrane proteins: A critical assessment.” Computational Biology and
Chemistry, Vol.30, pp. 120-126.
[5] Protein Data Bank. http://www.pdb.org/pdb/home/home.do
[6] Pettersen E.F., Goddard T.D., Huang C.C., Couch G.S., Greenblatt D.M., Meng E.C., Ferrin
T.E. (2004). “UCSF Chimera A visualization system for exploratory research and
analysis.” J.Comput.Chem, Vol 25, pp.1605-161.
[7] Berthold K. P. Horn. Closed-form solution of absolute orientation us-ing unit quaternions. In
Journal of the Optical Society of America, volume 4, pages 629–642, 1986.
[8] Eric W. Weisstein. Rotationmatrix. MathWorld–A Wol-fram Web Resource, 2007. [Online].
Available from: http://mathworld.wolfram.com/RotationMatrix.html [cited 28. 11. 2007]