ng dung công nghê thông tin đê quan ly d liêu sinh vât biên đôi genƯ ư
Nguyên Duy Binh a, Đăng Trong L ng ươ b, Hoang D ng Tung ươ c
a TS., Vn Khi tương va Thuy văn,i tr ng va Tai nguyên. ươ b TS., Viên Di truyên ng nghiêp, Bô
Nông nghiêp va Phat triên ng thôn . c TS., Trung tâm Quan tr c D li u Môi tr ng, i tr ng va Tai ươ ươ
nguyên.
An application of informatic technology in management of genetic modified
data
Abstract
In the year 2000, U.S. scientists announced that they had launched what they said was a
scientific revolution, that they had opened the book on human life. Three years latter, in April
2003, they delivered a list chemical by chemical what the DNA in human genes is made of.
And since then, the amount of genomic data revealed by scientists around the world had became
such enourmous that without database technology it is impossible to be handled efficiently. The
present study is among the first in Vietnam to store and manage GMO data in a database
management system (DBMS) with the potentially Web powered access for the Vietnamese
scientific community. The system was designed and implemented at the Hanoi Institute of
Genomatic Research with the available advanced computer science technologies such as .NET
and Web powered database. Our GMO database is opened to be enlarge and its management
software is robust and comprises of friendly user interfaces. The paper presents the methods and
technologies used to develop the system as well as the primary results of the study.
1 M đâuơ
Khoang th i gian cuôi thê ky 21 nên khoa hoc ky thuât thê gi i đa phat triên v t bâc, đăc ơ ơ ươ
biêt la hai linh v c công nghê thông tin va công nghê sinh hoc. Công nghê thông tin đa thuc đây ư
s phat triên cua hâu hêt cac linh v c khoa hoc ky thuât, ca công nghê sinh hoc va phat sinhư ư
chuyên nganh m i co tên goi la tin sinh hoc. Tin sinh h c (bioinformatics) là m t lĩnh v c khoa ơ ư
h c s d ng các công ngh c a các ngành toán h c ng d ng, tin h c, th ng khoa h c
máy tính đ gi i quy t các v n đ sinh h c [1] (Bách khoa toàn th m Wikipedia). ế ư
Nh ng lĩnh v c nghiên c u chính c a bao g m b t c p trình t (sequence alignment), ư ư
b t c p c u trúc protein (protein structural alignment), d đoán c u trúc protein (protein ư
structure prediction), d đoán bi u hi n gene (gene expression) t ng tác protein - proteinư ươ
(protein-protein interactions), hình hóa quá trình ti n hoá. Nh ng m i quan tâm chínhế
trong các d án tin sinh h c sinh h c tính toán vi c s d ng các công c toán h c đư
trích rút các thông tin h u ích t các d li u gen thu nh n đ c t các thu t sinh h c. Khôi ươ
l ng d liêu gen thu nhân đ c t cac nghiên c u sinh hoc gen trên toan thê gi i đa tr nênươ ươ ơ
cung to l n va đăc biêt tôc đô tăng tr ng d liêu trong hai năm qua đa v t qua moi d ơ ưở ươ ư
đoan tr c đây. T nh ng năm 90, Hoa ky, Nhât ban va Châu Âu đa phat triên cac công cu truy ươ
câp va phân tich d liêu gen trên c s ng dung cac tiên bô vê công nghê tin hoc nh GenBank ơ ư
cua Trung tâm Quôc gia Công nghê Tin Sinh hoc (the National Center for Biotechnology
Information, NCBI), Hoa ky, EMBL cua V n Công nghê Tin Sinh hoc Châu Âu (the European
Bioinformatics Institute, EBI), va DDBJ cua ch c Ngân ha ng D liê u Gen Nhât ban (the
DNA Data Bank of Japan, DDBJ). Cac CSDL nay cho phep câp nhâp t do bât c day d liêu ư
gen nao khi v a m i phân tich xong. Hiên nay GenBank ch a đ ng h n 30 triêu d liêu chuôi ơ ư ơ
gen đ c phân tich t h n 130 ngan loai giông sinh vât, bao gôm h n 36 ti nucleotit. ươ ơ ơ Ba
ch c nay đa liên tuc trao đôi d liê u gen theo quy đinh cua ch c H p tac D liê ơ u Chuôi
Nucleotit Quôc tê (the International Nucleotide Sequence Database Collaboration, INSDC) va
c ban đêơ u bao tri cung t CSDL chuôi gen trong khi viêc p nhâp d liê u gen n liên tuc
diên ra hang ngay t cac nha nghiên c u gen trên toa n thê gi i. Hinh 1 diên ta s phat triênơ ư
nhanh chong vê khôi l ng d liêu cua ba CSDL gen trên. ươ
1
Ngoai ba CSDL chinh đa nêu trên con co nhiêu Website khac cung câp kha năng truy câp d
liêu gen nh cua Viên Whitehead Cam (the Whitehead Institute, TIGR) Cambridge, ư
Massachusetts; va WormBase cua Phong Thi nghiêm Jackson (the Jackson Laboratory) Bar
Harbor, Maine. Thêm vao đo, co nhiêu hê thông may tinh t nhân vân th ng xuyên tai vê tât ca ư ươ
cac thông tin m i vê gen v a đ c câp nhâp vao cac site chinh (US CGDBTG, 2003). ơ ươ
Cac nghiên c u
CSDL gen Viêt nam hâu
nh m i băt đâu trong th iư ơ ơ
gian gân đây, trong đo
CSDL protein cua Tr ng ươ
Đai hoc Khoa hoc T ư
nhiên TP. Hô Chi Minh
(Cao Thi Ngoc Ph ng, ươ
2003) cho phep truy câp
cac thông tin nghiên c u
trong n c va n c ngoai.ươ ươ
Ro rang la vân đê tao cac
công cu tin hoc cân thiêt
cho cac can trong n c ươ
chuyên sinh hoc cung
nh cac khoa hoc kyư
thuât liên quan truy câp va
x ly d liêu gen, đang tr
nên rât b c thiêt nhăm
t ng b c gop phân thu ươ
nho khoang cach trinh đô
nghiên c u sinh hoc cua
Viêt nam v i thê gi i. ơ ơ
Bai bao nay gi i thiêu kêt qua b c đâu nhăm xây d ng c s d liêu va phân mêm quan ly ơ ươ ư ơ
d liêu sinh vât biên đôi gen. CSDL Gen nay co kha năng chia se thông tin va quan tri d liêu
sinh vât biên đôi gen nhăm đap ng yêu câu truy nhâp d liêu thông qua Internet. Bai bao se băt
đâu v i phân ph ng phap va thiêt thông CSDL va phân mêm quan ly trên c s nh ng ơ ươ ơ
yêu câu chung, sau đo se la phân trinh bay kêt qua đa đat đ c va kêt thuc v i phân kêt luân va ươ ơ
cac nôi dung nghiên c u trong t ng lai. ươ
2 Ph ng phap xây d ng hê thông thông tin d liêu genươ ư ư
Trinh t nghiên c u thanh lâp thông thông tin d liêu sinh vât biên đôi gen trong tai ư
nghiên c u nay bao gôm đê ra cac yêu câu c ban cho thông, xac dinh nh ng công nghê va ơ
công cu se đ c s dung va thiêt kê, lâp trinh xây d ng CSDL va phân mêm quan ly. Tât ca ươ ư
nh ng vân đê nay đ c trinh bay trong phân tiêp theo. ươ
2.1 Yêu câu hê thông CSDL sinh vât biên đôi gen (HTCSDL Gen)
Tr c hêt HTCSDL Gen cân đap ng đ c yêu câu phân loai, nhâp liêu, câp nhâp, x lyươ ươ
thông kê, in ân, va quan tri d liêu sinh vât biên đôi gen. Ngoai ra HTCSDL Gen cân đap ng
đ c cac yêu câu: (a) Co kha năng đap ng sô l ng l n ng i s dung truy câp đông th i vaoươ ươ ơ ươ ơ
HTSCDL, tât ca co thê truy câp cung môt th i điêm thông qua Website; (b) Tich tr sô l ng ơ ươ
l n d liêu, ca d liêu gen, san phâm sinh vât biên đôi gen va tai liêu tham khao (onlineơ
book); (c) Th i gian phan hôi va tôc đô truy câp nhanh; va (d) Yêu câu bao mât va an toanơ
cho hê thông.
2
Hinh 1. S tăng tr ng đôt biên vê khôi l ng d liêu gen ư ưở ươ
trong th i gian gân đây ba CSDL gen GenBank, EMBL vafơ
DDBJ.
(Nguôn: NCBI Website)
Chung ta cung cân
xac đinh đây nh ng
yêu câu quan trong hang
đâu đê kiêm tra qua
trinh thiêt va xây
d ng CSDL gen: (a)ư
Cung câp môt CSDL
Gen co kha năng chia se
thông tin ca trong mang
nôi cua Viên Di
truyên Nông nghiêp va
mang bên ngoai; (b)
Tich tr môt cach co
thông cac d liêu sinh ư
vât biên đôi gen theo
yêu câu cua Viên Di
truyên Nông nghiêp; (c)
CSDL đ c cai đăt taiươ
may chu cua Viên
DTNN; phân mêm quan
tri co kha năng cai đăt
đ c ca cac đia điêmươ
khac theo yêu câu; (d)
Co kha năng đap ng
đ c cac yêu câu nâng câp va m rông do công nghê thông tin CSDL va Web đang phatươ
triên v t bâc va thay đôi nhanh chong; (e) Bao đam đ c đô tin cây va an toan cua thông tin ươ ươ
tich tr ; (f) Co kha năng hiên thi tiêng Viêt nhăm đap ng yêu câu cua ng i s dung Viêt nam; ươ
(g) Không đoi hoi yêu câu cao vê phân c ng va phân mêm; va (h) Bao đam đ c cac yêu câu ươ
bên v ng cuathông (vi du s dung câu truc d liêu m , cac công nghê thông tin phô biên vê
tiêu chuân phân mêm, không qua ph c tap, thân thiên v i ng i s dung, tai liêu h ng dân va ơ ươ ươ
cai đăt ro rang, dê hiêu, v.v.).
2.2 Câu truc tông thê
Đê đat đ c cac muc tiêu va yêu câu trên, ươ thông tin hoc trong nghiên c u nay bao gôm
môt c s d liêu sinh vât biên đôi gen va san phâm cua chung (CSDL Gen) va môt Website ơ ư
hiên thi thông tin, giao tiêp v i ng i truy câp va liên kêt v i cac website khac nh đ c trinh ơ ươ ơ ư ươ
bay Hinh 2. Cu thê trong đo : (a) Hê thông CSDL Gen nhăm tich tr d liêu gen va cac d liêu
liên quan ca tai liêu tham khao nh cac bai bao, sach điên t , v.v. va Phân mêm quan ly ư
CSDL Gen. Phân mêm quan ly nay bao gôm cac module giao diên v i ng i quan tri nh nhâp ơ ươ ư
xuât, tim kiêm, bao tri, x ly thông kê va hiên thi d liêu; (b) Website liên kêt CSDL v i internet ơ
đê cung câp thông tin cho ng i s dung ma đôi t ng chinh la ng i Viêt nam đông th i liên ươ ươ ươ ơ
kêt v i cac Websites khac vê Gen trên thê gioi. ơ
2.3 Biên phap công nghê thông tin
Nhăm đap ng cac yêu câu cua thông CSDL Gen va phân mêm quan ly, nhât la yêu câu
kha năng m rông CSDL trong t ng lai, cac công nghê tin hoc sau đây đa đ c ng dung ươ ươ
trong viêc thiêt va xây d ng CSDL Gen va phân mêm quan ly: Microsoft SQL Server 2000 ư
(Microsoft Corporation, Santa Barbara, CA, My) dung đê thiêt va xây d ng CSDL ca ư
module bao mât va quan tri ng i s dung; Microsoft Visual Studio .NET 2003 la môi tr ng ươ ươ
lâp trinh c ban; Microsoft NET Framework ver. 1.1 la th viên va công cu tr lâp trinh; ơ ư ơ
System.Windows.Forms dung đê tao lâp cac bang giao diên; DeveXpress.NET ver. 3.0
3
Hinh 2 Câu truc tông thê cua Hê Tin Sinh hoc Gen
Hê
Hê thô
thông Tin Sinh ho
ng Tin Sinh hoc Gen
c Gen
WEBSITE
Giao diên
v i ơ
Ng i Truy ươ
câp
Web va
Liên kêt
Biêu thi
Thông tin
HT SCDL GEN
C ơs ơ
d liêuư
Cây trông,
Vât nuôi,
Vi sinh vât,
Tai liêu, v.v.
Giao
diên
v iơ
Ng iươ
Quan tri
Xuât Nhâp
Tim kiêm
Bao cao
(Developer Express Inc., Las Vegas, My) la công cu tr lâp trinh cho Visual Studio .NET ơ
trong viêc thiêt giao diên thân thiên v i ng i s dung va biêu thi kêt qua; VBeXpress.NET ơ ươ
version 3.0 (Data Cast System, Inc., Dublin, Ireland) cung la công cu tr đê xây d ng cac ơ ư
ch ng trinh trên nên Net Framewrok đăc biêt rât tiên l i khi thanh lâp cac CSDL Storedươ ơ
Procedures.
3 Kêt qua va thao luân
3.1 C s d liêu sinh vât biên đôi genơ ơ ư
3.1.1 Phân mêm c s cho CSDL ơ ơ
Hiên nay ky thuât công nghê CSDL chu yêu bao gôm hai loai: câu truc client–server (nh ư
SQL Server, Oracle, Apche) va câu truc file-server (nh Jet 4.0 - Access 2003). Câu truc Jet 4.0 ư
co săn trên hâu hêt may tinh ca nhân nh ng co nhiêu han chê. Câu truc client–server nh Oracle ư ư
thi co u điêm v t trôi nh ng gia thanh phân mêm qua đăt nên chi thich h p v i cac công ty ư ươ ư ơ ơ
l n nh cac công ty đa quôc gia. Cac server nguôn m (nh Apche) đang trong qua trinh phatơ ư ư
triên va tuy đa đ c ng dung rông rai trên thê gi i va ca Viêt nam nh ng vân con vân đê ươ ơ ư
bao mât d liêu. Sau khi phân tich va xem xet cac yêu liên quan, chu yêu d a trên c s kinh ư ơ
phi va kha năng cua nhom, hê thông CSDL gen trong khuôn khô nghiên c u nay đa s dung câu
truc client–server (MS SQL Server) nhăm đat đ c cac cac tiêu chuân chinh vê sô l ng ng i ươ ươ ươ
truy câp đông th i, khôi l ng d liêu tich tr , hiêu suât, ghi nhân câp nhâp va s dung, an ơ ươ
toan d liêu, bao mât, quan tri, bên v ng thông, gia thanh va kha năng nâng câp va chuyên
đôi d liêu.
3.1.2 Thiêt kê CSDL
Nguyên tăc hang đâu phai tuân thu trong qua trinh thiêt CSDL Gen la phai bao đam cho
s m rông cua ca CSDL va ca giao diên quan ly khi co yêu câu. Vân đê thiêt h p ly cacư ơ
bang d liêu c ban se thoa man đ c nguyên ly nay. Giai phap tiêp theo la thanh lâp cac ư ơ ươ
ch ng trinh SQL thanh phân trong CSDL (stored procedures) băng ngôn ng SQL. Cacươ
ch ng trinh con nay co thê tiêp tuc đ c sung trong bât c th i điêm nao. C câu d liêuươ ươ ơ ơ
cua thông CSDL Gen đ c trinh bay nh Hinh 3 va thanh phân cua cac bang d liêu cung ươ ư ư
nh cac quan hê d liêu theo dang SQL Server 2000 đ c thê hiên nh Hinh 4. ư ươ ư
3.1.3 Quan tri SCDL Gen
Cac ph ng th c quan tri thông CSDL Gen bao gôm: (a)Sao chep bao tri đinh ky va tai ươ
lâp toan CSDL khi cân thiêt; (b) Công cu đê sao chep CSDL sang cac may tinh khac theo
yêu câu cua ng i điêu hanh; (c) Câp nhâp d liêu t cac nguôn khac nhau; (d) Thay đôi tinh ươ
trang cua cac tâp d liêu; (e) Thay đôi m c đô s dung va thay đôi mât khâu hiên hanh; va (f)
sung ng i s dung, xoa quyên s dung va m c đô s dung. Cac công cu đê th c hiên cac ươ ư
qua trinh nêu trên đêu đa đ c hoan thiên v i MS SQL Server 2000. ươ ơ
3.1.4 Ph ng phap thanh lâp cac module SQL ươ
Viêc thanh lâp cac module SQL hiêu suât cao tr c hêt phai hinh thanh đ c cac dong lênh ươ ươ
SELECT chât l ng. Lênh SELECT cho phep ta s dung lênh WHERE đê giam b t l ng d ươ ơ ươ
liêu phai truy câp. Dong lênh UPDATE va DELETE cung co thê kêt h p v i lênh SELECT đê ơ ơ
co thê giam b t h n n a l ng d liêu ma ch ng trinh phai xem xet. ơ ơ ươ ươ
Trong CSDL dang tich tr d liêu nh CSDL GMO thi vân đê truy câp tim kiêm đông th i ư ơ
cua nhiêu ng i s dung la điêu đăc biêt quan trong. Do vây m c đô chinh xac cua cac dong ươ
lênh SQL va s kêt h p hai hoa cua cac chi sô danh muc co tâm quan trong sông con. Ng i lâp ư ơ ươ
trinh module tim kiêm phai giam thiêu đên m c tôi thiêu cac tim kiêm ph c tap vi trong t ng ươ
lai sô l ng s liêu co thê se rât l n va cac tim kiêm ph c h p se gây kho khăn cho module tim ươ ơ ơ
kiêm.
4
Hinh 3 Câu truc tông thê cua CSDL Gen va cac Thanh phân D liêu
5
.
Tinh trang
.
Đăc tinh
(Chiu
bênh, Anh,
v.v.)
D liêu Genư
Ma Gen
Vector
Đăc tinh
Gi iơ
Hê thông TT GMO
C S D Ơ Ơ Ư
LIÊU (GMO)
D liêu Sinh hocư
Cac Dong
Loai
Bai bao
Tai liêu Tham
khao
Sach điên
tư
Tai liêu
khac
Loai
Cây trông
Vât nuôi
Vi sinh
vât