intTypePromotion=1

THỰC TẬP BIOINFORMATIC

Chia sẻ: Up Upload | Ngày: | Loại File: PDF | Số trang:64

0
188
lượt xem
69
download

THỰC TẬP BIOINFORMATIC

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tin Học Sinh Học giao dịch với các thuật toán, cơ sở dữ liệu và hệ thống thông tin, công nghệ web, trí thông minh nhân tạo và lý thuyết tính toán, thông tin và tính toán mềm, phần mềm kỹ thuật, khai thác dữ liệu, xử lý hình ảnh, mô hình hóa và mô phỏng, xử lý tín hiệu, toán học rời rạc......

Chủ đề:
Lưu

Nội dung Text: THỰC TẬP BIOINFORMATIC

  1. ÑAÏI HOÏC QUOÁC GIA THAØNH PHOÁ HOÀ CHÍ MINH TRÖÔØNG ÑAÏI HOÏC KHOA HOÏC TÖÏ NHIEÂN KHOA SINH HOÏC (DUØNG CHO SINH VIEÂN NGAØNH COÂNG NGHEÄ SINH HOÏC) Chuû bieân: TRAÀN LINH THÖÔÙC Thöïc hieän: ÑAËNG THÒ PHÖÔNG THAÛO ÑOÃ ANH TUAÁN 10/2003 (Löu haønh noäi boä)
  2. MUÏC LUÏC PHAÀN MÔÛ ÑAÀU 2 PHAÀN I: KHAI THAÙC DÖÕ LIEÄU SINH HOÏC QUA MAÏNG INTERNET 10 Baøi 1. Cô sôû döõ lieäu sinh hoïc treân maïng internet 11 Baøi 2. Tìm kieám thoâng tin treân maïng internet 13 Baøi 3. Tìm kieám caùc trình töï sinh hoïc 19 Baøi 4. Tìm kieám caùc trình töï töông ñoàng 24 Baøi 5. Phaân tích trình töï DNA 28 Baøi 6. Taïo caây phaùt sinh loaøi töø trình töï DNA 32 PHAÀN II: MOÄT SOÁ COÂNG CUÏ PHAÀN MEÀM PHAÂN TÍCH GEN 35 Baøi 7. Nhaäp xuaát döõ lieäu 37 Baøi 8. Tìm trình töï DNA vaø khung ñoïc môû 40 Baøi 9. Chuyeån ñoåi trình töï DNA vaø amino acid 43 Baøi 10. Thieát laäp baûn ñoà enzyme caét giôùi haïn 46 Baøi 11. Thieát keá moài (primer) 49 Baøi 12. Veõ baûn ñoà plasmid 52 Baøi 13. Baøi taäp toång hôïp 61 PHUÏ LUÏC 63 1
  3. PHAÀN MÔÛ ÑAÀU 2
  4. 1. Bioinformatics laø gì ? Bioinformatics laø moät ngaønh hoïc coøn khaù môùi trong lónh vöïc Sinh hoïc. Vì vaäy, hieän nay coù khaù nhieàu ñònh nghóa khaùc nhau veà thuaät ngöõ bioinformatics. Chuùng ta thöû tìm hieåu moät soá thuaät ngöõ: • Bioinformatics laø moân hoïc veà caùch söû duïng maùy tính ñeå giaûi quyeát nhöõng vaán ñeà cuûa khoa hoïc söï soáng, chuû yeáu laø vaán ñeà cô sôû döõ lieäu phong phuù cuûa boä gen, trình töï protein... Ngoaøi ra, noù coøn giaûi quyeát nhöõng vaán ñeà veà kyõ thuaät nhö moâ hình caáu truùc ba chieàu cuûa phaân töû vaø caùc heä thoáng Sinh hoïc (3/2001, Cancer WEB). • Bioinformatics laø söï saùng laäp vaø phaùt trieån cuûa tieán boä nhöõng thoâng tin vaø kyõ thuaät maùy tính nhaèm giaûi quyeát nhöõng vaán ñeà sinh hoïc, thöôøng laø sinh hoïc phaân töû (caùc lónh vöïc sinh hoïc khaùc cuõng ñang ngaøy caøng gia taêng). Nhö vaäy, bioinformatics lieân quan ñeán nhöõng phöông phaùp nhö löu tröõ, tìm kieám vaø phaân tích döõ lieäu sinh hoïc nhö acid nucleic (DNA/RNA) vaø trình töï protein; nghieân cöùu caáu truùc, chöùc naêng, con ñöôøng vaø nhöõng aûnh höôûng di truyeàn (Ñaïi hoïc Stanford). • Bioinformatics laø moät söï phoái hôïp giöõa toaùn hoïc, thoáng keâ vaø kyõ thuaät maùy tính nhaèm phaân tích thoâng tin veà sinh hoïc, sinh hoùa, sinh lyù. • Bioinformatics laø moân hoïc veà caáu truùc ñaëc tröng cuûa thoâng tin sinh hoïc vaø heä thoáng sinh hoïc. Noù cung caáp moät loaït nhöõng heä thoáng döõ lieäu Sinh hoïc (ví duï boä gen) keát hôïp vôùi nhöõng lyù thuyeát phaân tích vaø coâng cuï thöïc haønh cuûa toaùn hoïc vaø khoa hoïc maùy tính. Caáu truùc Khoa hoïc Sinh hoïc maùy tính Bioinformatics: Sinh hoùa Moân hoïc veà caáu truùc ñaëc tröng Thoáng keâ cuûa thoâng tin Sinh hoïc Sinh hoïc phaân töû Genomics Toaùn hoïc Toùm laïi, thuaät ngöõ bioinformatics coù theå ñònh nghóa moät caùch ngaén goïn laø söï keát hôïp giöõa Coâng ngheä Sinh hoïc vaø Coâng ngheä Thoâng tin vôùi muïc tieâu giuùp hieåu bieát vaø khaùm phaù nhöõng nguyeân lyù trong Sinh hoïc (NCBI). 3
  5. 2. Noäi dung thöïc taäp Bioinformatics Noäi dung thöïc taäp Bioinformatics daønh cho sinh vieân naêm thöù III, ngaønh Coâng ngheä Sinh hoïc, bao goàm: - Giôùi thieäu veà caùc cô sôû döõ lieäu sinh hoïc treân maïng Internet vaø caùch thöùc khai thaùc caùc cô sôû döõ lieäu naøy phuïc vuï cho nghieân cöùu. - Laøm quen moät soá coâng cuï phaàn meàm phaân tích gen. Sau khi hoaøn thaønh khoùa hoïc, sinh vieân phaûi naém vöõng moät soá kieán thöùc cô baûn veà caùch thöùc tìm kieám vaø xöû lyù döõ lieäu sinh hoïc . Trong quaù trình thöïc taäp, haàu heát noäi dung yeâu caàu thöïc hieän truy caäp thoâng tin treân maïng Internet (vôùi ngoân ngöõ söû duïng chuû yeáu laø tieáng Anh) neân coù khaù nhieàu thuaät ngöõ tin hoïc, sinh hoïc cuõng nhö caùch thöùc giao tieáp vaãn giöõ nguyeân thuaät ngöõ tieáng Anh. 3. Söû duïng maïng Internet trong ñôït thöïc taäp Vì khoâng phaûi taát caû moïi ngöôøi ñeàu ñaõ coù kinh nghieäm söû duïng Internet, do ñoù chuùng ta baét ñaàu vôùi phaàn giôùi thieäu ngaén veà maïng Internet. Maïng Internet laø moät heä thoáng maïng toaøn caàu coù khaû naêng lieân keát caùc maùy tính khaùc nhau treân theá giôùi. Khi tham gia vaøo heä thoáng maïng Internet chuùng ta coù theå tham khaûo caùc taøi nguyeân chia seû treân caùc maùy tính (nôi löu tröõ thoâng tin) thuoäc moïi lónh vöïc: khoa hoïc, vaên hoùa, giaùo duïc, theå thao, giaûi trí… Trong ñôït thöïc taäp naøy, ñeå laøm vieäc treân maïng Internet, chuùng ta seõ söû duïng phaàn meàm Microsoft Internet Explorer cuûa haõng Microsoft (hoaëc coù theå duøng phaàn meàm Netscape vôùi nhöõng chöùc naêng töông töï). Yeâu caàu ñoái vôùi sinh vieân laø phaûi coù nhöõng kieán thöùc cô baûn veà maùy tính (laøm vieäc vôùi maùy tính trong moâi tröôøng Windows). Ñeå vaøo chöông trình Microsoft Internet Explorer, chuùng ta thöïc hieän tuaàn töï caùc böôùc sau: • Tìm bieåu töôïng cuûa Internet Explorer treân Desktop vaø nhaán ñuùp (double clicking) baèng nuùt chuoät traùi ñeå môû cöûa soå trình duyeät Web. Hoaëc nhaán phím Start choïn Programs, roài choïn Internet Explorer. • Ñòa chæ tìm kieám ñöôïc nhaäp vaøo taïi khung Address vaø nhaán Enter↵. Internet Explorer seõ keát noái maùy tính chuùng ta vôùi maïng vaøo ñòa chæ ñaõ nhaäp. Bieåu töôïng treân goùc phaûi maøn hình theå hieän hoaït ñoäng keát noái Internet: Ñang keát noái Keát noái xong hoaëc bò giaùn ñoaïn 4
  6. Maïng Internet laø moät maïng maùy tính toaøn caàu vôùi hôn 150 trieäu maùy tính (thaùng 1/2002) lieân laïc vôùi nhau thoâng thöôøng qua giao thöùc TCP/IP (Transfer Control Protocol/Internet protocol). Caùc maùy tính ñöôïc nhaän dieän vaø keát noái vôùi maïng Internet thoâng qua ñòa chæ internet (Internet protocol - IP) cuûa noù coù daïng daõy soá goàm 4 soá phaân caùch bôûi daáu chaám (ví duï 172.69.145.21). Boán dòch vuï chính coù theå söû duïng treân maïng laø: thö ñieän töû (e-mail), ñaêng nhaäp töø xa (telnet), chuyeån taäp tin (file transfer protocol, FTP) vaø World Wide Web (hay coøn goïi laø giao thöùc truyeàn sieâu vaên baûn - hypertext transfer protocol, HTTP). World Wide Web cho pheùp ngöôøi söû duïng caùc trình duyeät ñònh vò vaø xem thoâng tin töø hôn 40 trieäu dòch vuï web treân toaøn theá giôùi (thaùng 3/2002). Caùc taøi lieäu sieâu vaên baûn coù theå theå chöùa hình aûnh, aâm thanh, vaên baûn text… vaø coù theå deã daøng lieân keát vôùi caùc trang sieâu vaên baûn khaùc. Ñòa chæ ñònh vò caùc taøi lieäu sieâu vaên baûn laø moät ñòa chæ duy nhaát (URL – Uniform Resource Locator) coù daïng service://hostname:port/file (dòch vuï://teân maùy chuû: coång/file). : Teân dòch vuï ñang truy caäp (ftp, http, gopher, telnet, mailto) Service : Ñòa chæ IP hoaëc teân mieàn nôi ñònh vò cuûa thoâng tin hostname : Coång treân maùy phuïc vuï, maëc ñònh laø 80, nhöng cuõng coù khi laø 8000 port hay 8080 : Teân thaät cuûa taäp tin treân maùy tính ñöôïc tham chieáu bôûi maùy phuïc vuï /file Ví duï veà ñòa chæ WWW: http://www.tulane.edu/~dmsander/Big_Virology/BVHomePage.html Caùc trang web laø nôi chöùa ñöïng thoâng tin thöôøng xaây döïng baèng ngoân ngöõ sieâu vaên baûn vaø coù söû duïng caùc lieân keát ñeán caùc trang khaùc. Caùc lieân keát thöôøng ñöôïc theå hieän baèng nhöõng doøng chöõ bò ñoåi maøu chöõ khi ta di chuyeån ñeán vaø con troû bieán thaønh daáu hieäu . Khi nhaäp ñòa chæ lieân keát ñeán caùc vò trí trang web (web site) phaûi ñaùnh doøng vaên baûn vôùi ñaày ñuû caùc kyù töï, coù söï phaân bieät giöõa chöõ thöôøng vaø chöõ hoa. Nôi nhaäp ñòa chæ Noäi dung trang web 5
  7. Khi söû duïng phaàn meàm Internet Explorer ñeå xem (duyeät) trang web, chuùng ta coù theå löu laïi caùc ñòa chæ khi ñaõ “gheù thaêm” baèng caùch söû duïng chöùc naêng Add to favourites… treân thanh Explorer bar khi ñang ôû trang web “öa thích”. Nhöõng laàn truy caäp sau, chuùng ta chæ caàn nhaán vaøo teân trang web trong menu Favourites ñeå vaøo trang web öa thích maø khoâng phaûi nhaäp laïi ñòa chæ Internet. Söû duïng nhöõng nuùt Back hoaëc Forward ñeå trôû laïi hoaëc tieáp tuïc môû laïi trang web phía tröôùc; caùc nuùt Stop vaø Refesh ñeå taïm döøng truy caäp hay thöïc hieän “laøm töôi” noäi dung trang web baèng caùch truy caäp laïi ñòa chæ Internet naøy. 4. Moät soá thuaät ngöõ sinh – tin hoïc thöôøng gaëp treân maïng internet Thuaät ngöõ Sinh hoïc Accession Maõ soá truy caäp trong caùc cô sôû döõ lieäu sinh hoïc (Genbank…) Alignment Saép gioùng coät hai hay nhieàu trình töï nhaèm xaùc ñònh ñoä töông ñoàng giöõa chuùng. bp (base pair) caëp base. cDNA (complementary DNA) maïch ñôn boå sung cho RNA vaø ñöôïc toàng hôïp töø khuoân nhôø enzyme phieân maõ ngöôïc. Cloning Kyõ thuaät taïo ra taäp hôïp caùc teá baøo hoaëc phaân töû gioáng heät nhau cuøng baét nguoàn töø moät teá baøo hay moät phaân töû ban ñaàu. Codon Boä ba nucleotide maõ hoùa cho moät acid amin hay moät “daáu hieäu” baét ñaàu hay keát thuùc dòch maõ. DNA sequencing Trình töï A, T, G, C cuûa acid deoxyribonucleic (DNA). Downstream Ñaàu 3’ cuûa trình töï nucleotide. Exon Moät phaàn cuûa moät gen giaùn ñoaïn (gen toàn taïi ôû eukaryote), coù maët trong phaân töû RNA tröôûng thaønh. Gene Ñoaïn DNA (gen) tham gia vaøo vieäc hình thaønh moät sôïi polypeptide; gen bao goàm caùc vuøng naèm tröôùc vaø sau vuøng maõ hoùa vaø caû trình töï (intron) naèm giöõa caùc phaàn maõ hoùa. gi Daõy soá hieäu cuûa moãi trình töï quy ñònh theo saép xeáp cuûa NCBI. Hairpin Vuøng xoaén keùp hình thaønh töø söï baét caëp boå sung giöõa hai trình töï boå sung naèm keà nhau treân moät phaân töû DNA hay RNA maïch ñôn (caáu truùc keïp toùc). Intron Ñoaïn DNA ñöôïc phieân maõ nhöng bò loaïi boû trong quaù trình tröôûng thaønh cuûa RNA, khoâng coù maët ôû phaân töû RNA tröôûng thaønh. Molecular hybridization Quaù trình trong ñoù hai maïch acid nucleic boå sung (A-T, G-C) baét caëp hình thaønh neân maïch keùp; kyõ thuaät höõu hieäu ñeå phaùt hieän moät trình töï nucleotide chuyeân bieät (lai phaân töû). 6
  8. Operon Ñôn vò bieåu hieän vaø ñieàu hoøa gen ôû vi khuaån, bao goàm caùc gen caáu truùc naèm caïnh nhau vaø caùc nhaân toá ñieàu hoøa, caùc gen caáu truùc naøy cuøng chòu nhöõng taùc ñoäng ñieàu hoøa nhö nhau. PCR (Polymerase Chain Reaction) kyõ thuaät duøng ñeå khueách ñaïi nhieàu baûn sao cuûa moät trình töï DNA ñích nhôø DNA polymerase. ORF (Open Reading Frame) khung ñoïc môû khi dòch maõ cho ra moät trình töï amino acid hoaøn chænh. Plasmid DNA daïng voøng, naèm ngoaøi nhieãm saéc theå vaø coù khaû naêng töï sao cheùp ñoäc laäp. Primer Trình töï DNA hay RNA ngaén, baét caëp vôùi moät maïch khuoân DNA vaø coù mang ñaàu 3’OH töï do giuùp DNA polymerase baét ñaàu toång hôïp maïch môùi. Promoter Trình töï treân phaân töû DNA, nôi RNA polymerase gaén vaøo ñeå khôûi ñoäng phieân maõ. Redundancy Söï coù maët cuûa nhieàu maåu tin dö thöøa (thöôøng laø trình töï). Trong Bioinformatics, ñoù laø söï lieân quan cuûa nhöõng trình töï gioáng nhau trong cuøng moät cô sôû döõ lieäu. Restriction enzyme (RE) Enzyme nhaän bieát moät trình töï DNA ngaén chuyeân bieät vaø caét maïch keùp DNA. Restriction map Baûn ñoà vò trí nhaän bieát cuûa taát caû caùc enzyme caét giôùi haïn treân moät trình töï DNA. RNA sequencing Trình töï A, U, G, C cuûa acid ribonucleic (RNA). Splicing Söï loaïi boû caùc intron vaø noái lieàn caùc exon ôû RNA trong quaù trình tröôûng thaønh sau phieân maõ. Tm (Melting temperature) nhieät ñoä maø ôû ñoù moät nöûa soá phaân töû cuûa trình töï ñoù bò bieán tính (nhieät ñoä noùng chaûy cuûa moät trình töï). Transcription Söï toång hôïp RNA töø khuoân DNA. Translation Söï toång hôïp protein töø khuoân mRNA (söï dòch maõ). Upstream Ñaàu 5’ cuûa trình töï nucleotide. Vector Trong kyõ thuaät taïo doøng (cloning), laø plasmid hay phage duøng ñeå chuyeân chôû moät ñoaïn DNA laï gaén vaøo ñoù vôùi muïc ñích taïo ra moät löôïng baûn sao lôùn hay moät saûn phaåm protein töø ñoaïn DNA naøy. Thuaät ngöõ Tin hoïc Acrobat Hoï caùc coâng cuï cuûa coâng ty Adobe cho pheùp nhaø xuaát baûn dòch caùc taäp tin Postscript thaønh Portable Document Format (PDF) vaø ngöôøi duøng coù theå xem treân treân caùc neàn thoâng thöôøng cuûa maùy. BLAST (Basic Local Alignment Search Tool) moät coâng cuï tìm kieám nhanh nhöõng trình töï töông ñoàng trong moät cô sôû döõ lieäu. 7
  9. Browser Coâng cuï cho pheùp ngöôøi duøng queùt moät danh saùch taäp tin hoaëc tìm moät muïc rieâng naøo ñoù. Trong WWW (World-Wide-Web), browser ñöôïc hieåu laø phaàn meàm cho pheùp duyeät qua nhöõng tö lieäu treân Web. Browser Moät trình duyeät web (Web Browser) hoã trôï caùc ñoà hoïa, aâm thanh vaø video. Download Taûi taäp tin xuoáng maùy tính, truyeàn caùc taäp tin töø moät maùy tính sang moät maùy tính khaùc. FAQs Nhöõng caâu hoûi ñöôïc yeâu caàu thöôøng xuyeân (Frequently Asked Questions). FASTA Chöông trình tìm kieám trình töï töông ñoàng ñöôïc duøng roäng raõi ñaàu tieân. Freeware Phaàn meàm söû duïng mieãn phí vaø coù theå taûi veà maùy tính caù nhaân. FTP Giao thöùc chuaån duøng ñeå gôûi taäp tin (File Transfer Protocol) töø moät maùy naøy ñeán moät maùy khaùc treân maïng TCP/IP nhö Internet. Gap Khoaûng troáng ñöôïc ñöa vaøo khi so saùnh caùc trình töï vôùi nhau nhaèm laøm taêng ñoä töông ñoàng giöõa chuùng. Gateway Dòch vuï dòch thoâng ñieäp giöõa nhöõng giao thöùc khaùc nhau. Gopher Heä menu phaân caáp duøng ñeå gôûi taøi lieäu treân Internet. Homepage Trang ñaàu cuûa moät server World-Wide-Web hay taøi lieäu goác moâ taû moät toå chöùc (caù nhaân) ñöôïc cung caáp thoâng qua user. HTML Ngoân ngöõ ñaùnh daáu sieâu vaên baûn (The HyperText Markup Language) duøng ñeå moâ taû caùc taøi lieäu truyeàn thoâng qua WWW. HTML cho pheùp moät taøi lieäu coù theå chöùa caùc lieân keát ñeán moät taøi lieäu khaùc, cung caáp cho WWW khaû naêng Hypertext (vaø hypermedia). Internet Baát kyø maïng naøo cuûa heä thoáng maïng lieân keát treân theá giôùi. IP address Soá duy nhaát gaùn cho moät maùy maïng TCP/IP. LAN (Local Area Network) maïng phuû treân moät vuøng ñòa lyù töông ñoái nhoû (moät vaên phoøng, moät taàng hay moät toøa nhaø…). Login Thuû tuïc khôûi nhaäp moät lieân keát vôùi maùy chuû cuûa ngöôøi söû duïng maïng (thöôøng goàm yeâu caàu veà teân vaø maät khaåu). Netquette Nhöõng nguyeân taéc xaõ giao chuû ñaïo trong truyeàn thoâng treân maïng Internet. Offline Khi khoâng söû duïng keát noái ñoù nöõa. Online Khi söû duïng keát noái vôùi moät maùy tính khaùc. Query Khung nhaäp trình töï (hoaëc nhöõng loaïi thuaät ngöõ tìm kieám khaùc) Shareware Phaàn meàm cho pheùp taûi vaø söû duïng mieãn phí nhöng neáu muoán duøng tieáp thì phaûi traû cho taùc giaû moät khoaûn tieàn danh döï nhoû. URL (Uniform Resource Locator – ñònh danh taøi nguyeân ñoàng nhaát) heä thoáng ghi ñòa chæ ñöôïc web söû duïng. WWW (World Wide Web) Phöông tieän ñònh vò treân Internet baèng caùch söû duïng sieâu lieân keát. Ví duï http://www.mcb.harvard.edu/BioLinks.html 8
  10. 5. Taøi lieäu tham khaûo 1. Cynthia Gibas &Per Jabeck. 2001. Developing Bioinformatics Computer Skills. O’Reilly & Associates, Inc., USA. 2. Gunter Kahl. 1995. Dictionary of Gene Technology. VCH Verlagsgesell- schaft mbH, Germany. 3. Hoà Huyønh Thuøy Döông. 1998. Sinh hoïc phaân töû, NXB Giaùo duïc. 4. Institute of Technical Biochemistry, 2002. Bioinformatics tools for Biologists, University of Stutgartt, Germany. 5. National Center for Biotechnology Information, NCBI. 10/2001. http://www.ncbi.nlm.nih.gov/, USA. 6. Neil F., Peadar OÙ G. 2001. Bioinformatics programme, 4th Molecular Biology Workshop, HCMC, Vietnam. 9
  11. PHAÀN I KHAI THAÙC DÖÕ LIEÄU SINH HOÏC QUA MAÏNG INTERNET 10
  12. Baøi 1. CÔ SÔÛ DÖÕ LIEÄU SINH HOÏC TREÂN MAÏNG INTERNET 1. Muïc ñích, nguyeân taéc Coâng vieäc ñaàu tieân khi chuùng ta baét tay vaøo coâng vieäc nghieân cöùu laø taäp hôïp vaø xöû lyù thoâng tin veà lónh vöïc nghieân cöùu mình quan taâm. Ñeå laøm ñöôïc chuyeän naøy, ngoaøi caùch tieáp caän truyeàn thoáng laø vaøo thö vieän, chuùng ta coøn coù theå khai thaùc kho döõ lieäu thoâng tin phong phuù treân maïng Internet (World Wide Web). ÔÛ ñaây luoân coù moät löôïng lôùn thoâng tin Sinh hoïc ña daïng vaø caäp nhaät coù theå tham khaûo vaø söû duïng trong nghieân cöùu. Caùc thoâng tin naøy thuoäc nhieàu lónh vöïc khaùc nhau nhö: sinh hoïc phaân töû, sinh hoùa, sinh hoïc teá baøo, di truyeàn hoïc… Treân theá giôùi coù raát nhieàu heä thoáng caùc nhoùm nghieân cöùu sinh hoïc hoaït ñoäng treân nhieàu lónh vöïc khaùc nhau. Caùc thoâng tin sinh hoïc thu thaäp ñöôïc töø hoaït ñoäng cuûa caùc nhoùm naøy ngaøy caøng nhieàu, nhaát laø töø khi Coâng ngheä Sinh hoïc coù nhöõng böôùc tieán boä vöôït baäc. Töø thöïc teá naøy ñaõ xuaát hieän nhu caàu caàn quaûn lyù, hôïp taùc vaø trao ñoåi thoâng tin sinh hoïc vôùi söï trôï giuùp cuûa Coâng ngheä Thoâng tin, ngaønh kyõ thuaät muõi nhoïn trong thôøi ñaïi coâng ngheä tri thöùc. Caùc cô sôû döõ lieäu sinh hoïc treân theá giôùi ra ñôøi töø ñoù vôùi muïc ñích giuùp caùc nhaø sinh hoïc coù ñieàu kieän quaûn lyù, khai thaùc, trao ñoåi thoâng tin nghieân cöùu cuûa kho döõ lieäu sinh hoïc khoång loà cuûa söï soáng treân haønh tinh naøy. 2. Khai thaùc vaø xöû lyù thoâng tin Sinh hoïc Hieän nay, coù raát nhieàu daïng cô sôû döõ lieäu thuoäc nhieàu lónh vöïc sinh hoïc khaùc nhau (döõ lieäu veà moâi tröôøng, ña daïng sinh hoïc, ña daïng di truyeàn; döõ lieäu veà nguoàn gen: DNA, RNA; döõ lieäu veà protein: trình töï, caáu truùc, chöùc naêng…). Trong ñoù, döõ lieäu veà sinh hoïc phaân töû luoân chieám öu theá do ñaëc thuø thoâng tin trong nghieân cöùu cuûa lónh vöïc naøy. Chuùng ta coù theå khai thaùc caùc döõ lieäu sinh hoïc phaân töû baèng caùch thoâng qua maïng Internet lieân keát ñeán caùc maùy tính chuû (server) löu tröõ caùc trình töï DNA cuûa haøng ngaøn gen thuoäc haøng traêm loaøi khaùc nhau, trình töï protein coù nguoàn goác töø nhöõng trình töï DNA naøy, trình töï boä gen (genome) cuûa nhieàu loaøi (bao goàm caû baûn thaûo cuûa trình töï boä gen ngöôøi), raát nhieàu aán phaåm ñieän töû (saùch, baùo, taïp chí…) vaø nhöõng thoâng tin khaùc phuïc vuï cho muïc ñích nghieân cöùu. Ngoaøi ra, coøn coù nhieàu ñòa chæ giôùi thieäu caùc nhoùm nghieân cöùu veà caùc vaán ñeà sinh hoïc chuyeân ngaønh, caùc chöông trình phaàn meàm duøng ñeå phaân tích caùc trình töï sinh hoïc treân Internet. Chuùng ta coù theå söû duïng tröïc tieáp treân Internet hoaëc cheùp (download) caùc phaàn meàm mieãn phí naøy veà maùy tính cuûa mình. Phaàn lôùn caùc thoâng tin naøy ñöôïc söû duïng mieãn phí. Tuy nhieân, coù moät soá thoâng tin ñöôïc baûo veä baèng luaät baûn quyeàn vaø khoâng theå söû duïng mieãn phí. 11
  13. Trong phaàn I, chuùng ta seõ laøm quen vôùi nhieàu caùch tìm kieám nhöõng thoâng tin sinh hoïc treân maïng Internet thoâng qua caùc trang web tìm kieám thoâng tin hoaëc caùc cô sôû döõ lieäu sinh hoïc lôùn treân theá giôùi. Thoâng tin tìm kieám ñöôïc quan taâm laø caùc baøi baùo khoa hoïc vaø caùc trình töï nucleic acid hay protein. Tuøy töøng tröôøng hôïp cuï theå maø chuùng ta coù theå xaùc ñònh ñoái töôïng vaø môû roäng phaïm vi tìm kieám ñeán nhöõng lónh vöïc khaùc vôùi nguyeân taéc töông töï. Thoâng tin sinh hoïc treân maïng Internet coù nhieàu daïng, chuû yeáu laø caùc daïng daïng trang web (HTM, HTML), daïng taïp chí ñieän töû, caùc baøi baùo löu tröõ (PDF) hoaëc caùc daïng cô sôû döõ lieäu tr2inh töï sinh hoïc (trình töï DNA, protein…). Ñeå khai thaùc caùc thoâng tin naøy chuùng ta caàn phaûi bieát löïa choïn cô sôû döõ lieäu, caùch thöùc truy caäp vaø söû duïng coâng cuï tìm kieám vaø xöû lyù nhöõng thoâng tin naøy phuø hôïp vôùi yeâu caàu coâng vieäc. Chöông trình thöïc taäp khai thaùc thoâng tin sinh hoïc qua maïng Internet bao goàm caùc noäi dung: Tìm kieám caùc daïng döõ lieäu trình töï sinh hoïc vaø caùc thoâng tin sinh • hoïc khaùc coù lieân quan (chuû yeáu veà sinh hoïc phaân töû). Ñòa chæ Internet ñeå tìm kieám caùc thoâng tin naøy. • Giaûi quyeát caùc caâu hoûi laøm theá naøo ñeå: • - Truy caäp thoâng tin coù lieân quan (aán phaåm, caáu truùc, trình töï lieân quan)? - Truy caäp trình töï DNA vaø protein trong caùc cô sôû döõ lieäu trình töï sinh hoïc?- - Phaân tích trình töï sinh hoïc baèng caùc chöông trình treân Internet? Chuùng ta seõ download caùc trình töï Sinh hoïc vaø phaân tích chuùng baèng nhieàu chöông trình khaùc nhau. Caùc chöông trình naøy haàu heát laø nhöõng phaàn meàm hoaëc trang web mieãn phí. Nhö vaäy, sau ñôït thöïc taäp, caùc baïn coù theå thöïc hieän vieäc tìm kieám vaø phaân tích thoâng tin sinh hoïc baèng baát kyø maùy tính naøo noái maïng Internet. 12
  14. Baøi 2. TÌM KIEÁM THOÂNG TIN TREÂN MAÏNG INTERNET 1. Muïc ñích, nguyeân taéc Ñeå tìm kieám thoâng tin treân maïng Internet, chuùng ta coù theå söû duïng nhieàu coâng cuï tìm kieám khaùc nhau. Vieäc tieáp caän caùc thoâng tin thöôøng ñöôïc thöïc hieän baèng caùch xaùc ñònh noäi dung chính caàn tìm kieám, löïa choïn coâng cuï tìm kieám, xaùc ñònh phaïm vi thöïc hieän tìm kieám vaø choïn loïc thoâng tin (loaïi boû nhöõng thoâng tin khoâng caàn thieát). Coâng vieäc tìm kieám thoâng tin seõ trôû neân nheï nhaøng hôn khi ta naém vöõng moät soá nguyeân taéc giôùi haïn tìm kieám vaø loïc thoâng tin. Sô ñoà nguyeân taéc tìm kieám thöôøng söû duïng laø: Thoâng tin KEÁT QUAÛ Xaùc ñònh Choïn caùch Loïc caàn tìm töø khoùa tìm kieám thoâng tin CAÀN TÌM 2. Coâng cuï vaø caùch söû duïng Ñeå tìm kieám nhöõng thoâng tin naøy, thoâng thöôøng chuùng ta phaûi xaùc ñònh moät töø hay moät nhoùm töø khoùa (keyword) mang noäi dung chuû yeáu hay quan troïng nhaát cuûa vaán ñeà quan taâm. Sau ñoù söû duïng caùc coâng cuï tìm kieám treân maïng ñeå tìm ñeán caùc ñòa chæ löu tröõ nhöõng thoâng tin caàn thieát hoaëc nhöõng thoâng tin lieân quan. Söû duïng caùc chöùc naêng choïn loïc thoâng tin cuûa caùc coâng cuï ñeå haïn cheá vieäc tieáp nhaän nhöõng thoâng tin khoâng lieân quan. Ví duï thoâng tin: “PCR for detection of Listeria monocytogenes in food samples”, trong tröôøng hôïp naøy coù theå xaùc ñònh caùc töø khoùa laø: PCR, monocytogenes. Sau khi xaùc ñònh ñöôïc töø khoùa, ta thöôøng phaûi xaùc ñònh phaïm vi tìm kieám ñeå löïa choïn nhöõng coâng cuï thích hôïp. Neáu chuùng ta caàn tìm thoâng tin toång hôïp veà lónh vöïc naøy thì coù theå baét ñaàu tìm kieám thoâng tin ôû nhöõng trang web. Caùc coâng cuï tìm kieám coù theå laø nhöõng trang tìm kieám treân maïng (AltaVista, EuroSeek, Lycos, GOTO, Yahoo…) hoaëc nhöõng phaàn meàm tìm kieám treân maïng Internet. Nhaäp töø khoùa vaøo hoäp yeâu caàu vaø nhaán Enter↵ hoaëc nuùt tìm kieám (Go, Search…). Nguyeân taéc chung cuûa vieäc nhaäp töø khoùa laø: - Ñeå tìm thoâng tin coù nhieàu töø khoùa ta nhaäp tuaàn töï caùc töø khoùa vaø phaân caùch giöõa caùc töø baèng khoaûng traéng (duøng spacebar). 13
  15. - Ñeå tìm thoâng tin chöùa moät cuïm töø khoùa ta thöôøng ñaët chuùng trong daáu ngoaëc keùp (“”), caùc töø thöôøng duøng (for, of, in, to…) coù theå ñöôïc loaïi boû. Ví duï: PCR detection, Listeria cho keát quaû khaùc vôùi “PCR for detection of Listeria” Tuy nhieân hieäu quaû thöïc hieän tìm kieám taïi caùc trang web lôùn, ña chöùc naêng thöôøng khoâng cao (do chuùng phaûi chia seû cho caùc chöùc naêng khaùc beân caïnh chöùc naêng tìm kieám). Keát quaû tìm kieám daïng naøy thöôøng quaù lôùn (do chöùc naêng loïc thoâng tin khoâng maïnh), maát nhieàu thôøi gian (thöôøng phaûi taûi keøm hình aûnh quaûng caùo), deã bò giaùn ñoaïn (do quaù taûi ôû trang chuû)... Ñeå taêng hieäu quaû tìm kieám, chuùng ta coù theå söû duïng nhöõng trang tìm kieám nhoû goïn vaø chuyeân nghieäp hôn (ví duï Google, All The Web). Caùc trang naøy thöôøng coù nhieàu chöùc naêng tìm kieám chuyeân bieät, khaû naêng choïn loïc thoâng tin maïnh (Advanced Search), tìm ñöôïc nhieàu ñòa chæ. Giôùi haïn keát quaû xuaát hieän Nhaäp töø tìm kieám Giôùi haïn ngoân ngöõ, phaïm vi tìm kieám Moät giaûi phaùp khaùc ñeå tìm kieám thoâng tin laø söû duïng caùc phaàn meàm tìm kieám thoâng tin. Caùc phaàn meàm naøy thöôøng söû duïng cuøng luùc nhieàu trang tìm kieám treân maïng (ví duï phaàn meàm WebFerret, Copernic). Caùch tìm kieám naøy thöôøng cho hieäu quaû raát cao, coù theå tìm raát nhieàu ñòa chæ lieân quan ñeán thoâng tin ta quan taâm, nhöng thoâng tin thöôøng khoâng taäp trung. 14
  16. Tuy nhieân, neáu chuùng ta chæ quan taâm ñeán nhöõng thoâng tin khoa hoïc sinh hoïc ñaùng tin caäy, thöôøng laø nhöõng baøi baùo khoa hoïc, thì vieäc tìm kieám seõ coù hieäu quaû cao nhaát khi ta tìm kieám thoâng tin trong nhöõng taïp chí khoa hoïc chuyeân ngaønh treân maïng Internet (ví duï taïp chí Applied Environmental Microbiology), hoaëc nhöõng cô sôû döõ lieäu thoâng tin veà Sinh hoïc (NCBI, Medscape, BioMedNet…). Soá taäp xuaát baûn, trang ñaàu tieân cuûa Giôùi haïn baøi baùo phaïm vi tìm kieám vaø keát quaû Teân taùc giaû theå hieän vaø töø khoùa tìm kieám Trong ñôït thöïc taäp naøy chuùng ta seõ tìm kieám thoâng tin baèng caùch söû duïng cô sôû döõ lieäu trong trang chuû NCBI (National Center for Biotechnology Information - NCBI, USA) taïi ñòa chæ Internet laø http://www.ncbi.nlm.nih.gov/. Khi truy caäp vaøo ñòa chæ naøy, chuùng ta seõ nhìn thaáy moät trang chuû daïng nhö sau: 15
  17. Chuùng ta thöïc hieän tìm kieám thoâng tin sinh hoïc trong trang Entrez. Trang Entrez laø moät trang web cuûa NCBI. • Nhaán doøng chöõ Entrez ñeå vaøo trang Entrez. Trong Entrez, baïn coù theå tìm kieám nhieàu daïng cô sôû döõ lieäu khaùc nhau. Moãi cô sôû döõ lieäu laø moät lieân keát ñöôïc bieåu thò baèng doøng vaên baûn ñöôïc ñoåi maøu khi ta di chuyeån ñeán. Ví duï: PubMed, Protein... Khung nhaäp yeâu caàu Caùc cô sôû döõ lieäu thuoäc trang Entrez Caùc doøng vaên baûn ñoåi maøu ñöôïc goïi laø caùc lieân keát sieâu vaên baûn (hay lieân keát) vaø thöôøng môû ra moät trang môùi khi ta nhaán vaøo. Trong Entrez chuùng ta coù theå nhaäp vaøo nhöõng yeâu caàu tìm kieám cô sôû döõ lieäu veà caùc baøi baùo thuoäc lónh vöïc Y – Sinh hoïc (PubMed), trình töï nucleic acid (Nucleotide), trình töï protein (Protein), caáu truùc 3 chieàu (Structure), boä gen (Genome)… ÔÛ ñaây, chuùng ta söû duïng trang PubMed ñeå tìm kieám caùc baøi baùo veà thoâng tin Y - Sinh hoïc. Ví duï chuùng ta quan taâm baøi baùo coù töïa ñeà “Isolation and characterization of Escherichia coli O157:H7 from retail meats in Argentina”. Taùc giaû: Chinen I, Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier A, Scarpin M, Manfredi E, Rivas M. Chuùng ta coù theå choïn löïa töø khoùa laø “O157:H7”, “Argentina” (töïa ñeà) vaø “Chinen” (teân taùc giaû). 16
  18. Choïn cô sôû döõ lieäu laø PubMed ôû khung Search. • Nhaäp töø khoùa caàn tìm kieám vaøo khung yeâu caàu (for oooo ) • AÁn phím Go hoaëc nhaán Enter↵. • Keát quaû seõ xuaát hieän sau vaøi phuùt (hoaëc laâu hôn) döôùi daïng moät danh saùch caùc muïc baøi (entries, hits) vôùi teân taùc giaû, töïa ñeà baøi baùo, teân taïp chí, naêm xuaát baûn... Nhaán vaøo doøng teân taùc giaû ñeå xem chi tieát toùm taét töøng muïc baøi. Töïa ñeà baøi baùo Teân taùc giaû Thay ñoåi kieåu theå hieän keát quaû baèng caùch choïn kieåu theå hieän ôû menu Display (Summary, Brief, Abstract, Citation, ASN.1, MEDLINE…). Ñeå tìm chính xaùc caùc töø khoùa, chuùng ta coù theå söû duïng toaùn töû Boolean (AND, OR, NOT) vaø duøng theû (tag) trong ngoaëc vuoâng ([ ]) ñaët sau töø khoùa ñeå giôùi haïn phaïm vi tìm kieám töø khoùa ñoù. Döôùi ñaây laø moät soá theû thoâng duïng. Theû Giôùi haïn phaïm vi tìm kieám [AB] Toùm taét - abstract [AU] Teân taùc giaû - author name [DP] Ngaøy xuaát baûn - publication date [CY] Nôi phaùt xuaát baûn taïp chí - country [IP] Soá phaùt haønh cuûa taïp chí [IS] International Standard Serial Number of Journal (ISSN) [LA] Ngoân ngöõ cuûa baøi baùo - language [PG] Soá trang - page number [TI] Töïa ñeà - title word [VI] Taäp (soá) - volume 17
  19. Ví duï: "DNA microarray"[ti] AND Curtis[au] 2002[dp] nghóa laø: tìm baøi baùo coù chöõ DNA microarray (trong töïa ñeà baøi baùo) cuûa taùc giaû Curtis naêm 2002 Löu yù: khi tìm kieám, ñeå tìm moät cuïm töø (phrase) thì chuùng phaûi ñöôïc ñaët trong daáu ngoaëc keùp (“”). Entrez töï ñoäng hieåu coù toaùn töû AND giöõa caùc töø caùch nhau baèng khoaûng traéng (khoâng naèm trong daáu ngoaëc keùp). Ví duï: protein SSB töông ñöông vôùi protein AND SSB vaø khaùc vôùi “protein SSB”. 3. Thöïc haønh Sinh vieân thöïc haønh tìm baøi baùo coù töïa ñeà: “Cloning and characterization of two promoters for the human Hsal 2 gene and their transcriptional repression by the Wilms tumor suppressor gene product” Taùc giaû: Ma Y, Li D, Chai L, Luciani AM, Ford D, Morgan J, Maizel AL Ta thöïc hieän choïn löïa töø khoùa laø “Cloning” (töïa ñeà) vaø “Ma” (teân taùc giaû). Chuùng ta thöïc hieän tìm kieám baøi baøo naøy treân PubMed baèng nhieàu caùch khaùc nhau. Ñaàu tieân thöïc hieän tìm nhöõng baøi baùo coù töø “Cloning” vaø töø “Ma”. Nhaäp vaøo khung for doøng “Cloning[TI] AND Ma[AU]”. • Nhaán phím Go hoaëc nhaán Enter↵. • Caâu hoûi: Coù bao nhieâu muïc baøi ñöôïc tìm thaáy? Traû lôøi: Baây giôø neáu bieát theâm thoâng tin baøi baùo treân xuaát baûn naêm 2001. Caâu hoûi: Phaûi nhaäp vaøo trình töï tìm kieám laø gì ñeå tìm ñöôïc chính xaùc baøi baùo ta caàn? Coù bao nhieâu baøi baùo tìm ñöôïc? Traû lôøi: Trong trang PubMed, thöû tìm vaø phaân bieät hai tröôøng hôïp khi tìm baøi baùo vôùi yeâu caàu laø LT AND gene vaø “LT gene” (trong ngoaëc keùp). Caâu hoûi: Soá baøi tìm ñöôïc cuûa moãi caùch laø bao nhieâu? Coù gì khaùc nhau giöõa hai caùch tìm naøy? Traû lôøi: 18
  20. Baøi 3. TÌM KIEÁM CAÙC TRÌNH TÖÏ SINH HOÏC 1. Muïc ñích, nguyeân taéc Trong nghieân cöùu sinh hoïc phaân töû, chuùng ta thöôøng xuyeân phaûi laøm vieäc treân caùc ñoái töôïng laø nucleic acid (DNA) vaø protein. Ñaây laø caùc daïng trình töï sinh hoïc ñöôïc löu tröõ phoå bieán trong caùc cô sôû döõ lieäu sinh hoïc. Hieän nay, caùc thoâng tin naøy ñöôïc löu tröõ chuû yeáu trong caùc cô sôû döõ lieäu lôùn treân theá giôùi nhö heä thoáng GenBank (NCBI, USA), EMBL (European Molecular Biology Laboratory, UK), DDBJ (DNA Database of Japan, JP) vaø moät soá heä thoáng cô sôû döõ lieäu khaùc treân theá giôùi. Thoâng tin trong caùc cô sôû döõ lieäu naøy raát lôùn vaø luoân ñöôïc caäp nhaät thöôøng xuyeân (sau moãi 24 giôø). Ví duï cô sôû döõ lieäu veà nucleotide cuûa Genbank (NCBI) hieän nay chöùa treân 13 tæ base cuûa treân 100 ngaøn loaøi. Con soá naøy luoân taêng theo soá muõ vaø döï tính gia taêng leân gaáp ñoâi trung bình sau moãi 14 thaùng (10/2001). Ñeå tìm nhöõng trình töï sinh hoïc naøy, chuùng ta söû duïng coâng cuï tìm kieám Entrez Nucleotide (tìm trình töï DNA) hoaëc Entrez Protein (tìm trình töï protein). 2. Coâng cuï vaø caùch söû duïng 2.1. Tìm trình töï DNA Ñeå tìm nhöõng trình töï DNA ta söû duïng Entrez Nucleotide ñeå tìm kieám trong heä thoáng cô sôû döõ lieäu veà trình töï DNA. Caùc cô sôû döõ lieäu naøy bao goàm heä thoáng GenBank (NCBI, USA) vaø lieân keát vôùi cô sôû döõ lieäu cuûa EMBL, DDBJ vaø moät soá heä thoáng döõ lieäu khaùc treân theá giôùi. Töø trang PubMed, nhaán vaøo doøng Nucleotide ñeå ñöa ta ñeán trang Entrez • Nucleotide. Nhaäp vaøo yeâu caàu (thöôøng laø teân gen nhö: “luc gene”, “ST gene”,…) vaø • nhaán nuùt Go (hoaëc nhaán Enter↵). Keát quaû seõ xuaát hieän moät danh saùch trình töï DNA töông töï nhö sau: • Caùc muïc baøi tìm ñöôïc Nhaán vaøo caùc muïc baøi ñeå xem chi tieát trình töï DNA. • 19
ADSENSE
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2