intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Ứng dụng tin học trong công nghệ sinh học

Chia sẻ: Lê Đức Phương | Ngày: | Loại File: PDF | Số trang:94

774
lượt xem
308
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Hướng dẫn cài đặt Statgraphics Centurion XVI và đăng ký bản quyền: Chạy file "setup.exe" trong đĩa chương trình. Một loại hộp thoại hiện ra, nhấp chọn "Next" đến khi xuất hiện hộp thoại: Nhấp chọn "I accept the terms in the license agreement" - Chọn "Next" - Điền thông tin vào hộp thoại.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Ứng dụng tin học trong công nghệ sinh học

  1. B GIÁO D C VÀ ÀO T O TRƯ NG I H C K THU T CÔNG NGH TP.HCM KHOA MÔI TRƯ NG & CÔNG NGH SINH H C ---------- ---------- BÀI GI NG: NG D NG TIN H C TRONG CÔNG NGH SINH H C GVGD: BÙI VĂN TH VINH Tài li u lưu hành n i b TP.HCM, Tháng 01/2008 1
  2. I. GI I THI U CHUNG V STATGRAPHICS CENTURION (HO C STATGRAPHICS PLUS) 1. Hư ng d n cài t Statgraphics Centurion XVI và ăng ký b n quy n Ch y file “setup.exe” trong ĩa chương trình M t lo t h p tho i hi n ra, nh p ch n “Next” n khi xu t hi n h p tho i: Nh p ch n “I accept the terms in the license agreement” Ch n “Next” i n thông tin vào h p tho i: Ch y file “KeyGen.exe” trong ĩa chương trình xu t hi n h p tho i: 2
  3. Nh p ch n “Generate Serial” s xu t hi n m t dãy ký t trong box “Serial Number” Nh p ch n “(1) Copy” Paste “Serial Number” vào h p tho i: Ti p t c ch n “Next” liên t c và ch n “Install” b t u cài t, ch i cài t xong và ch n “Finish” hoàn t t. Kh i ng Statgraphics, xu t hi n h p tho i: Click b ch n m c “Show the StatWizard at Startup” góc dư i bên trái r i Ch n “Cancel” “Yes” b h p tho i tr v màn hình chính Ch n menu “Help” Ch n “License Manager” 3
  4. Copy “Product key” và Paste vào h p tho i c a keygen: Nh p ch n “Generate Activation Code” Copy “Activation code” và paste vào h p tho i c a License Manager: Nh p ch n “UPGRADE” hoàn t t ăng ký b n quy n. * i v i Statgraphics Plus, ch c n ch y file “SGWIN.EXE”. 4
  5. 2. Thi t l p các thông s h th ng ban u Ph n m m Statgraphics Centurion có 2 h th ng Menu có th ư c s d ng là “Classic menu” v i các heading l n lư t là File, Edit, Plot, Describe, Compare,… và “Six sigma menu” v i các heading l n lư t là File, Edit, Define, Measure, Analyze,… chuy n i gi a 2 h th ng Menu ch n Edit Preferences xu t hi n h p tho i: Ch n tab “General”, trong box “System Options” click ch n ho c b ch n m c “Use Six Sigma Menu”. Thông thư ng, d s d ng nên ch n h th ng “Classic menu” (tương t như h th ng menu ư c s d ng trong Statgraphics Plus). 3. Nh p d li u và qu n lý d li u: D li u ph i ư c nh p vào “DataBook”, m t “DataBook” chuNn g m 10 “datasheet” ư c ký hi u b ng các ch cái t A n J. Trong m i “datasheet” có các c t và hàng: m i hàng ch a thông tin v m t m u, m t trư ng h p hay m t quan sát ơn l còn m i c t i di n cho m t bi n. Có 2 cách nh p d li u vào “DataBook”: - Cách 1: Nh p tr c ti p vào “DataBook” - Cách 2: Nh p d li u vào m t ph n m m khác như Excel, sau ó copy hay load vào ph n m m Statgraphics. Trư c khi nh p d li u vào “DataBook”, c n ph i nh nghĩa bi n trong m i c t b ng cách click ph i chu t vào c t mu n nh nghĩa bi n Ch n “Modify column” xu t hi n h p tho i: 5
  6. Nh p tên bi n vào m c “Name”, nh p ph n chú thích vào m c “Comment” và l a ch n d ng d li u trong m c “Type” (3 d ng d li u thư ng g p là: d ng s “Numeric”, d ng ký t “Character” và d ng công th c tính toán “Formula”). Sau khi nh nghĩa bi n y , click ch n OK k t thúc và b t u nh p d li u vào c t 1, sau ó ti p t c l n lư t nh nghĩa bi n và nh p d li u vào các c t ti p theo. Ví d : nh p b ng s li u: Sau khi nh p vào “DataBook” cho k t qu sau: 6
  7. lưu b ng s li u: ch n File Save Save Data File (file d li u ư c lưu dư i d ng .sf6 và ch ư c c b ng ph n m m Statgraphics). m m t file d li u ã lưu: ch n File Open Open Data Source. M t khi d li u ã ư c nh p vào Datasheet, có m t s thao tác quan tr ng có th ư c th c hi n như: - Cut, Copy, Paste, Insert và Delete d li u: khi ti n hành các l nh trên c n lưu ý r ng m i c t có m t ki u nh d ng khác nhau, n u copy c t có nh d ng Character và paste và c t có nh d ng Numeric thì s không th c hi n ư c C n ph i nh d ng l i c t d li u. - T o thêm m t bi n m i t các c t d li u có s n: Click ph i chu t vào m t c t m i, ch n “Modify Column” Ch n nh d ng “Formula” và nh p công th c tính toán gi a các c t d li u có s n. - Sort d li u: Ch n c t d li u ư c xác nh làm cơ s s p x p Menu Edit Sort data. Khi m t phép phân tích ư c th c hi n, ch có m t vài b ng k t qu hay th ư c trình bày. hi n th thêm nh ng output khác, c n ph i ch n button thích h p trên thanh công c “Analysis Toolbar” xu t hi n ngay trên tiêu c a phép phân tích. Các button trên thanh công c phân tích r t quan tr ng và ư c t ng k t trong b ng sau: Cen Plus Tên Ch c năng Input dialog Hi n th m t h p tho i nh p d li u thay i c t d li u Tables Hi n th danh sách các b ng khác có th ư c t o l p Graphs Hi n th danh sách các d ng th khác có th ư c t o l p Save results Cho phép các phân tích ã tính toán ư c lưu vào các c t c a datasheet 7
  8. Analysis options Ch n nh ng options khác nhau áp d ng cho phép phân tích ang ti n hành Pane options Ch n nh ng options khác nhau áp d ng cho b ng bi u hay th ang s d ng Graphics options Cho phép thay i tiêu , thang tr c và các c tính khác trên th ang s d ng 4. Xu t k t qu : Khi m t phép phân tích ư c ti n hành, các k t qu ư c xu t ra theo nhi u cách khác nhau: Copy output sang m t Click ch n m t b ng bi u hay th và ch n menu ng d ng khác Edit Copy sau ó kh i ng m t ng d ng khác (Ví d như MS Word) paste vào. Lưu k t qu phân tích Click ph i chu t và ch n “Copy Analysis to vào m t report StatReporter”, sau ó vào File Save Save StatReporter lưu thành file .rtf (có th import vào các ng d ng khác như MS Word). Lưu th dư i d ng Phóng c c i c a s th mu n lưu, click ph i file nh chu t và ch n Save Graph. 5. Lưu công vi c ang ti n hành: Phép phân tích ang ti n hành có th ư c lưu t i b t kỳ th i i m nào b ng cách ch n menu File Save StatFolio (d ng file .sgp). Sau khi m file ã lưu thì nh ng d li u và phép phân tích ang ti n hành s ư c t ng khôi ph c (Lưu ý: file data và file StatFolio ph i ư c lưu tr dư i nhi u file khác nhau, n u mu n chuy n file StatFolio t máy này sang máy khác ti p t c phân tích thì ph i chuy n kèm file data). 8
  9. II. TI N HÀNH M T PHÉP PHÂN TÍCH TH NG KÊ Có hơn 150 phép phân tích th ng kê trên Menu chính c a chương trình Statgraphics Centurion tuy nhiên các phép phân tích khác nhau u có cùng m t cách ti n hành: 1. Khi m t phép phân tích ư c l a ch n t menu chính, m t h p h i tho i nh p d li u (data input dialog box) ư c hi n th , h p tho i này cho phép l a ch n bi n c n phân tích. 2. D li u sau ó ư c c và phân tích, m t c a s phân tích (analysis window) m i ư c t o ra v i các b ng bi u và th k t qu m c nh. 3. Các k t qu xu t hi n l n u tiên ư c tính toán d a trên nh ng thông s chuNn, các thông s m c nh này có th ư c thay i b ng cách ch n phím “Analysis Options” trên thanh công c analysis; các thông s m i ư c thay i s làm thay i k t qu trên các b ng bi u và th . 4. Các b ng k t qu và th m i có th ư c thêm vào ho c b b t b ng cách ch n phím “Tables” hay “Graphs” trên thanh công c phân tích. 5. Các b ng k t qu và th có th ư c thay i b ng cách phóng i c a s tương ng và ch n “Pane options” trên thanh công c phân tích. 6. i v i các th , có th thay i ph n tiêu , tr c s , i m s , font ch ,… b ng cách phóng i c a s tương ng và ch n “Graphics options” trên thanh công c phân tích. 7. Các b ng k t qu và th có th ư c in, chuy n thành file HTML hay copy sang các chương trình ng d ng khác như MS Word, Power Point,… 8. Các k t qu d ng s có th ư c lưu thành các c t k t qu trong m t data sheet b t kỳ b ng cách ch n “Save results” trên thanh công c phân tích. 9. Toàn b phép phân tích có th ư c lưu l i thành file StatFolio ti n s d ng nh ng l n sau. 9
  10. 1. H p tho i nh p d li u: H p tho i nh p d li u thư ng g m 2 ph n: ph n bên trái li t kê t t c các c t d li u trong datasheet, ph n bên ph i là nơi nh p d li u c n phân tích. Mu n phân tích c t d li u nào thì l a ch n ph n bên trái r i click vào bi u tư ng chuy n d li u sang vùng phân tích. Có th ch n l c l i d li u c n phân tích b ng các toán t như FIRST(k), LAST(k), ROWS(start,end), RANDOM(k), >,
  11. III. PHÂN TÍCH CÁC C TRƯNG C A M T M U M tv n thư ng g p trong th ng kê là phân tích m t m u v i n giá tr quan sát t m t t ng th . Ví d : o thân nhi t c a n=130 ngư i ư c k t qu sau: D li u thân nhi t trong ví d trên ư c lưu trong file bodytemp.sf3 trong thư m c Data. 1. Ch n menu File Open Open Data Source 2. Trong h p tho i “Data Source” ch n “STATGRAPHICS Data File” 3. Ch n file bodytemp.sf3 trong thư m c Data (C:\Program Files\Statgraphics\STATGRAPHICS Centurion XV.I\Data) 4. D li u xu t hi n như b ng sau: Thân nhi t ư c trình bày trong c t bên trái v i ơn v o là F. Phép phân tích m t bi n ư c ti n hành b ng cách: 1. ch n Menu Describe Numeric Data One-Variable Analysis 2. Trong h p tho i nh p d li u, ch n c t d li u c n phân tích 11
  12. 3. K t qu phân tích s ư c trình bày trong 4 c a s : C a s trên cùng bên trái cho bi t dung lư ng m u n=130 giá tr n m trong kho ng t 96,3 n 100,8 F. C a s trên cùng bên ph i bi u di n th phân tán c a s li u v i các i m phân b ng u nhiên theo hư ng th ng ng. Các i m s li u t p trung trong kho ng t 98 n 99 F và thưa d n ra 2 u. Hai c a s bên dư i bi u di n các c trưng th ng kê và th “box-and-whisker”. 1. Các c trưng th ng kê: B ng k t qu ư c trình bày trong c a s dư i cùng bên trái bi u di n nhi u k t qu th ng kê c a m u. Các k t qu th ng kê khác có th ư c thêm 12
  13. vào b ng cách nh p úp chu t vào c a s k t qu phóng i c a s tương ng và ch n “Pane Options” M t gi nh thư ng g p i v i d li u ghi nh n ư c là m u có phân b chuNn hay phân b Gaussian ( th có d ng hình chuông). D li u t m t m u có phân b chuNn ư c mô t y b ng 2 giá tr th ng kê: 1. Trung bình m u (Mean hay Average - X): ư c lư ng giá tr trung tâm c a phân b . 2. l ch chuNn c a m u (Standard deviation - SD): liên quan n s phân tán c a s li u. i v i m t phân b chuNn, kho ng 68% s li u n m trong kho ng X ± SD, 95% s li u n m trong kho ng X ± 2SD và 99,73% s li u n m trong kho ng X ± 3SD. Hai giá tr trung bình m u và l ch chuNn ch có giá tr i di n cho m u khi m u có phân b chuNn. Hai k t qu th ng kê khác có th ư c s d ng ki m tra l i gi nh m u có phân b chuNn hay không là l ch (Standardized skewness) và nh n (Standardized kurtosis): 1. l ch (Skewness): là tiêu chuNn ánh giá tính i x ng c a s li u. Ki u phân b i x ng như phân b chuNn có l ch b ng 0. Phân b v i các giá tr có xu hư ng t p trung v phía bên ph i c a th có giá tr l ch > 0. Phân b v i các giá tr có xu hư ng t p trung v phía bên trái c a th có giá tr l ch < 0. 2. nh n (Kurtosis): là tiêu chuNn xác nh hình d ng c a phân b i x ng. Phân b chuNn có nh n b ng 0. Phân b có th nh n hơn phân b chuNn có giá tr nh n > 0. Phân b có th b t hơn phân b chuNn có giá tr nh n < 0. N u m u có phân b chuNn, c 2 giá tr l ch và nh n ph i n m trong kho ng [-2;2]. 13
  14. M ts c trưng th ng kê khác thư ng ư c s d ng: - Giá tr c c ti u (Minimum) = 96,3 - i m t phân v ¼ (25th percentile) = 97,8 - Trung v (Median, 50th percentile) = 98,3 - i m t phân v ¾ (75th percentile) = 98,7 - Giá tr c c i (Maximum) = 100,8 Các giá tr này chia dãy s li u thành 4 ph n b ng nhau và là cơ s xây d ng th “box-and-whisker”. 2. th “box-and-whisker” th “box-and-whisker” ư c xu t b i John Tukey và ư c xây d ng b ng cách: 1. D ng m t kh i h p “box” kéo dài t giá tr phân v ¼ n giá tr phân v ¾. Vì v y 50% s li u s n m trong h p này. 2. K m t ư ng th ng ng v trí trung v m u, chia dãy s li u thành 2 ph n b ng nhau. N u m u có phân b i x ng thì ư ng th ng này n m g n v i trung tâm c a kh i h p. 3. ánh m t d u + vào v trí trung bình m u. M t s khác bi t áng k gi a 2 giá tr trung bình và trung v cho th y có s hi n di n c a m t hay vài s li u có kh năng gây ra sai s (các s li u này không có chung lu t phân ph i so v i các s li u còn l i) làm cho phân b c a m u b l ch. 14
  15. 4. Hai u o n th ng ư c g i là “whisker” n i t giá tr c c ti u n i m phân v ¼ và t i m phân v ¾ n giá tr c c i tr phi có m t s giá tr n m quá xa so v i kh i h p ư c xác nh là “nh ng i m gây ra sai s ” (outside points), trong trư ng h p ó, whisker ư c kéo dài n nh ng i m giá tr xa nh t không ư c xác nh là i m gây ra sai s . - i m “far outsides”: là nh ng i m có giá tr g p 3 l n kho ng t phân v (Kho ng t phân v - interquartile range – là kho ng cách gi a các i m t phân v và b ng v i chi u r ng c a h p “box”). Nh ng i m “far outsides” ư c bi u th b ng m t hình vuông nh có m t d u + gi a. N u m u có phân b chuNn thì kh năng m t s li u nào ó ư c xác nh là i m “far outside” ch kho ng 1/300 (v i m u có n=300). Tr khi có hàng trăm giá tr quan sát c a m u n u không thì các i m “far outside” luôn là nh ng i m gây ra sai s . - i m “outside”: là nh ng i m có giá tr g p 1,5 l n kho ng t phân v và ư c bi u di n b ng nh ng hình vuông nh không có d u + gi a. Khi m u có phân b chuNn, kh năng có 1 hay 2 giá tr “outside” trong m t m u có n=100 là kho ng 50% và không c n thi t ph i ch ra s hi n di n c a các i m gây ra sai s th t s (true outlier). Nh ng i m này ư c xem là s li u nghi ng , áng quan tâm và nghiên c u k hơn. th “box-and-whisker” trong ví d trên khá i x ng. Các o n “whisker” có dài khá b ng nhau và hai giá tr trung bình và trung v c a m u n m g n v i trung tâm c a “box”. Có 3 i m gây ra sai s (outliers) ư c xác nh nhưng không có i m “far outside”. Click chu t vào i m outlier ngoài cùng bên ph i ch ra s li u gây ra sai s tương ng n m hàng 15 c a file d li u. N u ch n “Pane Options” t thanh công c phân tích, có th thêm kho ng ư c lư ng kho ng tin c y c a trung v ư c ký hi u b ng v t lõm hình ch V 15
  16. 3. Ki m tra xác nh i m Outlier Trư c khi ti n hành ánh giá m t k t qu th ng kê nào, c n ph i xác nh các i m outlier có th t s gây ra sai s và c n ph i lo i b kh i d li u g c hay không. STATGRAPHICS cung c p m t công c ti n hành m t phép ki m tra cơ b n nh m xác nh li u m t giá tr quan sát nào ó có cùng lu t phân b v i các s li u còn l i hay không (thư ng là phân b chuNn) b ng cách ch n Menu Describe Numeric Data Outlier Identification. Trong ví d v k t qu o thân nhi t trên, sau khi ti n hành xác nh i m outlier, b ng k t qu ư c trình bày trong ph n dư i c a c a s bên trái bi u di n 5 giá tr nh nh t và 5 giá tr l n nh t c a d li u: Giá tr “b t thư ng” n m hàng 15 và ư c tô màu . Giá tr “Studentized Value Without Deletion” là 3,479 ư c tính b ng công th c (Xi – X)/S khi dùng c giá tr outlier tính giá tr trung bình và l ch chuNn. N u giá tr “Studentized Value Without Deletion” l n hơn 3 thì s li u này là nguyên nhân gây ra sai s tr khi m u có kích thư c n vô cùng l n hay m u không có phân b chuNn. Phương pháp thư ng ư c s d ng xác nh i m outlier là phương pháp Grubbs’ test. STATGRAPHICS s ti n hành ki m tra theo phương pháp này và bi u di n k t qu “P-value”. N u giá tr P-value < 0,05 thì i m outlier th t s gây ra sai s . Trong ví d này, Giá tr P-value = 0,0484 (
  17. Vì s li u hàng 15 là s li u duy nh t l n hơn 100 F nên ph n d li u phân tích s ch còn n = 129 giá tr . K t qu xác nh i m outlier như sau: Vì giá tr P-value = 0,676 l n hơn r t nhi u so v i 0,05 nên các s li u còn l i (129 s li u) có chung m t d ng phân b . T k t qu ki m tra này, có th quay tr l i t nghiên c u ban u xác nh xem nguyên nhân nào có th gây ra giá tr “b t thư ng” hàng 15 và có th làm l i thí nghi m ghi nh n l i k t qu hàng 15. 17
  18. 4. Bi u M t d ng hi n th bi u thư ng g p ánh giá d li u là bi u t ns . Trong các c a s hi n th k t qu phân tích “One-Variable Analysis”, ch n phím “Graphs” trên thanh công c phân tích và click ch n “Frequency Histogram” th t n s (sau khi ã b giá tr hàng 15) ư c hi n th như sau: Chi u cao c a m i thanh bar trong bi u cho th y s k t qu quan sát ư c rơi vào kho ng nhi t b ng b r ng c a m i thanh bar. S thanh bar và l nc a chúng ư c thi t l p d a trên kích thư c m u n. Các giá tr này có th ư c thay i b ng cách phóng i c a s th tương ng và ch n “Pane Options”. Trong c a s “Frequency Plot Options”, thi t l p l i các thông s như: S l p (Number of Classes), Gi i h n dư i (Lower Limit) và gi i h n trên (Upper Limit). 18
  19. S l p càng nhi u thì càng có nhi u chi ti t rõ ràng. Hình d ng chung c a phân b là d ng ư ng cong gi ng hình cái chuông. Các d li u xây d ng nên bi u t n s có th ư c hi n th b ng cách ch n phím “Tables” trên thanh công c phân tích và click ch n “Frequency Tabulation” 19
  20. 5. Ư c lư ng kho ng: Sau khi ã lo i b s li u có kh năng gây ra sai s ra kh i m u, có th ti n hành ư c lư ng các thông s c trưng phân b . Click ch n m c “Confidence Intervals” t h p tho i “Tables” K t qu ư c lư ng trung bình và ư c lư ng l ch chuNn K t qu trên cho th y t d li u thân nhi t c a 129 ngư i có th suy ra thân nhi t trung bình n m trong kho ng [98,11-98,35] F. K t lu n ó có chính xác là 95% (m c ý nghĩa α=0,05). Có th thay i m c ý nghĩa cho phép ư c lư ng b ng cách ch n “Pane Options” và thay i thông s trong m c “Confidence Level” 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2