Chuyên đề nghiên cứu tin sinh học

Chia sẻ: Nguyễn Hồng Kiên | Ngày: | Loại File: PPT | Số trang:34

0
220
lượt xem
108
download

Chuyên đề nghiên cứu tin sinh học

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

So sánh trình tự là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự(sequence),là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần(ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau giữa các trình tự. Cho 2 chuỗi sinh học S1,S2. Gióng cặp chuỗi này được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu là ”-”) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2...

Chủ đề:
Lưu

Nội dung Text: Chuyên đề nghiên cứu tin sinh học

  1. Chuyên Đề Nghiên Cứu 7 - Tin Sinh Học. Giảng Viên: Ngô Công Thắng. Sinh viên thực hiện: Nguyễn Hồng Kiên. Lớp: Tin học A-K52. Khoa: Công Nghệ Thông Tin. Mã Sinh Viên: 521996.
  2. Chuyên Đề Nghiên Cứu 7 - Tin Sinh Học. Nội Dung: Nhóm 2: Tìm hiểu bài toán so sánh cặp trình tự: a. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. b. Thuật toán ma trận điểm. d. Thuật toán quy hoạch động Needleman-Wunsch.
  3. Nội dung Tìm hiểu bài toán so sánh cặp trình tự: 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. 2. Thuật toán ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wunsch.
  4. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. - Định nghĩa: so sánh trình tự là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự(sequence), - là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một chuỗi các thành phần(ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau giữa các trình tự.
  5. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. - Cho 2 chuỗi sinh học S1,S2. Gióng cặp chuỗi này được thực hiện bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (kí hiệu là ”-”) tại các vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1’ và S2’ tương ứng, sau đó đặt một chuỗi trên chuỗi kia sao cho môi kí tự của chuỗi này gióng thẳng với một kí tự của chuỗi kia và cặp trình tự gióng không đồng thời là dấu cách. - Chuỗi sinh học ban đầu không có dấu cách và nếu loại bỏ dấu khỏi S1’ và S2’ ta sẽ có S1 và S2 ban đầu. - Yêu cầu đặt ra là thực hiện bài toán sao cho tìm ra cặp chuỗi S1’, S2’ có sự tương đồng cao nhất.
  6. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự Dựa trên phương pháp so sánh người ta chia ra làm 2 loại: - Phép so sánh trình tự theo hướng toàn cục: Phép toán so sánh được áp dụng trên toàn bộ chuỗi trình tự. Thường được sử dụng khi các trình tự so sánh có kích thước gần tương đương và các trình tự này có độ tương đồng, giống nhau cao.
  7. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự - Phép so sánh trình tự theo hướng cục bộ: + Phép toán so sánh được sử dụng trên một phần của chuỗi trình tự. + Thường được sử dụng khi các trình tự có chiều dài lớn, độ tương đồng giống nhau không cao, chỉ có một số ít các gene giống nhau trên 2 trình tự, hoặc khi 2 trình tự có kích thước khác biệt lớn.
  8. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. Tùy thuộc vào số lượng trình tự, bài toán so sánh trình tự được chia làm 2 mức độ: - So sánh 2 trình tự - So sánh nhiều trình tự.
  9. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự - Ví dụ về so sánh trình tự theo hướng toàn cục: LGPSSKQTGKGS− SRI WDN LN− I T KSAGKGAI MRLG DA Toàn bộ 2 chuỗi trình tự LGPSSKQTGKGS− S RI WDN và L N − I T K S A G K G A I M R L G D A được so sánh
  10. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự - Ví dụ về so sánh trình tự theo hướng cục bộ: Chỉ một phần của 2 chuỗi được so sánh: TGKG và AGKG −−−−−−− TGKG−−−−−−−− −−−−−−− AGKG−−−−−−−−
  11. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự - Ví dụ so sánh 2 trình tự: AC – –GCTG – CA TG –T– - Ví dụ so sánh nhiều trình tự AGT−GTG AGTAGTG −GTCGTG − −TAGTG
  12. 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự • Ý nghĩa: - Trên quan điểm sinh học, phép so sánh trình tự thể hiện quá trình biến đổi chọn lọc tự nhiên của các chuỗi trình tự, từ đó cho phép các nhà sinh học đưa ra kết luận về nguồn gốc của các đoạn gene, DNA, RNA, hay protein. - Mặt khác, cho phép ta xây dựng cây phát sinh chủng loại, xây dựng cây tiến hóa từ đó đánh giá được mối quan hệ giữa các loài.
  13. Nội dung Tìm hiểu bài toán so sánh cặp trình tự: 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. 2. Thuật toán ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wunsch.
  14. 2. Thuật toán ma trận điểm. • Kết quả của việc tính giá trị cho mỗi phép so sánh phụ thuộc nhiều vào kết quả của hàm đánh giá sự tương đồng của mỗi cặp amino acid (nucleotide), ký hiệu là: σ (a,b). Độ tương đồng của các cặp amino acid thường được lưu trữ dưới dạng một ma trận 2 chiều gọi là ma trận điểm. • Xét trên phương diện toán, ma trận đánh giá là 1 ánh xạ được định nghĩa như sau: σ : (∑’)²→R Trong đó : ∑’=∑ − { ‘-’ } và ∑ là tập các amino acid hoặc nucleotide.
  15. 2. Thuật toán ma trận điểm. • Có nhiều loại ma trận điểm dựa trên quá trình nghiên cứu, thống kê thực tế sinh học. • Hiện tại có 4 loại ma trận điểm: identity matrix, enetic code matrix, chemical similarity matrix và substitution matrix.
  16. 2. Thuật toán ma trận điểm. Identity matrix: • Đây là cơ chế đánh giá độ tương đồng đơn giản nhất, trong ma trận này các cặp amino acid giống nhau sẽ có giá trị của phần tử (ký tự) tương ứng trong ma trận là 1, các cặp amino acid còn lại sẽ nhận giá trị 0. • Ví dụ ARN D CQ A 1 0 0 0 0 0 R 0 1 0 0 0 0 N 0 0 1 0 0 0 D 0 0 0 1 0 0 C 0 0 0 0 1 0 Q 0 0 0 0 0 1
  17. 2. Thuật toán ma trận điểm. • Genetic code matrix (Ma trận mã di truyền) : - Trong ma trận này hàm đánh giá của mỗi cặp amino acid dựa trên độ tương đồng về mã di truyền. Ngày nay ma trận này hiếm khi được sử dụng trong việc so sánh các chuỗi amino acid. • Chemical similarity matrix (Ma trận tương đồng hóa học) : - Trong ma trận này, các amino acid có cấu trúc tương đồng về cấu trúc vật lý cũng như thuộc tính hóa học như kích thước, hình dạng, khả năng phân cực,… thì phần tử tương ứng trong ma trận sẽ nhận giá trị lớn hơn so với các cặp còn lại.
  18. 2. Thuật toán ma trận điểm. • Substitution matrix (Ma trận thay thế) : - Ma trận này được tính toán và xây dựng dựa trên các quan sát thống kê về tần số thay đổi của các amino acid trong việc so sánh các chuỗi trình tự. - Ma trận thay thế được đánh giá là tốt hơn so với 3 loại ma trận trên và hiện nay cũng được sử dụng phổ biến nhất.
  19. • Ví dụ ma trận BLOSUM62 lưu trữ hàm đánh giá độ tương đồng của tập 23 amino acid
  20. Nội dung Tìm hiểu bài toán so sánh cặp trình tự: 1. Nội dung và ý nghĩa sinh học của bài toán so sánh cặp trình tự. 2. Thuật toán ma trận điểm. 3. Thuật toán quy hoạch động Needleman-Wunsch.
Đồng bộ tài khoản