intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận án Tiến sĩ Kỹ thuật: Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

17
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tóm tắt Luận án Tiến sĩ Kỹ thuật "Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm" được nghiên cứu với mục tiêu: Nghiên cứu và đề xuất các phương pháp kết hợp trong tính toán mềm; Áp dụng các phương pháp đã đề xuất vào bài toán dự đoán cấu trúc bậc hai của phân tử sinh học.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật: Dự đoán cấu trúc bậc hai của phân tử sinh học trên cơ sở kết hợp một số kỹ thuật tính toán mềm

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TOÁN MỀM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 9.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng – 2023
  2. LUẬN ÁN ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS. Phạm Minh Tuấn TS. Đặng Đức Long Phản biện 1: …………………………………………. Phản biện 2: …………………………………………. Phản biện 3: …………………………………………. Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại Đại học Đà Nẵng Vào hồi ….. giờ ….. ngày ….. tháng ….. năm ….. Có thể tìm hiểu luận án tại: - Thư viện Quốc gia; - Trung tâm Học liệu và Truyền thông, trường Đại học Bách Khoa; - Trung tâm Thông tin - Học liệu và Truyền thông, Đại học Đà Nẵng.
  3. Mở đầu Sinh học phân tử là một trong những lĩnh vực khoa học quan trọng trong sinh học với nhiều ứng dụng trong việc tìm ra các thuốc và vật liệu tiên tiến. Cấu trúc bậc hai của phân tử sinh học là một trong những yếu tố quan trọng để xác định tính chất, hoạt động và chức năng của chúng. Việc xác định chính xác cấu trúc bậc hai của phân tử sinh học từng là một thách thức lớn cho nghiên cứu sinh học vì sự phức tạp của cấu trúc và sự hạn chế của các phương pháp kiểm tra hiện tại. Tuy nhiên, với sự phát triển của công nghệ tính toán, đặc biệt là các kỹ thuật tính toán mềm đang được sử dụng để giải quyết thách thức này. Trong luận án này, tôi sẽ đề xuất các phương pháp kết hợp các kỹ thuật tính toán mềm và áp dụng các kỹ thuật này vào bài toán dự đoán cấu trúc bậc hai của phân tử sinh học. 1. Tính cấp thiết, ý nghĩa khoa học của luận án Luận án có tính cấp thiết cao và ý nghĩa khoa học rất lớn trong lĩnh vực sinh học. Luận án đề xuất các phương pháp kết hợp trong tính toán mềm và áp dụng dự đoán cấu trúc bậc hai của phân tử sinh học, đồng thời đánh giá hiệu quả của các phương pháp này. Điều này giúp cho nhà khoa học cải thiện việc dự đoán cấu trúc bậc hai của phân tử sinh học và cũng giúp cho việc phát triển các phương pháp hiện tại với mục đích tìm ra cấu trúc chính xác của phân tử sinh học. 1
  4. 2 Bài toán dự đoán cấu trúc bậc hai RNA là một bài toán phức tạp trong lĩnh vực phân tử sinh học. RNA (Ribonucleic acid) là một loại acid nucleic có trong tế bào của các tế bào sinh vật và cung cấp thông tin gen cho việc sản xuất protein. Cấu trúc bậc hai của RNA là một hình thức tồn tại trong tế bào và có thể tác động đến việc sản xuất protein và các quá trình sinh học khác. Xuất phát từ thực tế và những lý do trên, nghiên cứu sinh đã lựa chọn đề tài:"DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TOÁN MỀM" thực hiện luận án tiến sĩ chuyên ngành Khoa học Máy tính. 2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu 2.1. Mục tiêu Luận án được thực hiện nhằm nghiên cứu giải quyết một phần thách thức trong bài toán dự đoán cấu trúc bậc hai của phân tử sinh học, cụ thể là cấu trúc bậc hai RNA. Luận án nhằm hướng đến những mục tiêu sau đây: - Nghiên cứu và đề xuất các phương pháp kết hợp trong tính toán mềm. - Áp dụng các phương pháp đã đề xuất vào bài toán dự đoán cấu trúc bậc hai của phân tử sinh học. 2.2. Đối tượng nghiên cứu Đối tượng nghiên cứu chính của luận án này gồm: - Phân tử sinh học: cụ thể là RNA. - Các kỹ thuật tính toán mềm gồm: Thuật toán di truyền, logic mờ, mạng nơ-ron nhân tạo, mạng LSTM.
  5. 3 2.3. Phạm vi nghiên cứu Phạm vi nghiên cứu bao gồm: - Nghiên cứu tổng quan về bài toán dự đoán cấu trúc bậc hai phân tử sinh học và các phương pháp dự đoán, trên cơ sở đó xác định các hạn chế của các phương pháp hiện tại và các vấn đề hiện nay. - Từ những kết quả phân tích tổng quan về phương pháp dự đoán cấu trúc bậc hai phân tử sinh học, đề xuất một số thuật toán cải tiến: - Thuật toán di truyền. - Kết hợp thuật toán di truyền với logic mờ. - Kết thợp thuât toán di truyền với mạng LSTM. 2.4. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên cứu thực nghiệm. 3. Đóng góp chính của luận án Luận án "DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TOÁN MỀM" cung cấp một số đóng góp quan trọng trong lĩnh vực nghiên cứu phân tử sinh học. Đóng góp chính của luận án gồm: 1. Xác định các kỹ thuật tính toán mềm có hiệu quả để dự đoán cấu trúc bậc hai của RNA. 2. Kết hợp một số kỹ thuật tính toán mềm để tăng tính chính xác và hiệu quả trong việc dự đoán cấu trúc bậc hai của RNA.
  6. 4 4. Bố cục luận án Bố cục luận án "DỰ ĐOÁN CẤU TRÚC BẬC HAI CỦA PHÂN TỬ SINH HỌC TRÊN CƠ SỞ KẾT HỢP MỘT SỐ KỸ THUẬT TÍNH TOÁN MỀM" gồm các phần sau: - Mở đầu - Chương 1: Tổng quan về RNA, cấu trúc bậc hai RNA và tính toán mềm - Chương 2:Đề xuất các phương pháp kết hợp trong tính toán mềm để dự đoán cấu trúc bậc hai phân tử sinh học - Chương 3: Áp dụng tính toán mềm cho bài toán dự đoán cấu trúc bậc hai RNA - Kết luận - Phụ lục
  7. Chương 1 Tổng quan về RNA, cấu trúc bậc hai RNA và tính toán mềm 1.1 Công nghệ sinh học Công nghệ sinh học là một lĩnh vực đa ngành sử dụng các kỹ thuật, phương pháp, công cụ và thiết bị của nhiều lĩnh vực khác nhau như sinh học phân tử, di truyền học, vi sinh, hóa học, vật lý, máy tính, điện tử, cơ khí, khoa học vật liệu, y học và nhiều lĩnh vực khác. Với mục đích là nghiên cứu, phát triển và ứng dụng các sản phẩm, dịch vụ, quy trình, công nghệ và giải pháp cho các vấn đề liên quan đến sức khỏe, môi trường, năng lượng, thực phẩm và nhiều lĩnh vực khác. 1.2 Tin sinh học Tin sinh học là lĩnh vực nghiên cứu sự tương tác giữa các thành phần của hệ thống sinh học bằng cách sử dụng các phương pháp và công nghệ tính toán. Trong thời đại hiện nay, tin sinh học đã trở thành một lĩnh vực đa dạng và phức tạp, có ảnh hưởng lớn đến nhiều lĩnh vực khác nhau, từ y tế, nông nghiệp đến công nghệ thông tin. Dự đoán cấu trúc của phân tử RNA là một bài toán quan 5
  8. 6 trọng trong lĩnh vực sinh học phân tử và có nhiều ứng dụng trong thực tiễn như điều trị bệnh, phát hiện và chẩn đoán bệnh, thiết kế thuốc, tìm hiểu cơ chế di truyền, v.v. 1.3 Cấu trúc Ribonucleic Acid (RNA) và các khái niệm liên quan 1.3.1 Cấu trúc RNA Ribonucleic acid (RNA) là một phân tử sinh học quan trọng. Nó đóng một vai trò chính trong quá trình tổng hợp protein từ deoxyribonucleic acid (DNA). Mỗi phần tử RNA bao gồm một chuỗi ribonucleotide được liên kết với nhau bởi liên kết hóa học cộng hóa trị và mỗi ribonucleotide chứa một trong bốn nucleotide: Adenine pAq, Guanine pGq, Cytosine pC q và U racil pU q, nó có thể tự gấp lại (folding) để hình thành cấu trúc bậc hai với các cặp nucleotide A  U, G  C, và G ¡ U , các đối xứng của chúng là U  A, C  G và U ¡ G. Những cặp nucleotide này gọi là những cặp chính tắc. Một chuỗi RNA có thể gấp lại để hình thành nhiều cấu trúc bậc hai khác nhau. Không giống như DNA là chuỗi kép, RNA thường được tìm thấy dưới dạng phân tử axit nucleic sợi đơn thường chứa các vùng bổ sung để tạo thành các vòng xoắn kép khi nó có thể tự gấp lại. Việc tự gấp này tạo ra một cấu trúc có thể được chia thành ba cấp độ tổ chức chính: cấu trúc chính, bậc hai và bậc ba 1.3.2 Các khái niệm liên quan đến RNA Phân tử RNA được định rõ đặc điểm bởi chuỗi của bốn loại nucleotide hoặc bazơ 1 : Adenine pAq, Cytosine pC q, Guanine pGq và U racil pU q. Chuỗi nucleotide tuyến tính của một sợi RNA tạo 1 Một nucleotide được cấu tạo bởi một bazơ, một ribose và một phosphate; nhưng vì mục đích của mình, tôi sử dụng thuật ngữ “nucleotide” và “bazơ” thay thế cho nhau
  9. 7 thành cấu trúc chính hoặc chuỗi và được định nghĩa chính thức như sau: Định nghĩa 1.1. Một chuỗi RNA có chiều dài n nu- cleotide là một chuỗi x  x1 x2 ...xn , trong đó xi € tA, C, G, U u, di € t1, ..., nu. Định nghĩa 1.2. Cấu trúc bậc hai RNA y ứng với chuỗi RNA x có chiều dài n được định nghĩa là tập hợp các cặp (không có thứ tự) ts, tu, với s, t € t1, ..., nu là từng cặp riêng lẻ, tức là đối với hai cặp bất kỳ ts, tu và tu, v u € y, ts, tu ˆ tu, vu  m (tập rỗng) Định nghĩa 1.3. Cấu trúc bậc hai RNA không có các cặp nucleotide bắt liên kết chéo nhau (pseudoknot free) y tương ứng với chuỗi RNA x có độ dài n là cấu trúc bậc hai RNA trong đó bất kỳ hai cặp nucleotide pi, j q và piI, j Iq € y, chúng đang lồng nhau, tức là i   iI   j I   j, hoặc là liên tiếp nhau, tức là i   j   iI   j I . Ở đây chúng ta giả định mà không mất tính tổng quát rằng i   j, iI   j I và i   iI . Định nghĩa 1.4. Cấu trúc bậc hai RNA có các cặp nu- cleotide bắt liên kết chéo nhau (pseudoknotted) y tương ứng với chuỗi RNA x có độ dài n là cấu trúc bậc hai RNA tồn tại ít nhất hai cặp nucleotide pi, j q và piI , j I q € y, mà i   iI   j   j I (đây thường là các cặp nucleotide giao nhau). Ở đây chúng ta giả định mà không mất tính tổng quát rằng i   j, iI   j I và i   iI . 1.3.3 Dự đoán cấu trúc RNA Cấu trúc RNA bao gồm ba mức độ: cấu trúc bậc một (primary structure) một chuỗi gồm các nucleotide liên kết với nhau bởi các liên kết phân tử, cấu trúc bậc hai (secondary structure) gồm các mảng ghép cơ bản (stem-loop) và cấu trúc bậc ba (tertiary structure) gồm sự gập lại của cấu trúc bậc hai và tương tác giữa các phân tử RNA và protein.
  10. 8 1.3.4 Các cách biểu diễn cấu trúc bậc hai RNA Cấu trúc bậc hai RNA có thể được trình bày theo nhiều cách khác nhau: Biểu diễn Radial, Biểu diễn cây (Tree), Biểu diễn tuyến tính (Linear), Biểu diễn bằng các kí hiệu dấu ngoặc đơn và dấu chấm (Dot-Bracket) Trong luận án, cấu trúc bậc hai RNA được biểu diễn bằng hai cách: biểu diễn Radial và biểu diễn bằng các kí hiệu dấu ngoặc đơn và dấu chấm (Dot-Bracket). 1.4 Tính toán mềm Tính toán mềm là một phương pháp hiệu quả và phổ biến trong lĩnh vực sinh học phân tử và tin sinh học, đặc biệt trong dự đoán cấu trúc bậc hai RNA. Các phương pháp này có thể được sử dụng để dự đoán cấu trúc bậc hai của RNA một cách nhanh chóng và chính xác, mà không cần phải tiến hành thí nghiệm phức tạp và tốn kém. 1.4.1 Thuật toán di truyền - (Genetic Algorithm - GA) Các bước chính của thuật toán di truyền bao gồm: Bước 1: Khởi tạo quần thể ban đầu; Bước 2: Đánh giá độ thích nghi; Bước 3: Chọn lọc; Bước 4: Lai ghép; Bước 5: Đột biến; Bước 6: Tiến hóa thế hệ tiếp theo; Bước 7: Kiểm tra điều kiện dừng;; 1.4.2 Logic mờ và các đặc trưng của tập mờ Logic mờ là một phương pháp giải quyết vấn đề trong đó không có giải pháp chính xác và rõ ràng, mà chỉ có thể xác định được các
  11. 9 kết quả có thể và khả năng xảy ra của chúng. Trong toán học và khoa học máy tính, logic mờ là một hệ thống logic mà sự đúng/sai không chỉ có thể có giá trị true hoặc false, mà còn có thể có giá trị nằm giữa chúng, được biểu diễn bằng một giá trị trong khoảng từ 0 đến 1. 1.4.2.1 Logic Boolean so với Logic mờ Các tập hợp cổ điển với các hoạt động và thuộc tính của chúng rất hữu ích trong việc biểu diễn logic cổ điển, dẫn đến logic Boolean. Tập hợp cổ điển được xác định bởi các ranh giới rõ ràng trong khi mặt khác, tập hợp mờ được xác định bởi các ranh giới không rõ ràng. 1.4.2.2 Tập hợp cổ điển Trong lý thuyết tập hợp cổ điển, một phần tử hoặc thuộc tập hợp hoặc không thuộc tập hợp đó 1.4.2.3 Tập mờ Tập hợp mờ là loại tập hợp có thể không có ranh giới rõ ràng hoặc sắc nét. Chúng đại diện cho những ranh giới mơ hồ. 1.4.2.4 Các đặc trưng của tập mờ Các đặc trưng của một tập mờ A trên U , là những thông tin để mô tả về các phần tử liên quan đến tập mờ A, những đặc trưng này còn chỉ rõ sự khác biệt của tập mờ A, so với những tập con cổ điển khác của U . 1.4.2.5 Các kiểu hàm thành viên của tập mờ Kiểu của tập mờ phụ thuộc vào các kiểu hàm thành viên khác nhau. Đã có nhiều kiểu hàm thuộc khác nhau được đề xuất. Dưới đây là một số hàm thành viên tiêu biểu:Tập mờ tam giác, Tập mờ hình thang, Tập mờ L, Tập mờ Gamma tuyến tính.
  12. 10 1.4.2.6 Một số khái niệm và phép toán trên tập mờ Y là lập rỗng, Tập Y và Z bằng nhau, Phần bù của Y là tập mờ Y I , Y được chứa trong Z (tập con), Hợp của tập Y và Z và Giao của tập Y và Z. 1.4.3 Mạng nơ-ron nhân tạo (Artificial Neural Net- work - ANN) Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một mô hình tính toán được lấy cảm hứng từ cấu trúc và hoạt động của hệ thống thần kinh trong não người. Mạng nơ-ron nhân tạo được sử dụng để giải quyết các bài toán phức tạp, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, dự đoán, phân loại và điều khiển. 1.4.4 Học máy - (Machine learning) Học máy (Machine Learning - ML) là một phương pháp trong trí tuệ nhân tạo cho phép máy tính học hỏi và cải thiện hiệu suất thông qua dữ liệu đầu vào thay vì chỉ thực hiện theo các quy tắc lập trình cứng nhắc. 1.4.5 Mạng nơ-ron dài ngắn hạn (Long Short-Term Memory - LSTM) Mạng nơ-ron dài ngắn hạn (LSTM) là một loại kiến trúc mạng nơ-ron nhân tạo được sử dụng để giải quyết vấn đề của các mạng nơ-ron thường trong việc xử lý chuỗi dữ liệu, đặc biệt là các chuỗi dữ liệu dài. LSTM được cấu tạo từ các đơn vị thực hiện các phép tính nhưng có khả năng lưu trữ thông tin trong một khoảng thời gian dài. Các đơn vị này được gọi là "cổng" và bao gồm: Cổng quên (Forget gate), Cổng đầu vào (Input gate), Cổng đầu ra (Output gate).
  13. Chương 2 Đề xuất các phương pháp kết hợp trong tính toán mềm để dự đoán cấu trúc bậc hai phân tử sinh học 2.1 Bài toán dự đoán cấu trúc bậc hai của phân tử sinh học Cấu trúc bậc hai của RNA bao gồm các cặp đôi nucleotide pG ¡ C, A ¡ U, G ¡ U q được sắp xếp thành một cấu trúc ba chiều. Các cặp đôi nucleotide này tạo thành các mắt cầu, khớp với nhau thông qua các đoạn xoắn và vòng xoắn. Dự đoán cấu trúc bậc hai của RNA có thể giúp chúng ta hiểu được cơ chế hoạt động của RNA và các chức năng của nó trong tế bào. Bài toán dự đoán cấu trúc bậc 2 của RNA có thể được mô hình hóa như sau: - Đầu vào: một chuỗi RNA x  x1 x2 ...xn , xi € tA, U, G, C u, n là chiều dài của chuỗi RNA (số các nucleotide có trong chuỗi) và một mô hình năng lượng tự do. - Mục tiêu: Phát triển thuật toán Apxq trả về một hoặc nhiều cấu trúc bậc hai y tương ứng với x được dự đoán hấp dẫn 11
  14. 12 về mặt sinh học. Một cách tiếp cận phổ biến để thu được các cấu trúc bậc hai hấp dẫn về mặt sinh học là tìm cấu hình năng lượng tự do tối thiểu (minimum free energy - MFE) y M F E của chuỗi RNA x đã cho theo mô hình năng lượng tự do giả định. yM F E  arg min y €Y Gpx, y q trong đó: - Y là tập các cấu trúc bậc hai có thể có của chuỗi RNA x; - G là hàm năng lượng cung cấp độ ổn định của cấu trúc; - arg miny Gpy q dùng để chỉ ra rằng cấu trúc y có Gpy q là nhỏ nhất. 2.2 Các tham số nhiệt động học. Các tham số nhiệt động học cho quá trình gấp khúc RNA và DNA đã được xác định bằng các phương pháp khác nhau. Trong phần này, chúng tôi trình bày tất cả các loại tham số RNA mà tôi sử dụng và định dạng chúng. 2.3 Tính toán năng lượng tự do của một cấu trúc bậc hai Phần này mô tả cách tính năng lượng tự do của cấu trúc bậc hai, sử dụng các tham số được mô tả trong phần trước. 2.3.1 Những hàm tổng quát Các nghiên cứu đã chỉ ra rằng các vòng xoắn (helice) có cặp bên ngoài không phải pC ¡Gq kém ổn định hơn. Giá trị N on_GC_terminal có nghĩa là thêm một tham số bổ sung để nắm bắt sự mất ổn
  15. 13 định này. Trong một số tài liệu, thuật ngữ AU terminal penalty được sử dụng. Do đó, để tránh nhầm lẫn, chúng tôi gọi nó là N on_GC_terminal_penalty. 2.3.2 Tính năng lượng tự do cho vòng xếp chồng Cho một chuỗi x, năng lượng tự do của một vòng xếp chồng xi xi 1 ...xj ¡1 xj , với pxi , xj q, pxi 1 , xj ¡1 q là các cặp nucleotide trong vòng xếp chồng, được cho bởi: G_xpx, i, j q = G_Stack pxi , xj , xi 1 , xj ¡1 q. 2.3.3 Tính toán năng lượng tự do cho vòng kẹp tóc Năng lượng tự do của những vòng kẹp tóc có kích thước lớn hơn hoặc bằng 3, được tạo ra từ bốn đại lượng: G1 , G2 , G3 và G4 2.3.4 Tính toán năng lượng tự do cho vòng lặp trong Chiều dài của một vòng lặp trong được cho bởi số lượng nu- cleotide tự do giữa hai cặp nucleotide đóng, chúng ta ký hiệu là pi, j q và piI, j Iq. Chúng ta gọi l1 là chiều dài của một cạnh của vòng lặp, tức là: l1  iI ¡ i ¡ 1. Khi đó, l2 sẽ là chiều dài của cạnh kia l2  j ¡ j I ¡ 1. Chiều dài của vòng lặp sẽ là l  l1   l2 . 2.3.5 Tính năng lượng tự do cho vòng nhiều nhánh Xét một vòng nhiều nhánh với k  1 nhánh và các cặp nucleotide đóng của chúng là pxi ; sj q, pxi1 ; xj1 q, ...pxik , xjk q. 2.3.6 Tính toán năng lượng tự do cho cấu trúc nhiều miền Công thức sau đây cho thấy sự đóng góp của các nucleotide lơ lửng cho k miền, trong đó pxi1 .xj1 q, ..., pxik .xjk q là các cặp nu- cleotide đóng của mỗi miền
  16. 14 2.4 Các phương pháp đề xuất 2.4.1 Thuật toán di truyền Cấu trúc bậc hai có thể có của chuỗi RNA bất kỳ có tổ hợp rất lớn. Nếu cấu trúc bậc 1 của RNA có chiều dài là n thì tổ hợp kết nối có thể có là n!. Vì thế thuật toán di truyền là giải pháp có thể được sử dụng để giải quyết bài toán đã trình bày ở (2.1). Giải thuật di truyền được tôi áp dụng như sau: Input: một chuỗi RNA, X  x1 x2 ...xn với xi € tA, U, G, C u, n là chiều dài của chuỗi; Output: - y M F E  y1 y2 ...yn với yi € t p q .u sao cho p q là "dấu ngoặc đúng", - và GM F E Bước 1: Tạo tập các cặp bazơ; Bước 2: Tạo tập các helix; Bước 3: Khởi tạo quần thể ngẫu nhiên; Bước 4: Đánh giá, nếu đủ tốt thì đến Bước 9 ; Bước 5: Chọn lọc; Bước 6: Lai ghép; Bước 7: Đột biến; Bước 8: Quay về Bước 4; Bước 9: Tính y M F E và GM F E ; 2.4.2 Kết hợp thuật toán di truyền với logic mờ Trong luận án này, phương pháp logic mờ được sử dụng trong quá trình chọn lọc, lai ghép và đột biến. Giải thuật di truyền kết hợp với logic mờ được tôi áp dụng như sau:
  17. 15 Input: một chuỗi RNA, X  x1 x2 ...xn với xi € tA, U, G, C u, n là chiều dài của chuỗi; Output: - y M F E  y1 y2 ...yn với yi € t I pI I qI I .I u sao cho I pI I qI là "dấu ngoặc đúng", - và GM F E Bước 1: Tạo tập các cặp bazơ; Bước 2: Tạo tập các helix; Bước 3: Khởi tạo quần thể ngẫu nhiên dựa trên tập mờ; Bước 4: Đánh giá, nếu đủ tốt thì đến Bước 9 ; Áp dụng modul mờ Bước 5: Chọn lọc; Bước 6: Lai ghép; Bước 7: Đột biến; Bước 8: Quay về Bước 4; Bước 9: Tính y M F E và GM F E ; 2.4.3 Kết hợp thuật toán di truyền với mạng nơ-ron nhân tạo, cụ thể là mạng LSTM Trong luận án này, tôi đề xuất phương pháp kết hợp thuật toán di truyền với mạng LSTM để dự đoán cấu trúc bậc hai RNA.
  18. Chương 3 Áp dụng tính toán mềm cho bài toán dự đoán cấu trúc bậc hai RNA 3.1 Cơ sở dữ liệu RNA Tất cả các dữ liệu tôi sử dụng cho thực nghiệm được lấy từ Rfam1 với phiên bản Rfam 14.9 (November 2022, 4108 họ) và COVID-19 Data Portal2 (Nền tảng dữ liệu COVID-19 của Châu Âu). 3.2 Bộ dữ liệu Tôi tiến hành thực nghiệm trên một tập dữ liệu RNA bao gồm các chuỗi với độ dài khác nhau. Dưới đây là các chuỗi RNA mà tôi tiến hành thực nghiệm với các phương pháp đã đề xuất ở chương 2, được thể hiện trong bảng 3.1.Thông tin cụ thể của từng chuỗi sẽ được trình bày trong các phần tiếp theo của chương này. 1 https://rfam.xfam.org/ 2 https://www.covid19dataportal.org/ 16
  19. 17 Bảng 3.1: Các chuỗi thực nghiệm STT Tên chuỗi Chiều dài 1 SARS-CoV-2 88 Bases 2 E.Coli 221 Bases 3 Bmori 498 Bases 4 Schizosaccharomyces pombe 119 Bases 5 Ichthyosporidium sp 1352 Bases Oryza sativa Japonica Group 6 324 Bases (Japanese rice) 7 Mycoplasma capricolum 865 Bases 8 Influenza A virus 543 Bases 9 Corynebacterium diphtheriae 176 Bases 10 Coxsackie A16 252 Bases 11 Enterovirus A71 252 Bases 3.3 Kết quả thực nghiệm Tôi đã tiến hành thực nghiệm trên bộ dữ liệu với các chuỗi được trình bày trong bảng 3.1. Kết quả của từng phướng pháp ứng với từng chuỗi được thể hiện trong bảng dưới đây.
  20. Bảng 3.2: Kết quả thực nghiệm các phương pháp đề xuất ứng với các chuỗi thực nghiệm Quy GA GA Di hoạch kết hợp với với mạng RNA Chiều dài truyền (GA) động (DP) logic mờ (FL) LSTM G G G G SARSCoV-2 88 Bases -24.20 -24.40 -25.20 -26.6 E.Coli 221 Bases -66.53 -67.93 -71.90 -73.90 B.mori 498 Bases -176.8 -178.2 -180.7 -183 Schizosaccharomyces 119 Bases -27.2 -32.10 -33.60 -33.70 18 pombe Ichthyosporidium 1352 Bases -314.99 -429.8 -432.9 -435.3 sp Oryza sativa Japonica Group 324 Bases -93.44 -95.11 -97.31 -103.82 (Japanese rice) Mycoplasma capricolum 865 Bases -225.60 -229.0 -235.4 -239.6 Influenza A virus 543 Bases -94.69 -131.0 -137.6 -139.6 Corynebacterium 176 Bases -61.80 -63.11 -64.50 -68.60 diphtheriae Coxsackie A16 252 Bases -79.16 -80.10 -85.90 -87.90 Enterovirus A71 252 Bases -74.16 -76.75 -79.57 -82.36
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2