ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

MỘT SỐ THUẬT TOÁN DÓNG HÀNG CÁC MẠNG PROTEIN

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN NGỌC HÀ

MỘT SỐ THUẬT TOÁN DÓNG HÀNG CÁC MẠNG PROTEIN

Chuyên ngành: Khoa học máy tính Mã số: 9480101.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS.TS Hoàng Xuân Huấn

2. GS. TS. Thái Trà My

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết

quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả

trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa

từng được ai công bố trong các công trình nào khác.

Tác giả

1

LỜI CẢM ƠN Luận án được thực hiện tại trường ĐH Công nghệ - ĐHQG Hà Nội, dưới

sự hướng dẫn của PGS.TS Hoàng Xuân Huấn và GS.TS Thái Trà My.

Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hoàng Xuân Huấn, cô Thái

Trà My, những người đã có những định hướng giúp tôi thành công trong việc

nghiên cứu của mình. Thầy cũng đã động viên và chỉ bảo giúp tôi vượt qua

những khó khăn để tôi hoàn thành được luận án này.

Tôi xin chân thành cảm ơn tới TS. Đỗ Đức Đông, TS. Đặng Cao Cường

và các thầy cô ở Bộ môn Khoa học máy tính trường Đại học Công nghệ đã

đóng góp cho tôi nhiều kiến thức quý báu về kiến thức khoa học để tôi có thể

hoàn thành luận án.

Tôi cũng xin cảm ơn tới các thầy, cô thuộc khoa Công nghệ thông tin –

Trường ĐH Công Nghệ, đã tạo mọi điều kiện thuận lợi giúp tôi trong quá trình

làm nghiên cứu sinh.

Tôi cũng xin cảm ơn tới các thầy cô ở khoa Toán, và lãnh đạo trường

Đại học Sư Phạm – Đại học Thái Nguyên, đã tạo mọi điều kiện thuận lợi về

mặt thời gian và công tác chuyên môn giúp tôi trong quá trình làm nghiên cứu

sinh.

Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè nơi đã cho

tôi điểm tựa vững chắc để tôi có được thành công như ngày hôm nay.

2

MỤC LỤC

DANH MỤC BẢNG BIỂU .............................................................................. 7

DANH MỤC CÁC HÌNH ................................................................................. 9

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ........................................... 10

MỞ ĐẦU ......................................................................................................... 12

Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM ...... 16

1.1. Tin sinh học và dóng hàng các mạng protein ...................................... 16

1.1.2. Bài toán dóng hàng nhiều mạng các vị trí liên kết protein. ................. 22

1.1.3. Bài toán dóng hàng mạng tương tác protein - protein ......................... 26

1.2. Tối ưu mềm .......................................................................................... 31

1.2.1. Bài toán tối ưu tổ hợp và tiếp cận mềm ............................................... 31

1.2.2. Phương pháp tối ưu đàn kiến ............................................................... 35

1.2.3. Tính toán tiến hóa và các thuật toán memetic ..................................... 44

1.2.4. Thuật toán tìm kiếm Tabu .................................................................... 45

1.3. Động cơ nghiên cứu ............................................................................. 47

1.4. Kết luận chương ................................................................................... 48

Chương 2. DÓNG HÀNG CÁC MẠNG CÁC VỊ TRÍ LIÊN KẾT PROTEIN

......................................................................................................................... 49

2.1. Bài toán dóng hàng nhiều đồ thị .......................................................... 49

2.1.1. Tập nhiều đồ thị ................................................................................... 50

2.1.2. Dóng hàng nhiều đồ thị ........................................................................ 50

2.1.3. Hàm đánh giá chất lượng dóng hàng ................................................... 51

3

2.2. Thuật toán dựa trên ACO ..................................................................... 54

2.2.1. Đồ thị cấu trúc ...................................................................................... 55

2.2.2. Thủ tục bước ngẫu nhiên để xây dựng một dóng hàng ........................ 56

2.2.3. Qui tắc cập nhật mùi ............................................................................ 59

2.2.4. Thủ tục tìm kiếm cục bộ ...................................................................... 59

2.3. Thuật toán theo lược đồ memetic ........................................................ 60

2.3.1. Lược đồ chung ..................................................................................... 61

2.3.2. Đồ thị cấu trúc ...................................................................................... 63

2.3.3. Vết mùi và thông tin heuristic .............................................................. 63

2.3.4. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 64

2.3.5. Qui tắc cập nhật vết mùi ...................................................................... 64

2.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 65

2.4. Thuật toán memetic mới kết hợp ACO và tìm kiếm Tabu .................. 65

2.4.1. Đồ thị cấu trúc ...................................................................................... 67

2.4.2. Thông tin heuristic ............................................................................... 67

2.4.3. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 67

2.4.4. Qui tắc cập nhật vết mùi ...................................................................... 68

2.4.5. Thủ tục tìm kiếm Tabu ......................................................................... 68

2.5. Các kết quả thực nghiệm ...................................................................... 69

2.5.1. Dữ liệu thực nghiệm ............................................................................ 69

2.5.2. Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy và

GAVEO ........................................................................................................... 70

4

2.5.3. Thực nghiệm so sánh các thuật toán ACOTS-MGA, ACO-MGA2,

GAVEO và Greedy ......................................................................................... 75

2.6. Kết luận chương ................................................................................... 80

Chương 3. DÓNG HÀNG TOÀN CỤC HAI MẠNG TƯƠNG TÁC

PROTEIN-PROTEIN ...................................................................................... 81

3.1. Bài toán dóng hàng toàn cục mạng tương tác protein ......................... 81

3.1.1. Phát biểu bài toán ................................................................................. 81

3.1.2. Đánh giá chất lượng dóng hàng toàn cục ............................................. 82

3.2. Thuật toán FASTAN ............................................................................ 84

3.2.1. Xây dựng dóng hàng ban đầu .............................................................. 85

3.2.2. Thủ tục Rebuild .................................................................................... 87

3.2.3. Độ phức tạp của thuật toán FASTAN so với SPINAL ........................ 88

3.3. Thuật toán ACOGNA .......................................................................... 89

3.3.1. Lược đồ chung ..................................................................................... 91

3.3.2. Đồ thị cấu trúc ...................................................................................... 92

3.3.3. Vết mùi và thông tin heuristic .............................................................. 93

3.3.4. Thủ tục bước ngẫu nhiên để xây dựng dóng hàng ............................... 94

3.3.5. Quy tắc cập nhật vết mùi ..................................................................... 94

3.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 95

3.4. Thuật toán ACOGNA++ ...................................................................... 95

3.4.1. Mô tả thuật toán ................................................................................... 96

3.4.2. Vết mùi ................................................................................................. 96

5

3.4.3. Thủ tục xác định cặp đỉnh dóng hàng .................................................. 97

3.4.4. Quy tắc cập nhật vết mùi ..................................................................... 98

3.4.5. Thủ tục tìm kiếm cục bộ ...................................................................... 99

3.5. Kết quả thực nghiệm ............................................................................ 99

3.5.1. Dữ liệu thực nghiệm ............................................................................ 99

3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL . 100

3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán FASTAN

và MAGNA++ .............................................................................................. 103

3.5.4. Thực nghiệm so sánh thuật toán ACOGNA++ với các thuật toán

ACOGNA, MAGNA++ và ModuleAlign ..................................................... 108

3.6. Kết luận chương ................................................................................. 110

KẾT LUẬN ................................................................................................... 113

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN

QUAN ĐẾN LUẬN ÁN ............................................................................... 117

TÀI LIỆU THAM KHẢO ............................................................................. 118

6

DANH MỤC BẢNG BIỂU

Bảng 2.1. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ

liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 20 đỉnh.

................................................................................................................. 71

Bảng 2.2. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ

liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 50 đỉnh

................................................................................................................. 71

Bảng 2.3. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian

chạy là 50s. .............................................................................................. 73

Bảng 2.4. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian

chạy là 150s ............................................................................................. 73

Bảng 2.5. So sánh điểm chất lượng dóng hàng S(A)với các bộ dữ liệu là 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian

chạy là 200s ............................................................................................. 73

Bảng 2.6. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian

chạy là 200s ............................................................................................. 74

Bảng 2.7. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian

chạy là 300s ............................................................................................. 74

Bảng 2.8. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian

chạy là 600s ............................................................................................. 74

7

Bảng 2.9. So sánh chất lượng lời giải của các thuật toán với các tập dữ liệu gồm

4, 8, 16 và 32 đồ thị ................................................................................. 76

Bảng 2.10. So sánh thời gian chạy (tính theo giây) của các thuật toán với các

tập dữ liệu gồm 4, 8, 16 và 32 đồ thị ...................................................... 77

Bảng 2.11. So sánh điểm chất lượng dóng hàng S(A) của 3 thuật toán với cùng

thời gian chạy với các tập gồm 4,8,16 và 32 đồ thị. ............................... 79

Bảng 3.1. Mô tả bộ dữ liệu ............................................................................ 100

Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục

tiêu GNAS và giá trị | E12| với các giá trị tham số α khác nhau .......... 102

Bảng 3.3. Thời gian chạy trung bình của thuật toán FASTAN (tính theo đơn vị

giây) và thuật toán SPINAL khi chạy với cùng bộ dữ liệu. .................. 103

Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn

GNAS và giá trị |E12| với các giá trị α khác nhau. ............................... 105

Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC .............. 106

Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3 ............... 107

Bảng 3.7. So sánh các thuật toán theo tiêu chuẩn S3 .................................... 109

8

DANH MỤC CÁC HÌNH

Hình 1.1. Quá trình tổng hợp protein .............................................................. 17

Hình 1.2. Dóng hàng cục bộ và dóng hàng toàn cục ...................................... 27

Hình 1.3. Cách các con kiến thực chọn đường đi ngắn nhất để tha mồi về tổ 36

Hình 2.1. Một dóng hàng nhiều đồ thị của tập 4 đồ thị, đỉnh hình vuông là giả

còn các đỉnh tròn là đỉnh thực có nhãn là các ký tự tương ứng. ..................... 51

Hình 2.2. Ví dụ dóng hàng 2-đồ thị. ............................................................... 53

Hình 2.3. Đồ thị cấu trúc khi dóng hàng n đồ thị, trong đó mỗi đồ thị có 2 hoặc

3 nút thực ......................................................................................................... 56

Hình 2.4. Kiến xây dựng lời giải ..................................................................... 58

Hình 2.5. Một hoán vị cặp đỉnh có cùng nhãn trong thủ tục tìm kiếm địa phương

......................................................................................................................... 60

Hình 2.6. So sánh chất lượng lời giải các thuật toán với bộ dữ liệu gồm 16 đồ

thị và thời gian tăng từ 1000s đến 6000s. ....................................................... 78

Hình 3.1. Đồ thị cấu trúc của thuật toán ACOGNA ....................................... 93

Hình 3.2. So sánh thời gian chạy tính theo giây của 2 thuật toán ACOGNA++

và MAGNA++ .............................................................................................. 110

9

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Viết tắt, SốTT Tiếng Việt Tiếng Anh ký hiệu

1

Tối ưu hóa đàn kiến

Ant Colony Optimization ACO

2

Giải thuật di truyền

Genetic Algorithm GA

3

Bài toán người chào hàng

Travelling Salesman Problem TSP

4

Tối ưu tổ hợp

Combinatorial Optimization TƯTH

5

Bầy ong nhân tạo

Artificial Bee Colony ABC

6

Tối ưu bầy đàn

Particle Swarm Optimization PSO

7

Hệ đàn kiến

Ant Colony System ACS

8

Hệ kiến

Ant System AS

9

Hệ kiến max - min

Max – Min Ant System MMAS

10 Hệ kiến max – min trơn

Smooth Max – Min Ant System SMMAS

11 Tương tác protein

Protein – Protein Interaction PPI

12 Sự chính xác về cạnh

Edge Correctness EC

13 Bảo tồn cấu trúc cảm sinh

Induced Conserved Structure ICS

14 Điểm cấu trúc con đối xứng Symmetric substructure score

15 Điểm dóng hàng toàn cục Global Network Aligment Score GNAS

S3

16 Nấm men

Saccharomyces Cerevisiae SC

17 Ruồi giấm

Drosophila Melanogaster DM

10

18 Người tinh khôn

Homo Sapiens HS

19 Giun tròn

Caenorhabditis Elegans CE

20 Dóng hàng nhiều đồ thị Multigraph Alignment

MGA

11

MỞ ĐẦU

Những phát hiện về cơ chế di truyền trong cơ thể sống đã thúc đẩy sinh

học phân tử nói riêng và công nghệ sinh học nói chung phát triển mạnh mẽ

trong nửa thế kỷ qua, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn. Tuy

nhiên các nghiên cứu trong phòng thí nghiệm đòi hỏi nhiều thời gian và tốn

kém. Cùng với sự phát triển của công nghệ thông tin, tin-sinh học [Junker, B &

Schreiber, 2008; M.Lesk, 2002] ra đời và là công cụ trợ giúp hiệu quả cho các

nghiên cứu sinh-y-dược.

Ngày nay, người ta hiểu rõ rằng các protein trong mỗi cơ thể sống quyết

định các đặc điểm sinh học quan trọng như kiểu hình, hệ miễn dịch… và việc

tổng hợp chúng được quy định bởi DNA hay là các bộ gene tương ứng theo

quá trình biểu diễn gene. Các mã di truyền của mỗi cá thể được lưu trong DNA

của nó, phát triển tuân theo quá trình tiến hóa đã được Darwin phát hiện và

Watson và Crick củng cố dựa trên các nghiên cứu vật lý.

Thoạt tiên, các kỹ thuật học máy được áp dụng để phân tích các trình tự

DNA và protein để phát hiện tính tương đồng/dị biệt cấu trúc giữa chúng. Các

phương pháp TƯTH mềm đã giải quyết hiệu quả các bài NP-khó trong lĩnh vực

này như dóng hàng các trình tự, xây dựng cây phân loài, suy diễn haplotype,

phát hiện motif và vị trí của nó trong bộ gene… Các kết quả này hỗ trợ đắc lực

cho lĩnh vực y học và sinh học trong phân tích các bộ gen, nghiên cứu đặc điểm

tiến hóa giữa các loài, phát hiện và điều trị bệnh di truyền…

Tuy nhiên, việc nghiên cứu tính tương đồng/khác biệt cấu trúc tuần tự là

không đủ để phát hiện tính tương đồng/khác biệt về chức năng trong cơ thể

sống. Việc nghiên cứu các mạng sinh học [Junker, B & Schreiber, 2008] như

mạng tương tác protein-protein (PPI), mạng điều hòa gen, mạng các vị trí liên

kết protein, mạng trao đổi chất …mang lại tiếp cận nghiên cứu hiệu quả hơn về

12

phân tích chức năng trong sinh học phân tử. Đặc biệt, việc dóng hàng các mạng

các vị trí liên kết protein và các mạng tương tác protein-protein cho phép chúng

ta dự đoán đặc điểm chức năng ở các loài chưa nghiên cứu kỹ từ các tri thức

của các loài đã biết, nhờ đó hiểu rõ hơn quan hệ tiến hóa sinh học, hỗ trợ thông

tin để nghiên cứu thuốc điều trị các bệnh di truyền. Các bài toán này thuộc loại

NP-khó và đang thu hút nhiều người nghiên cứu/ứng dụng do tính quan trọng

của chúng.

Hiểu rõ tầm quan trọng của tin-sinh học đối với phát triển công nghệ sinh

học của nước nhà, trong hơn 10 năm qua, ở khoa Công nghệ thông tin, Đại học

Công nghệ, Đại học Quốc gia Hà Nội đã hình thành và phát triển một nhóm

nghiên cứu các bài toán cơ bản và thời sự trong tin-sinh học nhằm góp phần tạo

tiền đề phát triển công nghệ sinh học nước nhà.

Trong bối cảnh đó, chúng tôi chọn chủ đề nghiên cứu "Một số thuật toán

dóng hàng các mạng protein” với nội dung là nghiên cứu áp dụng các kỹ thuật

TƯTH mềm để đề xuất một số thuật toán thông minh giải hai bài toán dóng

hàng nhiều mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng

tương tác protein-protein với chất lượng lời giải và thời gian tính toán tốt hơn

so với các thuật toán mới nhất hiện nay.

Nhiệm vụ cụ thể đặt ra đối với tác giả luận án là:

 Tìm hiểu các dạng bài toán dóng hàng các mạng protein nêu trên và

đánh giá ưu nhược điểm của các thuật toán giải cho các bài toán này

đã được đề xuất trong thời gian gần đây. Bên cạnh đó là tìm hiểu các

kỹ thuật tính toán mềm để thấy rõ ưu và nhược điểm của từng phương

pháp. Trên cơ sở đó, đề xuất các thuật toán mới với chất lượng lời

giải tốt hơn các thuật toán hiện tại trong thời gian ngắn hơn cho các

bài toán này.

13

 Cài đặt và chạy thực nghiệm các thuật toán đề xuất trên các bộ dữ liệu

thực để đánh giá hiệu quả của các thuật toán mới đề xuất so với các

thuật toán trước đó.

Trong thời gian qua, cùng với cán bộ hướng dẫn và các cộng sự, tác giả

luận án đã có đóng góp sau.

 Đề xuất ba thuật toán dựa trên tối ưu đàn kiến cho bài toán dóng hàng

nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 và ACOTS-MGA.

 Đề xuất ba thuật toán cho bài toán dóng hàng toàn cục mạng tương

tác protein-protein, bao gồm thuật toán heuristic FASTAN và hai

thuật toán tối ưu đàn kiến: ACOGNA và ACOGNA++.

Kết quả thực nghiệm cho thấy hiệu quả của các thuật toán đề xuất tốt hơn

so với các thuật toán được đề xuất trước đó.

Các kết quả của luận án đã được công bố trong 5 báo cáo hội nghị/hội

thảo quốc gia/quốc tế bao gồm 4 báo cáo hội nghị quốc tế (Công trình 1, 2, 3,

5) và một hội thảo toàn quốc “Nghiên cứu cơ bản và ứng dụng công nghệ thông

tin” (Công trình 4), và một bài báo đăng ở tạp chí VNU Journal of Science:

Computer Science and Communication Engineering (công trình 6).

Ngoài phần mở đầu và kết luận, luận án được tổ chức như sau:

Chương 1 giới thiệu tổng quan về tin sinh học, hai bài toán dóng hàng

đồng thời nhiều mạng các vị trí liên kết protein và dóng hàng mạng tương tác

protein-protein cùng một số vấn đề liên quan. Giới thiệu các phương pháp

metaheuristic bao gồm giải thuật di truyền, phương pháp tối ưu đàn kiến, tính

toán tiến hóa, các thuật toán memetic và tìm kiếm Tabu.

14

Chương 2 trình bày ba thuật toán dựa trên phương pháp tối ưu đàn kiến

để giải bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết của protein.

Thuật toán thứ nhất là thuật toán ACO-MGA dựa trên phương pháp tối ưu đàn

kiến để giải bài toán dóng hàng nhiều đồ thị. Thuật toán thứ hai là thuật toán

ACO-MGA2 dựa trên lược đồ memetic, trong đó sử dụng phương pháp tối ưu

đàn kiến để tạo ra tập các lời giải và sử dụng các chiến lược tìm kiếm cục bộ

khác nhau để cải thiện chất lượng lời giải tốt nhất do các kiến tìm được. Thuật

toán thứ ba ACOTS-MGA là một thuật toán memetic dựa trên kết hợp ACO và

tìm kiếm cấm. Các kết quả thực nghiệm trên các bộ dữ liệu mô phỏng và dữ

liệu thực cho thấy các thuật toán đề xuất tốt hơn so với các thuật toán mới nhất

để giải bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết protein.

Chương 3 trình bày ba thuật toán đề xuất để giải bài toán dóng hàng toàn

cục hai mạng tương tác protein-protein. Thuật toán thứ nhất là thuật toán

FASTAN theo hướng tiếp cận heuristic. Tiếp theo là 2 thuật toán ACOGNA và

ACOGNA++ dựa trên phương pháp tối ưu đàn kiến. Hiệu quả của các thuật

toán được kiểm nghiệm trên các bộ dữ liệu chuẩn (IsoBase) được sử dụng bởi

các thuật toán mới nhất hiện nay. Các thực nghiệm đã cho thấy hiệu quả nổi

trội của các thuật toán đề xuất.

15

Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM

Trong chương này, đầu tiên luận án giới thiệu ngắn gọn bức tranh chung

của tin sinh học và giới thiệu 2 bài toán tối ưu tổ hợp quan trọng trong lĩnh vực

Tin sinh học là: Bài toán dóng hàng mạng nhiều mạng vị trí liên kết protein và

bài toán dóng hàng tương tác protein-protein. Tiếp theo đó, luận án giới thiệu

về các phương pháp tối ưu mềm là cơ sở để đề xuất các thuật toán mới để giải

quyết 2 bài toán dóng hàng các mạng protein.

1.1. Tin sinh học và dóng hàng các mạng protein

1.1.1. Giới thiệu về tin sinh học

Trong thế kỷ 19, nhà tự nhiên học đồng thời là nhà địa lý và sinh vật học

người Anh C. R. Darwin (1809 –1882) đã nhận thấy rằng theo thời gian, mỗi

loài sinh vật luôn biến đổi tiến hóa để phù hợp với môi trường sinh tồn của

chúng và đưa ra học thuyết tiến hóa nổi tiếng của ông. Nhờ các thành tựu của

khoa học và kỹ thuật vật lý, năm 1953, Crick và Watson đã khám phá cấu trúc

DNA mở đầu cho kỷ nguyên chinh phục cơ chế di truyền trong sinh vật phù

hợp với học thuyết Darwin.

Hơn 60 năm qua, sinh học phân tử nói riêng và công nghệ sinh học nói

chung phát triển mạnh mẽ, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn,

tạo ra cuộc cách mạng đối với sự hiểu biết của chúng ta về chức năng của tế

bào, mở ra con đường để phát hiện ra cơ chế sinh học phức tạp và sự liên quan

của chúng đến bệnh tật và sự phát triển của cơ thể sống. Trong đó, hiểu biết về

quá trình tổng hợp protein đặt nền tảng cho sinh học phân tử.

1.1.1.1. Quá trình tổng hợp protein

DNA mang thông tin di truyền và điều khiển tổng hợp protein của sinh

vật, còn protein quyết định đặc tính, chức năng và quá trình phát triển của cơ

16

thể sống [Lê Sỹ Vinh, 2014]. DNA là chuỗi xoắn kép được cấu tạo từ 4 loại

nucleotide: Adenine, Cytosine, Guanine và Thymine, chúng được ký hiệu

tương ứng là A, C, G và T. Một đoạn của chuỗi DNA mang thông tin cần thiết

để tạo nên protein gọi là một đoạn gen hay gọn hơn là một gen. Mỗi sinh vật

có nhiều gen, chẳng hạn con người có khoảng 25 nghìn gen khác nhau.

Quá trình tổng hợp protein từ thông tin ở DNA gồm 2 giai đoạn: phiên

mã và dịch mã [Lê Sỹ Vinh, 2014] như được minh họa trong hình 1.1.

Trong giai đoạn phiên mã, đoạn gen mang thông tin hướng dẫn tổng hợp

protein được chuyển sang đoạn RNA có nội dung tương tự đoạn gen nhờ thay

Thymine bởi Uracil, được ký hiệu là U.

Trong giai đoạn dịch mã, đoạn RNA được dịch mã để tạo nên chuỗi các

amino acid và chuỗi này được cuộn gấp (folded) tạo thành protein. Các protein

được cấu tạo từ 20 loại amino acid.

Hình 1.1. Quá trình tổng hợp protein

Trong quá trình tiến hóa, các gen/RNA/protein được di truyền và có thể

biến đổi nhờ các biến dị của các nucleotide/amino acid thành phần dưới dạng

xóa/chèn/ thay thế một nucleotide bằng một nucleotide khác. Tùy theo việc đặc

điểm sinh học của sinh vật do protein quy định có phù hợp với môi trường hay

không mà biến dị được củng cố tồn tại/ phát triển hoặc tiếp tục biến đổi bởi

17

biến dị khác nếu không triệt tiêu cùng các cá thể mang nó. Sự biến đổi theo thời

gian của các bộ gen tạo nên quá trình tiến hóa của các loài sinh vật. Nhận thức

này đặt cơ sở cho các nghiên cứu và ứng dụng trong sinh học phân tử và

tin-sinh học.

1.1.1.2. Sinh học phân tử và phân tích các trình tự trong tin sinh học

Thoạt tiên, các nghiên cứu sinh học phân tử được thực hiện và kiểm

chứng bằng thực nghiệm trong các phòng thí nghiệm. Tuy nhiên việc nghiên

cứu trong phòng thí nghiệm đòi hỏi nhiều thời gian và chi phí cao nên kìm hãm

tiến trình nghiên cứu. Các tri thức về quá trình tổng hợp protein và cấu trúc của

quá trình tổng hợp protein cùng sự phát triển, ứng dụng rộng rãi của công nghệ

thông tin cho phép thực hiện các phân tích Tin-Sinh để trợ giúp các dự đoán và

nghiên cứu trong sinh học phân tử.

Các bài toán và kỹ thuật dóng hàng trình tự [Lê Sỹ Vinh, 2014]

Dựa trên sự phân tích tương đồng/dị biệt cấu trúc của các trình tự DNA và

protein, người ta có được các nhận biết về quan hệ giữa các loài sinh vật và các

cá thể, dự đoán các đặc tính sinh học từ các loài mới dựa trên đặc tính của các

loài đã nghiên cứu kỹ gần với nó.

Như đã nói ở trên, trong quá trình tiến hóa của các loài, các gen/RNA/protein

được di truyền và có thể biến đổi nhờ các biến dị của các nucleotide/amino acid

thành phần dưới dạng xóa/chèn/ thay thế một nucleotide bằng một nucleotide

khác. Sau khi giải trình tự gen/RNA/protein người ta sử dụng các kỹ thuật học

máy để phân tích chúng, bắt đầu từ các bài toán đơn giản như dóng hàng 2 hoặc

nhiều trình tự, xác định trình tự con đến các bài toán phức tạp hơn như: xây

dựng cây phân loài, tìm kiếm motif và vị trí của chúng (xác định miền điều hòa

gen), suy diễn haplotype, dự đoán biến đổi amino acid, v.v.

18

Các bài toán phức tạp này được mô hình hóa dựa trên các nhận xét của các

nhà sinh học. Nhiều bài toán trong chúng là những bài toán tối ưu tổ hợp xử lý

dữ liệu tuần tự và thuộc loại NP-khó. Để dễ hình dung cách đặt bài toán và sử

dụng, ta trở lại với bài toán tìm kếm motif và làm quen với bài toán xây dựng

cây phân loài.

Bài toán tìm kiếm DNA motif và mô hình hóa tổng quát

DNA motif là một đoạn ngắn trong DNA, chúng thường có chức năng đặc

biệt đối với các gen trong bộ gen, chẳng hạn, điều hòa gen [Hoang X. Huan,

Tuyet, Ha, & Hung, 2015]. Đoạn này thường lặp đi lặp lại trong bộ gen. Các

thuật toán tin sinh sẽ tìm ra các đoạn nghi ngờ là motif và vị trí của chúng trên

các bộ gen để các nhà sinh vật kiểm tra lại bằng thực nghiệm thay vì tìm kiếm

mù để làm thực nghiệm.

Bài toán được mô hình hóa tổng quát như sau [Hoang X. Huan et al., 2015]:

Xét tập S = {S1,S2, ..., SN } các trình tự độ dài m trên bộ chữ cái Σ . Với giá trị l

< m cho trước , cần tìm trình tự x = {𝑥1,𝑥2, ..., 𝑥𝑖, ...𝑥𝑙 } trên bộ chữ cái Σ với

độ dài l và tập xâu con M = {𝑚1, 𝑚2,..., 𝑚𝑁} có cùng độ dài l được lấy ra từ

các chuỗi Si tương ứng sao cho nó tốt nhất theo một tiêu chuẩn định trước nào

đó.

Tiêu chuẩn đồng thuận xác định bởi tổng khoảng cách Hamming tới các xâu

trong tập là nhỏ nhất. Tuy nhiên người ta cũng có thể định nghĩa motif là xác

định hàm mục tiêu khác theo mục đích của nhà sinh học, chẳng hạn số trình tự

trong tập S có khoảng cách Hamming tới x là nhỏ nhất.

Với tiêu chuẩn được chọn, các thuật toán đề xuất sẽ cho ta các motif và vị

trí của chúng trên các trình tự để nhà sinh học xem xét quyết định làm thực

nghiệm kiểm định hay không (trợ giúp quyết định).

19

Bài toán xây dựng cây phân loài [Lê Sỹ Vinh, 2014]

Trong bài toán này, dựa trên phân tích tính tương đồng thể hiện qua dữ liệu

sinh học phân tử (DNA/protein) của các loài, người ta dự đoán quan hệ giữa

các loài và xây dựng cây phân loài. Hai loài có hệ gen và protein càng gần nhau

thì quan hệ tiến hóa càng gần nhau. Dựa trên phân tích quan hệ như vậy, người

ta xây dựng cây nhị phân không gốc với cấu trúc như sau:

 Mỗi nút là ứng với một loài sinh vật hiện thời

 Mỗi nút trong ứng với một loài sinh vật tổ tiên mà thông thường ta

không có thông tin về loài này.

 Mỗi cạnh của cây nối nút của cây ứng với hai loài sinh vật có quan

hệ tiến hóa trực tiếp.

 Khoảng cách nối hai nút ứng với hai loài trên cây cho biết khoảng

cách tiến hóa giữa chúng

Các quan hệ trên cây xây dựng được cho ta kết qủa dự đoán dựa trên kỹ

thuật phân tích hiện có, khi có thêm kỹ thuật mới để xét tính tương đồng, chẳng

hạn, tính tương tự mạng protein (sẽ đề cập ở dưới) ta sẽ điều chỉnh cho chính

xác hơn. Mặc dù các cây được xây dựng như thế không hoàn toàn chính xác

với tiến hóa thực nhưng nó rất hữu ích cho các nhà sinh học khi nghiên cứu các

loài sinh vật. Nhờ nó mà các nhà sinh học có thể dự đoán một số đặc điểm sinh

học có tính di truyền từ các đặc điểm của những loài gần gũi với nó.

Việc nghiên cứu tính tương đồng các trình tự DNA/Protein không đủ thông

tin cho nghiên cứu chức năng và đặc tính y học nên người ta quan tâm đến các

bài toán phân tích dữ liệu 3 chiều. Chẳng hạn, người ta nhận thấy trong quá

trình tổng hợp protein, nếu các amino acid được cuộn gấp sai sẽ gây nên các

bệnh di truyền. Nếu ta dự báo và phát hiện được lỗi cuộn gấp thì có thể phát

hiện bệnh và tìm được phương thức điều trị. Để phát triển nghiên cứu, người ta

đã xây dựng các CSDL không gian và các mạng sinh học.

20

1.1.1.3. Các mạng sinh học

Dóng hàng các chuỗi thuộc hệ gen đã tăng cường kiến thức y sinh học nhờ

phát hiện các vùng trình tự có sự tương đồng giữa các gen ở các loài khác nhau,

các vùng đó có khả năng phản ánh các mối quan hệ chức năng và tiến hóa giữa

các trình tự [Alföldi & Lindblad-Toh, 2013; Altschul, Gish, Miller, & Lipman,

1990; Biesecker et al., 2009; Tsai, Iafrate, & Joung, 2014]. Tuy nhiên, các gen

hoặc các sản phẩm protein của chúng không hoạt động một cách độc lập mà

chúng thực hiện các quá trình tế bào bằng cách tương tác với nhau.

Các tương tác này được mô hình hóa bởi mạng sinh học, chẳng hạn như:

mạng điều hòa gen, mạng trao đổi chất, mạng tương tác protein-protein

(protein-protein interactive: PPI), mạng các vị trí liên kết protein. Không giống

như các nghiên cứu về các chuỗi gen, nghiên cứu mạng sinh học cho phép hiểu

được các quá trình tế bào phức tạp phát sinh từ các hoạt động chung của các

phân tử sinh học.

Những tiến bộ trong công nghệ sinh học hiện thời cung cấp nhiều dữ liệu

cho phép ta nghiên cứu sâu hơn về các mạng sinh học và cho ta nhiều tri thức

quý giá. Chẳng hạn, việc dóng hàng mạng sinh học nhằm tìm ánh xạ tương ứng

đủ tốt giữa các nút mạng của các loài khác nhau cho phép xác định các vùng

mạng có sự tương đồng về kiểu cấu trúc tô pô và cấu trúc trình tự, nhờ đó có

thể chuyển một cách hiệu quả các kiến thức về chức năng của tế bào từ các loài

đã được nghiên cứu tốt sang những loài chưa được nghiên cứu nhiều hoặc khó

làm thực nghiệm. Bởi vì việc nghiên cứu thực nghiệm trên con người gặp nhiều

khó khăn bởi các rào cản đạo đức và pháp luật, nhờ dóng hàng mạng mà người

ta có thể chuyển các tri thức đã biết từ nấm men (Saccharomyces cerevisiae),

ruồi giấm (Drosophila melanogaster), hoặc sâu (Caenorhabditis elegans) sang

tri thức của con người dựa trên phát hiện các vùng mạng được bảo tồn [Clark

& Kalita, 2014; Malod-Dognin & Pržulj, 2014; R. Sharan & Ideker, 2006].

21

Luận án này tập trung nghiên cứu hai bài toán thời sự: dóng hàng nhiều

mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng tương tác

protein-protein (về sau sẽ gọi gọn là mạng tương tác protein).

1.1.2. Bài toán dóng hàng nhiều mạng các vị trí liên kết protein.

Suy diễn chức năng của các protein chưa biết thông qua các protein đã

biết giữ vai trò quan trọng trong lĩnh vực khoa học sự sống nói chung và lĩnh

vực hóa dược nói riêng [Borrel, 2016; W. Yang & Lai, 2017; Yuan, Xu, Yuan,

& Xu, 2018]. Trong đó, so sánh các protein giữ vai trò trung tâm.

Dự đoán chức năng của các protein có thể thực hiện được ở cả mức chuỗi

và mức độ cấu trúc. Nhận thấy rằng các protein với sự giống nhau của chuỗi

amino axit trên 40% thường có các chức năng tương tự [Todd, Orengo, &

Thornton, 2001] nên so sánh theo trình tự thường là phương pháp đầu tiên được

sử dụng. Nhiều phương pháp tiếp cận khác nhau được giới thiệu và sử dụng

rộng rãi [Altschul et al., 1997; Edgar, 2004; Notredame, Higgins, & Heringa,

2000; Sjolander, 2004; Thompson, Higgins, & Gibson, 1994]. Tuy nhiên,

phương pháp này không phù hợp để xác định sự tương đồng chức năng giữa

các phân tử bởi vì sự tương đồng chức năng có liên quan mật thiết với các đặc

tính cấu trúc hơn là các đặc tính tuần tự [Aladag & Erten, 2013; CONTE,

FOGGIA, SANSONE, & VENTO, 2004; Notredame et al., 2000; Yan, Yu, &

Han, 2005].

Để phân tích cấu trúc của các protein, một số tác giả [Aladag & Erten,

2013; CONTE et al., 2004; Kinoshita & Nakamura, 2005; Oleksii Kuchaiev &

Pržulj, 2011; Mernberger, Klebe, & Hullermeier, 2011; Xifeng Yan, Feida Zhu,

Jiawei Han, & Yu, 2006; Yan et al., 2005; S. Zhang, Hu, & Yang, 2007] đề

xuất sử dụng mô hình đồ thị để biểu diễn cấu trúc 3 chiều của protein.

22

1.1.2.1. Mô hình hóa mạng các vị trí liên kết protein thành đồ thị

Để nghiên cứu cấu trúc của các protein, bước đầu tiên là cần biểu diễn

cấu trúc của các protein theo mô hình đồ thị. Các nghiên cứu [Fober,

Mernberger, Klebe, & Hüllermeier, 2009; Weskamp, Hüllermeier, Kuhn, &

Klebe, 2007] được thực hiện trên cơ sở dữ liệu Cavbase [Schmitt, Kuhn, &

Klebe, 2002] – một hệ thống cơ sở dữ liệu sử dụng thuật toán LIGSITE

[Hendlich, Rippmann, & Barnickel, 1997] để tự động phát hiện, trích xuất và

lưu trữ các khoang protein (các túi liên kết – binding pockets) từ các cấu trúc

protein được xác định qua thực nghiệm (có sẵn từ ngân hàng dữ liệu protein

[Berman et al., 2002]). Trong cơ sở dữ liệu này, các túi liên kết được biểu diễn

xấp xỉ bằng các đồ thị [Hendlich, Bergner, Günther, & Klebe, 2003; Schmitt et

al., 2002].

Để mô hình hóa một túi liên kết thành 1 đồ thị, sự sắp xếp trong không

gian và các thuộc tính lý hóa của một túi liên kết được gọi là tâm giả

(pseudocenter)- các điểm trong không gian biểu thị cho tâm của một đặc trưng

riêng [Weskamp et al., 2007]. Kiểu và vị trí không gian của các tâm phụ thuộc

vào các amino axit được bao quanh bởi các túi liên kết và biểu hiện các nhóm

chức năng của chúng. Chúng thu được từ cấu trúc của protein sử dụng một tập

các luật định trước [Schmitt et al., 2002]. Các loại tâm giả bao gồm:

pseudocenters, hydrogenbond donor, acceptor, mixed donor/acceptor,

hydrophobic aliphatic, metal ion, pi.

Một túi liên kết được mô hình hóa bởi đồ thị G(V,E), trong đó V là tập

các đỉnh, E là tập các cạnh. Nhãn của các đỉnh thuộc một tập L = {A, B, C, D,

E, F, G}, trong đó A đại diện cho donor, B đại diện cho acceptor, v.v. Hai đỉnh

được xem như có kết nối với nhau và được biểu diễn bởi 1 cạnh trong đồ thị G

23

nếu khoảng cách Ơclit giữa chúng nhỏ hơn 12Å (1Å =10-10 mét). Trọng số w(e)

của nó có thể coi là nhãn của cạnh.

Để mô hình hóa sự biến đổi cấu trúc của các protein trong tự nhiên, trong

mỗi đồ thị, người ta định nghĩa 3 phép toán chỉnh sửa:

i) Chèn hoặc xóa một nút: Một nút và các cạnh tương ứng với nó có

thể được xóa hoặc thêm vào.

ii) Thay đổi nhãn của một đỉnh: Nhãn 𝑙(𝑣) của một nút 𝑣 ∈ 𝑉 có thể được

thay thế bởi một nhãn khác trong tập L.

iii) Thay đổi trọng số của một cạnh: Trọng số 𝑤(𝑒) của một cạnh 𝑒 có thể

được thay đổi tùy theo các hình thể.

Khoảng cách chỉnh sửa của 2 đồ thị G1 và G2 được định nghĩa là dãy các

phép biến đổi nhỏ nhất để biến đổi đồ thị G1 thành đồ thị G2. Cũng như dóng

hàng chuỗi, ta có thể định nghĩa khái niệm dóng hàng của 2 hoặc nhiều đồ thị.

Tương ứng với khái niệm khoảng trống của dóng hàng chuỗi, khái niệm nút giả

được định nghĩa để thay thế cho vị trí của các nút đã bị xóa.

1.1.2.2. Bài toán dóng hàng nhiều đồ thị

Thông qua việc mô hình hóa cấu trúc của các protein thành đồ thị, các

kỹ thuật dóng hàng đồ thị được sử dụng để xác định sự tương đồng chức năng

dựa trên phân tích cấu trúc. Các phương pháp đầu tiên chủ yếu dựa trên các kỹ

thuật so khớp chính xác các cặp đồ thị. Các nghiên cứu này đã thu được một số

kết quả có ý nghĩa khi nghiên cứu tiến hóa chức năng của các phân tử không

thuần nhất . Tuy nhiên khó có thể áp dụng các kỹ thuật này để khám phá các

mẫu sinh học có ý nghĩa được lưu lại một cách gần đúng.

Để khắc phục hạn chế của các phương pháp so khớp đồ thị, bài toán dóng

hàng nhiều đồ thị được Weskamp và các cộng sự [Weskamp et al., 2007] đề

24

xuất đầu tiên năm 2007 và sử dụng để phân tích cấu trúc các vị trí hoạt tính của

protein. Các tác giả cũng đề xuất 1 thuật toán heuristic có tên là Greedy để giải

bài toán này. Trong cách tiếp cận này, mỗi túi liên kết protein được mô hình

bởi một đồ thị liên thông G(V,E) và bài toán MGA được phát biểu như sau

[Weskamp et al., 2007]:

Cho một tập hợp G ={G1(V1,E1),…,Gn(Vn,En)} các đồ thị liên thông, mỗi

đỉnh có nhãn thuộc tập cho trước và các cạnh có trọng số; trong mỗi đồ thị có

các phép toán: xóa một đỉnh, thay nhãn một đỉnh, đổi trọng số của một cạnh;

nhiệm vụ của bài toán MGA là tìm dóng hàng cho các đỉnh của các đồ thị trong

tập G để tối ưu một hàm mục tiêu định trước.

MGA là bài toán NP-khó [Fober et al., 2009; Weskamp et al., 2007], các

thuật toán heuristic như Greedy chỉ thích hợp cho các bài toán cỡ nhỏ, đối với

các bài toán có kích thước dữ liệu lớn, lời giải mà các thuật toán heuristic thu

được thường không sát với lời giải tối ưu, nên thuật toán Greedy không phù

hợp với các ứng dụng thực tế.

Fober và các cộng sự đã mở rộng sử dụng bài toán MGA cho phân tích

cấu trúc phân tử sinh học và đề xuất một thuật toán di truyền với tên gọi

GAVEO [Fober et al., 2009]. Thực nghiệm cho thấy thuật toán này hiệu quả

hơn thuật toán Greedy mà Weskamp đề xuất [Weskamp et al., 2007]. Tuy nhiên

thuật toán GAVEO dựa trên giải thuật di duyền nên có nhược điểm là không

tận dụng được các thông tin heuristic của các thuật toán đã đề xuất trước đó;

bên cạnh đó thuật toán còn sử dụng lại nhiều lời giải của các bước lặp trước, vì

vậy thường lâu hội tụ hơn.

Đối với các bài toán NP-khó, đã có nhiều cách tiếp cận mô phỏng tự

nhiên để tìm lời giải gần đúng. Đặc biệt, thực nghiệm cho thấy phương pháp

tối ưu đàn kiến tốt hơn các thuật toán tiến hóa trong nhiều bài toán điển hình.

25

Trong chương 2, chúng tôi sẽ giới thiệu các thuật toán dựa trên thuật toán

tối ưu đàn kiến có kết hợp tìm kiếm địa phương để giải bài toán dóng hàng

nhiều mạng các vị trí hoạt tính của protein. Phát biểu toán học của bài toán,

hàm đánh giá chất lượng dóng hàng và các dữ liệu thực nghiệm được sử dụng

cho bài toán này được sẽ được trình bày chi tiết ở chương 2.

1.1.3. Bài toán dóng hàng mạng tương tác protein - protein

Các protein trong mỗi cơ thể sống không tồn tại một cách độc lập mà

chúng tương tác với nhau. Dựa trên nghiên cứu thực nghiệm, người ta xây dựng

được các CSDL về các mạng tương tác protein - protein.

Một mạng tương tác Protein được biểu thị bởi một đồ thị G(V,E) trong

đó V là tập đỉnh mà mỗi nút ứng với một protein, E là tập cạnh, mỗi cạnh nối 2

nút biểu hiện tương tác của hai protein tương ứng. Ngoài tính topology thể hiện

trên mạng, nhiều khi người ta còn quan tâm tới cả đặc tính cấu trúc của mỗi

protein mà chúng không được biểu diễn trên đồ thị.

Dựa trên số lượng mạng tương tác được dóng hàng cùng một lúc bài toán

dóng hàng mạng tương tác protein - protein có thể phân loại thành bài toán

dóng hàng hai mạng và bài toán dóng hàng đa mạng. Trong đó, dóng hàng hai

mạng chỉ ghép cặp 2 đồ thị cùng lúc còn bài toán dóng hàng đa mạng cho phép

dóng hàng đồng thời nhiều hơn hai mạng. Trong 2 bài toán này, bài toán dóng

hàng đồng thời nhiều mạng tương tác protein – protein có độ phức tạp lớn nên

ít được nghiên cứu hơn [Alkan & Erten, 2014; Gligorijević, Malod-Dognin, &

Prulj, 2015; Liao, Lu, Baym, Singh, & Berger, 2009; Vipin Vijayan &

Milenkovic, 2018]. Trong khi đó, dóng hàng hai mạng PPI cho phép chúng ta

phát hiện các tương đồng chức năng giữa hai loài/cá thể nhờ phát hiện các vùng

tương tự giữa chúng. Vì vậy bài toán này được nghiên cứu rất nhiều trong thời

26

gian gần đây (xem thêm [Guzzi & Milenković, 2018]). Luận án sẽ tập trung

nghiên cứu bài toán này.

Ngoài cách phân loại trên, bài toán dóng hàng mạng còn được chia thành

2 loại dựa trên hai hướng tiếp cận: dóng hàng cục bộ và dóng hàng toàn cục

[Guzzi & Milenković, 2018].

1.1.3.1. Dóng hàng cục bộ

Các nghiên cứu đầu tiên về dóng hàng mạng PPI là dóng hàng cục bộ

[Berg & Lassig, 2004, 2006; Ciriello, Mina, Guzzi, Cannataro, & Guerra, 2012;

Flannick, Novak, Balaji, Harley, & Batzglou, 2006; Kelley et al., 2004;

Koyutürk et al., 2006; Liang, Xu, Teng, & Niu, 2006; Mina & Guzzi, 2012;

Pache & P Aloy, 2012; Roded Sharan et al., 2005]. Dóng hàng cục bộ có mục

tiêu là xác định các mạng/đồ thị con gần nhau về topology và về trình tự nhờ

một ánh xạ từ mạng nguồn vào mạng đích như minh họa trong hình 1.2 (a).

Hình 1.2. Dóng hàng cục bộ và dóng hàng toàn cục

Các thuật toán dóng hàng cục bộ thường cho kết quả nhiều-nhiều, trong

đó một nút từ một mạng có thể được ánh xạ tới một vài nút từ các mạng khác

(Hình 1.2a).

Có nhiều cách tiếp cận khác nhau đã được sử dụng để đánh giá chất lượng

của một dóng hàng cục bộ. Các độ đo để đánh giá chất lượng dóng hàng cục bộ

27

phổ biến là tương đồng bản thể gen [Ashburner et al., 2000], đặc trưng và độ

nhạy [Ashburner et al., 2000; Flannick et al., 2006].

Dóng hàng cục bộ có nhược điểm là khó tìm ra các đồ thị con với kích

thước lớn có cấu trúc và chức năng tương tự, kết quả của dóng hàng cục bộ là

nhiều nhiều nên thường chứa nhiều các mạng con chồng lấn nhau nên thường

dẫn tới sự nhập nhằng dẫn đến khó ứng dụng. Vì vậy, hầu hết các nghiên cứu

hiện nay tập trung vào dóng hàng mạng toàn cục.

1.1.3.2. Dóng hàng toàn cục

Xét hai mạng PPI được mô hình hóa bởi 2 đồ thị G1(V1,E1) và G2(V2,E2)

một dóng hàng toàn cục mạng PPI là một đơn ánh từ mạng có số đỉnh nhỏ hơn

vào mạng có số đỉnh lớn (xem hình 1.2b), nhờ đó mà xác định các vùng mạng

được bảo tồn. Việc xác định đơn ánh như vậy tránh được các nhập nhằng

thường gặp ở phương pháp dóng hàng cục bộ.

Để xác định dóng hàng đủ tốt, người ta dựa vào một tiêu chuẩn cụ thể và

đưa về giải bài toán tối ưu tổ hợp. Các tiêu chuẩn dóng hàng toàn cục chủ yếu

dựa trên tính tương tự tôpô kết hợp với thông tin trình tự. Có nhiều tiêu chuẩn

dóng hàng đã được đề xuất, trong đó có 4 tiêu chuẩn thông dụng và hợp lý nhất

sẽ được trình bày trong chương 4. Bài toán tối ưu dóng hàng toàn cục mạng

PPI được chứng minh thuộc loại NP-khó nên đang là bài toán quan trọng trong

sinh học phân tử và đã có nhiều thuật toán heuristic và metaheurristics đề xuất

để giải chúng.

Hầu hết các thuật toán dóng hàng toàn cục nổi bật trước đây thực hiện theo

hai bước và chia thành hai nhóm.

Nhóm thứ nhất sử dụng hai bước như sau:

28

Bước 1, dùng một hàm chi phí tính toán độ tương tự giữa các cặp nút trong

các mạng khác nhau;

Bước 2, sử dụng một chiến lược dóng hàng để xác định nhanh một dóng

hàng bắt đầu từ cặp nút có điểm tương tự cao nhất [Aladag & Erten, 2013;

Gligorijević et al., 2015; Hu, Kehr, & Reinert, 2014; O. Kuchaiev, Milenković,

Memišević, Hayes, & Pržulj, 2010; Oleksii Kuchaiev & Pržulj, 2011; Liao et

al., 2009; Mamano & Hayes, 2017; Memišević & Pržulj, 2012; Milenković,

Ng, Hayes, & Pržulj, 2010; Patro & Kingsford, 2012; Sahraeian & Yoon, 2013;

Singh, Xu, & Berger, 2007, 2008].

Nhóm thứ hai cũng thực hiện hai bước, nhưng trong bước 2, sau khi xác

định ma trận đo độ tương đồng giữa các nút được tính toán trước từ trên bước

1 để tạo ra một dóng hàng như nhóm thứ nhất thì thực hiện lặp việc sử dụng

thông tin từ dóng hàng đã có để tính lại ma trận đo độ tương đồng để dóng hàng

tiếp [El-Kebir, Heringa, & Klau, 2011; Ibragimov, Malek, Baumbach, & Guo,

2014; Meng, Crawford, Striegel, & Milenkovic, 2016; Zaslavskiy, Bach, &

Vert, 2009].

Phần dưới đây giới thiệu một số thuật toán dóng hàng toàn cục tiêu biểu

được sử dụng để so sánh với các thuật toán luận án đề xuất.

Thuật toán dóng hàng toàn cục đáng chú ý đầu tiên là IsoRank [Singh et

al., 2008] được Sing và các cộng sự đề xuất năm 2008, phát triển dựa trên dóng

hàng cục bộ. IsoRank có ý tưởng xuất phát từ thuật toán PageRank của Google

[Brin & Page, 1998] để định nghĩa hàm đánh giá sự tương đồng. Ý tưởng chính

của IsoRank là hai nút được dóng hàng với nhau, nếu các nút kề với chúng

tương ứng được dóng hàng.

Họ các thuật toán GRAAL [O. Kuchaiev et al., 2010; Oleksii Kuchaiev &

Pržulj, 2011; Milenković et al., 2010] bao gồm GRAAL, H-GRAAL, MI-

29

GRALL và sau đó là C-GRAAL [Memišević & Pržulj, 2012] được phát triển

song song với họ các thuật toán IsoRank dựa trên kết hợp kỹ thuật tham lam

với thông tin heuristic như: graphlet, hệ số phân nhóm, độ lập dị và độ tương

tự (giá trị E-values từ chương trình BLAST). Các thuật toán này đều đưa ra kết

quả nhanh và tốt hơn so với các thuật toán trước đó.

Gần đây hơn là thuật toán GHOST, chiến lược dóng hàng của GHOST

cũng tương tự như của MI-GRAAL, ngoại trừ việc thuật toán MI-GRAAL giải

bài toán quy hoạch tuyến tính để tính toán độ tương tự giữa các nút trên các

mạng khác nhau, trong khi GHOST giải bài toán quy hoạch bậc 2 theo phương

pháp heuristic để tính toán độ tương tự giữa các nút trong cùng một mạng.

Những thuật toán đã nêu chỉ tối ưu cho độ chính xác (hàm mục tiêu) hoặc

tính khả mở. Vì các mạng PPI thường có số đỉnh lớn nên cả tính chính xác và

tính khả mở (thời gian chạy) cần được quan tâm. Sử dụng tiêu chuẩn GNAS,

Aladag và các cộng sự [Aladag & Erten, 2013] đề xuất thuật toán SPINAL cho

lời giải tốt hơn các thuật toán trước đó cả về thời gian và chất lượng lời giải.

Saraph và các cộng sự [Saraph & Milenković, 2014] đề xuất thuật toán

MAGNA (2014) dựa trên giải thuật di truyền với quần thể ban đầu khởi tạo

ngẫu nhiên hoặc kết hợp với lời giải được tìm bởi các thuật toán như: IsoRank,

MI-GRAAL và GHOST. MAGNA và phiên bản cải tiến MAGNA ++ [V

Vijayan, Saraph, & Milenković, 2015] sử dụng độ đo chất lượng dóng hàng S3,

thực nghiệm cho thấy chúng cải thiện đáng kể chất lượng lời giải của các thuật

toán được dùng để khởi tạo.

Somaye Hashemifar và các cộng sự (2016) [Hashemifar, Ma, Naveed,

Canzar, & Xu, 2016] giới thiệu một thuật toán tối ưu toàn cục mới tên là

ModuleAlign, thuật toán này sử dụng thông tin tối ưu cấu trúc cục bộ để định

nghĩa một hàm đánh giá tính tương đồng dựa trên module. Dựa trên một thuật

30

toán phân cụm chức năng của các protein có gắn kết về mặt chức năng vào

trong cùng module, ModuleAlign sử dụng một cơ chế lặp mới để tìm dóng hàng

giữa hai mạng. Các thực nghiệm đã cho thấy ModuleAlign cho kết quả chất

lượng dóng hàng tốt hơn một số thuật toán đề xuất trước đó trong một số trường

hợp.

Trong chương 3, luận án đề xuất các thuật toán mới để giải bài toán dóng

hàng toàn cục hai mạng tương tác protein - protein. Phát biểu toán học của bài

toán dóng hàng toàn cục hai mạng tương tác protein - protein, các hàm đánh

giá chất lượng dóng hàng và dữ liệu thực nghiệm cho bài toán được trình bày

ở mục 3.1 và 3.5.1 của chương 3.

1.2. Tối ưu mềm

1.2.1. Bài toán tối ưu tổ hợp và tiếp cận mềm

1.2.1.1. Phát biểu bài toán tối ưu tổ hợp tổng quát

Trong các bài toán thực tiễn, ta thường gặp các bài toán TƯTH, trong đó

cần tìm cực trị của một hàm với biến nhận giá trị trong một tập hữu hạn.

Một cách tổng quát, mỗi bài toán TƯTH có thể phát biểu như sau: (xem

[Dorigo & Stützle, 2004; Schrijver, 2006]). Cho một bộ ba (𝑆, 𝑓, Ω), trong đó

S là tập hữu hạn trạng thái (lời giải tiềm năng hay phương án), f là hàm mục

tiêu xác định trên S, còn Ω là tập các ràng buộc. Mỗi phương án s ∈ S thỏa mãn

các ràng buộc Ω gọi là phương án (hay lời giải) chấp nhận được. Mục đích của

ta là tìm phương án chấp nhận được s∗ tối ưu hóa toàn cục hàm mục tiêu f.

Chẳng hạn với bài toán cực tiểu thì f(s∗) ≤ f(s) với mọi phương án chấp nhận

được s.

Đối với mỗi bài toán, đều có thể chỉ ra một tập hữu hạn gồm n thành

phần C = {c1, … , cn} sao cho mỗi phương án s trong S đều biễu diễn được nhờ

31

liên kết các thành phần trong nó. Cụ thể hơn, các tập S, C và Ω có các đặc tính

sau:

1) Ký hiệu 𝑋 là tập các vectơ trên 𝐶 có độ dài không quá

ℎ: 𝑋 = {< 𝑢0, . . . , 𝑢𝑘 > 𝑢𝑖𝐶𝑖𝑘ℎ}. Khi đó, mỗi phương án 𝑠 trong 𝑆 được

xác định nhờ ít nhất một vectơ trong 𝑋 như ở điểm 2) dưới đây.

2) Tồn tại tập con 𝑋∗của 𝑋 và ánh xạ  từ 𝑋∗ lên 𝑆 sao cho −1(𝑠) không rỗng với mọi 𝑠𝑆,trong đó tập 𝑋∗có thể xây dựng được từ tập con 𝐶0 nào đó của 𝐶 nhờ thủ tục mở rộng tuần tự ở điểm 3) dưới đây.

3) Từ 𝐶0ta mở rộng tuần tự thành 𝑋∗như sau:

i) Ta xem 𝑥0 = < 𝑢0 >là mở rộng được với mọi 𝑢0 𝐶0.

ii) Giả sử 𝑥𝑘 =< 𝑢0, . . . , 𝑢𝑘 > là mở rộng được và chưa thuộc 𝑋∗. Từ tập ràng buộc Ω, xác định tập con 𝐽(𝑥𝑘) của 𝐶, sao cho với mọi 𝑢𝑘+1 𝐽(𝑥𝑘)

thì 𝑥𝑘+1 =< 𝑢0, . . . , 𝑢𝑘, 𝑢𝑘+1 >là mở rộng được.

iii) Áp dụng thủ tục mở rộng từ các phần tử 𝑢0 𝐶0 cho phép ta xây

dựng được mọi phần tử của 𝑋∗.

Như vậy, mỗi bài toán TƯTH được xem là một bài toán cực trị hàm có ℎ

biến, trong đó mỗi biến nhận giá trị trong tập hữu hạn 𝐶 kể cả giá trị rỗng. Nói

một cách khác, nó là bài toán tìm kiếm trong không gian vectơ độ dài không

quá ℎ trên đồ thị đầy đủ có các đỉnh có nhãn trong tập 𝐶.

Để hiểu rõ hơn về bài toán tối ưu tổ hợp và tiếp cận tính toán mềm, phần

này giới thiệu bài toán TƯTH điển hình thuộc loại NP-khó: bài toán người chào

hàng.

32

Bài toán TSP [Dorigo & Stützle, 2004] là bài toán TƯTH có nhiều ứng

dụng và được xem là bài toán chuẩn để đánh giá hiệu quả các lược đồ giải bài

toán TƯTH mới. Bài toán này được phát biểu như sau:

𝑛 độ dài , 𝑖=1

Cho một tập gồm 𝑛 thành phố (hoặc điểm tiêu thụ) 𝐶 = {𝑐𝑖}

đường đi trực tiếp từ thành phố ci đến thành phố cj là di,j . Một người chào hàng

muốn tìm một hành trình ngắn nhất từ nơi ở, đi qua mỗi thành phố đúng một

lần để giới thiệu sản phẩm, sau đó trở về nơi xuất phát.

Như vậy, ta cần tìm chu trình Hamilton của một đồ thị đầy đủ có trọng số

𝐺 = (𝑉, 𝐸), trong đó 𝑉 là tập đỉnh với nhãn là các thành phố trong 𝐶, 𝐸 là các

cạnh nối các thành phố tương ứng, độ dài các cạnh chính là độ dài đường đi

giữa các thành phố đã biết.

Trong bài toán này, tập 𝑆 là các chu trình Hamilton trên 𝐺, 𝑓 là độ dài của

chu trình, Ω là ràng buộc đòi hỏi chu trình là chu trình qua tất cả các đỉnh, mỗi

đỉnh đúng một lần (Hamilton), 𝐶 là tập thành phố được xét (trùng với 𝑉),

𝐶0 trùng với 𝐶, tập 𝑋 là vectơ độ dài 𝑛: 𝑥 = (𝑥1, … , 𝑥𝑛) với 𝑥𝑖 ∈ 𝐶 ∀ 𝑖 ≤ 𝑛, còn 𝑋∗là các vectơ trong đó 𝑥𝑖 khác 𝑥𝑗 đối với mọi cặp (𝑖, 𝑗).

Các tiếp cận giải các bài toán TƯTH khó

Với các bài toán TƯTH NP-khó có cỡ nhỏ, người ta có thể tìm lời giải

tối ưu nhờ tìm kiếm vét cạn. Tuy nhiên, với các bài toán cỡ lớn thì đến nay chưa

thể có thuật toán tìm lời giải đúng với thời gian đa thức nên chỉ có thể tìm lời

giải gần đúng hay đủ tốt.

Theo cách tiếp cận truyền thống hay là tiếp cận cứng, các thuật toán gần

đúng phải được chứng minh tính hội tụ hoặc ước lượng được tỷ lệ tối ưu. Với

việc đòi hỏi khắt khe về toán học như vậy làm hạn chế số lượng các thuật toán

công bố, không đáp ứng được nhu cầu ngày càng phong phú và đa dạng trong

nghiên cứu và ứng dụng. Để khắc phục tình trạng này, người ta dùng tiếp cận

33

đủ tốt để xây dựng các thuật toán tối ưu mềm.

1.2.1.2. Tính toán mềm

Tính toán mềm [Volna, 2013] cho một cách tiếp cận để giải quyết các bài

toán khó, thông tin không đầy đủ, thiếu chắc chắn và cho kết quả là những lời

giải đủ tốt hoặc gần đúng mà tiếp cận truyền thông hay tính toán cứng không

giải quyết được. Tiếp cận này gồm các phương pháp sử dụng tập mờ/ tập thô,

các phương pháp học máy như mạng nơ ron nhân tạo, máy tựa véctơ (SVM),

các giải thuật tiến hóa như các giải thuật di truyền, tối ưu bầy đàn, tối ưu đàn

kiến, tối ưu bầy ong, giải thuật memetic, hệ miễn dịch nhân tạo, v.v.

Đối với các bài toán TƯTH khó, các phương pháp tính toán mềm được

đánh giá chất lượng dựa trên thực nghiệm mà không nhất thiết phải chứng minh

tính hội tụ hoặc ước lượng tỷ lệ tối ưu. Các thuật toán thường được xây dựng

dựa trên một ý tưởng “có lý” và hiệu quả của chúng được đánh giá dựa vào kết

quả thử nghiệm trên tập dữ liệu đủ tin cậy.

Các phương pháp này phát triển theo hai hướng heuristic và metaheuristic

[X.-S. Yang, 2014; X.-S. Yang & Wiley InterScience (Online service), 2010].

Các thuật toán heuristic đề xuất riêng biệt cho từng bài toán cụ thể, cho phép

tìm nhanh một lời giải đủ tốt hoặc xấp xỉ tối ưu địa phương

Theo cách hiểu chung nhất, mỗi thuật toán metaheuristic tổng quát là một

lược đồ tính toán đề xuất cho lớp bài toán rộng, khi dùng cho các bài toán cụ

thể cần thêm các vận dụng chi tiết cho phù hợp. Nhờ các lược đồ này, người

dùng có thể xây dựng được thuật toán cho bài toán trong thực tế mà không đòi

hỏi có kiến thức tốt về toán học tính toán, vì vậy, hiện nay chúng đang được

dùng phổ biến trong ứng dụng. Các thuật toán này thường có thời gian chạy lâu

hơn các thuật toán truyền thống và tìm kiếm địa phương nhưng lời giải hướng

tới tối ưu toàn cục. Khi đề xuất thuật toán metaheuristic mới, người ta phải thử

34

nghiệm trên bài toán chuẩn để kiểm định chất lượng so với các thuật toán khác,

sau đó, người dùng vận dụng cho các bài toán khác. Các thuật toán tổng quát

này thường dựa trên ý tưởng mô phỏng tự nhiên với ngầm định rằng qua quá

trình chọn lọc tự nhiên, các đặc điểm và đặc tính sinh học hiện có thường mang

tính tối ưu.

Dưới đây sẽ giới thiệu các phương pháp và khái niệm cần dùng cho các

thuật toán được đề xuất trong luận án bao gồm phương pháp ACO, tính toán

tiến hóa và các thuật toán memetic, tìm kiếm Tabu. Trong đó tập trung giới

thiệu và phân tích sâu về thuật toán ACO, vì ACO là thuật toán cơ sở để đề

xuất các thuật toán mới được trình bày ở chương 2 và chương 3.

1.2.2. Phương pháp tối ưu đàn kiến

Phương pháp tối ưu đàn kiến là thuật toán mô phỏng cách tìm đường đi

tới tổ của kiến tự nhiên để giải các bài toán tối ưu tổ hợp khó. Phương pháp này

được Dorigo giới thiệu vào năm 1991 [M. Dorigo, 1991] dưới dạng hệ kiến

ngày nay đã được phát triển dưới nhiều biến thể và được ứng dụng rộng rãi

Về bản chất, ACO là phương pháp tìm kiếm ngẫu nhiên dựa trên quần thể

nhờ kết hợp thông tin heuristic và thông tin học tăng cường thể hiện qua vết

mùi để tìm lời giải gần đúng tối ưu toàn cục. Để hiểu rõ các thuật toán, trước

hết cần nắm được ý tưởng mô phỏng của thuật toán

1.2.2.1. Kiến tự nhiên và kiến nhân tạo

Kiến tự nhiên.

Trên đường đi đến nguồn thức ăn và trở về tổ, mỗi con kiến thực để lại

một vết hoá chất gọi là vết mùi và theo vết mùi của các con kiến khác để tìm

đường đi. Đường có nồng độ vết mùi càng cao thì càng có nhiều khả năng được

các con kiến chọn. Nhờ cách giao tiếp gián tiếp này đàn kiến tìm được đường

đi ngắn nhất từ tổ tới nguồn thức ăn (xem minh họa trong hình 1.3).

35

Hình 1.3. Cách các con kiến thực chọn đường đi ngắn nhất để tha mồi về tổ

Việc tìm đường đi của các con kiến tự nhiên dựa trên nồng độ vết mùi làm

ta liên tưởng tới cách học tăng cường cho bài toán chọn tác động tối ưu, gợi mở

một mô hình mô phỏng cho các con kiến thực để tìm đường đi ngắn nhất giữa

hai nút (tương ứng là tổ và nguồn thức ăn) trên đồ thị. Trên cơ sở đó, mở rộng

thành phương pháp ACO để giải các bài toán tối ưu tổ hợp khó

Kiến nhân tạo.

Khi mô phỏng hành vi của đàn kiến để giải các bài toán thực, người ta

dùng đa tác tử làm đàn kiến nhân tạo, trong đó mỗi con kiến nhân tạo là một

tác tử, có nhiều khả năng hơn kiến tự nhiên. Kiến nhân tạo (về sau sẽ gọi là

kiến) có bộ nhớ riêng, có khả năng mở rộng, chẳng hạn, ghi nhớ các đỉnh đã

thăm trong hành trình và tính được độ dài đường đi nó chọn. Ngoài ra các con

kiến có thể trao đổi thông tin có được với nhau, thực hiện tính toán cần thiết,

cập nhật mùi.

Nhờ các khả năng mở rộng mà mỗi đàn kiến có thể thực hiện lặp quá

trình tìm lời giải nhờ thủ tục bước tuần tự trên đồ thị cấu trúc tương ứng của

mỗi bài toán và cập nhật mùi theo phương thức học tăng cường để tìm lời giải

chấp nhận được và xác định lời giải đủ tốt toàn cục.

36

1.2.2.2. Lược đồ chung của phương pháp ACO

Để giải bài toán TƯTH tổng quát được cho bởi bộ ba (S,f, Ω), ta cần xây

dựng một đồ thị cấu trúc G(V,E) trong đó V là tập đỉnh sao cho có các tập con

C0 và C của V để có thể xây dựng các lời giải chấp nhận được trong tập trạng

thái S nhờ xuất phát từ thành phần ban đầu trong C0 và phát triển tuần tự bởi

các thành phần trong C theo định hướng trong E như đã nêu trong mục 1.2.1.1.

Để đơn giản, ta xét thuật toán ACO có vết mùi 𝜏𝑖𝑗và thông tin heuristic 𝜂𝑖𝑗 định

hướng tìm kiếm để ở các cạnh (𝑖, 𝑗) trong E. Bây giờ ta có thể thực hiện thuật

toán ACO trên đồ thị cấu trúc mở rộng G(V, E, 𝜏, 𝜂) trong đó 𝜏, 𝜂 tương ứng là

ma trận mùi và ma trận thông tin heuristic.

Lược đồ thông dụng nhất hiện nay của phương pháp ACO không áp dụng

tìm kiếm địa phương như sau:

Thuật toán 1.1. Thuật toán ACO

Initialize: Khởi tạo vết mùi, n_ants; while Khi điều kiện dừng chưa thỏa mãn do for i=1 to n_ants do Xây dựng lời giải; Cập nhật lời giải tốt;

Begin end for; Cập nhật mùi; end while; End

Khi đã có thông tin heuristic (thông tin này như nhau nếu không tìm

được) 𝜂𝑖𝑗 cho mỗi cạnh (𝑖, 𝑗) ∈ 𝐸 định hướng ưu tiên phát triển tuần tự từ đỉnh

𝑖 tới 𝑗 trong V, ta khởi tạo vết mùi ban đầu 𝜏𝑖𝑗 bởi cùng giá trị 𝜏0, khởi tạo m

kiến để thực hiện việc lặp tìm lời giải tuần tự nhờ thủ tục bước ngẫu nhiên

(được mô tả ở mục 1.2.2.3) và trao đổi để cập nhật mùi (học tăng cường, được

37

mô tả ở mục 1.2.2.4). Lược đồ của một thuật toán ACO không áp dụng tìm

kiếm địa phương được đặc tả trong thuật toán 1.1.

Lời giải tốt nhất tìm được sau số vòng lặp định trước sẽ được dùng làm

xấp xỉ tối ưu toàn cục.

1.2.2.3. Thủ tục bước ngẫu nhiên xây dựng lời giải

Ban đầu mỗi kiến k sẽ chọn ngẫu nhiên một đỉnh ở tập C0, nhờ tập ràng

buộc Ω, kiến sẽ xác định được tập phát triển trong C để phát triển tuần tự một

cách tổng quát như sau.

Giả sử kiến đã phát triển được xâu 〈𝑢0, … , 𝑢𝑚〉 trong đó 𝑢𝑚 = 𝑖 nhưng

chưa cho lời giải chấp nhận được và nhờ Ω ta xác định được tập đỉnh 𝐽𝑘(𝑖) có

[𝜏𝑖𝑗(𝑡)]𝛼.[𝜂𝑖𝑗(𝑡)]𝛽

thể phát triển thì thành phần … 𝑢𝑖+1 = 𝑗 tiếp theo được chọn với xác suất

𝑙∈𝐽𝑘(𝑖)

𝑘 = { 𝑝𝑖𝑗

[𝜏𝑖𝑙(𝑡)]𝛼.[𝜂𝑖𝑙(𝑡)]𝛽 0 𝑛ế𝑢 𝑗 ∉ 𝐽𝑘(𝑖)

𝑛ế𝑢 𝑗𝐽𝑘(𝑖) , (1.1)

trong đó 𝛼, 𝛽 là các hằng số dương chọn trước. Thủ tục này tiếp tục cho đến

khi xâu 〈𝑢0, … , 𝑢𝑡〉 tương ứng với một lời giải s trong S. Bằng cách này mỗi kiến xây dựng được lời giải trong mỗi vòng lặp và cùng thực hiện đánh giá lời

giải để câp nhật mùi theo một quy tắc được chọn.

1.2.2.4. Các quy tắc cập nhật mùi

Việc cập nhật mùi, phản ánh cơ chế học tăng cường và ảnh hưởng quyết

định chất lượng thuật toán nên thường dùng để làm tên gọi cho lớp thuật toán

dùng nó. Để đảm bảo vết mùi hội tụ, người ta sử dụng hằng số bay hơi vết mùi

0<≤1 hay hệ số chiết khấu trong học tăng cường, khi một cạnh được cập nhật

mùi thì vết mùi biến đổi theo công thức:

. (1.2)

38

Điểm then chốt là cạnh nào được cập nhật và lượng thêm vào thế nào là

tùy theo quy tắc được chọn. Có nhiều quy tắc cập nhật mùi đã được đề xuất,

trong đó điển hình là các quy tắc hệ kiến, hệ đàn kiến, hệ kiến Max-Min và hệ

kiến Max-min trơn.

Ký hiệu 𝑤𝑘(𝑡) là lời giải kiến k tìm được ở bước lặp t, 𝑤(𝑡) và 𝑤∗(𝑡)

tương ứng là lời giải tốt nhất tìm được ở bước lặp t và lời giải tốt nhất tìm được

tới bước đó.

Quy tắc cập nhật AS

Hệ kiến AS áp dụng quy tắc cập nhật mùi địa phương, và là quy tắc đầu

tiên được áp dụng trong số các thuật toán ACO. Theo quy tắc này, ở bước lặp

t, mỗi kiến k áp dụng cập nhật mùi cho tất cả các cạnh (𝑢𝑖, 𝑢𝑖+1) thuộc lời giải 𝑤𝑘(𝑡) theo công thức (1.3)

1 𝐿𝑘

𝜌. , 𝑛ế𝑢 (𝑖, 𝑗) ∈ 𝑤𝑘(𝑡) , (1.3) Δ𝜏𝑖𝑗 = { 0 𝑛ế𝑢 (𝑖, 𝑗) ∉ 𝑤𝑘(𝑡)

trong đó 𝐿𝑘 là giá trị hàm mục tiêu 𝑓(𝑤𝑘(𝑡)) (không giảm tổng quát,được

giả thiết là dương).

Nhược điểm của quy tắc là vết mùi ở các cạnh không được cập nhật sẽ

nhanh chóng dần về không nên hạn chế không gian tìm kiếm và thuật toán kém

hiệu quả.

Quy tắc ACS

Quy tắc này do Dorigo đề xuất năm 1997 [Dorigo & Gambardella, 1997].

Trong thuật toán ACS, việc cập nhật mùi bao gồm cả hai hình thức địa phương

và toàn cục. Cập nhật mùi địa phương áp dụng cho mọi cạnh có kiến 𝑘 sử dụng

khi nó tìm lời giải. Có hai cách cập nhật mùi toàn cục.

39

a) Cập nhật mùi toàn cục áp dụng cho các cạnh thuộc lời giải tốt nhất của bước

lặp (𝑤(𝑡)hay toàn cục 𝑤∗(𝑡) và gọi tương ứng là i-best hay G-best. Theo cách

i-besst, Δ𝜏𝑖𝑗 được xác định theo công thức:

(1.4) Δ𝜏𝑖𝑗 = 𝜌. 𝑓(𝑤(𝑡)).

Nếu trong công thức (1.4) thay 𝑤(𝑡) bởi 𝑤∗(𝑡) thì ta nói là G-best

b) Cập nhật mùi toàn cục áp dụng cho tất cả các cạnh và cũng các hai cách i-

best hay G-best, với G-best thì Δ𝜏𝑖𝑗xác định theo công thức:

1 𝑓( 𝑤∗(𝑡)) 0 𝑛ế𝑢 (𝑖, 𝑗) ∉ 𝑤∗(𝑡)

𝜌. , 𝑛ế𝑢 (𝑖, 𝑗) ∈ 𝑤∗(𝑡) . . (1.5) Δ𝜏𝑖𝑗 = {

Khi thay 𝑤∗(𝑡) bởi 𝑤(𝑡) thì ta có i-best.

Các quy tắc này tăng chất lượng thuật toán so với AS nhưng không tránh

được nhược điểm của nó

Quy tắc MMAS

Để khắc phục nhược điểm nêu trên của AS và ACS, Stutzle & Hoos đề

xuất MMAS năm 2000 [Stützle & Hoos, 2000] gồm 2 bước:

 Bước thứ nhất, cập mùi toàn cục cho tất cả các cạnh theo phương

thức i-best hoặc G-best.

 Bước thứ hai, so sánh các lượng 𝜏𝑖𝑗với hai đại

𝜏𝑚𝑎𝑥và 𝜏𝑚𝑖𝑛 (𝜏𝑚𝑎𝑥 > 𝜏min > 0) để giới hạn vết mùi trong đoạn

[𝜏𝑚𝑖𝑛, 𝜏𝑚𝑎𝑥], cụ thể như sau:

. (1.6) 𝜏𝑖𝑗 = {

𝜏𝑚𝑎𝑥 𝑛ế𝑢 𝜏𝑖𝑗 > 𝜏𝑚𝑎𝑥 𝜏𝑖𝑗 𝑛ế𝑢 𝜏𝑖𝑗 ∈ [𝜏𝑚𝑖𝑛, 𝜏𝑚𝑎𝑥] 𝜏𝑚𝑖𝑛 𝑛ế𝑢 𝜏𝑖𝑗 < 𝜏𝑚𝑖𝑛

40

Nói chung, MMAS dùng i-best tốt hơn G-best nhưng cũng có thể dùng

luân phiên cho các bước lặp. Khi bắt đầu thuật toán, vết mùi thường được thiết

đặt bằng ước lượng cận trên của vết mùi 𝜏𝑚𝑎𝑥. Cách khởi tạo như vậy kết hợp

với tham số bay hơi nhỏ làm chậm sự khác biệt vết mùi của các cạnh, do đó

giai đoạn đầu của MMAS mang tính khám phá. Nhờ giới hạn vết mùi trong

đoạn [𝜏𝑚𝑖𝑛, 𝜏𝑚𝑎𝑥], MMAS hạn chế được tình trạng vết mùi dần về không, khắc

phục được nhược điểm của AS và ACS nên là thuật toán được nghiên cứu nhiều

nhất trong các thuật toán ACO và nó có rất nhiều phát triển. Một phát triển hiệu

quả là SMMAS

Quy tắc SMMAS

Quy tắc SMMAS lần đầu tiên được Đỗ Đức Đông và cộng sự dùng cho

bài toán lập lịch sản xuất [Do Duc, Dinh, & Hoang Xuan, 2008] và được trình

bày chặt chẽ cho bài toán TSP trong [Hoang Xuan Huan, Linh-Trung, Huynh,

& others, 2013].

SMMAS được đề xuất dựa trên nhận xét hai nhược điểm của MMAS:

 Thứ nhất, nếu chọn 𝜏𝑚𝑖𝑛, 𝜏𝑚𝑎𝑥 lệch nhau ít thì làm triệt tiêu hiệu quả

học tăng cường, còn nếu chọn lệch nhau nhiều thì vết mùi ở các cạnh

ít được cập nhật sẽ nhanh chóng về 𝜏𝑚𝑖𝑛 làm hạn chế không gian tìm

kiếm mặc dù có nhẹ hơn AS và ACS.

 Thứ hai là đại lượng ∆𝜏𝑖𝑗 phụ thuộc giá trị hàm mục tiêu làm cho thuật

toán phải tính toán phức tạp, tuy nhiên trong học tăng cường thì không

cần thiết.

Một trong các cải tiến là khi khởi tạo lại vết mùi, việc cập nhật mùi

thường xuyên bằng lời giải tốt nhất tìm được mới nhất thay vì cố định.

41

Với nhận xét trên, SMMAS không giảm vết mùi ở các cạnh không thuộc

lời giải tốt quá nhanh như quy tắc MMAS mà dùng quy tắc Max-Min trơn bằng

cách cập nhật 𝜏𝑖𝑗 toàn cục cho mọi cạnh với Δ𝜏𝑖𝑗 xác định bởi:

(1.7) Δ𝜏𝑖𝑗 = { 𝜌. 𝜏𝑚𝑖𝑛 𝑛ế𝑢 (𝑖, 𝑗) ∉ 𝑤(𝑡) . 𝜌. 𝜏𝑚𝑎𝑥 𝑛ế𝑢 (𝑖, 𝑗) ∈ 𝑤(𝑡)

Quy tắc này cũng khởi tạo 0 = max. Đây là một phương pháp cập nhật

mùi dễ cài đặt và có độ phức tạp tính toán cũng thấp hơn so với các phương

pháp trước nó. Thực nghiệm và phân tích toán học cho thấy nó tốt hơn MMAS.

1.2.2.5. Tìm kiếm địa phương

Lược đồ ACO ở trên thực hiện tìm kiếm ngẫu nhiên để tìm lời giải gần

đúng nên không gian tìm kiếm rộng. Thông thường thì các kỹ thuật tìm kiếm

địa phương hội tụ đến cực trị địa phương nhanh hơn. Vì vậy người ta thường

áp dụng kỹ thuật tìm kiếm địa phương để tăng cường chất lượng lời giải cho

lời giải tốt nhất hoặc cho mọi lời giải trong mỗi bước lặp trước khi cập nhật

mùi. Các kỹ thuật tìm kiếm có thể áp dụng linh hoạt theo lược đồ memetic được

nêu trong mục 1.2.3.2.

1.2.2.6. Ví dụ

Như vậy, để xây dựng thuật toán ACO cho bài toán cụ thể theo lược đồ

nêu trên, có 4 yếu tố quyết định:

1) Đồ thị cấu trúc. Trước hết ta cần xác định được đồ thị cấu trúc G(V, E)

và các tập C0, C phù hợp với bài toán sao cho thủ tục bước ngẫu nhiên

dễ áp dụng với các ràng buộc Ω đã cho và không gian tìm kiếm càng nhỏ

càng tốt.

2) Thông tin heuristic. Sau khi cho đồ thị cấu trúc, cần chọn thông tin

heuristic để tăng hiệu quả tìm kiếm khi học tăng cường. Tuy nhiên, khi

42

không có thông tin này thì có thể xem chúng như nhau và cùng bằng đơn

vị.

3) Quy tắc cập nhật mùi. Trong luận án này chúng tôi chọn quy tắc cập nhật

mùi SMMAS vì nó đơn giản, dễ dùng và hiệu quả hơn các thuật toán

khác.

4) Các kỹ thuật tìm kiếm địa phương và các áp dụng. Tùy theo bài toán mà

có thể áp dụng đơn giải một kỹ thuật tìm kiếm địa phương hoặc theo lược

đồ memetic được nói ở mục 1.2.3.2.

Các tham số cho thuật toán ACO được chọn dựa trên kết quả thực nghiệm.

Để hiểu rõ hơn, ta xét ví dụ giải bài toán cho bài toán TSP.

Với bài toán TSP cho bởi G(V, E) và độ dài 𝑑𝑖𝑗 của các cạnh (i,j) đã biết

như trong mục 1.2.1.1, ta có thể dùng luôn đồ thị này làm đồ thị cấu trúc với

C0=C=V. Với mỗi kiến k ở đỉnh i khi tìm kiếm, tậ𝑝 𝐽𝑘(𝑖) là các đỉnh mà kiến

chưa đi qua.

1 𝑑𝑖𝑗

. Thông tin heuristic là nghịch đảo khoảng cách 𝜂𝑖𝑗 =

Việc tìm kiếm địa phương cho một chu trình Hamilton được áp dụng cho

các chu trình có p đỉnh liền nhau trong chu trình này được hoán vị (p-láng

giềng), trong đó p chọn trước. Chiến lược tìm kiếm có thể là tốt hơn (better)

hoặc tốt nhất (the best). Trong chiến lược tốt hơn, việc tìm kiếm cho mỗi lời

giải ở mỗi lần lặp sẽ dừng khi tìm được một lời giải tốt hơn nó, còn chiến lược

tốt nhất sẽ tìm kiếm lời giải tốt nhất trong p-láng giềng. Một cách áp dụng

memetics là chỉ áp dụng tìm kiếm địa phương cho một số lời giải tốt trong một

số lần lặp sau thay vì ở những vòng lặp đầu, khi lời giải chưa đủ tốt có cải tiến

thì cũng chưa tốt bao nhiêu mà tốn thời gian.

43

1.2.2.7. Nhận xét về phương pháp ACO

So với GA, ở mỗi bước lặp, ACO không dùng lại nhiều lời giải của bước

lặp trước như GA, hơn nữa việc kết hợp học tăng cường và thông tin heuristic

sẽ tăng hiệu quả tìm kiếm.

Việc tìm kiếm ngẫu nhiên cho phép tìm kiếm linh hoạt, mềm dẻo trên

miền rộng hơn phương pháp heuristic sẵn có. Để tăng cường khả năng khám

phá, ACO có thể áp dụng khởi tạo lại vết mùi sau một số bước lặp mà không

tìm được lời giải tốt hơn.

Thuật toán ACO dễ song song hóa để giảm thời gian chạy trên máy song

song do mỗi con kiến tìm lời giải một cách độc lập trong mỗi vòng lặp.

Với những lý do trên, luận án tập trung vào phát triển các thuật toán dựa

trên đàn kiến.

1.2.3. Tính toán tiến hóa và các thuật toán memetic

1.2.3.1. Tính toán tiến hóa

Thuật ngữ tính toán tiến hóa ban đầu để chỉ các phương pháp tìm lời giải

nhờ đưa về sử dụng GA [Holland, 1975]. Ngày nay nó dùng để chỉ chung cho

các phương pháp tối ưu dựa trên quần thể, trong đó quần thể của thế hệ sau

được xây dựng dựa trên thông tin từ quần thể trước để tìm lời giải. Các thuật

toán này thường được xây dựng dựa trên các lược đồ metaheuristic, chẳng hạn

như các thuật toán tối ưu bầy đàn, đom đóm, dơi, v.v.

Chất lượng các thuật toán metaheuristic được quyết định nhờ hai đặc tính

định hướng quá trình tiến hóa: tính tăng cường và khám phá/đa dạng. Tính tăng

cường thực hiện nhờ ưu tiên tìm kiếm từ thông tin của các cá thể có hàm đánh

giá tốt trong quần thể hiện thời cho tạo sinh quần thể kế tiếp. Tính khám phá/đa

dạng nhằm tạo sinh ra các lời giải tiềm năng mới nhờ mở rộng miền tìm kiếm.

44

1.2.3.2. Các thuật toán memetic

Memetic [Neri, 2011] là thuật toán tìm kiếm dựa trên quần thể, ban đầu

áp dụng cho giải thuật di truyền và nay ứng dụng hiệu quả cho các thuật toán

khác.

Người ta nhận thấy các thuật toán tìm kiếm địa phương có thể tìm kiếm

nhanh một lời giải đủ tốt (có tính gần tối ưu địa phương) hơn các thuật toán dựa

trên quần thể nên khi áp dụng kỹ thật này cho các cá thể nổi trội của quần thể

trong mỗi bước lặp thì chất lượng lời giải được cải thiện đáng kể.

Trong các thuật toán memetic, chẳng hạn GA hoặc ACO, cuối mỗi vòng

lặp t, người ta tìm ra tập lời giải Ω(t) và tập thuật toán tìm kiếm địa phương

𝒜(𝑡) để áp dụng các thuật toán tìm kiếm tăng cường một cách linh hoạt phù

hợp với đặc điểm từng bài toán. Kết quả thực nghiệm cho thấy việc áp dụng

tìm kiếm địa phương đa dạng và linh hoạt ở mỗi bước lặp tùy theo các ràng

buộc và đặc điểm hàm mục tiêu cải thiện đáng kể chất lượng thuật toán so với

các thuật toán sử dụng đơn điệu một thuật toán tìm kiếm cho mọi bước lặp. Với

ưu điểm đó, thời gian gần đây, có rất nhiều thuật toán mới được đề xuất để giải

quyết các bài toán NP khó nói chung và các bài toán trong lĩnh vực tin sinh học

nói riêng [Correa, Borguesan, Farfan, Inostroza-Ponta, & Dorn, 2018;

Garbelini, Kashiwabara, & Sanches, 2018; Gong, Peng, Ma, & Huang, 2016].

1.2.4. Thuật toán tìm kiếm Tabu

Tabu Search (Tabu xuất phát từ từ Taboo trong tiếng Anh có nghĩa là

cấm kỵ) là thuật toán metaheuristic được đề xuất bởi Fred W.Glover năm 1986

[Glover, 1986] và được áp dụng rộng rãi để giải quyết các bài toán tối ưu tổ

hợp.

Thuật toán tìm kiếm Tabu gồm nhiều vòng lặp. Tại mỗi bước lặp, thuật

toán sẽ duyệt trong một miền lân cận của lời giải hiện tại để chọn ra lời giải có

45

chất lượng tốt nhất. Thao tác chuyển từ lời giải hiện tại thành một lân cận của

nó được gọi là bước chuyển. Thuật toán tìm kiếm Tabu duy trì bộ nhớ ngắn

hạn được gọi là một danh sách Tabu. Danh sách này sẽ lưu các bước chuyển

vừa được thực hiện trong một số bước lặp ngay trước đó. Các bước chuyển

Tabu này sẽ bị cấm sử dụng lại chừng nào nó còn nằm trong danh sách Tabu.

Mỗi bước chuyển Tabu sẽ nằm trong danh sách Tabu trong khoảng t

vòng lặp, sau đó nó sẽ được loại khỏi danh sách Tabu và có thể được sử dụng

lại. Số t này được gọi là kích thước của danh sách Tabu và có thể được gán cố

định cho tất cả các bước chuyển hoặc cũng có thể là được chọn ngẫu nhiên cho

từng bước chuyển.

Lược đồ tổng quát của thuật toán tìm kiếm Tabu được mô tả trong thuật

toán 1.2.

Thuật toán 1.2. Thuật toán tìm kiếm Tabu

Begin

TabuList =; Sbest = Lời giải khởi tạo; while (điều kiện dừng chưa thỏa mãn) begin

bestCandidate = s; if ( (s TabuList)) and (cost(s) >cost(bestCandidate)) )

NS = Tập lân cận của Sbest; bestCandidate=phần tử đầu tiên của NS; for each (NS as s) if (cost(bestCandidate) > cost(sBest)) sBest ← bestCandidate;

Cập nhật lại danh sách TabuList;

end; return sBest;

end;

46

Ngoài bộ nhớ ngắn hạn, thuật toán tìm kiếm Tabu còn có 2 loại cấu trúc

bộ nhớ khác là bộ nhớ trung hạn và bộ nhớ dài hạn [Brownlee, 2011]. Trong

đó:

 Bộ nhớ trung hạn nhằm ưu tiên tìm kiếm tăng cường trong những khu

vực hứa hẹn trong không gian tìm kiếm được gọi là tiêu chuẩn mong

đợi.

 Bộ nhớ dài hạn nhằm ưu tiên tính khám phá trong không gian tìm kiếm

và được gọi là sự đa dạng hóa lời giải. Nó là chiến lược tạo ra các lời

giải mới với các thành phần ít được sử dụng và thường có các thành

phần khác xa so với các lời giải thường được sử dụng nhất.

1.3. Động cơ nghiên cứu

Trong mục 1.1, luận án đã giới thiệu các kiến thức chung về Tin sinh học

trong đó giới thiệu hai bài toán tối ưu tổ hợp quan trọng trong lĩnh vực Tin sinh

học: Thứ nhất bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết

protein; thứ hai là bài toán dóng hàng toàn cục hai mạng tương tác protein-

protein. Luận án cũng đã giới thiệu một số thuật toán được các tác giả đề xuất

để giải 2 bài toán này trong thời gian gần đây. Các thuật toán này sử dụng cách

tiếp cận heuristic hoặc các thuật toán lặp chẳng hạn như GA. Các thuật toán

theo cách tiếp cận heuristic có ưu điểm là cho lời giải nhanh, tuy nhiên thường

có chất lượng lời giải chưa đủ tốt. Ngược lại các thuật toán lặp cho chất lượng

lời giải tốt hơn nhưng lại có thời gian chạy lớn.

Mục 1.2 của luận án giới thiệu tổng quan về bài toán tối ưu tổ hợp và

một số phương pháp tối ưu mềm như ACO, lược đồ memetic, tìm kiếm Tabu.

Luận án cũng đã có những nhận xét về một số ưu điểm của các phương pháp

này, trong đó có chỉ rõ những ưu điểm của phương pháp ACO so với GA. Từ

những phân tích này, luận án tập trung nghiên cứu kết hợp thuật toán ACO với

47

các thuật toán tìm kiếm cục bộ hay tìm kiếm Tabu theo lược đồ memetic để đề

xuất các thuật toán mới giải quyết hiệu quả 2 bài toán dóng hàng nhiều mạng

các vị trí liên kết protein và bài toán dóng hàng toàn cục hai mạng tương tác

protein-protein ở trên. Chương 2 và chương 3 của luận án tập trung trình bày

chi tiết các đề xuất mới này.

1.4. Kết luận chương

Chương 1 của luận án đã trình bày các kiến thức tổng quan về tin sinh

học, trong đó tập trung giới thiệu về 2 bài toán là hướng nghiên cứu chính của

luận án là bài toán dóng hàng nhiều mạng các vị trí liên kết protein và bài toán

dóng hàng mạng tương tác protein. Đây là các kiến thức nền tảng để phục vụ

cho các nghiên cứu được giới thiệu ở chương 2 và chương 3 của luận án.

Bên cạnh đó, chương 1 giới thiệu tổng quan về các phương pháp tối ưu

theo tiếp cận tính toán mềm bao gồm phương pháp ACO, tính toán tiến hóa,

các thuật toán memetic và kỹ thuật tìm kiếm Tabu. Đây là các phương pháp tối

ưu mềm được sử dụng phổ biến trong việc giải quyết các bài toán tối ưu tổ hợp

khó. Trong đó, luận án cũng đã tập trung trình bày chi tiết về phương pháp

ACO, phân tích rõ những ưu điểm của phương pháp này so với các phương

pháp tối ưu mềm khác. Đây là cơ sở để luận án đề xuất các thuật toán mới để

giải quyết các bài toán dóng hàng nhiều mạng các vị trí liên kết protein được

trình bày ở chương 2 và bài toán dóng hàng toàn cục hai mạng tương tác protein

được trình bày ở chương 3.

48

Chương 2. DÓNG HÀNG CÁC MẠNG CÁC VỊ TRÍ LIÊN KẾT PROTEIN

Chương này giới thiệu các khái niệm liên quan đến bài toán dóng hàng

nhiều đồ thị, một công cụ để phân tích cấu trúc protein. Bên cạnh đó giới thiệu

3 thuật toán phát triển dựa trên phương pháp tối ưu hóa đàn kiến: ACO-MGA,

ACO-MGA2, ACOTS-MGA. Thuật toán đầu tiên ACO-MGA được xây dựng

dựa trên phương pháp tối ưu đàn kiến thuần túy. Thuật toán ACO-MGA2 được

xây dựng dựa trên lược đồ memetic theo 2 giai đoạn, giai đoạn đầu chỉ sử dụng

ACO, không có tìm kiếm cục bộ, giai đoạn sau có áp dụng tìm kiếm cục bộ.

Thuật toán thứ 3 là ACOTS-MGA có sự kết hợp giữa thuật toán ACO và tìm

kiếm Tabu theo lược đồ memetic để tìm lời giải cho bài toán dóng hàng nhiều

đồ thị.

Các thực nghiệm được tiến hành trên các bộ dữ liệu mô phỏng và dữ liệu

thực đã cho thấy hiệu quả nổi trội của các thuật toán đề xuất so với các thuật

toán mới nhất hiện nay cả về thời gian lẫn chất lượng lời giải.

2.1. Bài toán dóng hàng nhiều đồ thị

Mục 1.1.2 đã giới thiệu về bài toán dóng hàng các mạng các vị trí liên kết

protein. Để dóng hàng các mạng này, đầu tiên cấu trúc của các protein sẽ được

mô hình hóa dưới dạng đồ thị như mô tả ở mục 1.1.2.1. Sau đó việc dóng hàng

các mạng các vị trí liên kết protein sẽ được quy về bài toán dóng hàng nhiều đồ

thị.

Weskamp và các cộng sự đã giới thiệu bài toán dóng hàng nhiều đồ thị và

các khái niệm liên quan để áp dụng cho bài toán dóng hàng các mạng các vị trí

liên kết protein trong bài báo [Weskamp et al., 2007] như dưới đây.

49

2.1.1. Tập nhiều đồ thị

Một multigraph [Weskamp et al., 2007] là một tập hợp các đồ thị G

={G1(V1,E1),…,Gn(Vn,En)}, trong đó các đồ thị Gi(Vi,Ei) liên thông, các đỉnh

(nút) được gán nhãn thuộc tập L cho trước, các cạnh có trọng số biểu thị khoảng

cách giữa các đỉnh.

Trong các đồ thị có các toán tử chỉnh sửa được định nghĩa như sau.

Định nghĩa 2.1. (Các toán tử chỉnh sửa) Trên các đồ thị G(V,E) của tập đồ

thị G có các toán tử chỉnh sửa:

i) Chèn hoặc xóa bớt các nút: Một nút 𝑣 ∈ 𝑉 và các cạnh liên kết với nó có

thể bị xóa hoặc được chèn vào

ii) Thay đổi nhãn của một nút: Nhãn 𝑙(𝑣) của một nút 𝑣 ∈ 𝑉 có thể thay

bằng nhãn khác thuộc tập L

iii) Thay đổi trọng số của một cạnh: Trọng số w(e) của một cạnh e có thể

thay đổi tùy theo những hình thể khác nhau.

2.1.2. Dóng hàng nhiều đồ thị

Cho tập đồ thị G ={G1(V1,E1),…,Gn(Vn,En)}, với mọi tập đỉnh Vi ta thêm

vào nút giả (ký hiệu là  ) không có cạnh kết nối với các đỉnh khác, khi đó một

dóng hàng của G được định nghĩa như sau.

Định nghĩa 2.2. (Dóng hàng nhiều đồ thị) [Weskamp et al., 2007].

Tập 𝐴 {V1  {}}  …  {Vn  {}} là một dóng hàng của đa đồ thị G nếu

và chỉ nếu:

1. Với mọi i=1,…,n và với mỗi 𝑣 ∈ 𝑉𝑖, tồn tại đúng một a = (a1,…,an) ∈ 𝐴

sao cho 𝑣 = 𝑎𝑖

2. Với mỗi a = (a1,…,an) ∈ 𝐴, tồn tại ít nhất một 1 ≤ i ≤ n sao cho 𝑎𝑖 ≠ 

50

Hình 2.1 minh họa một dóng hàng của một 4-đồ thị với các đỉnh giả dạng

hình vuông và các đỉnh có nhãn là các ô tròn có nhãn là các ký tự. Lưu ý rằng

mỗi đồ thị chỉ dùng một đỉnh giả nhưng để dễ hình dung, đồ thị thứ nhất và thứ

tư ta để hai đỉnh có nhãn giả với nghĩa rằng các nút ở hàng tương ứng được

dóng với nút giả ở đồ thị này.

Hình 2.1. Một dóng hàng nhiều đồ thị của tập 4 đồ thị, đỉnh hình vuông là giả

còn các đỉnh tròn là đỉnh thực có nhãn là các ký tự tương ứng.

Để đánh giá chất lượng của một dóng hàng nhiều đồ thị, người ta dùng

hàm tính điểm cho khoảng cách chỉnh sửa. Hàm này xác định dựa trên tập phép

toán chỉnh sửa dẫn ra ở trên để đối sánh các cặp đồ thị theo cách dóng hàng đã

chọn.

Để dễ trình bày, về sau ta qui ước giữ nguyên ký hiệu G

={G1(V1,E1),…,Gn(Vn,En)} để chỉ tập đồ thị mà trong đó các đồ thị Gi đã bổ

sung nút giả vào Vi với mọi i=1,…,n.

2.1.3. Hàm đánh giá chất lượng dóng hàng

Định nghĩa 2.3 (Hàm đánh giá chất lượng dóng hàng)

Với mỗi dóng hàng A của tập đồ thị G, hàm đánh giá chất lượng s(A)

được xác định theo biểu thức (2.1) [Weskamp et al., 2007]:

51

, (2.1)

trong đó ai là véctơ dóng hàng ở cột i của dóng hàng A, ns là điểm đánh giá

tính phù hợp của hàng tương ứng và được tính theo biểu thức (2.2):

, (2.2)

còn es đánh giá tính tương thích của độ dài cạnh và được tính bởi biểu thức

(2.3):

,

(2.3)

Trong công thức (2.3) là giá trị tuyệt đối

của độ chênh lệch giữa 2 trọng số cạnh. Để đảm bảo sự khách quan khi so sánh

các thuật toán dóng hàng, các tham số (nsm, nsmm, ns, esm, esmm, ε) được thiết

lập như trong -5.0; [Fober et al., 2009]: nsm = 1.0; nsmm =

ns = -2.5; esm = 0.2; esmm =-0.1; ε=0.2.

Theo công thức 2.2, điểm số ns sẽ đánh giá sự tương thích của các nút nằm

trên một hàng. Các nút có nhãn trùng nhau sẽ được thưởng một giá trị nsm, việc

dóng hàng với các nút khác nhãn hoặc dóng hàng với nút giả sẽ bị phạt tương

ứng với các giá trị nsmm và ns.

52

Tương tự, công thức 2.3 sử dụng để đánh giá về sự tương thích về trọng

số của các cạnh, trong đó định nghĩa một ngưỡng  là độ dung sai về độ lệch

trọng số của các cạnh. Hai cạnh được coi là khớp với nhau nếu trọng số của

chúng sai khác nhau không quá giá trị . Khi phép dóng hàng tạo ra các cạnh

khớp với nhau thì sẽ được thưởng điểm dóng hàng bằng giá trị esm. Ngược lại

khi hai cạnh không khớp với nhau được dóng hàng, hoặc dóng hàng một cạnh

thực với một cạnh không tồn tại trên đồ thị khác thì điểm dóng hàng sẽ bị trừ

A

đi giá trị tương ứng bằng esmm.

A A

3

3

3

C

3

3

C

B

B

3

5

3

2

D

D

3

E

Hình 2.2. Ví dụ dóng hàng 2-đồ thị.

Để dễ hình dung các công thức tính điểm chất lượng dóng hàng đa đồ

thị, xét dóng hàng 2-đồ thị với nhãn các đỉnh và trọng số các cạnh được cho

như trên hình 2.2 (các đường liền nét thể hiện các cạnh của đồ thị và các đường

đứt nét thể hiện các dóng hàng).

Đối với sự tương đồng về nhãn của các đỉnh, từ hình vẽ ta thấy trên 5

vectơ dóng hàng, có 4 cặp đỉnh được dóng hàng có nhãn giống nhau và đỉnh E

của đồ thị thứ 2 được dóng với đỉnh giả của đồ thị thứ nhất. Do vậy điểm tương

đồng về nhãn của đỉnh là 4  1 – 1  2.5=1.5.

53

Đối với sự tương đồng về trọng số cạnh, chỉ có 2 cạnh AC, BC của 2 đồ

thị là khớp với nhau về trọng số. Cạnh CD có trên cả 2 đồ thị nhưng trọng số

không khớp nhau (Độ chênh lệch trọng số của cạnh CD trên đồ thị 1 và đồ thị

2 là 2 lớn hơn ngưỡng giá trị ). Cạnh BD chỉ xuất hiện ở đồ thị thứ nhất mà

không có trên đồ thị thứ 2; trong khi đó các cạnh AB, CE, DE lại chỉ có ở đồ

thị thứ 2 mà không có trên đồ thị thứ nhất. Tổng hợp lại ta sẽ có tổng điểm

tương thích về cạnh là 2  0.2 – 1  0.1 – 4  0.1=-0.1.

Tổng hợp lại ta có điểm chất lượng dóng hàng là S= 1.5 - 0.1=1.4.

Việc lựa chọn hàm mục tiêu s(A) tính theo công thức 2.1 là do đặc thù

của bài toán dóng hàng nhiều mạng các vị trí liên kết protein. Mục tiêu của bài

toán là tìm ra sự tương đồng trong cấu trúc của các protein. Chính vì vậy, cần

ưu tiên dóng các đỉnh có cùng nhãn với nhau, bên cạnh đó khi các cấu trúc

tương đồng với nhau thì khoảng cách giữa các đỉnh cũng sẽ ít có sự chênh lệch.

Lời giải cần tìm của bài toán MGA là dóng hàng làm cực đại hàm đánh

giá 𝑠(𝐴). Đây là bài toán NP-khó, nếu dùng phương pháp vét cạn độ phức tạp sẽ là O((𝑉𝑚𝑎𝑥)!𝑛) với Vmax là số đỉnh của đồ thị có nhiều đỉnh nhất và n là số đồ thị.

Các phần tiếp theo của chương này trình bày các thuật toán mà luận án

đề xuất. Các kết quả thực nghiệm đã cho thấy các thuật toán đề xuất cho kết

quả nổi trội so với các thuật toán giải bài toán dóng hàng nhiều mạng các vị trí

liên kết protein mới nhất.

2.2. Thuật toán dựa trên ACO

Trong chương 1, chúng tôi đã giới thiệu hai thuật toán Greedy do

Weskamp [Weskamp et al., 2007] và GAVEO do Fober [Fober et al., 2009] đề

xuất để giải quyết bài toán dóng hàng nhiều mạng các vị trí liên kết protein.

Thuật toán Greedy theo cách tiếp cận tham lam nên có thời gian chạy nhanh,

54

tuy nhiên chất lượng lời giải rất thấp. Thuật toán GAVEO áp dụng giải thuật di

truyền nên có chất lượng lời giải tốt, tuy nhiên thời gian chạy lâu và sử dụng

lại nhiều lời giải của các bước lặp trước.

Để khắc phục các nhược điểm trên, trong mục này luận án đề xuất thuật

toán mới dựa trên thuật toán tối ưu hóa đàn kiến kết hợp với tìm kiếm cục bộ

có tên là ACO-MGA để giải bài toán dóng hàng nhiều mạng các vị trí liên kết

protein.

Như đã phân tích ở mục 1.2.2.7 của chương 1, phương pháp ACO phù

hợp với các bài toán trên mô hình đồ thị và có một số ưu điểm so với giải thuật

di truyền. Thuật toán đề xuất áp dụng phương pháp ACO để xây dựng các dóng

hàng nhiều đồ thị vừa khai thác được các thông tin heuristic của thuật toán

Greedy, vừa khai thác được thông tin học tăng cường thông qua việc cập nhật

vết mùi.

Các kết quả mà chúng tôi trình bày dưới đây đã được giới thiệu trong

công trình 1.

2.2.1. Đồ thị cấu trúc

Xét bài toán dóng hàng cho đa đồ thị G ={G1(V1,E1),…,Gn(Vn,En), trong

đó mỗi đồ thị biểu diễn một mạng các vị trí liên kết protein, sau khi bổ sung nút

giả vào tập đỉnh của các đồ thị Gi như đã nói ở trên, đồ thị cấu trúc và thủ tục

xây dựng lời giải như sau.

Đồ thị cấu trúc gồm n tầng, tầng thứ i là đồ thị Gi của G, các đỉnh của

tầng trên đều có cạnh kết nối với các đỉnh tầng dưới. Hình 2.3 minh họa đồ thị

cấu trúc, trong đó không hiển thị các cạnh ở mỗi đồ thị trong mỗi tầng, nút hình

tròn là nút thực còn nút biểu diễn bởi hình vuông là nút giả.

55

Hình 2.3. Đồ thị cấu trúc khi dóng hàng n đồ thị, trong đó mỗi đồ thị có 2

hoặc 3 nút thực

Một dóng hàng của n đồ thị theo định nghĩa 2.2 ở trên là một tập đường

đi từ G1 qua mọi tầng đến Gn sao cho mỗi đường chỉ đi qua một đỉnh của mỗi

tầng và mỗi đỉnh thực của đồ thị cấu trúc đều có đúng một đường đi qua, riêng

các đỉnh giả thì cho phép có nhiều đường qua nó. Tập đường đi này có thể xem

là chỉ 1 đường duy nhất như quan niệm của thuật toán ACO thông dụng với

ngầm định rằng đường này khởi đầu từ một đỉnh của G1 đi qua các đồ thị kế

tiếp, khi đến tầng đầu hoặc tầng cuối thì “bước” sang đỉnh khác cùng tầng rồi

quay lại cho đến khi qua hết mọi đỉnh thực mỗi đỉnh đúng một lần.

2.2.2.Thủ tục bước ngẫu nhiên để xây dựng một dóng hàng

Trong mỗi bước lặp, mỗi con kiến sẽ thực hiện lặp quá trình xây dựng

các vectơ a = (a1,…,an) cho một dóng hàng 𝐴 như sau.

56

Kiến chọn ngẫu nhiên một đỉnh thực trên đồ thị cấu trúc và dựa trên

thông tin heuristic và vết mùi để bước ngẫu nhiên xây dựng lời giải. Để dễ hình

dung, ta giả thiết đỉnh thực này ở G1 (được ký hiệu là a1, kiến sẽ bước ngẫu

nhiên qua các tầng để đến Gn như sau. Nếu kiến đã xây dựng được vectơ

(a1,…,ai) trong đó aq là đỉnh j trong Gi thì nó chọn đỉnh k trong Gi+1 với xác suất

cho bởi công thức (2.4):

, (2.4)

trong đó:

𝑖  [0,1] là cường độ vết mùi của cạnh nối đỉnh j của Gi tới đỉnh k của

 R_Vi là số đỉnh còn lại chưa dóng hàng trên Vi kể cả nút giả,

 𝜏𝑗,𝑘

Gi+1 , cường độ vết mùi được tính theo các công thức giới thiệu ở mục

2.3.3.

 α, β là 2 hằng số chọn trước để thể hiện mức độ ảnh hưởng của thông

tin heuristic và thông tin vết mùi đối với việc lựa chọn đỉnh tiếp theo

được dóng hàng. Trong các thuật toán đề xuất 2 tham số này thường

được chọn là 1, thể hiện thông tin heuristic và thông tin vết mùi có ảnh

𝑖 (𝑎) là thông tin heuristic được tính bởi công thức (2.5).

hưởng như nhau trong quá trình kiến xác định đỉnh được dóng hàng.

𝑁𝐿(𝑘,𝑎)

 𝜂𝑗,𝑘

𝑖 (𝑎) = { 𝜂𝑗,𝑘

𝑖 𝜂𝑚𝑖𝑛

𝑘 là đỉnh thực , (2.5) 𝑘 là đỉnh giả

trong đó NL(k,a) là số đỉnh trong {a1,…ai} có nhãn trùng với nhãn l(k)

của đỉnh k, 𝜂𝑚𝑖𝑛 > 0 là giá trị đủ bé cho trước. Theo công thức 2.5, các

đỉnh có nhãn trùng với nhãn của các đỉnh đã được dóng hàng trên vectơ

57

dóng hàng a sẽ được ưu tiên dóng hàng trước, và các đỉnh giả sẽ có xác

suất được lựa chọn nhỏ.

Sau khi vectơ a được phát triển hết thành a=(a1,…an) thì các đỉnh thực

trong a bị loại ra khỏi đồ thị cấu trúc để tiếp tục lặp thủ tục dóng hàng của kiến

đến khi mọi đỉnh thực đã được dóng hàng. Quá trình dóng hàng của kiến được

minh họa trong hình 2.4, trong đó đỉnh giả đánh số -1, các đỉnh khác đánh số

0,1, 2, v.v. theo thứ tự của các đỉnh trong đồ thị thực.

Lưu ý rằng nếu đỉnh thực được chọn ban đầu không thuộc G1 mà là Gm

thì thủ tục trên gồm hai quá trình dóng dần từ Gm tới Gn và dóng ngược từ Gm

tới G1

Hình 2.4. Kiến xây dựng lời giải

58

2.2.3. Qui tắc cập nhật mùi

Ban đầu thông tin vết mùi được khởi tạo bằng giá trị max cho trước. Sau

khi các con kiến đã tìm được lời giải, các lời giải của bước lặp được đánh giá

và chọn lời giải tốt nhất để thực hiện tìm kiếm địa phương cải tiến chất lượng

lời giải rồi thực hiện cập nhật mùi.

Vết mùi được cập nhật theo quy tắc cập nhật mùi SMMAS như trong

công thức 2.6:

, (2.6)

Trong đó: . (2.7)

Với hệ số bay hơi , max và min là các tham số cho trước.

2.2.4.Thủ tục tìm kiếm cục bộ

Thủ tục tìm kiếm địa phương được áp dụng cho lời giải tốt nhất. Trong

thủ tục này, các cặp đỉnh cùng nhãn trong mỗi đồ thị Gi được chọn ngẫu nhiên

sẽ đổi chỗ cho nhau trong vectơ dóng hàng của nó để cải thiện độ phù hợp của

trọng số ở các cạnh liên quan. Nếu sau khi đổi chỗ, hàm đánh giá chất lượng

tăng lên thì lời giải nhận được sẽ thay thế cho lời giải tốt nhất và dừng thủ tục

tìm kiếm của lần lặp để cập nhật mùi.

Một phép hoán vị hai đỉnh cùng nhãn A được minh họa trong hình 2.5,

trong đó các vectơ dóng hàng là một hàng dọc, các chữ cái là nhãn của thành

phần tương ứng.

59

Hình 2.5. Một hoán vị cặp đỉnh có cùng nhãn trong thủ tục tìm kiếm địa

phương

2.3. Thuật toán theo lược đồ memetic

Ở mục 2.2, chúng tôi đã trình bày về thuật toán ACO-MGA áp dụng để

giải bài toán dóng hàng nhiều mạng. Mặc dù thuật toán ACO-MGA cho chất

lượng lời giải tốt hơn so với thuật toán GAVEO, tuy nhiên vẫn có những hạn

chế nhất định trong cách xác định thông tin heuristic và thủ tục tìm kiếm cục

bộ được thực hiện trong tất cả các vòng lặp kể cả khi chất lượng lời giải chưa

đủ tốt dẫn tới thuật toán chưa đạt hiệu quả cao.

Mục này chúng tôi sẽ trình bày về một thuật toán mới là sự cải tiến của

thuật toán ACO-MGA, thuật toán mới đề xuất gọi là ACO-MGA2 có một số

cải tiến sau:

 Thay đổi cách xác định thông tin heuristic, không phụ thuộc tham

số min như thuật toán ACO-MGA.

 Sử dụng cách cập nhật vết mùi mới chia thành 2 giai đoạn để khai

thác hiệu quả thông tin học tăng cường hoặc tăng cường tính khám

phá của thuật toán theo từng giai đoạn khác nhau.

 Chiến lược tìm kiếm cục bộ áp dụng theo lược đồ memetic, chỉ áp

dụng trong giai đoạn cuối của thuật toán khi chất lượng lời giải do

các kiến xây dựng đủ tốt. Thủ tục tìm kiếm cục bộ trong ACO-

60

MGA2 ngoài việc hoán vị các đỉnh có cùng nhãn còn xét các cặp

đỉnh có nhãn khác nhau nên có thể cải thiện chất lượng lời giải tốt

hơn ACO-MGA.

Các thực nghiệm cũng được tiến hành trên các bộ dữ liệu sinh học đã

được công bố trong các bài báo khoa học có uy tín như mô tả trong mục 2.5.1

Các kết quả thực nghiệm được trình bày ở mục 2.5.2 cho thấy thuật toán

ACO-MGA2 cho chất lượng lời giải tốt hơn so với các cách tiếp cận trước đó.

Các kết quả nghiên cứu đã được trình bày trong công trình 2. Các phần

dưới đây giới thiệu chi tiết về thuật toán này.

2.3.1. Lược đồ chung

Xét bài toán dóng hàng một tập G các đồ thị

G ={G1(V1,E1),…,Gn(Vn,En) trong đó mỗi đồ thị được bổ sung các đỉnh giả.

Thuật toán ACO-MGA2 được xây dựng theo lược đồ memetic, trong đó sử

dụng thuật toán ACO để sinh ra tập các lời giải. ACO-MGA2 sử dụng đồ thị

cấu trúc giống thuật toán ACO-MGA nhưng khai thác thông tin heuristic hiệu

quả hơn và chỉ sử dụng tìm kiếm cục bộ trong các vòng lặp cuối.

Thuật toán ACO-MGA2 được đặc tả trong thuật toán 2.1.

61

Thuật toán 2.1: Thuật toán ACO-MGA2

Input: Tập các đồ thị G ={G1(V1,E1),…,Gn(Vn,En)

Output: Dóng hàng tốt nhất cho tập đồ thị G:

Begin

Khởi tạo;

while (Chưa thỏa mãn điều kiện dừng) do

for each a A do

Kiến a xây dựng một dóng hàng cho tập các đồ thị;

Tìm kiếm cục bộ trên lời giải tốt nhất //Chỉ áp dụng ở giai đoạn 2

//Tìm kiếm bằng cách đổi vị trí của các đỉnh khác nhãn.

//Tìm kiếm bằng cách đổi vị trí của các đỉnh cùng nhãn.

Cập nhật vết mùi theo quy tắc SMMAS;

Cập nhật lại lời giải tốt nhất;

end for;

end while;

Lưu lại lời giải tốt nhất;

end;

Đầu tiên thuật toán khởi tạo các tham số và các kiến nhân tạo. Sau bước

khởi tạo, thuật toán ACO-MGA2 thực hiện các vòng lặp theo 2 giai đoạn như

mô tả trong thuật toán 2.1.

Giai đoạn đầu, trong mỗi vòng lặp, các kiến xây dựng lời giải trên đồ thị cấu

trúc dựa trên thông tin heuristic và vết mùi. Sau đó lời giải tốt nhất của các kiến

được lựa chọn để cập nhật vết mùi theo quy tắc cập nhật mùi SMMAS, đồng

thời cập nhật lại lời giải tốt nhất toàn cục.

62

Giai đoạn 2 của thuật toán, trong mỗi vòng lặp, sau khi các kiến xây dựng

xong các lời giải, 2 kỹ thuật tìm kiếm cục bộ được áp dụng để tìm lời giải tốt

nhất của mỗi vòng lặp. Do sự phù hợp về nhãn của các đỉnh được tính điểm cao

hơn so với sự phù hợp về trọng số cạnh (theo công thức 2.1) nên thủ tục thay

đổi vị trí của các đỉnh khác nhãn trên các véctơ dóng hàng được thực hiện trước.

Thủ tục này được áp dụng theo chiến lược tìm được lời giải tốt nhất thì dừng,

có nghĩa là sẽ tìm kiếm từ đồ thị đầu tiên cho đến đồ thị cuối cùng để tìm lời

giải tốt nhất có thể. Chiến lược tìm kiếm thứ 2 là hoán đổi vị trí của các đỉnh

cùng nhãn nhằm mục đích tăng số cạnh có sự tương đồng về trọng số.

Sau khi tìm kiếm cục bộ, thuật toán sẽ cập nhật lại vết mùi theo qui tắc

SMMAS dựa trên lời giải tốt nhất tìm được.

2.3.2. Đồ thị cấu trúc

Đồ thị cấu trúc của thuật toán ACO-GMA2 được sử dụng giống như thuật

toán ACO-MGA.

2.3.3. Vết mùi và thông tin heuristic

𝑖 Vết mùi 𝜏𝑗,𝑘

kết nối đỉnh j của đồ thị Gi với đỉnh k ở đồ thị Gi+1 được khởi

𝑖 (𝑎)được tính bởi công thức 2.8.

tạo bằng 𝜏𝑚𝑎𝑥 và được cập nhật lại sau các vòng lặp.

Thông tin heuristic 𝜂𝑗,𝑘

, (2.8)

Trong đó count(k,a) là số lượng đỉnh trên véc tơ {a1,…ai} có nhãn trùng với

nhãn của đỉnh k trong trường hợp k là đỉnh thực, Vmax là số lượng đỉnh của đồ

thị có nhiều đỉnh nhất.

63

Ý tưởng của việc khai thác thông tin heuristic ở đây là ưu tiên những đỉnh

có cùng nhãn với các đỉnh đã được dóng hàng sẽ được dóng hàng trước và đặt

tỷ lệ rất nhỏ cho việc lựa chọn các đỉnh giả để dóng hàng.

2.3.4. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng

Tại mỗi vòng lặp, mỗi kiến sẽ lặp lại quá trình xây dựng véc tơ a = (a1,…,

an) cho dóng hàng A như sau.

Kiến chọn ngẫu nhiên một đỉnh thực chưa được dóng hàng từ đồ thị cấu

trúc làm đỉnh xuất phát. Kiến tiếp tục dựa trên thông tin heuristic và vết mùi

để tuần tự xác định các đỉnh được dóng với đỉnh xuất phát trên các đồ thị ở

các tầng tiếp theo. Các đỉnh này được lựa chọn một cách ngẫu nhiên với xác

suất được cho bởi công thức 2.4 tương tự như thuật toán ACO-MGA.

2.3.5. Qui tắc cập nhật vết mùi

Sau khi các con kiến đã tìm được lời giải (ở giai đoạn đầu) hoặc đã thực

hiện tìm kiếm địa phương (trong giai đoạn 2), các cường độ vết mùi được

cập nhật theo quy tắc cập nhật mùi SMMAS như trong các công thức 2.6 và

2.7.

Lưu ý rằng trong công thức 2.6, tham số  quy định hai tính chất: tìm

kiếm tăng cường quanh lời giải tốt tìm được và khám phá lời giải mới,  nhỏ

thì chú trọng tìm kiếm tăng cường còn  lớn thì chú trọng tính khám phá.

Việc cập nhật mùi của thuật toán ACO-MGA2 cải tiến so với thuật toán

ACO-MGA ở điểm thuật toán ACO-MGA2 sử dụng 2 tham số  ở 2 giai

đoạn khác nhau. Giai đoạn đầu không sử dụng tìm kiếm địa phương nên

tham số  được thiết lập nhỏ hơn để khai thác tốt thông tin học tăng cường,

64

còn giai đoạn 2 khi áp dụng tìm kiếm cục bộ thì tham số này được thiết lập

lớn hơn để tăng tính khám phá.

2.3.6. Thủ tục tìm kiếm cục bộ

Thủ tục tìm kiếm cục bộ thực hiện tuần tự trên đồ thị G1 đến đồ thị Gn

theo nguyên tắc tìm được kết quả tốt nhất thì dừng. Thủ tục này gồm hai kỹ

thuật: đổi các đỉnh cùng nhãn và đổi các đỉnh khác nhãn.

1) Đổi các đỉnh khác nhãn. Đổi vị trí trên cặp vectơ dóng hàng tương

ứng với mỗi cặp đỉnh khác nhãn của đồ thị Gi đang xét nếu việc đổi chỗ đó

làm tăng số lượng các đỉnh cùng nhãn trên các véctơ dóng hàng.

2) Đổi các đỉnh cùng nhãn. Đổi vị trí trên cặp vectơ dóng hàng tương

ứng với mỗi cặp đỉnh cùng nhãn của đồ thị Gi đang xét nếu việc đổi vị trí đó

cải thiện độ phù hợp của trọng số ở các cạnh liên quan.

Nếu sau khi đổi chỗ, hàm đánh giá chất lượng tăng lên thì lời giải nhận

được sẽ thay thế cho lời giải tốt nhất lúc đó. Quá trình này được lặp lại cho

đến khi tìm được lời giải tốt nhất.

Trong công thức 2.1 tính tương thích của các đỉnh cải thiện giá trị hàm

mục tiêu nhiều hơn sự phù hợp trọng số cạnh nên ta ưu tiên đổi đỉnh khác

nhãn trước. Vì vậy, với mỗi dóng hàng, ta chỉ thực hiện đổi đỉnh cùng nhãn

sau khi đã thực hiện xong quá trình tìm kiếm nhờ đổi đỉnh khác nhãn.

Vì thủ tục tìm kiếm cục bộ tốn thời gian nên chỉ áp dụng cho giai đoạn

hai, khi lời giải tốt nhất tìm được đủ tốt.

2.4. Thuật toán memetic mới kết hợp ACO và tìm kiếm Tabu

Mục 2.3 giới thiệu một thuật toán memetic để giải bài toán dóng hàng

nhiều mạng các vị trí liên kết protein có tên là ACO-MGA2, các đánh giá so

sánh đã cho thấy ưu điểm của thuật toán này với các thuật toán trước đó được

65

thực hiện trên các bộ dữ liệu thực. Tuy nhiên ACO-MGA2 có những hạn chế

trong cách xác định thông tin heuristic và thủ tục tìm kiếm cục bộ nên mục này

giới thiệu một thuật toán memetic mới gọi là ACOTS-MGA với một số cải tiến

so với ACO-MGA2 để giải bài toán dóng hàng các mạng các vị trí liên kết

protein.

Thuật toán ACOTS-MGA có những cải tiến so với thuật toán ACO-

MGA2 bao gồm:

 Khi sử dụng phương pháp tối ưu đàn kiến để tìm lời giải, thuật

toán ACOTS-MGA cải tiến thủ tục bước ngẫu nhiên sử dụng chiến

lược Beam search. Thay vì tìm kiếm trên toàn bộ tập các đỉnh chưa

được dóng hàng, thuật toán mới chỉ tìm kiếm trên tập các đỉnh có

cùng nhãn với các đỉnh đã được dóng hàng, điều này làm giảm

không gian tìm kiếm, và cách xác định thông tin heuristic cũng có

sự thay đổi cho phù hợp.

 Về quy tắc cập nhật mùi, thuật toán ACOTS-MGA cập nhật vết

mùi theo 3 mức, trong đó thể hiện sự phân biệt mức độ ưu tiên

khác nhau của lời giải tốt nhất của vòng lặp, với lời giải tốt nhất

toàn cục.

 Cải tiến thứ 3 là sử dụng tìm kiếm Tabu thay cho tìm kiếm cục bộ

để hạn chế việc lặp lại những bước chuyển đã được xét như trong

thuật toán ACO-MGA2.

Các kết quả nghiên cứu đã được trình bày trong công trình 6. Phần dưới

đây chúng tôi sẽ phân tích chi tiết về thuật toán này.

66

2.4.1. Đồ thị cấu trúc

Đồ thị cấu trúc của thuật toán ACOTS-MGA được sử dụng giống như thuật

toán ACO-MGA2.

2.4.2. Thông tin heuristic

Vì thuật toán ACOTS-MGA sử dụng chiến lược Beam search trong quá

trình bước ngẫu nhiêu của các kiến. Trong đó chỉ xét các đỉnh có cùng nhãn với

các đỉnh đã dóng hàng trên véctơ dóng hàng, nên thông tin heuristic sẽ không

𝑖 (𝑎) là số

xét đến sự phù hợp về nhãn của các đỉnh mà tập trung vào tính tương thích về

cạnh của các đỉnh được dóng hàng. Vì vậy, thông tin heuristic 𝜂𝑗,𝑘

điểm cạnh tính theo công thức (2.3) khi đỉnh k của đồ thị Gi+1 được dóng với

đỉnh j của đồ thị Gi

2.4.3. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng

Tại mỗi vòng lặp, mỗi kiến sẽ lặp lại quá trình xây dựng các véctơ dóng hàng

a = (a1,…, an) cho dóng hàng A như sau.

Kiến lựa chọn ngẫu nhiên một đỉnh thực ở tầng 1 là đỉnh khởi tạo. Tại các

tầng tiếp theo, ký hiệu là tập các nhãn của các đỉnh thuộc véctơ dóng

hàng a, gọi là tập các đỉnh thuộc đồ thị Gi có

nhãn trùng với nhãn của các đỉnh thuộc véctơ dóng hàng. Trong trường hợp

không có đỉnh nào có nhãn trùng với nhãn của các đỉnh đã được dóng hàng, Bi

sẽ là tập các đỉnh còn lại chưa được dóng hàng. Kiến sẽ lựa chọn ngẫu nhiên 1

đỉnh trong Bi với xác suất được cho ở công thức 2.9.

Để dễ hình dung, giả sử véctơ dóng hàng đã được xây dựng từ đỉnh a1 của

đồ thị G1 và thực hiện thủ tục bước ngẫu nhiên để phát triển đến đỉnh ai của đồ

thị Gi khi đó sẽ lựa chọn đỉnh thứ k thuộc đồ thị Gi +1 với xác suất là:

67

. (2.9)

Sau khi xây dựng đầy đủ véctơ a=(a1,…,an), các đỉnh thực thuộc véctơ này

sẽ bị loại bỏ khỏi đồ thị cấu trúc để tiếp tục quá trình xây dựng các véctơ dóng

hàng cho đến khi tất cả các đỉnh đều được dóng hàng.

2.4.4. Qui tắc cập nhật vết mùi

Khác với thuật toán ACO-MGA2, việc cập nhật mùi của ACOTS-MGA

được thực hiện theo các công thức 2.10 và 2.11.

, (2.10)

(2.11) .

Các tham số max,min và ∈ (0,1) được khởi tạo tương tự như thuật toán

ACO-MGA2. Trong thuật toán ACOTS-MGA luận án sử dụng thêm tham số

mid để cập nhật mùi trong trường hợp lời giải mới mà các kiến tìm được là lời

giải tốt nhất của vòng lặp nhưng chưa phải là lời giải tốt nhất toàn cục. Tham

số này được thiết lập nhỏ hơn max với ý nghĩa là lời giải tốt nhất toàn cục sẽ để

lại lượng vết mùi lớn hơn so với lời giải tốt nhất của vòng lặp.

2.4.5. Thủ tục tìm kiếm Tabu

Trong các vòng lặp cuối của thuật toán ACOTS-MGA, thuật toán tìm kiếm

Tabu được áp dụng để tăng cường chất lượng lời giải.

Thủ tục tìm kiếm Tabu sẽ duyệt lần lượt các đỉnh của các đồ thị, với mỗi đồ

thị sẽ thực hiện việc hoán vị các cặp đỉnh trên các véctơ dóng hàng. Nếu việc

68

hoán vị này làm tăng điểm đánh giá thì lời giải tốt nhất sẽ được cập nhật bằng

lời giải hiện tại. Khác với thủ tục tìm kiếm cục bộ, thủ tục Tabu Search này có

sử dụng một danh sách Tabu để lưu lại các bước chuyển. Các bước chuyển nằm

trong danh sách Tabu sẽ không được xét lại nữa để tránh lặp lại các bước

chuyển. Vì vậy với cùng thời gian như tìm kiếm cục bộ, số lần áp dụng tìm

kiếm Tabu sẽ nhiều hơn để tăng chất lượng lời giải.

Một khác biệt nữa so với thuật toán ACO-MGA2 là thủ tục tìm kiếm cục bộ

của ACO-MGA2 chỉ được gọi một lần trong mỗi vòng lặp, còn trong thuật toán

ACOTS-MGA, thủ tục tìm kiếm Tabu được gọi lặp lại nhiều lần cho đến khi

không cải thiện được chất lượng lời giải nữa hoặc có thể ấn định số lần thực

hiện.

2.5. Các kết quả thực nghiệm

2.5.1. Dữ liệu thực nghiệm

Khi đánh giá hiệu quả các thuật toán, việc lựa chọn dữ liệu là rất quan

trọng, để đảm bảo sự khách quan, luận án sử dụng lại các bộ dữ liệu thực đã

được sử dụng để đánh giá hiệu quả của các thuật toán tham lam Greedy do

Weskamp [Weskamp et al., 2007] và thuật toán GAVEO do Thomas Fober

[Fober et al., 2009] đề xuất. Các công trình do 2 tác giả đề xuất đã được đăng

tải trên các tạp chí uy tín nên bộ dữ liệu thực nghiệm được lựa chọn có thể đảm

bảo về độ tin cậy và khách quan.

Dữ liệu thực nghiệm bao gồm 74 cấu trúc sinh ra từ cơ sở dữ liệu

Cavbase. Mỗi cấu trúc biểu diễn cho một protein cavity thuộc họ protein của

thermolysin, vi khuẩn protease thường được sử dụng trong phân tích cấu trúc

protein và được chú thích với số hiệu EC 3.4.24.27 trong cơ sở dữ liệu enzyme.

69

Trong bộ dữ liệu này, mỗi đồ thị sinh ra có từ 42 đến 95 đỉnh. Từ 74 cấu

trúc đó, các đồ thị được lựa chọn ngẫu nhiên để sinh ra các tập dữ liệu gồm 4,

8, 16, 32 đồ thị để tiến hành chạy thực nghiệm các thuật toán.

2.5.2. Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy

và GAVEO

Thực nghiệm nhằm so sánh ACO-MGA với hai thuật toán Greedy và

thuật toán tiến hóa GAVEO về chất lượng lời giải và thời gian chạy. Các thực

nghiệm bao gồm:

1) Chạy các thuật toán trên cùng một bộ dữ liệu với số vòng lặp định trước

để so sánh về chất lượng dóng hàng và thời gian chạy.

2) Chạy các thuật toán trên cùng một bộ dữ liệu với cùng một thời gian

định trước để so sánh về chất lượng dóng hàng.

Các thí nghiệm của chúng tôi được thực hiện trên máy tính có cấu hình:

CPU Dual Core 2.2Ghz, RAM DDR3 3GB trên hệ điều hành Windows XP

SP3.

Đối với thuật toán ACO-MGA, sau khi tiến hành thực nghiệm với các

giá trị khác nhau của từng tham số, chúng tôi thấy rằng với các giá trị của các

tham số như dưới đây sẽ cho kết quả lời giải tốt nhất, vì vậy trong các thực

nghiệm các tham số của thuật toán được thiết lập như sau:

 Số kiến trong mỗi lần lặp là 20 ;

 =0.06, 𝛼 = 𝛽 = 1;

2), trong đó n là số đồ thị, Vmax là số đỉnh

 max = 1.0 và min = max/(n2.Vmax

của đồ thị có nhiều đỉnh nhất.

Trong thời gian đầu tiến hành nghiên cứu bài toán MGA, do chưa có dữ

liệu thực, chúng tôi sinh ngẫu nhiên các tập dữ liệu thực nghiệm là các tập đồ

thị với các đồ thị có 20 và 50 đỉnh, số đồ thị lần lượt là 4,8,16 và 32.

70

2.5.2.1. So sánh về hiệu quả và thời gian chạy

Bảng 2.1 và bảng 2.2 dưới đây là kết quả so sánh các thuật toán

ACO-MGA, GAVEO và Greedy về điểm chất lượng dóng hàng và thời gian

chạy của các thuật toán. Bảng 2.1 là kết quả dóng hàng ứng với các đồ thị có

trung bình là 20 đỉnh và bảng 2.2 là kết quả ứng với các đồ thị có trung bình là

50 đỉnh. Các kết quả tốt hơn được thể hiện bằng chữ in đậm, thời gian chạy

ngắn hơn được thể hiện bằng chữ in nghiêng, đậm.

Bảng 2.1. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ

liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 20 đỉnh.

Thuật toán/Số đồ thị 4 8 16 32

Điểm -40 -570 -1055 -35 Greedy Thời gian (s) 0.6 2.3 6 17

Điểm -20 65 45 1132 GAVEO 249 Thời gian (s) 501 1087.7 2484.1

Điểm 124 696 1480 7289 ACO-MGA Thời gian (s) 33.6 231.5 481.2 1266

Bảng 2.2. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ

liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 50 đỉnh

Thuật toán/Số đồ thị 4 8 16 32

Điểm -1144 -4704 -31004 -155508 Greedy Thời gian (s) 4.8 11.3 49 210.8

Điểm -101 -75 -10872 -33698 GAVEO Thời gian (s) 1164 2739.1 6921.3 16340.8

Điểm 685 3338 1273 -18643 ACO-MGA Thời gian (s) 763.4 6523.5 12670.5 28859.8

Kết quả thực nghiệm cho thấy rằng:

71

 Trong cả 2 trường hợp các đồ thị gồm 20 đỉnh và đồ thị 50 đỉnh thì thuật

toán Greedy đều cho thời gian chạy rất nhanh so với 2 thuật toán còn lại.

Tuy nhiên kết quả về điểm dóng hàng của thuật toán này lại rất thấp so

với GAVEO và ACO-MGA.

 Thuật toán ACO-MGA cho chất lượng dóng hàng tốt hơn thuật toán

GAVEO. Với các đồ thị 20 đỉnh, thời gian chạy của ACO-MGA nhanh

hơn so với GAVEO nhưng khi số đỉnh trong đồ thị tăng lên thì thời gian

chạy của GAVEO nhanh hơn khi số đồ thị vượt quá 4. Tuy nhiên, thực

nghiệm ở mục sau cho thấy cùng thời gian chạy thì ACO-MGA vẫn cho

kết quả tốt hơn nhiều.

 Trong một số trường hợp, điểm chất lượng dóng hàng của các thuật toán

là số âm. Điều này có thể giải thích là do khi tính điểm dóng hàng theo

các công thức 2.1, 2.2 và 2.3. Điểm dóng hàng phụ thuộc vào các tham

số nsm = 1.0; nsmm = -5.0; ns = -2.5; esm = 0.2; esmm =-0.1, ε =0.2. Trong

đó nsmm = -5.0; ns = -2.5 là điểm phạt khi 2 đỉnh dóng hàng có nhãn

khác nhau hoặc dóng hàng một đỉnh thực với 1 đỉnh giả (ký hiệu ).

Tham số esmm =-0.1 là điểm phạt khi các cạnh được dóng hàng không

tương thích về trọng số. Khi dóng hàng cùng lúc nhiều đồ thị với số lượng

các đỉnh khác nhau nhiều sẽ dẫn tới hàm đánh giá có kết quả âm.

2.5.2.2. So sánh ACO-MGA với GAVEO với cùng thời gian chạy

Vì thuật toán Greedy có thời gian chạy ngắn nhưng lại có điểm thấp nên

luận án chỉ tiến hành các thí nghiệm để so sánh hiệu quả của thuật toán GAVEO

và thuật toán ACO-MGA với cùng thời gian chạy.

Thực nghiệm thứ nhất các thuật toán được chạy trên cùng một bộ dữ liệu

và cùng thời gian chạy. Các bộ dữ liệu thực nghiệm gồm có 8, 16 và 32 đồ thị.

72

mà các đồ thị có trung bình là 20 đỉnh và thời gian chạy là 50s, 150s và 200s.

Kết quả thí nghiệm được thể hiện ở bảng 2.3, bảng 2.4 và bảng 2.5.

Bảng 2.3. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian

chạy là 50s.

Thuật toán/Số đồ thị 8 16 32

GAVEO 57 46 -1327

ACO-MGA 690 2004 6511

Bảng 2.4. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian

chạy là 150s

Thuật toán/Số đồ thị 8 16 32

GAVEO 75 35 953

ACO-MGA 690 2181 7166

Bảng 2.5. So sánh điểm chất lượng dóng hàng S(A)với các bộ dữ liệu là 8,16

và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian

chạy là 200s

Thuật toán/Số đồ thị 8 16 32

GAVEO 74 -38 1254

ACO-MGA 690 2262 10060

Thực nghiệm thứ 2, luận án tiến hành chạy các thuật toán ACO-MGA và

GAVEO trên các bộ dữ liệu gồm có lần lượt là 4, 8, 16 và 32 đồ thị, các đồ thị

có trung bình là 50 đỉnh và thời gian chạy lần lượt là 200s, 300s và 600s. Kết

73

quả của thực nghiệm này được thể hiện trong bảng 2.6, 2.7 và bảng 2.8. Các

kết quả tốt hơn thể hiện bằng chữ in đậm.

Bảng 2.6. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4,

8,16 và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời

gian chạy là 200s

Thuật toán/Số đồ thị 4 8 16 32

GAVEO -107 -98 -16341 -150400

ACO-MGA 674 2699 -99 -30583

Bảng 2.7. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4,

8,16 và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời

gian chạy là 300s

Thuật toán/Số đồ thị 4 8 16 32

GAVEO -103 57 -6977 -124198

ACO-MGA 737 2744 637 -25648

Bảng 2.8. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4,

8,16 và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời

gian chạy là 600s

Thuật toán/Số đồ thị 4 8 16 32

GAVEO -107 -77 -5282 -96123

ACO-MGA 673 2898 744 -16945

Các kết quả thực nghiệm được trình bày ở các bảng trên cho thấy khi so

sánh 2 thuật toán ACO-MGA và GAVEO với cùng một bộ dữ liệu, trên cùng

74

một cấu hình máy và cùng thời gian chạy thì thuật toán ACO-MGA cũng cho

kết quả tốt hơn nhiều so với thuật toán GAVEO

2.5.3. Thực nghiệm so sánh các thuật toán ACOTS-MGA, ACO-MGA2,

GAVEO và Greedy

Vì ACO-MGA2 được cải tiến từ ACO-MGA, với nhiều cải tiến đã được

phân tích trong phần đầu của mục 2.3 đảm bảo thuật toán cho chất lượng lời

giải tốt hơn so với ACO-MGA, nên các thực nghiệm ở đây chỉ so sánh các

thuật toán ACOTS-MGA, ACO-MGA2 với hai thuật toán Greedy và thuật

toán tiến hóa GAVEO về chất lượng lời giải và thời gian chạy.

Thực nghiệm thực hiện như sau:

1) Chạy các thuật toán trên cùng một bộ dữ liệu với số vòng lặp định trước

để so sánh về chất lượng dóng hàng và thời gian chạy.

2) Chạy các thuật toán trên cùng một bộ dữ liệu với cùng một thời gian định

trước để so sánh về chất lượng dóng hàng. Thời gian chạy được thay đổi

tăng dần để đánh giá tính hội tụ

Các thuật toán đều được chạy lại trên máy tính có cấu hình: CPU Dual

Core 3 Ghz, RAM DDR2 4GB trên hệ điều hành Windows 7.

Thuật toán GAVEO sử dụng các tham số được lựa chọn như trong bài

báo [Fober et al., 2009]. Đối với 2 thuật toán ACO-MGA2 và ACOTS-MGA,

sau khi tiến hành thực nghiệm với các giá trị khác nhau của các tham số. Các

bộ tham số mà các thuật toán cho chất lượng lời giải tốt nhất được lựa chọn.

Các tham số cụ thể như sau:

Thuật toán ACO-MGA2

 Số kiến trong mỗi lần lặp là 30 ;

 1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;

75

2), trong đó n là số đồ thị, Vmax là số

 max = 1.0 và min = max/(n2.Vmax

nút của đồ thị có nhiều nút nhất.

 Thủ tục tìm kiếm cục bộ được gọi trong 30% số vòng lặp cuối cùng.

Thuật toán ACOTS-MGA

 Số kiến trong mỗi lần lặp là 30 ;

 1=0.3, 2=0.7, 𝛼 = 𝛽 = 1;

2) và mid=0.8;

 max = 1.0, min = max/(n2.Vmax

 Thủ tục tìm kiếm cục bộ được gọi trong 20% số vòng lặp cuối cùng.

2.5.3.1. So sánh về chất lượng lời giải và thời gian chạy

Trong thực nghiệm này, chúng tôi chạy các thuật toán trên cùng bộ dữ

liệu đã được giới thiệu ở mục 2.5.1 với số vòng lặp định trước. Để so sánh chất

lượng lời giải và thời gian chạy của các thuật toán, chúng tôi chạy mỗi thuật

toán trên các máy tính có cùng cấu hình, mỗi thuật toán chạy 20 lần và lấy giá

trị trung bình của 20 lần chạy để so sánh.

Chất lượng lời giải và thời gian chạy của các thuật toán được thể hiện lần

lượt trong các bảng 2.9 và 2.10.

Bảng 2.9. So sánh chất lượng lời giải của các thuật toán với các tập dữ liệu

gồm 4, 8, 16 và 32 đồ thị

Thuật toán/Số đồ thị 4 8 16 32

-4098 -11827 -56861 -267004 Greedy

-1224 -2729 -10604 -63205 GAVEO

-972 -2277 -7857 -53960 ACO-MGA2

ACOTS-MGA -963 -1089 -5671 -42216

76

Bảng 2.10. So sánh thời gian chạy (tính theo giây) của các thuật toán với các

tập dữ liệu gồm 4, 8, 16 và 32 đồ thị

Thuật toán/Số đồ thị 4 8 16 32

1892 2851 10067 GAVEO 20671

272 1374 18005 ACO-MGA2 4151

6839 53800 ACOTS-MGA 171 809

Nhận xét: Các kết quả thực nghiệm trong bảng 2.9 cho thấy thuật toán

ACOTS-MGA cho chất lượng lời giải tốt hơn Greedy, GAVEO và

ACO-MGA2 đối với cả 4 tập dữ liệu. Khi số lượng đồ thị tăng thì chất lượng

lời giải của ACOTS-MGA cao hơn so với các thuật toán Greedy, GAVEO và

ACO-MGA2 càng thể hiện rõ rệt hơn.

Kết quả so sánh ở bảng 2.10 cho thấy thời gian chạy của thuật toán

ACOTS-MGA thấp hơn so với thuật toán GAVEO và ACO-MGA2 khi số

lượng đồ thị gồm 4 đến 8 đồ thị. Trong trường hợp số đồ thị lớn gồm 16 hoặc

32 đồ thị thì các thuật toán GAVEO và ACO-MGA2 có thời gian chạy nhanh

hơn.

Lý do ACOTS-MGA chạy lâu hơn ACO-MGA2 khi số đồ thị lớn là do

trong thuật toán ACOTS-MGA thủ tục tìm kiếm Tabu được thực hiện lặp nhiều

lần, trong khi trong thuật toán ACO-MGA2 thủ tục tìm kiếm cục bộ chỉ thực

hiện 1 lần, trong khi đó các thủ tục này có thời gian thực hiện rất lớn. Trong

trường hợp số lượng đồ thị nhỏ, thuật toán ACOTS-MGA chạy nhanh hơn là

do số lượng trạng thái tìm kiếm nhỏ, vì vậy thuật toán đạt đến lời giải tốt nhanh

hơn do thuật toán tìm kiếm Tabu được thực hiện với số lần lặp ít hơn.

77

2.5.3.2. So sánh các thuật toán khi chạy với cùng khoảng thời gian ấn định

trước

Vì thuật toán Greedy có thời gian chạy rất nhanh nhưng lại cho chất

lượng lời giải quá thấp, nên trong thực nghiệm này chỉ so sánh chất lượng lời

giải của thuật toán GAVEO, ACO-MGA2 và ACOTS-MGA khi chạy trong

cùng một khoảng thời gian.

Thực nghiệm tiến hành chạy các thuật toán trên cùng bộ dữ liệu gồm 16

đồ thị, thời gian chạy các thuật toán được tăng dần từ 1000s đến 6000s. Các kết

Thời gian

0

1000s 2000s 3000s 4000s 5000s 6000s

-5000

g n à h

-10000

GAVEO

g n ó d

-15000

ACO-MGA2

ACOTS-MGA

-20000

-25000

g n ợ ư l t ấ h c m ể i Đ

-30000

-35000

quả được thể hiện qua biểu đồ ở hình 2.6.

Hình 2.6. So sánh chất lượng lời giải các thuật toán với bộ dữ liệu gồm 16 đồ

thị và thời gian tăng từ 1000s đến 6000s.

Biểu đồ ở hình 2.6 cho thấy khi tăng thời gian chạy từ 1000s đến 6000s

chất lượng lời giải của thuật toán ACOTS-MGA luôn luôn tốt hơn thuật toán

ACO-MGA2 và GAVEO.

Biểu đồ trên cho ta thấy giai đoạn đầu trước 2000s thì cả 2 thuật toán

ACO-MGA2 và thuật toán ACOTS-MGA đều cho chất lượng lời giải chưa cao

là vì giai đoạn này chỉ áp dụng thuật toán ACO thuần túy mà chưa có kết hợp

78

sử dụng tìm kiếm cục bộ. Tuy nhiên ACOTS-MGA cho chất lượng lời giải tốt

hơn ACO-MGA2 là do sự cải tiến của thủ tục bước ngẫu nhiên của

ACOTS-MGA theo chiến thuật beam search, các kiến ưu tiên lựa chọn các đỉnh

cùng nhãn với các đỉnh đã được dóng hàng trước đó trên cùng véctơ dóng hàng.

Vì vậy sẽ làm tăng độ tương đồng về nhãn của các đỉnh.

Sau thời điểm 2000s, chất lượng lời giải của các thuật toán tăng nhanh

hơn là vì khi đó đã có áp dụng kỹ thuật tìm kiếm cục bộ và tìm kiếm bằng Tabu

Search. Thuật toán ACOTS-MGA2 cho chất lượng lời giải tốt hơn

ACO-MGA2 vì thuật toán tìm kiếm Tabu được gọi lặp lại nhiều lần trên các lời

giải tốt nhất tìm được, còn trong thuật toán ACO-MGA2, thủ tục tìm kiếm cục

bộ chỉ được gọi 1 lần sau mỗi vòng lặp.

Sau thời điểm 6000s thì chất lượng lời giải các thuật toán ổn định nên

luận án chỉ tiến hành so sánh đến thời điểm này.

Ngoài ra, để kiểm tra chất lượng lời giải của các thuật toán ACOTS-

MGA với ACO-MGA2 và GAVEO trong cùng thời gian. Chúng tôi lần lượt

chạy thuật toán các thuật toán GAVEO và ACO-MGA2 trên cùng bộ dữ liệu

với thời gian tương đương với thời gian chạy của thuật toán ACOTS-MGA

được cho trong bảng 2.10. Kết quả thu được như sau:

Bảng 2.11. So sánh điểm chất lượng dóng hàng S(A) của 3 thuật toán với

cùng thời gian chạy với các tập gồm 4,8,16 và 32 đồ thị.

Thuật toán/Số đồ thị 4 8 16 32

-1224 -2879 -10744 -63205 GAVEO

-989 -1524 -7757 -53960 ACO-MGA2

ACOTS-MGA -963 -1089 -5672 -42216

79

Qua bảng 2.11 có thể thấy khi chạy trong cùng một thời gian bằng với

thời gian chạy của thuật toán ACOTS-MGA được cho trong bảng 2.10, với cả

4 tập dữ liệu thì thuật toán ACOTS-MGA đều cho kết quả tốt hơn so với

GAVEO và ACO-MGA2.

2.6. Kết luận chương

Bài toán MGA là cách tiếp cận mới để phân tích cấu trúc của sinh học

phân tử. Trong chương này, chúng tôi trình bày các khái niệm liên quan đến

bài toán dóng hàng tập gồm nhiều đồ thị và đề xuất 3 thuật toán là ACO-MGA,

ACO-MGA2 và ACOTS-MGA để giải quyết bài toán dóng hàng nhiều đồ thị.

Kết quả thực nghiệm trên các bộ dữ liệu mô phỏng và dữ liệu thực cho

thấy các thuật toán đề xuất cho kết quả tốt hơn nhiều so với thuật toán GAVEO

khi chạy với cùng bộ dữ liệu và cùng thời gian chạy. Khi số đỉnh của đồ thị

tăng lên thì thời gian tìm kiếm địa phương trong ACO-MGA, ACO-MGA2 và

ACOTS-MGA làm tăng thời gian chạy nên các thuật toán đề xuất chạy lâu hơn

GAVEO trong một số trường hợp.

Các thuật toán đề xuất dóng hàng nhiều mạng các vị trí liên kết protein

cho chất lượng dóng hàng tốt hơn các thuật toán GAVEO và Greedy sẽ giúp

xác định được sự tương đồng về cấu trúc của các protein chính xác hơn. Thông

qua tính tương đồng về mặt cấu trúc đó có thể suy diễn chức năng của các

protein chưa biết thông qua các protein đã biết [Yuan et al., 2018]. Đó là ý

nghĩa sinh học mà các thuật toán đề xuất mang lại.

Trong các nghiên cứu tiếp theo chúng tôi sẽ cải tiến kỹ thuật tìm kiếm

cục bộ để giảm thời gian chạy và tăng hiệu quả thuật toán.

80

Chương 3. DÓNG HÀNG TOÀN CỤC HAI MẠNG TƯƠNG TÁC PROTEIN-PROTEIN

Chương này giới thiệu 3 thuật toán mà luận án đề xuất để giải bài toán

dóng hàng toàn cục mạng tương tác protein là FASTAN, ACOGNA và

ACOGNA++. Hai thuật toán đầu tối ưu theo tiêu chuẩn GNAS trong đó thuật

toán FASTAN theo hướng tiếp cận heuristic và thuật toán ACOGNA dựa trên

giải thuật tối ưu đàn kiến. Thuật toán thứ 3 là ACOGNA++ cho phép tùy chọn

tối ưu theo một trong các tiêu chuẩn GNAS, EC và S3.

Các thực nghiệm đã chứng minh các thuật toán này cho chất lượng lời giải

tốt hơn so với các phương pháp mới nhất hiện nay. Bênh cạnh đó thời gian chạy

của các thuật toán đề xuất cũng nhanh hơn so với các thuật toán metaheuristic

khác có chất lượng lời giải tương đương.

Để người đọc dễ theo dõi, trước tiên chúng ta đến với phát biểu toán học

của bài toán dóng hàng toàn cục mạng tương tác protein.

3.1. Bài toán dóng hàng toàn cục mạng tương tác protein

Bài toán dóng hàng toàn cục mạng tương tác protein đã được giới thiệu ở

chương 1. Tuy nhiên để thuận tiện cho việc trình bày các thuật toán mới đề

xuất, phần dưới đây phát biểu lại bài toán dưới dạng toán học.

3.1.1. Phát biểu bài toán

Mạng tương tác protein là mạng được mô hình hóa bởi một đồ thị

G = (V, E) trong đó V là tập các đỉnh của đồ thị đại diện cho các protein và E

là tập các cạnh tương ứng của đồ thị mô tả tương tác giữa các protein.

Giả sử G1 = (V1, E1) và G2 = (V2, E2) là 2 đồ thị biểu diễn hai mạng tương

tác protein, trong đó V1, V2 tương ứng là tập các đỉnh của các đồ thị G1 và G2;

E1, E2 là tập các cạnh tương ứng của G1, G2. Không mất tính tổng quát ta có thể

81

giả sử trong đó |V| là ký hiệu cho số phần tử của tập V. Dưới đây là

định nghĩa về bài toán dóng hàng toàn cục được sử dụng chủ yếu trong các

nghiên cứu trước đây [Aladag & Erten, 2013; L. Chindelevitch, Ma, Liao, &

Berger, 2013; Leonid Chindelevitch, Liao, & Berger, 2010; Oleksii Kuchaiev

& Pržulj, 2011; Singh et al., 2008].

Định nghĩa 3. 1. Dóng hàng toàn cục hai mạng tương tác protein là xác

định một đơn ánh trong đó mỗi đỉnh của V1 được khớp với duy nhất

1 đỉnh .

Trong trường hợp thì f là một song ánh.

Bài toán dóng hàng toàn cục hai mạng tương tác protein - protein là tìm

một dóng hàng tối ưu theo một hàm đánh giá chất lượng dóng hàng dựa trên sự

tương đồng về mặt trình tự và/hoặc cấu trúc được cho trước.

3.1.2. Đánh giá chất lượng dóng hàng toàn cục

Ở mỗi nghiên cứu, người ta đề xuất các tiêu chuẩn đánh giá chất lượng

dóng hàng khác nhau, mỗi tiêu chuẩn đều có ưu và nhược điểm riêng. Dưới đây

chúng tôi giới thiệu các tiêu chuẩn dóng hàng được sử dụng phổ biến nhất trong

các nghiên cứu về bài toán dóng hàng toàn cục mạng tương tác protein.

.

Cho một dóng hàng mạng f ký hiệu và

Tiêu chuẩn GNAS được Aladag [Aladag & Erten, 2013] giới thiệu được

tính theo công thức sau:

𝑢∈𝑉1

(3.1) 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) , 𝐺𝑁𝐴𝑆 = 𝛼. |𝑓(𝐸1)| + (1 − 𝛼). ∑

82

trong đó 𝛼 ∈ [0, 1] là tham số thể hiện sự tương quan về mức độ quan trọng

giữa độ tương đồng về mặt cấu trúc và sự tương đồng về mặt trình tự,

𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) là độ đo tương tự trình tự nào đó, chẳng hạn, BLAST bit-

scores hay E-values [Aladag & Erten, 2013; Altschul et al., 1990] (Các giá trị

này đã được tính toán trước và là dữ liệu đầu vào của một số thuật toán dóng

hàng toàn cục).

Ưu điểm của độ đo GNAS là thể hiện được cả mối tương quan về sự tương

đồng về topology và độ tương đồng về trình tự giữa hai mạng tương tác protein-

protein được dóng hàng.

Kuchaiev và các cộng sự [O. Kuchaiev et al., 2010] đề xuất dùng độ đo

EC như trong công thức 3.2. EC là độ đo tỷ lệ của các cạnh trong đồ thị nguồn

được dóng hàng chính xác đến các cạnh trong đồ thị thứ hai với số lượng cạnh

của đồ thị nguồn.

. (3.2)

Giá trị EC lớn có nghĩa là hai mạng có cấu trúc tương tự nhau. Tiêu chuẩn

này định lượng sự giống nhau giữa hai mạng. EC chỉ bằng 100% khi và chỉ khi

đồ thị thứ hai G2 chứa một bản sao đẳng cấu của G1.

Khi dóng hàng một mạng có mật độ cạnh thưa với mạng đích có mật độ

cạnh dày, có nhiều cách để dóng hàng G1 với các mạng con của G2. Tuy nhiên

bằng trực giác có thể thấy việc dóng hàng G1 với mạng con thưa của G2 sẽ tốt

hơn so với việc dóng hàng G1 với một mạng con dày. Để “phạt” những dóng

hàng mà ánh xạ đồ thị G1 với một mạng con dày của đồ thị G2, Patro và các

cộng sự [Patro & Kingsford, 2012] đề xuất dùng độ đo ICS, độ đo ICS thể hiện

tỷ lệ các cạnh của đồ thị nguồn được bảo tồn trên đồ thị đích sau khi dóng hàng

(f(E1)) với số cạnh của đồ thị con của đồ thị đích được sinh ra bởi các đỉnh được

83

dóng hàng với các đỉnh trên đồ thị nguồn (E(G2[f(V1)])). Cụ thể ICS được tính

theo công thức 3.3.

, (3.3)

trong đó 𝐸(𝐺2[𝑓(𝐸1)]) là tập cạnh trong 𝐺2 của đồ thị con có tập đỉnh là 𝑓(𝑉1).

Qua các công thức 3.2 và 3.3 có thể thấy, độ đo EC chú trọng đến đồ thị

nguồn, trong khi độ đo ICS chú trọng đến đồ thị đích. Vì vậy độ đo EC không

tốt khi đánh giá chất lượng dóng hàng nếu ta dóng hàng một mạng có mật độ

cạnh thưa với một mạng có mật độ cạnh dày. Ngược lại độ đo ICS không tốt

khi ta dóng hàng một mạng dày với 1 mạng thưa.

Nhận thấy nhược điểm trên của 2 độ đo EC và ICS, Saraph và các cộng

sự [Saraph & Milenković, 2014] đề xuất độ đo S3 như công thức 3.4.

. (3.4)

Sự khác biệt của S3 với EC và ICS là ở mẫu số, S3 xét đến cả số cạnh của

đồ thị nguồn và số cạnh của đồ thị con được sinh ra bởi các đỉnh của đồ thị đích

được dóng hàng, vì vậy nó khắc phục được các nhược điểm của EC và ICS như

đã phân tích ở trên.

3.2. Thuật toán FASTAN

Mục này chúng tôi giới thiệu một thuật toán dóng hàng nhanh để giải bài

toán dóng hàng mạng tương tác protein. Mục tiêu đặt ra là xây dựng một thuật

toán dóng hàng hai mạng tương tác protein - protein có thời gian chạy nhanh

với chất lượng lời giải đủ tốt so với các thuật toán dóng hàng đã có, mục tiêu

này nhằm đảm bảo thuật toán có thể thích hợp với các bộ dữ liệu có số lượng

dữ liệu tương tác protein lớn với thời gian chạy ngắn.

84

Với mục tiêu như trên, thuật toán được xây dựng gồm 2 giai đoạn:

 Giai đoạn đầu xây dựng nhanh một dóng hàng thô ban đầu dựa trên

chiến lược tham lam kết hợp với lựa chọn ngẫu nhiên các đỉnh được

dóng hàng. Việc lựa chọn ngẫu nhiên làm tăng tính đa dạng của lời

giải.

 Giai đoạn thứ 2 sử dụng thủ tục rebuild để tăng chất lượng lời giải

của dóng hàng đã xây dựng ở giai đoạn 1. Ý tưởng của thủ tục này

là giữ lại một số cặp đỉnh đã được dóng hàng tốt trước đó làm tập

hạt giống, sau đó tiếp tục dóng hàng lại cho các đỉnh còn lại. Nếu

lời giải mới cho chất lượng tốt hơn sẽ cập nhật lại lời giải tốt nhất

theo lời giải này.

Việc sử dụng chiến lược tham lam để xây dựng thuật toán nên thời gian

chạy thuật toán nhanh, do đó thuật toán này được đặt tên là FASTAN. Chi tiết

hơn về thuật toán sẽ được trình bày trong các phần dưới đây.

Để dễ theo dõi các thuật toán đã đề xuất, hệ thống các ký hiệu và cách

trình bày các thuật toán trong luận án có một số thay đổi nhỏ so với cách trình

bày trong các bài báo.

Thuật toán FASTAN gồm hai giai đoạn: giai đoạn thứ nhất xây dựng

dóng hàng ban đầu và giai đoạn sau cải tiến nó nhờ thủ tục tối ưu cục bộ

Rebuild.

3.2.1. Xây dựng dóng hàng ban đầu

Cho các đồ thị G1, G2; tham số α và các độ tương tự của các cặp đỉnh tương ứng của V1, V2 là similar(i, j). Ký hiệu Vi là tập các đỉnh đã được dóng hàng của đồ thị Gi và RVi = Vi –Vi là tập các đỉnh chưa được dóng hàng

85

của đồ thị Gi. Gọi A12= (V12, E12) là kết quả của phép dóng hàng đồ thị G1 với

đồ thị G2, trong đó:

;

.

Thủ tục FASTAN được thực hiện như sau:

Bước 1. Xác định cặp đỉnh i ∈ V1 và j ∈ V2 có độ tương tự similar(i, j) lớn nhất. Gán f(i):=j; Khởi tạo V1= {i};V2= {j};

Bước 2. Thực hiện lặp với k= 2 tới |𝑉1|

2.1. Tìm nút i  RV1 có số cạnh nối với các đỉnh trong 𝑉1 lớn nhất

∗)| +

(Thủ tục này gọi là find_next_node).

2.2. Tìm f(i) = j  RV2 mà khi dóng hàng j với i thì công thức 𝛼|𝑓(𝐸1

𝑢∈𝑉1

∗ là các cạnh của đồ thị G1 có các đỉnh thuộc tập

đạt giá trị lớn (1 − 𝛼)(∑ 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)) + 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑖, 𝑗))

nhất. Trong đó 𝐸1 𝑉1 ∪ 𝑖. (Thủ tục này gọi là choose_best_matched_node).

2.3. Lần lượt thêm i,j vào các tập đỉnh đã được dóng hàng V1, V2.

Bước 3. Thực hiện lặp cải tiến 𝐴12 nhờ thủ tục Rebuild.

Chú ý rằng ở các bước 2.1 và 2.2 có thể tìm được nhiều đỉnh tốt nhất,

khi đó sẽ chọn ngẫu nhiên một đỉnh trong số đó để tạo ra sự đa dạng về lời giải

trong các lần chạy khác nhau.

86

Thuật toán 3.1: Thuật toán FASTAN Input: Cặp đồ thị: 𝐺1 = (𝑉1, 𝐸1); 𝐺2 = (𝑉2, 𝐸2); Độ tương đồng giữa các cặp đỉnh 𝑠𝑖𝑚𝑖𝑙𝑎𝑟; Hệ số α

Output: Dóng hàng mạng 𝐴12 = (𝑉12, 𝐸12) begin Xác định cặp đỉnh (i,j) có độ tương đồng similar(i,j) lớn nhất;

f(i)=j; V1= {i};V2= {j}; for 𝑘=2 to|𝑉1|do

𝑖 = find_next_node(𝐺1); 𝑓(𝑖) = choose_best_matched_node(𝑖, 𝐺1, 𝐺2); V1=V1{i}; V2=V2{j};

end for; Rebuild(𝐴12); end;

Sau khi xây dựng được dóng hàng ban đầu FASTAN chuyển sang giai

đoạn 2. Trong giai đoạn này, thủ tục Rebuild được thực hiện lặp để cải tiến

dóng hàng đã có.

3.2.2. Thủ tục Rebuild

Sau giai đoạn 1, đã xác định được dóng hàng thô A12, để tăng chất lượng

của lời giải, thuật toán sử dụng thủ tục tối ưu cục bộ rebuild. Ý tưởng của thủ

tục này là sử dụng một tập giống gồm nkeep những cặp đỉnh đã được dóng hàng

tốt của A12, sau đó dóng hàng lại các cặp đỉnh khác, nếu lời giải mới tốt hơn sẽ

thay thế cho lời giải trước đó. Chi tiết thủ tục rebuild như dưới đây.

Với 𝐴12 đã được xây dựng trong giai đoạn 1 và số 𝑛𝑘𝑒𝑒𝑝 cho trước, thủ

tục này được đặc tả trong thuật toán 3.2 và thực hiện như sau:

87

Bước 1. Xây dựng SeedV12 gồm 𝑛𝑘𝑒𝑒𝑝 đỉnh của V1 có điểm tốt nhất theo tiêu

chí cho bởi công thức 4.5:

(3.5) 𝑠𝑐𝑜𝑟𝑒(𝑢) = 𝛼. 𝑤(𝑢) + (1 − 𝛼). 𝑠𝑖𝑚𝑖𝑙𝑎𝑟(𝑢, 𝑓(𝑢)),

trong đó u𝑉1 và 𝑓(𝑢)𝑉2 được dóng hàng với u trong 𝐴12, w(u) là số

lượng nút v thuộc V1 mà (u,v) thuộc E1 và (f(u),f(v)) thuộc E2

Bước 2. Thực hiện lặp như bước 2 của giai đoạn 1 với k = 𝑛𝑘𝑒𝑒𝑝 + 1 tới |𝑉1|

để xây dựng lại A12

Sau mỗi lần thực hiện thủ tục Rebuild ta có một dóng hàng mới làm input

𝐴12 cho lần lặp tiếp theo, quá trình này lặp lại cho đến khi không cải tiến được

GNAS(A12) nữa.

Thuật toán 3.2: Thủ tục Rebuild

Input: Dóng hàng 𝐴12; tham số 𝑛𝑘𝑒𝑒𝑝 Output: Dóng hàng 𝐴12 = (𝑉12, 𝐸12) mới tốt hơn Begin

Giữ lại nkeep cặp đỉnh (i,f(i))đã được dóng hàng tốt trong V12 Giữ lại nkeep đỉnh đã dóng hàng tương ứng trong tập V1 và V2

for 𝑘=𝑛𝑘𝑒𝑒𝑝+1 to|𝑉1|do

𝑖 = find_next_node(𝐺1); 𝑓(𝑖) = choose_best_matched_node(𝑖, 𝐺1, 𝐺2); V1=V1{i}; V2=V2{j};

end for; End;

3.2.3. Độ phức tạp của thuật toán FASTAN so với SPINAL

Trong nghiên cứu của Aladag và Erten [Aladag & Erten, 2013], bài toán

dóng hàng toàn cục mạng tương tác protein đã được chứng minh là NP-khó.

Các tác giả cũng đã đề xuất thuật toán SPINAL có độ phức tạp với thời gian đa

thức là:

88

(3.6) ,

trong đó k là số lần lặp chính khi chạy thuật toán, theo [Aladag & Erten,

2013] thuật toán sẽ hội tụ sau 10 đến 15 lần lặp; ∆1, ∆2 lần lượt là bậc của đỉnh

thuộc các đồ thị G1 và G2 có bậc lớn nhất.

Dễ dàng kiểm tra được độ phức tạp của giai đoạn 1 và mỗi bước lặp trong

giai đoạn 2 của thuật toán FASTAN là:

(3.7) O(|V1|.(E1|+|E2|)).

Các thực nghiệm được tiến hành với các bộ dữ liệu thực nghiệm IsoBase

cho thấy số lần lặp của giai đoạn 2 của thuật toán không vượt quá 20 lần.

Bởi vì |V1|.∆1 ≥ E1 nên chú ý tới độ phức tạp của SPINAL trong công

thức (3.6) ta có:

(3.8) |V1|.|V2|.∆1.∆2 ≥ E1. E2 > (|V1|.(E1|+|E2|)).

Như vậy độ phức tạp của FastAn so với độ phức tạp của SPINAL thấp

hơn nhiều.

3.3. Thuật toán ACOGNA

Mục 3.2 chúng tôi đã giới thiệu thuật toán FASTAN cho bài toán dóng

hàng toàn cục hai mạng tương tác protein-protein. Ưu điểm của thuật toán

FASTAN là thời gian chạy nhanh và chất lượng lời giải tốt hơn so với các thuật

toán trước đó tối ưu theo tiêu chuẩn GNAS. Tuy nhiên vì thuật toán FASTAN

theo hướng tiếp cận heuristic nên chất lượng lời giải cải thiện không đáng kể

khi tăng thời gian chạy thuật toán. Để cải thiện chất lượng lời giải hiệu quả hơn,

thuật toán mới đề xuất cần khai thác tốt thông tin heuristic kết hợp với thông

tin học tăng cường trong quá trình xây dựng các dóng hàng.

Trong chương 1, chúng tôi đã giới thiệu về thuật toán tối ưu đàn kiến và

89

đã phân tích các ưu điểm của thuật toán này khi giải quyết các bài toán tối ưu

tổ hợp, vì vậy trong phần này chúng tôi sẽ giới thiệu thuật toán mới áp dụng

phương pháp ACO để giải bài toán dóng hàng mạng tương tác protein-protein

gọi là thuật toán ACOGNA.

Ý tưởng của thuật toán mới là thay vì sử dụng chiến lược tham lam như

FASTAN sẽ dẫn tới các lời giải tối ưu cục bộ, thuật toán mới sử dụng phương

pháp ACO để xây dựng các dóng hàng. Ưu điểm khi áp dụng phương pháp

ACO là có thể sử dụng chiến lược tham lam của FASTAN làm thông tin

heuristic cho thuật toán mới và thông qua việc cập nhật thông tin vết mùi qua

các vòng lặp sẽ khai thác tốt thông tin học tăng cường. Với đặc điểm đó, thuật

toán mới sẽ cho chất lượng lời giải tốt hơn khi tăng thời gian chạy thuật toán.

Các kết quả thực nghiệm được trình bày ở mục 3.5.3 đã cho thấy thuật

toán ACOGNA cho chất lượng lời giải tốt hơn so với thuật toán FASTAN và

Spinal.

90

3.3.1. Lược đồ chung

có toán ACOGNA liệu vào các đồ là

Thuật thị dữ 𝐺1 = (𝑉1, 𝐸1); 𝐺2 = (𝑉2, 𝐸2); độ tương đồng giữa các cặp đỉnh: 𝑠𝑖𝑚𝑖𝑙𝑎𝑟 và tham số cân bằng α. Để tìm dóng hàng mạng 𝐴12 = (𝑉12, 𝐸12) thuật toán được xây dựng như dưới đây: Bước 1. Khởi tạo ma trận vết mùi, và tập A gồm m kiến.

Bước 2. Thực hiện lặp trong khi chưa thoả mãn điều kiện dừng

Với mỗi kiến ta tiến hành các bước sau:

2.1. Gán f(i)=j trong đó i, j là cặp đỉnh có độ tương đồng similar (i,j) lớn

nhất. Khởi tạo V1 = {i}; V2 = {j};

2.2 Thực hiện lặp với k= 2 tới

2.2.1. Tìm đỉnh có số cạnh tới các đỉnh trong lớn nhất;

theo thủ tục

2.2.2. Sử dụng thuật toán ACO tìm đỉnh f(i)= bước ngẫu nhiên (thủ tục antMove) 2.2.3. Lần lượt thêm 2 đỉnh i và j vào các tập đỉnh V1 và V2

2.3. Thực hiện tìm kiếm cục bộ trên lời giải tốt nhất do các kiến tìm được

để cải thiện chất lượng lời giải.

2.4. Cập nhật lại lời giải tốt nhất.

2.5. Cập nhật vết mùi theo quy tắc SMMAS dựa trên lời giải tốt nhất.

Bước 3. Lưu lại lời giải tốt nhất.

Chú ý rằng ở bước 2.2.1, việc tìm có số cạnh tới các đỉnh trong

lớn nhất nhằm tăng số lượng các cạnh có thể được bảo toàn sau khi dóng

hàng, nếu tìm được nhiều đỉnh tốt nhất thì sẽ lựa chọn ngẫu nhiên một đỉnh tìm

được để dóng hàng.

91

Thuật toán 3.3: Thuật toán ACOGNA

Input: Đồ thị 1: 𝐺1 = (𝑉1, 𝐸1); Đồ thị 2: 𝐺2 = (𝑉2, 𝐸2); Độ tương đồng giữa các cặp đỉnh: 𝑠𝑖𝑚𝑖𝑙𝑎𝑟 Tham số cân bằng α

Output: Dóng hàng mạng 𝐴12 = (𝑉12, 𝐸12) Begin

Khởi tạo; // Khởi tạo ma trận vết mùi và m kiến (A); while (Chưa thỏa mãn điều kiện dừng) do

là cặp đỉnh có độ tương tự similar(i,j) lớn nhất.

for each kiến a A do // V1 = {i}; V2 = {j};

for 𝑘=2 to|𝑉1|do

𝑖 = find_next_node(𝐺1);

V1 = V1{i}; V2 = V2{j};

end for;

end for; Tìm kiếm cục bộ;Cập nhật lời giải tốt nhất; Cập nhật vết mùi theo quy tắc SMMAS;

end while;

Ghi lại lời giải tốt nhất;

End;

3.3.2. Đồ thị cấu trúc

Đồ thị cấu trúc của thuật toán gồm 2 tầng, tầng thứ i thể hiện đồ thị . Các

đỉnh ở tầng trên được kết nối với tất cả các đỉnh ở tầng dưới. Hình 3.1 thể hiện

đồ thị cấu trúc của thuật toán ACOGNA. Khi xây dựng lời giải, kiến sẽ xuất

phát từ một đỉnh thuộc tầng 1 và lựa chọn dóng hàng với 1 đỉnh thuộc tầng 2

theo công thức (3.10).

92

Hình 3.1. Đồ thị cấu trúc của thuật toán ACOGNA

Một dóng hàng toàn cục của 2 đồ thị theo định nghĩa 1 là một đường đi xuất

phát từ 1 đỉnh của dóng với 1 đỉnh của sau đó quay lại rồi tiếp tục

dóng với 1 đỉnh của , lặp lại cho tới khi tất cả các đỉnh của đã được dóng

hàng.

𝑖 trên cạnh

3.3.3. Vết mùi và thông tin heuristic

dóng đỉnh với đỉnh được khởi tạo Vết mùi 𝜏𝑗

𝑖 được tính theo công thức 3.9.

bằng 𝜏𝑚𝑎𝑥 và sau đó được cập nhật lại sau mỗi vòng lặp theo công thức 3.11

Thông tin heuristic 𝜂𝑗

, (3.9)

trong đó là số cạnh được bảo tồn nếu tiếp tục dóng hàng đỉnh j với đỉnh i,

α là hằng số thể hiện mối tương quan giữa độ tương đồng về cấu trúc và tính

tương đồng về trình tự, là độ tương đồng giữa 2 đỉnh i và j.

Việc tính toán thông tin heuristic như công thức 3.9 là do mục tiêu của

bài toán dóng hàng toàn cục hai mạng tương tác protein cần bảo tồn tối đa số

tương tác protein khi dóng hàng một mạng PPI nguồn vào một mạng PPI đích.

Ngoài ra thông tin về sự tương đồng trình tự giữa 2 protein được dóng hàng

cũng được thể hiện qua độ tương tự similar(i,j).

93

3.3.4. Thủ tục bước ngẫu nhiên để xây dựng dóng hàng

Tại mỗi vòng lặp, sau khi chọn một đỉnh

find_next_node tương tự thuật toán FASTAN, kiến chọn đỉnh bằng thủ tục theo

xác suất được cho bởi công thức 3.10

. (3.10)

Sau khi lựa chọn được đỉnh để dóng với , kiến quay lại lựa

chọn đỉnh tiếp theo của đồ thị G1 để tiếp tục dóng hàng. Quá trình lặp lại cho

đến khi tất cả các đỉnh của G1 được dóng hàng với các đỉnh của G2.

3.3.5. Quy tắc cập nhật vết mùi

Sau khi tất cả các kiến đã xây dựng lời giải, lời giải của kiến tốt nhất được

áp dụng thủ tục tìm kiếm cục bộ để tăng chất lượng lời giải. Lời giải tốt nhất

này được sử dụng để cập nhật vết mùi trên các cạnh theo quy tắc cập nhật mùi

SMMAS [Hoang Xuan Huan et al., 2013], như dưới đây:

, (3.11)

, (3.12)

trong đó max và min là các tham số được cho trước, ∈ (0,1) là tham số bay

hơi cho trước quy định 2 thuộc tính,  nhỏ thể hiện việc tìm kiếm quanh thông

tin học tăng cường,  lớn thể hiện tính khám phá.

94

3.3.6. Thủ tục tìm kiếm cục bộ

Trong mỗi vòng lặp, sau khi tất cả các kiến đã xây dựng xong lời giải,

lời giải tốt nhất 𝐴12 được kiến xây dựng sẽ được áp dụng tìm kiếm cục bộ. Thủ

tục tìm kiếm cục bộ được cải tiến từ thủ tục rebuild trong FASTAN. Điểm khác

biệt của ACOGNA so với FASTAN là khi chất lượng dóng hàng tăng lên khi

gọi thủ tục dóng hàng cục bộ thì giá trị nkeep sẽ được điều chỉnh tăng lên để giữ

được nhiều cặp đỉnh tốt hơn và giảm thời gian xây dựng lại các dóng hàng.

3.4. Thuật toán ACOGNA++

Mục này giới thiệu một thuật toán được phát triển từ thuật toán

ACOGNA gọi là ACOGNA++. Như đã giới thiệu ở mục 3.3, thuật toán

ACOGNA sử dụng tiêu chuẩn GNAS là tiêu chuẩn tối ưu và chỉ sử dụng

phương pháp ACO để tìm ảnh của các đỉnh của đồ thị G1. Ý tưởng của thuật

toán ACOGNA++ có một số điểm mới so với thuật toán ACOGNA là:

 Thứ nhất ACOGNA++ cho phép thay đổi tùy chọn tiêu chuẩn tối

ưu theo các hàm mục tiêu là GNAS, EC, và S3. Đặc điểm này cho

phép ACOGNA++ có thể tối ưu theo các hàm mục tiêu khác nhau.

 Thứ 2 là giải thuật đàn kiến được áp dụng cho cả 2 giai đoạn là

tìm thứ tự các đỉnh của đồ thị G1 được dóng hàng và tìm ảnh của

các đỉnh này trên đồ thị G2. Ưu điểm của cải tiến này là

ACOGNA++ có thể khai thác thông tin học tăng cường ngay từ

giai đoạn tìm đỉnh tiếp theo của G1 được dóng hàng mà ACOGNA

không làm được.

 Thứ 3 là thay đổi cách xác định thông tin heuristic, cách lựa chọn

đỉnh của đồ thị đích để dóng hàng với 1 đỉnh thuộc đồ thị nguồn

và cách tổ chức và cập nhật thông tin vết mùi.

95

Các mục tiếp theo sẽ phân tích chi tiết những điểm mới này.

3.4.1. Mô tả thuật toán

Với đồ thị cấu trúc được xây dựng giống như thuật toán ACOGNA, để

xây dựng một dóng hàng, các kiến sẽ thực hiện quá trình lặp để xác định 1 đỉnh

thuộc tầng 1 của đồ thị cấu trúc và một đỉnh thuộc tầng 2 sẽ được dóng hàng

với nó. Quá trình này kết thúc khi tất cả các đỉnh thuộc đồ thị G1 đã được dóng

hàng.

Sau khi tất cả các kiến xây dựng xong dóng hàng, thủ tục tìm kiếm cục bộ

sẽ được áp dụng trên lời giải tốt nhất do các kiến tìm được trong vòng lặp để

nâng cao chất lượng. Sau đó sử dụng quy tắc cập nhật mùi SMMAS để cập nhật

thông tin vết mùi theo lời giải tốt nhất tìm được.

Tùy theo tiêu chuẩn tối ưu được lựa chọn là GNAS, EC hay S3, tiêu chuẩn

được sử dụng để lựa chọn lời giải tốt nhất sẽ được thay đổi tương ứng theo các

hàm mục tiêu này.

3.4.2. Vết mùi

Vết mùi lưu thông tin học tăng cường để đánh giá một cặp đỉnh được

dóng hàng là tốt hay không. Thuật toán ACOGNA++ sử dụng 2 ma trận vết

𝑖 đặt trên các đỉnh của đồ thị G1 để xác định các đỉnh thuộc đồ

mùi.

Vết mùi 𝜏1

𝑖 đặt trên cạnh (i,j) của đồ thị cấu trúc, dùng để xác định đỉnh

thị nguồn sẽ được ưu tiên lựa chọn để dóng hàng.

. Các vết mùi được khởi tạo bằng giá trị Vết mùi 𝜏𝑗 được dóng hàng với đỉnh

𝜏𝑚𝑎𝑥 và được cập nhật lại sau mỗi vòng lặp.

96

3.4.3. Thủ tục xác định cặp đỉnh dóng hàng

Thủ tục này gồm 2 bước, đầu tiên xác định đỉnh được dóng hàng trên đồ

thị G1 và sau đó là xác định ảnh của nó trên đồ thị G2.

Xác định đỉnh được dóng hàng thuộc đồ thị nguồn

Khác với thủ tục find_next_node trong FASTAN và ACOGNA sử dụng

để xác định đỉnh sẽ được dóng hàng. Thuật toán ACOGNA+ sử dụng

thuật toán ACO để xác định đỉnh i được dóng hàng như dưới đây.

và có nhiều cạnh nối với các Gọi tập T chứa các đỉnh 𝑖 sao cho

đỉnh của nhất. Khi đó, đỉnh 𝑖 ∈ 𝑇 được chọn ngẫu nhiên theo xác suất:

, (3.13)

𝑖 𝑖 là vết mùi 𝜏1

trong đó 𝜂𝑖 là số lượng đỉnh kề của trong đồ thị 𝐺1, 𝜏1

đặt trên các đỉnh của đồ thị G1 như mô tả ở mục 3.4.2.

Việc sử dụng ACO để tìm đỉnh thuộc đồ thị nguồn được dóng hàng sẽ

giúp khai thác tốt thông tin học tăng cường thông qua vết mùi mà các kiến để

lại. Điều này giúp cải thiện chất lượng lời giải tốt hơn so với cách lựa chọn

ngẫu nhiên trong FASTAN và ACOGNA.

Xác định ảnh của điểm được dóng hàng trên đồ thị đích G2

Sau khi xác định được đỉnh đỉnh được các kiến lựa chọn theo

xác suất cho bởi công thức 3.14.

.

(3.14)

Khi chạy thuật toán ACOGNA++ để tối ưu theo hàm mục tiêu GNAS thì

thông tin heuristic được sử dụng giống thuật toán ACOGNA. Trong trường hợp

97

𝑖 lần lượt được tính theo các công thức 3.15 hoặc 3.16.

chạy thuật toán ACOGNA++ tối ưu theo hàm mục tiêu EC, hoặc S3, thông tin

heuristic 𝜂𝑗

, (3.15)

.

(3.16)

3.4.4. Quy tắc cập nhật vết mùi

Sau mỗi vòng lặp, lời giải tốt nhất được xác định được sử dụng để cập

nhật lại vết mùi theo quy tắc cập nhật mùi SMMAS.

Vết mùi đặt trên các đỉnh của đồ thị G1 được cập nhật theo công thức

3.17 và 3.18:

𝑖 + Δ𝜏𝑖

𝑖 ← (1 − 𝜌). 𝜏1 𝜏1

(3.17)

với

(3.18) Δ𝜏𝑖 = { 𝜌. 𝜏𝑚𝑖𝑛 𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑘ℎô𝑛𝑔 𝑐ó đỉ𝑛ℎ 𝑘ề , 𝜌. 𝜏𝑚𝑎𝑥𝑛ế𝑢 < 𝑖, 𝑓(𝑖) > 𝑐ó í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 đỉ𝑛ℎ 𝑘ề

trong đó f(i)G2 là đỉnh thuộc đồ thị G2 được lựa chọn để dóng hàng với

đỉnh i trên đồ thị G1

Vết mùi đặt trên các cạnh của đồ thị cấu trúc được cập nhật theo công

,

thức (3.19) và (3.20)

.

(3.19)

(3.20)

98

3.4.5. Thủ tục tìm kiếm cục bộ

Thủ tục tìm kiếm cục bộ của ACOGNA++ được sử dụng tương tự như trong

ACOGNA.

3.5. Kết quả thực nghiệm

3.5.1. Dữ liệu thực nghiệm

Việc lựa chọn các bộ dữ liệu để so sánh các thuật toán rất quan trọng. Bộ

dữ liệu thường được sử dụng để so sánh các phương pháp dóng hàng mạng

tương tác protein là bộ dữ liệu IsoBase được giới thiệu bởi Daniel Park và các

cộng sự [Park, Singh, Baym, Liao, & Berger, 2010]. Bộ dữ liệu IsoBase được

cung cấp miễn phí tại địa chỉ http://isobase.csail.mit.edu/

Trong các nghiên cứu gần đây nhất, khi đề xuất các thuật toán mới cho

bài toán dóng hàng toàn cục mạng tương tác protein-protein như Spinal năm

2013 [Aladag & Erten, 2013], MAGNA và MAGNA++ năm 2015 [V Vijayan

et al., 2015] hay ModuleAlign năm 2016 [Hashemifar et al., 2016] các tác giả

cũng sử dụng bộ dữ liệu này để đánh giá chất lượng các thuật toán đề xuất.

Luận án cũng sử dụng bộ dữ liệu này để so sánh các thuật toán đề xuất với các

thuật toán hiện thời để đảm bảo độ tin cậy và sự khách quan.

IsoBase là bộ dữ liệu mạng tương tác protein-protein của các loài động

vật trong tự nhiên, trong đó bao gồm các mạng tương tác protein-protein của

các loài như: giun, ruồi giấm, khỉ và người. Mô tả về các tập dữ liệu này được

chỉ ra trong bảng 3.1. Từ các bộ dữ liệu đó chúng tôi tạo ra sáu cặp mạng tương

tác để dóng hàng (ce-dm, ce-hs,ce-sc,dm-hs, dm-sc,hs-sc).

99

Bảng 3.1. Mô tả bộ dữ liệu

Tập dữ liệu Ký hiệu Số lượng protein Số tương tác

C.elegans (Worm) ce 2805 4495

D. melanogaster (fly) dm 7518 25635

S.cerevisiae (yeast) sc 5499 31261

H.sapiens (human) hs 9633 34327

3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL

Có nhiều thuật toán dóng hàng toàn cục hai mạng tương tác protein –

protein đã được đề xuất trước đó, tuy nhiên trong bài báo [Aladag & Erten,

2013], Aladag đã tiến hành các thực nghiệm trên bộ dữ liệu IsoBase và cho thấy

thuật toán SPINAL cho kết quả tốt hơn các thuật toán khác khi đánh giá theo

tiêu chuẩn GNAS và |E12| (số tương tác protein được bảo tồn khi dóng hàng

mạng PPI nguồn với mạng PPI đích). Vì vậy các thực nghiệm ở mục này chỉ

tiến hành so sánh 2 thuật toán heuristic là thuật toán FASTAN và SPINAL trên

các bộ dữ liệu đã được mô tả ở mục 3.5.1 với tiêu chuẩn GNAS và |E12|. Để

đảm bảo tính công bằng về mặt thời gian, cả 2 thuật toán đều được chạy lại trên

máy tính có cùng cấu hình và cùng hệ điều hành.

Chú ý rằng trong công thức 3.1 tính giá trị GNAS, 𝛼 ∈ [0,1] là tham số

thể hiện sự tương quan giữa độ tương đồng về mặt cấu trúc và sự tương đồng

về mặt trình tự. Nếu 𝛼 dần về 0 có nghĩa là độ tương đồng về trình tự giữ vai

trò quan trọng hơn, ngược lại khi 𝛼 dần về 1 nghĩa là độ tương đồng về mặt cấu

trúc giữ vai trò quan trọng hơn. Giống như các thực nghiệm được tiến hành

trong đề xuất thuật toán SPINAL của Aladag [Aladag & Erten, 2013], ở đây

100

luận án tiến hành các thực nghiệm ứng với các giá trị của 𝛼 thay đổi lần lượt là

0,3; 0,4; 0,5; 0,6; 0,7 để đảm bảo lời giải của thuật toán đề xuất không quá thiên

về 1 trong 2 độ tương đồng trình tự hoặc độ tương đồng về mặt cấu trúc.

Thuật toán FASTAN được chạy với các giá trị khác nhau của tham số

𝑛𝑘𝑒𝑒𝑝 lần lượt là 1%, 5%, 10%, 20% và 50%. Kết quả thực nghiệm cho thấy

𝑛𝑘𝑒𝑒𝑝= 1% thuật toán FASTAN sẽ thu được kết quả tốt nhất. Vì vậy các kết

quả được trình bày dưới đây tương ứng với giá trị 𝑛𝑘𝑒𝑒𝑝 = 1%.

Các thực nghiệm được chạy trên máy tính có cấu hình như sau: CPU

Intel Core 2 Duo 2.53GHz, RAM DDR2 4GB sử dụng hệ điều hành Ubuntu

13.10 64 bit.

Như đã trình bày ở trên thuật toán FASTAN là thuật toán ngẫu nhiên nên

sẽ được chạy 100 lần với từng cặp mạng PPI. Các kết quả GNAS, |E12| và thời

gian chạy được tính theo giá trị trung bình của 100 lần chạy. Các kết quả so

sánh về điểm dóng hàng và thời gian chạy được thể hiện ở các bảng 3.2 và 3.3,

kết quả tốt hơn được thể hiện bởi chữ in đậm.

Kết quả thực nghiệm từ bảng 3.2 chỉ ra rằng FASTAN có thể tìm ra lời

giải (dóng hàng toàn cục) có điểm GNAS và |E12| tốt hơn nhiều so với Spinal

(p-value <2.2e-16 được tính sử dụng t-test dựa trên kết quả GNAS và giá trị |E12|

của 100 lần chạy) đối với cả 6 cặp mạng PPI. Ngoài ra, kết quả kém nhất của

FASTAN từ 100 lần chạy đối với tất cả các cặp mạng protein được dóng hàng

đều tốt hơn các kết quả dóng hàng tạo ra bởi Spinal.

101

Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục tiêu GNAS và giá trị | E12| với các

giá trị tham số α khác nhau .

α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 Datasets

FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL FASTAN SPINAL

717.99 941.19 1159.93 1350.59 1586.87 778.46 1034.20 1290.11 1545.86 1801.24 ce-dm 2343.0 2320.0 2300.0 2237.0 2258.0 2560.7 2564.6 2567.2 2567.7 2567.6

728.26 993.07 1229.95 1501.61 1764.93 863.46 1144.17 1429.89 1708.81 1994.87 ce-hs 2370.0 2446.0 2437.0 2487.0 2512.0 2842.8 2838.1 2844.9 2838.0 2843.4

709.12 963.28 1168.95 1422.74 1683.13 834.79 1109.93 1389.21 1663.39 1936.83 ce-sc 2326.0 2384.0 2323.0 2361.0 2398.0 2761.1 2761.2 2769.7 2766.5 2763.1

1883.22 2517.23 3160.48 3790.79 4451.6 2260.31 3007.11 3755.36 4496.45 5242.32 dm-hs 6189.0 6235.0 6282.0 6291.0 6344.0 7478.3 7481.9 7429.0 7478.2 7478.8

1579.06 2075.14 2668.65 3180.27 3759.07 1977.82 2631.85 3290.03 3950.16 4603.41 dm-sc 5203.0 5150.0 5311.0 5283.0 5360.0 6569.7 6565.5 6570.7 6577.4 6572.3

1731.81 2253.66 2839.00 3434.54 4066.22 2268.21 3017.96 3772.96 4520.51 5279.88 hs-sc 5703.0 5593.0 5651.0 5706.0 5798.0 7531.8 7528.5 7535.2 7527.0 7538.1

.

102

Mặc dù đã so sánh về độ phức tạp của FASTAN và Spinal, trong phần

này chúng tôi so sánh cả thời gian chạy của 2 thuật toán. Kết quả so sánh thời

gian chạy được thể hiện trong bảng 3.3.

Bảng 3.3. Thời gian chạy trung bình của thuật toán FASTAN (tính theo đơn vị

giây) và thuật toán SPINAL khi chạy với cùng bộ dữ liệu.

Data sets

ce-dm

dm-sc

dm-hs

ce-hs

hs-sc

ce-sc

SPINAL

540.2

1912.1

1736.8

664.3

2630.6

638.2

FASTAN

221.5

1064.5

1395.9

327.9

1507.8

142.2

Về thời gian chạy, kết quả ở bảng 3.3 cho thấy thời gian chạy của

FASTAN nhanh xấp xỉ gấp đôi thuật toán SPINAL trong phần lớn các cặp

mạng PPI.

3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán

FASTAN và MAGNA++

Thực nghiệm được tiến hành để so sánh thuật toán ACOGNA với thuật

toán FASTAN. Thuật toán được chạy với nhiều giá trị 𝑛𝑏𝑒𝑠𝑡 khác nhau bao

gồm 1%, 5%, 10%, 20% và 50%. Các kết quả thực nghiệm chỉ ra rằng với

nbest=1% sẽ cho chất lượng lời giải tốt nhất.

Đối với thuật toán đàn kiến, các tham số  được khởi tạo từ đầu và số

lượng kiến trong mỗi vòng lặp ảnh hưởng nhiều đến chất lượng lời giải. Qua

nhiều thực nghiệm chúng tôi thấy với =0.3 sẽ cho chất lượng lời giải tốt nhất.

Đối với số lượng kiến, nếu sử dụng nhiều kiến để xây dựng lời giải có

thể cho được kết quả tốt hơn, tuy nhiên lại khiến thuật toán chạy lâu. Để cân

bằng giữa hai yếu tố này, trong thực nghiệm chúng tôi chọn số kiến là 6. Các

. Vì vậy các kết quả được tham số max được khởi tạo bằng 1 và

103

trình bày ở đây tương ứng với giá trị nbest=1%, , nants=6 như đã phân

tích ở trên.

Các thuật toán được so sánh dựa trên 2 tiêu chí là tiêu chuẩn GNAS và

giá trị |E12| (Số cạnh của đồ thị nguồn được bảo tồn trên đồ thị đích khi dóng

hàng).

Các thực nghiệm được chạy trên cùng một máy tính có cấu hình như sau:

CPU Intel Core 2 Duo 2.53GHz, RAM DDR2 3GB và hệ điều hành Windows

7 32 bit.

3.5.3.1. Thực nghiệm so sánh ACOGNA và FASTAN theo tiêu chuẩn

GNAS

ACOGNA, FASTAN và Spinal là các thuật toán dóng hàng tối ưu theo

tiêu chuẩn GNAS. Các thực nghiệm đã chứng minh rằng FASTAN tốt hơn

Spinal nên thực nghiệm này chỉ tiến hành so sánh tiêu chuẩn GNAS của 2 thuật

toán ACOGNA và thuật toán FASTAN.

Vì thuật toán ACOGNA và FASTAN là thuật toán ngẫu nhiên nên chúng

tôi tiến hành chạy thuật toán 10 lần và sử dụng kết quả trung bình của 10 lần

chạy để so sánh. Các thực nghiệm so sánh các thuật toán với các giá trị α lần

lượt là 0.3, 0.4, 0.5, 0.6 và 0.7 như trong [Aladag & Erten, 2013].

Các kết quả so sánh được thể hiện trong Bảng 3.4. Mỗi ô trong bảng gồm

2 dòng, dòng đầu là tiêu chuẩn GNAS và dòng thứ 2 là giá trị |E12| (số cạnh

được bảo tồn qua dóng hàng). Các kết quả tốt hơn được chúng tôi thể hiện bằng

chữ in đậm.

104

Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn GNAS và giá trị |E12| với các giá trị α

khác nhau.

α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 Datasets

FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA FASTAN ACOGNA

ce-dm 778.46 2560.7 1109.92 2564.6 1290.11 2567.2 1545.86 2567.7 1801.24 2567.6 833.14 2749.2 1109.92 2758.2 1368.35 2726.10 1641.35 2728.3 1930.84 2753.7

ce-hs 863.46 2842.8 1144.17 2838.1 1429.89 2844.9 1708.81 2838.0 1994.87 2843.4 913.39 3015.3 1207.94 3001.1 1513.4 3014.2 1824.69 3033.0 2091.43 2982.6

ce-sc 834.79 2761.1 1109.93 2761.2 1389.21 2769.7 1663.39 2766.5 1936.83 2763.1 876.78 2902.9 1178.46 2934.8 1457.65 2907.9 1742.2 2898.3 2064.12 2945

dm-hs 2260.31 7478.3 3007.11 7481.9 3755.36 7429.0 4496.45 7478.2 5242.32 7478.8 3226.76 8038.7 4039.68 8060.1 4828.29 8034.29 5648.18 8060.9 2431.59 8058.4

dm-sc 1977.82 6569.7 2631.85 6565.5 3290.03 6570.7 3950.16 6577.4 4603.41 6572.3 2108.13 7008.7 2811.97 7019.2 3518.87 7030.2 4203.53 7000.90 4908.90 7009.6

hs-sc 2268.21 7531.8 3017.96 7528.5 3772.96 7535.2 4520.51 7527 5279.88 7538.1 2429.12 8072.9 3256.54 8182.8 3938.3 7666.0 4895.45 8153.4 5693.4 8129.8

Qua bảng 3.4 ta có thể thấy rõ trong tất cả các trường hợp thì thuật toán ACOGNA đều cho các kết quả tốt hơn

so với thuật toán FASTAN đối với tiêu chuẩn là GNAS và cả giá trị |E12|.

105

3.5.3.2. Thực nghiệm so sánh ACOGNA và MAGNA++ theo tiêu chuẩn

S3 và EC

Các tiêu chuẩn EC, ICS và S3 được sử dụng để đánh giá độ tương đồng về

cấu trúc của các thuật toán dóng hàng hai mạng. Thực nghiệm này sẽ so sánh

kết quả của ACOGNA so với MAGNA++, một thuật toán được xây dựng với

3 tùy chọn tiêu chuẩn tối ưu như trên khi dóng hàng 2 đồ thị.

Bảng 3.5 trình bày các kết quả so sánh của 2 thuật toán với tiêu chuẩn EC,

thuật toán ACOGNA được chạy với các giá trị của tham số α lần lượt là 0.3,

0.4, 0.5, 0.6, 0.7. Giá trị điểm EC của thuật toán ACOGNA được thể hiện trong

các cột tương ứng. Thuật toán MAGNA++ được chạy với 3 tùy chọn tối ưu theo

các tiêu chuẩn EC, ICS và S3. Các giá trị điểm EC được hiển thị trong các cột

EC, ICS và S3 tương ứng với các tùy chọn chạy thuật toán MAGNA++ tối ưu

theo các tiêu chuẩn EC, ICS và S3. Kết quả tốt nhất khi so sánh các thuật toán

được thể hiện bằng chữ in đậm.

Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC

Datasets ACOGNA MAGNA++

α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7

EC

ICS

S3

0.6116 0.6136 0.6065 0.6070 0.6126 0.5217 0.0700 0.2983

0.6708 0.6677 0.6706 0.6747 0.6635 0.3061 0.1288 0.3065

ce-dm

0.6458 0.6529 0.6469 0.6448 0.6553 0.6002 0.1449 0.2901

ce-hs

ce-sc

0.3144 0.3136 0.3144 0.3159 0.3138 0.1921 0.0885 0.1464

0.2242 0.2245 0.2249 0.2239 0.2240 0.1575 0.0569 0.1357

dm-hs

0.2582 0.2600 0.2608 0.2608 0.2601 0.1680 0.0390 0.1439

dm-sc

hs-sc

106

Nhận xét: Các kết quả ở bảng 3.5 chỉ ra rằng với tất cả các giá trị của tham

số α và tất cả các bộ dữ liệu, điểm số EC của ACOGNA luôn luôn tốt hơn

MAGNA++.

Bảng 3.6 thể hiện các kết quả so sánh của 2 thuật toán theo độ đo S3.

Điểm S3 của ACOGNA được thể hiện trong các cột tương ứng với các giá trị α

lần lượt là 0.3, 0.4, 0.5, 0.6, 0.7, và kết quả S3 của thuật toán MAGNA ++ khi

được chạy lần lượt với 3 tiêu chuẩn tối ưu là EC, ICS và S3 được thể hiện trong

các cột tương ứng. Các kết quả tốt nhất được in đậm.

Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3

ACOGNA MAGNA++ Datasets

α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 EC

0.1344 0.1123 0.1068 0.1338 0.1061 0.1580 0.0700 0.2597

ICS S3

0.1265 0.0993 0.0953 0.0939 0.0909 0.2621 0.1284 0.2639

ce-dm

0.1063 0.0953 0.0925 0.0911 0.0922 0.1198 0.1446 0.2573

ce-hs

0.156 0.1567 0.1555 0.0988 0.0785 0.1088

ce-sc

0.1593 0.1559

dm-hs

0.1446 0.1417 0.1415 0.1407 0.1406 0.1030 0.0554 0.1081

dm-sc

0.1501 0.1452 0.1484 0.1446 0.1433 0.1043 0.0387 0.1166

hs-sc

Nhận xét: Với tiêu chuẩn S3 khi chạy với các bộ dữ liệu dm-hs, dm-sc, hs-sc

với tất cả các giá trị của tham số α, thuật toán ACOGNA cho kết quả tốt hơn so

với MAGNA++ khi chạy thuật toán này theo cả 3 tiêu chuẩn tối ưu là EC, ICS

và S3. Tuy nhiên đối với 3 bộ dữ liệu ce-dm, ce-sc, ce-hs MAGNA++ lại cho

kết quả tốt hơn ACOGNA.

Về mặt thời gian chạy, do ACOGNA là thuật toán metaheuristic được

thực hiện với nhiều vòng lặp, nên thời gian chạy chậm hơn so với thuật toán

107

FASTAN là một thuật toán theo hướng tiếp cận heuristic, vì vậy ở đây chúng

tôi không đưa ra các bảng so sánh về mặt thời gian chạy.

3.5.4. Thực nghiệm so sánh thuật toán ACOGNA++ với các thuật

toán ACOGNA, MAGNA++ và ModuleAlign

Để đánh giá hiệu quả của các thuật toán, chúng tôi tiến hành so sánh chất

lượng lời giải của các thuật toán theo các tiêu chuẩn S3, GNAS và EC. Thuật

toán ACOGNA++ được so sánh với các thuật toán ACOGNA, MAGNA++, và

ModuleAlign.

Điểm mới của thuật toán ACOGNA++ so với ACOGNA là có thể tối ưu

theo các hàm mục tiêu khác nhau (tương tự như MAGNA++). Khi so sánh theo

hàm mục tiêu GNAS và EC, thì 2 thuật toán ACOGNA và ACOGNA++ có

chất lượng chênh lệch không nhiều (vì cả 2 thuật toán đều sử dụng hàm mục

tiêu là GNAS) nên trong phần này chúng tôi trình bày kết quả so sánh khi chạy

thuật toán ACOGNA++ với tiêu chuẩn tối ưu là S3.

Các thực nghiệm được tiến hành trên máy tính có cấu hình như sau: CPU

Intel Core 2 Duo 2.53Ghz, RAM DDR2 4GB và hệ điều hành Windows 7.

Các tham số được thiết lập như sau: số lượng kiến trong mỗi vòng lặp là

. 10, 𝑎 = 1.5; 𝑏 = 1; c=1; d=2; max = 1.0 và

Qua các thực nghiệm thuật toán cho kết quả tốt nhất khi chọn giá trị

nbest = 1%.

3.5.4.1. So sánh các thuật toán theo tiêu chuẩn tối ưu S3

Bảng 3.7 thể hiện kết quả so sánh chất lượng lời giải của các thuật toán

theo tiêu chuẩn S3. Chất lượng lời giải tốt nhất được định dạng chữ in đậm.

108

Bảng 3.7. So sánh các thuật toán theo tiêu chuẩn S3

ACOGNA MAGNA++ ModuleAlign ACOGNA++ Datasets α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7

0.1344 0.1123 0.1068 0.1338 0.1061 0.2597 0.1538 ce-dm 0.3655

0.1265 0.0993 0.0953 0.0939 0.0909 0.2639 0.1354 ce-hs 0.4165

0.1063 0.0953 0.0925 0.0911 0.0922 0.2573 0.1192 ce-sc 0.2795

0.1593 0.1559 0.156 0.1567 0.1555 0.1088 0.1117 dm-hs 0.1910

0.1446 0.1417 0.1415 0.1407 0.1406 0.1081 0.1059 sc-dm 0.1767

0.1501 0.1452 0.1484 0.1446 0.1433 0.1166 0.1174 sc-hs 0.2096

Kết quả thể hiện trong bảng cho thấy với tất cả các bộ dữ liệu, thuật toán ACOGNA++ đều cho kết quả tốt hơn

các thuật toán còn lại.

109

3.5.4.2. So sánh thời gian chạy

Các thuật toán FASTAN, Spinal và ModuleAlign là các thuật toán

heuristic nên có thời gian chạy nhanh hơn, nhưng lại không cải thiện được chất

lượng khi tăng thời gian chạy, vì vậy luận án không so sánh thời gian chạy với

3 thuật toán này. Khi so sánh thời gian chạy của 2 thuật toán ACOGNA++ và

30000

25000

20000

) s (

15000

n a i g

MAGNA++

ACOGNA++

10000

i ờ h T

5000

0

ce-dm ce-hs

sc-dm dm-hs

sc-hs

ce-sc Bộ dữ liệu

MAGNA++ ta có kết quả thể hiện trên hình 3.2:

Hình 3.2. So sánh thời gian chạy tính theo giây của 2 thuật toán ACOGNA++

và MAGNA++

Qua biểu đồ so sánh ta thấy trong 6 bộ test thì có 5 bộ test là thời gian

chạy của ACOGNA++ nhanh hơn so với MAGNA++, chỉ có 1 bộ test

dm-hs là thời gian chạy của MAGNA++ nhanh hơn so với ACOGNA++.

3.6. Kết luận chương

Trong chương này chúng tôi đã trình bày về bài toán dóng hàng toàn cục

mạng tương tác protein - protein và đề xuất các thuật toán mới để giải quyết bài

110

toán này. Các thuật toán đề xuất dựa trên 2 hướng tiếp cận. Hướng tiếp cận

heuristic và hướng tiếp cận metaheuristic dựa trên phương pháp tối ưu đàn kiến.

Với hướng tiếp cận heuristic, thuật toán FASTAN có ưu điểm là cho lời

giải nhanh và kết quả tốt hơn so với các thuật toán trước đó. Tuy nhiên nhược

điểm của phương pháp FASTAN là khi tăng thời gian chạy thì chất lượng lời

giải được cải thiện không đáng kể.

Để khắc phục nhược điểm trên của FASTAN, chúng tôi đề xuất các thuật

toán mới ACOGNA và ACOGNA++ dựa trên phương pháp tối ưu đàn kiến để

xây dựng các dóng hàng.

Thuật toán ACOGNA bao gồm nhiều vòng lặp, trong mỗi vòng lặp của

thuật toán, tất cả các kiến xây dựng lời giải, sau đó kiến có chất lượng lời giải

tốt nhất được lựa chọn để cập nhật vết mùi và áp dụng tìm kiếm cục bộ để tăng

chất lượng lời giải. Các thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra rằng thuật

toán chúng tôi đề xuất cho kết quả tốt hơn các thuật toán gần đây đối với 2 tiêu

chuẩn GNAS và EC đối với tất cả các trường hợp.

Mặc dù không sử dụng tiêu chuẩn S3 làm hàm mục tiêu, nhưng trong các

trường hợp mà đồ thị nguồn là đồ thị dày thuật toán ACOGNA cho kết quả S3

tốt hơn so với thuật toán MAGNA++ (Là thuật toán tốt nhất tới thời điểm đó

tối ưu theo tiêu chuẩn S3).

Thuật toán ACOGNA++ sử dụng sơ đồ cấu trúc giống với thuật toán

ACOGNA nhưng có nhiều điểm cải tiến trong cách xác định thông tin heuristic,

cách lưu trữ và cập nhật thông tin vết mùi và sử dụng kiến trong cả 2 giai đoạn

xác định đỉnh tiếp theo của đồ thị nguồn được dóng hàng và tìm ảnh của nó trên

đồ thị đích. Thuật toán ACOGNA++ cho phép thay đổi các tiêu chuẩn tối ưu

để tối ưu theo các hàm mục tiêu GNAS, EC và S3. Các thực nghiệm đã cho thấy

111

thuật toán ACOGNA++ cho chất lượng lời giải tốt hơn so với các thuật toán

được so sánh theo các tiêu chuẩn này.

Các thuật toán đề xuất trong chương này tạo ra các dóng hàng toàn cục

giữa hai mạng PPI có chất lượng dóng hàng tốt hơn so với các thuật toán trước

đó đồng nghĩa với việc xác định được các vùng mạng được bảo tồn giữa các

mạng PPI chính xác hơn. Các vùng mạng được bảo tồn này sẽ giúp chuyển hiệu

quả các kiến thức về chức năng của tế bào từ mô hình các loài đã được nghiên

cứu sâu, chẳng hạn như nấm men, ruồi giấm, hoặc sâu sang con người ít được

nghiên cứu hơn [Guzzi & Milenković, 2018; R. Sharan & Ideker, 2006]. Ngoài

ra, các kết quả của bài toán dóng hàng hai mạng PPI còn được sử dụng để phục

vụ cho bài toán xây dựng cây phân loài [O. Kuchaiev et al., 2010].

112

KẾT LUẬN

Luận án đã trình bày các kiến thức chung về lĩnh vực tin sinh học và về 2

bài toán có ý nghĩa quan trọng trong lĩnh vực tin sinh học là bài toán dóng hàng

đồng thời nhiều mạng các vị trí liên kết protein và là bài toán dóng hàng mạng

tương tác protein-protein. Bên cạnh đó luận án cũng đã trình bày về các kỹ

thuật tính toán mềm, trong đó tập trung trình bày chi tiết về phương pháp tối

ưu hóa đàn kiến và các phương pháp tính toán mềm khác được sử dụng để giải

quyết 2 bài toán dóng hàng mạng protein. Với việc phân tích đặc điểm của các

thuật toán mới nhất giải quyết các bài toán dóng hàng đồng thời nhiều mạng

các vị trí liên kết ptotein và bài toán dóng hàng toàn cục hai mạng tương tác

protein-protein chúng tôi đã đề xuất các thuật toán mới giải quyết hiệu quả 2

bài toán này.

Với bài toán dóng hàng nhiều mạng các vị trí hoạt tính protein, luận án đề

xuất 3 thuật toán để giải bài toán này là thuật toán ACO-MGA, ACO-MGA2

và ACOTS-MGA. Thuật toán ACO-MGA dựa trên phương pháp tối ưu hóa

đàn kiến thuần túy để giải bài toán dóng hàng nhiều mạng. Các kết quả thực

nghiệm dựa trên các bộ dữ liệu mô phỏng đã chứng minh hiệu quả nổi trội của

thuật toán này so với các thuật toán GAVEO và thuật toán heuristic để giải bài

toán này. Nghiên cứu đặc tính biến thiên vết mùi của các thuật toán ACO, trong

thuật toán ACO-MGA2, chúng tôi áp dụng lược đồ memetic cho thuật toán,

trong đó vết mùi của thuật toán ACO được cập nhật theo 2 giai đoạn khác nhau.

Giai đoạn đầu tham số bay hơi được thiết lập nhỏ để khai thác thông tin học

tăng cường và không áp dụng tìm kiếm cục bộ. Giai đoạn 2 có sử dụng tìm

kiếm cục bộ nên tham số bay hơi được thiết lập lớn hơn để tăng tính khám phá

của thuật toán. Các kết quả thực nghiệm trên các bộ dữ liệu thực đã cho thấy

những ưu điểm của thuật toán mới đề xuất này so với các thuật toán trước đó. 113

Thuật toán ACO-MGA2 có nhược điểm là khi áp dụng tìm kiếm cục bộ,

việc hoán đổi vị trí giữa các đỉnh bị lặp lại trong các lần gọi khác nhau, vì vậy

luận án đề xuất thuật toán ACOTS-MGA sử dụng kết hợp phương pháp ACO

và tìm kiếm Tabu theo lược đồ memetic. Thuật toán Tabu search sử dụng để

thay thế cho thuật toán tìm kiếm cục bộ trong ACO-MGA2 sử dụng danh sách

cấm để tránh xét lại các bước chuyển đã xét trước đó. Ngoài ra trong ACOTS-

MGA, còn có sự cải tiến trong cách xác định thông tin heuristic và thủ tục bước

ngẫu nhiên xây dựng một dóng hàng. Các thực nghiệm trên bộ dữ liệu thực đã

chứng minh những ưu điểm nổi trội của phương pháp này so với các phương

pháp đề xuất trước đó.

Đối với bài toán dóng hàng hai mạng tương tác protein, chúng tôi đề xuất

các thuật toán mới theo hướng tiếp cận dóng hàng toàn cục. Thuật toán thứ nhất

là thuật toán FASTAN cho phép dóng hàng nhanh và cho chất lượng lời giải

tốt so với các thuật toán trước đó. Thuật toán này phù hợp với các mạng tương

tác protein-protein có kích thước lớn và yêu cầu thời gian giải bài toán nhanh.

Tuy nhiên khi tăng thời gian chạy thuật toán thì chất lượng của FASTAN được

cải thiện không nhiều. Để khắc phục nhược điểm trên của FASTAN, chúng tôi

tiếp tục đề xuất thuật toán giải bài toán dóng hàng toàn cục mạng tương tác

protein-protein dựa trên phương pháp tối ưu hóa đàn kiến có tên là ACOGNA.

Các kết quả thực nghiệm trên các bộ dữ liệu sinh học thực đã chứng minh những

hiệu quả của phương pháp ACOGNA tốt hơn so với các thuật toán trước đó

theo các tiêu chuẩn GNAS, EC; tuy nhiên với tiêu chuẩn S3 thuật toán

ACOGNA còn cho chất lượng lời giải kém hơn so với thuật toán MAGNA++.

Thuật toán ACOGNA++ được đề xuất sau đó cho phép thay đổi hàm mục tiêu

theo các tiêu chuẩn dóng hàng khác nhau và sử dụng thuật toán kiến trong cả 2

giai đoạn xác định thứ tự các đỉnh trên đồ thị nguồn và xác định ảnh của nó trên

114

đồ thị đích. Vì vậy ACOGNA++ cho chất lượng lời giải tốt hơn ACOGNA,

ModuleAlign, MAGNA++ đối với tất cả các bộ dữ liệu.

Các kết quả nghiên cứu đã được công bố trong 5 bài báo công bố tại các

hội nghị quốc tế cũng như trong nước có phản biện, trong đó có 3 bài được đưa

vào danh mục Scopus; một bài báo đăng tại tạp chí VNU Journal of Science:

Computer Science and Communication Engineering.

Các thuật toán đề xuất trong luận án cho thấy hiệu quả tốt hơn hẳn so với

các thuật toán đề xuất trước đó để giải các bài toán dóng hàng nhiều mạng các

vị trí liên kết protein và bài toán dóng hàng toàn cục hai mạng tương tác protein.

Về thời gian chạy, các thuật toán đề xuất cũng nhanh hơn các thuật toán tính

toán mềm khác được đề xuất trước đó trong phần lớn các bộ dữ liệu. Các thuật

toán đề xuất đều dựa trên phương pháp tối ưu đàn kiến, vì vậy có thể cải thiện

thời gian chạy theo hướng song song hóa các thuật toán, bên cạnh đó nghiên

cứu sâu hơn về các phương pháp tính toán mềm khác để cải tiến các thuật toán

đề xuất nhằm giảm thời gian chạy.

Đối với bài toán dóng hàng các mạng các vị trí liên kết protein. Thời gian

gần đây, người ta tập trung nghiên cứu việc ứng dụng bài toán này vào việc

nghiên cứu thuốc [Borrel, 2016; Jukič, Konc, Gobec, & Janežič, 2017; Yuan et

al., 2018]. Chúng tôi dự kiến sẽ liên hệ với các cơ sở nghiên cứu y-sinh để cùng

phát triển các nghiên cứu mang tính ứng dụng.

Đối với bài toán dóng hàng mạng tương tác protein, thời gian tới chúng tôi

sẽ nghiên cứu để mở rộng việc áp dụng các thuật toán đề xuất cho bài toán dóng

hàng đồng thời nhiều mạng tương tác protein-protein [Dohrmann & Singh,

2016; Vipin Vijayan & Milenkovic, 2018], hay bài toán dóng hàng các mạng

động [V Vijayan, Critchlow, & Milenković, 2017]. Bên cạnh đó là việc nghiên

115

cứu ứng dụng các thuật toán đề xuất vào trong các bài toán thời sự trong lĩnh

vực mạng xã hội [J. Zhang & Yu, 2015; Y. Zhang, Tang, Yang, Pei, & Yu,

2015].

116

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC

CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

1. Trần Ngọc Hà, Đỗ Đức Đông, Hoàng Xuân Huấn (2013), “An Efficient Ant Colony Optimization Algorithm for Multiple Graph Alignment”, Proceedings of International Conference on Computing, Management and Telecommunications (ComManTel),Ho Chi Minh City, Vietnam, pp.386-391. (Scopus)

2. Trần Ngọc Hà, Đỗ Đức Đông, Hoàng Xuân Huấn (2014), “A Novel Ant Based Algorithm for Multiple Graph Alignment”, Proceedings of the 2014 for International Conference on Advanced Technologies Communications, pp. 181-186. (Scopus)

interaction networks”, Proceedings of

Technologies Advanced on

3. Đỗ Đức Đông, Trần Ngọc Hà, Đặng Thanh Hải, Đặng Cao Cường, Hoàng Xuân Huấn (2015), “An efficient algorithm for global alignment of the 2015 protein-protein for International Conference Communications, pp. 332-336. (Scopus)

5. Ha Tran Ngoc, Huan Hoang Xuan (2016), “ACOGNA: An Efficient Method for Protein-Protein Interaction Network Alignment”, Proceedings of the The Eighth International Conference on Knowledge and Systems Engineering (KSE 2016), pp. 7-12.

6. Ha Tran Ngoc, Hien Le Nhu, Huan Hoang Xuan (2018), “A new memetic algorithm for multiple graph alignment”, VNU Journal of Science: Computer Science and Communication Engineering, vol 34, no 1, pp. 1-9.

4. Trần Ngọc Hà, Hoàng Xuân Huấn (2015), “Một thuật toán tối ưu đàn kiến dóng hàng toàn cục mạng tương tác protein”, Proceedings of Fundamental and Applied IT Research Conference 2015 (FAIR 2015), Ha Noi, Viet Nam, pp. 471-477.

117

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Lê Sỹ Vinh (2014), Nhập môn Tin sinh học, NXB Đại học Quốc gia Hà

Nội, Hà Nội.

Tiếng Anh

2. Aladag, A. E., & Erten, C. (2013). "SPINAL: scalable protein

interaction network alignment". Bioinformatics, 29(7), pp. 917–924.

3. Alföldi, J., & Lindblad-Toh, K. (2013). "Comparative genomics as a

tool to understand evolution and disease". Genome Res., 23(7), pp.

1063–1068.

4. Alkan, F., & Erten, C. (2014). "BEAMS: backbone extraction and

merge strategy for the global many-to-many alignment of multiple PPI

networks". Bioinformatics, 30(4), pp. 531–539.

5. Altschul, S. F., Gish, W., Miller, W., & Lipman, D. J. (1990). "Basic

local alignment search tool". J. Mol. Biol., 215(3), pp. 403–410.

6. Altschul, S. F., Madden, T. L., Schffer, A. A., Zhang, J., Zhang, Z.,

Miller, W., & Lipman, D. J. (1997). "Gapped BLAST and PSI-BLAST:

a new generation of protein database search programs". Nucleic Acids

Res., 25(17), pp. 3389–3402.

7. Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H.,

Cherry, J. M., … Sherlock, G. (2000). "Gene ontology: tool for the

unification of biology". Nat. Genet., 25(1), pp. 25–29.

118

8. Berg, J., & Lassig, M. (2004). "Local graph alignment and motif search

in biological networks". Proceedings of the National Academy of

Sciences, 101(41), pp. 14689–14694.

9. Berg, J., & Lassig, M. (2006). "Cross-species analysis of biological

networks by Bayesian alignment". Proc. Natl. Acad. Sci., 103(29), pp.

10967–10972.

10. Berman, H. M., Battistuz, T., Bhat, T. N., Bluhm, W. F., Bourne, P. E.,

Burkhardt, K., … Zardecki, C. (2002). "The protein data bank". Acta

Crystallographica Section D: Biological Crystallography, 58(6 I), pp.

899–907.

11. Biesecker, L. G., Mullikin, J. C., Facio, F. M., Turner, C., Cherukuri,

P. F., Blakesley, R. W., … Green, E. D. (2009). "The ClinSeq project:

piloting large-scale genome sequencing for research in genomic

medicine". Genome Res., 19, pp. 1665–1674.

12. Borrel, A. (2016). Development of Computational Methods to Predict

Pocket Druggability and Profile Ligands using Structural Data By.

Thesis Phd-penting. University of Helsinki, Faculty of Pharmacy,

Division of Pharmaceutical Chemistry and Technology Molécules

Thérapeutiques in Silico (MTi), Inserm UMR-S 973, University Paris

Diderot, France.

13. Brin, S., & Page, L. (1998). "The anatomy of a large-scale hypertextual

web search engine". Comput. Net. ISDN Syst., 30(1–7), pp. 107–117.

14. Brownlee, J. (2011). Clever Algorithms: Nature Inspired Programming

Recipes. Search.

119

15. Chindelevitch, L., Liao, C.-S., & Berger, B. (2010). "Local

optimization for global alignment of protein interaction networks.".

Pacific Symposium On Biocomputing, 132, pp. 123–132.

16. Chindelevitch, L., Ma, C.-. Y., Liao, C.-. S., & Berger, B. (2013).

"Optimizing a global alignment of protein interaction networks".

Bioinformatics, 29(21), pp. 2765–2773.

17. Ciriello, G., Mina, M., Guzzi, P. H., Cannataro, M., & Guerra, C.

(2012). "AlignNemo: A local network alignment method to integrate

homology and topology". PLoS ONE, 7(6), pp. e38107.

18. Clark, C., & Kalita, J. (2014). "A comparison of algorithms for the

pairwise alignment of biological networks". Bioinformatics, 30(16), pp.

2351–2359.

19. CONTE, D., FOGGIA, P., SANSONE, C., & VENTO, M. (2004).

"THIRTY YEARS OF GRAPH MATCHING IN PATTERN

RECOGNITION". International Journal of Pattern Recognition and

Artificial Intelligence, 18(03), pp. 265–298.

20. Correa, L., Borguesan, B., Farfan, C., Inostroza-Ponta, M., & Dorn, M.

(2018). "A memetic algorithm for 3D protein structure prediction

problem". IEEE/ACM Transactions on Computational Biology and

Bioinformatics, 15(3), pp. 690–704.

21. Do Duc, D., Dinh, H. Q., & Hoang Xuan, H. (2008). "On the pheromone

update rules of ant colony optimization approaches for the job shop

scheduling problem". In Lecture Notes in Computer Science (including

subseries Lecture Notes in Artificial Intelligence and Lecture Notes in

Bioinformatics) (Vol. 5357 LNAI, pp. 153–160).

120

22. Dohrmann, J., & Singh, R. (2016). "The SMAL web server: global

multiple network alignment from pairwise alignments". Bioinformatics,

32(21), pp. 3330–3332.

23. Dorigo, M., & Gambardella, L. M. (1997). "Ant Colony System: A

Cooperative Learning Approach to the Traveling Salesman Problem".

IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 1(1),

pp. 53.

24. Dorigo, M., & Stützle, T. (2004). Ant Colony Optimization. Cambridge,

Massachusetts, London England: MIT Press.

25. Edgar, R. C. (2004). "MUSCLE: multiple sequence alignment with

high accuracy and high throughput". Nucleic Acids Research, 32(5), pp.

1792–1797.

26. El-Kebir, M., Heringa, J., & Klau, G. W. (2011). "Lagrangian

relaxation applied to sparse global network alignment". In Lecture

Notes in Computer Science (including subseries Lecture Notes in

Artificial Intelligence and Lecture Notes in Bioinformatics) (Vol. 7036

LNBI, pp. 225–236).

27. Flannick, J., Novak, A., Balaji, S. S., Harley, H. M., & Batzglou, S.

(2006). "Graemlin general and robust alignment of multiple large

interaction networks". Genome Res., 16(9), pp. 214–231.

28. Fober, T., Mernberger, M., Klebe, G., & Hüllermeier, E. (2009).

"Evolutionary construction of multiple graph alignments for the

structural analysis of biomolecules". Bioinformatics, 25(16), pp. 2110–

2117.

121

29. Garbelini, J. M. C., Kashiwabara, A. Y., & Sanches, D. S. (2018).

"Sequence motif finder using memetic algorithm". BMC

Bioinformatics, 19(1), pp. 4.

30. Gligorijević, V., Malod-Dognin, N., & Prulj, N. (2015). "Fuse: Multiple

network alignment via data fusion". Bioinformatics, 32(8), pp. 1195–

1203.

31. Glover, F. (1986). "Future Paths for Integer Programming". Elsevier,

13(5), pp. 533–549.

32. Gong, M., Peng, Z., Ma, L., & Huang, J. (2016). "Global Biological

Network Alignment by Using Efficient Memetic Algorithm".

IEEE/ACM Transactions on Computational Biology and

Bioinformatics, 13(6), pp. 1117–1129.

33. Guzzi, P. H., & Milenković, T. (2018). "Survey of local and global

biological network alignment: the need to reconcile the two sides of the

same coin". Briefings in Bioinformatics, 19(3), pp. bbw132.

34. Hashemifar, S., Ma, J., Naveed, H., Canzar, S., & Xu, J. (2016).

"ModuleAlign: Module-based global alignment of protein-protein

interaction networks". Bioinformatics, 32(17), pp. i658–i664.

35. Hendlich, M., Bergner, A., Günther, J., & Klebe, G. (2003). "Relibase:

Design and Development of a Database for Comprehensive Analysis of

Protein–Ligand Interactions". Journal of Molecular Biology, 326(2),

pp. 607–620.

36. Hendlich, M., Rippmann, F., & Barnickel, G. (1997). "LIGSITE:

automatic and efficient detection of potential small molecule-binding

122

sites in proteins". Journal of Molecular Graphics and Modelling, 15(6),

pp. 359–363.

37. Holland, J. H. (1975). "Adaptation in Natural and Artificial Systems".

Ann Arbor MI University of Michigan Press.

38. Hu, J., Kehr, B., & Reinert, K. (2014). "NetCoffee: A fast and accurate

global alignment approach to identify functionally conserved proteins

in multiple networks". Bioinformatics, 30(4), pp. 540–548.

39. Huan, H. X., Linh-Trung, N., Huynh, H.-T., & others. (2013). "Solving

the Traveling Salesman Problem with Ant Colony Optimization: A

Revisit and New Efficient Algorithms". REV Journal on Electronics

and Communications, 2(3–4).

40. Huan, H. X., Tuyet, D. T. A., Ha, D. T. T., & Hung, N. T. (2015). "An

Efficient Ant Colony Algorithm for DNA Motif Finding" (pp. 589–

601). Springer, Cham.

41. Ibragimov, R., Malek, M., Baumbach, J., & Guo, J. (2014). "Multiple

graph edit distance". In Proceedings of the 2014 conference on Genetic

and evolutionary computation - GECCO ’14 (pp. 277–284). New York,

New York, USA: ACM Press.

42. Jukič, M., Konc, J., Gobec, S., & Janežič, D. (2017). "Identification of

Conserved Water Sites in Protein Structures for Drug Design". Journal

of Chemical Information and Modeling, 57(12), pp. 3094–3103.

43. Junker, B, H., & Schreiber, H. (2008). An introduction to biological

networks and methods for their analysis. John Wiley &Sons.

123

44. Kelley, B. P., Bingbing, Y., Lewitter, F., Sharan, R., Stockwell, B. R.,

Ideker, T., … Ideker. (2004). "PathBLAST: a tool for alignment of

protein interaction networks". Nucleic Acids Res., 32(suppl_2), pp.

W83–W88.

45. Kinoshita, K., & Nakamura, H. (2005). "Identification of the ligand

binding sites on the molecular surface of proteins". Protein Science,

14(3), pp. 711–718.

46. Koyutürk, M., Kim, Y., Topkara, U., Subramaniam, S., Szpankowski,

W., & Grama, A. (2006). "Pairwise alignment of protein interaction

networks". J. Comput. Biol., 13(2), pp. 182–199.

47. Kuchaiev, O., Milenković, T., Memišević, V., Hayes, W., & Pržulj, N.

(2010). "Topological network alignment uncovers biological function

and phylogeny". J. R. Soc. Interface, 7.

48. Kuchaiev, O., & Pržulj, N. (2011). "Integrative network alignment

reveals large regions of global network similarity in yeast and human".

Bioinformatics, 27(10), pp. 1390–1396.

49. Liang, Z., Xu, M., Teng, M., & Niu, L. (2006). "NetAlign: a web-based

tool for comparison of protein interaction networks". Bioinformatics,

22.

50. Liao, C., Lu, K., Baym, M., Singh, R., & Berger, B. (2009). "IsoRankN:

spectral methods for global alignment of multiple protein networks".

Bioinformatics, 25(12), pp. i253–i258.

51. M. Dorigo, V. M. and A. C. (1991). "Ant System: An Autocatalytic

Optimizing Process". Technical Report 91-016, pp. 21.

124

52. M.Lesk, A. (2002). Introduction to Bioinformatics. New York: Oxford

University Press Inc.

53. Malod-Dognin, N., & Pržulj, N. (2014). "GR-Align: fast and flexible

alignment of protein 3D structures using graphlet degree similarity".

Bioinformatics, 30(9), pp. 1259–1265.

54. Mamano, N., & Hayes, W. B. (2017). "SANA: simulated annealing far

outperforms many other search algorithms for biological network

alignment". Bioinformatics, 33(14), pp. 2156–2164.

55. Memišević, V., & Pržulj, N. (2012). "C-GRAAL: Common-neighbors-

based global graph alignment of biological networks". Integr. Biol.,

4(7), pp. 734–743.

56. Meng, L., Crawford, J., Striegel, A., & Milenkovic, T. (2016). "IGLOO:

Integrating global and local biological network alignment".

57. Mernberger, M., Klebe, G., & Hullermeier, E. (2011). "SEGA:

Semiglobal Graph Alignment for Structure-Based Protein

Comparison". IEEE/ACM Transactions on Computational Biology and

Bioinformatics, 8(5), pp. 1330–1343.

58. Milenković, T., Ng, W. L., Hayes, W., & Pržulj, N. (2010). "Optimal

network alignment with graphlet degree vectors". Cancer Inform., 9,

pp. 121.

59. Mina, M., & Guzzi, P. H. (2012). "AlignMCL: Comparative analysis of

protein interaction networks through Markov clustering". In

Proceedings - 2012 IEEE International Conference on Bioinformatics

and Biomedicine Workshops, BIBMW 2012 (pp. 174–181). IEEE.

125

60. Neri, F. (2011). Handbook of memetic algorithms. (F. Neri, C. Cotta, &

P. Moscato, Eds.), Studies in Computational Intelligence (Vol. 379).

Berlin, Heidelberg: Springer Berlin Heidelberg.

61. Notredame, C., Higgins, D. G., & Heringa, J. (2000). "T-coffee: a novel

method for fast and accurate multiple sequence alignment". Journal of

Molecular Biology, 302(1), pp. 205–217.

62. Pache, R., & P Aloy. (2012). "A novel framework for the comparative

analysis of biological networks". PLOS ONE, 7(2), pp. e31220.

63. Park, D., Singh, R., Baym, M., Liao, C.-S., & Berger, B. (2010).

"IsoBase: a database of functionally related proteins across PPI

networks". Nucleic Acids Research, 39(suppl_1), pp. D295--D300.

64. Patro, R., & Kingsford, C. (2012). "Global network alignment using

multiscale spectral signatures". Bioinformatics, 28(23), pp. 3105–3114.

65. Sahraeian, S., & Yoon, B.-J. (2013). "SMETANA: Accurate and

scalable algorithm for probabilistic alignment of large-scale biological

networks.". PLOS ONE, 8(7), pp. e67995.

66. Saraph, V., & Milenković, T. (2014). "MAGNA: maximizing accuracy

in global network alignment". Bioinformatics, 30(20), pp. 2931–2940.

67. Schmitt, S., Kuhn, D., & Klebe, G. (2002). "A New Method to Detect

Related Function Among Proteins Independent of Sequence and Fold

Homology". Journal of Molecular Biology, 323(2), pp. 387–406.

68. Schrijver, A. (2006). A Course in Combinatorial Optimization.

Department of Mat., University of Amsterdam.

126

69. Sharan, R., & Ideker, T. (2006). "Modeling cellular machinery through

biological network comparison". Nat. Biotechnol., 24(4), pp. 427–433.

70. Sharan, R., Suthram, S., Kelley, R. M., Kuhn, T., McCuine, S., Uetz,

P., … Ideker, T. (2005). "Conserved patterns of protein interaction in

multiple species". In National Academy of Sciences (Vol. 102, pp.

1974–1979). National Academy of Sciences.

71. Singh, R., Xu, J., & Berger, B. (2007). "Pairwise global alignment of

protein interaction networks by matching neighborhood topology". In

Annual International Conference on Research in Computational

Molecular Biology (pp. 16–31). Oakland, CA, USA: Springer.

72. Singh, R., Xu, J., & Berger, B. (2008). "Global alignment of multiple

protein interaction networks". Proc. Pac. Symp. Biocomput., 13, pp.

303–314.

73. Sjolander, K. (2004). "Phylogenomic inference of protein molecular

function: advances and challenges". Bioinformatics, 20(2), pp. 170–

179.

74. Stützle, T., & Hoos, H. H. (2000). "MAX–MIN Ant System". Future

Generation Computer Systems, 16(8), pp. 889–914.

75. Thompson, J. D., Higgins, D. G., & Gibson, T. J. (1994). "CLUSTAL

W: improving the sensitivity of progressive multiple sequence

alignment through sequence weighting, position-specific gap penalties

and weight matrix choice". Nucleic Acids Research, 22(22), pp. 4673–

4680.

127

76. Todd, A. E., Orengo, C. A., & Thornton, J. M. (2001). "Evolution of

function in protein superfamilies, from a structural perspective".

Journal of Molecular Biology, 307(4), pp. 1113–1143.

77. Tsai, S. Q., Iafrate, A. J., & Joung, J. K. (2014). "Genome editing: a

tool for research and therapy: towards a functional understanding of

variants for molecular diagnostics using genome editing". Nat. Med.,

20(10), pp. 1103–1104.

78. Vijayan, V., Critchlow, D., & Milenković, T. (2017). "Alignment of

dynamic networks". Bioinformatics, 33(14), pp. i180–i189.

79. Vijayan, V., & Milenkovic, T. (2018). "Multiple network alignment via

multiMAGNA++". IEEE/ACM Transactions on Computational

Biology and Bioinformatics, pp. 1–1.

80. Vijayan, V., Saraph, V., & Milenković, T. (2015). "MAGNA++:

maximizing accuracy in global network alignment via both node and

edge conservation". Bioinformatics, 31(14), pp. 2409–2411.

81. Volna, E. (2013). Introduction to Soft Computing. bookboon.com.

82. Weskamp, N., Hüllermeier, E., Kuhn, D., & Klebe, G. (2007).

"Multiple graph alignment for the structural analysis of protein active

sites". IEEE/ACM Transactions on Computational Biology and

Bioinformatics, 4(2), pp. 310–320.

83. Xifeng Yan, Feida Zhu, Jiawei Han, & Yu, P. S. (2006). "Searching

Substructures with Superimposed Distance". In 22nd International

Conference on Data Engineering (ICDE’06) (pp. 88–88). IEEE.

128

84. Yan, X., Yu, P. S., & Han, J. (2005). "Substructure similarity search in

graph databases". In Proceedings of the 2005 ACM SIGMOD

international conference on Management of data - SIGMOD ’05 (pp.

766–777). New York, New York, USA: ACM Press.

85. Yang, W., & Lai, L. (2017). "Computational design of ligand-binding

proteins". Current Opinion in Structural Biology, 45, pp. 67–73.

86. Yang, X.-S. (2014). "Nature-Inspired Optimization Algorithms". In

Nature-Inspired Optimization Algorithms. Elsevier.

87. Yang, X.-S., & Wiley InterScience (Online service). (2010).

Engineering optimization : an introduction with metaheuristic

applications. John Wiley.

88. Yuan, X., Xu, Y., Yuan, X., & Xu, Y. (2018). "Recent Trends and

Applications of Molecular Modeling in GPCR–Ligand Recognition and

Structure-Based Drug Design". International Journal of Molecular

Sciences, 19(7), pp. 2105.

89. Zaslavskiy, M., Bach, F., & Vert, J. P. (2009). "Global alignment of

protein-protein interaction networks by graph matching methods".

Bioinformatics, 25(12), pp. i259-1267.

90. Zhang, J., & Yu, P. S. (2015). "Multiple Anonymized Social Networks

Alignment". In 2015 IEEE International Conference on Data Mining

(pp. 599–608). IEEE.

91. Zhang, S., Hu, M., & Yang, J. (2007). "TreePi: A Novel Graph Indexing

Method". In 2007 IEEE 23rd International Conference on Data

Engineering (pp. 966–975). IEEE.

129

92. Zhang, Y., Tang, J., Yang, Z., Pei, J., & Yu, P. S. (2015). "COSNET".

In Proceedings of the 21th ACM SIGKDD International Conference on

Knowledge Discovery and Data Mining - KDD’15 (pp. 1485–1494).

New York, New York, USA: ACM Press.

130