ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đỗ Th Nương
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN
CỤM CHO DỮ LIỆU GENE MICROARRAY
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: ng nghệ thông tin
HÀ NỘI- 2010
Generated by Foxit PDF Creator © Foxit Software
http://www.foxitsoftware.com For evaluation only.
ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đỗ Th Nương
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN
CỤM CHO DỮ LIỆU GENE MICROARRAY
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Ths. Nguyễn Th Hậu
HÀ NỘI-2010
Generated by Foxit PDF Creator © Foxit Software
http://www.foxitsoftware.com For evaluation only.
i
Lời cảm ơn
Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc đến cô Nguyễn Thị Hu người đã
tận tình chỉ bảo tôi trong suốt quá trình thc hiện khóa luận.
Tôi cũng xin chân thành cảm ơn các thấy cô giáo của trường Đại Học Công
Nghệ, những người đã tận tình chỉ bảo dạy dỗ và trang bị cho tôi những kiến thức q
báu trong suốt 4 năm học trong trường.
Tôi cũng muốn gửi lời cảm ơn tới những bạn trong lớp K51CD những người đã
đồng hành cùng tôi trong suốt những năm tháng ở giảng đường đại học. Các bạn cũng
luôn động viên và giúp đỡ tôi rất nhiều trong thời gian tôi làm khóa luận.
Cuối cùng, tôi cũng muốn gửi lời cảm ơn vô hạn đến gia đình và các bạn của tôi
những người luôn ở bên động viên tôi để tôi có thể hoàn thành tốt khóa luận này.
Hà Nội, ngày 17 tháng 5 năm 2010
Sinh Viên
Đỗ Thị Nương
Generated by Foxit PDF Creator © Foxit Software
http://www.foxitsoftware.com For evaluation only.
ii
m tt nội dung
Dữ liệu microarrays những bước đột phá mới nhất trong sinh học phân tử.
cho phép kiểm tra mô tả gene của khoảng mười nghìn gene đồng thời.
Kết quả của những thí nghiệm sdụng công nghệ microarray này sẽ được đem
phân ch mức thấp cho ra một tập dliệu gọi dữ liệu gene micrarray. Dữ liệu
này sẽ được sử dụng cho việc phân tích mức cao hay còn gọi là phân tích cụm (Cluster
analysis). Phân cụm gene tức nhóm những gene thành những cụm với những đặc
tính tương đồng. Mới xuất hiện từ đầu những năm 1990 đến nay đã đang rất
nhiều phòng tnghiệm, công trình khoa học nghiên cứu về vấn đ phân cụm cho dữ
liệu gene micoarray vấn đnày ngày càng được quan tâm đầu nhiều n, bởi
những ứng dụng cùng to ln của kết qunghiên cứu vấn đề này trong nhiều lĩnh
vực như: y học là chuẩn đoán điều trbệnh, khoa học môi trường xác định vi
sinh vật” ”, nông nghiệp….
Khóa luận này sẽ giúp chúng ta tìm hiểu về một số phương pháp phân cụm cho
dữ liệu gene microarray bao gồm Hierarchical”, Kmeans”, “SOM”, PAM”
phương pháp phân cụm mới dựa trên khoảng cách intra-cluster”. Đánh giá ưu nhược
điểm của các phương pháp phân cụm y cuối cùng phát triển một chương trình
chức năng phân cụm”cho dữ liệu microarray gene” mà sử dụng phương pháp
phân cụm “tối ưu hơn cả”.
Generated by Foxit PDF Creator © Foxit Software
http://www.foxitsoftware.com For evaluation only.
iii
Mục lục
Lời cảm ơn...........................................................................................................................i
Tóm tắt nội dung ...............................................................................................................ii
Mục lục...............................................................................................................................iii
Danh mục hình vẽ bảng biểu ..........................................................................................iv
Mở đầu ................................................................................................................................5
Chương 1: Giới thiệu bài toán phân cụm cho dữ liệu gene microarray...................7
1.1. Bài toán phân cụm nói chung ...............................................................................7
1.1.1. Khái niệm........................................................................................................7
1.1.2. Các kiểu phân cụm khác nhau.......................................................................7
1.1.3. Những loi cụm khác nhau ............................................................................8
1.2. Phân cụm cho dữ liệu gene microarray...............................................................9
1.2.1. Giới thiệu công nghệ DNA microarray.........................................................9
1.2.2. Thí nghiệm microarray...................................................................................9
1.3. Ứng dụng bài toán phân cụm cho dữ liệu gene microarray..............................13
Chương 2: Một số phương pháp phân cụm cho dữ liệu gene microarray .............14
2.1. Cơ sở toán học .....................................................................................................14
2.1.1. Biểu diễn dữ liệu gene microarraay ............................................................14
2.1.2. Vector mô tả .................................................................................................14
2.1.3. Ma trận mô tả gene.......................................................................................14
2.1.4. Khoảng cách hay sự tương đồng .................................................................15
2.2. Một số phương pháp phân cụm ..........................................................................17
2.2.1. Phân cụm Hierarchical.................................................................................17
2.2.2. K-Means Clustering (KMC)........................................................................19
2.2.3. Self-Organizing Maps(SOMs).....................................................................20
2.2.4. Principal Components Analysis-(PCA) ......................................................21
2.3. Phương pháp phân cụm intra-cluster ....................................................................22
Chương 3: Đề xuất hướng giải quyết của bài toán phân cụm cho dữ liệu gene
microarray........................................................................................................................24
3.1. Phương pháp phân cụm.......................................................................................24
3.1.1. Lý do chọn K-means .......................................................................................24
3.1.2. Lý do chọn “intra-cluster” ..............................................................................24
3.2. Một số phương pháp khắc phục nhược điểm của k-means...............................25
3.2.1. Lọc dữ liệu....................................................................................................25
3.2.2. K-medians.....................................................................................................25
3.2.3. Xữ lý dữ liệu khuyết: ...................................................................................25
3.2.4. m gii pháp tối ưu “toàn cục” ..................................................................26
3.2.5. Việc xác định số cụm k................................................................................26
Chương 4: Phát triển ứng dụng cho bài toán phân cụm dữ liệu gene microarray
............................................................................................................................................27
Generated by Foxit PDF Creator © Foxit Software
http://www.foxitsoftware.com For evaluation only.