ĐẠI HỌC QUỐC GIA THÀNH PH HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
________________
I THU HOẠCH MÔN HỌC PHƯƠNG PHÁP NGHIÊN CỨU KHOA
HỌC TRONG TIN HỌC
Đề tài: Nghiên cứu ứng dụng thuật giải di truyền để tìm kiếm
thông tin trên văn bản.
Giảng viên hướng dẫn:GS. TSKH HOÀNG KIẾM
Học viên thực hiện: Mai Ngọc Tùng
MSSV: CH1101055
TP. HCM, năm 2012
ĐI HC QUC GIA THÀNH PH H CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TO THC SĨ CNTT QUA MẠNG
Mai Ngc Tùng – CH1101055 - 1 -
M đầu
Thuật giải di truyền, cũng như các thuật toán tiến hoa nói chung, hình thành da trên
quan niệm cho rằng, quá trình tiến hóa tự nhiên là hoàn hảo nhất, hp lý nht, và tự nó đã
mang tính ti ưu. Quan niệm nàythể được xem là một tiên đề đúng, không chứng minh
được, nhưng phù hợp với thực tế khách quan. Quá trình tiến hóa thể hin tính tối ưu ở chổ,
thế hệ sau bao giờ cũng tốt hơn, phát trin hơn và hoàn thiện hơn thế hệ trước.
Hiện nay, thuật toán di truyền cùng với logic mờ được ứng dụng rất rộng rãi trong các
lĩnh vc tương đi phức tạp. Thuật toán di truyền kết hợp logic mờ đã chng tỏ được hiệu
qu ca nó trong các vấn đề khó giải quyết bằng các phương pháp thông thường hay các
phương pháp cố điển, nhất là trong các bài toán cầnsự lượng giá, đánh giá sự tối ưu của
kết quả thu được. Chính vì vy, thuật gii di truyn (Genetic Algorithm) đã trở thành đề tài
nghiên cứu thú vị và mang đến nhiều ứng dụng thực tiễn ngày nay.
Trong phm vi ca bài thu hoch nhy, em s trình bày mt s vấn đ thut toán di
truyn ng dng ca nó trong vic tìm kiếm trên văn bn. Qua đây, em cũng xin được gi
li cảm ơn đến Giáo - Tiến s Khoa Hc Hoàng Văn Kiếm, ngưi đã tn tâm truyền đạt
nhng kiến thc nn tng bản cho chúng em v n học “Phương pháp nhiên cu khoa
hc trong tin hc” và em xin gi li cảm ơn đến toàn th các bn bè hc viên trong lp.
ĐI HC QUC GIA THÀNH PH H CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TO THC SĨ CNTT QUA MẠNG
Mai Ngc Tùng – CH1101055 - 2 -
MC LC
CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG............................................. 1
M đầu ................................................................................................................................ 1
PHN I :
NG DNG THUT GII DI TRUYỀN ĐỂ TÌM KIM THÔNG TIN TRONG
VĂN BẢN ............................................................................................................................ 3
I.
Thut gii di truyn:
................................................................................................. 3
I.1. Khái nim........................................................................................................................................ 3
I.2. Đng lc ......................................................................................................................................... 3
I.3. Tính chất quan trọng của Gii thuật di truyền (GA): ......................................................................... 4
II.
S dng thut gii di truyền để tìm kiếm mẫu trong Văn bản
.......................................... 4
II.1.y dựng hàm tìm kiếm ................................................................................................................. 4
II.2. c định mức độ trùng khớp theo thứ tự của c ký tự trong mẫu tìm kiếm và n bản .................... 5
II.3. Đặt vấn đề áp dụng giải thuật di truyền cho bài toán tìm kiếm trên................................................... 5
II.4. Cách biu diễn di truyền cho lời giải của bài toán ............................................................................ 6
II.5. Cách khi tạo quần thể lời giải ban đầu ........................................................................................... 6
II.6.y dựng hàm thích nghi đóng vai trò môi trường và đánh giá lời giải ............................................ 6
II.7. Sử dụng các toán tử lai ghép ........................................................................................................... 6
II.7.1. Toán tử chọn lọc ..................................................................................................................... 6
II.7.2. Toán tử lại ghép ...................................................................................................................... 6
II.7.3. Toán tử đột biến ...................................................................................................................... 6
PHN II :
Các nguyên tc sáng tạo sử dụng trong Thuật toán di truyền ............................ 7
PHN IV :
Demo ................................................................................................................. 8
PHN V :
Nguồn tham khảo ............................................................................................... 8
I. http://tailieu.vn/tim-kiem/tai-lieu/mang%20noron.html................................................. 8
II. vi.wikipedia.org/wiki/Gii_thut_di_truyn ................................................................ 8
III. portal.uct.edu.vn ................................................................................................... 8
IV. http://www.igi.tugraz.a .......................................................................................... 8
ĐI HC QUC GIA THÀNH PH H CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TO THC SĨ CNTT QUA MẠNG
Mai Ngc Tùng – CH1101055 - 3 -
PHẦN I :
NG DNG THUT GII DI TRUYỀN ĐỂ TÌM KIM
TNG TIN TRONG VĂN BN
I.
Thuật giải di truyền:
1) Khái nim
Thuật giải di truyền cung cp một cách tiếp cận cho việc học dựa vào mô
phỏng sự tiến hóa. Các giả thuyết thường được mô tả bằng các chuỗi bit, việc hiểu các
chuỗi bit nàyy thuc vào ứng dụng, ý tưởng các giả thuyết cũng có thể đượctả
bằng các biểu thức kí hiu hoặc ngay cả các chương trình máy tính. Tìm kiếm giả
thuyết thích hợp bắt đầu với một quần th, hay một tập hợp có chọn lọc ban đầu của
các githuyết. Các cá thể của quần thể hiện tại khởi nguồn cho qun thể thế hệ kế tiếp
bằng các hoạt động lai ghép và đột biến ngẫu nhiên – được lấy mẫu sau các quá trình
tiến hóa sinh học. Ở mỗi bước, các giả thuyết trong quần th hiện tại đưc ước lượng
liên hệ với đại lượng thích nghi đưc cho, với các giả thuyết phù hợp nhất được chọn
theo xác sut là các hạt ging cho việc sản sinh thế hệ kế tiếp. Thuật giải di truyền đã
được ứng dụng một cách thành công cho những tác vụ học khác nhau và cho các vấn
đề tối ưu hóa khác. Ví dụ, chúng đã được dùng để học tập luật điều khiển robot và để
tối ưu hóa các thông số học và tôpô cho mạng nơron nhân tạo
2) Đng lc
Thuật giải di truyền cung cấp một phương pháp học được thúc đẩy bi sự tương
tvới sự tiến hóa sinh học. Thay vì tìm kiếm các giả thuyết ttổng quát đến cụ thể
hoặc từ đơn giản đến phức tạp, GAs tạo ra c giả thuyết kế tiếp bằng cách lặp việc
đột biến và vic tái hợp các phần của giả thuyết được biết hiện tại là tốt nhất mỗi
bước, một tập các giả thuyết được gọi là quần thể hiện tại được cập nhật bằng cách
thay thế vài phần nhỏ quần thbi thể con của các giả thuyết tốt nhất thời điểm
hiện tại. Sự phổ biến của GAs được thúc đẩy bởi các yếu tố sau:
Tiến hóa là một phương pháp mạnh, thành công cho s thích nghi bên trong
các hệ thống sinh học.
GA th tìm kiếm trên các không gian giả thuyết có các phần tương tác phức
tạp, ở đó ảnhởng của mỗi phần lên toàn thđộ thích nghi giả thuyết khó
th mô hình.
Thuật giải GA có thđược thực hiện song song và có thtn dụng thành tựu
ca phần cứngy tính mạnh.
ĐI HC QUC GIA THÀNH PH H CHÍ MINH
CHƯƠNG TRÌNH ĐẠO TO THC SĨ CNTT QUA MẠNG
Mai Ngc Tùng – CH1101055 - 4 -
3) Tính chất quan trọng ca Giải thuật di truyền (GA):
GA lập luận có tính chất ngẫu nhiên để tìm giải pháp tối ưu cho nhng vấn đphức
tạp. Tuy nhiên, đây là hình thức ngẫu nhiên hướng dẫn bởi giá trị hàm thích nghi.
- Vấn đ thích hp nhất cho GA là tìm điều kiện tối ưu. Tối ưu không nhất
thiết là tuyệt đối, mà có thchỉ là tương đối trong hoàn cảnh và thời gian cho phép
- Một trong nhng bước quan trọng và khó khăn nhất là tìm hàm thích nghi.
m thích nghi cần phải có liên hệ trực tiếp đến vấn đcần giái quyết.
- GA và Mạng Nơron nhân tạo đề thuộc vào nhóm khoa hc trí tuệ nhân tạo,
tuy nhiên GA lập luận dựa vào sự tiến hóa và xét vấn đề ở mức độ của gen và nhiễm
sc thể, khác với mạng Nơron nhân tạo dựa vào kinh nghiệm và cách giải quyết vấn
đề mà b óc con người thường dùng.
Sự khác biệt giữa giải thuật di truyn so với các giải thuật khác bởi 4 đặc đim sau:
- GA làm việc với sự mã hóa một bộ các thông số chứ không phải bản thân
các thông s.
- GA tìm kiếm từ một số điểm quần thể chứ không phi bắt đầu từ 1 điểm.
- GA sdụng các thông tin về hàm mc tiêu chkhông phải đạo hàm hay
những tri thức phụ khác.
- GA sdụng các luật chuyển đi theo xác suất chứ không phải các lut
chuyn đổi tiền định.
II.
Sử dụng thuật giải di truyền để tìm kiếm mẫu trong Văn bn
Hiện nay, trong bài toán tìm kiếm con ngưi quan tâm đến những nội dung có liên
quan đến mẫu tìm kiếm hoặc có chứa một phần trong mẫu tìm kiếm. Theo dó, vấn đề đặt ra
tìm trong toàn bvăn bản V (độ dài N) vị trí xuất hiện của (các) đoạn văn bn gần
giống với văn bản mẫu Vm (độ dài M) nhất.
1) Xây dng hàm tìm kiếm
m tìm kiếm được xây dựng bởi sự liên kết giữa hai đại lượng:
+ Độ dài xâu con chung dài nhất giữa văn bản (độ dài N) và mẫu tìm kiếm (độ dài M) (G(x))
+ Độ dài trùng khp về giá trị và vị tcủa đoạn văn bản và mẫu (H(x))
Xâu con chung dài nhất ở đây là dãy tự dài nht theo thứ tự giống nhau giữa hai xâu
(không yêu cầu tính liền mạch). Để tìm xâu con chung dài nhất, thuật toán hiệu quả nhất là
dung quy hoạch động có độ phức tạp O(M2). Thực tế, độ dài M cùa mẫu tìm kiếm thường
không lớn nền hoàn toàn th chấp nhận độ phc tạp này.
m tìm kiếm dạng sau: F(x) = a*G(x) + b*H(x) , 1 <= x <= N
* G(x) là tần suất xuất hin Vm trong đoạn V[x..x+M] ca V (tính từ vị trí x đến vị trí x+M
trong văn bản V).
* H(x) là đđo thứ tự, thể hiện thứ tự xuất hiện các ký tự trong V[x..x+M] trùng vi Vm.
H(x) đưc tính bằng cách so khớp lần lượt các ký tự, giá trị trả v chính là slượng ký tự
trùng khớp (chữ cái và vị trí chữ cái đó) của Vm và V[x..x+M].
* a và b tham số đóng vai trò điu tiết mức độ đóngp của hàm G(x) và H(x) vào kết quả
cuối cùng ca hàm F(x).
u con chung dài nhất bằng quy hoạch động
a) Công thức quy hoạch động: