-1-
MC LC
M ĐẦU ............................................................................................................................2
CHƯƠNG I: CÁC KHÁI NIM CƠ BN V MNG NƠRON..................................................4
1.1. Sơ lược v mng nơron ..........................................................................................4
1.1.1. Lch s phát trin ....................................................................................................4
1.1.2. ng dng ...............................................................................................................6
1.1.3. Căn nguyên sinh hc ...............................................................................................6
1.2. Đơn v x ............................................................................................................8
1.3. Hàm x ...............................................................................................................9
1.3.1. Hàm kết hp...........................................................................................................9
1.3.2. Hàm kích hot (hàm chuyn) ...................................................................................9
1.4. Các hình trng ca mng .....................................................................................12
1.4.1. Mng truyn thng................................................................................................12
1.4.2. Mng hi quy........................................................................................................13
1.5. Mng hc..............................................................................................................13
1.5.1. Hc có thy ..........................................................................................................13
1.5.2. Hc không có thy ................................................................................................14
1.6. Hàm mc tiêu .......................................................................................................14
CHƯƠNG II. MNG NƠRON TRUYN THNG VÀ THUT TOÁN LAN TRUYN NGƯỢC..16
2.1. Kiến trúc cơ bn ...................................................................................................16
2.1.1. Mng truyn thng................................................................................................16
2.1.2. Mng hi quy........................................................................................................18
2.2. Kh năng th hin ................................................................................................19
2.3. Vn đề thiết kế cu trúc mng .............................................................................19
2.3.1. S lp n..............................................................................................................19
2.3.2. S đơn v trong lp n ...........................................................................................20
2.4. Thut toán lan truyn ngược (Back-Propagation)...............................................21
2.4.1. Mô t thut toán ...................................................................................................22
2.4.2. S dng thut toán lan truyn ngược......................................................................27
2.4.3. Mt s biến th ca thut toán lan truyn ngược .....................................................31
2.4.4. Nhn xét ..............................................................................................................36
2.5. Các thut toán ti ưu khác...................................................................................38
2.5.1. Thut toán gi luyn kim (Simulated annealing).......................................................38
2.5.2. Thut gii di truyn (Genetic Algorithm)..................................................................39
CHƯƠNG III. NG DNG MNG NƠRON TRUYN THNG TRONG D BÁO D LIU ...41
3.1. Sơ lược v lĩnh vc d báo d liu.......................................................................41
3.2. Thu thp, phân tích và x lý d liu ....................................................................42
3.2.1. Kiu ca các biến ..................................................................................................43
3.2.2. Thu thp d liu ...................................................................................................44
3.2.3. Phân tích d liu ...................................................................................................45
3.2.4. X lý d liu .........................................................................................................46
3.2.5. Tng hp .............................................................................................................48
3.3. Chương trình d báo d liu ................................................................................48
3.3.1. Các bước chính trong quá trình thiết kế và xây dng................................................48
3.3.2. Xây dng chương trình ..........................................................................................54
3.3.3. Chương trình d báo d liu ..................................................................................69
3.4. Mt s nhn xét....................................................................................................75
KT LUN........................................................................................................................77
TÀI LIU THAM KHO.....................................................................................................79
-2-
M ĐẦU
\[
Cùng vi s phát trin ca mô hình kho d liu (Dataware house), Vit nam ngày càng
có nhiu kho d liu vi lượng d liu rt ln. Để khai thác có hiu qu nhng d liu
khng l này, đã có nhiu công c được xây dng để tha mãn nhu cu khai thác d liu
mc cao, chng hn như công c khai thác d liu Oracle Discoverer ca hãng Oracle.
Công c này được s dng như mt b phân tích d liu đa năng theo nhiu chiu d liu,
đặc bit theo thi gian. Hay là vic xây dng các h chuyên gia, các h thng da trên mt
cơ s tri thc ca các chuyên gia, để có th d báo được khuynh hướng phát trin ca d
liu, thc hin các phân tích trên các d liu ca t chc. Mc dù các công c, các h thng
trên hoàn toàn có th thc hin được phn ln các công vic nêu trên, chúng vn yêu cu
mt độ chính xác, đầy đủ nht định v mt d liu để có th đưa ra được các câu tr li
chính xác.
Trong khi đó, các ng dng ca mng nơron truyn thng được xây dng da trên các
nhân t nh hưởng đến s thay đổi ca d liu đã được thc tin chng minh là khá mnh
và hiu qu trong các bài toán d báo, phân tích d liu. Chúng có th đưc hun luyn và
ánh x t các d liu vào ti các d liu ra mà không yêu cu các d liu đó phi đầy đủ.
Trong s các loi mng tương đối ph biến thì các mng neuron truyn thng nhiu lp,
được hun luyn bng thut toán lan truyn ngược được s dng nhiu nht. Các mng
nơron này có kh năng biu din các ánh x phi tuyến gia đầu vào và đầu ra, chúng được
coi như là các “b xp x đa năng”. Vic ng dng ca loi mng này ch yếu là cho vic
phân tích, d báo, phân loi các s liu thc tế. Đặc bit đối vi vic d báo khuynh hướng
thay đổi ca các d liu tác nghip trong các cơ quan, t chc kinh tế, xã hi,... Nếu có th
d báo được khuynh hướng thay đổi ca d liu vi mt độ tin cy nht định, các nhà lãnh
đạo có th đưa ra được các quyết sách đúng đắn cho cơ quan, t chc ca mình.
Lun văn này được thc hin vi mc đích tìm hiu và làm sáng t mt s khía cnh v
mng nơron truyn thng nhiu lp, thut toán lan truyn ngược và ng dng chúng trong
gii quyết các bài toán trong lĩnh vc d báo d liu.
-3-
Tác gi xin chân thành cm ơn s giúp đỡ v mt khoa hc cũng như s động viên ca các
đồng nghip trong phòng Công ngh phn mm trong qun lý - Vin Công ngh thông tin
trong sut quá trình thc hin lun văn. Đặc bit, tác gi xin chân thành cm ơn TS. Lê
Hi Khôi, người thy đã giúp đỡ các ý kiến quý báu để tác gi có th hoàn thành tt lun
văn này.
Hà ni, tháng 12 năm 2002
Trn Đức Minh
-4-
CHƯƠNG I: CÁC KHÁI NIM CƠ BN V MNG NƠRON
Chương này đề cp các vn đề sau:
1.1. Sơ lược v mng nơron
1.2. Ðơn v x
1.3. Hàm x
1.4. Các hình trng ca mng
1.5. Mng hc
1.6. Hàm mc tiêu
1.1. Sơ lược v mng nơron
1.1.1. Lch s phát trin
S phát trin ca mng nơron tri qua c quá trình đưa ra các khái nim mi ln thc thi
nhng khái nim này.
Dưới đây là các mc đáng chú ý trong lch s phát trin ca mng nơron.
Cui TK 19, đầu TK 20, s phát trin ch yếu ch là nhng công vic có s tham gia
ca c ba ngành Vt lý hc, Tâm lý hc và Thn kinh hc, bi các nhà khoa hc như
Hermann von Hemholtz, Ernst Mach, Ivan Pavlov. Các công trình nghiên cu ca h
ch yếu đi sâu vào các lý thuyết tng quát v HC (Learning), NHÌN (vision) và LP
LUN (conditioning),... và không h đưa ra nhng mô hình toán hc c th mô t hot
động ca các nơron.
Mi chuyn thc s bt đầu vào nhng năm 1940 vi công trình ca Warren McCulloch
và Walter Pitts. H ch ra rng v nguyên tc, mng ca các nơron nhân to có th tính
toán bt k mt hàm s hc hay logic nào!
Tiếp theo hai người là Donald Hebb, ông đã phát biu rng vic thuyết lp lun c đin
(classical conditioning) (như Pavlov đưa ra) là hin thc bi do các thuc tính ca tng
nơron riêng bit. Ông cũng nêu ra mt phương pháp hc ca các nơron nhân to.
ng dng thc nghim đầu tiên ca các nơron nhân to có được vào cui nhng năm
50 cùng vi phát minh ca mng nhn thc (perceptron network) và lut hc tương ng
-5-
bi Frank Rosenblatt. Mng này có kh năng nhn dng các mu. Điu này đã m ra rt
nhiu hy vng cho vic nghiên cu mng nơron. Tuy nhiên nó có hn chế là ch có th
gii quyết mt s lp hu hn các bài toán.
Cùng thi gian đó, Bernard Widrow và Ted Hoff đã đưa ra mt thut toán hc mi và
s dng nó để hun luyn cho các mng nơron tuyến tính thích nghi, mng có cu trúc
và chc năng tương t như mng ca Rosenblatt. Lut hc Widrow-Hoff vn còn đưc
s dng cho đến nay.
Tuy nhiên c Rosenblatt và Widrow-Hoff đều cùng vp phi mt vn đề do Marvin
Minsky và Seymour Papert phát hin ra, đó là các mng nhn thc ch có kh năng gii
quyết các bài toán kh phân tuyến tính. H c gng ci tiến lut hc và mng để có th
vượt qua được hn chế này nhưng h đã không thành công trong vic ci tiến lut hc
để có th hun luyn được các mng có cu trúc phc tp hơn.
Do nhng kết qu ca Minsky-Papert nên vic nghiên cu v mng nơron gn như b
đình li trong sut mt thp k do nguyên nhân là không có được các máy tính đủ mnh
để có th thc nghim.
Mc dù vy, cũng có mt vài phát kiến quan trng vào nhng năm 70. Năm 1972,
Teuvo Kohonen và James Anderson độc lp nhau phát trin mt loi mng mi có th
hot động như mt b nh. Stephen Grossberg cũng rt tích cc trong vic kho sát các
mng t t chc (Self organizing networks).
Vào nhng năm 80, vic nghiên cu mng nơron phát trin rt mnh m cùng vi s ra
đời ca PC. Có hai khái nim mi liên quan đến s hi sinh này, đó là:
1. Vic s dng các phương pháp thng kê để gii thích hot động ca mt lp
các mng hi quy (recurrent networks) có th được dùng như b nh liên hp
(associative memory) trong công trình ca nhà vt lý hc Johh Hopfield.
2. S ra đời ca thut toán lan truyn ngược (back-propagation) để luyn các
mng nhiu lp được mt vài nhà nghiên cu độc lp tìm ra như: David
Rumelhart, James McCelland,.... Đó cũng là câu tr li cho Minsky-Papert.