PPt3 - Feedforward

Chia sẻ: Pham Thanh Hai | Ngày: | Loại File: PPT | Số trang:48

0
85
lượt xem
15
download

PPt3 - Feedforward

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Multi layer feedforward NN (FFNN): Xét mạng có lớp neuron nằm giữa lớp đầu vào và ra như hình sau. Lớp nằm giữa được gọi là hidden layer, nó ko đưa đầu ra trực tiếp đến đầu ra của mạng. FFNN khắc phục hạn chế của mạng đơn lớp: thực hiện với nonlinearly saparable

Chủ đề:
Lưu

Nội dung Text: PPt3 - Feedforward

  1. Multi layer feed­forward NN (FFNN)  •Xét mạng có lớp neuron nằm giữa lớp đầu vào và ra như hình sau. Lớp nằm giữa được gọi là hidden layer, nó ko đưa đầu ra trực tiếp đến đầu ra của mạng. FFNN khắc phục hạn chế của mạng đơn lớp: thực hiện với non- linearly saparable Input Output layer layer Hidden Layer Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 1 1 Bangkok, Jun. 14 – 23, 2006
  2. Vấn đề với XOR   Một ví dụ điển hình của hàm non-linearly saparable là XOR. Hàm này nhận 2 biến vào với các giá trị thuộc {-1,1} và trả về một đầu ra trong {-1,1}, như được chỉ ra dưới đây: x1 x2 x1 xor x2 -1 -1 -1 -1 1 1 1 -1 1 1 1 -1 Nếu xem -1 và 1 như là false và true Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 2 2 Bangkok, Jun. 14 – 23, 2006
  3. Vấn đề với XOR Graph sau đây cho thấy đầu ra 1 và -1 x2 được diễn tả với các vòng màu xanh và đỏ. Có hai lớp (green và red) không 1 thể tách nếu dùng đường tuyến tính, nhưng với 2 đường thì có thể tách -1 1 Mạng NN dưới đây với hai hidden x1 nodes thực hiện việc tách, mỗi hidden node biểu diễn một trong hai đường xanh. -1 -1 x1 +1 0.1 +1 NN này dùng hàm activation sign. Mỗi -1 mũi tên xanh chỉ ra bởi weights của một trong 2 hidden node. Nó chỉ ra hướng x2 -1 vuông góc với đường thẳng tương ứng. +1 +1 Mũi tên chỉ về nơi có đầu ra của neuron -1 bằng 1. Node đầu ra được dùng để hình thành đầu ra của hai hidden nodes. Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 3 3 Bangkok, Jun. 14 – 23, 2006
  4. Các loại miền  1 w0 Mạng có 1 node ω0 + ω1 ξ1 + ω2 ξ2 > 0 x1 w1 ω0 + ω1 ξ1 + ω2 ξ2 < 0 x2 w2 L2 L1 1 1 Mạng có 1 lớp hidden Convex 1 neurons thực hiện vùng lồi: region x1 1 mỗi hidden node thực hiện L3 L4 -3.5 các đường biên bao quanh 1 x2 vùng lồi. 1 P1 Mạng hai lớp hidden P2 1 layer thực hiện hợp ba 1 vùng lồi: mỗi box biểu x1 1 diễn một mạng có 1 lớp P3 x2 1 hidden thực hiện một 1 1.5 vùng lồi Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 4 4 Bangkok, Jun. 14 – 23, 2006
  5. Các vấn đề Non-Linearly Separable khác nhau Các loại vùng Exclusive-OR Các lớp có Các dạng Kiến trúc decision Problem vùng chồng lấn vùng chung Single-Layer Chỉ bao được A B một nửa mặt B phẳng A B A Two-Layer Vùng lồi đóng A B hoặc mở B A B A Three-Layer Bất kỳ A B (mức độ phức B tạp hục thuộc A số nodes) B A Faculty of Electronics and Telecommunications, HUT 5 5 Bangkok, Jun. 14 – 23, 2006
  6. Mô hình của Neuron  Thuật học của FFNN được dựa trên phương pháp  gradient descent. Với lý do này, hàm activation được  dùng trong FFNN là các hàm liên tục của các weight, có  đạo hàm ở mọi nơi.   Một hàm activation điển hình có thể được thấy như là  xấp xỉ liên tục của các hàm bước với các ngưỡng là hàm  Sigmoid Function. Hàm sigmoid cho node j là: ϕ (v j ) ϕ (v j ) = 1 with α > 0 1 1+ ε − αϖϕ Increasing a where v j = ∑ wji yi i with wji weight of link from node i vj to node j and yi output of node i -10 -8 -6 -4 -2 2 4 6 8 10  Khi hướng đến vô cùng thì ϕ hướng tới hàm bậc Faculty of Electronics and Telecommunications, HUT 6 Bangkok, Jun. 14 – 23, 2006
  7. Feed forward NN   Idea: Credit assignment problem • Problem of assigning ‘credit’ or ‘blame’ to  individual elements involving in forming overall  response of a learning system (hidden units) • In neural networks, problem relates to  distributing the network error to the weights. Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 7 7 Bangkok, Jun. 14 – 23, 2006
  8. Quá trình dạy: thuật tóan Backprop  Backprop algorithm tìm kiếm các giá trị của weight  để tối thiểu sai số của mạng trên tập các mẫu  học (training set).  Backprop lặp đi lặp lại của 2 quá trình:  Forward pass: trong bước này, mạng làm việc với 1 mẫu  và sai số của (mỗi neuron) lớp đầu ra được tính tóan.  Backward pass: bước này dùng sai số của mạng để  update các weights. Quá trình này phức tạp hơn thuật  LMS algorithm cho Adaline, bởi vì các hidden nodes liên  quan tới lỗi không trực tiếp mà thông qua các node của  lớp tiếp theo. Do đó, bắt đầu từ lớp đầu ra, sai số được  lan truyền ngược qua mạng qua từng lớp. Điều này  hoàn thành bởi quá trình tính toán hồi quy local gradient  cho mỗi neuron. Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 8 8 Bangkok, Jun. 14 – 23, 2006
  9. Backprop   Thuật dạy Back­propagation được mô tả  như sau: Tính toán sai lệch của mạng- Bước thuận Lan truyền sai số-Bước ngược  Backprop chỉnh các weights của mạng để  tối thiểu sai số trung bình bình phương ủa  toàn mạng Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 9 9 Bangkok, Jun. 14 – 23, 2006
  10. Sai số bình phương trung bình  Sai số ở neuron đầu ra j sau khi thực hiện dạy  dùng mẫu thứ n­th                     là:                      ( x ( n ), d ( n )) e j (n) = d j (n) - y j (n)  Sai số của toàn mạng (network error) là tổng của  sai số bình phương của các neuron đầu ra: E(n) = 1 2 ∑ j e 2 (n) j output node  Tổng sai số trung bình bình phương là trung bình  của các sai số mạng trên các mẫu dùng để dạy N ∑ E (n) 1 EAV = N n =1 Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 10 10 Bangkok, Jun. 14 – 23, 2006
  11. Luật cập nhật Weight Luật cập nhật Backprop dựa trên phương pháp gradient descent: lấy 1 bước theo hướng đạt được giảm tối đa sai số của mạng E. Hướng này ngược chiều ∂Εi gradient của E. vớ ∆w ji = -η ∂w ji w ji = w ji + ∆w ji Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 11 11 Bangkok, Jun. 14 – 23, 2006
  12.  Weight Update Rule Đầu vào của neuron j là ∑w Neurons 1,…m, vj = ji yi liên kết với i =0 ,...,m neuron j, yi là đầu ra ∂Ε ∂Ε ∂v j Có thể viết: = của neuron i ∂w ji ∂v j ∂w ji j Nếu xác định ∂E local gradient of neuron j δ j = − wji ∂v j theo: 1 … i … m δl ∂v j Từ ∂ω ϕι = yi Ta có ∆ω ϕι = ηδ j yi Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 12 12 Bangkok, Jun. 14 – 23, 2006
  13. Weight update  ∂E Do ta phải tính tóan local gradient δj =− ∂v j của neurons. Có 2 luật là theo • j output neuron (green ones) • j hidden neuron (the brown ones) Input Output layer layer Hidden Layer Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 13 13 Bangkok, Jun. 14 – 23, 2006
  14. Weight update of  output neuron  Nếu j là đầu ra của neuron thìdùng chuỗi ta nhận được: ∂Ε ∂Ε ∂e j ∂y j δϕ= − =− = −e ϕ( −1)ϕ ' ( v j ) ∂v j ∂e j ∂y j ∂v j Bởi e j = d j - y j và ψϕ = ϕ ( v j ) Đối với đầu ra j δ ϕ = e ϕϕ ' ( v j ) Thay thế δ j vào ∆ω ϕι = ηδ j yi Ta có ∆w ji = η (d j - y j )ϕ ' (v j ) yi Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 14 14 Bangkok, Jun. 14 – 23, 2006
  15. Weight update  of  hidden neuron  ∂Ε ∂Ε ∂y j δj = − =-   ∂v j ∂y j ∂v j C set of neurons of output layer ∂Ε ∂e k  − ∂e k  ∂v k − = −∑ ek = ∑ e k  ∂v  ∂y ∂y j k∈C ∂y j k∈C  k  j ∂e k ∂v k Observe that − = ϕ ' ( v k ), ekϕ ' ( vk ) = δ k , = wkj , ∂v k ∂y j ∂Ε ∂y j − = ∑ δ k w kj.Moreover = ϕ ' (v j ) Then ∂y j k in next layer ∂v j For j is a hidden node d j = j ' (v j ) ∑d kw kj k in next layer Substituting δ j in ∆ω ϕι = ηδ j yi we get ∆w ji = h yij ' ( v j ) ∑d k k in next layer w kj Faculty of Electronics and Telecommunications, HUT Neural Networks 15 NN 3 15 Bangkok, Jun. 14 – 23, 2006
  16. Error backpropagation The flow-graph below illustrates how errors are back- propagated to the hidden neuron j w1j ϕ’(v1) e1 δ1 δ j ϕ’(vj) wkj ek δk ϕ’(vk) wm j em δm ϕ’(vm) Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 16 16 Bangkok, Jun. 14 – 23, 2006
  17. Summary: Delta Rule Delta rule  ∆ w = η δ y   ϕ ′ ( v j )(d j − y j ) IF j output node dj = j ′(v j ) ∑d w k k of next layer kj IF j hidden node where ϕ ' ( v j ) = ay j (1 − y j ) for sigmoid activation functions Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 17 17 Bangkok, Jun. 14 – 23, 2006
  18. Shape of sigmoidal activation function   Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 18 18 Bangkok, Jun. 14 – 23, 2006
  19. Dynamics of BP learning FNN have complex error surfaces (e.g. plateaus, long  FNN have complex error surfaces valleys etc. ) with no single minimum For complex error surfaces the problem is learning  rate must keep small to prevent divergence. Adding  momentum term is a simple approach dealing with  this problem. this problem Neural Networks NN 3 Faculty of Electronics and Telecommunications, HUT 19 19 Bangkok, Jun. 14 – 23, 2006
  20. Generalized delta rule   If η is small then the algorithm learns the weights  very slowly, while if η is large then the large  changes of the weights may cause an unstable  behavior with oscillations of the weight values.  A technique for tackling this problem is the  introduction of a momentum term in the delta rule  which takes into account previous updates. We  obtain the following generalized Delta rule: ∆w ji ( n) = α∆w ji ( n − 1) + ηδ j ( n)y i ( n) α momentum constant 0 ≤α

CÓ THỂ BẠN MUỐN DOWNLOAD

Đồng bộ tài khoản