Bài giảng Học sâu và ứng dụng: Bài 9 từ ĐH Bách khoa Hà Nội

Bài 9: Mạng hồi quy

Nội dung

• Bài toán dự đoán chuỗi

• Mạng hồi quy thông thường

• Lan truyền ngược theo thời gian (BPTT)

• Mạng LSTM và GRU

• Một số áp dụng

Bài toán dự đoán chuỗi

• Trước giờ, ta chỉ tập trung vào vấn đề dự đoán với đầu

vào và đầu ra kích thước cố định

• Chuyện gì sẽ xảy ra nếu đầu vào và đầu ra là một

chuỗi có kích thước thay đổi?

Phân lớp văn bản

• Phân loại sắc thái (sentiment): phân loại bình luận một nhà hàng hay một bộ phim hay một sản phẩm là tích cực hay tiêu cực

• “The food was really good” - “Thức ăn rất ngon” • “Máy hút bụi bị hỏng trong vòng hai tuần” • “Bộ phim có những phần buồn tẻ, nhưng tổng thể là rất đáng

xem”

• Cần dùng đặc trưng gì và mô hình phân loại gì để giải

quyết bài toán này?

Phân loại sắc thái

• “The food was really good”

Classifier

Trạng thái ẩn “Memory” “Context”

“good”

“was”

“food”

“really”

“The”

Recurrent Neural Network (RNN)

Mô hình ngôn ngữ

• Character RNN

Image source

Character RNN

Kí tự đầu ra yi

𝑝 𝑦!, 𝑦", … , 𝑦#

Lớp đầu ra (biến đổi tuyến tính + softmax)

𝑝(𝑦$|𝑦!, … , 𝑦$&!)

= & $%! #

𝑃’(𝑦$|ℎ$)

≈ & $%!

Trạng thái ẩn hi

Mã hóa One-hot xi

Ký tự đầu vào

Sinh mô tả bức ảnh

• Cho một bức ảnh, cần sinh ra một câu mô tả nội dung

bức ảnh

“The dog is hiding”

Sinh mô tả bức ảnh

Bộ phân loại

“hiding” “is” “STOP” “The” “dog”

h4 h3 h5 h1 h2

h1 h4 h3 h0 h2

“hiding” “START” “is” “dog” “The” CNN

Dịch máy

https://translate.google.com/

Dịch máy

• Nhiều đầu vào – nhiều đầu ra (hay còn gọi là

sequence to sequence)

“is” “Matches” “Nature”

“nature” “Correspondances” “La”

Tổng hợp các loại dự đoán

Dịch máy

Sinh mô tả ảnh

Phân lớp ảnh

Phân loại sắc thái câu

Phân loại video mức frame

Mạng hồi quy thông thường

Mạng hồi quy Recurrent Neural Network (RNN)

Đầu ra tại thời điểm t

Bộ phân loại

Trạng thái ẩn tại thời điểm t

Hồi quy: ℎ! = 𝑓"(𝑥!, ℎ!#$)

old state

Lớp ẩn

function of W

input at time t

new state

Dữ liệu vào tại thời điểm t

Duỗi (unroll) RNN

Bộ phân loại

Lớp ẩn

Bộ phân loại

Lớp ẩn

t = 3

t = 2

t = 1

Bộ phân loại

RNN thông thường

= tanh 𝑊

ℎ- = 𝑓.(𝑥-, ℎ-/0) 𝑥- ℎ-/0

J. Elman, Finding structure in time, Cognitive science 14(2), pp. 179–211, 1990

ht-1

RNN thông thường

= tanh 𝑊

ℎ- = 𝑓.(𝑥-, ℎ-/0) 𝑥- ℎ-/0

𝜎 𝑎

tanh 𝑎 =

𝑒! − 𝑒"! 𝑒! + 𝑒"! = 2𝜎 2𝑎 − 1

tanh 𝑎

Image source

ht-1

RNN thông thường

= tanh 𝑊

ℎ- = 𝑓.(𝑥-, ℎ-/0) 𝑥- ℎ-/0

tanh 𝑎 = 1 − tanh)(𝑎)

𝑑 𝑑𝑎

Image source

ht-1

RNN thông thường

= tanh 𝑊

ℎ- = 𝑓.(𝑥-, ℎ-/0) 𝑥- ℎ-/0

= tanh 𝑊1𝑥- + 𝑊2ℎ-/0

𝑊"

𝑊!

𝑥!

n-dim.

m-dim.

ℎ!"#

ht-1

RNN Forward Pass

𝑒# = −log(𝑦#(𝐺𝑇#))

𝑦# = softmax(𝑊&ℎ#)

y1 y2 y3

ℎ# = tanh 𝑊

𝑥# ℎ#$%

h1 h2 h3

Dùng chung trọng số (shared weights)

h0 x1 h1 x2 h2 x3

Lan truyền ngược theo thời gian (BPTT)

• Đây là phương pháp thông dụng nhất để huấn luyện

RNNs

• Mạng sau khi duỗi được xem như một mạng nơ-ron

feed-forward lớn nhận dữ liệu đầu vào là cả chuỗi dữ liệu

• Gradient đối với một trọng số mạng RNN được tính tại

mỗi bản sao của nó trong mạng duỗi (unfolded network), sau đó được cộng lại (hoặc tính trung bình) và được sử dụng để cập nhật trọng số mạng.

Tính toán tiến (forward pass) mạng RNN duỗi

𝑒# = −log(𝑦#(𝐺𝑇#))

𝑦# = softmax(𝑊&ℎ#)

y1 y2 y3

ℎ# = tanh 𝑊

𝑥# ℎ#$%

h1 h2 h3

h0 x1 h1 x2 h2 x3

Tính toán tiến (forward pass) mạng RNN duỗi

𝑒# = −log(𝑦#(𝐺𝑇#))

𝑦# = softmax(𝑊&ℎ#)

y1 y2 y3

ℎ# = tanh 𝑊

𝑥# ℎ#$%

h1 h2 h3

h0 x1 h1 x2 h2 x3

Lan truyền ngược mạng RNN

Lỗi từ yt

Lỗi từ dự đoán ở các bước tương lai

ℎ( = tanh 𝑊)𝑥( + 𝑊*ℎ(&!

𝜕𝑒 𝜕ℎ#

⨀ 1 − tanh" 𝑊)𝑥( + 𝑊*ℎ(&!

+ ℎ(&!

𝜕𝑒 𝜕𝑊*

𝜕𝑒 𝜕ℎ(

𝜕𝑒 𝜕𝑊

⨀ 1 − tanh" 𝑊)𝑥( + 𝑊*ℎ(&!

+ 𝑥(

𝜕𝑒 𝜕𝑊)

𝜕𝑒 𝜕ℎ(

𝜕𝑒 𝜕ℎ#$%

+ 1 − tanh" 𝑊)𝑥( + 𝑊*ℎ(&! ⨀

= 𝑊*

𝜕𝑒 𝜕ℎ(&!

𝜕𝑒 𝜕ℎ(

Lan truyền ngươc tới các bước sớm hơn

ht-1

Lan truyền ngược mạng RNN

’ 1 − tanh( 𝑊"𝑥# + 𝑊!ℎ#$% ⨀

= 𝑊!

𝜕𝑒 𝜕ℎ#$%

𝜕𝑒 𝜕ℎ#

Giá trị hàm tanh lớn sẽ tương ứng với gradient nhỏ (vùng bão hòa)

y1 y2 y3

h1 h2 h3

Xét

với 𝑘 ≪ 𝑛

=># =?$

h0 x1 h1 x2 h2 x3

Lan truyền ngược mạng RNN

’ 1 − tanh( 𝑊"𝑥# + 𝑊!ℎ#$% ⨀

= 𝑊!

𝜕𝑒 𝜕ℎ#$%

𝜕𝑒 𝜕ℎ#

y1 y2 y3

Gradient sẽ triệt tiêu nếu giá trị riêng lớn nhất của 𝑊! nhỏ hơn 1

h1 h2 h3

Xét

với 𝑘 ≪ 𝑛

=># =?$

h0 x1 h1 x2 h2 x3

Chi tiết xem tại khóa cs224n

Mạng LSTM và GRU

Long Short-Term Memory (LSTM)

• Sử dụng thêm “cell” có bộ nhớ để tránh hiện tượng

triệt tiêu gradient

ht-1

ct-1

S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Computation 9 (8), pp. 1735–1780, 1997

LSTM Cell

Cell

ℎ! = tanh 𝑐!

Wg xt

𝑔! = tanh 𝑊$

𝑥! ℎ!"#

𝑐! = 𝑐!"# + 𝑔!

ht-1

LSTM Cell

Cell

Wg xt

𝑔! = tanh 𝑊$

𝑥! ℎ!"#

ht-1

LSTM Cell

xt ht-1

Input Gate

𝑖! = 𝜎 𝑊%

+ 𝑏%

𝑥! ℎ!"#

Cell

Wg xt

𝑔! = tanh 𝑊$

𝑥! ℎ!"#

𝑐! = 𝑐!"# + 𝑖!⨀ 𝑔!

ht-1

LSTM Cell

xt ht-1 xt ht-1

Input Gate

Output Gate

𝑜! = 𝜎 𝑊&

+ 𝑏&

𝑖! = 𝜎 𝑊%

+ 𝑏%

𝑥! ℎ!"#

Cell

Wi Wo it ot

ℎ! = 𝑜!⨀ tanh 𝑐!

Wg xt

𝑔! = tanh 𝑊$

𝑥! ℎ!"#

𝑐! = 𝑐!"# + 𝑖!⨀ 𝑔!

ht-1

LSTM Cell

xt ht-1 xt ht-1

Input Gate

Output Gate

𝑜! = 𝜎 𝑊&

+ 𝑏&

𝑖! = 𝜎 𝑊%

+ 𝑏%

𝑥! ℎ!"#

Cell

Wi Wo it ot

ℎ! = 𝑜!⨀ tanh 𝑐!

Wg xt

𝑔! = tanh 𝑊$

𝑥! ℎ!"#

𝑐! = 𝑓!⨀𝑐!"# + 𝑖!⨀ 𝑔!

Forget Gate

𝑓! = 𝜎 𝑊’

+ 𝑏’

ht-1

𝑥! ℎ!"#

ft Wf

xt ht-1

LSTM Forward Pass Summary

•

𝑥C ℎC"H

tanh 𝜎 𝜎 𝜎

𝑔C 𝑖C 𝑓C 𝑜C

𝑊D 𝑊E 𝑊F 𝑊G • 𝑐C = 𝑓C⨀𝑐C"H + 𝑖C⨀ 𝑔C • ℎC = 𝑜C⨀ tanh𝑐C

Figure source

Lan truyền ngược LSTM

• Luồng gradient từ 𝑐C tới 𝑐C"H chỉ lan truyền ngược qua phép cộng và nhân từng phần tử, không đi qua phép nhân ma trận và hàm tanh

For complete details: Illustrated LSTM Forward and Backward Pass

Figure source

Gated Recurrent Unit (GRU) • Không dùng “cell state” riêng biệt, ghép chung với hidden state

• Kết hợp cổng “forget” và “output” thành cổng “update”

Update Gate

xt ht-1

Wz zt

xt W

h’t

Reset Gate

ht-1

rt Wf

xt ht-1

Gated Recurrent Unit (GRU)

ℎ# = tanh 𝑊

𝑥# ℎ#$%

xt W

ht-1

Gated Recurrent Unit (GRU)

𝑟# = 𝜎 𝑊)

+ 𝑏#

𝑥# ℎ#$%

* = tanh 𝑊 ℎ#

𝑥# 𝑟# ⨀ ℎ#$%

xt W

h’t

Reset Gate

ht-1

rt Wf

xt ht-1

Gated Recurrent Unit (GRU)

xt ht-1

Update Gate

𝑟# = 𝜎 𝑊)

+ 𝑏#

𝑥# ℎ#$%

Wz zt

* = tanh 𝑊 ℎ#

𝑥# 𝑟# ⨀ ℎ#$%

xt W

h’t

𝑧# = 𝜎 𝑊+

+ 𝑏+

𝑥# ℎ#$%

Reset Gate

ht-1

rt Wf

xt ht-1

Gated Recurrent Unit (GRU)

xt ht-1

Update Gate

𝑟# = 𝜎 𝑊)

+ 𝑏#

𝑥# ℎ#$%

Wz zt

* = tanh 𝑊 ℎ#

𝑥# 𝑟# ⨀ ℎ#$%

xt W

h’t

𝑧# = 𝜎 𝑊+

+ 𝑏+

𝑥# ℎ#$%

Reset Gate

ht-1

* ℎ# = 1 − 𝑧# ⨀ ℎ#$% + 𝑧#⨀ ℎ#

rt Wf

xt ht-1

RNNs nhiều lớp

• Có thể thiết kế RNNs với nhiều lớp ẩn

RNNs hai chiều

• RNNs có thể xử lý chuỗi đầu vào theo chiều ngược

vào chiều xuôi

• Phổ biến trong nhận dạng âm thanh

Một số ví dụ ứng dụng

Phân loại chuỗi

Ignore

Linear Classifier

RNN

hn-1

The

food

good

Phân loại chuỗi

Linear Classifier

h = Sum(…)

RNN

hn-1

food

The

good

http://deeplearning.net/tutorial/lstm.html

Phân loại chuỗi

Linear Classifier

h = Sum(…)

Bi-RNN

hn-1

The

food

good

Character RNN

100th iteration

300th iteration

700th iteration

2000th iteration

http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Image source

Image Caption Generation

“hiding” “is” “STOP” “The” “dog”

Classifier Classifier Classifier Classifier Classifier

h4 h3 h5 h1 h2

h1 h4 h3 h0 h2

“hiding” “START” “is” “dog” “The” CNN

Sinh mô tả ảnh

Dịch máy

Sequence-to-sequence

I. Sutskever, O. Vinyals, Q. Le, Sequence to Sequence Learning with Neural Networks, NIPS 2014

Encoder-decoder

K. Cho, B. Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, Learning phrase representations using RNN encoder-decoder for statistical machine translation, ACL 2014