intTypePromotion=1
ADSENSE

Báo cáo kết quả thực hiện đề tài cơ sở Cấp viện Cơ học năm 2019: Xây dựng hệ thống thử nghiệm dự báo mực nước trên nền tảng WebGIS bằng mô hình mạng nơron nhân tạo hồi tiếp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:77

49
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong những năm gần đây, các hiện tượng thiên tai xảy ra thường xuyên và có xu thế cực đoan hơn. Việc đo đạc, dự báo, cảnh báo lũ lụt là một hoạt động hết sức quan trọng và có ý nghĩa thiết thực giúp cho các ngành sản xuất cũng như ổn định đời sống của người dân cả nước. Báo cáo tập trung trình bày các nội dung chính sau: Mô hình mạng thần kinh nhân tạo hồi tiếp, WebGIS và cơ sở dữ liệu; Xây dựng hệ thống dự báo; Thử nghiệm hệ thống dự báo cho một số lưu vực.

Chủ đề:
Lưu

Nội dung Text: Báo cáo kết quả thực hiện đề tài cơ sở Cấp viện Cơ học năm 2019: Xây dựng hệ thống thử nghiệm dự báo mực nước trên nền tảng WebGIS bằng mô hình mạng nơron nhân tạo hồi tiếp

  1. VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CƠ HỌC ----------------------------- BÁO CÁO KẾT QUẢ THỰC HIỆN ĐỀ TÀI CƠ SỞ CẤP VIỆN CƠ HỌC NĂM 2019 ĐỀ TÀI XÂY DỰNG HỆ THỐNG THỬ NGHIỆM DỰ BÁO MỰC NƯỚC TRÊN NỀN TẢNG WEBGIS BẰNG MÔ HÌNH MẠNG NƠRON NHÂN TẠO HỒI TIẾP Chủ nhiệm Đề tài: TS. Nguyễn Chính Kiên HÀ NỘI – 2019
  2. DANH SÁCH CÁN BỘ THAM GIA THỰC HIỆN ĐỀ TÀI TT Họ và tên Phòng chuyên môn Thủy động lực và Giảm nhẹ thiên 1 TS. Nguyễn Chính Kiên tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 2 TS. Nguyễn Tiến Cường tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 3 ThS. Dương Thị Thanh Hương tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 4 ThS. Nguyễn Tuấn Anh tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 5 PGS. TS. Trần Thu Hà tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 6 ThS. Nguyễn Hồng Phong tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 7 TS. Nguyễn Thành Đôn tai trong lưu vực Thủy động lực và Giảm nhẹ thiên 8 CN. Trần Thị Thanh Huyền tai trong lưu vực
  3. i MỤC LỤC DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT THƯỜNG SỬ DỤNG ............................. iii DANH MỤC CÁC BẢNG ............................................................................................... iv DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ .....................................................................v MỞ ĐẦU .............................................................................................................................1 CHƯƠNG I: MÔ HÌNH MẠNG THẦN KINH NHÂN TẠO HỒI TIẾP, WEBGIS VÀ CƠ SỞ DỮ LIỆU ...............................................................................................................3 1.1 Mạng thần kinh nhân tạo hồi tiếp ...........................................................................3 1.1.1 Khái niệm về mạng thần kinh nhân tạo ..............................................................3 1.1.2 Khái niệm mạng nơron nhân tạo hồi tiếp ...........................................................4 1.2 Giới thiệu về WebGIS .............................................................................................12 1.2.1 Khái niệm ..........................................................................................................12 1.2.2 Đặc điểm của một hệ thống WebGIS ...............................................................17 1.2.3 Khả năng ứng dụng WebGIS ............................................................................18 1.3 Cơ sở dữ liệu ...........................................................................................................18 1.3.1 Lựa chọn hệ quản trị cơ sở dữ liệu ...................................................................19 1.3.2 Quy trình thiết kế cơ sở dữ liệu ........................................................................21 CHƯƠNG II: XÂY DỰNG HỆ THỐNG DỰ BÁO .....................................................25 2.1 Mođun tính bằng mạng thần kinh nhân tạo hồi tiếp ............................................25 2.1.1 Sơ đồ khối .........................................................................................................25 2.1.2 Giao diện hiển thị kết quả tính toán bằng mođun mạng thần kinh nhân tạo ....26 2.2 Xây dựng cơ sở dữ liệu về thông tin khí tượng thuỷ văn ......................................27 2.2.1 Thiết kế cơ sở dữ liệu .......................................................................................27 2.2.2 Nhập dữ liệu vào cơ sở dữ liệu .........................................................................36 2.2.3 Thống kê kết quả nhập liệu lên cơ sở dữ liệu ...................................................37 2.3 Xây dựng hệ thống thông tin địa lý trực tuyến WebGIS .......................................40 2.3.1 Phương pháp xử lý dữ liệu bản đồ và kết quả ..................................................40 2.3.2 Hệ thống thông tin địa lý trực tuyến .................................................................44 2.4 Xây dựng hệ thống dự báo .....................................................................................46 2.4.1 Cấu trúc của hệ thống dự báo ...........................................................................46 2.4.2 Giao diện của hệ thống dự báo .........................................................................48 2.4.3 Kỹ thuật hỗ trợ ..................................................................................................51
  4. ii CHƯƠNG III: THỬ NGHIỆM HỆ THỐNG DỰ BÁO CHO MỘT SỐ LƯU VỰC 52 3.1 Kết quả dự báo mực nước đồng bằng châu thổ sông Hồng .................................52 3.2 Kết quả dự báo mực nước cho lưu vực sông Tích – Bùi ......................................58 3.3 Kết quả dự báo mực nước cho lưu vực sông Tam Kỳ ...........................................63 KẾT LUẬN VÀ KIẾN NGHỊ .........................................................................................67 TÀI LIỆU THAM KHẢO ...............................................................................................68
  5. iii DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT THƯỜNG SỬ DỤNG ANN Artificial Nơron Network - mạng thần kinh nhân tạo AI Trí tuệ nhân tạo GA Genetic Algorithm - Giải thuật Di truyền BP Backpropagation - Giải thuật Lan truyền ngược sai số LSTMs Long Short Term Memory Networks – Bộ nhớ dài hạn RNNs Recurrent Neural Networks - Mạng nơron nhân tạo hồi tiếp RMS Sai số căn quân phương NSE Chỉ số đánh giá Nash-Sutcliffe KT Khí tượng TV Thủy văn GIS Hệ thống thông tin địa lý CSDL Cơ sở dữ liệu KHCN Khoa học công nghệ VN Việt Nam
  6. iv DANH MỤC CÁC BẢNG Bảng 2.1: Cấu trúc bảng dữ liệu lưu vực sông ..................................................................27 Bảng 2.2: Cấu trúc bảng dữ liệu đê....................................................................................28 Bảng 2.3: Cấu trúc bảng dữ liệu sông ................................................................................29 Bảng 2.4: Cấu trúc bảng dữ liệu công trình .......................................................................29 Bảng 2.5: Cấu trúc bảng dữ liệu mặt cắt sông ...................................................................30 Bảng 2.6: Cấu trúc bảng dữ liệu độ ẩm .............................................................................30 Bảng 2.7: Cấu trúc bảng dữ liệu lưu lượng........................................................................31 Bảng 2.8: Cấu trúc bảng dữ liệu lượng mưa ......................................................................32 Bảng 2.9: Cấu trúc bảng dữ liệu độ mặn ...........................................................................32 Bảng 2.10: Cấu trúc bảng dữ liệu nhiệt độ ........................................................................33 Bảng 2.11: Cấu trúc bảng dữ liệu mực nước .....................................................................33 Bảng 2.12: Cấu trúc bảng dữ liệu trạm thủy văn ...............................................................34 Bảng 2.13: Bảng thống kê dữ liệu được nhập vào hệ thống cơ sở dữ liệu ........................37 Bảng 3.1: Bảng chỉ số NSE các phương án tính cho đồng bằng châu thổ sông Hồng ......57 Bảng 3.2: Bảng chỉ số NSE các phương án tính cho lưu vực sông Tích Bùi ....................62
  7. v DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: Nơron nhân tạo.....................................................................................................3 Hình 1.2: Cấu trúc nơron hồi tiếp ........................................................................................5 Hình 1.3: Mô hình mạng nơron hồi tiếp ..............................................................................5 Hình 1.4: Mạng nơron hồi tiếp có chứa một vòng lặp .........................................................5 Hình 1.5: Tách vòng lặp mạng nơron hồi tiếp .....................................................................6 Hình 1.6: Phụ thuộc dữ liệu các lớp gần kề .........................................................................6 Hình 1.7: Phụ thuộc dữ liệu các lớp không thể ước lượng phía trước .................................6 Hình 1.8: Mođun lặp lại trong 1 RNNs chuẩn chứa 1 lớp đơn. ...........................................7 Hình 1.9: Mođun lặp lại trong 1 LSTMs chứa 4 lớp tương tác. ..........................................7 Hình 1.10: Định hướng phát triển của khoa học GIS ........................................................12 Hình 1.11: Các thành phần của GIS ..................................................................................13 Hình 1.12: Kiến trúc 3 tầng của một hệ thống WebGIS ....................................................15 Hình 1.13: Thông tin vào/ra quy trình thiết kế cơ sở dữ liệu ............................................22 Hình 1.14: Quy trình thiết kế cơ sở dữ liệu .......................................................................22 Hình 2.1: Sơ đồ thuật toán mô hình mạng thần kinh nhân tạo LSTMs .............................25 Hình 2.2: Giao diện hiển thị kết quả tính toán bằng mođun mạng thần kinh nhân tạo và số liệu thực đo.........................................................................................................................26 Hình 2.3: Nhập dữ liệu mực nước vào hệ quản trị CSDL .................................................36 Hình 2.4: Bản đồ lưu vực sông toàn lãnh thổ Việt Nam ...................................................38 Hình 2.5: Bản đồ cao độ một phần vùng châu thổ sông Hồng ..........................................39 Hình 2.6: Bản đồ đường giao thông ...................................................................................39 Hình 2.7: Bản đồ chia ô vùng đồng bằng châu thổ sông Hồng .........................................41 Hình 2.8: Bản đồ chia ô ruộng lưu vực Tích Bùi...............................................................42 Hình 2.9: Bản đồ chia ô ruộng lưu vực Tam Kỳ ...............................................................43 Hình 2.10: Bản đồ mạng lưới trạm trên toàn lãnh thổ Việt Nam ......................................44 Hình 2.11: Bản đồ các lưu vực sông trên hệ thống thông tin địa lý trực tuyến .................45 Hình 2.12: Danh sách các lưu vực sông trên hệ thống thông tin địa lý .............................45
  8. vi Hình 2.13: Các trạm có sự tác động đến trạm thủy văn Hà Nội ........................................46 Hình 2.14: Sơ đồ hoạt động hệ thống dự báo trực tuyến ...................................................47 Hình 2.15: Giao diện hiển thị các hệ thống sông Việt Nam ..............................................48 Hình 2.16: Bản đồ WebGIS vùng đồng bằng châu thổ sông Hồng ...................................49 Hình 2.17: Bản đồ WebGIS lưu vực sông Tích – Bùi .......................................................50 Hình 2.18: Bản đồ WebGIS lưu vực sông Tam Kỳ ...........................................................50 Hình 3.1: Vị trí địa lý vùng đồng bằng châu thổ sông Hồng – Thái Bình .........................53 Hình 3.2: Bản đồ vùng đồng bằng châu thổ sông Hồng ....................................................54 Hình 3.3: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2015 đến 15/9/2015 ............................................................................................................................................55 Hình 3.4: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2016 đến 15/9/2016 ............................................................................................................................................55 Hình 3.5: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2017 đến 15/9/2017 ............................................................................................................................................56 Hình 3.6: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2018 đến 15/9/2018 ............................................................................................................................................56 Hình 3.7: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2019 đến 15/9/2019 ............................................................................................................................................57 Hình 3.8: Phạm vi nghiên cứu thuộc lưu vực sông Tích – Bùi .........................................58 Hình 3.9: Bản đồ lưu vực sông Tích Bùi ...........................................................................59 Hình 3.10: Đồ thị mực nước thực đo và dự báo trạm Ba Thá từ ngày 15/6/2015 đến 15/9/2015 ...........................................................................................................................60 Hình 3.11: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2016 đến 15/9/2016 ............................................................................................................................................60 Hình 3.12: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2017 đến 15/9/2017 ............................................................................................................................................61 Hình 3.13: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2018 đến 15/9/2018 ............................................................................................................................................61 Hình 3.14: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2019 đến 15/9/2019 ............................................................................................................................................62 Hình 3.15: Phạm vi nghiên cứu của lưu vực sông Tam Kỳ ...............................................64
  9. vii Hình 3.16: Bản đồ lưu vực sông Tam Kỳ ..........................................................................64 Hình 3.17: Đồ thị mực nước thực đo và dự báo tại trạm Tam Anh năm 2001 ..................65 Hình 3.18: Đồ thị mực nước thực đo và dự báo tại trạm Tam Anh năm 2017 ..................65
  10. 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong những năm gần đây, các hiện tượng thiên tai xảy ra thường xuyên và có xu thế cực đoan hơn. Việc đo đạc, dự báo, cảnh báo lũ lụt là một hoạt động hết sức quan trọng và có ý nghĩa thiết thực giúp cho các ngành sản xuất cũng như ổn định đời sống của người dân cả nước. Dự báo thuỷ văn, thủy lực là công việc dự báo trước cho tương lai một cách có khoa học về trạng thái biến đổi các yếu tố thuỷ văn, tuy nhiên sự biến đổi này là một quá trình tự nhiên phức tạp, chịu tác động của rất nhiều yếu tố. Tính biến động của các yếu tố này phụ thuộc vào cả không gian và thời gian nên gây khó khăn rất lớn cho quá trình dự báo, tìm ra được mối liên quan giữa các yếu tố. Thêm vào đó, do thiếu các trạm quan trắc cần thiết và thiếu sự kết hợp giữa các ngành liên quan cho nên dữ liệu quan trắc thực tế thường là không đầy đủ, không mang tính chất đại diện. Hiện nay, có rất nhiều phương pháp dự báo đã được đưa ra dựa trên mô hình vật lý và toán học, kết quả của các mô hình nói trên đã đạt được một số thành công đáng ghi nhận. Tuy nhiên, các mô hình đều có những ưu và nhược điểm nhất định, vấn đề tìm kiếm phương pháp đủ tốt, đáp ứng các yêu cầu thực tế giải quyết bài toán dự báo thuỷ văn, thủy lực vẫn là nội dung nghiên cứu thời sự hiện nay. Một hướng tiếp cận mới bằng cách sử dụng mô hình mạng thần kinh nhân tạo hồi tiếp để dự báo các yếu tố thủy văn, thủy lực. Bên cạnh đó, cùng với sự phát triển của công nghệ đám mây, phương thức phát triển phần mềm đã có sự chuyển dịch từ hình thức cài đặt máy tính (SaaP - Software as a Product) được chuyển lên nền tảng đám mây (SaaS - Software as a Service). So với SaaP, SaaS vượt trội hơn hẳn ở 4 điểm: người dùng truy cập được ở mọi nơi, mọi thiết bị; có thể mở rộng nâng cấp linh hoạt theo nhu cầu (tính toán + ứng dụng); người dùng (nhà quản lý + nhà khoa học + người sử dụng kết quả) cộng tác với nhau trên cùng một môi trường và quy trình triển khai dễ dàng nhanh chóng. Hệ thống được xây dựng dưới dạng trực tuyến nhằm cung cấp thông tin cho người dùng mọi nơi, mọi lúc bằng nhiều loại thiết bị khác nhau và các kết quả đầu ra được hiển thị trực quan qua các biểu đồ và bản đồ GIS. 2. Mục đích nghiên cứu - Mạng nơron nhân tạo hồi tiếp, cơ sở dữ liệu và WebGIS, - Xây dựng hệ thống thử nghiệm dự báo mực nước trên nền tảng WebGIS.
  11. 2 3. Phương pháp nghiên cứu - Phân tích, thống kê và tính toán các tư liệu thu thập được, - Mô hình hóa bài toán dự báo bằng việc xây dựng hệ thống dự báo trực tuyến trên nền WebGIS bằng ngôn ngữ C#.
  12. 3 CHƯƠNG I MÔ HÌNH MẠNG THẦN KINH NHÂN TẠO HỒI TIẾP, WEBGIS VÀ CƠ SỞ DỮ LIỆU 1.1 Mạng thần kinh nhân tạo hồi tiếp 1.1.1 Khái niệm về mạng thần kinh nhân tạo[5] Mạng nơron nhân tạo, Artificial Neural Network (ANN) gọi tắt là mạng nơron, là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học. Nó được tạo nên từ một số lượng lớn các phần tử (gọi là phần tử xử lý hay nơron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó. Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơron. Cấu trúc của một nơron được mô tả ở hình 1.1 bên dưới đây: Hình 1.1: Nơron nhân tạo Các thành phần cơ bản của một nơron nhân tạo bao gồm: - Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường được đưa vào dưới dạng một vec-tơ m chiều. - Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số liên kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với nơron k thường được kí hiệu là wjk. Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng.
  13. 4 - Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó. Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền. - Hàm truyền (Transfer function) – còn gọi là Hàm kích hoạt (Activation function): Hàm này được dùng để giới hạn phạm vi đầu ra của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông thường, phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1, 1]. Các hàm truyền rất đa dạng được liệt kê trong bảng 1.1, có thể là các hàm tuyến tính hoặc phi tuyến. Việc lựa chọn hàm truyền nào là tuỳ thuộc vào từng bài toán và kinh nghiệm của người thiết kế mạng. - Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một đầu ra. Như vậy tương tự như nơron sinh học, nơron nhân tạo cũng nhận các tín hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền). 1.1.2 Khái niệm mạng nơron nhân tạo hồi tiếp * Mạng nơron hồi tiếp RNNs Mạng nơron nhân tạo được xây dựng để mô phỏng lại cách hoạt động của bộ não con người. Đối với mạng nơron thông thường, mỗi sự kiện đầu vào x được xử lý một cách độc lập và đưa ra đầu ra y tương ứng mà không có sự trao đổi thông tin thu thập được tại mỗi đầu vào x trong mạng. Tuy nhiên, bộ não con người hoạt động một cách phức tạp hơn thế nhiều với sự kết hợp của nhiều dạng thông tin và sự kiện với nhau để đưa ra kết luận cuối cùng. Bộ não lưu giữ những thông tin trong quá khứ và sử dụng chúng để xử lý những thông tin đang tiếp nhận. Đây là một quá trình phức tạp mà những mạng nơron bình thường không thể mô phỏng lại được. Mạng nơron nhân tạo hồi tiếp (Recurrent Neural Networks - RNNs) ra đời nhằm mô tả quá trình liên kết các sự kiện đó. Một trong những yêu cầu khi xây dựng RNNs là dựa trên ý tưởng rằng chúng có thể kết nối thông tin trước với nhiệm vụ hiện tại, bằng việc sử dụng các hàm trễ lưu trữ dữ liệu trong khoảng thời gian nhất định.
  14. 5 Hình 1.2: Cấu trúc nơron hồi tiếp Hình 1.3: Mô hình mạng nơron hồi tiếp Mạng nơron hồi tiếp là một mạng nơron có chứa một vòng lặp bên trong nó. Hình 1.4: Mạng nơron hồi tiếp có chứa một vòng lặp Trong hình trên, A là mạng nơron hồi tiếp. Nó nhận một đầu vào xt , tiến hành xử lý và đưa ra đầu ra ht . Điểm đặc biệt của A là nó sẽ lưu lại giá trị của ht để sử dụng cho đầu vào tiếp theo. Có thể coi một mạng nơron hồi tiếp là một chuỗi những mạng con giống hệt nhau, mỗi mạng sẽ truyền thông tin nó vừa xử lý cho mạng phía sau nó. Nếu ta tách từng vòng lặp xử lý trong A ra thành từng mạng con theo cách suy nghĩ như trên thì ta sẽ có một mạng có kiến trúc như sau:
  15. 6 Hình 1.5: Tách vòng lặp mạng nơron hồi tiếp Chuỗi lặp lại các mạng này chính là phân giải của mạng nơron hồi tiếp, các vòng lặp khiến chúng tạo thành một chuỗi danh sách các mạng sao chép nhau. Chuỗi lặp của mạng nơron hồi tiếp vẫn nhận đầu vào và có đầu ra giống với mạng nơron thông thường. * Vấn đề phụ thuộc lâu dài Hình 1.6: Phụ thuộc dữ liệu các lớp gần kề Nhưng khi khoảng cách thời gian giữa các tập dữ liệu tăng lên, RNNs không thể học để kết nối các thông tin đó. Về lý thuyết, RNNs hoàn toàn có khả năng xử lý các "phụ thuộc lâu dài" như vậy. Một người có thể cẩn thận chọn các tham số để giải quyết các vấn đề của dạng này. Nhưng trên thực tế, RNNs dường như không thể học được chúng do không thể ước lượng được “độ dài phụ thuộc”. Hình 1.7: Phụ thuộc dữ liệu các lớp không thể ước lượng phía trước
  16. 7 * Mạng LSTMs LSTMs (Long Short Term Memory Networks) được giới thiệu bởi Hochreiter & Schmidhuber (1997), sau đó đã được cải tiến và phổ biến bởi rất nhiều người trong ngành. Chúng hoạt động cực kì hiệu quả trên nhiều bài toán khác nhau nên dần đã trở nên phổ biến như hiện nay. LSTMs được thiết kế để tránh được vấn đề độ dài phụ thuộc (long-term dependency). Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ ta không cần phải huấn luyện nó để có thể nhớ được. Tức là ngay nội tại của nó đã có thể ghi nhớ được mà không cần bất kì can thiệp nào. Mọi mạng hồi tiếp đều có dạng là một chuỗi các mođun lặp đi lặp lại của mạng nơron truyền thống. Với mạng RNNs chuẩn, các mođun này có cấu trúc rất đơn giản, thường là một tầng hàm kích hoạt tanh. Hình 1.8: Mođun lặp lại trong 1 RNNs chuẩn chứa 1 lớp đơn. LSTMs cũng có kiến trúc dạng chuỗi như vậy, nhưng các mođun trong nó có cấu trúc khác với mạng RNNs chuẩn. Thay vì chỉ có một tầng mạng nơron, chúng có tới 4 tầng tương tác với nhau một cách rất đặc biệt. Hình 1.9: Mođun lặp lại trong 1 LSTMs chứa 4 lớp tương tác.
  17. 8 Ở sơ đồ trên, mỗi một đường mang một véc-tơ từ đầu ra của một nút tới đầu vào của một nút khác. Các hình tròn biểu diễn các phép toán như phép cộng véc-tơ, nhân liên hợp, còn các chữ nhật được biểu thị các hàm kích hoạt trong từng nơron. Các đường hợp nhau kí hiệu việc kết hợp, còn các đường rẽ nhánh ám chỉ nội dung của nó được sao chép và chuyển tới các nơi khác nhau. * Ý tưởng chính của LSTMs Chìa khóa của LSTMs là trạng thái tế bào (cell state) - chính đường chạy thông ngang phía trên của sơ đồ hình vẽ. Trạng thái tế bào là một dạng giống như băng chuyền. Nó chạy xuyên suốt tất cả các mắt xích (các nút mạng) và chỉ tương tác tuyến tính đôi chút. Vì vậy mà các thông tin có thể dễ dàng truyền đi thông suốt mà không sợ bị thay đổi. LSTMs có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng thái tế bào, chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là cổng (gate). Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng mạng sigmoid và một phép nhân. Tầng sigmoid sẽ cho đầu ra là một số trong khoảng [0, 1], mô tả có bao nhiêu thông tin có thể được thông qua. Khi đầu ra là 0 thì có nghĩa là không cho thông tin nào qua cả, trong khi đầu ra là 1 thì có nghĩa là cho tất cả các thông tin đi qua nó. Một LSTMs gồm có 3 cổng như vậy để duy trì và điều hành trạng thái của tế bào.
  18. 9 * Bên trong của LSTMs Bước đầu tiên của LSTMs là quyết định xem thông tin nào cần bỏ đi từ trạng thái tế bào. Quyết định này được đưa ra bởi tầng sigmoid gọi là “tầng cổng quên” (forget gate layer). Nó sẽ lấy đầu vào là ht-1 và xt rồi đưa ra kết quả là một số trong khoảng [0, 1] cho mỗi số trong trạng thái tế bào Ct-1. Đầu ra là 1 thể hiện rằng nó giữ toàn bộ thông tin lại, còn 0 chỉ rằng toàn bộ thông tin sẽ bị bỏ đi. Bước tiếp theo là quyết định xem thông tin mới nào ta sẽ lưu vào trạng thái tế bào. Việc này gồm 2 phần. Đầu tiên là sử dụng một tầng sigmoid được gọi là “tầng cổng vào” (input gate layer) để quyết định giá trị nào ta sẽ cập nhật. Tiếp theo là một tầng tanh tạo ra một véc-tơ cho giá trị mới Čt nhằm thêm vào cho trạng thái. Trong bước tiếp theo, ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhập cho trạng thái. Giờ là lúc cập nhập trạng thái tế bào cũ Ct-1 thành trạng thái mới Ct. Ở các bước trước đó đã quyết định những việc cần làm, nên giờ ta chỉ cần thực hiện là xong. Ta sẽ nhân trạng thái cũ với ft để bỏ đi những thông tin ta quyết định quên lúc trước. Sau đó cộng thêm it∗Čt . Trạng thái mới thu được này phụ thuộc vào việc ta quyết định cập nhập mỗi giá trị trạng thái ra sao.
  19. 10 Cuối cùng, ta cần quyết định xem ta muốn đầu ra là gì. Giá trị đầu ra sẽ dựa vào trạng thái tế bào, nhưng sẽ được tiếp tục sàng lọc. Đầu tiên, ta chạy một tầng sigmoid để quyết định phần nào của trạng thái tế bào ta muốn xuất ra. Sau đó, ta đưa nó trạng thái tế bào qua một hàm kích hoạt tanh để có giá trị nó về khoảng [-1, 1], và nhân nó với đầu ra của cổng sigmoid để được giá trị đầu ra ta mong muốn. * Các biến thể của bộ nhớ dài hạn Những đặc tính vừa mô tả ở trên là của một LSTMs bình thường, tuy nhiên không phải tất cả các LTSMs đều giống như vậy. Thực tế, các bài báo về LTSMs đều sử dụng một phiên bản hơi khác so với mô hình LTSMs chuẩn. Sự khác nhau không lớn, nhưng chúng giúp giải quyết phần nào đó trong cấu trúc của LTSMs. Một dạng LTSMs phổ biến được giới thiệu bởi Gers & Schmidhuber (2000) được thêm các đường kết nối “peephole connections”, làm cho các tầng cổng nhận được giá trị đầu vào là trạng thái tế bào.
  20. 11 Hình trên mô tả các đường được thêm vào mọi cổng, nhưng cũng có những bài báo chỉ thêm cho một vài cổng mà thôi. Một biến thể khác là nối 2 cổng loại trừ và đầu vào với nhau. Thay vì phân tách các quyết định thông tin loại trừ và thông tin mới thêm vào, ta sẽ quyết định chúng cùng với nhau luôn. Ta chỉ bỏ đi thông tin khi mà ta thay thế nó bằng thông tin mới đưa vào. Ta chỉ đưa thông tin mới vào khi ta bỏ thông tin cũ nào đó đi. Một biến thể khá thú vị khác của LSTMs là Gated Recurrent Unit, hay GRU được giới thiệu bởi Cho, et al. (2014). Nó kết hợp các cổng loại trừ và đầu vào thành một cổng “cổng cập nhật” (update gate). Nó cũng hợp trạng thái tế bào và trạng thái ẩn với nhau tạo ra một thay đổi khác. Kết quả là mô hình của ta sẽ đơn giản hơn mô hình LSTMs chuẩn và ngày càng trở nên phổ biến. Trên đây chỉ là một vài biến thế được chú ý nhiều nhất, thực tế có rất nhiều các biến thể khác nhau của LSTMs như Depth Gated RNNs của Yao, et al. (2015). Cũng có những biến thể mà chiến lược xử lý phụ thuộc xa hoàn toàn khác như Clockwork RNNs của Koutnik, et al. (2014). Greff, et al. (2015) phân tích nhiều biến thể của mạng LSTMs và so sánh cũng như đưa ra các biến thể tốt nhất cho các bài toán khác nhau. Ngoài ra, Jozefowicz, et al. (2015) thậm chí còn thử hàng chục nghìn kiến trúc RNNs khác nhau và tìm ra một vài mô hình LSTMs tốt nhất cho một số loại bài toán.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2