Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện từ ảnh UAV

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:74

Thêm vào BST

Báo xấu

2
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu đề tài “Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV” với mục đích để tìm hiểu nhằm trợ giúp cho công tác giám sát, quản lý hệ thống điện.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện từ ảnh UAV

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC ĐIỆN LỰC PHẠM HỒNG LONG NGHIÊN CỨU, ỨNG DỤNG HỌC SÂU TRONG PHÁT HIỆN CỘT ĐIỆN VÀ CÁC THIẾT BỊ TRÊN ĐƯỜNG DÂY TRUYỀN TẢI ĐIỆN TỪ ẢNH UAV LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2019
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC ĐIỆN LỰC PHẠM HỒNG LONG NGHIÊN CỨU, ỨNG DỤNG HỌC SÂU TRONG PHÁT HIỆN CỘT ĐIỆN VÀ CÁC THIẾT BỊ TRÊN ĐƯỜNG DÂY TRUYỀN TẢI ĐIỆN TỪ ẢNH UAV Chuyên ngành : Công nghệ Thông tin Mã số : 7480102 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS. Nguyễn Thị Thanh Tân HÀ NỘI, 2019
LỜI CẢM ƠN Sau một thời gian tiến hành thực nghiệm và nghiên cứu, em cũng đã hoàn thành nội dung luận văn “Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện từ ảnh UAV”. Quá trình hoàn thành luận văn không chỉ dựa trên công sức của bản thân nghiên cứu sinh mà còn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân và tập thể. Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc đến TS. Nguyễn Thị Thanh Tân, người trực tiếp hướng dẫn cho em hoàn thành luận văn. Cô đã dành cho em nhiều thời gian, tâm huyết, cho em nhiều nhận xét đúng trọng tâm, đúng thời điểm, giúp luận văn của em được hoàn thiện hơn về mặt nội dung và hình thức. Cô cũng đã luôn quan tâm, động viên, nhắc nhở kịp thời để em có thể hoàn thành luận văn đúng tiến độ. Với sự khích lệ và nguồn cổ vũ to lớn từ cô, em đã có nhận thức tốt hơn về trách nhiệm của bản thân với đề tài của mình. Em cũng xin gửi lời cảm ơn đến Ban Giám hiệu, tập thể các thầy cô giáo Khoa Công nghệ Thông tin trường Đại Học Điện lực đã tận tình dạy dỗ và giúp đỡ em trong những năm trên giảng đường Cao học. Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên, tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận văn này. Xin trân trọng cảm ơn đề tài nghiên cứu ứng dụng và phát triển công nghệ cấp quốc gia, thuộc chương trình hỗ trợ nghiên cứu, phát triển và ứng dụng công nghệ của công nghiệp 4.0 mã số: KC-4.0.31/19-25 đã hỗ trợ nghiên cứu, thực nghiệm trong quá trình thực hiện luận văn. Trân trọng! Hà Nội, ngày 01 tháng 06 năm 2023 Học viên Phạm Hồng Long
LỜI CAM ĐOAN Tôi xin cam đoan luận văn về đề tài “Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện từ ảnh UAV” là công trình nghiên cứu cá nhân của tôi trong thời gian qua. Mọi số liệu sử dụng phân tích trong luận văn và kết quả nghiên cứu là do tôi tự tìm hiểu, phân tích một cách khách quan, trung thực, có nguồn gốc rõ ràng và chưa được công bố dưới bất kỳ hình thức nào. Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong thông tin sử dụng trong công trình nghiên cứu này. Hà Nội, ngày 01 tháng 06 năm 2023 Học viên Phạm Hồng Long
MỤC LỤC MỞ ĐẦU................................................................................................................... 1 CHƯƠNG 1: TỔNG QUAN VỀ HỌC SÂU VÀ CÁC BÀI TOÁN ỨNG DỤNG ................................................................................................................................... 3 1.1. Mạng neural nhân tạo. ................................................................................... 3 1.1.1. Perceptrons.............................................................................................. 3 1.1.2. Sigmoid Neurons .................................................................................... 4 1.1.3. Kiến trúc mạng MLP .............................................................................. 5 1.2. Kiến trúc mạng học sâu ................................................................................. 6 1.2.1. Tổng quan về kiến trúc của CNN ........................................................... 6 1.2.2. Chọn tham số cho CNN ........................................................................ 12 1.2.3. Đặc trưng chung của các mạng CNN ................................................... 12 1.2.4. Một số kiến trúc các mạng CNN tiêu biểu ........................................... 13 1.3. Kết luận chương .......................................................................................... 20 CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN MÔ HÌNH HỌC SÂU ................................................................................................... 21 2.1. Bài toán phát hiện đối tượng từ hình ảnh .................................................... 21 2.2. Các hướng triển khai trong phát hiện đối tượng từ hình ảnh ......................... 22 2.3. Phương pháp phát hiện đối tượng dựa trên kiến trúc mạng R-CNN ............. 24 2.3.1. Thuật toán R-CNN ..................................................................................... 24 2.3.2. Thuật toán Fast R-CNN ............................................................................. 27 2.3.3. Thuật toán Faster R-CNN .......................................................................... 30 2.3.4. Phân loại bài toán phân đoạn hình ảnh ...................................................... 32 2.3.5. Mask R-CNN.............................................................................................. 32 2.3.6. Phát hiện đối tượng dựa trên instance segmentation ................................. 36 2.4. Kiến trúc MaskRCNN-R50-FPN ................................................................... 37 2.4.1. Tổng quan kiến trúc FPN ........................................................................... 38 2.4.2. Data Flow ................................................................................................... 38 2.4.3. Sử dụng FPN với Fast R-CNN, Faster R-CNN, Mask R-CNN ................. 40
2.5. Kết luận chương ............................................................................................. 41 CHƯƠNG 3: ỨNG DỤNG HỌC SÂU TRONG PHÁT HIỆN CỘT ĐIỆN VÀ CÁC THIẾT BỊ TRÊN ĐƯỜNG DÂY TRUYỀN TẢI ĐIỆN CAO THẾ TỪ ẢNH UAV............................................................................................................... 43 3.1 Bài toán phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV ..................................................................................................... 43 3.1.1. Quy trình kiểm tra lưới đường dây cao thế 110kV ..................................... 43 3.1.2. Những lợi ích và hạn chế trong công tác giám sát đường dây ................... 44 3.1.3 Áp dụng công nghệ cho công việc kiểm tra đường dây 110kV .................. 46 3.2 Nghiên cứu đặc trưng ảnh UAV ..................................................................... 47 3.3. Các kỹ thuật tiền xử lý ảnh UAV ................................................................... 47 3.3.1. Thu thập dữ liệu từ máy bay UAV............................................................. 47 3.3.2. Trích xuất dữ liệu ảnh từ dữ liệu video giám sát trên máy bay UAV ........ 48 3.3.3. Chuẩn hóa dữ liệu về kích thước mong muốn huấn luyện cho mô hình ... 49 3.3.4. Loại bỏ và tinh chỉnh ảnh nhiễu ................................................................. 52 3.4. Đánh giá thực nghiệm .................................................................................... 54 3.4.1. Môi trường thực nghiệm ............................................................................ 54 3.4.2. Dữ liệu thực nghiệm................................................................................... 54 3.4.3. Các độ đo đánh giá ..................................................................................... 55 3.4.4. Kết quả thực nghiệm .................................................................................. 56 3.6. Kết luận chương ............................................................................................. 62 KẾT LUẬN ............................................................................................................ 63 TÀI LIỆU THAM KHẢO .................................................................................... 64
DANH MỤC CHỮ VIẾT TẮT STT Ký hiệu chữ viết tắt Chữ viết đầy đủ 1 UAV Unmanned Aerial Vehicle 2 ANN Artificial Neural Network 2 DL Deep Learning 3 AI Artificial Intelligence 4 CNN Convolutional Neural Network 5 D-CNN Deep Convolutional Neural Network 6 CONV Convolutional 7 R-CNN Region-based Convolutional Neural Network 8 FC Fully Connected 9 FCN Fully Convolutional Network 10 FPN Feature Pyramid Network 11 IoU Intersection over Union
DANH MỤC HÌNH VẼ Hình 1. 1: Mô hình Nơ-ron sinh học .......................................................................... 3 Hình 1. 2: Đồ thị hàm Sigmoid Neurons .................................................................... 5 Hình 1. 3: Mạng MLP ................................................................................................ 5 Hình 1. 4: Mô hình MLP (trái) và kiến trúc mạng học sâu (phải) ............................. 6 Hình 1. 5: Kiến trúc mạng CNN................................................................................. 7 Hình 1. 6: Pooling layer ............................................................................................. 9 Hình 1. 7: Max pooling và Average pooling ............................................................ 10 Hình 1. 8: Fully Connected Layer ............................................................................ 11 Hình 1. 9: LeNet-5.................................................................................................... 13 Hình 1. 10: Kiến trúc mạng AlexNet ....................................................................... 14 Hình 1. 11: Hàm kích hoạt Hàm ReLU .................................................................... 14 Hình 1. 12: Kỹ thuật dropout.................................................................................... 15 Hình 1. 13: VGG-16 ................................................................................................. 16 Hình 1. 14: Kiến trúc một cell .................................................................................. 16 Hình 1. 15: Kiến trúc mạng Inception-V3................................................................ 17 Hình 1. 16: Kiến trúc mạng ResNet-50 .................................................................... 18 Hình 1. 17: Kiến trúc DenseNet ............................................................................... 19 Hình 2. 1: Phân biệt phát hiện đối tượng, phân đoạn hình ảnh, phân loại hình ảnh 21 Hình 2. 2: Phát hiện đối tượng trên ảnh ................................................................... 23 Hình 2. 3: Mô tả cách hoạt động của thuật toán R-CNN ......................................... 24 Hình 2. 4: Mô hình bounding box regression........................................................... 25 Hình 2. 5: Thuật toán non-max suppression ............................................................ 26 Hình 2. 6: Mô tả cách hoạt động của thuật toán Fast R-CNN ................................. 27 Hình 2. 7: Mô tả cơ chế RoI Poling ......................................................................... 28 Hình 2. 8: Các giá trị của hàm Loss trong thuật toán Fast R-CNN.......................... 29 Hình 2. 9: Thuật toán Faster R-CNN ....................................................................... 30 Hình 2. 10: Các giá trị hàm Loss mô hình Faster R-CNN ....................................... 31 Hình 2. 11: Kỹ thuật phân vùng ảnh ........................................................................ 32
Hình 2. 12: Mô hình thuật toán Mask-RCNN .......................................................... 33 Hình 2. 13: Mô tả cơ chế IoU ................................................................................... 34 Hình 2. 14: Kiến trúc Mask R-CNN dựa trên Faster R-CNN .................................. 35 Hình 2. 15: Kết quả tách nền sau phân đoạn vật thể ................................................ 35 Hình 2. 16: Mô tả thuật toán Mask R-CNN ............................................................. 36 Hình 2. 17: Một vài kết quả của mô hình Mask R-CNN ........................................ 36 Hình 2. 18: Ảnh biến đổi trong RoI Align ............................................................... 37 Hình 2. 19: Mô hình bottom-up FPN ....................................................................... 39 Hình 2. 20: Mô hình top-down FPN ........................................................................ 39 Hình 2. 21: chi tiết đường đi theo bottom-up và top-down...................................... 40 Hình 2. 22: Áp dụng FPN tăng hiệu suất cho mô hình Mask R-CNN ..................... 41 Hình 3. 1: Tiến hành kiểm tra lưới điện ................................................................... 43 Hình 3. 2: Bảo trì thay thế đường dây cao thế 110kV.............................................. 45 Hình 3. 3: Áp dụng công nghệ UAV vào giám sát đường dây cao thế .................... 46 Hình 3. 4: Ảnh đầu vào (ảnh gốc) ............................................................................ 49 Hình 3. 5: Ảnh sau điều chỉnh kích thước (resize) ................................................... 50 Hình 3. 6: Quy trình cắt lấy trung tâm ảnh............................................................... 51 Hình 3. 7: Ảnh bị mất chi tiết ngoài khi sử dụng phương pháp cắt lấy trung tâm ảnh .................................................................................................................................. 52 Hình 3. 8: Quy trình tinh chỉnh ảnh nhiễu................................................................ 52 Hình 3. 9: Kết quả khử nhiễu ảnh ............................................................................ 53 Hình 3. 10: Đối tượng được nhãn bằng công cụ labelme ........................................ 55 Hình 3. 11: Kết quả phát hiện lớp dây điện sau training .......................................... 57 Hình 3. 12: Kết quả phát hiện lớp cách điện thủy tinh sau training ......................... 58 Hình 3. 13: Kết quả phát hiện các lớp thiết bị sau training ...................................... 58 Hình 3. 14: Kết quả phát hiện lớp dây điện sau training .......................................... 59 Hình 3. 15: Kết quả phát hiện thiết bị đường dây .................................................... 60 Hình 3. 16: Kết quả phát hiện cột thép hình............................................................. 61 Hình 3. 17: Kết quả phát hiện thiết bị cách điện thủy tinh....................................... 61
Hình 3. 18: Kết quả sử dụng instance segmentation để tách nền khỏi lớp thiết bị .. 62 DANH MỤC BẢNG BIỂU Bảng 3. 1: Tập dữ liệu thử nghiệm ........................................................................... 54 Bảng 3. 2: Đánh giá các độ đo TP, FP, FN .............................................................. 56 Bảng 3. 3: Đánh giá các độ đo Precision, Recall ..................................................... 56
MỞ ĐẦU Hệ thống điện đóng một vai trò quan trọng trong sự phát triển kinh tế của mỗi quốc gia bởi vì nó là một trong những cơ sở hạ tầng quan trọng nhất của nền kinh tế quốc dân. Một hệ thống điện bao gồm ba phần chính: phần phát điện (bao gồm các nhà máy phát điện như nhà máy nhiệt điện, nhà máy thủy điện,…), phần truyền tải (bao gồm hệ thống đường dây cao áp, máy biến áp truyền tải, …), và phần phân phối (nơi điện áp được hạ thấp để cung cấp trực tiếp cho các phụ tải, giúp phân phối tới nơi sử dụng tiêu thụ). Hệ thống điện là tập hợp các phần tử nhằm đáp ứng các yêu cầu về chất lượng, tin cậy và kinh tế của điện năng. Các phần tử này bao gồm phần phát điện, truyền tải và phân phối điện năng, có quy mô rộng lớn và trải dài trong không gian. Dù đã được thiết kế và vận hành chặt chẽ, các sự cố về đường dây và trạm vẫn có thể xảy ra trong bất kỳ hệ thống điện nào, gây ra tình trạng làm việc không bình thường và hư hỏng cho các phần tử trong hệ thống điện. Thực tế cho thấy, dù đã có chế độ vận hành được tính toán và phân tích kỹ lưỡng trong quá trình lập quy hoạch, báo cáo khả thi, thiết kế kỹ thuật và lập kế hoạch cho phương thức vận hành hệ thống điện, các sự cố về đường dây và trạm vẫn xảy ra trên thế giới cũng như tại Việt Nam. Những sự cố này thậm chí có tính chất tương đối phức tạp và ngày càng gia tăng theo sự phát triển của hệ thống, gây ra tổn thất kinh tế lớn cho đất nước. Trong vài thập kỷ qua, các nước tiên tiến đã tìm hiểu và áp dụng các công nghệ lưới điện thông minh để nâng cao hiệu quả và hiện đại hóa hệ thống lưới điện. Các công nghệ mới và hiện đại đã được áp dụng trên lưới truyền tải điện để đạt được mục tiêu tự động hóa quá trình giám sát tình trạng và đảm bảo tính an toàn. Việc ứng dụng tự động hóa và công nghệ thông tin trong quản lý và vận hành hệ thống lưới điện đã có bước tiến lớn nhưng vẫn chưa thực sự làm chủ các công nghệ tự động hóa trạm và công nghệ hiện đại. Bên cạnh đó, trong vài năm gần đây, các nhóm nghiên cứu và doanh nghiệp trên toàn cầu đang quan tâm đặc biệt đến việc ứng dụng nền tảng trí tuệ nhân tạo (AI) tích hợp với hệ thống camera giám sát và máy bay không người lái (UAV) để tự động giám sát, kiểm tra và cảnh báo sớm các sự cố trên lưới điện [1], [2], [3], [4]. Việc phát triển các loại cảm biến đặc biệt như camera hồng ngoại và camera với chất lượng tốt và mức độ zoom quang và zoom số cao, giúp cho UAV phát hiện các sự cố phổ biến như sự cố đường truyền, thiết bị trên đường dây bị mất hoặc hỏng hóc và các cột điện cao thế bị hư hỏng. Với khả năng thực hiện kiểm tra tự động dọc theo đường dây điện và không bị giới hạn về vấn đề địa lý, UAV giúp giảm đáng kể thời gian và 1
chi phí so với phương thức kiểm tra truyền thống. Hơn nữa, nhân viên kiểm tra đường dây không cần phải làm việc trực tiếp với môi trường phức tạp hoặc thực hiện các hoạt động nguy hiểm. Tuy nhiên, vấn đề phát sinh khi các thiết bị chuẩn bị ghi và chụp lại một khối lượng lớn hình ảnh là việc phân loại và đánh giá tình trạng vận hành thiết bị từ khối lượng hình ảnh lớn sẽ mất rất nhiều công sức của đội ngũ quản lý vận hành. Do đó, cần có một công cụ tự động phân tích những hình ảnh thu được để phát hiện, nhận diện và dự báo các sự cố và bất thường trên lưới điện. Do đó em chọn làm đề tài “Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV” với mục đích để tìm hiểu nhằm trợ giúp cho công tác giám sát, quản lý hệ thống điện. Cấu trúc của luận văn gồm 3 chương, cụ thể như sau: Chương 1 - Tổng quan về học sâu và các bài toán ứng dụng: Chương này trình bài các vấn đề tổng quan về học sâu và các bài toán ứng dụng, bao gồm các khái niệm cơ bản về mạng neural nhân tạo, học sâu, mô hình mạng tích chập và ứng dụng của học sâu trong giám sát và kiểm tra lưới truyền tải điện cao thế. Chương 2 - Phương pháp phát hiện đối tượng dựa trên mô hình học sâu: Chương này trình bày Bài toán phát hiện đối tượng từ hình ảnh, Các hướng tiếp cận trong phát hiện đối tượng từ hình ảnh, Phương pháp phát hiện đối tượng dựa trên kiến trúc mạng R-CNN. Chương 3 - Ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV: Chương này đề cập đến bài toán phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV, các kỹ thuật tiền xử lý ảnh UAV, xây dựng tập dữ liệu cột điện và các thiết bị trên đường dây truyền tải điện cao thế, đề xuất mô hình phát hiện thiết bị và đường dây dựa trên kiến trực mạng R-CNN và đánh giá thực nghiệm. 2
CHƯƠNG 1: TỔNG QUAN VỀ HỌC SÂU VÀ CÁC BÀI TOÁN ỨNG DỤNG 1.1. Mạng neural nhân tạo. Mạng neural nhân tạo (Artificial Neural Network - ANN) [5] là một mô hình lập trình được lấy cảm hứng từ cấu trúc mạng nơ-ron thần kinh. Khi kết hợp với các kĩ thuật học sâu (Deep Learning - DL) [6], [7], [8], mạng neural nhân tạo trở thành một công cụ hữu ích và mạnh mẽ trong việc giải quyết những bài toán phức tạp, ví dụ như nhận dạng ảnh, giọng nói hay xử lý ngôn ngữ tự nhiên, đem lại hiệu quả tối ưu cho các ứng dụng thực tiễn. 1.1.1. Perceptrons Một mạng nơ-ron bao gồm các nơ-ron đơn lẻ, được gọi là perceptron. Vì thế, để hiểu mạng nơ-ron chúng ta cần phải tìm hiểu về perceptron trước. Perceptron được lấy cảm hứng từ cấu trúc của nơ-ron sinh học, và nó là một trong những thành phần cơ bản của nơ-ron nhân tạo. Để hình dung rõ hơn, hình dưới đây minh họa cho một nơ-ron sinh học cùng với nơ-ron nhân tạo tương ứng. Hình 1. 1: Mô hình Nơ-ron sinh học Như hình trên, ta có thể thấy một nơ-ron có thể nhận nhiều đầu vào và cho ra một kết quả duy nhất. Mô hình của perceptron cũng tương tự như vậy: Một perceptron có chức năng nhận đầu vào là một hoặc nhiều giá trị nhị phân và trả về một kết quả o đầu ra nhị phân duy nhất. Các giá trị đầu vào sẽ được ảnh hưởng 3
bởi các tham số trọng số tương ứng, còn kết quả đầu ra sẽ được quyết định dựa trên ngưỡng quyết định b. Đặt b=−threshold, ta có thể viết lại thành: Nếu ta coi 4 yếu tố đầu vào là x1, x2, x3, x4 và kết quả đầu ra là o, trong đó o=0 nếu ta không đi nhậu và o=1 nếu ta đi nhậu. Giả sử mức độ quan trọng của 4 yếu tố lần lượt là w1, w2, w3, w4 và ngưỡng quyết định b, ta có thể nhận thấy rằng việc trời nắng chỉ ảnh hưởng đến 5% quyết định của ta trong việc đi nhậu, trong khi việc có hẹn trước đó lại ảnh hưởng đến 50% quyết định đó. Nếu gắn x0=1 và w0=b, ta còn có thể viết gọn lại thành: 1.1.2. Sigmoid Neurons Với đầu vào và đầu ra ở dạng nhị phân, rất khó để điều chỉnh một lượng nhỏ đầu vào để đầu ra thay đổi một chút. Vì vậy, để đầu vào linh hoạt hơn, chúng ta có thể mở rộng dải giá trị của chúng ra cả khoảng [0,1]. Khi đó, đầu ra sẽ được quyết định bởi một hàm sigmoid σ(w⊺x). Như đã đề cập trong những bài trước, hàm sigmoid có công thức: Đồ thị của hàm này cũng cân xứng rất đẹp thể hiện được mức độ công bằng của các tham số: 4
Hình 1. 2: Đồ thị hàm Sigmoid Neurons 1.1.3. Kiến trúc mạng MLP Mạng MLP [5] là sự kết hợp của của các tầng perceptron hay còn được gọi là perceptron đa tầng (multilayer perceptron): Hình 1. 3: Mạng MLP Một mạng MLP thường gồm 3 lớp chính: + Lớp đầu vào (input layer): Đây là tầng bên trái cùng của mạng, thể hiện cho các đầu vào của mạng. + Lớp đầu ra (output layer): Đây là tầng bên phải cùng của mạng, thể hiện cho các đầu ra của mạng. + Lớp ẩn (hidden layer): Đây là tầng nằm giữa lớp đầu vào và lớp đầu ra của mạng, thể hiện cho quá trình suy luận logic của mạng. 5
Mỗi nút mạng trong mạng MLP là một sigmoid nơ-ron. Hàm kích hoạt của từng nút có thể khác nhau, tuy nhiên thường thì trong thực tế chúng được sử dụng cùng dạng để tính toán dễ dàng hơn. Số lượng nơ-ron trong từng tầng có thể khác nhau tùy thuộc vào bài toán và cách giải quyết, nhưng thông thường, các tầng ẩn sẽ có số lượng nơ-ron bằng nhau. Ngoài ra, các nơ-ron trong các tầng thường được kết nối đôi một với nhau, tạo thành một mạng kết nối đầy đủ (full-connected network). 1.2. Kiến trúc mạng học sâu CNN là một trong những mô hình Deep Learning tiên tiến và ảnh hưởng rất nhiều đến lĩnh vực Computer Vision. Nó cho phép chúng ta xây dựng các hệ thống thông minh với độ chính xác và đáp ứng cao. CNN được sử dụng rộng rãi trong các bài toán nhận dạng và phân loại đối tượng trong ảnh kỹ thuật. Khi máy tính xử lý ảnh đầu vào, nó sẽ chuyển ảnh thành một mảng pixel với kích thước H x W x D (H: Chiều cao, W: Chiều rộng, D: Độ sâu). CNN cơ bản là giảm kích thước của ảnh mà không làm mất đi đặc trưng của nó. Sau đó, ảnh sẽ được chuyển thành một vector một chiều để đưa vào huấn luyện, tương tự như ANN được đề cập ở phần trên. 1.2.1. Tổng quan về kiến trúc của CNN Kiến trúc của mạng CNN [6], [7], [8], [9] khác với mạng ANN thông thường. Trong ANN, đầu vào được xử lý thông qua nhiều tầng ẩn. Mỗi tầng bao gồm một tập các nơ-ron và các tầng được liên kết đầy đủ với các nơ-ron ở tầng trước đó. Tầng cuối cùng sẽ đại diện cho kết quả dự đoán của mạng. Trong khi đó, kiến trúc của mạng CNN lại khác với cách thức hoạt động này. Hình 1. 4: Mô hình MLP (trái) và kiến trúc mạng học sâu (phải) Mạng Nơ-ron Tích Chập có kiến trúc khác biệt so với ANN. Đầu tiên, nó được chia thành 3 chiều: chiều rộng, chiều cao, chiều sâu (width, height, depth). Thứ hai, các nơ-ron trong mạng không liên kết hoàn toàn với tất cả các nơ-ron kế tiếp, mà chỉ kết nối với một vùng nhỏ. Cuối cùng, tầng đầu ra của mạng được tối giản thành một vector giá trị xác suất. • Feature: Feature có thể hiểu là đặc trưng của hình ảnh. Mạng CNN so sánh từng mảnh hình ảnh, hay feature, để tìm ra sự tương đồng giữa chúng thay vì chỉ đơn 6
giản là khớp các bức ảnh lại với nhau. Mỗi feature được xem như là một hình ảnh mini, tức là chúng là những mảng 2 chiều nhỏ. Những feature này được tìm kiếm trong bức ảnh để khớp với các khía cạnh chung của nó. Từ đó, CNN có thể tìm ra các kết quả phân loại chính xác hơn. • Convolutional: Convolutional được hiểu đơn giản là tích chập. Khi một hình ảnh mới được đưa vào mạng CNN, nó sẽ không biết được vị trí của hình ảnh đó trong không gian, cũng như các feature khớp với nhau ở đâu. Do đó, mạng sẽ thử các khả năng khớp tại tất cả các vị trí khác nhau trên hình ảnh. Trong quá trình đó, các bộ lọc, hay filter, được tạo ra để giúp mạng thực hiện tích chập. Để thực hiện việc này, mạng sử dụng các nơ-ron tích chập. Để tính toán độ khớp của các feature với từng mảnh của hình ảnh, ta nhân kết quả mỗi điểm ảnh trong feature với giá trị tương ứng của điểm ảnh trong hình ảnh. Sau đó, ta cộng tất cả các kết quả này lại với nhau và chia cho số lượng tất cả các điểm ảnh có trong feature đó. Kết quả của phép tính này được lưu trữ dưới dạng ma trận. Nếu các điểm ảnh khớp với nhau, kết quả sẽ là 1, ngược lại sẽ là -1. Để hoàn tất quá trình tích chập, ta cần lặp lại quá trình này cho tất cả các feature và tất cả các mảnh của hình ảnh. Quá trình này được thực hiện theo từng lớp để tạo ra các hình ảnh đã được lọc, mỗi hình ảnh sẽ có một filter tương ứng. Hình 1. 5: Kiến trúc mạng CNN • Các layer cơ bản trong CNN CNN là viết tắt của Convolutional Neural Network, là một loại mạng nơ-ron sử dụng để xử lý và phân tích hình ảnh. CNN được thiết kế với nhiều lớp khác nhau, mỗi lớp đóng vai trò chuyển đổi một khối lượng dữ liệu đầu vào thành một khối lượng dữ liệu đầu ra với các chức năng khác nhau. Các lớp này có thể được cấu hình với hoặc không có các tham số để tối ưu hóa quá trình học tập. Quá trình này được lặp lại hàng trăm lớp để tạo ra các đặc trưng khác nhau và giúp mạng nơ-ron xử lý hình ảnh một cách hiệu quả. 7
• Convolutional Layer (Lớp tích chập) Tầng tích chập là một phần quan trọng trong kiến trúc của CNN. Nó được sử dụng để trích xuất các đặc trưng từ hình ảnh đầu vào. Các phép tính toán trong tầng tích chập thực hiện phép tương quan chéo giữa hạt nhân và đầu vào, sau đó thêm một hệ số điều chỉnh để tạo ra đầu ra. Hai tham số quan trọng của tầng tích chập là hạt nhân và hệ số điều chỉnh. Khi huấn luyện mô hình chứa các tầng tích chập, thường sẽ khởi tạo hạt nhân ngẫu nhiên, tương tự như cách khởi tạo trong tầng kết nối đầy đủ. Trong ví dụ sau đây, ta xét ma trận hình ảnh đầu vào 5x5 có giá trị pixel là 0 và 1. Ma trận filter 3x3: Ta nhận được kết quả lớp tích chập của ma trận hình ảnh 5x5 nhân với ma trận filter 3x3 gọi là Feature map: Stride là khoảng cách giữa các vị trí của hạt nhân khi thực hiện phép tính tích chập trên ma trận đầu vào. Khi chạy các tầng tích chập, kích thước của feature map sẽ giảm dần, do đó ta cần thêm các giá trị 0 vào các cạnh của hình ảnh ban đầu (padding) để đảm bảo kích thước đầu ra sau mỗi tầng convolution không bị thay đổi. Bằng cách kết hợp một hình ảnh với các bộ lọc khác nhau, ta có thể thực hiện nhiều hoạt động khác nhau như phát hiện cạnh, làm mờ hoặc làm nét bức ảnh. 8
• ReLU Layer (Lớp ReLU) Lớp ReLU là một hàm kích hoạt phổ biến trong mạng CNN. Nó được sử dụng để mô phỏng quá trình truyền tín hiệu qua các nơ-ron trong não. Mặc dù có nhiều hàm kích hoạt khác như Leaky, Sigmoid, Maxout,... nhưng hiện nay, hàm ReLU được sử dụng rộng rãi nhất vì tính nhanh chóng và hiệu quả của nó trong quá trình huấn luyện mạng neural. Việc sử dụng lớp ReLU giúp tăng tốc quá trình tính toán của mạng neural, nhưng bạn cần lưu ý đến việc điều chỉnh các tham số như learning rate và dead unit để tối ưu hóa hiệu suất của mô hình. Lớp ReLU thường được áp dụng sau khi tính toán filter map và áp dụng hàm ReLU trên các giá trị của filter map. • Pooling Layer Lớp Pooling được sử dụng để giảm số lượng tham số khi xử lý các hình ảnh quá lớn. Thường được đặt giữa các lớp tích chập, lớp này giúp giảm kích thước của dữ liệu mà vẫn giữ được các thuộc tính quan trọng. Việc giảm kích thước của dữ liệu cũng giúp giảm lượng tính toán cần thiết trong mô hình. Thông thường, kích thước Pooling được sử dụng là size=(2,2), stride=2, padding=0 để giảm kích thước của đầu ra đi một nửa, trong khi độ sâu của dữ liệu được giữ nguyên. Hình 1. 6: Pooling layer Max pooling và average pooling (Hình 1. 7) là hai kỹ thuật thường được sử dụng trong mạng CNN để giảm kích thước của đầu vào. • Max pooling: Phương pháp Max Pooling được sử dụng để lấy giá trị lớn nhất trong mỗi vùng của đầu vào và sử dụng nó làm giá trị đại diện cho vùng đó. Ví dụ, nếu chia đầu vào thành các vùng 2x2 và thực hiện Max Pooling, thì giá trị lớn nhất trong mỗi vùng 2x2 sẽ được lấy ra và sử dụng làm giá trị đại diện cho vùng đó. 9
Hình 1. 7: Max pooling và Average pooling •Average pooling: Phương pháp Average Pooling tính trung bình cộng của các giá trị trong mỗi vùng của đầu vào và sử dụng nó làm giá trị đại diện cho vùng đó. Ví dụ, nếu chia đầu vào thành các vùng 2x2 và thực hiện Average Pooling, thì trung bình cộng của các giá trị trong mỗi vùng 2x2 sẽ được tính toán và sử dụng làm giá trị đại diện cho vùng đó. Cả hai kỹ thuật này đều giúp giảm kích thước của đầu vào và giảm số lượng tham số trong mô hình. Tuy nhiên, phương pháp Max Pooling thường được ưu tiên sử dụng hơn trong các mạng CNN do nó giúp tăng tính nhận diện đặc trưng của mạng.. • Fully Connected Layer Fully Connected Layer là một lớp kết nối đầy đủ trong kiến trúc mạng CNN. Lớp này thường được sử dụng ở cuối mạng có tác dụng kết nối các đặc trưng đã được trích xuất từ các lớp trước đó và dùng để phân loại. Trong bài toán ứng dụng thực tế, sau khi ảnh được truyền qua nhiều Convolutional Layer và Pooling Layer của Mạng CNN, mô hình đã học được các đặc điểm của ảnh. Khi đó, Tensor của Output Layer cuối cùng được chuyển về thành một vector kích thước (H*W*D) và sau đó được sử dụng bởi các Fully Connected Layer để kết hợp các đặc điểm của ảnh và tạo ra Output cho mô hình. Nếu lớp này có dữ liệu hình ảnh, nó sẽ chuyển chúng thành các batch chưa được phân loại để tìm ra ảnh có chất lượng cao nhất. 10