YOMEDIA
ADSENSE
Ứng dụng Deep Learning cho bài toán phân lớp hình ảnh xe máy
12
lượt xem 2
download
lượt xem 2
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Bài viết Ứng dụng Deep Learning cho bài toán phân lớp hình ảnh xe máy trình bày việc tìm hiểu lý thuyết, thu thập dữ liệu thực tế, áp dụng và đánh giá hiệu quả sử dụng Deep CNN cho bài toán phân lớp hình ảnh xe máy.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Ứng dụng Deep Learning cho bài toán phân lớp hình ảnh xe máy
- Tuyển tập Hội nghị Khoa học thường niên năm 2017. ISBN: 978-604-82-2274-1 ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÂN LỚP HÌNH ẢNH XE MÁY Phạm Trí Công, Lại Hiền Phương, Bùi Thị Thu Cúc Trường Đại học Thủy lợi, email: phtcong@tlu.edu.vn 1. GIỚI THIỆU CHUNG Ma trận bên trái là một hình ảnh trắng đen được số hóa. Ma trận có kích thước 55 và Deep learning đã và đang là một chủ đề AI mỗi điểm ảnh có giá trị 1 hoặc 0 là giao điểm được bàn luận sôi nổi và đạt được độ chính của dòng và cột. Convolution hay tích chập là xác cao trong nhiều bài toán. Trong đó Deep nhân từng phần tử trong ma trận 33. Sliding CNN đã được ứng dụng trong các hệ thống Window hay còn gọi là kernel, filter hoặc thông minh xử lý ảnh lớn với độ chính xác feature detect là một ma trận có kích thước cao như nhận diện khuôn mặt người, phát triển xe hơi tự lái hay drone giao hàng tự nhỏ như trong ví dụ trên là 33. Convolution động. Việc tìm hiểu và ứng dụng Deep hay tích chập là nhân từng phần tử bên trong Learning vào các bài toán thực tế khác là rất ma trận 33 với ma trận bên trái. Kết quả cần thiết và đã, đang trở thành một xu thế tất được một ma trận gọi là Convoled feature yếu. Trong nghiên cứu này tác giả tìm hiểu lý được sinh ra từ việc nhận ma trận Filter với thuyết, thu thập dữ liệu thực tế, áp dụng và ma trận ảnh 55 bên trái. đánh giá hiệu quả sử dụng Deep CNN cho Mô hình mạng CNN: Về cơ bản mạng bài toán phân lớp hình ảnh xe máy. CNN gồm hai phần, phần đầu tiên là Features Extractor (trích chọn đặc trưng) và phần thứ 2. PHƯƠNG PHÁP NGHIÊN CỨU hai là Fully Connected (có nhiệm vụ phân lớp) [2]. 2.1. Deep CNN CNN hay Convolutional Neural Network là Mạng nơ-ron tích chập, một trong những mô hình đã có từ lâu nhưng gần đây mới được nhắc lại cùng với sự bùng nổ của Deep Learning. Hình 2. Mô hình mạng CNN Convolutional là gì? Ảnh đầu vào sẽ được trích chọn đặc trưng qua nhiều bước Convolution & Pooling. Sau đó các đặc trưng này sẽ là đầu vào cho tầng phân lớp. Deep CNN: Tuy mạng CNN và nghiên cứu mạng nơron đã có từ lâu tuy nhiên do hạn chế về xử lý nên không được chú ý. Sau chiến thắng tại cuộc thi nhận dạng ảnh ILSVRC12 (ImageNet Large-Scale Visual Recognition Challenge 2012) [1,2] và các Hình 1. Tích chập các điểm ảnh năm sau đó, các nhà nghiên cứu đã thiết kế 156
- Tuyển tập Hội nghị Khoa học thường niên năm 2017. ISBN: 978-604-82-2274-1 nhiều kiến trúc mạng Deep CNN và có độ Phân chia dữ liệu: Với bộ dữ liệu thu thập chính xác cao. Từ vài lớp ẩn ban đầu năm được và đã tiền xử lý, nghiên cứu chia bộ dữ 1988 thì số lớp đã là 22 năm 2014, 34 năm liệu thành dữ liệu test, validation và training 2015 với độ chính xác đặt được là 93.33% một cách ngẫu nhiên với tỉ lệ dữ liệu test và năm 2015[1], gần đây thì độ chính xác trong validation mỗi phần là 10%, còn lại 80% là nhiều bài toán đã vượt qua cả khả năng của dữ liệu training. con người. Bảng 1. Số ảnh theo lớp 2.2. Dữ liệu Class Total Train Test Valid Tập hợp dữ liệu: Dữ liệu ảnh xe máy honda_air_blade 2,566 2,054 256 256 được tập hợp từ nguồn ảnh thực tế ở trang mua bán, ảnh được lấy về, sau đó phân loại honda_click 642 514 64 64 theo từng loại xe và nhãn hiệu. honda_cub 748 600 74 74 Tách lớp: Các lớp dựa trên nhà sản xuất và loại xe. Ví dụ như Honda Cup, Honda honda_dream 1,401 1,121 140 140 Lead, Yamaha Jupiter và Yamaha Sirius, honda_sh 2,895 2,317 289 289 trong đó Honda và Yamaha là tên nhà sản yamaha_exciter 1,931 1,545 193 193 xuất, còn Cup , Lead, Jupiter và Sirius là các loại xe. yamaha_jupiter 1,040 832 104 104 Tiền xử lý: Sau khi thu thập dữ liệu ảnh xe yamaha_sirius 576 462 57 57 máy từ các trang mạng, việc dữ liệu lỗi và phân loại chưa đúng các lớp là rất nhiều, Total 11,799 9,445 1,177 1,177 chính vì vậy nghiên cứu đã thực hiện việc loại bỏ các dữ liệu lỗi và không chính xác 3. KẾT QUẢ NGHIÊN CỨU này trước khi cho học bằng Deep CNN. Sau khi thu thập và thực hiện tiền xử lý bộ 2.3. Phương pháp học dữ liệu ảnh xe máy từ người dùng thông qua Kiến trúc CNN: Nghiên cứu sử dụng kiến các site mua bán. Nghiên cứu sử dụng trúc Inception v3 CNN của Google, kiến trúc tensorflow phiên bản 1.2 với chương trình này đã đạt được độ chính xác lên tới 93.33% training sử dụng kiến trúc Inception v3 của độ chính xác hàng đầu năm về 1.000 lớp đối google cung cấp đã được sử dụng cùng với tượng (1,28 triệu hình ảnh) của Challenge để chạy với bộ dữ liệu mới. ImageNet 2014 [1]. Sau đó chúng ta loại bỏ 3.1. Độ chính xác lớp phân loại cuối cùng khỏi mạng và đào tạo lại nó với tập dữ liệu của chúng ta, tinh chỉnh các tham số Trên tất cả các lớp. Trong quá trình đào tạo, chúng tôi thay đổi kích thước mỗi ảnh thành 299 × 299 pixel để làm cho nó tương thích với kích thước ban đầu của kiến trúc mạng Inception v3 và tận dụng các tính năng hình ảnh tự nhiên được học bởi ImageNet. Hình 4. Độ chính xác với 320k bước Nghiên cứu đã thực hiện nhiều lần chạy với sự thay đổi của số bước chạy và learning rate, kết quả cuối cùng là độ chính xác tốt Hình 3. Inception v3 có 34 layers nhất khi chạy với số bước chạy là 320000 157
- Tuyển tập Hội nghị Khoa học thường niên năm 2017. ISBN: 978-604-82-2274-1 (320k) và learning rate là 0.01 thì độ chính xác trong quá trình training là 97.00% còn độ chính xác cuối cùng đạt 88.00%. 3.2. Cross Entropy Hình 10. Weights max and mean Hình 11. Weights min Hình 5. Biến đổi Entropy với 320k bước 3.4. Độ lệch biases 4. KẾT LUẬN Trong nghiên cứu đã tìm hiểu về Deep CNN và áp dụng cho bài toán thực tế là phân loại xe máy dựa trên hình ảnh. Nghiên cứu không chỉ đưa ra cách giải quyết cho riêng bài toán với ảnh xe máy, mà phương pháp này còn có thể áp dụng cho các bài toán tương tự với những dữ liệu lấy từ các nguồn Hình 6. Biases Histogram có sẵn từ các website mua bán, mạng xã hội. Đây là phương pháp rất hữu ích giúp chúng ta ứng dụng những thành tựu nghiên cứu về Deep Learning vào giải quyết các bài toán thực tế trong điều kiện ở Việt Nam. Hạn chế: So với độ chính xác 93.33% của mạng CNN được sử dụng với 1000 lớp đối tượng, độ chính xác khi áp dụng cho bài toán Hình 7. Biases max and mean ảnh xe máy với 8 lớp mới chỉ đạt 88.00% vẫn thấp hơn ~5.33%, tuy tỉ lệ này vẫn là một tỉ lệ chấp nhận được nhưng tác giả thấy rằng vẫn có thể nâng cao độ chính xác bằng cách thu thập nhiều dữ liệu hơn và tiền xứ lý tập dữ liệu thu thập được tốt hơn. Hình 8. Biases min 5. TÀI LIỆU THAM KHẢO [1] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. 3.5. Trọng số Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.2015. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1-9, 2015. [2] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. 2012. ImageNet Classification Hình 9. Weights Histogram with Deep Convolutional Neural Networks. 158
ADSENSE
CÓ THỂ BẠN MUỐN DOWNLOAD
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn