Giáo trình Nhận dạng và xử lý ảnh: Phần 1 - TS. Hoàng Văn Dũng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:89

Thêm vào BST

Báo xấu

37
lượt xem 14
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Giáo trình Nhận dạng và xử lý ảnh nhằm cung cấp những kiến thức cơ bản về kỹ thuật xử lý hình ảnh cũng như giới thiệu một số phương pháp trí tuệ nhân tạo được áp dụng phân tích hình ảnh và nhận dạng mẫu. Mời các bạn cùng tham khảo nội dung phần 1 sau đây!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Giáo trình Nhận dạng và xử lý ảnh: Phần 1 - TS. Hoàng Văn Dũng

GIÁO TRÌNH NHẬN DẠNG VÀ XỬ LÝ ẢNH Biên soạn: TS. Hoàng Văn Dũng Tháng 5 năm 2018
Lời nói đầu Cùng với sự phát triển nhanh chóng của khoa học công nghệ, các kỹ thuật dựa trên trí tuệ nhân tạo và thị giác máy tính ứng dụng trong các hệ thống thông minh đạt được những kết quả vượt bậc, có nhiều triển vọng. Cuộc cách mạng công nghiệp lần thứ 4 (Industry 4.0) hiện đang diễn ra tại trên phạm vi toàn cầu, đặc biệt ở các nước có nền khoa học kỹ thuật phát triển…. Industry 4.0 tập trung vào sản xuất và dịch vụ thông minh chủ yếu dựa trên các hệ thống tương tác thực ảo, các hệ thống thông minh dần thay thế con người. Nền tảng của các hệ thống thông minh có thể nói bắt nguồn từ lĩnh vực trí tuệ nhân tạo và thị giác máy. Trong đó, thị giác máy là một trong những giác quan máy quan trọng nhất giúp cho quá trình thu nhận tín hiệu, xử lý, phân tích nhằm đưa ra tri thức phục vụ các hệ thống ra quyết định. Trong thời gian qua, các kỹ thuật mới trong lĩnh vực thị giác máy tính, mà cụ thể hơn là xử lý ảnh và nhận dạng đã được nhiều nhà khoa học, tập đoàn công nghệ chú trọng nghiên cứu, phát triển, làm thay đổi hướng tiếp cận truyền thống ví dụ như các kỹ thuật học sâu. Vì thế, các kiến thức về xử lý ảnh, nhận dạng mẫu, trí tuệ nhân tạo, học máy đã trở thành môn học quan trọng đối với sinh viên các chuyên ngành liên quan đến khoa học máy tính, công nghệ thông tin, tự động hóa trong các trường đại học ở Việt Nam hiện nay. Tuy nhiên, tài liệu tiếng Việt cho sinh viên và những người quan tâm lại có giới hạn về cập nhật công nghệ, kỹ thuật. Giáo trình Nhận dạng và xử lý ảnh nhằm cung cấp những kiến thức cơ bản về kỹ thuật xử lý hình ảnh cũng như giới thiệu một số phương pháp trí tuệ nhân tạo được áp dụng phân tích hình ảnh và nhận dạng mẫu. Kỹ thuật học sâu là hướng tiếp cận mới đang được nhiều nhà khoa học nghiên cứu và các công ty công nghệ quan tâm và khả năng ứng dụng cao trong thực tế cũng được trình bày trong tài liệu này. Nội dung giáo trình gồm 7 chương lần lượt trình bày những kiến thức nhập môn về xử lý ảnh, các phương pháp nâng cao trong phân tích, nhận dạng mẫu, kỹ thuật học sâu như: các phép biến đổi, điều chỉnh nâng cao chất lượng ảnh; biến đổi ảnh màu, ảnh đa mức xám, toán tử tích chập, các bộ lọc ảnh và phép biến đổi không gian ảnh, biến đổi hình thái học ứng dụng trong phân tích vùng ảnh, trích biên đối tượng; phương pháp phân đoạn ảnh theo phân ngưỡng thủ công, phân ngưỡng tự động; phương pháp phân tích ảnh như phân đoạn ảnh bằng thuật toán phân cụm k-means, Meanshift, Watershed, trích chọn đặc trưng cơ bản như kỹ thuật trích chọn cạnh, điểm chính (keypoint) và mô tả vùng đặc trưng vùng ảnh. Giáo trình cũng giới thiệu một số phương pháp trích chọn đặc trưng nâng cao như SIFT, SUFT, HOG, Haar-like feature; phương pháp so khớp đặc trưng giữa các ảnh phục vụ phát hiện đối tượng tương đồng và nhận dạng mẫu cùng với kỹ thuật lọc loại trừ nhiễu trong so khớp ảnh. Phần cuối trình bày những kỹ thuật nhận dạng mẫu và phân loại đối tượng từ cách tiếp cận truyền thống như cây quyết định, rừng ngẫu nhiên, boosting, máy phân loại hỗ trợ vector SVM, mạng neural nhân tạo và đến kỹ thuật học sâu, mạng neural tích chập như mạng LeNet, AlexNet, ZFNet, GooLeNet, VGGNet, R-CNN và kiến trúc mạng mô tả ngữ nghĩa ảnh. Tài liệu này được biên soạn dựa trên kinh nghiệm tích lũy qua quá trình nghiên cứu và giảng dạy của tác giả liên quan đến lĩnh vực thị giác máy tính, trí tuệ nhân tạo và các hệ thống thông minh. Hy vọng, giáo trình là tài liệu hữu ích phục vụ học tập,
tham khảo cho sinh viên các ngành liên quan đến khoa học máy tính, công nghệ thông tin, cũng như độc giả quan tâm đến lĩnh vực nhận dạng xử lý ảnh và ứng dụng trí tuệ nhân tạo trong nhận dạng mẫu. Tác giả xin chân thành cảm ơn các ý kiến đóng góp, hỗ trợ của đồng nghiệp và đặc biệt là sự quan tâm của Lãnh đạo Trường Đại học Quảng Bình trong quá trình biên soạn tài liệu này. Trong quá trình biên soạn, giáo trình chắc chắn không thể tránh khỏi những thiếu sót. Tác giả rất mong nhận được những ý kiến đóng góp của quý thầy cô, nhà nghiên cứu, sinh viên và độc giả để tác giả có thể điều chỉnh hợp lý, kịp thời. Góp ý xin gửi về: Hoàng Văn Dũng Trường Đại học Quảng Bình 312 Lý Thường Kiệt, TP. Đồng Hới, Quảng Bình Email: zunghv@gmail.com Người biên soạn: Hoàng Văn Dũng
MỤC LỤC CHƯƠNG 1. NHẬP MÔN XỬ LÝ ẢNH ............................................................... 1 1.1. Tổng quan về xử lý ảnh ................................................................................... 1 1.1.1. Các khái niệm về ảnh số, điểm ảnh .......................................................... 1 1.1.2. Các thành phần trong hệ thống xử lý ảnh................................................. 3 1.1.3. Các ứng dụng............................................................................................ 4 1.2. Hệ màu và loại ảnh .......................................................................................... 4 1.2.1. Các hệ màu thông dụng ............................................................................ 4 1.2.2. Một số loại ảnh thông dụng ...................................................................... 7 1.3. Cấu trúc dữ liệu ảnh ........................................................................................ 9 1.3.1. Cấu trúc ảnh vector................................................................................... 9 1.3.2. Cấu trúc ảnh raster.................................................................................. 10 1.4. Một số định dạng ảnh phổ biến ..................................................................... 10 1.4.1. Định dạng ảnh TIFF ............................................................................... 11 1.4.2. Định dạng ảnh GIF ................................................................................. 11 1.4.3. Định dạng hình ảnh JPG......................................................................... 12 1.4.4. Định dạng ảnh BMP ............................................................................... 12 1.4.5. Định dạng ảnh PNG................................................................................ 13 1.4.6. So sánh các chuẩn định dạng.................................................................. 13 Câu hỏi và bài tập ................................................................................................. 13 CHƯƠNG 2. BIẾN ĐỔI XỬ LÝ ẢNH................................................................. 15 2.1. Khái niệm ...................................................................................................... 15 2.2. Các phép biến đổi trên điểm ảnh ................................................................... 16 2.2.1. Lược đồ ảnh............................................................................................ 16 2.2.2. Điều chỉnh mức sáng .............................................................................. 16 2.2.3. Điều chỉnh độ tương phản ...................................................................... 17 2.2.4. Cân bằng lược đồ ảnh............................................................................. 18 2.2.5. Biến đổi ảnh màu và đa mức xám .......................................................... 20 2.3. Các phương pháp xử lý ảnh thông dụng........................................................ 22 2.3.1. Phương pháp tích chập ........................................................................... 22 2.3.2. Các kỹ thuật lọc thông dụng................................................................... 23 2.4. Các phép biển đổi toàn cục............................................................................ 28 2.4.1. Biến đổi cosin rời rạc.............................................................................. 28 2.4.2. Biến đổi Fourier rời rạc .......................................................................... 31 2.5. Biến đổi hình thái học.................................................................................... 34 2.5.1. Phần tử cấu trúc ...................................................................................... 34 2.5.2. Phép co ảnh – Erosion ............................................................................ 35 i
2.5.3. Phép giãn ảnh – Dilation ........................................................................ 36 2.5.4. Phép mở ảnh – Openning ....................................................................... 36 2.5.5. Phép đóng ảnh- Closing.......................................................................... 37 2.5.6. Phép biến đổi "Hit or miss" .................................................................... 37 2.5.7. Ứng dụng của kỹ thuật hình thái học ..................................................... 39 Câu hỏi và bài tập ................................................................................................. 43 CHƯƠNG 3. PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH ........................................... 46 3.1. Tổng quan về phân đoạn ảnh......................................................................... 46 3.2. Phân đoạn bằng ngưỡng ................................................................................ 47 3.2.1. Phân ngưỡng thủ công ............................................................................ 48 3.2.2. Phân đoạn ngưỡng tự động..................................................................... 48 3.2.3. Phân đoạn bằng kỹ thuật Otsu ................................................................ 53 3.3. Phân đoạn bằng k-means ............................................................................... 55 3.4. Kỹ thuật phân đoạn MeanShift...................................................................... 58 3.5. Phân đoạn bằng kỹ thuật Watershed ............................................................. 59 3.6. Phân đoạn phân cấp ....................................................................................... 62 Câu hỏi và bài tập ................................................................................................. 63 CHƯƠNG 4. TRÍCH CHỌN ĐẶC TRƯNG CƠ BẢN ........................................ 65 4.1. Các khái niệm ................................................................................................ 65 4.1.1. Đặc trưng và trích chọn đặc trưng ảnh ................................................... 65 4.1.2. Đặc trưng mức thấp ................................................................................ 66 4.1.3. Đặc trưng mức cao ................................................................................. 67 4.2. Kỹ thuật trích chọn đặc trưng cạnh ............................................................... 67 4.2.1. Trích chọn biên bằng toán tử Sobel........................................................ 68 4.2.2. Trích chọn biên bằng toán tử Prewitt ..................................................... 69 4.2.3. Trích chọn biên bằng toán tử Robert...................................................... 70 4.2.4. Trích chọn biên bằng phương pháp Canny ............................................ 70 4.3. Kỹ thuật trích chọn đặc trưng điểm chính ..................................................... 72 4.3.1. Trích xuất điểm góc................................................................................ 72 4.3.2. Trích xuất đặc trưng đốm ....................................................................... 77 Câu hỏi và bài tập ................................................................................................. 80 CHƯƠNG 5. ĐẶC TRƯNG NÂNG CAO VÀ SO KHỚP ẢNH ......................... 83 5.1. Giới thiệu chung ............................................................................................ 83 5.2. Mô tả đặc trưng SIFT .................................................................................... 83 5.2.1. Đặc trưng SIFT....................................................................................... 83 5.2.2. Quá trình xử lý SIFT .............................................................................. 84 5.3. Mô tả đặc trưng SURF .................................................................................. 89 ii
5.3.1. Giới thiệu về đặc trưng SURF................................................................ 89 5.3.2. Phát hiện keypoint .................................................................................. 90 5.3.3. Mô tả đặc trưng SURF ........................................................................... 92 5.4. Mô tả đặc trưng Haar..................................................................................... 94 5.4.1. Đặc trưng Haar ....................................................................................... 94 5.4.2. Trích xuất đặc trưng Haar....................................................................... 94 5.4.3. Mở rộng đặc trưng Haar ......................................................................... 95 5.5. Mô tả đặc trưng HOG.................................................................................... 97 5.5.1. Đặc trưng HOG ...................................................................................... 97 5.5.2. Quá trình trích rút đặc trưng HOG ......................................................... 98 5.5.3. Các biến thể của biểu diễn đặc trưng HOG.......................................... 101 5.6. So khớp ảnh ................................................................................................. 102 5.6.1. Giới thiệu về so khớp ảnh..................................................................... 102 5.6.2. Thuật toán Brute- Force........................................................................ 103 5.6.3. So khớp ảnh dùng bộ mô tả SIFT......................................................... 103 5.6.4. So khớp ảnh dùng bộ mô tả SURF ....................................................... 104 5.6.5. So khớp dựa vào điểm góc Harris ........................................................ 105 5.7. Kỹ thuật lọc nhiễu trong so khớp ảnh ......................................................... 106 5.7.1. Lọc theo bình phương tối thiểu ............................................................ 106 5.7.2. Phương pháp đồng thuận ngẫu nhiên ................................................... 107 5.8. Ví dụ áp dụng trong nhận dạng ................................................................... 110 Câu hỏi và bài tập ............................................................................................... 112 CHƯƠNG 6. KỸ THUẬT NHẬN DẠNG .......................................................... 114 6.1. Giới thiệu chung .......................................................................................... 114 6.2. Cây quyết định............................................................................................. 115 6.2.1. Khái niệm ............................................................................................. 115 6.2.2. Thuật toán ID3 xây dựng cây quyết định ............................................. 115 6.2.3. Thuật toán C4.5 xây dựng cây quyết định............................................ 118 6.2.4. Rừng ngẫu nhiên................................................................................... 119 6.3. Kỹ thuật Boosting........................................................................................ 120 6.4. Máy phân loại vector hỗ trợ ........................................................................ 122 6.4.1. Giới thiệu .............................................................................................. 122 6.4.2. Phân loại tuyến tính .............................................................................. 123 6.4.3. Phân loại tuyến tính lề mềm ................................................................. 125 6.4.4. Hàm nhân.............................................................................................. 126 6.4.5. Tuyến tính hóa phân loại phi tuyến ...................................................... 127 6.5. Mạng neural nhân tạo .................................................................................. 128 iii
6.6. Kỹ thuật trượt window trong nhận dạng ..................................................... 131 6.6.1. Vấn đề trượt window ............................................................................ 131 6.6.2. Gom các mẫu nhận dạng chồng lấp...................................................... 132 6.6.3. Huấn luyện mô hình ............................................................................. 133 6.6.4. Nhận dạng đối tượng trong ảnh ............................................................ 134 Câu hỏi và bài tập ............................................................................................... 135 CHƯƠNG 7. KỸ THUẬT HỌC SÂU................................................................. 137 7.1. Tổng quan về học sâu .................................................................................. 137 7.2. Mạng neural sâu .......................................................................................... 139 7.3. Mạng neural tích chập ................................................................................. 140 7.3.1. Lớp tích chập ........................................................................................ 141 7.3.2. Lớp pooling .......................................................................................... 142 7.3.3. Lớp hiệu chỉnh...................................................................................... 144 7.3.4. Lớp chuẩn hóa ...................................................................................... 145 7.3.5. Lớp kết nối đầy đủ:............................................................................... 145 7.3.6. Lớp Dropout: ........................................................................................ 146 7.3.7. Lớp đầu ra............................................................................................. 146 7.3.8. Tạo mạng học sâu với Matlab .............................................................. 147 7.4. Một số kiến trúc mạng tích chập học sâu .................................................... 150 7.4.1. Mạng LeNet .......................................................................................... 150 7.4.2. Mạng AlexNet ...................................................................................... 151 7.4.3. Mạng ZFNet ......................................................................................... 153 7.4.4. Mạng GoogLeNet ................................................................................. 154 7.4.5. Mạng VGGNet ..................................................................................... 156 7.4.6. Mạng R-CNN ....................................................................................... 157 7.5. Mô tả ngữ nghĩa ảnh với học sâu ................................................................ 159 7.5.1. Bộ mô tả ảnh......................................................................................... 159 7.5.2. Mô hình suy diễn mối liên kết.............................................................. 160 7.5.3. Mô hình sinh diễn tả ảnh ...................................................................... 161 Câu hỏi và bài tập ............................................................................................... 161 Tài liệu tham khảo .................................................................................................. 163 iv
CHƯƠNG 1. NHẬP MÔN XỬ LÝ ẢNH Chương này giới thiệu kiến thức nhập môn về xử lý ảnh như: Những khái niệm liên quan đến ảnh kỹ thuật số, các thành phần hệ thống xử lý ảnh, các loại hệ màu cơ bản, loại ảnh thông dụng, các cấu trúc dữ liệu ảnh và kiểu định dạng phổ biến trong ảnh số. 1.1. Tổng quan về xử lý ảnh 1.1.1. Các khái niệm về ảnh số, điểm ảnh 1.1.1.1. Ảnh số Ảnh số (digital image) có thể được xem là một biểu diễn dữ liệu rời rạc thể hiện thông tin về không gian và cường độ màu). Ảnh số gồm một tập hợp hữu hạn các phần tử được biểu diễn bởi giá trị số. Ảnh số có thể được biểu diễn dưới dạng ma trận hai chiều, mỗi phần tử của ảnh số gọi là điểm ảnh (pixel)[1]. Tùy thuộc vào độ phân giải là cố định hay biến đổi mà điểm ảnh có thể được biểu diễn dưới dạng vector hoặc dạng bitmap. Ảnh số được xác định theo mảng hai chiều biểu diễn cường độ sáng của điểm ảnh với giá trị cố định, cũng có thể được xác định theo hàm hai chiều f(x, y), trong đó x và y là các tọa độ trong không gian và độ lớn (amplitude) của hàm f được gọi là độ sáng (intensity) hay độ xám (gray level) của ảnh tại điểm đó. Ảnh rời rạc hai chiều, I(m,n) biểu diễn thông tin thu được từ cảm biến của một chuỗi các vị trí cố định (m = 1, 2, ... , M; n= 1, 2, ... , N) trong tọa độ Cartesian hai chiều được biến đổi từ tín hiệu liên tục không gian 2 chiều thông qua quá trình xử lý tần số liên tục sang miền rời rạc. 1.1.1.2. Điểm ảnh Thuật ngữ điểm ảnh được dịch ra từ thuật ngữ gốc là pixel (viết tắt cụm từ picture element) nghĩa là một phần tử ảnh[1]. Phần tử ảnh được xác định theo toạ độ (x, y) tương ứng với số thứ tự cột và hàng trong ảnh. Giá trị mỗi phần tử ảnh được xác định bởi giá trị cường độ mức xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh được biểu diễn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (màu) của ảnh số gần với như hình ảnh của nó trong không gian thật. Số điểm ảnh trên mỗi diện tích biểu diễn xác định độ phân giải của ảnh số. Ảnh có độ phân giải càng cao thì càng thể hiện rõ nét các đặc điểm của hình ảnh, càng làm cho hình ảnh trở nên gần với thực tế thực và sắc nét hơn,... 1.1.1.3. Các dạng ảnh Nội dung thông tin của các điểm ảnh có thể được xem xét dưới nhiều khía cạnh khác nhau tùy thuộc vào dạng của ảnh. Ví dụ ảnh màu (colour image), ảnh đa mức xám (grey image), ảnh nhị phân (binary image), ảnh hồng ngoại (infrared image),... 1
– Ảnh màu: Ảnh màu thường là các ảnh chứa thông tin về đối tượng được biểu diễn dưới dạng màu sắc mà mắt thường có thể quan sát được. Mỗi điểm ảnh có cấu trúc gồm nhiều kênh màu khác nhau, thông thường trong máy tính, nó biểu diễn ba lớp màu cơ bản RGB, gồm màu đỏ (red), xanh lá cây (green) và xanh lam (blue). – Ảnh đa mức xám: Ảnh đa mức xám thường biểu diễn thông tin liên quan đến cường độ đa mức xám của đối tượng trong không gian mà không được thể hiện bởi màu sắc thực của nó. - Ảnh nhị phân: Ảnh biểu diễn đối tượng bởi hai mức 0 hoặc 1, thường được dùng để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bức ảnh. - Ảnh hồng ngoại: Biểu diễn trực quan quang phổ, liên quan đến phổ điện từ. Ảnh hồng ngoại cung cấp thông tin ảnh dựa trên phản xạ ánh sáng hồng ngoại hoặc bức xạ hồng ngoại mà các đối tượng trong khung nhìn phát ra. Dựa vào khả năng thu nhận phản xạ hoặc bức xạ hồng ngoại mà các loại camera hồng ngoại thu được hình ảnh trong điều kiện không có ánh sáng nhìn thấy hoặc ánh sáng kém. 1.1.1.4. Mức xám Giá trị mức xám là kết quả của ánh xạ giá trị độ sáng của một điểm ảnh màu trong không gian thực với một giá trị số nguyên dương thể hiện mức độ sáng tối của điểm ảnh đó. Các thang giá trị mức xám thường dùng là 2, 16, 32, 64, 128, 256. Ảnh đa mức xám thường dùng là 256, như vậy mức xám thường xác định trong khoảng [0, 255] tuỳ thuộc vào giá trị mà mỗi điểm ảnh được biểu diễn. 1.1.1.5. Độ phân giải của ảnh Kính thước của lưới pixel hai chiều cùng với kích thước dữ liệu lưu trữ cho mỗi pixel xác định độ phân giải không gian và chất lượng màu của mỗi ảnh[1]. Xét về mặt không gian của độ phân giải thì số cột và số hàng của ảnh xác định số lượng pixel được sử dụng để biểu diễn hình ảnh thu được từ thế giới thực. Như vậy, độ phân giải không gian (spatial resolution) của ảnh là mật độ pixel được xác định trên một ảnh số. Một số độ phân giải thông thường được sử dụng trong các thiết bị hiển thị và lĩnh vực xử lý ảnh như 640× 480, 800 × 600, 1024 × 768 (HD), 192 × 1080 (full HD), 3840 × 2160 (UHD),… Độ phân giải bit liên quan đến chất lượng ảnh, nó được định nghĩa là số lượng các giá trị khác nhau có thể biểu diễn về cường độ sáng hoặc màu sắc. Ví dụ ảnh nhị phân thì chỉ biểu diễn được hai trạng thái giá trị khác nhau (đen hoặc trắng) mỗi pixel loại này dùng 1 bit, ảnh đa mức xám dùng 8bit cho mỗi pixel, biểu diễn được 256 giá trị khác nhau từ màu đen (giá trị 0) đến trắng (giá trị 255), ảnh màu RGB dùng 24 bit có thể biểu diễn được hơn 16 triệu màu (224=16.777.216). Độ phân giải bit của một ảnh không nhất thiết phải tương ứng với độ phân giải của hệ thống ảnh. Thông thường các máy ảnh hiện đại ngày nay tự động điều chỉnh để đáp 2
ứng tối đa và tối thiểu của trường ảnh thu nhận được và phạm vi này được chia tự động thành một số lượng phù hợp các bit, ví dụ như chia thành N mức. Trong trường hợp như vậy, độ phân giải bit của ảnh thường thấp hơn độ chính xác của thiết bị. 1.1.2. Các thành phần trong hệ thống xử lý ảnh Một hệ thống xử lý ảnh thường bao gồm các thành phần chính như thiết bị phần cứng (máy ảnh) để chụp hình và lưu trữ dữ liệu, các công cụ phần mềm phục vụ xử lý và giải quyết yêu cầu của chức năng hệ thống đề ra. Trong lĩnh vực khoa học máy tính, hệ thống xử lý ảnh là đối tượng nghiên cứu liên quan đến kỹ thuật thị giác máy (computer vision), là quá trình biến đổi từ một ảnh ban đầu được thu nhận từ thiết bị sang một không gian mới sao cho làm nổi bật đặc tính dữ liệu, thuận lợi cho quá trình xử lý thông tin và nâng cao độ chính xác[2]. Một hệ thống xử lý ảnh thường gồm một số thành phần chính sau: Thu Tiền Trích chọn Phân loại, nhận nhận xử lý đặc trưng dạng mẫu Ra Biểu diễn quyết định tri thức Hình 1.1. Sơ đồ tổng quát hệ thống xử lý ảnh Thu nhận ảnh là việc hình ảnh về thế giới thực được thu nhận và chuyển qua tín hiệu ảnh rời rạc thông qua máy ảnh kỹ thuật số hoặc các thiết bị thu hình ảnh khác. Tiền xử lý là bước xử lý trên ảnh đầu vào nhằm khử nhiễu, làm nổi bật một số tính chất của ảnh nhằm nâng cao chất lượng các bước xử lý sau. Trích chọn đặc trưng là quá trình biến đổi dữ liệu ảnh đầu vào thành tập các đặc trưng. Các đặc trưng thường có đặc tính phân biệt cao của mẫu đầu vào giúp cho việc phân biệt mẫu dữ liệu ảnh dễ dàng hơn nhằm nâng cao chất lượng phân loại mẫu so với xử lý dữ liệu thô trên giá trị pixel ảnh. Việc trích chọn đặc trưng cũng có thể làm giảm kích thước thể hiện thông tin trong ảnh trong khi dữ liệu về đặc trưng ảnh có tính phân biệt cao. Phân loại, nhận dạng mẫu là quá trình xử lý dữ liệu bằng các kỹ thuật, phương pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung. Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kỹ thuật học máy, bao gồm cả học có giám sát và học không có giám sát. Biểu diễn tri thức là bước thể hiện mức cao của biểu diễn dữ liệu, các mẫu dữ liệu sau khi phân loại, nhận dạng được biểu diễn dưới dạng tri thức giúp hệ thống có khả năng “hiểu biết” ngữ nghĩa của nó theo từng kiểu ứng dụng khác nhau trong hệ thống trí tuệ nhân tạo và hệ thống thông minh. 3
Ra quyết định là bước cuối cùng của một hệ thống trong lĩnh vực hệ thống thông minh. Các mẫu được biểu diễn dưới dạng tri thức và được suy luận ngữ nghĩa để đưa ra các quyết định thực hiện một nhiệm vụ nào đó. Ví dụ trong hệ thống robot di chuyển tự động, khi phát hiện chướng ngại vật, robot sẽ tự động ra quyết định tìm kiếm đường đi mới và di chuyển theo đường đi khả thi. 1.1.3. Các ứng dụng Ngày nay, với sự hỗ trợ của các hệ thống tính toán lớn, các thuật toán tiên tiến ra đời cho phép máy tính có thể hiểu biết và quyết định tốt hơn con người trong một số lĩnh vực nhất định. Ví dụ hệ thống xử lý ảnh bằng mạng neural nhân tạo học sâu có thể nhận dạng, phân loại các kiểu đối tượng khác nhau tốt hơn và nhanh hơn con người. Xử lý ảnh có rất nhiều ứng dụng trong hầu hết các lĩnh vực của đời sống xã hội dân sự, an ninh quốc phòng, hàng không vũ trụ như: Lĩnh vực quân sự, an ninh, quốc phòng: Tự động nhận dạng, phát hiện tội phạm, theo vết và truy tìm thủ phậm thông qua hình ảnh hiện trường phạm tội và các vấn đề hỗ trợ do tìm tội phạm qua hệ thống giám sát an ninh toàn cầu, quốc gia. Trong lĩnh vực y tế: Phân tích hình ảnh, chẩn đoán bệnh qua các loại hình ảnh tia Gamma, X-quang, scan PET/CT (cắt lớp phát xạ), ảnh cực tím và đặc biệt với sự thành công của kỹ thuật học sâu đã giúp cho các chẩn đoán hình ảnh y học đạt kết quả cao. Trong lĩnh vực viễn thám, vũ trụ: Thám hiểm vũ trụ, do thám, phân tích và phát hiện vật thể trong vũ trụ. Trong lĩnh vực giao thông, dân sự: Các hệ thống khôi phục ảnh, chỉnh sửa, điều chỉnh độ phân giải, xử lý màu sắc, mã hóa và truyền tin, nhận dạng và phân loại hành động trong các hệ thống giám sát an ninh; hệ thống xe không người lái, giám sát sản phẩm sản xuất công nghiệp, robot phục vụ dân sự, giám sát bãi xe thông minh, kiểm soát- điều khiển giao thông thông minh. 1.2. Hệ màu và loại ảnh 1.2.1. Các hệ màu thông dụng 1.2.1.1. Hệ màu RGB Ảnh số trong hệ màu RGB (Red- Green- Blue) được biểu diễn bởi 3 kênh màu, gồm đỏ (red), xanh lá cây (green), xanh lam (xanh da trời - blue). Hệ màu RGB là hệ màu được sử dụng trong kỹ thuật hiển thị hình ảnh trên thiết bị điện tử như máy tính, TV. Trong biểu diễn và xử lý hệ màu RGB, mỗi kênh màu được mã hóa bằng 1 byte (8 bit) thể hiện 256 giá trị cường độ sáng khác nhau với dải giá trị trong khoảng từ 0 đến 255. Trường hợp mỗi kênh màu mã hóa bằng 1 byte được gọi là ảnh 24 bit màu (8 bit × 3 kênh- 24 bit). Ảnh màu 24 bit có thể mã hóa được 256× 256× 256 = 16.777.216 giá trị màu khác nhau. 4
Hình 1.2. Phối trộn màu trong hệ màu R-G-B Một số màu đặc biệt được thể hiện trong bảng sau: Màu Giá trị Đen [0, 0, 0] Trắng [255, 255, 255] Đỏ [255, 0, 0] Xanh lục [0, 255, 0] Xanh lam [0, 0, 255] Vàng [255, 255, 0] Xanh ngọc [0, 255, 255] Hồng cánh sen [255, 0, 255] Bảng 1.1. Một số màu đặc biệt 1.2.1.2. Hệ màu HSV Hệ màu HSV (Hue Saturation Value) có tên gọi khác là là HSI (Hue Saturation Intensity) hoặc HSL (Hue Saturation Lightness). Hệ màu HSV gồm bộ ba giá trị H, S, V. Mô hình hệ màu này do tác giả Alvy Ray Smith đề xuất năm 1978[3]. Hệ màu này dựa trên các đặc tính màu trực quan được như sắc (tint), bóng (shade) và tông màu (tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn. Hình 1.3. Không gian màu H-S-V1 Trong mô hình này, một hệ tọa độ hình trụ được dùng để biểu diễn không gian màu: – Hue là giá trị thể hiện sắc màu của hình ảnh (hay còn gọi là vùng màu), sắc màu thông thường được dùng để chỉ tên gọi của màu như đỏ, lục, lam, chàm, tím,… Các sắc màu khác nhau được biểu diễn trên một vòng tròn chỉ màu, giá trị từ 0 đến 360°. - Saturation là giá trị thể hiện mức độ bão hòa màu. Giá trị của nó để chỉ mức độ thuần khiết của màu. Nói cách khác, khi ảnh có độ bão hòa cao, màu sẽ trong và rực rỡ hơn giá trị bão hòa thấp. Giá trị của S (saturation) nằm trong đoạn [0, 1], trong đó S 1 https://en.wikipedia.org/wiki/HSL_and_HSV 5
đạt giá trị cao nhất (giá trị 1) là màu tinh khiết nhất, hoàn toàn không pha trắng, nghĩa là S càng lớn thì màu càng tinh khiết, nguyên chất. - Value là giá trị đo độ sáng của màu (intensity hoặc lightness). Thành phần V có giá trị trong đoạn [0, 1] với giá trị đặt biệt V = 0 thì ảnh là hoàn toàn tối (đen), ngược lại V = 1 là hoàn toàn sáng. Giá trị V càng lớn thì màu càng sáng. 1.2.1.3. Hệ màu Lab Không gian màu Lab thể hiện mô hình toán học của tất cả các màu mà con người cảm nhận được trong không gian 3 chiều với giá trị L thể hiện cho màu sáng, a và b là các thành phần màu xanh đỏ (green–red) và xanh vàng (blue–yellow). Hệ màu Lab được xem là mô hình màu độc lập đối với thiết bị và thường được sử dụng làm cơ sở tham chiếu khi chuyển đổi từ một không gian màu này sang một không gian màu khác. Hệ màu này sau đó phát triển theo các phiên bản CIELab (đề xuất bởi Hunter) và CIEL*a*b* (đề xuất năm 1976). Theo mô hình Lab, tất cả các màu có cùng một độ sáng sẽ nằm trên cùng một mặt phẳng có dạng hình tròn theo 2 trục a và b. Màu có giá trị a dương thì ngả đỏ, màu có giá trị a âm thì ngả lục. Tương tự b dương thì ngả vàng và b âm thì ngả lam. Còn độ sáng của màu thì thay đổi theo trục dọc. Hình 1.4. Thể hiện màu trong không gian màu Lab2 1.2.1.4. Hệ màu YCbCr Các hệ màu YCbCr và Y'CbCr còn được gọi với các tên khác như YCBCR và Y'CBCR tương ứng, hai hệ màu này là một họ không gian màu được sử dụng nhiều trong các hệ thống video, ảnh kỹ thuật số và các hệ thống thiết bị phát hình điện tử. Trong hệ màu YCbCr, thành phần Y đại diện cho độ sáng của ảnh và Cb và Cr là các thành phần màu tương ứng với màu xanh lam (blue) và màu đỏ (red). Hệ màu YCbCr trong ảnh kỹ thuật số tương đương với hệ màu YUV trong ảnh tín hiệu tuần tự (analog). Không gian màu YCbCr được định nghĩa trong hệ tọa độ tương ứng với không gian màu RGB. Giá trị các kênh màu R, G và B tại mỗi pixel được sử dụng để tổng hợp lại với nhau tạo ra giá trị đơn của thành phần Y biểu diễn độ sáng chung tại pixel tương ứng. Các thành phần Cb và Cr được tổng hợp từ các giá trị của thành phần Y và các kênh màu B và R tương ứng trong hệ màu RGB. 2 https://en.wikipedia.org/wiki/Lab_color_space 6
Hình 1.5. Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y'=0.5(3) 1.2.2. Một số loại ảnh thông dụng 1.2.2.1. Ảnh màu Ảnh màu được hiểu chung là ảnh thể hiện các đối tượng theo màu sắc của nó mà mắt thường cảm nhận được. Nói cách khác, ảnh màu được hiểu là một ảnh chứa một hoặc nhiều kênh màu xác định màu sắc tại các vị trí cụ thể của ảnh I(x,y)[1]. Theo Thomas Young thì ảnh màu được tổ hợp từ 3 màu cơ bản là đỏ (R-red), xanh lục (G- green), xanh lam (B-blue) và thường thu nhận trên các dải băng tần khác nhau. Không gian màu RGB thường được dùng nhiều trong các thiết bị hiển thị điện tử so với các không gian màu khác như HSV, YCbCr. Một ảnh màu thường được lưu trữ trong bộ nhớ như là một bản đồ rapter hay bản đồ pixel (bitmap) bởi một mảng hai chiều với mỗi phần tử là bộ ba giá trị màu tương ứng với mỗi kênh màu. Trong ảnh RGB, thông thường mỗi kênh màu dùng 8 bit để để biểu diễn cho một điểm ảnh, vậy một điểm ảnh màu cần 24 bit tương ứng với 3 kênh màu thành phần. Giá trị mỗi kênh màu được chia thành n mức màu khác nhau tương ứng từ 0 đến n-1, nếu 8 bit thì có 256 từ 0 đến 255. Mỗi giá trị thể hiện cường độ sáng của kênh màu tương ứng. Trong hệ màu RGB, việc lưu trữ ảnh màu theo từng kênh màu riêng biệt rất dễ dàng. Hình 1.6. Tạo màu theo nguyên lý R-G-B4 1.2.2.2. Ảnh đa mức xám Trong kỹ thuật xử lý ảnh, ảnh đa mức xám (grey image) còn được gọi là ảnh đơn sắc (monochromatic). Ảnh đa mức xám dùng một kênh để thể hiện cường độ sáng của điểm ảnh. Mỗi điểm ảnh có một giá trị mức xám độ sáng từ màu đen (giá trị nhỏ nhất 3 https://en.wikipedia.org/wiki/YCbCr 4 https://en.wikipedia.org/wiki/RGB_color_model 7
0) đến màu trắng (giá trị lớn nhất). Như vậy, khác với ảnh màu RGB, ảnh đa mức xám chỉ dùng một thành phần giá trị nên nếu dùng cùng độ bit để mã hóa cho mỗi thành phần thì ảnh đa mức xám có kích thước bằng 1/3 so với ảnh màu RGB. Một số loại ảnh đa mức xám phổ biến phân theo kích thước bit dùng cho mỗi pixel: - Ảnh 256 mức xám: Loại ảnh này cần dùng 8 bit cho mỗi điểm ảnh, có giá trị nằm trong khoảng [0, 255] tương ứng với biến đổi cường độ sáng từ đen qua trắng. - Ảnh 8 mức xám: Loại ảnh này cần dùng 3 bit cho mỗi điểm ảnh, giá trị nằm trong khoảng [0, 7]. Như vậy, loại ảnh này có độ phân giải màu thấp hơn so với loại ảnh 8bit. Giá trị điểm ảnh bằng 0 nghĩa là điểm ảnh đó tối (đen), giá trị điểm ảnh lớn nhất nghĩa là điểm ảnh đó trắng. Giá trị điểm ảnh càng lớn thì điểm ảnh đó càng sáng. - Ảnh 2 mức xám: Mỗi pixel chỉ biểu diễn 2 mức cường độ sáng tương ứng với đen (0) và trắng (1). Để tránh nhầm lẫn ảnh đen trắng với ảnh đa mức xám, người ta thường gọi là ảnh nhị phân hay ảnh đen trắng nhị phân. Như vậy mỗi pixel chỉ cần dùng 1 bit để biểu diễn. Ảnh đen trắng thường được dùng để biểu diễn đối tượng và nền trong ảnh. Trong một số trường hợp, màu sắc của hình ảnh không quan trọng và màu có thể nhạy cảm với các nguồn sáng mà chỉ cần biểu diễn hình dáng theo mức độ sáng tối của đối tượng trong hình ảnh thì ảnh đa mức xám được sử dụng để giảm dung lượng lưu trữ và giảm thiểu ảnh hưởng của nguồn sáng. a) b) Hình 1.7. Biểu diễn ảnh trong các loại ảnh: (a) ảnh màu RGB, (b) ảnh đa mức xám 1.2.2.3. Ảnh đen trắng Hình 1.8. Ảnh nhị phân trong biểu diễn cạnh Như đã đề cập ở mục trước, ảnh đen trắng là trường hợp đặc biệt của ảnh đa mức xám chỉ gồm 2 màu là đen và trắng, thường gọi là ảnh nhị phân. Ảnh nhị phân khá đơn 8
giản, các phần tử ảnh có thể coi như các phần tử nhị phân. Ảnh nhị phân thường được dùng để biểu diễn trạng thái đối tượng, phân biệt đối tượng trong ảnh với nền, hoặc để biểu diễn các đường biên đối tượng, vùng ảnh. 1.2.2.4. Ảnh quang phổ Ảnh quang phổ là trường hợp tổng quát của hình ảnh với các loại tín hiệu tương ứng với các loại bước sóng đặc biệt nào đó, bao gồm cả các loại bước sóng nhìn thấy (đối với ảnh số thông thường). Ảnh quang phổ có thể biểu diễn dưới dạng ảnh màu hoặc ảnh đa mức xám, ảnh nhị phân. Có nhiều loại ảnh quang phổ khác nhau như ảnh quang phổ X-ray, ảnh quang phổ hồng ngoại,… Ảnh phổ hồng ngoại là hình ảnh thu được từ tia hồng ngoại do bức xạ điện từ có bước sóng dài hơn ánh sáng nhìn thấy nhưng ngắn hơn tia bức xạ vi ba. Hồng ngoại có nghĩa là bước sóng ngoài mức đỏ, là bước sóng dài nhất trong ánh sáng nhìn thấy được. (a) (b) Hình 1.9. Ảnh hồng ngoại: (a) ảnh thấy bằng mắt thường, (b) bức xạ hồng ngoại5 Hiện nay loại camera hồng ngoại trở nên phổ biến, đặc biệt là các loại camera giám sát an ninh, camera trong các hệ thống tự động hóa. Camera hồng ngoại có khả năng thu bức xạ hồng ngoại để chuyển đổi qua ảnh hiển thị trong ngưỡng nhìn thấy bằng mắt thường. Do vậy, camera hồng ngoại được sử dụng nhiều trong các ứng dụng ban đêm và các điều kiện thiếu ảnh sáng. 1.3. Cấu trúc dữ liệu ảnh Trong tổ chức lưu trữ và xử lý hình ảnh có hai dạng cấu trúc dữ liệu cơ bản là dạng ảnh bitmap (hay còn gọi là raster) và dạng ảnh vector[4]. 1.3.1. Cấu trúc ảnh vector Xét về mặt cấu trúc tổ chức, ảnh vector được tạo nên từ những yếu tố chính của hình học như điểm rời rạc, các đường thẳng, đường cong, đa giác và các vùng tương ứng với các đối tượng. Trên cơ sở đó vector được tạo thành dựa trên những biểu thức toán học (hoặc xấp xỉ), các vector này đi qua các điểm chính với mỗi điểm có một tọa độ x, y nhất định trên hệ trục tọa độ. Nhờ vậy, các điểm ảnh chi tiết trên đối tượng khi phóng sẽ được nội suy dựa vào những điểm chính và biểu thức toán học để tính giá trị điểm ảnh giữa các điểm chính. 5 https://en.wikipedia.org/wiki/Infrared 9
Hình 1.10. Ảnh vector khi phóng to vẫn giữ nguyên được đối tượng Ưu điểm của ảnh vector là khi phóng to hoặc thu nhỏ ảnh không bị vỡ, đường biên giữa các vùng không bị hiện tượng răng cưa. Kích thước ảnh vector thường nhỏ, chứa đối tượng đơn giản. Ảnh vector được dùng nhiều trong các trường hợp thiết kế logo, icon avatar, ảnh nghệ thuật vector. Hạn chế của ảnh vector là hình ảnh hiển thị thường không “tự nhiên”, có sự chuyển màu và không sắc nét với ảnh ngoại cảnh, phân phối màu phức tạp. 1.3.2. Cấu trúc ảnh raster Ảnh raster hay ảnh bitmap tổ chức biểu diễn theo cấu trúc lưới các điểm màu thể hiện các pixel, nó được tạo ra bởi các điểm ảnh rời rạc, chứa giá trị mỗi màu nhất định. Như vậy, ở độ phân giải chuẩn, ảnh raster nguyên gốc thể hiện hình ảnh đối tượng giống với tự nhiên hơn ảnh vector do không phải tính dựa vào các biểu thức toán học để tính ra các điểm ảnh giữa trên cơ sở các điểm chính. Hầu hết các ảnh được lưu trữ theo các định dạng thông thường đều theo dạng cấu trúc raster và các biến thể nén như GIF, JPEG và PNG. Ảnh dạng raster thường có kích thước lớn hơn ảnh vector. Hình 1.11. Ảnh raster khi phóng to bị vỡ hình và răng cưa Khác với ảnh vector, ảnh raster khi phóng to thường bị hiện răng cưa, đối tượng không sắc nét. Nếu ảnh gốc kích thước nhỏ, khi phóng quá to so với ban đầu đối tượng thường không giữ lại được diện mạo, bị mờ. 1.4. Một số định dạng ảnh phổ biến Ngày nay có rất nhiều kiểu định dạng ảnh khác nhau, một số loại định dạng được dùng phổ biến như JPG, PNG, GIF, TIFF và BMP. Ứng với mỗi định dạng ảnh cụ thể sẽ có các thuộc tính khác nhau, phương pháp mã hóa, lưu trữ khác nhau và được tạo ra để sử dụng vào những mục đích khác nhau. 10
1.4.1. Định dạng ảnh TIFF Định dạng TIFF (tagged image format file) được nghiên cứu và giới thiệu vào năm 1986 bởi công ty Aldus Corp., là một định dạng file ảnh chất lượng cao và được sử dụng nhiều trong các ứng dụng thu nhận ảnh từ máy scan. Chuẩn định dạng TIFF là một trong những tiêu chuẩn quan trọng, được sử dụng nhiều trong ngành công nghiệp in ấn và xuất bản. File ảnh dạng TIFF thường có kích thước lớn hơn nhiều so với các file ảnh nén theo chuẩn JPEG. Định dạng TIFF lưu trữ dữ liệu hình ảnh dạng nén hoặc không nén và có thể sử dụng các kỹ thuật nén không mất dữ liệu hoặc mất thông tin. Khác với định dạng JPEG, định dạng TIFF có thể có độ sâu màu từ 8 bits/channel đến 16 bits/channel và có thể có nhiều lớp ảnh được lưu trữ đồng thời trong cùng file ảnh TIFF. Định dạng TIFF thường có các kiểu nén là LZW, ZIP và JPGE. Đặc điểm của ảnh theo định dạng TIFF là thường không bị mất dữ liệu hình ảnh khi lưu trữ ra thiết bị nhớ và đọc lại để xử lý trong máy tính, thường được sử dụng để biểu diễn hình ảnh có màu sắc phức tạp. Ảnh định dạng TIFF sử dụng trong các trường hợp đòi hỏi chất lượng cao như hình ảnh in ấn, phân tích mẫu. 1.4.2. Định dạng ảnh GIF Định dạng GIF (graphics interchange format) được phát triển từ năm 1987, thường được dùng trong biểu diễn và truyền hình ảnh trong môi trường Web. Ảnh định dạng GIF thường biểu diễn hình ảnh thành các frame để tạo ảnh chuyển động. Với mục đích tạo ra định dạng trao đổi hình ảnh nên các file ảnh theo định dạng GIF thường có kích thước nhỏ, chất lượng hình ảnh vừa phải, đáp ứng được trong môi trường mạng. Khác với JPGE, GIF sử dụng thuật toán nén ít mất thông tin (lossless) mà không làm giảm chất lượng hình ảnh sau khi nén. Trong kỹ thuật nén ảnh theo chuẩn GIF, dữ liệu lưu bằng cách sử dụng màu chỉ mục (index), mỗi hình ảnh có thể bao gồm 256 màu. Một trong những ưu điểm của GIF là nén theo chuẩn Lossless nên ảnh thường không bị mất dữ liệu khi nén, hình ảnh dạng GIF được tự động nhận biết trên hầu hết các trình duyệt web. Vì chuẩn GIF lưu trữ dữ liệu theo bảng chỉ mục nên nó thường được dùng để tạo các khung nhìn khác nhau tạo nên hiệu ứng chuyển động, vì hình ảnh giữa các frame có mức độ tương tự cao nên sẽ tiết kiệm được không gian nhớ so với video thông thường. Ảnh GIF sử dụng tốt đối với các trường hợp biểu diễn hình ảnh đơn giản như những bản vẽ chỉ có nét, bảng màu sắc và những minh họa đơn giản, tạo những hình ảnh động, hình ảnh Web không có quá nhiều màu sắc, những ảnh avatar có kích thước nhỏ. Hình mô phỏng về hình ảnh chuyển động của hai con lắc minh họa thí nghiệm của Newton được tạo thành từ các ảnh đơn lẻ. Phần lớn các đối tượng đều không thay đổi, chỉ có hai quả cầu ở hai bên ngoài cùng chuyển động luân phiên nhau. Các ảnh này được nén theo chuẩn GIF cho ảnh chất lượng cao trong khi dung lượng file ảnh không tăng nhiều so với kích thước của một ảnh đơn lẻ vì phần 11
lớn dữ liệu ảnh đều giống nhau, chỉ một vài chi tiết nhỏ thay đổi, do vậy bảng chỉ mục nhỏ chỉ cần tham chiếu đến các frame. Hình 1.12. Ảnh động GIF được tạo thành từ tập các ảnh liên tục 1.4.3. Định dạng hình ảnh JPG Định dạng JPG được đề xuất năm 1992 trong công bố của tác giả Haines [5]. Định dạng JPG được gắn liền với chuẩn nén ảnh JPGE (joint photographic experts group) và lưu trữ trong máy tính theo file JPG. Định dạng JPG là một trong những phương pháp được sử dụng phổ biến nhất hiện nay cho các file ảnh kỹ thuật số và xử lý tính toán trong máy tính. Định dạng JPG gắn liền với thuật toán nén mất thông tin (lossy), tức là khi nén dữ liệu để lưu trữ, thông tin sẽ bị mất trong quá trình nén và giải nén. Do đó, chất lượng hình ảnh sẽ bị giảm so với ảnh ban đầu. Tuy nhiên, với phương pháp nén mất thông tin thì kích thước file lưu trữ của ảnh cũng giảm đáng kể. Phương pháp nén JPEG thường được dùng để nén ảnh số có mất mát thông tin. Các file ảnh dùng nén theo chuẩn JPEG thường có tên file mở rộng là *.jpg, *.jpeg,*.jfif hay *.jpe. Thông thường, định dạng JPG dùng 24bit để biểu diễn màu với mỗi kênh màu chiếm 8bit (1 byte). Như vậy, ảnh JPG 24bit có thể biểu diễn được hơn 16 triệu màu khác nhau (224=16.777.216). Dung lượng lưu trữ file ảnh nhỏ hơn rất nhiều so với ảnh không nén (dạng Bitmap). Các ảnh sử dụng phương pháp nén JPGE tương thích với hầu hết các trình duyệt web hiện nay. Ảnh JPG sử dụng tốt và hiệu quả đối với các loại ảnh tĩnh, ảnh có màu sắc phức tạp, ảnh đa mức xám, ảnh ngoại cảnh và chân dung. 1.4.4. Định dạng ảnh BMP BMP là loại định dạng bitmap, được phát triển vào năm 1994. BMP là loại định dạng và lưu trữ file ảnh đồ họa dạng lưới (raster) được sử dụng để lưu trữ ảnh số dạng thô. File ảnh dạng BMP thường có kích thước lớn và dữ liệu không nén do vậy cũng không mất thông tin trong quá trình lưu file và đọc ảnh từ file. Dữ liệu hình ảnh BMP độc lập với các thiết bị hiển thị như Graphics adapter, đặc biệt trên các ứng dụng chạy trong môi trường Microsoft Windows và hệ điều hành OS/2. Định dạng BMP có ưu điểm là không làm mất thông tin của ảnh đang xử lý, nên nó phù hợp cho việc in ấn, chỉnh sửa hình ảnh. Mặt khác, vì ảnh không nén nên file ảnh BMP được đọc dễ dàng bằng các chương trình phần mềm dùng chung với những thuật toán đơn giản. Tuy nhiên, ảnh không hỗ trợ nén cũng ảnh hưởng không tốt cho việc lưu trữ vì dung lượng file thường lớn hơn các loại định dạng khác. 12
1.4.5. Định dạng ảnh PNG PNG (Portable Network Graphics) được đề xuất năm 1996 là một định dạng file đồ họa dạng raster. PNG hỗ trợ nén dữ liệu không bị mất thông tin (lossless- ít mất thông tin). Định dạng PNG được xem là một dạng cải tiến và thay thế cho GIF trong môi trường ảnh vector và được sử dụng nhiều trên internet. Chuẩn định dạng PNG thường sử dụng hai dạng khác nhau là PNG-8 và PNG-24. Trong trường hợp ảnh có màu sắc phức tạp, không phân bố theo dạng vector thì PNG có dung lượng lớn hơn JPGE. Ưu điểm của định dạng PNG là hình ảnh các đối tượng không bị cạnh răng cưa khi phóng to ảnh, điểm ảnh được biểu diễn dạng vector. Ảnh định dạng PNG được nén theo chuẩn không mất thông tin do vậy khi giải nén ảnh vẫn giữ nguyên được chất lượng ban đầu trước khi nén. Ảnh dạng PNG thích hợp với các loại hình ảnh chứa đối tượng phân phối màu đơn giản, tuân theo quy luật như văn bản, các loại hình vẽ. Với các loại hình ảnh mà nền trong suốt hoặc có thể được thiết lập giữa mờ đục lưu trữ theo định dạng PNG cho ảnh chất lượng cao với kích thước file nhỏ. Bên cạnh đó, nó cũng được dùng trong quá trình chỉnh sửa hình ảnh nhằm không làm mất thông tin của ảnh đang xử lý. Ngoài ra, định dạng PNG sử dụng tốt cho các hình ảnh web/blog, những mảng màu phẳng, thiết kế logo, hình ảnh có nền trong suốt hoặc bán trong suốt. 1.4.6. So sánh các chuẩn định dạng Định Nén không Cấu trúc Chỉ mục Hỗ trợ ảnh Nhiều Ảnh Quản lý dạng mất thông tin lưu trữ màu trong suốt trang động màu BMP  Raster   × ×  GIF  Raster     × JPEG × Raster × × × ×  PNG  Raster   × ×  TIFF  Cả 2    ×  Câu hỏi và bài tập 1. Ảnh kỹ thuật số khác với ảnh phim như thế nào? 2. Hãy cho biết mối liên hệ giữa kích thước ảnh và số điểm ảnh. 3. Hãy cho biết mối liên hệ kích thước ảnh và độ phân giải ảnh. 4. Hãy phân biệt ảnh màu, ảnh đa mức xám và ảnh nhị phân. 5. Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, Lab và YcbCr và hiển thị từng ảnh trên các cửa sổ khác nhau. 6. Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, sau đó tăng giá trị thành phần màu V lên 150%, chuyển qua ảnh RGB và hiển thị ảnh gốc và ảnh sau khi điều chỉnh. Hãy nhận xét sự thay đổi của ảnh. 13