Phát triển các thuật toán sử dụng hàm LoG cho ứng dụng nhận dạng chữ trong ảnh thời gian thực
lượt xem 4
download
Bài viết này thảo luận các nghiên cứu hiện tại các thuật toán cho nhận dạng chữ (Text) trong ảnh dựa vào hàm số LoG (Laplacian of Gaussian) để trích chọn các đặc trưng mức thấp của ảnh chứa text đáp ứng yêu cầu thời gian thực.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Phát triển các thuật toán sử dụng hàm LoG cho ứng dụng nhận dạng chữ trong ảnh thời gian thực
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0058 PHÁT TRIỂN CÁC THUẬT TOÁN SỬ DỤNG HÀM LOG CHO ỨNG DỤNG NHẬN DẠNG CHỮ TRONG ẢNH THỜI GIAN THỰC Nguyễn Đình Công, Hoàng Văn Quý Khoa Công nghệ thông tin và Truyền thông, Đại học Hồng Đức, Thanh Hoá, Việt Nam nguyendinhcong@hdu.edu.vn; hoangvanquy@hdu.edu.vn TÓM TẮT: Bài báo này thảo luận các nghiên cứu hiện tại các thuật toán cho nhận dạng chữ (Text) trong ảnh dựa vào hàm số LoG (Laplacian of Gaussian) để trích chọn các đặc trưng mức thấp của ảnh chứa text đáp ứng yêu cầu thời gian thực. Thông qua các nghiên cứu hiện tại, các chứng minh về lý thuyết được đề xuất nhằm tuỳ chỉnh thuật toán Zero-norm LoG thích ứng với bài toán nhận dạng text thông qua mô hình stroke đảm bảo độ chính xác và thoả mãn yêu cầu thời gian thực thông qua quá trình xấp xỉ hàm Gaussian bằng các hàm hộp (box function). Từ khóa: LoG, mô hình stroke, thời gian thực, nhận dạng text, bất biến với ánh sáng. I. GIỚI THIỆU Nhận dạng chữ (text) trong ảnh là một trong những chủ đề giành được nhiều sự quan tâm trong cộng đồng nghiên cứu về thị giác máy tính (computer vision). Các nghiên cứu tổng hợp có thể tham khảo tại [1] [2]. Mục tiêu của các nghiên cứu này là thiết kế các thuật toán ổn định trong các điều kiện khác nhau của ảnh cụ thể: các kiểu chữ khác nhau, điều kiện ánh sáng thay đổi, các góc xoay khác nhau hay sự tương đồng giữa nền và text, hình 1. Hình 1. Ví dụ về ảnh text với: (a) Ảnh bị mờ; (b) Ảnh với kích cỡ khác nhau; (c) Ảnh với độ sáng khác nhau. Bên cạnh đó, một trong những vấn đề cốt lõi khác là thiết kế các thuật toán tối ưu để đáp ứng các yêu cầu về thời gian xử lý. Để thiết kế các thuật toán như vậy, mô hình 2 bước được triển khai. Cụ thể, bước 1 là định vị các vùng chứa text trong ảnh (localization) nhiều nhất có thể với mục tiêu không làm mất các vùng chứa text nào, bước 2 xác thực vùng định vị được có thực sự là text hay không (verification) bằng cách sử dụng các thủ tục xác thực hoặc dùng các mô hình học máy (machine learning) [2]. Một trong thành tố chính của mô hình 2 bước là trên các thuật toán cục bộ nhằm phát hiện các điểm khoá (keypoint) - đặc trưng mức thấp. Nhiệm vụ của các thuật toán này là trích chọn ra các điểm khoá tại các vị trí chứa text trong ảnh. Một số bộ trích chọn đặc trưng điểm khoá mức thấp có thể kể tới như FastText [3], Canny Text [4], Stroke Width Transform (SWT) [5], BSV [6], Maximally Stable Extremal Regions (MSER) [7], Fast RT-LoG [8]. Trong gần một thập kỷ trở lại đây, xu hướng của các nghiên cứu là chuyển dịch dần sang sử dụng các mô hình mạng nơ ron tích chập (CNN) [2] với độ ổn định và chính xác cao. Tuy nhiên cũng cần phải chú thích thêm là các mô hình mạng CNN này với độ phức tạp lớn thường không thích hợp với các dịch vụ yêu cầu thời gian thực và cần các hệ thống máy trạm có cấu hình lớn để triển khai huấn luyện và kiểm tra. Do đó, ít tương thích với các thiết bị phần cứng có năng lực xử lý yếu như CPU hoặc các thiết bị cầm tay, điện thoại thông minh. Vì vậy, hướng nghiên cứu này là không khả quan để áp dụng và triển khai các ứng dụng về thời gian thực trên các thiết bị đó. Do đó, việc nghiên cứu các thuật toán trích chọn đặc trưng mức thấp có độ phức tạp nhỏ (nhằm tương thích với các thiết bị phần cứng có cấu hình thấp) với độ chính xác cao, toàn diện (nhằm hỗ trợ cho các thuật toán phân loại ở giai đoạn sau) là cần thiết để xây dựng nên các thuật toán dò tìm text trong ảnh. Trong nghiên cứu này, chúng tôi muốn xác định các nghiên cứu hiện tại đã giải quyết được vấn đề gì và những vấn đề còn tồn tại khi sử dụng các thuật toán trích chọn đặc trưng mức thấp của ảnh: biên/điểm khoá. Đồng thời đi triển khai chứng minh bằng lý thuyết các mô hình tiềm năng có khả năng đáp ứng được các yêu cầu về độ ổn định và thời gian thực cho bài toán nhận dạng text trong ảnh dựa vào thuật toán đạo hàm của hàm số Gaussian. Đóng góp của bài báo cụ thể là: - So sánh đánh giá các phương pháp hiện sử dụng thuật toán đạo hàm của hàm số Gaussian cho bài toán nhận dạng text trong ảnh. - Triển khai các chứng minh toán học nhằm biến đổi các thuật toán phi thời gian thực trở thành các thuật toán xấp xỉ đáp ứng yêu cầu thời gian thực ứng với các bộ trích chọn đặc trưng mức thấp của text. Định hướng các hướng nghiên cứu tiềm năng của việc nhận dạng text trong ảnh đáp ứng các yêu cầu về thời gian thực.
- Nguyễn Đình Công, Hoàng Văn Quý 183 Cấu trúc của bài báo được trình bày tiếp theo như sau. Phần II khái quát các nghiên cứu liên quan tới bài toán nhận dạng text sử dụng đạo hàm bậc nhất/bậc hai của hàm số Gaussian. Phần III thảo luận thuật toán bất biến với độ sáng. Phần IV là nêu ra đề xuất hướng nghiên cứu mới. Phần V tổng kết nội dung bài báo. II. CÁC NGHIÊN CỨU LIÊN QUAN Để tiện cho việc theo dõi nội dung của bài báo, hàm Gaussian với một số các ràng buộc nhất định được biểu diễn trong không gian 2 chiều trong trường hợp đối xứng được biểu diễn ở công thức (1). 1 𝑥2 +𝑦2 − 𝑔(𝑥, 𝑦|𝜎) = 𝑒 2𝜎2 (1) 2𝜋𝜎 2 Trong đó, x,y là toạ độ không gian 2 chiều, 𝜎 là độ lệch chuẩn (trên công thức là trường hợp đối xứng theo x, y. Thuật toán Laplacian of Gaussian (LoG) (2) được tính dựa trên đạo hàm bậc 2 của hàm Gaussian (1). 1 𝑥 2 + 𝑦2 − 𝑥2 +𝑦2 ∇2 𝑔(𝑥, 𝑦|𝜎) = 𝑔𝑥𝑥 (𝑥, 𝑦|𝜎) + 𝑔𝑦𝑦 (𝑥, 𝑦|𝜎) = ( − 2)𝑒 2𝜎2 (2) 2𝜋𝜎 4 𝜎2 Trong đó 𝑔𝑥𝑥 (𝑥, 𝑦|𝜎), 𝑔𝑦𝑦 (𝑥, 𝑦|𝜎) lần lượt là đạo hàm bậc 2 của hàm Gaussian theo phương x và y. Giả sử ảnh đầu vào có phương trình là f(x,y) qua bộ lọc LoG tạo ra bản đồ đặc trưng h(x,y) sẽ được tính thông qua phép tích chập (⊗) tại phương trình (3). ℎ(𝑥, 𝑦) = 𝑓(𝑥, 𝑦) ⊗ 𝛻 2 𝑔(𝑥, 𝑦|𝜎) (3) Nhiều nghiên cứu được công bố dựa vào đặc tính của hàm Gaussian (1) hàm LoG (2). Mục tiêu là tối ưu hoá các thuật toán để nâng cao độ chính xác, giúp thuật toán bất biến với: điều kiện sáng, tỉ lệ, phép xoay. Điều quan trọng tiếp theo là giúp tăng tốc khả năng xử lý của thuật toán để đáp ứng với yêu cầu về thời gian thực. Stroke width transform (SWT) [5] là thuật toán dựa trên đạo hàm bậc nhất của hàm Gaussian với mục đích dò biên của các phần tử text trong ảnh sau đó tính khoảng cách/hướng giữa các phần tử biên nhằm nội suy ra text trong ảnh. BSV [6] là thuật toán biến thể của thuật toán LoG (2) với mục đích dò biên và các phần ở giữa các biên trong mô hình text. Thuật toán SWT, BSV xử lý nhanh, tuy nhiên độ chính xác chưa cao do các thuật toán phụ thuộc vào phần tử biên tương đối nhạy cảm với nhiễu. Mô hình Stroke [9] xấp xỉ hàm LoG bằng cách sử dụng hàm Differences of Gaussian (DoG) với mục đích giảm độ phức tạp của thuật toán giúp xử lý nhanh hơn nhằm dò các điểm khoá các phần tử text trong ảnh dựa vào tính tách được (separable property) của hàm số Gaussian. Zero-norm LoG [10] là thuật toán tổng quát của LoG loại bỏ độ ảnh hưởng của ánh sáng tới các điểm khoá dò được trong ảnh. Hay gLoG [11] cũng là thuật toán tổng quát hơn của LoG giúp dò các điểm khoá theo các hướng khác nhau. Gần đây, RT-LoG [8] là thuật toán xấp xỉ hàm LoG dựa vào việc xấp xỉ hàm Gaussian (1) bằng tập hợp các bộ lọc hộp (box filters). Để tiện cho việc so sánh giữa các thuật toán tuyến tính được đề cập ở trên, bảng 1 sẽ đưa ra một số tiêu chí. Bảng 1. So sánh các thuật toán tuyến tính sử dụng cho dò text trong ảnh; N, 𝜔 là kích thước ảnh đầu và mặt nạ của thuật toán Thuật toán Độ phức tạp Độ chính Bất biến với Bất biến với Bất biến với Thời gian xử thuật toán xác tỉ lệ phép xoay điều kiện sáng lý SWT O(N𝜔) + Một phần Gần Không +++ BSV O(N𝜔) + Một phần Gần Không +++ Mô hình Stroke O(N𝜔) ++ Có Gần Không ++ Zero-norm LoG O(N𝜔2 ) +++ Có Gần Có + gLoG O(N𝜔2 ) ++ Một phần Có Không - RT-LoG O(N) ++ Có Gần Không ++++ Ngoài ra, một số thuật toán phi tuyến như FastText [3], Canny Text [4] cũng có độ phức tạp của thuật toán nhỏ giúp thuật toán có thể xử lý thời gian thực. Tuy nhiên, trong phạm vi của bài báo, chúng tôi chỉ tập trung thảo luận các thuật toán tuyến tính dựa vào hàm Gaussian. Từ bảng 1 chúng ta có thể đưa ra một số nhận định như sau: Zero-norm LoG, gLoG, RT-LoG là nhóm các thuật toán có độ chính xác cao. RT-LoG là thuật toán có độ phức tạp thấp nhất xử lý với thời gian thực. Tuy nhiên lại nhạy cảm với sự thay đổi của ánh sáng. Zero-norm LoG là thuật toán duy nhất loại bỏ được ảnh hưởng này. Tuy nhiên, thuật toán này lại có độ phức tạp cao, thời gian xử lý chậm. Trong khi đó, SWT, BSV là các thuật toán có độ chính xác thấp. Trong phần tiếp theo, thuật toán Zero-norm LoG sẽ được chúng tôi xem xét lại và tối ưu cho bài toán nhận dạng text trong ảnh nhằm mang lại một thuật toán toàn diện nhất với độ chính xác cao và độ phức tạp của thuật toán thấp. III. THUẬT TOÁN BẤT BIẾN VỚI ĐỘ SÁNG Các thuật toán là biến thể của hàm LoG hoạt động tương đối tốt trên các vùng ảnh có độ tương phản lớn. Hay nói cách khác sự khác biệt giữa các chủ thể (foreground) và nền (background) là lớn [8]. Tuy nhiên, một số vấn đề nảy sinh với các vùng ảnh có độ tương phản thấp (low contrast). Hình 2 biểu diễn vấn đề này.
- 184 PHÁT TRIỂN CÁC THUẬT TOÁN SỬ DỤNG HÀM LOG CHO ỨNG DỤNG NHẬN DẠNG CHỮ TRONG ẢNH… Dễ dàng nhận thấy với các vùng ảnh với giá trị biên độ thấp cũng cho ra các phản hồi thấp. Điều này gây khó khăn cho việt đặt các giá trị ngưỡng để tìm các vùng đặc trưng [12]. Để khắc phục điều này, thuật toán Zero-norm LoG [10] được đề xuất như sau. Hình 2. Giá trị đặc trưng thu được sau khi nhân chập thuật toán dựa vào hàm LoG và ảnh đầu vào ℎ(𝑥) = 𝑓(𝑥) ⊗ 𝛻 2 𝑔(𝑥|𝜎). Hình 3. (a) Đồ thị hoá hàm số LoG gồm 2 phần với R1 chứa các trọng số dương và R2 chứa các trọng số âm, (b) Phân tích 2 giá trị 𝜇1 (𝑥) và 𝜇2 (𝑥), để đơn giản chúng tôi trực quan trên không gian 1 chiều Hàm số LoG (2) được đồ thị hoá như hình 3 (a) gồm có 2 phân vùng riêng biệt. Vùng bao R1 bao gồm các trọng số dương trong khi R2 bao gồm các trọng số âm. Từ R1 , R2 có thể viết lại phương trình (3) như phương trình (4). ℎ(𝑥) = 𝑓(𝑥) ⊗ 𝛻 2 𝑔(𝑥|𝜎) = ∑𝑠𝜖𝑅1 ∇2 𝑔(𝑠|𝜎) 𝑓(𝑥 − 𝑠) + ∑𝑠𝜖𝑅2 ∇2 𝑔(𝑠|𝜎) 𝑓(𝑥 − 𝑠) = ∑𝑠𝜖𝑅1 ∇2 𝑔(𝑠|𝜎) 𝑓(𝑥 − 𝑠) − ∑𝑠𝜖𝑅2 |∇2 𝑔(𝑠|𝜎)| 𝑓(𝑥 − 𝑠) (4) Gọi 𝐺1 (𝜎) = ∑𝑠𝜖𝑅1 ∇2 𝑔(𝑠|𝜎) và 𝐺2 (𝜎) = ∑𝑠𝜖𝑅2 |∇2 𝑔(𝑠|𝜎)| là tổng của các trọng số của hai vùng được mô tả ở hình 3 (a). Trong bài báo gốc, hai giá trị trọng số trung bình là 𝜇1 (𝑥), 𝜇2 (𝑥) được tính như phương trình (5), minh hoạ ở hình 3 (b). Và thực tế là Zero-norm LoG được đề xuất để tìm các điểm khoá chung cho các trường hợp. 1 𝜇1 (𝑥) = ∑𝑠𝜖𝑅1 ∇2 𝑔(𝑠|𝜎) 𝑓(𝑥 − 𝑠) (5) 𝐺1 (𝜎) 1 2 𝜇2 (𝑥) = ∑𝑠𝜖𝑅2 |∇ 𝑔(𝑠|𝜎)| 𝑓(𝑥 − 𝑠) 𝐺2 (𝜎) Để đảm bảo tính bất biến về độ sáng, thuật toán Zero-norm LoG đề xuất nhúng hai giá trị 𝜇1 (𝑥), 𝜇2 (𝑥) (5) vào phương trình (4) để thu được phương trình (6) như sau: h(x) = ∑𝑠𝜖𝑅1 ∇2 𝑔(𝑠|𝜎) 𝒔𝒈𝒏�𝑓(𝑥 − 𝑠) − 𝜇2 (𝑥)� + ∑𝑠𝜖𝑅2 |∇2 𝑔(𝑠|𝜎)| 𝒔𝒈𝒏( 𝜇1 (𝑥) − 𝑓(𝑥 − 𝑠)) (6) với hàm sgn() được tính theo công thức (7). 1, 𝑛ế𝑢 𝑧 > 0 𝐬𝐠𝐧(𝐳) = � 0, 𝑛ế𝑢 𝑧 = 0 (7) −1, 𝑛ế𝑢 𝑧 < 0 Kết quả thực nghiệm của Zero-norm LoG [10] được trực quan hoá qua hình 4. Hình 4. (a) Ảnh đầu vào, (b) Kết quả đầu ra với thuật toán LoG, (c) Kết quả đầu ra với thuật toán MSER, (d) Kết quả đầu ra với thuật toán Zero-norm LoG [10]
- Nguyễn Đình Công, Hoàng Văn Quý 185 IV. ĐỀ XUẤT THUẬT TOÁN BẤT BIẾN VỚI ĐỘ SÁNG THỜI GIAN THỰC CHO TEXT A. Thích ứng Zero-norm LoG với bài toán nhận dạng text Trong nghiên cứu này, chúng tôi thiết kế thuật toán Zero-norm LoG cho bài toán nhận dạng text trong ảnh. Đề xuất của chúng tôi được lấy cảm hứng từ nghiên cứu [8] thông qua việc sử dụng mô hình stroke. Để tiện cho việc theo dõi, chúng tôi điểm qua mô hình stroke. Như đã biết, đầu ra của phép tích chập giữa tín hiệu đầu vào với hàm số LoG phụ thuộc vào tham số 𝜎. Khi 𝜎 nhỏ, kết quả đầu ra trả về biên của tín hiệu thông qua việc dò điểm 0 (zero-crossing). Ngược lại, khi 𝜎 lớn kết quả đầu ra trả về cấu trúc tương tự blob. Hình 5 minh hoạ cho lập luận này. Hình 5. Đầu ra khi tích chập hàm LoG tại các giá trị tỉ lệ 𝜎 khác nhau (a) với hàm bước nhảy (b) với hàm hộp độ rộng w= 21 [8] Kỹ thuật tìm các vùng blob có thể được biểu diễn bằng các quá trình tìm điểm khoá với giá trị biên độ lớn nhất nhờ các kỹ thuật đặt ngưỡng. Để loại bỏ các điểm lân cận, kỹ thuật non-maximum suppression (NMS) được sử dụng. Vùng blob được mô tả bằng điểm khoá là tâm của đường tròn bán kính 𝑟 = √2𝜎. Toàn bộ quá trình có thể được minh hoạ thông qua hình 6. Để đảm bảo thuật toán bất biến với tỉ lệ 𝜎 thì một tập các giá trị của 𝜎 sẽ được sử dụng. Hình 6. Mô hình tổng quát của ứng dụng dựa vào biến thể của hàm số LoG [8] Trong các ứng dụng text, các ký tự xuất hiện với các độ rộng khác nhau được tạo nên bởi đường bao stroke. Mô hình stroke đưa ra phương trình (8) liên hệ giữa độ rộng của ký tự xác định duy nhất 1 giá trị 𝜎 [8]. 1 𝑘 2 −1 𝜎𝑠 = �2ln(𝑘) 𝑤 (8) 2𝑘 Thông thường 𝑘 = √2 được sử dụng trong thực nghiệm [12]. Điều này đồng nghĩa với việc giá trị 𝜎𝑠 tối ưu quá trình dò các điểm khoá ứng dụng trong nhận dạng text của ảnh. Quay lại với phương trình (5), chúng tôi đề xuất sử dụng công thức (8) để tìm các giá trị 𝜎𝑠 thông qua một độ rộng nhất định W, ta thu được giá trị độ rộng của vùng ||𝑅2 || ≈ 𝑊. Và hai giá trị 𝜇1 (𝑥), 𝜇2 (𝑥) đặc tính hoá quá trình chuyển dịch giữa chủ thể/nền (foreground/background) tại độ rộng của ký tự được dò tìm. Đây là điểm mấu chốt là tính đoán sự thay đổi độ sáng trong vùng ảnh cụ thể. Giả sử a là biên độ của vùng đó, thì a = 𝜇2 (𝑥) − 𝜇1 (𝑥), minh hoạ ở hình 3 (b). Hình 7. (a) Ảnh đầu vào, (b) Kết quả thu được với hàm LoG, (c) Kết quả thu được với hàm Zero-norm LoG
- 186 PHÁT TRIỂN CÁC THUẬT TOÁN SỬ DỤNG HÀM LOG CHO ỨNG DỤNG NHẬN DẠNG CHỮ TRONG ẢNH… Chúng tôi sử dụng mô hình stroke kết hợp với thuật toán Zero-norm LoG cho kết quả thực nghiệm minh hoạ như hình 7. Với ảnh đầu vào có sự chuyển dịch giữa vùng chủ thể/nền tương đối nhỏ. Hàm số LoG cho đầu ra số lượng điểm khoá ít hơn, vì nhiều vùng bị mất không thể dò được. Tuy nhiên, khi dùng Zero-norm LoG cho text, kết quả là tương đối tốt khi mọi vùng trên ký tự đều có thể phát hiện được. Chú ý rằng sử dụng mô hình stroke, các điểm khoá tìm được có toạ độ nằm ở trung tâm nét ký tự và độ lớn bán kính các blob thu được biến đổi theo giá trị 𝜎𝑠 theo độ rộng của từng ký tự. B. Thuật toán thời gian thực Khi thực hiện phép tích chập của ảnh đầu vào với hàm số LoG từ phương trình (2) thì độ phức tạp của thuật toán là O(N𝜔2 ) với N và 𝜔2 lần lượt là kích thước của ảnh và mặt nạ của hàm LoG theo thứ tự đó. Khi thực hiện việc dò tìm các điểm khoá trên không gian tỉ lệ, ta yêu cầu một tập hợp các giá trị với kích thước mặt nạ khác nhau. Với giá trị 𝜔 tăng dần, độ phức tạp tăng khiến cho thuật toán LoG không tương thích với xử lý thời gian thực. Để tối ưu quá trình này, việc xấp xỉ hàm số LoG bởi hàm số DoG (9) được nhiều nghiên cứu sử dụng [12], hình 8. 𝑔(𝑥, 𝑦|𝑘𝜎) – 𝑔(𝑥, 𝑦|𝜎) ≈ (𝑘 − 1)𝜎 2 ∇2 𝑔(𝑥, 𝑦, |𝜎) (9) Hình 8. Hình mô tả việc lấy xấp xỉ hàm số LoG bởi hàm số DoG với các giá trị tham số k khác nhau Việc xấp xỉ hàm số LoG bởi hàm số DoG theo mô tả ở phương trình (9) giảm độ phức tạp của thuật toán từ O(N𝜔2 ) xuống O(N𝜔) nhờ dựa vào tính chất tách được của hàm Gaussian (1). Tuy nhiên, khi độ lớn của mặt nạ tăng thì giá trị O(N𝜔) vẫn lớn, và không thích hợp với các ứng dụng thời gian thực. Nhiều nghiên cứu đã triển khai để tiếp tục xấp xỉ hàm Gaussian và một trong số đó là sử dụng một số hàm hộp (box function) [13]. Các nghiên cứu cho rằng với số lượng số hộp n = 3 trở lên là đã có thể xấp xỉ được 1 hàm Gaussian. Như vậy, chúng ta hoàn toàn có thể xấp xỉ hàm số DoG thông qua một tập các hàm hộp như phương trình (10) được biết như hàm số RT-LoG, 𝑔(𝑥, 𝑦|𝑘𝜎) – 𝑔(𝑥, 𝑦|𝜎) ≈ 𝑔(𝑥, 𝑦|𝑘𝜎�) – 𝑔(𝑥, 𝑦|𝜎�) ≈ ∑𝑛𝑖=1 𝜆𝑖 Π𝑖 − ∑𝑛𝑗=1 𝜆𝑗 Π𝑗 (10) với n là số lượng các box để xấp xỉ một hàm Gaussian, thông thường n 𝜖 [3,6], 𝜆𝑖 , 𝜆𝑗 lần lượt là các hệ số tương ứng với độ rộng của các hàm box Π𝑖 , Π𝑗 . Giá trị 𝜎� tính được từ quá trình xấp xỉ với 𝜎 ≈ 𝜎�, minh hoạ ở hình 9 (a). Hình 9. (a) Các tập hàm hộp xấp xỉ 2 hàm Gaussian ứng 𝜎� và k𝜎�, (b) hàm hộp dễ dàng tính được sử dụng kĩ thuật tích phân ảnh, với mỗi giá trị của hộp, ta chỉ cần thực hiện phép tính lấy giá trị của ví dụ (𝑠12 + 𝑠12 ) − (𝑠12 + 𝑠12 ) Quá trình thực hiện phép nhân tích chập của ảnh đầu vào 𝑓(𝑥, 𝑦) được thực hiện thông qua phương trình (11). Tuy nhiên ở vế phải của phương trình (11) chúng ta hoàn toàn có thể sử dụng kỹ thuật tích phân ảnh hình 9 (b) và đưa độ phức tạp của thuật toán về giá trị O(N). Thuật toán RT-LoG trở nên độc lập, không phụ thuộc vào kích thước của mặt nạ. (𝑔(𝑥, 𝑦|𝑘𝜎�) – 𝑔(𝑥, 𝑦|𝜎�))⊗ 𝑓(𝑥, 𝑦) = ∑𝑛𝑖=1 𝜆𝑖 Π𝑖 ⊗ 𝑓(𝑥, 𝑦) − ∑𝑛𝑗=1 𝜆𝑗 Π𝑗 ⊗ 𝑓(𝑥, 𝑦) (11)
- Nguyễn Đình Công, Hoàng Văn Quý 187 Quá trình tính toán xấp xỉ các thuật toán nhằm mục đích tối ưu về thời gian xử lý thông qua việc đơn giản hoá các thuật toán trong khi vẫn duy trì được độ chính xác trong ngưỡng cho phép được biết như thuật toán phân tầng (cascade methodology) LOG ≈ DoG ≈ RT − LoG nhằm giảm độ phức tạp của thuật toán từ O(N𝜔2 ) xuống O(N). Chúng tôi đưa ra thí nghiệm ở bảng 2 tốc độ khung hình trên giây (FPS) khi sử dụng thuật toán RT-LoG với các độ phân giải của ảnh khác nhau, sử dụng các kỹ thuật lập trình song song đa luồng/lõi. Bảng 2. Tốc độ khung hình (FPS) với thuật toán RT-LoG với các ảnh có độ phân giải khác nhau, thí nghiệm được triển khai bằng ngôn ngữ C++ trên máy tính MacOS Intel ® Core i7-4770HQ CPU 2.2 GHz Độ phân giải Tốc độ FPS trung bình Tốc độ FPS tối thiểu Full-HD (1920 x 1080) pixels 57 46.5 Quad-HD (2560 x 1440) pixels 29.6 25.75 4K (3840 x 2160) pixels 13.6 11 Tiếp theo, chúng ta sẽ thảo luận cách thức để tối ưu thuật toán Zero-norm LoG được mô tả trong phương trình (6). Để tiện cho việc theo dõi phương trình (6) sẽ được nhắc lại dưới đây. h(x) = ∑𝑠𝜖𝑅1 ∇2 𝑔(𝑠|𝜎) 𝑠𝑔𝑛�𝑓(𝑥 − 𝑠) − 𝜇2 (𝑥)� + ∑𝑠𝜖𝑅2|∇2 𝑔(𝑠|𝜎)| 𝑠𝑔𝑛( 𝜇1 (𝑥) − 𝑓(𝑥 − 𝑠)) (6) Thành phần ∇2 𝑔(𝑠|𝜎) trên công thức là trọng số của hàm số LoG ở 2 vùng R1, R2 như đã mô tả ở Phần III có thể được tính toán ngoại tuyến (offline), trong khi đó hàm số f(x-s) tương ứng với tín hiệu của ảnh. Vấn đề cốt lõi trong phương trình (6) là tính toán hai thành phần 𝜇1 (𝑥), 𝜇2 (𝑥) và sau đó là so sánh với tín hiệu ảnh f(x-s) nhằm mục đích tính hàm số sgn(). 𝜇1 (𝑥), 𝜇2 (𝑥) có thể dựa vào quá trình xấp xỉ hàm Gaussian bởi tập các hàm hộp và tích phân ảnh. Nhằm cho thuật toán bất biến với phép tỉ lệ, một tập các giá trị 𝜎 = [𝜎1 , … 𝜎𝑖 ] cần phải được tính toán. Như phân tích ở trên, mỗi giá trị 𝜎𝑖 cần tối thiểu 3 hộp để xấp xỉ. Theo công bố tại [8], số hộp 5 hộp để xấp xỉ 𝜎𝑖 để có thể đáp ứng tốt được hai tiêu chí về thời gian xử lý và độ chính xác. Bên cạnh đó, kỹ thuật tối ưu số hộp tại nghiên cứu này sẽ được áp dụng để tăng tốc quá trình xấp xỉ để tính giá trị của 𝜇1 (𝑥), 𝜇2 (𝑥) đáp ứng với yêu cầu về thời gian xử lý. Tương ứng với việc tính trên chúng ta cần phải kết hợp với một toán tử trừ |𝜇𝑖 (𝑥) − 𝑓(𝑥 − 𝑠)|. Việc tính toán này có thể hoàn toàn xử lý bằng véc tơ hoá và thực hiện kỹ thuật lập trình song song nhằm tăng tốc quá trình tính toán. Thông qua các mô hình lý thuyết này, việc biến đổi thuật toán Zero-norm LoG với độ phức tạp lớn không thoả mãn các yêu cầu về thời gian thực thành thuật toán ứng dụng cho việc nhận dạng text trong ảnh đồng thời đáp ứng được ưu cầu về thời gian thực. V. TỔNG KẾT Trong nghiên cứu này, chúng tôi tập trung vào các thuật toán phát hiện các đặc trưng mức thấp sử dụng cho việc nhận dạng text bên trong ảnh. Những đóng góp của bài báo là tổng hợp và thảo luận tất cả các hướng nghiên cứu gần đây với các thuật toán là biến thể của hàm số LoG cho bài toán nhận dạng text với ưu tiên cho các thuật toán có độ phức tạp thấp nhằm hỗ trợ cho các ứng dụng yêu cầu thời gian thực. Zero-norm LoG là một thuật toán dò đặc trưng mức thấp của ảnh, thoả mãn tính bất biến với độ sáng tuy nhiên độ phức tạp của thuật toán cao. Bằng các nghiên cứu, chúng tôi đã chứng minh được rằng thuật toán này có thể được tích hợp để thích ứng với bài toán nhận dạng text thông qua các mô hình lý thuyết như: mô hình stroke, mô hình xấp xỉ hàm Gaussian. Việc xây dựng thuật toán thông qua việc xấp xỉ hàm Gaussian nhằm đảm bảo thuật toán thoả mãn tính bất biến với tỉ lệ, đáp ứng được yêu cầu về thời gian xử lý. Việc thiết kế một thuật toán dò đặc trưng mức thấp của ảnh thoả mãn các điều kiện bất biến và đáp ứng được yêu cầu thời gian thực đóng vai trò quan trọng trong cộng đồng nghiên cứu xử lý ảnh cơ bản nói chung. Những nghiên cứu tiếp theo có thể sử dụng để phát triển các ứng dụng nhận dạng text trong ảnh trên các thiết bị có năng lực xử lý phần cứng yếu với độ chính xác cao. TÀI LIỆU THAM KHẢO [1] Q. Ye and D. Doermann, “Text detection and recognition in imagery: a survey”, PAMI, vol. 37, No. 7, pp. 1480-1500, 2015. [2] S. Long, X. He and C. Ya, “Scene text detection and recognition: the deep learning era”, arXiv:1811.04256, 2018. [3] M. Busta, L. Neumann and J. Matas, “ Fastext: efficient uncon- strained scene text detector.”, ICCV, 2015. [4] H. Cho, M. Sung and B. Jun, “Canny text detector: Fast and robust scene text localization algorithm”, CVPR, 2016. [5] B. Epshtein and E. Ofek, “Detecting text in natural scenes with stroke width transform”, CVPR, 2010. [6] X. Girones and C. Julia, “Real-time text localization in natural scene images using a linear spatial lter”, ICDAR, 2017. [7] L. Gomez and D. Karatzas, “MSER-based real-time text detection and tracking”, ICPR, 2014.
- 188 PHÁT TRIỂN CÁC THUẬT TOÁN SỬ DỤNG HÀM LOG CHO ỨNG DỤNG NHẬN DẠNG CHỮ TRONG ẢNH… [8] N. D. Cong, M. Delalandre, D. Conte and P. The Anh, “Fast RT‐LoG operator for scene text detection”, JRTIP, vol. 18, No. 1, pp. 19-36, 2021. [9] Y. Liu, D. Zhang, Y. Zhang and S. Lin., “Real-time scene text detection based on stroke model”, ICPR, pp. 3116-3120, 2014. [10] Z. Miao, X. Jiang and K. Yap, “Contrast invariant interest point detection by zero-norm log filter”, TIP, vol. 25, pp. 331-342, 2016. [11] H. Kong, H. Akakin and S. Sarma, “A generalized laplacian of gaussian filter for blob detection and its applications”, Transactions on Cybernetics, vol. 43, No. 6, pp. 1719-1733, 2013. [12] N. D. Cong, M. Delalandre, D. Conte and P. The Anh, “Performance Evaluation of Real-time and Scale-invariant LoG Operators for Text Detection”, VISAPP, pp. 344-353, 2019. [13] E. Elboher and M. Werman, “Efficient and accurate Gaus- sian image filtering using running sums”, ISDA, p. 897-902, 2011. DEVELOPING LOG-BASED OPETERTORS FOR REAL-TIME SCENE TEXT DETECTION Nguyen Dinh Cong, Hoang Van Quy ABSTRACT: In this paper, operators for scene text detection are discussed with a particular attention on real-time LoG- based operators. All the recent trends of the LoG-based operators dealing with adaptation to the scene text detection problem are brought together. In addition, the Zero-norm LoG operator is a contrast-invariant and high complexity operator demonstrated that it could be adapted to the scene text detection problem with a real-time constraint while applying the fast Gaussian filtering strategy.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Phát triển thuật toán chữ ký số dựa trên hệ mã Poligh - Hellman
6 p | 552 | 511
-
Giáo trình thiết kế và đánh giá thuật toán - Trần Tuấn Minh
122 p | 485 | 201
-
7 Tin học hóa và quản lí
48 p | 240 | 72
-
Phát triển thuật toán mã hóa – xác thực thông tin từ OTP Cipher
8 p | 119 | 69
-
Thuật toán mã hóa – xác thực thông tin phát triển từ mật mã OTP
7 p | 188 | 20
-
Giáo trình Phát triển ứng dụng web: Phần 1 - Lê Đình Thanh, Nguyễn Việt Anh
100 p | 77 | 14
-
Kỹ thuật lập trình java nâng cao: Phần 2
171 p | 43 | 12
-
Giáo trình Phát triển ứng dụng web: Phần 2 - Lê Đình Thanh, Nguyễn Việt Anh
126 p | 37 | 11
-
Xác định thông lượng của kết nối TCP có áp dụng thuật toán điều khiển tránh tắc nghẽn
8 p | 97 | 8
-
Xu thế và sự phát triển ở Việt Nam
4 p | 49 | 7
-
Chương 10-Phân tích thuật toán
10 p | 69 | 6
-
Bài giảng Phát triển hệ thống thông tin (IS Development) - Chương 0: Giới thiệu môn học
28 p | 88 | 6
-
Phát triển các kỹ năng cần thiết cho sinh viên ngành công nghệ thông tin trong thời kỳ hội nhập
5 p | 54 | 4
-
Giải pháp phát triển thuật toán mật mã khóa đối xứng từ các hệ mã lũy thừa và mã OTP
8 p | 44 | 4
-
Phát triển thuật toán chữ ký số dựa trên hệ mã Pohlig - Hellman
6 p | 100 | 4
-
Phương pháp mới giải bài toán người bán hàng sử dụng thuật toán Runner – Root
5 p | 52 | 3
-
Bài giảng Phát triển ứng dụng web: Chương 0 - Lê Đình Thanh
10 p | 14 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn