AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108<br />
<br />
<br />
<br />
<br />
XÂY DỰNG CÔNG CỤ HỖ TRỢ ĐỌC XUẤT BẢN PHẨM LƯU CHIỂU<br />
DỰA TRÊN PHƯƠNG PHÁP ĐỐI SÁNH ẢNH TÀI LIỆU<br />
<br />
Phạm Thị Minh Thư1, Lê Việt Phương1<br />
1<br />
Trường Cao đẳng nghề An Giang<br />
2<br />
Sở Thông Tin và Truyền Thông Tỉnh An Giang<br />
<br />
Thông tin chung: ABSTRACT<br />
Ngày nhận bài: 01/10/2018<br />
Ngày nhận kết quả bình duyệt: The research was carried out in many stages such as local features<br />
14/11/2018 extraction image, then segmenting the image by DBSCAN algorithm<br />
Ngày chấp nhận đăng: (Density-Based Spatial Clustering of Application with Noise), clustering<br />
08/2019 local features and comparing each document image area to matching local<br />
Title: features algorithms (SIFT, SURF). Finally, determining the mismatched<br />
A supportive tool for reading areas, wrong positions of licensing printing and has been printed document<br />
depository publications based images. The propose method is capable to decay document images into each<br />
on document image matching separated block (title, image, paragraph, table), do not use machine<br />
learning and do not need to know the detail layout of document images<br />
Keywords:<br />
Document images matching, previously; the matching performance is more accurately because of only<br />
local feature, DBSCAN, SIFT, using each decayed image region to matching and detect the differences<br />
SURF instead of using all document images. The experimental result on 223<br />
document images were collected at “Read Depositary” part, presented the<br />
Từ khóa:<br />
accuracy of the propose method is 91%, also found the difference image<br />
Đối sánh ảnh tài liệu, gom<br />
cụm DBSCAN, đặc trưng regions between two document images and found the wrong position about<br />
SIFT, SURF layout on two document images.<br />
<br />
TÓM TẮT<br />
Nghiên cứu được thực hiện qua nhiều công đoạn như rút trích đặc trưng cục<br />
bộ cho ảnh, sau đó thực hiện phân vùng ảnh với thuật toán DBSCAN<br />
(Density-Based Spatial Clustering of Application with Noise), gom cụm các<br />
đặc trưng cục bộ và đối sánh từng vùng ảnh tài liệu với giải thuật đối sánh<br />
các đặc trưng cục bộ SIFT, SURF. Cuối cùng là xác định được các vùng bị<br />
sai khác, sai vị trí của ảnh tài liệu xin cấp phép in và ảnh tài liệu đã được in.<br />
Phương pháp nghiên cứu đưa ra có khả năng phân rã được ảnh tài liệu<br />
thành từng khối riêng biệt (tiêu đề, hình ảnh, đoạn văn bản, bảng biểu),<br />
không sử dụng máy học cũng như không cần biết trước bố cục cụ thể của ảnh<br />
tài liệu; hiệu quả đối sánh ảnh chính xác hơn vì chỉ sử dụng từng vùng ảnh<br />
đã phân rã để đối sánh và phát hiện sai khác, thay vì sử dụng toàn bộ ảnh để<br />
đối sánh. Kết quả thực nghiệm trên 223 ảnh tài liệu được thu tập tại bộ phận<br />
đọc lưu chiểu, cho thấy độ chính xác đạt được của phương pháp đề xuất là<br />
91%, và đã tìm ra được những vùng ảnh khác nhau trên hai ảnh tài liệu,<br />
cũng như tìm ra được những vùng bị sai vị trí về bố cục trên hai ảnh tài liệu.<br />
<br />
<br />
<br />
<br />
96<br />
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108<br />
<br />
<br />
<br />
1. GIỚI THIỆU 1) thực hiện việc nhận dạng logo trên ảnh tài liệu.<br />
Từ nhu cầu thực tế của bộ phận “đọc lưu chiểu” Tác giả sử dụng nhiều loại đặc trưng cục bộ khác<br />
tại Sở Thông tin và Truyền thông tỉnh An Giang nhau trong mô tả logo, định vị và nhận dạng logo<br />
cũng như việc nghiên cứu bài toán đối sánh ảnh trên ảnh tài liệu và kết quả nghiên cứu thể hiện<br />
tài liệu, chúng tôi thực hiện đề tài nghiên cứu và đặc trưng cục bộ SIFT mang lại kết quả tối ưu.<br />
xây dựng công cụ thực hiện việc đối sánh hai ảnh Tác giả I. Amerini và các cộng sự đã sử dụng đặc<br />
tài liệu với nhau nhằm phát hiện ra sự khác nhau trưng cục bộ SIFT trong nghiên cứu “A SIFT-<br />
giữa hai trang tài liệu, so sánh cả về mặt nội dung based forensic method for copy-move attack<br />
và bố cục văn bản. detection and transformation recovery” (Amerini,<br />
Ballan, Caldelli, Del Bimbo, & Serra, 2011, tr. 1)<br />
Trong hai hướng tiếp cận của bài toán đối sánh<br />
với mục tiêu phát hiện ra các vùng ảnh bị sao<br />
ảnh về đặc trưng toàn cục (Global feature (Kyrki,<br />
chép. Tác giả Olivier Augereau a và cs. với<br />
2002; Lim & Galoogahi, 2010; Raoui, Houssine<br />
nghiên cứu “Semi-structured document image<br />
BOUYAKHF, Devy, & Regragui, 2011)) và đặc<br />
matching and recognition” (Augereau, Journet, &<br />
trưng cục bộ (Local feature (Kyrki 2002; Lê Việt<br />
Domenger, 2013, tr. 1) về đối sánh và nhận dạng<br />
Phương, 2015; Raoui et al. 2011)). Chúng tôi đi<br />
ảnh tài liệu cũng đã trình bày về việc sử dụng đặc<br />
sâu nghiên cứu hướng tiếp cận đối sánh ảnh tài<br />
trưng cục bộ SIFT trong đối sánh và nhận dạng<br />
liệu dựa trên các đặc trưng cục bộ SIFT (Lowe,<br />
ảnh tài liệu. Trong nghiên cứu “Image Matching<br />
1999; Lê Việt Phương, Nayef, Visani, Ogier, &<br />
Using SIFT, SURF, BRIEF and ORB:<br />
Trần Cao Đệ, 2014). SIFT được nhiều nghiên cứu<br />
Performance Comparison for Distorted Images”<br />
của các nhà khoa học dùng rộng rãi để trích xuất<br />
(Karami, Prasad, & Shehata, 2015, tr. 1) thực hiện<br />
và mô tả các điểm đặc trưng do nó có những đặc<br />
nghiên cứu đối sánh ảnh sử dụng các đặc trưng<br />
điểm như: Bất biến với độ co, phép quay, một<br />
cục bộ SIFT, SURF, BRIEF và ORB trong trường<br />
phần phép biến đổi affine và mạnh với những thay<br />
hợp ảnh bị biến dạng. Kết quả trình bày trong<br />
đổi về độ sáng, sự che khuất và nhiễu. Bên cạnh<br />
nhiều trường hợp thì kỹ thuật ORB mang lại hiệu<br />
đó giải thuật gom cụm DBSCAN (Atrayee Dhua,<br />
suất nhanh nhất về mặt thời gian, tuy nhiên về tỉ<br />
Sarma, Singh, & Roy, 2015; Ester, Xu, Kriegel, &<br />
lệ chính xác thì kỹ thuật SIFT mang lại hiệu quả<br />
Sander, 1996), thực hiện gom cụm các đặc trưng<br />
cao hơn.<br />
cục bộ sẽ được nghiên cứu cho việc phân vùng<br />
ảnh tài liệu, thành các cụm theo bố cục cụ thể của Với bài toán trên từ nhu cầu thực tiễn và các công<br />
từng đối tượng trong trang ảnh tài liệu, kết quả sẽ trình nghiên cứu trước về đối sánh ảnh sử dụng<br />
chia ảnh tài liệu thành nhiều vùng cụ thể theo đặc trưng cục bộ. Chúng tôi thực hiện nghiên cứu<br />
từng đối tượng trong ảnh tài liệu. đối sánh ảnh tài liệu với phương pháp sử dụng các<br />
đặc trưng cục bộ, thực hiện việc đối sánh với hai<br />
Trong các công trình nghiên cứu về đối sánh ảnh<br />
mục tiêu chính. Thứ nhất là xác định xem trong<br />
với đặc trưng cục bộ như của tác giả Lê Việt<br />
hai ảnh tài liệu có những vùng nào bị khác nhau<br />
Phương với nghiên cứu “Logo detection,<br />
không. Thứ hai có vùng nào trên ảnh tài liệu bị sai<br />
recognition and spotting in context by matching<br />
vị trí không.<br />
local visual features” (Lê Việt Phương, 2015, tr.<br />
<br />
<br />
<br />
<br />
97<br />
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108<br />
<br />
2. PHƯƠNG PHÁP NGHIÊN CỨU<br />
2.1 Mô hình đề xuất<br />
<br />
<br />
<br />
<br />
Hình 1. Mô hình đề xuất đối sánh ảnh tài liệu<br />
2.2 Trích chọn đặc trưng cục bộ SIFT chọn dựa trên việc đo lường tính ổn định của<br />
SIFT (Scale invariant Feature Trasnorm) chúng.<br />
(Rusiñol & Lladós 2009; Lê Việt Phương, 2015) • Xác định hướng cho các điểm hấp dẫn<br />
là đặc trưng cục bộ bất biến đối với những phép (Orientation assignment): Một hoặc nhiều<br />
biến đổi tỉ lệ, tịnh tiến, phép quay và không đổi hướng được gán cho mỗi vị trí điểm hấp dẫn<br />
một phần đối với những thay đổi góc nhìn; đồng dựa trên hướng gradient cục bộ của ảnh.<br />
thời nó cũng rất mạnh với những thay đổi về độ • Mô tả các điểm hấp dẫn (Key-point<br />
sáng, sự che khuất, nhiễu. Phương pháp rút trích descriptor): Các gradient ảnh cục bộ được<br />
đặc trưng SIFT có thể được tóm tắt như sau: xác định ở tỷ lệ được chọn trong vùng bao<br />
• Phát hiện các điểm cực trị Scale-Space quanh mỗi điểm hấp dẫn. Các gradient được<br />
(Scale-Space extrema detection): Sử dụng biểu diễn sang một dạng mà cho phép bất<br />
hàm sai khác Gausian (Different-of- biến với sự thay đổi về hình dạng và điều<br />
Gaussian) để xác định tất cả các điểm hấp kiện chiếu sáng.<br />
dẫn tiềm năng mà bất biến với quy mô và Hình 2 là mô phỏng biên độ gradient của hướng<br />
hướng của ảnh. tại mỗi mẫu ảnh trong một vùng lân cận với điểm<br />
• Định vị các điểm hấp dẫn (key-point hấp dẫn. Mỗi điểm hấp dẫn sau khi được xác định<br />
localization): Ứng với mỗi vị trí tiềm năng, hướng sẽ được mô tả dưới dạng một vec-tor đặc<br />
hàm kiểm tra sẽ được đưa ra để quyết định trưng có 4 x 4 x 8=128 chiều.<br />
xem các điểm hấp dẫn tiềm năng có được lựa<br />
<br />
<br />
<br />
<br />
98<br />
AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108<br />
<br />
<br />
<br />
<br />
Hình 2. Ví dụ mô tả SIFT trong vùng kích thước 4 x 4 x 8<br />
2.3 Phân cụm các đặc trưng với giải thuật DBSCAN (Ester & cs., 1996; Yaikhom, 1996)<br />
DBSCAN xác định số lượng các cụm một cách tự động và<br />
Density-Based Spatial Clustering of Application các cụm có hình dạng bất kỳ, điều này phù hợp<br />
with Noise (DBSCAN) là giải thuật phân cụm dựa với bất kỳ đối tượng nào trong ảnh tài liệu khi tiến<br />
trên mật độ đề xuất bởi Ester, Kriegel và Sander hành phân rã ảnh tài liệu. Việc phân cụm các đặc<br />
vào năm 1996. DBSCAN sử dụng hai tham số: trưng cục bộ giúp chúng ta tìm ra được các khối<br />
Khoảng cách (eps) và số điểm ít nhất cần có để cho từng đối tượng trong ảnh tài liệu như: đoạn<br />
thành một cụm MinPts. Không giống như giải văn bản, ảnh, bảng biểu…<br />
thuật phân cụm dựa trên khoảng cách khác,<br />
<br />
<br />
<br />
<br />
Hình 3. Kết quả phân cụm bởi giải thuật DBSCAN (mỗi cụm một màu).<br />
Thuật toán DBSCAN có thể tìm ra các cụm với chi tiết đối tượng cụ thể như ảnh, đoạn văn bản,<br />
hình thù bất kỳ, trong khi đó tại cùng một thời bảng biểu, logo.... Như trong hình 4(a) cho thấy<br />
điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng được có những vùng ảnh được phân vùng chưa<br />
dữ liệu nhập vào. Khi có một đối tượng được chèn chính xác như vùng được đánh dấu số 1, 2 và<br />
vào chỉ tác động đến một láng giềng xác định. Eps được bao màu xanh. Khi đó để việc phân đoạn<br />
và MinPts là hai tham số toàn cục được xác định ảnh mang lại độ chính xác cao, phân vùng được<br />
bằng thủ công hoặc theo kinh nghiệm. Tham số từng đối tượng ảnh, đoạn văn bản... chúng tôi đã<br />
Eps được đưa vào là nhỏ so với kích thước của xử lý thêm cho những vùng được tô màu xanh<br />
không gian dữ liệu, thì độ phức tạp tính toán trung bằng cách kiểm tra nếu những phân đoạn ảnh có<br />
bình của mỗi truy vấn là O(nlogn). kích thước lớn hơn 1/5 của ảnh tài liệu thì cần<br />
Trong thực nghiệm trên giá trị