TRƯỜNG ĐẠI HỌC QUỐC TẾ SÀI GÒN

KHOA CÔNG NGHỆ THÔNG TIN

-----------------------

PHẠM THỊ QUỲNH - TRẦN LÊ HẢI BÌNH

NHẬN DẠNG VÂN MẠCH MÁU LÒNG BÀN TAY DỰA

VÀO ĐẶC TRƯNG HƯỚNG ĐƯỜNG VÂN CỤC BỘ VÀ ĐẶC

TRƯNG SIFT CẢI TIẾN

BÁO CÁO NGHIÊN CỨU KHOA HỌC LẦN 3 - 2021

TP. HỒ CHÍ MINH - 2021

TRƯỜNG ĐẠI HỌC QUỐC TẾ SÀI GÒN

KHOA CÔNG NGHỆ THÔNG TIN



PHẠM THỊ QUỲNH - TRẦN LÊ HẢI BÌNH

NHẬN DẠNG VÂN MẠCH MÁU LÒNG BÀN TAY DỰA

VÀO ĐẶC TRƯNG HƯỚNG ĐƯỜNG VÂN CỤC BỘ VÀ ĐẶC

TRƯNG SIFT CẢI TIẾN

BÁO CÁO NGHIÊN CỨU KHOA HỌC LẦN 3 - 2021

NGƯỜI HƯỚNG DẪN

TS. VĂN THIÊN HOÀNG

THS. VÕ ANH TIẾN

TP. HỒ CHÍ MINH - 2021

LỜI CAM ĐOAN

Tôi xin cam đoan báo cáo nghiên cứu khoa học với đề tài: “Nhận dạng vân

mạch máu lòng bàn tay dựa vào đặc trưng hướng đường vân cục bộ và đặc trưng

sift cải tiến” là công trình nghiên cứu của riêng chúng tôi.

Các trích dẫn, tham khảo trong quá trình nghiên cứu đều được trích dẫn đầy đủ,

ghi rõ nguồn gốc.

Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ sao chép không hợp lệ, vi

phạm quy chế đào tạo.

Người thực hiện

Phạm Thị Quỳnh – Trần Lê Hải Bình

LỜI CẢM ƠN

Lời đầu tiên em xin gửi lời cảm ơn đến Ban lãnh đạo, toàn thể quý Thầy, Cô

giảng viên Trường Đại học Quốc tế Sài Gòn đã tận tạo điệu kiện và cơ hội để chúng

em được tham dự một cuộc thi trí tuệ, chuyên nghiệp và sáng tạo.

Em xin gửi lời cảm ơn sâu sắc đến thầy TS. Văn Thiên Hoàng và thầy ThS.

Võ Anh tiến đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi và chỉ bảo chúng em

trong suốt thời gian làm nghiên cứu khoa học.

Tuy vậy, do thời gian có hạn, mặc dù đã cố gắng hết sức nhưng chắc rằng bài

nghiên cứu khoa học không tránh khỏi sự thiếu sót. Chúng em rất mong nhận được

sự thông cảm và chỉ bảo tận tình của quý Thầy Cô và các bạn.

Trân trọng cảm ơn.

Phạm Thị Quỳnh – Trần Lê Hải Bình

MỤC LỤC

DANH MỤC TỪ VIẾT TẮT .................................................................................. 7

DANH MỤC BẢNG ............................................................................................... 9

DANH MỤC HÌNH ẢNH ..................................................................................... 10

TÓM TẮT ......................................................................................................... 12

CHƯƠNG 1 TỔNG QUAN .................................................................................. 13

1.1 Giới thiệu chung ....................................................................................... 13

1.2 Hệ thống nhận dạng vân mạch máu lòng bàn tay ...................................... 17

1.3 Mục tiêu đề tài .......................................................................................... 26

1.4 Phương pháp nghiên cứu .......................................................................... 26

1.5 Đặc trưng và phạm vi nghiên cứu ............................................................. 27

1.6 Cấu trúc báo cáo ....................................................................................... 27

CHƯƠNG 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ......................... 29

2.1 Bộ lọc MFRAT ........................................................................................ 29

2.2 Các đặc trưng mẫu nhị phân cục bộ .......................................................... 30

2.3 Đặc trưng dẫn xuất cục bộ (Local derivative pattern - LDP) ..................... 35

2.4 Các đặc trưng cục bộ bất biến ................................................................... 36

CHƯƠNG 3 PHƯƠNG PHÁP ĐỀ XUẤT ............................................................ 62

3.1 Ý tưởng .................................................................................................... 62

3.2 Thuật toán ................................................................................................ 62

CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM ............................................................ 66

4.1 Cơ sở dữ liệu thực nghiệm ........................................................................ 66

4.2 Kết quả thực nghiệm ................................................................................ 66

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN......................................... 69

5.1 Kết luận .................................................................................................... 69

5

5.2 Kiến nghị.................................................................................................. 69

TÀI LIỆU THAM KHẢO ..................................................................................... 70

6

DANH MỤC TỪ VIẾT TẮT

TỪ NỘI DUNG DIỄN GIẢI

NIR Near-infrared Ánh sáng hồng ngoại

ATM Automated Teller Machine Máy rút tiền tự động

DNA Deoxyribonucleic acid Phân tử mang thông tin di truyền

PDA Personal Digital Assistant Thiết bị kỹ thuật số hỗ trợ cá nhân

CCD Charge Coupled Device Cảm biến CCD

ROI Region of interest Vùng quan tâm

LDP Local derivative pattern Đặc trưng dẫn xuất cục bộ

LBP Local binary pattern Mẫu nhị phân cục bộ

MFRAT Modified Finite Radon Transform Biến đổi radon hữu hạn

Đặc trưng biến đổi bất biến theo tỉ SIFT Scale-invariant feature transform lệ

SURF Speeded up robust feature Đặc trưng cải thiện tốc độ

Affine scale invariant feature Đặc trưng biến đổi bất biến theo tỉ ASIFT lệ affin transform

Root Scale-invariant feature Bộ mô tả SIFT nâng cao RootSIFT transform

Phương pháp phân tích thành PCA Principal component analysis phần chính

Two-dimensional principal Phương pháp phân tích thành 2D-PCA component analysis phần chính 2 chiều

Two-dimensional fisher Phân tích phân biệt hai chiều 2D-FDA discriminant analysis fisher

7

Enhanced centersymmetric local Mẫu nhị phân cục bộ đối xứng ECS-LBP binary pattern tâm cải tiến

Enhanced centersymmetric local Mẫu nhị phân cục bộ đối xứng EL-SIFT binary pattern with SIFT tâm cải tiến với SIFT

MLBP Multivariate Local binary pattern Mẫu nhị phân cục bộ đa biến

ELBP Enhanced local binary pattern Mẫu nhị phân cục bộ nâng cao

LBPV Local binary pattern variance Phương sai mẫu nhị phân cục bộ

DoG Difference-of-Gaussian Bộ lọc Gaussian xác định cạnh

Modified Scale-invariant feature MSIFT Đặc trưng SIFT sửa đổi transform

8

DANH MỤC BẢNG

Bảng 4.1 Cơ sở dữ liệu huấn luyện và so khớp trong thực nghiệm ........................ 67

Bảng 4.3 Hiệu suất trung bình từ tay trái của PUT ................................................ 68

Bảng 4.4 Hiệu suất trung bình từ tay phải của PUT .............................................. 68

9

DANH MỤC HÌNH ẢNH

Hình 1.1 Các đặc điểm sinh trắc học về cơ thể và hành vi. .................................... 14

Hình 1.2 Sơ đồ khối nhận diện bằng hình ảnh vân mạch máu lòng bàn tay ........... 18

Hình 1.3 Thiết bị chụp ảnh đa phổ lòng bàn tay .................................................... 19

Hình 1.4 Sáu hình ảnh vân lòng bàn tay điển hình trong cơ sở dữ liệu .................. 20

Hình 1.5 Lưu đồ của phương pháp đường tròn nối tiếp cực đại rút trích ROI ........ 21

Hình 1.6 Hình ảnh mức xám ................................................................................. 22

Hình 1.7 Hình ảnh nhị phân sau các phép toán hình thái ....................................... 22

Hình 1.8 Hình ảnh xoay ........................................................................................ 23

Hình 1.9 Cắt hình ảnh ROI ................................................................................... 24

Hình 1.10 Hình ảnh ROI vân lòng bàn tay ............................................................ 24

Hình 1.11 Hình ảnh ROI của vân mạch máu lòng bàn tay ..................................... 24

Hình 2.3 36 mẫu bất biến xoay được tạo ra bởi phép toán 𝑳𝑩𝑷𝟖, 𝑹𝒓𝒊 .................. 32

Hình 2.4 Phép đo kết cấu MLBP mô tả các mối quan hệ không gian trong một dải và

giữa các dải ........................................................................................................... 32

Hình 2.5 Sơ đồ phép toán E – LBP4,4,3 .................................................................. 34

Hình 2.6 Mẫu 8 pixel lân cận xung quanh Z0 ........................................................ 35

Hình 2.7 Hình ảnh Gaussian liền về và sau mỗi quãng tám ................................... 41

Hình 2.8 Cực đại và cực tiểu của ảnh chênh lệch Gaussian ................................... 42

Hình 2.9 Biểu đồ số điểm chính được phát hiện trong một hình ảnh điển hình dưới

dạng hàm của số lượng mẫu tỉ lệ............................................................................ 43

Hình 2.10 Dòng trên cùng trong biểu đồ hiển thị phần trăm các vị trí nổi bật được

phát hiện lặp lại trong một hình ảnh đã biến đổi dưới dạng một hàm làm mịn hình ảnh

trước đó cho mức độ đầu tiên của mỗi quãng tám. Dòng dưới hiển thị phần trăm bộ

mô tả được so khớp chính xác với cơ sở dữ liệu lớn. ............................................. 43

Hình 2.11 Cho thấy các giai đoạn lựa chọn điểm chính......................................... 47

Hình 2.12 Dòng trên cùng trong biểu đồ hiển thị phần trăm các vị trí nổi bật và tỉ lệ

được phát hiện lặp lại như một hàm của nhiễu pixel. Dòng thứ hai cho thấy độ lặp lại

sau khi yêu cầu sự thống nhất trong hướng. Dòng dưới cùng hiển thị phần trăm của

các bộ mô tả được so khớp chính xác với cơ sở dữ liệu lớn. .................................. 51

Hình 2.13 Mảng bộ mô tả 2x2 được tính toán từ một tập hợp 8x8 mẫu. ................ 52

10

Hình 2.14 Biểu đồ này cho thấy phần trăm các điểm chính cho kết quả so khớp chính

xác với cơ sở dữ liệu gồm 40.000 điểm chính dưới dạng hàm số chiều rộng của bộ

mô tả điểm chính 𝒏 × 𝒏 và số hướng trong mỗi biểu đồ. Biểu đồ được tính toán cho

hình ảnh có góc nhìn affin thay đổi 50 độ và thêm 4% nhiễu. ................................ 55

Hình 2.15 Biểu đồ này cho thấy phát hiện vị trí điểm chính ổn định, hướng và so

khớp cuối cùng với cơ sở dữ liệu như một hàm biến dạng affine. Mức độ biến dạng

affine được biểu thị theo chiều sâu của góc quay tương đương đối với một bề mặt

phẳng..................................................................................................................... 56

Hình 2.16 Các thay đổi tỉ lệ và xoay ngẫu nhiên, biến đổi affine 30 độ và nhiễu hình

ảnh thêm 2% trước khi so khớp. ............................................................................ 57

Hình 2.17 Ở bên trái cách tiếp cận sử dụng SIFT; ở bên phải cách tiếp cận MSIFT

trên vân lòng bàn tay không tiếp xúc. .................................................................... 58

Hình 3.1 Sơ đồ của phương pháp đề xuất. ............................................................. 62

Hình 3.2 (a) Đặc trưng CS-LBP với 8 điểm lân cận và (b) Đặc trưng ECS-LBP với

16 khối lân cận (các khối bao gồm 4 điểm) ............................................................ 63

Hình 3.3 (a), (e) Hình ảnh gốc của cùng một người, (b), (f) CS-LBP, (c), g) ECS-

LBP, (d) Khớp giữa (b) và (f ), và (h) So khớp giữa (c) và (g). .............................. 64

Hình 3.4 (a), (e) Hình ảnh gốc của hai người khác nhau, (b), (f) CS-LBP, (c), (g)

ECS-LBP, (d) So khớp giữa (b) và ( f), và (h) So khớp giữa (c) và (g). ................. 65

Hình 4.2 Ảnh vân mạch máu từ bàn tay trái trong cơ sở dữ liệu PUT_left_100..... 66

Hình 4.4 Ảnh vân mạch máu từ bàn tay phải trong cơ sở dữ liệu PUT_right_100 . 66

11

TÓM TẮT

Gần đây, nhận dạng vân mạch máu lòng bàn tay là công nghệ sinh trắc học

mới với mức độ riêng tư và bảo mật cao vì kỹ thuật này sử dụng các mạch máu dưới

da lòng bàn tay để thiết lập nhận dạng. Nghiên cứu đề xuất phương pháp rút trích đặc

trưng vân mạch máu lòng bàn tay mới để nhận dạng vân mạch máu lòng bàn tay

không tiếp xúc dựa trên việc kết hợp mô hình nhị phân cục bộ đối xứng trung tâm

(ECS-LBP) cải tiến với SIFT và MFRAT, được gọi là MFRAT SIFT - ECS-LBP.

Phương pháp đề xuất bao gồm hai bước: 1) áp dụng bộ lọc MFRAT để rút trích đặc

trưng hướng của đường vân. 2) Áp dụng phương pháp ECS-LBP để phát hiện các

đường vân mạch máu lòng bàn tay ổn định và rõ ràng. 3) Rút trích đặc trưng cục bộ

bất biến SIFT trên hình ảnh đường vân mạch máu lòng bàn tay. Kết quả thử nghiệm

trên cơ sở dữ liệu vân mạch máu lòng bàn tay không tiếp xúc công khai PUT cho thấy

rằng phương pháp đề xuất của đề tài đạt độ chính xác cao và mạnh mẽ để nhận dạng

vân mạch máu lòng bàn tay so với các phương pháp khác.

TP Hồ Chí Minh, ngày 14 tháng 5 năm 2021

Phạm Thị Quỳnh – Trần Lê Hải Bình

12

CHƯƠNG 1

TỔNG QUAN

1.1 Giới thiệu chung

1.1.1 Giới thiệu sinh trắc học

Trong thời đại công nghệ phát triển, việc nhận dạng cá nhân tự động được thực

hiện ngày càng nhanh chóng và dễ dàng. Công nghệ sinh trắc học ngày càng được

ứng dụng phổ biến. Ví dụ ứng dụng nhận dạng vân tay trên thiết bị di động. Ứng dụng

dụng này hết sức tiện lợi để bảo mật thiết bị di động. Theo kết quả từ một cuộc khảo

sát gần đây, sinh trắc học được người sử dụng yêu thích và ngày càng thay thế việc

sử dụng mật khẩu [1]. Sinh trắc học mang lại những lợi thế nhất định mà các cơ chế

xác thực khác không thể cung cấp. Cơ chế này gắn kết chặt chẽ giữ danh tính người

dùng với đặc điểm của người đó. Đặc điểm sinh trắc học này không bị mất và không

bị trùng lắp [2]. Sinh trắc học có khả năng chống lại các cuộc tấn công cao hơn so với

các phương pháp khác. Một trong những lợi thế chính của hệ thống nhận dạng sinh

trắc học là hệ thống xác định được các người dùng đã được đăng ký trong hệ thống

[3]. Ngoài ra, các hệ thống sinh trắc học yêu cầu sự hiện diện của người dùng tại thời

điểm xác thực, ngăn chặn các cá nhân đưa ra các yêu cầu từ chối sai [4]. Cả hai điều

khoản này đều đặc biệt quan trọng trong các ứng dụng yêu cầu bảo mật, nơi những

kẻ mạo danh có thể cố gắng yêu cầu các danh tính khác nhau và đạt được lợi ích. Bên

cạnh việc tăng cường bảo mật, các hệ thống sinh trắc học cũng mang lại sự tiện lợi

cho người dùng bằng cách giảm bớt yêu cầu thiết kế mật khẩu và mã thông báo [5].

Hệ thống sinh trắc học sử dụng các đặc điểm cơ thể hoặc hành vi làm đặc trưng

nhận dạng. Hình 1.1 minh họa một số ví dụ về các đặc điểm sinh trắc học có thể được

sử dụng để xác thực người dùng. Chúng bao gồm khuôn mặt, tai, mống mắt, quét

võng mạc, giọng nói, vân tay, dấu vân tay, hình dạng bàn tay/ngón tay, các mẫu vân

mạch máu, nhịp tim hoặc thậm chí DNA [6], [7].

13

Hình 1.1 Các đặc điểm sinh trắc học về cơ thể và hành vi.

Đặc điểm hành vi là những đặc trưng thoái quen về hành động cơ thể của mỗi

người ví dụ như: dáng đi, chữ ký, lực gõ phím/nhịp gõ, cách sử dụng chuột của máy

tính và đặc điểm cầm thiết bị của người khác. Hơn nữa, các đặc trưng sinh trắc học

khác như: da, mắt, màu tóc, sự hiện diện của râu, chiều cao, cân nặng, hình xăm và

các yếu tố khác, cũng được sử dụng rộng rãi cho mục đích nhận diện [8]. Các thiết

bị, chẳng hạn như camera từ siêu thị đến các địa điểm công cộng và đường đi, có thể

xác định những người đi qua. Các hệ thống mới được thiết kế cẩn thận để có thể giảm

thiểu các lỗi nhận dạng sai. Trong tương lai các hệ thống thế hệ tiếp theo có thể giảm

hơn nữa lỗi nhận dạng sai bằng cách phát hiện các điều kiện làm suy yếu bất kỳ yếu

tố bên ngoài nào có thể ảnh hưởng đến hiệu quả của thiết bị dựa trên sinh trắc học.

14

1.1.2 Các ứng dụng của sinh trắc học

Hệ thống sinh trắc học được áp dụng trong nhiều lĩnh vực, đặc biệt là liên quan

đến bảo mật như kiểm soát truy cập vật lý và logic. Bao gồm các lĩnh vực sau:

1. Dịch vụ ngân hàng/tài chính như máy ATM, thiết bị thanh toán đầu cuối, thanh

toán không dùng tiền mặt, rút tiền mặt tự động,…

2. Bảo mật máy tính & công nghệ thông tin như giao dịch Internet, đăng nhập

máy tính cá nhân,…

3. Chăm sóc sức khỏe như quan tâm đến quyền riêng tư, kiểm soát thông tin bệnh

nhân, kiểm soát thuốc,…

4. Nhập cư như kiểm soát biên giới, du khách thường xuyên, người tị nạn,…

5. Luật pháp và trật tự xã hội như thẻ căn cước, bỏ phiếu, kiểm soát súng, nhà

tù,…

6. Người gác cổng/Kiểm soát ra vào cửa như thiết lập an toàn, quân đội, khách

sạn, quản lý tòa nhà,…

7. Viễn thông như điện thoại, gian lận thuê bao, trung tâm cuộc gọi, trò chơi, …

8. Điểm danh và sự chuyên cần trong học tập và chấm công trong công ty.

9. Phúc lợi, bao gồm các dịch vụ chăm sóc sức khỏe và các khoản thanh toán

phúc lợi.

10. Sản phẩm tiêu dùng như máy dịch vụ tự động, ATM, thiết bị khóa, PDA,…

1.1.3 Yêu cầu của đặc trưng sinh trắc học

Đặc trưng sinh trắc học cần thỏa các tính chất để có thể áp dụng được bao

gồm: tính phổ biến, tính duy nhất, tính lâu dài, khả năng thu thập, khả năng đo lường,

hiệu suất, khả năng chấp nhận và độ tin cậy. Trong “Sổ tay sinh trắc học” [13], “Công

nghệ sinh trắc học và các hoạt động phát triển tiêu chuẩn sinh trắc học quốc tế-bảo

mật” [14], các đặc tính này được trình bày như sau:

Tính phổ biến: Mỗi cá nhân truy cập ứng dụng sinh trắc học phải có một

phương thức cụ thể như dấu vân tay, mống mắt hoặc tai mà họ có thể sử dụng để nhận

dạng bản thân.

15

Tính duy nhất: Đặc tính đã cho phải đủ khác biệt giữa các cá nhân. Các đặc

điểm duy nhất có thể được sử dụng để ngăn chặn truy cập trái phép vào hệ thống sinh

trắc học, ngăn chặn các cuộc tấn công. Do vậy, tính chất này hết sức quan trong, đảm

bảo nhu cầu bảo mật và quyền riêng tư khi khi thiết kế hệ thống sinh trắc học.

Tính lâu dài: Đặc tính sinh trắc học của một cá nhân phải đủ bất biến trong

một khoảng thời gian đối với thuật toán so khớp áp dụng của hệ thống.

Khả năng thu thập: Đề cập đến sự dễ dàng của việc lấy dữ liệu sinh trắc học.

Có thể thu thập và số hóa các đặc trưng sinh trắc học bằng cách sử dụng các thiết bị

phù hợp với các cảm biến mà không gây bất tiện quá mức cho người dùng. Bằng cách

đó, chúng ta có thể rút trích và biểu diễn thành công tập dữ liệu trong các mẫu sinh

trắc học.

Khả năng đo lường: Bộ dữ liệu sinh trắc học phải phù hợp cho việc phân tích

thống kê xác định kết quả phù hợp. Cần đánh giá độ phức tạp của các thuật toán áp

dụng, thời gian tính toán và chi phí các thành phần của sơ đồ để xác định hiệu quả

của hệ thống trong các ứng dụng trong thực tế.

Hiệu suất: Được sử dụng để xác định độ chính xác của hệ thống nhằm cho

phép người dùng được ủy quyền mới có quyền truy cập và từ chối những kẻ mạo

danh.

Khả năng chấp nhận: Đề cập đến cách mọi người phản ứng với hệ thống sinh

trắc học, mức độ quen thuộc với các công nghệ sinh trắc học và việc sử dụng các ứng

dụng (thói quen) và mức độ sẵn sàng cung cấp dữ liệu sinh trắc học.

Độ tin cậy: Xác định chất lượng của đặc tính sinh trắc học. Trong cùng một

ngữ cảnh, thuộc tính gian lận/giả mạo được sử dụng để đánh giá các cuộc tấn công

giả mạo tiềm ẩn và đo lường mức độ dễ dàng bắt chước một đặc điểm sinh trắc học.

1.1.4 Đặc trưng vân mạch máu lòng bàn tay

Nhận dạng vân mạch máu lòng bàn tay xuất hiện vào năm 1991 [17], thu hút sự

chú ý của mọi người vì tính bảo mật cao, khả năng phát hiện trực tiếp, khả năng chấp

nhận của người dùng và sự tiện lợi. Đặc trưng nhận dạng vân mạch máu lòng bàn tay

thể hiện tính bảo mật cao, vì sử dụng mạng lưới các mạch máu dưới da lòng bàn tay

16

để nhận dạng. Vân mạch máu lòng bàn tay là thông tin sinh học bên trong cơ thể, nên

những kẻ xâm nhập khó sao chép các mẫu vân mạch máu hơn nhiều so với các đặc

điểm sinh trắc học khác. Mạch máu lòng bàn tay hầu như không nhìn thấy được đối

với mắt người; thường được chụp dưới ánh sáng hồng ngoại (NIR). Ở trạng thái tự

nhiên, các vân mạch máu lòng bàn tay được che giấu một cách tự nhiên. Hơn nữa,

các mẫu vân mạch máu không bị trùng lặp ở những người khác nhau. Do đó, vân

mạch máu được coi như một mã nhận dạng an toàn cao của con người. Trên thực tế,

kiểu mạch máu ở tay trái và tay phải cũng khác nhau [18]. Nhận dạng vân mạch máu

lòng bàn tay đảm bảo tính sống trong mẫu sinh trắc học. Nếu không có máu chảy,

hình ảnh mạch máu sẽ biến mất và hệ thống nhận dạng vân mạch máu lòng bàn tay

có khả năng chấp nhận cao của người dùng. Thu thập hình ảnh vân mạch máu lòng

bàn tay dễ dàng và không làm phiền [19]. Vì hình ảnh mẫu vân mạch máu lòng bàn

tay thu được không cần tiếp xúc trực tiếp với cảm biến rút trích mẫu vân mạch máu,

nên không có sự nhiễm bẩn nào từ bề mặt sang tay của đặc trưng. Ngoài ra, các điều

kiện bên ngoài từ bàn tay, như dầu mỡ và bụi bẩn, sự hao mòn của bàn tay và bề mặt

tay khô và ướt không ảnh hưởng đến cấu trúc vân mạch máu.

1.2 Hệ thống nhận dạng vân mạch máu lòng bàn tay

1.2.1 Hệ thống định danh

Hệ thống định danh cho biết người được định danh có trong cơ sở dữ liệu của

hệ thống nhận dạng vân mạch máu và hệ thống có thể lấy ra danh tính của một người

bằng cách so khớp các thuộc tính vân mạch máu của người này với các thuộc tính

được lưu trữ của tất cả những người khác trong cơ sở dữ liệu. Do đó, việc định danh

liên quan đến tìm kiếm một-nhiều [29].

1.2.2 Hệ thống xác thực

Hệ thống xác thực kiểm tra xác nhận danh tính được yêu cầu bởi người dùng

với hệ thống. Do đó, hệ thống xác thực không cần phải so khớp các thuộc tính vân

mạch máu đã chỉ định với tất cả các thuộc tính được lưu trữ; nó chỉ cần so khớp với

một cặp thuộc tính, một thuộc tính đại diện cho danh tính được yêu cầu và một thuộc

17

tính khác được đo lường tại thời điểm yêu cầu. Do đó, xác thực bao gồm tìm kiếm

một-một [29].

1.2.3 Quy trình nhận dạng vân mạch máu lòng bàn tay

Một hệ thống nhận dạng vân mạch máu lòng bàn tay điển hình bao gồm bốn

bước: thu nhận hình ảnh vân mạch máu lòng bàn tay, tiền xử lý, đặc biệt là ở vị trí

ROI, rút trích đặc trưng và so khớp, được minh họa trong Hình 1.2. Thu nhận hình

ảnh vân mạch máu lòng bàn tay. Tiền xử lý trước một phần phân đoạn hình ảnh vân

mạch máu lòng bàn tay để rút trích đặc trưng. Quá trình rút trích đặc trưng thu được

các đặc trưng hiệu quả từ vân mạch máu lòng bàn tay được xử lý trước. So khớp đặc

trưng so sánh hai đặc trưng vân mạch máu lòng bàn tay và cơ sở dữ liệu lưu trữ các

mẫu đã đăng ký.

vân mạch máu

Thu nhận ảnh

lòng bàn tay Vị trí

ROI

Quyết định: Rút trích So khớp

Thật hoặc đặc trưng đặc trưng

giả mạo

Hình 1.2 Sơ đồ khối nhận diện bằng hình ảnh vân mạch máu lòng bàn tay

Thu nhận ảnh

1.2.3.1.1 Giới thiệu

Trong nghiên cứu sinh trắc học, kết hợp nhiều phương thức hình ảnh đã được

chứng minh một cách đầy hứa hẹn để nâng cao hiệu suất nhận dạng. Theo lý thuyết

điện từ, các sóng hertzian từ ánh sáng quang phổ nhìn thấy được đến tia hồng ngoại

phụ cận cung cấp khả năng xâm nhập mạnh hơn vào các đặc trưng. Đối với sinh trắc

học bàn tay, đèn chiếu sáng đa phổ có thể xuyên qua các mô dưới da ở các độ sâu

18

khác nhau trong các vùng lòng bàn tay và hình thành hình ảnh kết cấu bề mặt da và

động mạch (bao gồm vân mạch máu lòng bàn tay). Dựa trên đặc tính này, thiết kế

một thiết bị hình ảnh đa phổ để thu thập thông tin tương quan và bổ sung của bàn tay

con người [15].

1.2.3.1.2 Mô tả thu nhận ảnh

Thiết bị chụp ảnh đa quang phổ lòng bàn tay, như thể hiện trong Hình 1.3. Tất

cả hình ảnh lòng bàn tay với mức xám 8 bit. Đối với mỗi bàn tay, chụp hai phiên hình

ảnh lòng bàn tay. Khoảng thời gian giữa hai đợt hơn một tháng. Trong mỗi phiên, có

ba mẫu. Mỗi mẫu chứa sáu hình ảnh lòng bàn tay được chụp cùng một lúc với sáu

quang phổ khác nhau. Bước sóng của đèn chiếu sáng tương ứng với sáu quang phổ

lần lượt là 460nm, 630nm, 700nm, 850nm, 940nm và ánh sáng trắng. Giữa hai mẫu,

cho phép thay đổi các tư thế tay ở một mức độ nhất định. Thông qua đó, hướng tới

việc tăng tính đa dạng của các mẫu nội lớp (intra-class) và mô phỏng ứng dụng thực

tế[15].

Hình 1.3 Thiết bị chụp ảnh đa phổ lòng bàn tay

Trong thiết bị chụp ảnh đa phổ lòng bàn tay không có chốt để hạn chế tư thế

và vị trí của lòng bàn tay. Đặc trưng được yêu cầu đặt lòng bàn tay vào thiết bị và đặt

nó trước nền đồng màu. Thiết bị cung cấp ánh sáng phân bố đồng đều và chụp ảnh

19

lòng bàn tay bằng camera CCD được gắn cố định trên đáy thiết bị. Một mạch điều

khiển được thiết kế để điều chỉnh phổ một cách tự động. Sáu hình ảnh vân lòng bàn

tay điển hình trong cơ sở dữ liệu được hiển thị trong Hình 1.4[15].

Hình 1.4 Sáu hình ảnh vân lòng bàn tay điển hình trong cơ sở dữ liệu

Tiền xử lý

Rút trích ROI là một vấn đề nóng đối với việc xác định vân lòng bàn tay và

vân mạch máu lòng bàn tay. Rút trích ROI đề cập đến việc thực hiện một loạt các

điều chỉnh và vị trí các điểm chính (key point) cho các hình ảnh vân mạch máu lòng

bàn tay và lòng bàn tay khác nhau, sau đó khu vực trung tâm hiệu quả được chọn để

rút trích và so sánh đặc trưng được thực hiện để nhận dạng. Vùng trung tâm này

thường được gọi là vùng quan tâm (ROI), đối với hình ảnh vân mạch máu và vân lòng

bàn tay của cùng một lòng bàn tay, vị trí của ROI phải giống nhau. Mục đích xác định

vị trí và lựa chọn ROI để thực hiện normalization khu vực đặc trưng các đường vân

lòng bàn tay và vân mạch máu lòng bàn tay khác nhau, do đó ảnh hưởng của các yếu

tố bất lợi sẽ được loại bỏ và hình ảnh phụ bao gồm thông tin đa dạng về vân lòng bàn

tay hoặc vân mạch máu lòng bàn tay được rút trích thuận tiện cho việc rút trích và so

khớp đặc trưng sau này. Hiện nay có rất nhiều phương pháp rút trích ROI [25-28].

Các phương pháp rút trích ROI của vân mạch máu lòng bàn tay và vân lòng bàn tay

20

dựa trên đường tròn nội tiếp cực đại [27] và phương pháp tâm [16]. Phương pháp

đường tròn nội tiếp cực đại sử dụng tâm và bán kính được xác định trong lòng bàn

tay, và đường tròn nội tiếp lớn nhất trong tất cả các diện tích lòng bàn tay sẽ được

thực hiện, sau đó thực hiện hiệu chỉnh góc quay của lòng bàn tay. Hình vuông nội

tiếp lớn nhất được cắt ra trong hình tròn nội tiếp, cuối cùng được chuẩn hóa thành

kích thước của hình ảnh ROI 128 × 128. Phương pháp dựa trên việc rút trích tâm sử

dụng tâm của hình ảnh lòng bàn tay đã thu được và hình ảnh con hình chữ nhật có

kích thước là 256 × 256 được ngăn lại bằng cách sử dụng tâm làm trung tâm.

Trong đó phương pháp đường tròn nội tiếp cực đại thường hay được sử dụng trong

giai đoạn tiền xử lý để rút trích ROI, đặc trưng vân mạch máu lòng bàn tay nhận được

sau khi rút trích giàu thông tin.

Nhận đường

Xoay hình ảnh,

Lưu đồ phương pháp đường tròn nội tiếp cực đại.

tròn nội tiếp cắt hình chữ

Cắt vùng ROI Tiền xử lý cực đại nhật nội tiếp

Hoạt động Cắt Nhị

hình thái hình ảnh phân

Hình 1.5 Lưu đồ của phương pháp đường tròn nối tiếp cực đại rút trích ROI

Vì có một số nhiễu trên cạnh của hình ảnh, trước tiên cắt bỏ một số cạnh không

cần thiết và sau đó xử lý nhị phân hình ảnh, biến ảnh thành ảnh đen trắng để giảm

đáng kể chi phí tính toán. Sau khi xử lý nhị phân, hình ảnh thu được không lý tưởng,

có một số đốm trắng nhỏ là nhiễu không hữu dụng. Do đó, sử dụng phép toán hình

thái (morphological) để loại bỏ những nhiễu này. Ví dụ, hình ảnh bảng màu dưới

nguồn sáng trắng được chọn ngẫu nhiên từ cơ sở dữ liệu CASIA [15]. Hình 1.6 là

hình ảnh màu xám và Hình 1.7 là hình ảnh nhị phân sau các phép toán hình thái.

21

Hình 1.6 Hình ảnh mức xám

Hình 1.7 Hình ảnh nhị phân sau các phép toán hình thái

Bởi vì mỗi người có kích thước lòng bàn tay khác nhau và vị trí của lòng bàn

tay cũng khác nhau khi thu thập các bảng màu, phương pháp xác định vị trí dựa trên

đường tròn nội tiếp cực đại. Cách tiếp cận này tận dụng các đặc điểm đường viền

hình dạng bàn tay, các bước cụ thể như sau:

1) Sau khi tiền xử lý, thu được hình ảnh nhị phân của lòng bàn tay, điểm trung

tâm của đường tròn nội tiếp cực đại trong lòng bàn tay nằm trong vùng lòng

bàn tay. Để nâng cao hơn nữa hiệu quả của các phép tính, điểm trung tâm có

thể nằm trong lòng bàn tay xung quanh tâm. Sử dụng tâm làm điểm gốc để xác

định một hình chữ nhật có chiều dài nhất định. Theo kinh nghiệm, thường xác

định kích thước hình chữ nhật là 100 × 100. Tìm kiếm tâm vòng tròn trong

khu vực này sẽ cải thiện hiệu quả rất nhiều.

2) Lấy một điểm trong hình chữ nhật làm tâm của đường tròn và thay đổi dần bán

kính của hình tròn. Khi cạnh của vòng tròn này rơi vào cạnh của vân mạch

máu lòng bàn tay, sẽ ngừng tìm kiếm bán kính và ghi lại bán kính của hình

tròn này.

22

3) Thay đổi tâm của đường tròn và tiếp tục tìm bán kính của đường tròn. Cuối

cùng, ghi lại tâm điểm và bán kính của hình tròn lớn nhất. Đường tròn này là

đường tròn nội tiếp cực đại của toàn bộ diện tích lòng bàn tay.

Không có giới hạn đối với vị trí xoay của lòng bàn tay khi thu thập hình ảnh, vì

vậy thực hiện hiệu chỉnh xoay hình ảnh lòng bàn tay trước khi ROI bị chặn.

Ngoài tâm O, đặt thêm một điểm tham chiếu L. Xác định bán kính đường tròn nội

tiếp lớn nhất bằng R, lấy tâm của đường tròn làm gốc, vẽ đường tròn với KR (K> 1),

đường tròn sẽ giao nhau với các ngón tay. Tìm giao điểm A, B của ngón giữa và ngón

đeo nhẫn, sau đó nhận được điểm trung tâm L, nối OL là trục tọa độ x mới như Hình

1.8. Trong tọa độ mới, hình ảnh lòng bàn tay được xoay.

Hình 1.8 Hình ảnh xoay

Và sau đó, lấy O làm tâm, R là bán kính và lấy kích thước R × R của hình ảnh

con có kích thước không cố định. Đó là trong hình tròn nội tiếp cực đại, tiến hành

chặn hình vuông nội tiếp lón nhất là ROI, và sau đó chuẩn hóa thành kích thước 128

× 128. Các thực nghiệm sau sử dụng bảng màu dưới nguồn sáng trắng làm ví dụ, kết

quả được thể hiện trong Hình 1.9 và 1.10.

23

Hình 1.9 Cắt hình ảnh ROI

Hình 1.10 Hình ảnh ROI vân lòng bàn tay

Hình ảnh vân mạch máu lòng bàn tay và hình ảnh lòng bàn tay tương tự nhau,

cả hai đều là từ lòng bàn tay, nhưng dưới các bước sóng khác nhau của nguồn sáng,

thông tin hiển thị là khác nhau. Dưới nguồn ánh sáng trắng, thông tin về vân lòng bàn

tay được hiển thị và dưới ánh sáng hồng ngoại gần 850nm, thông tin về vân mạch

máu lòng bàn tay được thể hiện, vì vậy các bước rút trích giống nhau. Hình ảnh ROI

vân mạch máu lòng bàn tay được trích xuất cuối cùng được hiển thị trong Hình 1.11.

Có thông tin đa dạng về vân mạch máu lòng bàn tay trong hình ảnh.

Hình 1.11 Hình ảnh ROI của vân mạch máu lòng bàn tay

Rút trích đặc trưng và so khớp

Khi hình ảnh ROI được phân đoạn, các đặc trưng có thể được rút trích để so

khớp. Các cách tiếp cận rút trích đặc trưng có thể được phân loại rộng rãi thành hai

loại trên cơ sở bản chất của đặc trưng được rút trích. Một là phương pháp dựa trên

hình học vân mạch máu lòng bàn tay và phương pháp dựa trên tổng thể ROI. Phương

pháp dựa trên tổng thể hình ảnh ROI, phương pháp này lấy toàn bộ hình ảnh ROI và

sử dụng thông tin hình ảnh trực tiếp. Phương pháp dựa trên tổng thể hình ảnh ROI,

chia thành các phương pháp bao gồm phương pháp tiếp cận dựa trên kết cấu, phương

24

pháp tiếp cận dựa trên đặc trưng cục bộ bất biến và phương pháp tiếp cận dựa trên

không gian con.

Phương pháp tiếp cận dựa trên hình học [30-32] thường sử dụng thông tin cấu

trúc mạch máu, như đặc điểm điểm hoặc đặc điểm đường để mô tả vân mạch máu

lòng bàn tay. Phương pháp sử dụng thuật toán phát hiện cạnh để rút trích thông tin

hướng và vị trí của các vân, đường hoặc đặc trưng điểm. Cách tiếp cận này sử dụng

thông tin vân mạch máu trực tiếp và thông tin cấu trúc phản hồi rõ ràng nhất. Tuy

nhiên, khi hiện tượng tán xạ da và nhòe quang học xảy ra, không thể chụp ảnh một

số mạch máu hoặc một phần của mạch máu. Phương pháp này không bất biến đối với

việc xoay, thu nhỏ hoặc dịch hình ảnh vân mạch máu.

Các phương pháp tiếp cận dựa trên kết cấu sử dụng các đặc trưng kết cấu thống

kê khác nhau [33], chẳng hạn như đặc trưng dẫn xuất cục bộ (LDP) [34, 35], mẫu nhị

phân cục bộ (LBP) [36-38] và các biến thể [39-43] hoặc đặc trưng cấu trúc kết cấu

như Gabor và các biến thể từ hình ảnh vân mạch máu lòng bàn tay [44-51]. Các

phương pháp này mô tả sự phân bố biểu đồ mức xám của hình ảnh vân mạch máu,

nhưng làm mất thông tin vị trí trên kết cấu vân mạch máu. Do đó, một số giai đoạn

được áp dụng để bù đắp. Tuy nhiên, việc sử dụng các giai đoạn bù trừ nhạy cảm với

những thay đổi trong dịch chuyển, quay và tỉ lệ, điều này làm cho phương pháp không

phù hợp để nhận dạng vân mạch máu không tiếp xúc. Đôi khi phương pháp này cũng

sẽ bị ảnh hưởng bởi thông tin kết cấu không đầy đủ trong lòng bàn tay của một số

người.

Các phương pháp tiếp cận dựa trên đặc trưng cục bộ bất biến như đặc trưng

biến đổi bất biến theo tỉ lệ (SIFT) [52, 53], đặc trưng cải thiện tốc độ (SURF) [54],

RootSIFT [55] và đặc trưng mở rộng bất biến liên kết của thuật toán SIFT (ASIFT)

[56] là không nhạy cảm với thay đổi xoay, tỉ lệ và trục. So khớp các điểm chính được

sử dụng trong nhận dạng. Phương pháp này được sử dụng cho hệ thống thiết kế không

tiếp xúc. Thuật toán SURF cho thấy hiệu suất tổng hợp tốt nhất trong khi ASIFT [57]

cho thấy độ chính xác cao nhất, phù hợp với phân tích lý thuyết. RootSIFT [55] và

SIFT [52] áp dụng cùng giai đoạn phát hiện và mô tả đặc trưng bao gồm các bước:

(i) phát hiện điểm cực trị không gian theo tỉ lệ; (ii) định vị điểm chính; (iii) xác định

25

hướng; (iv) tạo các bộ mô tả điểm chính và (v) hình thành một số bộ mô tả 128 hướng

để biểu diễn các đặc trưng hình ảnh. Tuy nhiên, RootSIFT sử dụng nhân Hellinger

cho các phép đo tương tự so với sử dụng khoảng cách Euclide, điều này mang lại sự

cải thiện đáng kể về hiệu suất [58]. Nhược điểm của các phương pháp này là tốc độ

thấp.

Các phương pháp tiếp cận dựa trên không gian con đã nổi lên như một kỹ thuật

mạnh mẽ, trong đó hình ảnh vân mạch máu lòng bàn tay được chiếu vào không gian

con xây dựng từ dữ liệu huấn luyện. Các phương pháp tiếp cận không gian con bao

gồm phân tích thành phần chính (PCA) [59, 60], 2D-PCA [61, 62], phân tích phân

biệt tuyến tính [63, 64], phân tích thành phần độc lập, thừa số hóa ma trận không âm,

phân biệt tuyến tính sử dụng thuật toán 2D-FDA [65] và các biến thể, lấy hệ số không

gian con làm đặc trưng mà không cần biết trước. Hình ảnh vân mạch máu lòng bàn

tay được sử dụng làm đặc trưng. Các phương pháp này được sử dụng để giảm thiểu

hoặc đơn giản hóa cấu trúc dữ liệu của các biến. Loại phương pháp này rất mạnh mẽ,

có thể chiếu hình ảnh vân mạch máu lòng bàn tay vào không gian con được xây dựng

từ dữ liệu huấn luyện.

Trong quy trình nhận dạng vân mạch máu lòng bàn tay, bước rút trích đặc trưng

đóng vai trò quan trọng trong việc đo lường hiệu suất nhận dạng vì vậy đề tài nghiên

cứu theo hướng nhận dạng vân mạch máu lòng bàn tay dựa vào đặc trưng hướng

đường vân cục bộ và đặc trưng sift cải tiến.

1.3 Mục tiêu đề tài

Phát triển thuật toán nhận diện vân mạch máu dựa vào cải tiến đặc trưng SIFT

và đặc trưng mã nhị phân đối xứng cục bộ với mục đích đạt hiệu năng thực hiện cao

và thử nghiệm trên cơ sở dữ liệu quốc tế (PUT) để minh chứng hiệu quả của phương

pháp đề xuất.

1.4 Phương pháp nghiên cứu

Đề tài nghiên cứu và phát triển thuật toán dựa vào nhóm phương pháp mã nhị

phân đối xứng cục bộ và đặc trưng bất biến SIFT để xây dựng đặc trưng mới cho

nhận diện vân mạch máu lòng bàn tay.

26

1.5 Đặc trưng và phạm vi nghiên cứu

Đề tài làm việc với hình ảnh trên cơ sở dữ liệu ảnh vân mạch máu lòng bàn tay

PUT được thu nhận với 2 bước sóng 850nm và 940nm.

1.6 Cấu trúc báo cáo

Báo cáo có cấu trúc gồm các chương như sau:

 Chương 1. Tổng quan

Trình bày tổng quan về sinh trắc học, các ứng dụng và yêu cầu đặc trưng của hệ

thống sinh trắc học, các đặc trưng vân mạch máu lòng bàn tay, hệ thống và quy trình

nhận dạng vân mạch máu lòng bàn tay, mục tiêu, phương pháp nghiên cứu, đặc trưng

và phạm vi nghien cứu, đồng thời giới thiệu về đóng góp khoa học.

 Chương 2. Các công trình nghiên cứu liên quan

Trình bày các cách tiếp cận khác nhau để rút trích đặc trưng từ mạng lưới mạch

máu. Giới thiệu bộ lọc MFRAT, các phương pháp dựa trên các mẫu nhị phân cục bộ

(LBP), mẫu nhị phân cục bộ mở rộng và đặc trưng dẫn xuất cục bộ (LDP). Các

phương pháp tiếp cận dựa trên các đặc trưng cục bộ bất biến như biến đổi đặc trưng

bất biến theo tỉ lệ (SIFT) và đặc trưng SIFT sửa đổi, các hướng tiếp cận rút trích đặc

trưng vân lòng bàn tay và các hướng tiếp cận liên quan để xử lý ảnh và rút trích các

đặc trưng bất biến, không ổn định có tính phân biệt cao MFRAT.

 Chương 3. Phương pháp đề xuất

Nghiên cứu đề xuất phương pháp rút trích đặc trưng vân mạch máu lòng bàn tay

mới để nhận dạng vân mạch máu lòng bàn tay không tiếp xúc dựa trên việc kết hợp

mô hình nhị phân cục bộ đối xứng trung tâm (ECS-LBP) cải tiến với SIFT và

MFRAT, được gọi là MFRAT SIFT - ECS-LBP. Phương pháp đề xuất bao gồm hai

bước:

1) áp dụng bộ lọc MFRAT để rút trích đặc trưng hướng của đường vân.

2) Áp dụng phương pháp ECS-LBP để phát hiện các đường vân mạch máu lòng

bàn tay ổn định và rõ ràng.

27

3) Rút trích đặc trưng cục bộ bất biến SIFT trên hình ảnh đường vân mạch máu

lòng bàn tay.

 Chương 4. Kết quả thực nghiệm

Thực nghiệm trên cơ sở dữ liệu hình ảnh vân mạch máu lòng bàn tay đa phổ

PUT và so sánh với các phương pháp trước đó như LBP [21], CS-LBP-SIFT [18],

Gabor-SIFT [37].

 Chương 5. Kết luận và hướng phát triển

Dựa theo kết quả thống kê ở chương 4, đánh giá độ chính xác của phương pháp

đã để xuất. Đưa ra phương án đề xuất phát triển trong tương lai.

28

CHƯƠNG 2

CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1 Bộ lọc MFRAT

Bộ lọc MFRAT được đề xuất bởi Huang và cộng sự là một công cụ mạnh mẽ

để trích xuất các đường đặc trưng. MFRAT là bộ lọc dựa vào phép biến đổi radon.

Nó thực kết nối các gờ bị hỏng với nhau, lấp đầy các lỗ và làm rõ tính đối xứng tuyến

tính của các gờ một cách nhanh chóng.

MFRAT được định nghĩa như sau: Trong một ảnh, với diện tích cục bộ Zp, có

kích thước là p x p, MFRAT tính toán các đường khác nhau {mi} (i=0, 1, …, 12) đi

qua điểm trung tâm (x0, y0) theo công thức sau:

𝑚𝑖 = ∑ 𝑓[𝑥, 𝑦] 𝑥,𝑦∈𝐿𝑖

Trong đó f [x, y] là giá trị mức xám pixel (x, y) thuộc đường Li. Li biểu thị tập

hợp các điểm thuộc đường Zp theo công thức:

𝐿𝑖 = {𝑥, 𝑦}: 𝑦 = 𝑆𝑖(𝑥 − 𝑥0) + 𝑦0, 𝑥 ∈ 𝑍𝑝

Trong đó Si là hệ số độ dốc của Li. Với đường Li đi qua tâm (x0, y0) đã xác định

được, mi là tổng mức xám của các điểm trên đường Li.

Hình 2.1 13x13 MFRAT theo 12 hướng, Điểm đỏ là tâm, các đường in đậm đi

qua điểm tâm là các đường xác định được theo các hướng.

29

2.2 Các đặc trưng mẫu nhị phân cục bộ

2.2.1 Đặc trưng mẫu nhị phân cục bộ (LBP)

Mẫu nhị phân cục bộ (LBP) là một phương pháp rút trích đặc trưng trong xử

lý ảnh, cũng là một kỹ thuật phân loại kết cấu bất biến xoay hiệu quả. Hình 2.1 minh

họa toán tử LBP cơ bản. Đặc trưng được rút trích sẽ tiếp tục được tiến hành chọn lọc

(feature selection) thu gọn thành vector đặc trưng. Vector đặc trưng này sau đó có thể

dùng để đưa vào mô hình nghiên cứu.

Đối với mỗi pixel trong một hình ảnh, giá trị của nó được so sánh với tất cả

các giá trị pixel lân cận. Kết quả của mỗi phép so sánh được mã hóa giá trị nhị phân

0 nếu giá trị pixel trung tâm nhỏ hơn và ngược lại là nhị phân 1. Các bit nhị phân này

sau đó được nhóm lại thành một chuỗi nhị phân và chuyển đổi thành số thập phân.

Đây là kết quả LBP cuối cùng cho pixel trung tâm.

so sánh

với tâm

nhị phân: 00111001

thập phân: 57

Hình 2.2 Ví dụ về toán tử LBP

Mở rộng hoạt động của LBP bằng cách sử dụng các vùng lân cận có tỉ lệ khác

nhau [69], [70]. Sử dụng vùng lân cận tròn và thay thế mỗi pixel bị thiếu bằng giá trị

trung bình có trọng số của các pixel gần nhất trên ranh giới của 4 cạnh, các giá trị

pixel cho phép sử dụng bất kỳ bán kính và số lượng pixel nào trong vùng lân cận. Gọi

𝐿𝐵𝑃𝑃,𝑅, biểu thị hoạt động 𝐿𝐵𝑃 dựa trên điểm lấy mẫu 𝑃 trên đường tròn bán kính 𝑅,

một số ví dụ về các vùng lân cận tròn được thể hiện trong Hình 2.3.

30

Hình 2.3 Hoạt động LBP đối với các vùng lân cận tròn

Để loại bỏ ảnh hưởng của việc xoay hình ảnh dẫn đến các mẫu nhị phân khác

nhau được tạo ra, mỗi 𝐿𝐵𝑃 được xoay đến một vị trí hoạt động như một tham chiếu

𝑟𝑖 và được định nghĩa như

chung cho tất cả các phiên bản xoay của mẫu nhị phân và điều này liên quan đến việc

sử dụng toán tử 𝐿𝐵𝑃 bất biến xoay được biểu thị bởi 𝐿𝐵𝑃𝑃,𝑅

𝑟𝑖 = 𝑚𝑖𝑛{𝑅𝑂𝑅(𝐿𝐵𝑃𝑃,𝑅, 𝑖|𝑖 = 0,1,2, … 𝑃 − 1)} (2.3)

sau:

𝐿𝐵𝑃𝑃,𝑅

trong đó 𝑅𝑂𝑅(𝑥, 𝑖) thực hiện chuyển dịch tròn các bit sang phải 𝑖 lần trên số nhị phân

𝑃 được ký hiệu là 𝑥.

Một phần mở rộng khác của phương pháp LBP là các mẫu đồng dạng [69],

[70]. Một mẫu nhị phân cục bộ được gọi là đồng dạng nếu chứa nhiều nhất hai lần

chuyển đổi bit từ 0 đến 1 hoặc ngược lại khi chuỗi nhị phân được dịch chuyển theo

𝑢2 biểu thị phép toán được sử

vòng tròn. Ví dụ, 00000000, 00001111 và 10000011 là các mẫu đồng dạng với 0, một

và hai chuyển đổi bit từ 0 sang 1 riêng biệt. Để 𝐿𝐵𝑃𝑃,𝑅

𝑟𝑖 trong đó 9 mẫu ở hàng đầu tiên là đồng dạng.

dụng để tạo ra các mẫu đồng dạng LBP, Hình 2.3 cho thấy 36 mẫu bất biến xoay được

tạo ra bởi phép toán 𝐿𝐵𝑃8,𝑅

31

𝒓𝒊 Hình 2.1 36 mẫu bất biến xoay được tạo ra bởi phép toán 𝑳𝑩𝑷𝟖,𝑹

2.2.2 Mẫu nhị phân cục bộ mở rộng

Mẫu nhị phân cục bộ đa biến (Multivariate Local binary pattern -

MLBP)

Phép toán mẫu nhị phân cục bộ đa biến (MLBP) được phát triển bởi Arco

Lucifer [71], mô tả quan hệ pixel cục bộ trong ba dải. Ngoài các tương tác không gian

của các pixel trong một dải, các tương tác giữa các dải cũng được xem xét. Do đó,

vùng lân cận được thiết lập cho một pixel bao gồm các lân cận cục bộ trong cả ba dải

(Hình 2.4).

Hình 2.2 Phép đo kết cấu MLBP mô tả các mối quan hệ không gian trong một dải và giữa các dải

32

(2.4)

Từ công thức (2.4), ngưỡng cục bộ được lấy từ các dải này, tạo nên tổng cộng

chín kết hợp khác nhau. Kết quả này trong phép toán sau cho một mô tả kết cấu màu

cục bộ. Thước đo kết cấu màu là biểu đồ tần suất sự xuất hiện 𝑀𝐿𝐵𝑃, được tính toán

trên một hình ảnh hoặc một vùng của hình ảnh. Phân phối đơn này chứa 𝑃 × 32 số

khoảng (bin) (ví dụ: 𝑃 = 8 tạo thành 72 bin).

Mẫu nhị phân cục bộ nâng cao (ELBP)

Mở rộng phép toán LBP bằng cách tính toán các giá trị đặc trưng từ các tập

hợp điểm thay vì các điểm cô lập. Xem xét các tỉ lệ khác nhau của vùng lân cận và

trung tâm. Khái niệm này có thể xử lý một số vấn đề của phương pháp LBP:

 LBP hỗ trợ không gian nhỏ, do đó không thể phát hiện đúng các cấu trúc kết

cấu quy mô lớn.

 LBP làm mất thông tin kết cấu cục bộ, vì chỉ sử dụng các dấu hiệu khác biệt

của các pixel lân cận.

 LBP nhạy cảm với nhiễu, vì sự dao động nhỏ nhất trên hoặc dưới giá trị của

điểm ảnh trung tâm được coi là tương đương với độ tương phản chính giữa

điểm ảnh trung tâm và môi trường xung quanh.

33

Hình 2.3 Sơ đồ phép toán E – LBP4,4,3

(𝒗í 𝒅ụ: 𝒙 = 𝟒, 𝒚 = 𝟒, 𝒓 = 𝟑)

Thuật toán ELBP được mô tả trong Hình 2.5. Gọi 𝐺𝑁𝑖 là tập hợp các cường độ

pixel lân cận với tâm 𝐶𝑁𝑖 (pixel bên trái/trên cùng gần nhất được sử dụng làm trung

tâm trong trường hợp các vùng lân cận có kích thước chẵn). Gọi 𝐺𝐶 là tập hợp các

cường độ pixel trung tâm với tâm 𝐶𝐶 và 𝑟 là khoảng cách giữa pixel trung tâm 𝐶𝑁𝑖 và

. 𝐶𝐶. Các giá trị đại diện cho những bộ này dưới dạng giá trị trung bình của cường độ pixel thuộc các bộ này: 𝑔𝑖=𝑚𝑒𝑎𝑛(𝐺𝑁𝑖),𝑖∈{1,…,8} và 𝑔𝐶=𝑚𝑒𝑎𝑛(𝐺𝐶)

′ thay vì giá trị 𝑔𝑖 và 𝑔𝑐, tương ứng.

′và 𝑔𝐶

Vectơ đặc trưng sau đó được tạo theo cách tương tự như trong trường hợp

phép toán LBP sử dụng các giá trị 𝑔𝑖

Phương sai mẫu nhị phân cục bộ (Local binary pattern variance - LBPV)

Bộ mô tả LBPV [73] cho kết quả tốt hơn LBP. Các đặc trưng cục bộ bất biến

có nhược điểm làm mất thông tin không gian toàn cục, trong khi các đặc trưng cục

bộ toàn cục lưu trữ ít thông tin kết cấu cục bộ. LBPV đề xuất một phương pháp lai

thay thế, kết hợp xoay toàn cục bất biến so khớp với các đặc trưng kết cấu LBP biến

thể cục bộ. Phương pháp LBPV đơn giản nhưng hiệu quả kết hợp LBP và phương

pháp phân phối tương phản. Phương pháp 𝐿𝐵𝑃𝑝,𝑟/𝑉𝐴𝑅𝑝,𝑟 mạnh mẽ vì khai thác

thông tin bổ sung của mô hình không gian và độ tương phản cục bộ. Các giá trị

ngưỡng được sử dụng để lượng tử hóa VAR của các ảnh thử nghiệm được tính toán

để phân chia thành N bin với số đầu vào bằng nhau.

34

𝑁

𝑀

𝑖=1

𝑗=1

𝐿𝐵𝑃𝑉𝑃,𝑅(𝑘) = ∑ ∑ 𝑊(𝐿𝐵𝑃𝑃,𝑅(𝑖, 𝑗), 𝑘) 𝑘 ∈ [0, 𝐾] (2.5)

(2.6) Trong đó: 𝑊(𝐿𝐵𝑃𝑃,𝑅(𝑖, 𝑗), 𝑘) = { 𝑣𝑎𝑟𝑃,𝑅(𝑖, 𝑗), 𝐿𝐵𝑃𝑃,𝑅(𝑖, 𝑗) = 𝑘 0 , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

Các giá trị ngưỡng này được sử dụng để lượng hóa phương sai của hình ảnh

thực nghiệm.

2.3 Đặc trưng dẫn xuất cục bộ (Local derivative pattern - LDP)

Mẫu dẫn xuất cục bộ (LDP) [74] là một lược đồ mã hóa cho các mẫu hướng

cục bộ, ban đầu được áp dụng trên nhận dạng khuôn mặt. Cho một hình ảnh bảng ′ (𝑍)

màu (), các dẫn xuất bậc nhất dọc theo các hướng khác nhau được ký hiệu là 𝐼𝜕 trong đó 𝜕 = 00, 450, 900 𝑣à 1350. Giả sử rằng 𝑍0 là một điểm trong 𝐼𝑍 và 𝑍𝑖(𝑖 = 1, … ,8) là điểm lân cận. Do đó, các dẫn xuất bậc nhất của bốn hướng được

′ = 𝐼(𝑍0) − 𝐼(𝑍4) (2.6) 𝐼00

′ = 𝐼(𝑍0) − 𝐼(𝑍3) (2.7) 𝐼450

′ = 𝐼(𝑍0) − 𝐼(𝑍2) (2.8) 𝐼900

minh họa như sau:

′ 𝐼1350

= 𝐼(𝑍0) − 𝐼(𝑍1) (2.9)

8 lân cận xung quanh điểm trung tâm được thể hiện như Hình 2.5:

𝑧1 𝑧2 𝑧3

𝑧8 𝑧0 𝑧4

𝑧7 𝑧6 𝑧5

Hình 2.4 Mẫu 8 pixel lân cận xung quanh Z0

′ (𝑍8))} (2.7)

Dẫn xuất cấp hai của 𝑍0 trên 𝜕(𝜕 = 00, 450, 900 𝑣à 1350 có thể được minh họa như:

2(𝑍0) = {𝑓(𝐼𝜕

′ (𝑍0), 𝐼𝜕

′ (𝑍1)), … , 𝑓(𝐼𝜕

′ (𝑍0), 𝐼𝜕

𝐿𝐷𝑃𝜕

Trong đó 𝑓(. , . ) là một hàm mã hóa nhị phân xác định các loại chuyển đổi mẫu cục

bộ như:

35

′ (𝑍𝑖)) = {

′ (𝑍0), 𝐼𝜕

′ (𝑍𝑖) > 0 ′ (𝑍𝑖) ≤ 0

′ (𝑍0) ∙ 𝐼𝜕 ′ (𝑍0) ∙ 𝐼𝜕

(2.8) 𝑓(𝐼𝜕 0, 𝑛ế𝑢 𝐼𝜕 1, 𝑛ế𝑢 𝐼𝜕

2(𝑍0)|𝜕 = 00, 450, 900 𝑣à 1350} (2.9)

Cuối cùng, một vectơ 32-bit được nối bởi các dẫn xuất theo bốn hướng như sau:

𝐿𝐷𝑃2(𝑍0) = {𝐿𝐷𝑃𝜕

2.4 Các đặc trưng cục bộ bất biến

2.4.1 Đặc trưng SIFT

Giới thiệu

So khớp hình ảnh là một khía cạnh cơ bản của nhiều vấn đề trong thị giác máy

tính, bao gồm nhận dạng đối tượng hoặc cảnh, giải quyết cấu trúc 3D từ nhiều hình

ảnh, âm thanh và theo dõi chuyển động. Các đặc trưng hình ảnh có nhiều thuộc tính

phù hợp để so khớp các hình ảnh khác nhau của một đặc trưng hoặc cảnh. Các đặc

trưng này không thay đổi tỉ lệ và xoay hình ảnh và một phần bất biến để thay đổi

trong ánh sáng và góc nhìn camera 3D. Các đặc trưng được định vị tốt trong cả miền

không gian và tần số, giảm xác suất bị gián đoạn do sự hấp thụ, không theo thứ tự

hoặc nhiễu. Một số lượng lớn các đặc trưng có thể được rút trích từ các hình ảnh điển

hình bằng các thuật toán hiệu quả. Ngoài ra, các đặc trưng khác biệt, cho phép một

đặc trưng được so khớp chính xác với hiệu suất cao dựa trên cơ sở dữ liệu các đặc

trưng, tạo cơ sở cho việc nhận dạng đặc trưng và cảnh.

Chi phí rút trích các đặc trưng này được giảm thiểu bằng cách áp dụng phương

pháp lọc theo tầng, trong đó các hoạt động tốn chi phí hơn chỉ được áp dụng tại các

vị trí vượt qua thực nghiệm ban đầu. Sau đây là các giai đoạn tính toán chính được

sử dụng để tạo tập hợp các đặc trưng hình ảnh:

1. Phát hiện các điểm cực trị trong không gian theo tỉ lệ (Scale-space

extrema detection): Giai đoạn đầu tiên của quá trình tính toán tìm kiếm trên

tất cả các tỉ lệ và vị trí hình ảnh. Được thực hiện một cách hiệu quả bằng cách

sử dụng một hàm khác biệt của Gaussian để xác định các điểm quan tâm tiềm

năng bất biến theo tỉ lệ và hướng.

36

2. Định vị điểm chính (Keypoint localization): Tại mỗi vị trí điển hình, một

mô hình chi tiết phù hợp để xác định vị trí và tỉ lệ. Các điểm chính được lựa

chọn dựa trên các thước đo về độ ổn định.

3. Xác định hướng (Orientation assignment): Một hoặc nhiều hướng được chỉ

định cho mỗi vị trí điểm chính dựa trên các hướng gradient hình ảnh cục bộ.

Tất cả các hoạt động trong tương lai được thực hiện trên dữ liệu hình ảnh đã

được chuyển đổi so với hướng, tỉ lệ và vị trí được chỉ định cho từng đặc trưng

cục bộ, do đó cung cấp tính bất biến cho các phép biến đổi này.

4. Bộ mô tả điểm chính (Keypoint descriptor): Gradient của hình ảnh cục bộ

được đo ở tỉ lệ đã chọn trong vùng xung quanh mỗi điểm chính. Mỗi điểm

chính này được chuyển đổi thành một điểm biểu diễn cho phép mức độ biến

dạng cục bộ đáng kể và thay đổi độ chiếu sáng.

Cách tiếp cận này được đặt tên là Đặc trưng chuyển đổi bất biến theo tỉ lệ

(SIFT), biến đổi dữ liệu hình ảnh thành tọa độ bất biến theo tỉ lệ liên quan đến các

đặc trưng cục bộ.

Một khía cạnh quan trọng của phương pháp này là tạo ra một số lượng lớn các

đặc trưng cục bộ bao phủ đầy đủ hình ảnh một cách dày đặc trên các tỉ lệ và vị trí.

Một hình ảnh thông thường có kích thước 500x500 pixel sẽ tạo ra khoảng 2000 đặc

trưng ổn định. Số lượng các đặc trưng đặc biệt quan trọng đối với nhận dạng đặc

trưng, trong đó khả năng phát hiện các đặc trưng nhỏ trong ảnh gốc yêu cầu ít nhất 3

đặc điểm phải được so khớp chính xác từ mỗi đặc trưng để nhận dạng đáng tin cậy.

Để so khớp và nhận dạng hình ảnh, các đặc trưng SIFT trước tiên được rút

trích từ một tập hợp các hình ảnh tham chiếu và được lưu trữ trong cơ sở dữ liệu. Một

hình ảnh mới được so khớp bằng cách so sánh riêng từng đặc trưng từ ảnh mới với

cơ sở dữ liệu trước đó và tìm các đặc trưng phù hợp dựa trên khoảng cách Euclide

của các vectơ đặc trưng của chúng.

Các bộ mô tả điểm quan trọng có tính phân biệt cao, cho phép một đặc trưng

cục bộ tìm thấy đặc trưng phù hợp chính xác với xác suất cao trong cơ sở dữ liệu lớn

về đặc trưng cục bộ. Tuy nhiên, trong hình ảnh gốc, nhiều đặc trưng từ nền sẽ không

có bất kỳ kết quả khớp chính xác nào trong cơ sở dữ liệu, làm phát sinh nhiều kết quả

37

so khớp sai bên cạnh những điểm chính xác. Các kết quả chính xác phù hợp có thể

được lọc từ toàn bộ các kết quả phù hợp bằng cách xác định các tập hợp con của các

điểm chính thống nhất về đặc trưng và vị trí, tỉ lệ và hướng trong hình ảnh mới. Việc

xác định các cụm thích hợp này có thể được thực hiện nhanh chóng bằng cách sử

dụng hiệu quả bảng băm triển khai phép biến đổi Hough tổng quát.

Mỗi cụm 3 đặc trưng trở lên thống nhất về một đặc trưng và tư thế sau đó sẽ

được xác thực chi tiết hơn. Đầu tiên, một ước tính bình phương nhỏ nhất được thực

hiện cho một xấp xỉ affine đối với đặc trưng tư thế. Bất kỳ đặc điểm hình ảnh nào

khác phù hợp với tư thế này đều được xác định và các đặc điểm ngoại lệ sẽ bị loại bỏ.

Cuối cùng, một phép tính chi tiết được thực hiện dựa trên xác suất mà một tập hợp

các đặc trưng cụ thể chỉ ra sự hiện diện của một đặc trưng, dựa trên độ chính xác của

sự phù hợp và số lượng các kết quả so khớp sai có thể xảy ra. Đặc trưng phù hợp vượt

qua tất cả các bài kiểm tra này có thể được xác định là đúng với độ tin cậy cao.

Phát hiện điểm cực trị không gian theo tỉ lệ (Scale-space extrema

detection)

Các điểm chính được phát hiện bằng cách sử dụng phương pháp lọc theo tầng

sử dụng các thuật toán hiệu quả để xác định các vị trí tiềm năng, sau đó sẽ được kiểm

tra chi tiết hơn. Giai đoạn đầu tiên của phát hiện điểm chính là xác định các vị trí và

tỉ lệ có thể được lặp lại dưới các góc nhìn khác nhau của cùng một đặc trưng. Việc

phát hiện các vị trí bất biến với sự thay đổi tỉ lệ hình ảnh có thể được thực hiện bằng

cách tìm kiếm các đặc trưng ổn định trên tất cả các tỉ lệ có thể, sử dụng một hàm liên

tục theo tỉ lệ được gọi là không gian tỉ lệ (Witkin, 1983).

Koenderink (1984) và Lindeberg (1994) đã chỉ ra rằng dưới nhiều giả thiết

hợp lý khác nhau, nhân không gian tỉ lệ duy nhất có thể là hàm Gaussian. Do đó,

không gian tỉ lệ của một hình ảnh được định nghĩa là một hàm, 𝐿(𝑥, 𝑦, 𝜎), được tạo

ra từ tích chập của một Gaussian tỉ lệ biến, 𝐺(𝑥, 𝑦, 𝜎), với một hình ảnh đầu vào,

𝐼(𝑥, 𝑦):

Các điểm quan tâm với đặc trưng SIFT tương thích với các điểm cực trị cục

bộ của bộ lọc difference-of-Gaussian (DoG) ở các tỉ lệ khác nhau. Không gian tỉ lệ

38

của một hình ảnh được định nghĩa như một hàm 𝐿(𝑥, 𝑦, 𝜎) được tạo ra từ phép nhân

chập một biến tỉ lệ Gaussian 𝐺(𝑥, 𝑦, 𝜎) với một hình ảnh đầu vào 𝐼(𝑥, 𝑦):

𝐿(𝑥, 𝑦, 𝜎) = 𝐺(𝑥, 𝑦, 𝜎) ∗ 𝐼(𝑥, 𝑦),

trong đó ∗ là phép toán tích chập theo 𝑥 và 𝑦, và

𝐺(𝑥, 𝑦, 𝜎) = 1 2𝜋𝜎2 𝑒−(𝑥2+𝑦2)/2𝜎2

Để phát hiện một cách hiệu quả các vị trí điểm chính ổn định trong không gian

tỉ lệ, (Lowe, 1999) sử dụng điểm cực trị không gian tỉ lệ trong hàm DoG được biến

đổi với hình ảnh, 𝐷(𝑥, 𝑦, 𝜎), có thể được tính toán từ hiệu số của hai thang đo gần

nhau được phân tách bằng hệ số nhân 𝑘 không đổi:

𝐷(𝑥, 𝑦, 𝜎) = (𝐺(𝑥, 𝑦, 𝑘𝜎) − 𝐺(𝑥, 𝑦, 𝜎)) ∗ 𝐼(𝑥, 𝑦)

= 𝐿(𝑥, 𝑦, 𝑘𝜎) − 𝐿(𝑥, 𝑦, 𝜎).

Có một số lý do để chọn hàm này. Đầu tiên, nó là một hàm đặc biệt hiệu quả

để tính toán, vì hình ảnh được làm mịn, 𝐿, cần được tính toán trong mọi trường hợp

để mô tả đặc trưng không gian tỉ lệ và 𝐷 do đó có thể được tính bằng phép trừ hình

ảnh đơn giản.

Ngoài ra, hàm DoG cung cấp một giá trị gần đúng với hàm Laplacian chuẩn

hóa theo tỉ lệ của Gaussian, 𝜎2∇2𝐺, như được nghiên cứu bởi Lindeberg (1994).

Lindeberg đã chỉ ra rằng việc chuẩn hóa Laplacian với hệ số 𝜎2 là cần thiết cho bất

biến tỉ lệ thực. Trong các so sánh thực nghiệm chi tiết, Mikolajczyk (2002) nhận thấy

rằng cực đại và cực tiểu của 𝜎2∇2𝐺 tạo ra các đặc trưng hình ảnh ổn định nhất so với

một loạt các đặc trưng hình ảnh có thể có khác, chẳng hạn như hàm góc gradient,

Hessian hoặc Harris.

Mối quan hệ giữa 𝐷 và 𝜎2∇2𝐺 có thể được hiểu từ phương trình khuếch tán

nhiệt (được tham số hóa theo 𝜎 chứ không phải là 𝑡 = 𝜎2 thông thường):

= 𝜎∇2𝐺. 𝜕𝐺 𝜕𝜎

39

Từ đó, thấy rằng ∇2𝐺 có thể được tính từ xấp xỉ chênh lệch hữu hạn cho

𝜕𝐺 𝜕𝜎⁄ , sử dụng sự khác biệt của các thang đo lân cận tại 𝑘𝜎 và 𝜎:

𝜎∇2𝐺 = ≈ 𝜕𝐺 𝜕𝜎 𝐺(𝑥, 𝑦, 𝑘𝜎) − 𝐺(𝑥, 𝑦, 𝜎) 𝑘𝜎 − 𝜎

và do đó,

𝐺(𝑥, 𝑦, 𝑘𝜎) − 𝐺(𝑥, 𝑦, 𝜎) ≈ (𝑘 − 1)𝜎2∇2𝐺.

Điều này cho thấy rằng khi hàm DoG có các thang đo khác nhau bởi một hệ

số không đổi, đã kết hợp chuẩn hóa thang đo 𝜎2 cần thiết cho Laplacian bất biến tỉ

lệ. Hệ số (𝑘 − 1) trong phương trình là một hằng số trên tất cả các thang đo và do đó

không ảnh hưởng đến vị trí cực trị. Sai số xấp xỉ sẽ về 0 khi 𝑘 chuyển sang 1, nhưng

trong thực tế, xấp xỉ gần như không ảnh hưởng đến tính ổn định của việc phát hiện

hoặc định vị điểm cực trị đối với những khác biệt thậm chí đáng kể về tỉ lệ, chẳng

hạn như 𝑘 = √2.

Với mỗi quãng tám của không gian tỉ lệ, hình ảnh ban đầu được lặp lại nhiều

lần với Gaussian để tạo ra tập hợp các hình ảnh không gian tỉ lệ được hiển thị ở bên

trái. Hình ảnh Gaussian liền kề được trừ đi để tạo ra các hình ảnh DoG ở bên phải.

Sau mỗi quãng tám, hình ảnh Gauss được lấy mẫu xuống theo hệ số 2 và quá trình

này lặp lại.

40

Hình 2.5 Hình ảnh Gaussian liền về và sau mỗi quãng tám

Một cách tiếp cận hiệu quả để xây dựng 𝐷(𝑥, 𝑦, 𝜎) được thể hiện trong Hình

2.7. Hình ảnh ban đầu được biến đổi từng bước với Gaussian để tạo ra các hình ảnh

được phân tách bằng hệ số không đổi 𝑘 trong không gian tỉ lệ, được hiển thị xếp

chồng ở cột bên trái. Chia mỗi quãng tám của không gian tỉ lệ (tức là, nhân đôi của

𝜎) thành một số nguyên, 𝑠, của khoảng thời gian, do đó 𝑘 = 21 𝑠⁄ . Tạo ảnh 𝑠 + 3

trong chồng ảnh mờ cho mỗi quãng tám, để phát hiện điểm cực trị cuối cùng bao phủ

một quãng tám hoàn chỉnh. Các tỉ lệ hình ảnh liền kề được trừ đi để tạo ra các hình

ảnh DoG được hiển thị ở bên phải. Khi một quãng tám hoàn chỉnh đã được xử lý, lấy

lại mẫu hình ảnh Gaussian có gấp đôi giá trị ban đầu của 𝜎 (2 hình ảnh trên cùng của

ngăn xếp) bằng cách lấy mỗi pixel thứ hai trong mỗi hàng và cột. Độ chính xác của

việc lấy mẫu liên quan đến 𝜎 không khác gì so với thời điểm bắt đầu của quãng tám

trước đó, trong khi tính toán được giảm đáng kể.

2.4.1.2.1 Phát hiện điểm cực trị cục bộ (Local extrema detection)

Để phát hiện cực đại và cực tiểu cục bộ của 𝐷(𝑥, 𝑦, 𝜎), mỗi điểm mẫu được so

sánh với tám điểm lân cận trong hình ảnh hiện tại và chín điểm lân cận trong tỉ lệ trên

41

và dưới (xem Hình 2.8). Chỉ được chọn nếu điểm mẫu này lớn hơn hoặc nhỏ hơn tất

cả các điểm lân cận. Chi phí của việc kiểm tra này là thấp do thực tế hầu hết các điểm

mẫu sẽ bị loại bỏ sau một vài lần kiểm tra đầu tiên.

Cực đại và cực tiểu của ảnh chênh lệch Gaussian được phát hiện bằng cách so

sánh một pixel (được đánh dấu bằng X) với 26 điểm ảnh lân cận ở các vùng 3x3 ở

các tỉ lệ hiện tại và lân cận (được đánh dấu bằng vòng tròn) (hình 2.8).

Hình 2.6 Cực đại và cực tiểu của ảnh chênh lệch Gaussian

Một vấn đề quan trọng là xác định tần suất lấy mẫu trong các miền ảnh và tỉ

lệ cần thiết để phát hiện điểm cực trị một cách đáng tin cậy. Tuy nhiên, không có

khoảng cách tối thiểu của các mẫu có thể phát hiện tất cả các điểm cực trị, vì các điểm

cực trị có thể gần nhau một cách tùy ý. Điều này có thể được thấy bằng cách xem xét

một vòng tròn màu trắng trên nền đen, sẽ có một không gian tỉ lệ tối đa trong đó vùng

trung tâm dương hình tròn của hàm DoG khớp với kích thước và vị trí của vòng tròn.

Đối với một hình elip dài, sẽ có hai cực đại ở gần mỗi đầu của hình elip. Vì vị trí của

các cực đại là một hàm liên tục của hình ảnh, đối với một số hình elip có độ giãn dài

trung gian sẽ có sự chuyển đổi từ một cực đại duy nhất thành hai, với các cực đại gần

nhau một cách tùy ý gần điểm chuyển tiếp.

Do đó, phải tìm một giải pháp mang lại hiệu quả bằng sự hoàn chỉnh. Các điểm

cực trị gần nhau thường không ổn định trước những nhiễu nhỏ của hình ảnh. Xác định

các lựa chọn tốt nhất bằng thực nghiệm bằng cách nghiên cứu một loạt các tần số lấy

mẫu và sử dụng các tần số cung cấp kết quả đáng tin cậy nhất dưới sự mô phỏng thực

tế thông qua so khớp.

42

2.4.1.2.2 Tần suất lấy mẫu theo tỉ lệ

Hình 2.7 Biểu đồ số điểm chính được phát hiện trong một hình ảnh điển hình dưới dạng hàm của số lượng mẫu tỉ lệ.

Hình 2.8 Dòng trên cùng trong biểu đồ hiển thị phần trăm các vị trí nổi bật được phát hiện lặp lại trong một hình ảnh đã biến đổi dưới dạng một hàm làm mịn hình ảnh trước đó cho mức độ đầu tiên của mỗi quãng tám. Dòng dưới hiển thị phần trăm bộ mô tả được so khớp chính xác với cơ sở dữ liệu lớn.

Thực nghiệm xác định tần số lấy mẫu ổn định cực đại được thể hiện trong

Hình 2.9 và 2.10. Những hình này dựa trên việc so khớp sử dụng bộ sưu tập 32 hình

ảnh thực được vẽ từ nhiều phạm vi khác nhau, bao gồm cả cảnh ngoài trời, khuôn

mặt người, ảnh chụp từ trên không và hình ảnh công nghiệp (miền ảnh được tìm thấy

hầu như không ảnh hưởng đến bất kỳ kết quả nào). Sau đó, mỗi hình ảnh phải chịu

43

một loạt các biến đổi, bao gồm xoay, chia tỉ lệ, kéo căng affine, thay đổi độ sáng và

độ tương phản, và thêm nhiễu hình ảnh. Vì các thay đổi là tổng hợp, nên có thể dự

đoán chính xác vị trí của từng đặc trưng trong ảnh gốc sẽ xuất hiện trong ảnh đã biến

đổi, cho phép đo độ lặp lại chính xác và vị trí chính xác cho từng đặc trưng.

Hình 2.9 cho thấy các kết quả mô phỏng này được sử dụng để kiểm tra ảnh

hưởng của việc thay đổi số lượng thang đo trên mỗi quãng tám mà tại đó đặc trưng

hình ảnh được lấy mẫu trước khi phát hiện cực trị. Trong trường hợp này, mỗi hình

ảnh được lấy mẫu lại sau khi quay theo một góc ngẫu nhiên và chia tỉ lệ một lượng

ngẫu nhiên giữa 0,2 của 0,9 lần kích thước ban đầu. Các điểm chính từ hình ảnh có

độ phân giải giảm được so khớp với các điểm từ hình ảnh gốc để tỉ lệ cho tất cả các

điểm chính sẽ có trong hình ảnh so khớp. Ngoài ra, nhiễu ảnh 1% đã được thêm vào,

nghĩa là mỗi pixel có một số ngẫu nhiên được thêm vào từ khoảng đồng dạng[-

0.01,0.01] trong đó giá trị pixel nằm trong khoảng [0,1] (tương đương với việc cung

cấp ít hơn 6 bit chính xác của pixel hình ảnh).

Dòng trên cùng trong biểu đồ đầu tiên của Hình 2.9 cho thấy phần trăm các

điểm chính được phát hiện tại vị trí và tỉ lệ so khớp trong hình ảnh đã biến đổi. Dòng

dưới trong biểu đồ hiển thị số lượng các điểm chính được so khớp chính xác với cơ

sở dữ liệu gồm 40.000 điểm chính bằng cách sử dụng quy trình so khớp lân cận gần

nhất (điều này cho thấy rằng một khi điểm chính được định vị lặp lại, có khả năng

hữu ích cho nhiệm vụ nhận dạng và so khớp). Biểu đồ cho thấy, độ lặp lại cao nhất

thu được khi lấy mẫu với 3 tỉ lệ trên mỗi quãng tám.

Việc lặp lại không tiếp tục được cải thiện khi có nhiều tỉ lệ hơn được lấy mẫu.

Vì điều này dẫn đến nhiều điểm cực trị cục bộ hơn được phát hiện, nhưng các điểm

cực trị này trung bình kém ổn định hơn và do đó ít có khả năng được phát hiện trong

hình ảnh đã biến đổi. Điều này được thể hiện bằng biểu đồ thứ hai trong Hình 2.9,

cho thấy số lượng trung bình các điểm chính được phát hiện và so khớp chính xác

trong mỗi hình ảnh. Số lượng các điểm chính tăng lên cùng với việc tăng mẫu tỉ lệ và

tổng số các kết quả so khớp chính xác cũng tăng lên. Việc nhận dạng đặc trưng thường

phụ thuộc nhiều vào số lượng các điểm chính được so khớp chính xác, trái ngược với

44

tỉ lệ phần trăm so khớp đúng của chúng, nên đối với nhiều ứng dụng, sẽ là tối ưu khi

sử dụng số lượng mẫu theo tỉ lệ lớn hơn. Tuy nhiên, chi phí tính toán cũng tăng theo.

Tóm lại, các thực nghiệm này cho thấy rằng hàm không gian tỉ lệ DoG có một

số lượng lớn các cực trị và sẽ rất tốn kém để phát hiện tất cả các điểm này. Tuy nhiên,

chúng ta có thể phát hiện ra tập hợp con hữu ích và ổn định khi lấy mẫu theo tỉ lệ thô.

2.4.1.2.3 Tần suất lấy mẫu trong miền không gian

Xác định tần số lấy mẫu trong miền ảnh so với tỉ lệ làm mịn. Các điểm cực trị

có thể gần nhau một cách tùy ý, có sự cân bằng tương tự giữa tần suất lấy mẫu và tốc

độ phát hiện. Hình 2.10 xác định thực nghiệm về lượng làm mịn trước, 𝜎, được áp

dụng cho mỗi cấp độ hình ảnh trước khi xây dựng biểu diễn không gian tỉ lệ cho một

quãng tám. Điểm mấu chốt là khả năng lặp lại phát hiện điểm chính, và kết quả cho

thấy độ lặp lại tiếp tục tăng theo 𝜎. Tuy nhiên, chi phí để sử dụng 𝜎 lớn về mặt hiệu

quả, chọn sử dụng 𝜎 = 1.6, gần với độ lặp lại tối ưu. Giá trị này được sử dụng cho

kết quả trong Hình 2.9.

Làm mịn hình ảnh trước khi phát hiện điểm cực trị, sẽ loại bỏ các tần số không

gian cao nhất một cách hiệu quả. Do đó, để tận dụng tối đa đầu vào, hình ảnh có thể

được mở rộng để tạo ra nhiều điểm mẫu hơn so với hình ảnh ban đầu. Tăng gấp đôi

kích thước của hình ảnh đầu vào bằng cách sử dụng tuyến tính. Có thể thực hiện một

cách hiệu quả bằng cách sử dụng các bộ lọc subpixel-offset trên hình ảnh gốc, việc

nhân đôi hình ảnh dẫn đến việc triển khai hiệu quả hơn. Giả định rằng hình ảnh gốc

có độ mờ ít nhất là 𝜎 = 0.5 (mức tối thiểu cần thiết để ngăn hiện tượng lỗi đáng kể)

và do đó hình ảnh được nhân đôi có 𝜎 = 1.0 so với khoảng cách pixel mới. Điều này

có nghĩa là cần phải làm mịn thêm hình ảnh trước khi tạo ra quãng tám đầu tiên của

không gian tỉ lệ. Việc nhân đôi hình ảnh làm tăng số lượng điểm chính ổn định lên hệ

số 4, nhưng không tìm thấy cải tiến đáng kể nào với hệ số mở rộng lớn hơn.

Định vị điểm chính

Khi một điểm chính nổi bật được tìm thấy bằng cách so sánh một pixel với các

điểm ảnh lân cận, bước tiếp theo thực hiện so khớp chi tiết với dữ liệu lân cận về vị

trí, tỉ lệ và các độ cong chính. Thông tin này cho phép loại bỏ các điểm có độ tương

45

phản thấp (và do đó nhạy cảm với nhiễu) hoặc được khoanh vùng kém dọc theo một

cạnh.

Ban đầu phương pháp này (Lowe, 1999) chỉ đơn giản là định vị các điểm chính

ở vị trí và tỉ lệ của điểm mẫu trung tâm. Tuy nhiên, Brown đã phát triển một phương

pháp (Brown và Lowe, 2002) để so khớp một hàm bậc hai 3D với các điểm mẫu cục

bộ để xác định vị trí nội suy của điểm cực đại, và các thực nghiệm cho thấy rằng điều

này cung cấp một cải tiến đáng kể cho việc so khớp và ổn định. Cách tiếp cận của

ông sử dụng hàm mở rộng không gian tỉ lệ của Taylor (lên đến các số hạng bậc hai),

𝐷(𝑥, 𝑦, 𝜎), được dịch chuyển sao cho điểm gốc là điểm mẫu:

𝐷(𝑋) = 𝐷 + 𝑋 + 𝑋𝑇 𝜕2𝐷 𝜕𝐷𝑇 𝜕𝑋 1 2 𝜕𝑋2 𝑋 (2.10)

trong đó D và các đạo hàm được đánh giá tại điểm mẫu và 𝑋 = (𝑥, 𝑦, 𝜎)𝑇 là phần bù

từ điểm này. Vị trí của điểm cực trị, 𝑋̂, được xác định bằng cách lấy đạo hàm của hàm

này đối với 𝑋 và gán giá trị bằng 0, theo công thức

𝑋̂ = − (2.11) 𝜕2𝐷−1 𝜕𝑋2 𝜕𝐷 𝜕𝑋

46

Hình 2.9 Cho thấy các giai đoạn lựa chọn điểm chính.

(a) Hình ảnh gốc 233x189 pixel. (b) 832 điểm chính ban đầu xác định vị trí tại cực đại và cực tiểu của DoG. Các điểm chính được hiển thị dưới dạng vectơ cho biết tỉ lệ, hướng và vị trí. (c) Sau khi áp dụng ngưỡng về độ tương phản tối thiểu, 729 điểm chính vẫn còn. (d) 536 điểm chính cuối cùng vẫn tuân theo một ngưỡng bổ sung về tỉ lệ độ cong chính.

Theo đề xuất của Brown, Hessian và đạo hàm của D được tính gần đúng bằng

cách sử dụng sự khác biệt của các điểm mẫu lân cận. Kết quả hệ thống tuyến tính 3x3

có thể được giải quyết với chi phí tối thiểu. Nếu độ lệch 𝑋̂ lớn hơn 0,5 theo bất kỳ

hướng nào, điều đó cho biết điểm cực trị nằm gần một điểm mẫu khác hơn. Trong

trường hợp này, điểm mẫu được thay đổi và thực hiện nội suy thay thế cho điểm đó.

Phần bù cuối cùng 𝑋̂ được thêm vào vị trí của điểm mẫu để có được ước lượng nội

suy cho vị trí của điểm cực trị.

Giá trị hàm tại điểm cực trị, D (𝑋̂), rất hữu ích để loại bỏ điểm cực trị không

ổn định với độ tương phản thấp. Điều này có thể nhận được bằng cách thay thế

phương trình (2.11) vào (2.10), cho như sau

47

𝐷(𝑋̂) = 𝐷 + 𝑋̂ 1 2 𝜕𝐷𝑇 𝜕𝑋

Hình 2.11 cho thấy các tác động của việc chọn điểm chính đối với hình ảnh tự

nhiên. Để tránh quá nhiều xáo trộn, hình ảnh có độ phân giải thấp 233 x 189 pixel

được sử dụng và các điểm chính được hiển thị dưới dạng vectơ cho biết vị trí, tỉ lệ và

hướng của mỗi điểm chính. Hình 2.11 (a) cho thấy hình ảnh ban đầu, được hiển thị ở

độ tương phản giảm phía sau các hình tiếp theo. Hình 2.11 (b) cho thấy 832 điểm

chính ở tất cả các điểm cực đại và cực tiểu được phát hiện của hàm DoG, trong khi

(c) cho thấy 729 điểm chính vẫn còn sau khi loại bỏ các điểm có giá trị là |(𝑋̂)| nhỏ

hơn 0,03. Phần (d) sẽ được giải thích trong phần sau.

2.4.1.3.1 Loại bỏ cạnh không ổn định

Để ổn định, không đủ để loại bỏ các điểm chính có độ tương phản thấp. Hàm

DoG phản hồi mạnh mẽ dọc theo các cạnh, ngay cả khi vị trí dọc theo cạnh được xác

định kém và do đó không ổn định đối với lượng nhiễu nhỏ.

Một đỉnh được xác định kém trong hàm DoG sẽ có độ cong chính lớn qua cạnh

nhưng lại nhỏ theo hướng vuông góc. Các độ cong chính có thể được tính toán từ ma

trận Hessian 2x2, 𝑯, được tính toán tại vị trí và tỉ lệ của điểm chính:

𝑯 = [ ] (2.12) 𝐷𝑥𝑥 𝐷𝑥𝑦 𝐷𝑥𝑦 𝐷𝑦𝑦

Các đạo hàm được ước tính bằng cách lấy sự khác biệt của các điểm mẫu lân

cận.

Các giá trị riêng của 𝑯 tỉ lệ với độ cong chính của D. Mượn từ cách tiếp cận

được sử dụng bởi Harris và Stephens (1988), có thể tránh tính toán rõ ràng các giá trị

riêng, chỉ quan tâm đến tỉ lệ của chúng. Gọi 𝛼 là giá trị riêng có độ lớn lớn nhất và 𝛽

là giá trị nhỏ hơn. Sau đó, có thể tính tổng các giá trị riêng từ dấu vết của 𝑯 và tích

của chúng từ yếu tố quyết định:

2

𝑇𝑟(𝑯) = 𝐷𝑥𝑥 + 𝐷𝑦𝑦 = 𝛼 + 𝛽,

= 𝛼𝛽. 𝐷𝑒𝑡(𝑯) = 𝐷𝑥𝑥𝐷𝑦𝑦 − (𝐷𝑥𝑦)

48

Trong trường hợp không chắc chắn rằng yếu tố xác định là âm, các đường

cong có các dấu hiệu khác nhau nên điểm bị loại bỏ vì không phải là điểm cực trị.

Gọi 𝑟 là tỷ số giữa cường độ giá trị riêng lớn nhất và giá trị nhỏ hơn, sao cho 𝛼 = 𝑟𝛽.

Sau đó,

= = = , 𝑇𝑟(𝑯)2 𝐷𝑒𝑡(𝑯) (𝛼 + 𝛽)2 𝛼𝛽 (𝑟𝛽 + 𝛽)2 𝑟𝛽2 (𝑟 + 1)2 𝑟

điều này chỉ phụ thuộc vào tỉ lệ của các giá trị riêng. Đại lượng (𝑟 + 1)2 𝑟⁄ là nhỏ

nhất khi hai giá trị riêng bằng nhau và tăng theo 𝑟. Do đó, để kiểm tra tỉ lệ độ cong

cơ bản dưới ngưỡng nào đó, 𝑟, chúng ta chỉ cần kiểm tra

< . 𝑇𝑟(𝑯)2 𝐷𝑒𝑡(𝑯) (𝑟 + 1)2 𝑟

Điều này hiệu quả để tính toán, với ít hơn 20 phép toán số thực dấu phẩy động

được yêu cầu để kiểm tra mỗi điểm chính.

Xác định hướng

Bằng cách gán một hướng thích hợp cho mỗi điểm chính dựa trên các thuộc

tính hình ảnh cục bộ, bộ mô tả điểm chính có thể được biểu diễn liên quan đến hướng

này và do đó đạt được sự bất biến đối với việc xoay hình ảnh. Nhược điểm của cách

tiếp cận là hạn chế các bộ mô tả có thể được sử dụng và loại bỏ thông tin hình ảnh do

không yêu cầu tất cả sự đo lường phải dựa trên việc xoay hình ảnh thích hợp.

Tỉ lệ của điểm chính được sử dụng để chọn hình ảnh làm mịn Gaussian, 𝐿, với

tỉ lệ gần nhất, để tất cả các phép tính được thực hiện theo tỉ lệ bất biến. Đối với mỗi

mẫu hình ảnh, 𝐿(𝑥, 𝑦), ở tỉ lệ này, cường độ gradient, 𝑚(𝑥, 𝑦) và hướng, 𝜃(𝑥, 𝑦),

2

2 𝑚(𝑥, 𝑦) = √(𝐿(𝑥 + 1, 𝑦) − 𝐿(𝑥 − 1, 𝑦))

được tính toán trước bằng cách sử dụng các pixel khác nhau:

+ (𝐿(𝑥, 𝑦 + 1) − 𝐿(𝑥, 𝑦 − 1))

𝜃(𝑥, 𝑦) = 𝑡𝑎𝑛−1 ((𝑥, 𝑦 + 1) − 𝐿(𝑥, 𝑦 − 1)) (𝐿(𝑥 + 1, 𝑦) − 𝐿(𝑥 − 1, 𝑦)) ⁄

Biểu đồ hướng được hình thành từ các hướng gradient của các điểm mẫu trong

vùng xung quanh điểm chính. Biểu đồ hướng có 36 bin bao gồm phạm vi hướng 360

49

độ. Mỗi mẫu được thêm vào biểu đồ được tính trọng số bằng độ lớn gradient và vòng

tròn có trọng số Gaussian với 𝜎 gấp 1,5 lần tỉ lệ của điểm chính.

Các đỉnh trong biểu đồ hướng tương ứng với các hướng chính của gradient

cục bộ. Đỉnh cao nhất trong biểu đồ được phát hiện và sau đó bất kỳ đỉnh cục bộ nào

khác nằm trong khoảng 80% của đỉnh cao nhất cũng được sử dụng để tạo ra một điểm

chính với hướng đó. Do đó, đối với các vị trí có nhiều đỉnh có độ lớn tương tự nhau,

sẽ có nhiều điểm chính được tạo ra tại cùng một vị trí và tỉ lệ nhưng hướng khác nhau.

Khoảng 15% số điểm được gán nhiều hướng, nhưng những điểm này góp phần đáng

kể vào sự ổn định khi so khớp. Cuối cùng, một parabol phù hợp với 3 giá trị biểu đồ

gần nhất với mỗi đỉnh để nội suy vị trí đỉnh có độ chính xác tốt hơn.

Hình 2.12 cho thấy sự ổn định về vị trí, tỉ lệ và phân định hướng dưới các

lượng nhiễu ảnh khác nhau. Như trước đây, các hình ảnh được xoay và thu nhỏ theo

số lượng ngẫu nhiên. Dòng trên cùng cho thấy sự ổn định của vị trí nổi bật và chỉ định

tỉ lệ. Dòng thứ hai cho thấy sự ổn định trong so khớp khi hướng được yêu cầu trong

phạm vi 15 độ. Như được hiển thị bởi khoảng cách giữa hai dòng trên cùng, việc gán

hướng vẫn chính xác 95% thời gian ngay cả sau khi thêm nhiễu điểm ảnh ± 10%.

Phương sai hướng đo được cho các kết quả phù hợp chính xác là khoảng 2,5 độ, tăng

lên 3,9 độ đối với nhiễu 10%. Dòng dưới cùng trong Hình 2.12 cho thấy độ chính xác

cuối cùng của việc so khớp chính xác một bộ mô tả điểm chính với cơ sở dữ liệu gồm

40.000 điểm chính. Như biểu đồ này cho thấy, các đặc trưng SIFT có khả năng chống

lại lượng lớn nhiễu pixel và nguyên nhân chính gây ra lỗi là do phát hiện vị trí và tỉ

lệ ban đầu.

50

Hình 2.10 Dòng trên cùng trong biểu đồ hiển thị phần trăm các vị trí nổi bật và tỉ lệ được phát hiện lặp lại như một hàm của nhiễu pixel. Dòng thứ hai cho thấy độ lặp lại sau khi yêu cầu sự thống nhất trong hướng. Dòng dưới cùng hiển thị phần trăm của các bộ mô tả được so khớp chính xác với cơ sở dữ liệu lớn.

Bộ mô tả điểm chính

Các thao tác trước đó đã chỉ định vị trí, tỉ lệ và hướng hình ảnh cho mỗi điểm

chính. Các tham số này áp đặt một hệ tọa độ cục bộ 2D có thể lặp lại để mô tả vùng

ảnh cục bộ và do đó cung cấp sự bất biến cho các tham số. Bước tiếp theo là tính toán

bộ mô tả cho vùng hình ảnh cục bộ có tính phân biệt cao nhưng bất biến nhất đối với

các biến thể còn lại, chẳng hạn như sự thay đổi về độ chiếu sáng hoặc góc nhìn 3D.

Một cách tiếp cận rõ ràng là lấy mẫu các cường độ hình ảnh cục bộ xung quanh

điểm chính ở tỉ lệ thích hợp và so khớp các cường độ này bằng cách sử dụng một

thước đo tương quan chuẩn hóa. Tuy nhiên, mối tương quan đơn giản của các mảng

hình ảnh rất nhạy cảm với những thay đổi gây ra đăng ký sai mẫu, chẳng hạn như

thay đổi góc nhìn affine hoặc 3D hoặc các biến dạng linh hoạt.

Một bộ mô tả điểm chính được tạo ra bằng cách tính toán độ lớn và hướng

gradient tại mỗi điểm mẫu ảnh trong vùng xung quanh vị trí điểm chính, như được

hiển thị bên trái. Cân bằng Gaussian, được biểu thị bằng vòng tròn phủ. Sau đó, các

mẫu này được tích lũy thành các biểu đồ hướng tóm tắt nội dung trên các tiểu vùng

51

4x4, như được hiển thị ở bên phải, với độ dài của mỗi mũi tên tương ứng với tổng độ

lớn của gradient gần hướng đó trong vùng.

Hình 2.11 Mảng bộ mô tả 2x2 được tính toán từ một tập hợp 8x8 mẫu.

2.4.1.5.1 Biểu diễn bộ mô tả (Descriptor representation)

Hình 2.13 minh họa tính toán của bộ mô tả điểm chính. Đầu tiên, cường độ và

hướng của hình ảnh gradient được lấy mẫu xung quanh vị trí điểm chính, sử dụng tỉ

lệ của điểm chính để chọn mức độ mờ Gaussian cho hình ảnh. Để đạt được hướng

bất biến, tọa độ của bộ mô tả và các hướng gradient được xoay so với hướng của điểm

chính. Để đạt hiệu quả cao, các độ dốc được tính toán trước cho tất cả các cấp của

hình chóp. Được minh họa bằng các mũi tên nhỏ tại mỗi vị trí mẫu ở bên trái của

Hình 2.13.

Một hàm trọng số Gaussian với 𝜎 bằng một nửa chiều rộng của bộ mô tả được

sử dụng để gán trọng số cho độ lớn của mỗi điểm mẫu. Điều này được minh họa bằng

hình tròn bên trái của Hình 2.13. Mục đích của hàm Gaussian này là để tránh những

thay đổi đột ngột trong bộ mô tả với những thay đổi nhỏ về vị trí của và ít nhấn mạnh

hơn đến các gradient ở xa tâm của bộ mô tả, vì chúng bị ảnh hưởng nhiều nhất bởi

lỗi đăng ký sai.

Bộ mô tả điểm quan trọng được hiển thị ở bên phải của Hình 2.13. Cho phép

thay đổi các vị trí gradient bằng cách tạo các biểu đồ hướng trên các vùng mẫu 4x4.

Hình ảnh cho thấy tám hướng của từng biểu đồ hướng, với độ dài của mỗi mũi tên

52

tương ứng với độ lớn đầu vào biểu đồ đó. Một mẫu gradient ở bên trái có thể thay đổi

đến 4 vị trí mẫu, do đó cho phép dịch chuyển vị trí cục bộ lớn hơn.

Tránh tất cả các ảnh hưởng đến đường biên trong đó bộ mô tả thay đổi đột

ngột khi một mẫu chuyển dịch từ biểu đồ này sang biểu đồ khác hoặc từ hướng này

sang hướng khác. Do đó, phép nội suy ba tuyến được sử dụng để phân phối giá trị

của mỗi mẫu gradient vào các ngăn biểu đồ liền kề. Nói cách khác, mỗi đầu vào từng

ngăn được nhân với trọng lượng 1 − 𝑑 cho mỗi kích thước, trong đó 𝑑 là khoảng cách

của mẫu từ giá trị trung tâm của từng ngăn như được đo bằng đơn vị của khoảng cách

từng ngăn của biểu đồ.

Bộ mô tả được hình thành từ một vectơ chứa các giá trị của tất cả các đầu vào

biểu đồ hướng, tương ứng với độ dài của các mũi tên ở phía bên phải của Hình 2.13.

Hình vẽ cho thấy một mảng biểu đồ hướng 2x2.

Cuối cùng, vector đặc trưng được sửa đổi để giảm tác động của sự thay đổi độ

chiếu sáng. Đầu tiên, vectơ được chuẩn hóa thành độ dài đơn vị. Một sự thay đổi về

độ tương phản của hình ảnh trong đó mỗi giá trị pixel được nhân với một hằng số sẽ

nhân gradient với cùng một hằng số, do đó, sự thay đổi độ tương phản này sẽ bị hủy

bỏ bằng cách chuẩn hóa vectơ. Thay đổi độ sáng trong đó một hằng số được thêm

vào mỗi pixel hình ảnh sẽ không ảnh hưởng đến các giá trị gradient. Do đó, bộ mô tả

là bất biến đối với những thay đổi của affin trong độ chiếu sáng. Tuy nhiên, những

thay đổi về độ chiếu sáng không tuyến tính cũng có thể xảy ra do độ bão hòa của máy

ảnh hoặc do những thay đổi về độ chiếu sáng ảnh hưởng đến các bề mặt 3D với các

hướng khác nhau theo số lượng khác nhau. Những hiệu ứng này có thể gây ra sự thay

đổi lớn về cường độ tương đối đối với một số gradient, nhưng ít có khả năng ảnh

hưởng đến các hướng gradient. Do đó, giảm ảnh hưởng của các cường độ gradient

lớn bằng cách đặt ngưỡng các giá trị trong vectơ đặc trưng đơn vị không lớn hơn 0,2,

sau đó chuẩn hóa lại thành độ dài đơn vị. Việc so khớp các cường độ cho các gradient

lớn không còn quan trọng và sự phân bố các hướng có trọng tâm hơn. Giá trị 0,2 được

xác định bằng thực nghiệm sử dụng các hình ảnh có độ chiếu sáng khác nhau cho các

đặc trưng 3D giống nhau.

53

2.4.1.5.2 Kiểm tra bộ mô tả

Có hai tham số có thể được sử dụng để thay đổi độ phức tạp của bộ mô tả: số

hướng, 𝑟, trong biểu đồ và chiều rộng, 𝑛, của dãy 𝑛 × 𝑛 biểu đồ hướng. Kích thước

của vector bộ mô tả kết quả là 𝑟𝑛2. Khi độ phức tạp của bộ mô tả tăng lên, có thể

phân biệt tốt hơn trong một cơ sở dữ liệu lớn, nhưng cũng nhạy cảm hơn với các biến

thể và hấp thụ hình dạng.

Hình 2.14 cho thấy các kết quả thực nghiệm trong đó số lượng hướng và kích

thước của bộ mô tả khác nhau. Biểu đồ được tạo để chuyển đổi điểm nhìn trong đó

bề mặt phẳng nghiêng 50 độ so với người xem và thêm 4% nhiễu hình ảnh. Điều này

gần giới hạn của so khớp đáng tin cậy, vì trong những trường hợp khó hơn, hiệu suất

của bộ mô tả là quan trọng nhất. Kết quả cho thấy phần trăm các điểm chính tìm thấy

so khớp chính xác với lân cận gần nhất trong cơ sở dữ liệu gồm 40.000 điểm chính.

Biểu đồ cho thấy hướng đơn (𝑛 = 1) rất kém trong việc phân biệt, nhưng kết quả tiếp

tục cải thiện trên mảng 4x4 biểu đồ với 8 hướng. Việc thêm nhiều hướng hơn hoặc

bộ mô tả lớn hơn thực sự có thể làm ảnh hưởng đến việc so khớp bằng cách làm cho

bộ mô tả nhạy cảm hơn với sự biến dạng. Các kết quả này gần như tương tự đối với

các mức độ thay đổi góc nhìn và nhiễu khác, mặc dù trong một số trường hợp đơn

giản hơn, sự phân biệt tiếp tục được cải thiện với kích thước bộ mô tả 5x5 và cao hơn.

54

Hình 2.12 Biểu đồ này cho thấy phần trăm các điểm chính cho kết quả so khớp chính xác với cơ sở dữ liệu gồm 40.000 điểm chính dưới dạng hàm số chiều rộng của bộ mô tả điểm chính 𝒏 × 𝒏 và số hướng trong mỗi biểu đồ. Biểu đồ được tính toán cho hình ảnh có góc nhìn affin thay đổi 50 độ và thêm 4% nhiễu.

2.4.1.5.3 Tính nhạy cảm với việc cho phép thay đổi

Độ nhạy của bộ mô tả đối với sự thay đổi affine được xem xét trong Hình 2.15.

Biểu đồ cho thấy độ tin cậy của vị trí điểm chính và lựa chọn tỉ lệ, gán hướng và so

khớp vùng gần nhất với cơ sở dữ liệu.

Để đạt được sự so khớp đáng tin cậy trên một góc quan sát rộng hơn, một trong

các bộ phát hiện bất biến affine có thể được sử dụng để chọn và lấy mẫu lại các vùng

ảnh. Những bất lợi là giá trị tính toán cao hơn nhiều, giảm số lượng các điểm chính

và độ ổn định kém hơn đối với các thay đổi affine nhỏ do lỗi trong việc gán khung

liên kết thích hợp dưới nhiễu. Trên thực tế, phạm vi xoay cho phép đối với các đặc

trưng 3D ít hơn so với các bề mặt phẳng, do đó, sự bất biến affine thường không phải

là yếu tố giới hạn trong khả năng so khớp qua sự thay đổi góc nhìn. Nếu mong muốn

một loạt các bất biến affine, chẳng hạn như đối với một bề mặt được biết là phẳng,

một giải pháp đơn giản là áp dụng phương pháp của Pritchard và Heidrich (2003),

trong đó các đặc trưng SIFT bổ sung được tạo ra từ 4 phiên bản định dạng affine hình

ảnh huấn luyện tương ứng với góc nhìn 60 độ thay đổi. Điều này cho phép sử dụng

các đặc trưng SIFT tiêu chuẩn mà không mất thêm chi phí khi xử lý hình ảnh để được

nhận dạng, nhưng dẫn đến việc tăng kích thước của cơ sở dữ liệu đặc trưng lên hệ số

3.

55

Hình 2.13 Biểu đồ này cho thấy phát hiện vị trí điểm chính ổn định, hướng và so khớp cuối cùng với cơ sở dữ liệu như một hàm biến dạng affine. Mức độ biến dạng affine được biểu thị theo chiều sâu của góc quay tương đương đối với một bề mặt phẳng.

2.4.1.5.4 Sơ khớp với cơ sở dữ liệu lớn

Để đo lường tính phân biệt của các đặc trưng là độ tin cậy của so khớp thay

đổi như thế nào khi là một hàm số lượng đặc trưng trong cơ sở dữ liệu được so khớp.

Hình 2.16 cho thấy độ tin cậy phù hợp thay đổi như thế nào khi là một hàm của kích

thước cơ sở dữ liệu. Hình này được tạo ra bằng cách sử dụng cơ sở dữ liệu lớn hơn

gồm 112 hình ảnh, với góc quay 30 độ theo chiều sâu và nhiễu hình ảnh 2% bên cạnh

việc xoay hình ảnh ngẫu nhiên và thay đổi tỉ lệ thông thường.

Đường nét đứt hiển thị phần đặc trưng hình ảnh cục bộ mà lân cận gần nhất

trong cơ sở dữ liệu so khớp đúng, như một hàm kích thước cơ sở dữ liệu được hiển

thị trên thang logarit. Điểm ngoài cùng bên trái đang so khớp với các đặc trưng chỉ

từ một hình ảnh trong khi điểm ngoài cùng bên phải đang chọn các kết quả phù hợp

từ cơ sở dữ liệu của tất cả các đặc trưng từ 112 hình ảnh. Có thể thấy rằng độ tin cậy

của so khớp giảm đi khi là một hàm của số lượng yếu tố gây phân tán, nhưng tất cả

các dấu hiệu cho thấy rằng nhiều so khớp chính xác sẽ tiếp tục được tìm thấy với kích

thước cơ sở dữ liệu lớn.

56

Đường nét liền là tỉ lệ phần trăm các điểm chính đã được xác định tại vị trí và

hướng so khớp chính xác trong hình ảnh đã biến đổi, vì vậy chỉ những điểm này mới

có bộ mô tả phù hợp trong cơ sở dữ liệu. Khoảng cách giữa hai dòng là nhỏ, cho thấy

rằng các lỗi so khớp là do các vấn đề định vị đặc trưng ban đầu và gán hướng hơn là

các vấn đề về tính phân biệt của đặc trưng, ngay cả do kích thước cơ sở dữ liệu lớn.

Hình 2.14 Các thay đổi tỉ lệ và xoay ngẫu nhiên, biến đổi affine 30 độ và nhiễu hình ảnh thêm 2% trước khi so khớp.

Đường nét đứt cho thấy phần trăm các điểm chính được so khớp chính xác với

cơ sở dữ liệu dưới dạng một hàm kích thước cơ sở dữ liệu (sử dụng thang đo logarit).

Đường nét liền hiển thị phần trăm các điểm chính được chỉ định vị trí, tỉ lệ và hướng

chính xác

2.4.2 Đặc trưng SIFT sửa đổi

SIFT ban đầu được đề xuất trong [75]. Trong [76], tiện ích của các đặc trưng

SIFT để nhận dạng vân lòng bàn tay đã được kiểm tra với kết quả tương đối kém bằng

cách sử dụng hình ảnh thu được từ máy quét phẳng. Các đặc trưng được rút trích

không thay đổi đối với tỉ lệ hình ảnh, xoay và một phần bất biến để thay đổi độ sáng

và độ méo hình ảnh. SIFT là một phương pháp rút trích đặc trưng dựa trên việc rút

trích thông tin cục bộ. Hình 2.17 tiếp tục các giai đoạn chính để tạo ra tập hợp các

57

đặc trưng do Lowe [75] đề xuất và đề xuất điều chỉnh với hệ thống sinh trắc học

không tiếp xúc vân lòng bàn tay được gọi là MSIFT.

Hình 2.15 Ở bên trái cách tiếp cận sử dụng SIFT; ở bên phải cách tiếp cận MSIFT trên vân lòng bàn tay không tiếp xúc.

Thuật toán SIFT dựa trên việc phát hiện các điểm chính có các thuộc tính

tương tự có trong hình ảnh tham chiếu và hình ảnh được hỏi. Trong các hình ảnh được

thu nhận không tiếp xúc khi di chuyển bằng tay có độ phân giải thấp (800 × 600) và

hình ảnh mờ, có một số biến dạng làm giảm khả năng phát hiện các điểm chính chung.

Để giảm bớt vấn đề này, một quy trình tiền xử lý làm nổi bật các điểm chính quan

tâm. Thuật toán tiền xử lý hình ảnh thu được áp dụng thuật toán SIFT trước đó được

gọi là SIFT đã sửa đổi (MSIFT) và bao gồm sáu bước.

Tiền xử lý

So sánh đánh giá một số lựa chọn thay thế tiền xử lý để thêm mạnh mẽ cho

phương pháp rút trích đặc trưng dựa trên SIFT: cân bằng biểu đồ thích ứng giới hạn

tương phản, lọc Gaussian và lọc Gabor.

58

Cân bằng biểu đồ thích ứng giới hạn độ tương phản [77] là một phương pháp

tiền xử lý được sử dụng để cải thiện độ tương phản trong hình ảnh. Đối với hình ảnh

đầu vào 𝐼(𝑥, 𝑦), hàm phân phối tích lũy được sử dụng để ước tính biểu đồ hình ảnh

và độ dốc mong muốn tối đa để giới hạn độ tương phản. Hàm được sử dụng để chuyển

đổi hàm mật độ độ xám thành một hàm mật độ xấp xỉ đồng đều.

Bộ lọc Gaussian dựa trên bộ lọc Gaussian 2D để thu được cường độ trung bình

2

2

có trọng số của một vùng dạng đường. Biểu hiện như sau:

𝑓(𝑥, 𝑦, 𝜃) = 𝑒𝑥𝑝 [− ( ) − ( ) ] 𝑥𝑐𝑜𝑠𝜃 + 𝑦𝑠𝑖𝑛𝜃 𝛿𝑥 𝑥𝑠𝑖𝑛𝜃 + 𝑦𝑐𝑜𝑠𝜃 𝛿𝑦

trong đó 𝜃 biểu thị hướng của bộ lọc Gaussian 2D, 𝛿𝑥 biểu thị tỉ lệ ngang của bộ lọc

và 𝛿𝑦 biểu thị thông số tỉ lệ dọc của bộ lọc. Theo kinh nghiệm, nên lựa chọn các tham

số là 𝜃 = 0, 𝛿𝑥 = 5 và 𝛿𝑥 = 1.

Bộ lọc thực Gabor 2D được sử dụng để tiền xử lý hình ảnh bảng màu được

định nghĩa như sau:

1 𝐺(𝑥, 𝑦, 𝜃, 𝑢, 𝜑) = 2𝜋𝜑2 𝑒𝑥𝑝 {− 𝑥2 + 𝑦2 2𝜑2 } × 𝑐𝑜𝑠{2𝜋(𝑢𝑥 cos 𝜃 + 𝑢𝑦 sin 𝜃)}

trong đó 𝑢 là tần số của sóng hình sin, 𝜃 xác định chọn lọc hướng của hàm và 𝜑 độ

lệch chuẩn của đường bao Gauss.

Phát hiện cực trị không gian theo tỉ lệ

Được sử dụng trên tất cả các tỉ lệ và vị trí hình ảnh. Dựa trên hàm DoG để xác

định các điểm quan tâm nổi bật không thay đổi theo tỉ lệ và hướng. Dữ liệu đầu vào

được chuyển thành không gian 𝐿(𝑥, 𝑦, 𝜎) như sau:

𝐿(𝑥, 𝑦, 𝜎) = 𝑔(𝑥, 𝑦, 𝜎) ∗ 𝐼′(𝑥, 𝑦),

trong đó ∗ tương ứng với toán tử tích chập, 𝐼′(𝑥, 𝑦) là hình ảnh đầu vào được xử lý

trước và 𝑔(𝑥, 𝑦, 𝜎) là một hàm Gaussian với băng thông 𝜎. DoG được định nghĩa như

sau:

𝐷(𝑥, 𝑦, 𝜎) = (𝑔(𝑥, 𝑦, 𝑘𝜎) − 𝑔(𝑥, 𝑦, 𝜎)) ∗ 𝐼′(𝑥, 𝑦)

59

= 𝐿(𝑥, 𝑦, 𝑘𝜎) − 𝐿(𝑥, 𝑦, 𝜎).

Định vị điểm chính

Một mô hình chi tiết phù hợp để xác định vị trí và tỉ lệ của từng vị trí nổi bật.

Phép nội suy được thực hiện bằng cách sử dụng hàm Taylor bậc hai của hàm không

gian tỉ lệ DoG 𝐷(𝑥, 𝑦, 𝜎) với điểm chính nổi bật là điểm gốc. Hàm Taylor này như

sau:

𝐷(𝑋) = 𝐷 + + 𝑥𝑇 𝜕2𝐷 𝜕𝐷𝑇 𝜕𝑥 1 2 𝜕𝑥2 𝑥

Trong đó điểm cực đại và điểm cực tiểu của 𝐷 và các đạo hàm được đánh giá

tại điểm nổi bật và 𝑥 = (𝑥, 𝑦, 𝜎) là phần bù từ điểm này.

Xác định hướng

Sử dụng 16 hướng cho mỗi vị trí điểm chính dựa trên các hướng gradient của

hình ảnh cục bộ. Đối với mẫu hình ảnh 𝐿(𝑥, 𝑦) ở tỉ lệ 𝜎, cường độ gradient, 𝜃(𝑥, 𝑦)

và hướng, 𝑚(𝑥, 𝑦), được xử lý bằng cách sử dụng sự khác biệt về pixel

𝜃(𝑥, 𝑦) = 𝑡𝑎𝑛−1 ( ) 𝐿(𝑥, 𝑦 + 1) − 𝐿(𝑥, 𝑦 − 1) 𝐿(𝑥 + 1, 𝑦) − 𝐿(𝑥 − 1, 𝑦)

Bộ mô tả điểm chính

𝑀 với 𝑀 điểm chính. Khi các điểm chính được rút trích, hình

Xung quanh mỗi điểm chính, các gradient cục bộ được đo đã chọn để thu được

vectơ bộ mô tả (𝑑𝑖)𝑖=1 ảnh truy vấn sẽ được so khớp và so sánh với từng đặc trưng được rút trích với các

hình ảnh tương ứng trong cơ sở dữ liệu đăng ký (từ các bộ đặc trưng huấn luyện).

Người xác thực đánh giá số lượng giữa một câu hỏi và hình ảnh huấn luyện. Gọi

𝐿 𝑞)

𝑡)𝑖=1

𝑀 và (𝑑𝑖

𝑗=1

lần lượt là tập các bộ mô tả điểm chính huấn luyện và câu hỏi. (𝑑𝑖

𝑞||2

Khoảng cách giữa các bộ mô tả điểm nổi bật được tính từ giá trị sau:

𝑡 − 𝑑𝑖

𝐷𝑑(𝑖, 𝑗) = ‖𝑑𝑖

60

𝑡 Trong đó ‖∙|| là chuẩn Euclide. Xác định sự phù hợp giữa điểm huấn luyện 𝑑𝑖

𝑞 được hỏi khi

𝐿

và điểm chính 𝑑𝑖

1.5𝐷𝑑(𝑖, 𝑗) < 𝑚𝑖𝑛 = {𝐷𝑑(𝑖, 𝑗)}𝑛=1

với 𝑛 ≠ 𝑗. Ngưỡng được ước tính trong giai đoạn huấn luyện và không nhạy cảm với

các giá trị trong khoảng 1,2-1,7.

Xác thực so khớp

Việc xác nhận điểm phù hợp cho các quyết định xác thực là phổ biến trong

một số phương pháp khai thác đặc trưng sinh trắc học khác. Xác nhận dựa trên khoảng

cách tọa độ giữa các điểm chính để cải thiện hiệu suất SIFT trên sinh trắc học bảng

𝑡 =

màu không tiếp xúc. Giả thuyết là tọa độ từ hai điểm chính được so khớp phải giống

𝐿

nhau nếu hiệu chỉnh độ dịch chuyển trung bình từ tất cả các điểm so khớp. Gọi 𝑐𝑖

𝑞}

𝑡, 𝑦𝑖

𝑡}𝑖=1

𝑀 và 𝑐𝑖

𝑞 = {𝑥𝑖

𝑞, 𝑦𝑖

𝑖=1

lần lượt là tập các tọa độ trọng tâm huấn luyện và nghi {𝑥𝑖

𝑞||2

vấn. Khoảng cách giữa các tọa độ được tính như sau:

𝑡 − 𝑐𝑖

𝑞 được hỏi khi

𝐷𝑐(𝑖, 𝑗) = ‖𝑐𝑖

2

𝑞‖

luyện 𝑐𝑖 Trong đó ‖∙|| là chuẩn Euclide. Xác định sự phù hợp giữa điểm chính huấn 𝑡và điểm chính 𝑐𝑖

𝑡 − 𝑐𝑗

𝑀 ∑‖𝑐𝑖 𝑖=1

𝐷𝑐(𝑖, 𝑗) = 1.5 𝑀

Do phương sai hình dáng cao trong chụp ảnh không tiếp xúc, sử dụng hệ số

trọng số 1,5 để điều chỉnh các lỗi căn chỉnh nhỏ giữa các lòng bàn tay. Số so khớp tối

đa giữa bộ câu hỏi và tập huấn luyện là điểm tương đồng. Nếu điểm tương đồng lớn

hơn một ngưỡng, hình ảnh được hỏi sẽ được xác thực.

61

CHƯƠNG 3

PHƯƠNG PHÁP ĐỀ XUẤT

3.1 Ý tưởng

Phương pháp đề xuất bao gồm ba bước: (1) trích xuất đường đặc trưng bằng bộ

lọc MFRAT, (2) áp dụng phương pháp ECS-LBP để phát hiện các đường vân mạch

máu lòng bàn tay ổn định và rõ ràng; và (3) rút trích đặc trưng cục bộ bất biến SIFT

MFRAT

ECS-LBP

SIFT

Palm vein image

MFRAT- EL-SIFT fearture

trên hình ảnh đường vân mạch máu lòng bàn tay (Hình 3.1).

Hình 3.1 Sơ đồ của phương pháp đề xuất.

3.2 Thuật toán

3.2.1 Bộ lọc dựa vào phép biến đổi radon sửa đổi (MFRAT)

MFRAT được đề xuất để kết nối các vân đứt gãy với nhau. Hơn nữa, bộ lọc

này được sử dụng để tăng tính đối xứng tuyến tính của các đường gờ để bộ lọc đối

xứng tuyến tính có thể được sử dụng để xác định các chi tiết nhỏ trong các khu vực

thiếu đối xứng tuyến tính. Đề xuất sử dụng bộ lọc này giúp loại bỏ bớt nhiễu, làm

tăng độ chính xác, tính ổn định trong nhận dạng vân mạch máu lòng bàn tay.

3.2.2 Thuật toán mẫu nhị phân cục bộ đối xứng (CS-LBP)

CS-LBP so sánh các cặp pixel đối xứng tâm (Hình 3.2a). Độ mạnh trên các

vùng ảnh phẳng thu được bằng cách lập ngưỡng chênh lệch mức xám với một giá trị

(𝑁

2⁄ )−1

nhỏ T như được đề xuất trong [18]:

2⁄ )) 2𝑖,

𝑖=0

𝐶𝑆 − 𝐿𝐵𝑃𝑅,𝑁,𝑇(𝑥, 𝑦) = ∑ 𝑠 (𝑝𝑖 − 𝑝𝑖+(𝑁

𝑠(𝑥) = { (2) 1 𝑥 > 𝑇 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

62

2⁄ ) tương ứng với các giá trị màu xám của các cặp pixel đối xứng tâm của N pixel cách đều nhau trên một vòng tròn bán kính R. CS-LBP có

Trong đó 𝑝𝑖 và 𝑝𝑖+(𝑁

liên quan chặt chẽ với toán tử gradient, vì giống như một số toán tử gradient, nó coi

sự khác biệt mức xám giữa các cặp pixel đối diện trong một vùng lân cận.

3.2.3 Phương pháp ECS-LBP để cải thiện các mẫu vân mạch máu lòng bàn tay

Hình 3.2 (a) Đặc trưng CS-LBP với 8 điểm lân cận và (b) Đặc trưng ECS-LBP với 16 khối lân cận (các khối bao gồm 4 điểm)

Tương tự như phương pháp tăng cường LBP [38], tăng cường CS-LBP (ECS-

LBP), sửa đổi phiên bản CS-LBP, tính toán các giá trị đặc trưng từ các khối (tập hợp

điểm) thay vì các điểm cô lập. Đặc trưng ECS-LBP được tạo theo cách tương tự như

thuật toán CS-LBP như sau:

Tham số là giá trị màu xám trung bình của các cường độ pixel lân cận của

điểm (Hình 3.2b). Tương tự với CS-LBP, và tương ứng với các cặp pixel

đối xứng tâm của N pixel cách đều nhau trên một vòng tròn bán kính R. Lưu ý rằng

có thể xem xét một số cấu trúc liên kết tập hợp điểm có kích thước khác nhau để nắm

bắt thông tin kết cấu khác nhau. Trong phương pháp này, các hình vuông có kích

thước 2 × 2, được sử dụng.

63

3.2.4 Phương pháp EL-SIFT để phát hiện các đặc trưng chính của vân mạch

máu lòng bàn tay và so khớp

Đặc trưng SIFT là bộ mô tả nổi tiếng nhất sử dụng gradient làm đặc trưng cục

bộ. SIFT là một phương pháp mạnh mẽ để phát hiện các đặc điểm hình ảnh cục bộ

bất biến đối với tỉ lệ hình ảnh, dịch và xoay [40]. Các đặc trưng này có được bằng

cách chọn các vị trí chính cực đại cục bộ và cực tiểu của sự khác biệt của hàm

Gaussian được áp dụng trong không gian tỉ lệ. Cực đại và cực tiểu của hàm không

gian tỉ lệ này được xác định bằng cách so sánh mỗi pixel với các điểm ảnh lân cận

của nó [41]. SIFT đã được áp dụng thành công để nhận dạng bảng in [41]. Tuy nhiên,

SIFT không hoạt động tốt với hình ảnh vân mạch máu lòng bàn tay vì các đường vân

mạch máu lòng bàn tay không cô lập với hình ảnh có độ tương phản thấp. (Hình 3.3a).

Để tạo ra các mẫu vân mạch máu lòng bàn tay với độ dốc cao, ECS-LBP trước tiên

được áp dụng để có được hình ảnh mẫu vân mạch máu lòng bàn tay rõ ràng. Hình ảnh

là đầu vào của thuật toán SIFT để có được các đặc trưng chính của các điểm vân mạch

máu lòng bàn tay CL-SIFT (Hình 3.3b).

Hình 3.3 (a), (e) Hình ảnh gốc của cùng một người, (b), (f) CS-LBP, (c), g) ECS-LBP, (d) Khớp giữa (b) và (f ), và (h) So khớp giữa (c) và (g).

64

Hình 3.4 (a), (e) Hình ảnh gốc của hai người khác nhau, (b), (f) CS-LBP, (c), (g) ECS- LBP, (d) So khớp giữa (b) và ( f), và (h) So khớp giữa (c) và (g).

Sau khi các điểm chính được rút trích, hình ảnh truy vấn được khớp và so sánh

với từng đặc trưng được rút trích với các hình ảnh tương ứng trong cơ sở dữ liệu đăng

ký (từ các bộ đặc trưng đào tạo). Việc tạo ra điểm số từ các trận đấu ứng viên dựa

trên khoảng cách Euclidean giữa các vectơ đặc trưng.

65

CHƯƠNG 4

KẾT QUẢ THỰC NGHIỆM

4.1 Cơ sở dữ liệu thực nghiệm

Thuật toán đề xuất đã được thử nghiệm trên cơ sở dữ liệu vân mạch máu lòng

bàn tay không tiếp xúc công khai PUT để so sánh với các phương pháp trước đó như

LBP [21], CS-LBP-SIFT [18] , Gabor-SIFT [37]. Cơ sở dữ liệu hình ảnh vân mạch

máu lòng bàn tay đa phổ đã được thu thập từ hình ảnh lòng bàn tay không tiếp xúc

của 100 người dùng trong ba phiên thu thập dữ liệu (bốn mẫu mỗi phiên) với khoảng

thời gian tối thiểu là một tháng. Trong cơ sở dữ liệu khu vực quan tâm (ROI) được

phân đoạn bằng cách sử dụng hệ tọa độ, được thiết lập bởi hai điểm chính (điểm giữa

ngón trỏ và ngón giữa và điểm giữa ngón út và ngón thứ ba) [1]. Hình ảnh có kích

thước 150 x 150 đã được cắt bỏ và tiếp tục thay đổi kích thước thành 100 x 100.

Dưới đây là một số hình ảnh vân mạch máu người trong cơ sở dữ liệu PUT

Hình 4.1 Ảnh vân mạch máu từ bàn tay trái trong cơ sở dữ liệu PUT_left_100

Hình 4.2 Ảnh vân mạch máu từ bàn tay phải trong cơ sở dữ liệu PUT_right_100

4.2 Kết quả thực nghiệm

Cơ sở dữ liệu chứa 100 người dùng trong ba phiên thu thập dữ liệu (bốn mẫu

trong mỗi phiên). Hình ảnh vân mạch máu lòng bàn tay có kích thước 150 x 150 đã

được cắt ra và tiếp tục thay đổi kích thước thành 100 x 100. Từ cơ sở dữ liệu PUT

66

bên trái và PUT bên phải, năm mẫu được sử dụng để đào tạo và bảy mẫu được sử

dụng để thử nghiệm.

Bảng 4.1 Cơ sở dữ liệu huấn luyện và so khớp trong thực nghiệm

Mỗi lớp Tất cả các lớp Cơ sở dữ

liệu đăng Ảnh huấn Ảnh kiểm Ảnh huấn Ảnh kiểm

ký luyện tra luyện tra

(N=100) 5 7 500 700 PUT_left

(N=100) 5 7 500 700 PUT_right

Nhận dạng(Identification) thực hiện so sánh một - nhiều trả lời câu hỏi ai là

người trong hình ảnh đầu vào? Tỉ lệ nhận dạng xếp hạng 1 được sử dụng để tính toán

độ chính xác của nhận dạng, trong đó hình ảnh thử nghiệm sẽ được so khớp với tất

cả các mẫu trong tập huấn luyện và tên(label) của mẫu tương tự nhất sẽ được gán cho

hình ảnh thử nghiệm này. Xác thực(Verification) thực hiện so sánh 1-1 trả lời câu hỏi

liệu người đó có phải là người mà anh ta yêu cầu hay không. Trong các thực nghiệm,

các cặp thống kê về Tỉ lệ từ chối sai (FRR) và Tỉ lệ chấp nhận sai (FAR) được sử

dụng để tính toán EER [34]. Tỉ lệ nhận dạng xếp hạng 1 trung bình từ cơ sở dữ liệu

PUT tay trái và PUT tay phải được minh họa trong Bảng 4.3 và 4.4. Trong các thực

nghiệm, có 500 (100 × 5) điểm thật (genuine scores) và 29.700 (100 × 3 × 99) điểm

mạo danh trên cả cơ sở dữ liệu lòng bàn tay trái của CASIA và cơ sở dữ liệu lòng bàn

tay phải của PUT. Hình 4.1 và 4.2 trình bày các đặc điểm hoạt động của bộ thu từ cơ

sở dữ liệu lòng bàn tay trái và phải của PUT. Kết quả (xem Bảng 4.3 và 4.4) đề xuất

cải thiện hiệu suất cho tất cả các phương pháp tiếp cận.

Tất cả các thuật toán được triển khai sử dụng ngôn ngữ java và thực nghiệm

các bộ mô tả khác nhau trên VPS có CPU Intel (R) Xeon (R) 2,4 GHz 2,4 GHz (2 bộ

xử lý) và RAM 4 GB. Thời gian mô phỏng rút trích đặc trưng được liệt kê trong Bảng

67

4.3 và 4.4. Có thể thấy rằng thời gian rút trích đặc trưng của các phương pháp được

đề xuất lớn hơn bộ mô tả CS-LBP và nhỏ hơn Gabor-SIFT.

Bảng 4.2 Hiệu suất trung bình từ tay trái của PUT

Recognition rate Time of feature Matcher extraction(s) (%)

0.015 LBP 78.33

1.3 Gabor SIFT 93.67

1.023 CS-LBP-SIFT 91.33

1.312 CL-SIFT 96.33

1.368 Our method: MFRAT EL-SIFT 97.01

Bảng 4.3 Hiệu suất trung bình từ tay phải của PUT

Recognition rate Time of feature Matcher extraction(s) (%)

0.016 LBP 77.67

1.287 Gabor SIFT 91.67

1.015 CS-LBP-SIFT 90.33

1.295 CL-SIFT 95

1.31 Our method: MFRAT EL-SIFT 96.24

68

CHƯƠNG 5

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1 Kết luận

Trong nghiên cứu này, trình bày phương pháp SIFT cải tiến bằng cách đề xuất

kết hợp bộ lọc MFRAT và mẫu nhị phân cục bộ đối xứng tâm nâng cao (ECS-LBP)

với SIFT, được gọi là MFRAT- EL-SIFT. Trong đó, MFRAT làm rõ tính đối xứng

tuyến tính của các đường vân mạch máu, giúp loại bỏ bớt nhiễu trên hình ảnh. ECS-

LBP, một phiên bản sửa đổi của CS-LBP, tính toán các giá trị đặc trưng từ các khối

(tập hợp điểm) thay vì các điểm cô lập. Ưu điểm của ECS-LBP là phát hiện kết cấu

vân mạch máu ổn định. Kết quả thử nghiệm trên cơ sở dữ liệu vân mạch máu lòng

bàn tay không tiếp xúc công khai PUT cho thấy phương pháp đề xuất đạt độ chính

xác hơn phương pháp SIFT truyền thống. Các nỗ lực nghiên cứu sâu hơn được tập

trung để khai thác thông tin định hướng, thông tin này cũng có thể được rút trích đồng

thời trong quá trình chụp ảnh vân lòng bàn tay không tiếp xúc và phát triển các mô

hình kết hợp để áp dụng hiệu quả trong việc nhận dạng vân mạch máu lòng bàn tay

không tiếp xúc đáng tin cậy hơn.

5.2 Kiến nghị

- Kiểm tra một loại tập dữ liệu khác của hình ảnh vân mạch máu chịu tác động tỉ lệ

cao hơn.

- Chất lượng của dữ liệu hình ảnh rất quan trọng đối với các ứng dụng. Vì vậy, các

phương pháp nâng cao hình ảnh hiện tại có thể được cải thiện để mang lại kết quả

nâng cao tốt hơn với độ phức tạp thấp hơn.

- Hệ thống được đề xuất có thể được áp dụng cho bất kỳ bộ phận nào trên cơ thể

người có các vân mạch máu như vân mạch máu ở ngón tay và vân mạch máu ở cổ

tay.

- Có thể sử dụng một phương pháp kết hợp khác, chẳng hạn như mạng nơ-ron.

- Trong một số trường hợp của hình ảnh đầu vào, cần xoay trong thời điểm giới

thiệu đó (In some cases of the input image, need rotation in that moment of

introduction).

69

TÀI LIỆU THAM KHẢO

[1] VISA. Consumers ready to switch from passwords to biometrics, study shows.

Research conducted by AYTM Market Research, among adult consumers who use at

least one credit card, debit card, and/or mobile pay., 2018. Accessed May 2018..

[2] S. Prabhakar, S. Pankanti, and A. K. Jain. Biometric Recognition: Security and

Privacy Concerns. IEEE Security & Privacy, 1(2):33–42, 2003.

[3] S. Furnell. From Passwords to Biometrics - In Pursuit of a Panacea. In O. Camp,

E. Weippl, C. Bidan, and E. Aïmeur, editors, Information Systems Security and

Privacy, pages 3–15. Springer International Publishing, 2015.

[4] ISO 2017. ISO/IEC 2382-37/2017, Information Technology - Vocabulary - Part

37: Biometrics, 2017.

[5] L. Vasiu. Biometric Recognition - Security and Privacy Concerns. In ICETE

2004, 1st International Conference on E-Business and Telecommunication Networks,

Setúbal, Portugal, August 24-28, 2004, Proceedings, page 3, 2004.

[6] A. Abaza, A. Ross, C. Hebert, M. A. F. Harrison, and M. S. Nixon. A Survey on

Ear Biometrics. ACM Comput. Surv., 45(2):22:1–22:35, 2013.

[7] M. J. Burge and K. W. Bowyer, editors. Handbook of Iris Recognition. Advances

in Computer Vision and Pattern Recognition. Springer, 2013. [33] Rahul, R.C.,

Cherian, M., Manu Mohan, C.M.: ‘A novel Mf-ldtp approach for contactless palm

vein recognition’. 2015 Int. Conf. on Computing and Network Communications

(CoCoNet), Trivandrum, India, December 2015, pp. 793–798

[34] Mirmohamadsadeghi, L., Drygajlo, A.: ‘Palm vein recognition with local texture

patterns’, IET Biometrics, 2014, 3, (4), pp. 198–206

[35] Akbar, A.F., Wirayudha, T.A.B., Sulistiyo, M.D.: ‘Palm vein biometric

identification system using local derivative pattern’. 2016 4th Int. Conf. on

Information and Communication Technology (ICoICT), Bandung, Indonesia, May

2016, pp. 1–6

70

[36] Tome, P., Marcel, S.: ‘Palm vein database and experimental framework for

reproducible research’. 2015 Int. Conf. of the Biometrics Special Interest Group

(BIOSIG), Darmstadt, Germany, October 2015, pp. 1–7

[37] Piciucco, E., Maiorana, E., Campisi, P.: ‘Palm vein recognition using a high

dynamic range approach’, IET Biometrics, 2018, 7, (5), pp. 439–446

[38] Srinithi, A., Goplalakrishnana, B.: ‘Personal identification based on dorsal palm

blood vessel pattern by texture feature’. 2017 IEEE Int. Conf. on Electrical,

Instrumentation and Communication Engineering (ICEICE), Karur, Tamilnadu,

India, April 2017, pp. 1–5

[39] Kang, W., Wu, Q.: ‘Contactless palm vein recognition using a mutual

foreground-based local binary pattern’, IEEE Trans. Inf. Forensics Secur., 2014, 9,

(11), pp. 1974–1985, 49–52

[40] Pratiwi, A.Y., Budi, W.T.A., Ramadhani, K.N.: ‘Identity recognition with palm

vein feature using local binary pattern rotation invariant’. Int. Conf. on Information

and Communication Technology, Bandung, Indonesia, May 2016, pp. 1–6

[41] ManMohan Saxena, J., Teckchandani, K., et al.: ‘Palm vein recognition using

local tetra patterns’. 2015 4th Int. Work Conf. on Bioinspired Intelligence (IWOBI),

San Sebastian, Spain, June 2015, pp. 151–156

[42] Fronitasari, D., Gunawan, D.: ‘Palm vein recognition by using modified of local

binary pattern (LBP) for extraction feature’. 2017 15th Int. Conf. on Quality in

Research (QiR): Int. Symp. on Electrical and Computer Engineering, Nusa Dua, Bali,

Indonesia, July 2017, pp. 18–22

[43] Aglio-Caballero, A., Ríos-Sánchez, B., Sánchez-Ávila, C., et al.: ‘Analysis of

local binary patterns and uniform local binary patterns for palm vein biometric

recognition’. 2017 Int. Carnahan Conf. on Security Technology (ICCST), Madrid,

Spain, October 2017, pp. 1–6

[44] Han, W.-Y., Lee, J.-C.: ‘Palm vein recognition using adaptive gabor filter’,

Expert Syst. Appl., 2012, 39, (18), pp. 13225–13234

71

[45] Cancian, P., Donato, G.W.D., Rana, V., et al.: ‘An embedded gabor-based palm

vein recognition system’. IEEE Embs Int. Conf. on Biomedical & Health Informatics,

Orlando, FL, United States, April 2017, pp. 405–408, 53–58

[46] Savitha, A.P., Ramegowda, : ‘A comparative study of palm vein feature

extraction and classification’, Mater. Today: Proc., 2017, 4, (11), pp. 11882– 11887

[47] Ma, X., Jing, X., Huang, H., et al.: ‘A novel palm vein recognition scheme based

on an adaptive gabor filter’, IET Biometrics, 2017, 6, (5), pp. 325–333

[48] Raut, S.D., Humbe, V.T., Mane, A.V.: ‘Development of biometrie palm vein

trait based person recognition system: palm vein biometrics system’. 2017 1st Int.

Conf. on Intelligent Systems and Information Management (ICISIM), Aurangabad,

India, October 2017, pp. 18–21

[49] Boubchir, L., Aberni, Y., Daachi, B.: ‘Competitive coding scheme based on 2d

log-gabor filter for palm vein recognition’. 2018 NASA/ESA Conf. on Adaptive

Hardware and Systems (AHS), Edinburgh, UK, August 2018, pp. 152–155

[50] Xu, Y., Fei, L., Wen, J., et al.: ‘Discriminative and robust competitive code for

palmprint recognition’, IEEE Trans. Syst. Man Cybernet., Syst., 2018, 48, (2), pp.

232–241

[51] Fei, L., Xu, Y., Tang, W., et al.: ‘Double-orientation code and nonlinear

matching scheme for palmprint recognition’, Pattern Recognit., 2016, 49, pp. 89–101

[52] Ladoux, P.O., Rosenberger, C., Dorizzi, B.: ‘Palm vein verification system based

on sift matching’. 3rd Int. Conf. on Advances in Biometrics, ICB 2009, Alghero,

Italy, June 2009, pp. 1290–1298

[53] ManMohan Saxena, J., Teckchandani, K., et al.: ‘Palm vein recognition using

local tetra patterns’. 2015 4th Int. Work Conf. on Bioinspired Intelligence (IWOBI),

San Sebastian, Spain, June 2015, pp. 151–156

[54] Gurunathan, V., Sathiyapriya, T., Sudhakar, R.: ‘Multimodal biometric

recognition system using surf algorithm’. Int. Conf. on Intelligent Systems and

Control, Coimbatore, India, January 2016, pp. 1–5

72

[55] Kang, W., Liu, Y., Wu, Q., et al.: ‘Contact-free palm-vein recognition based on

local invariant features’, PLoS One, 2014, 9, (5), pp. e97548

[56] Pan, M., Kang, W.: ‘Palm vein recognition based on three local invariant feature

extraction algorithms’, Biometric Recogn., 2011, 7098, pp. 116–124

[57] Wu, K.-S., Lee, J.-C., Lo, T.-M., et al.: ‘A secure palm vein recognition system’,

J. Syst. Software, 2013, 86, (11), pp. 2870–2876

[58] Kang, W., Liu, Y., Wu, Q., et al.: ‘Contact-free palm-vein recognition based on

local invariant features’, PLoS One, 2014, 9, (5), pp. e97548

[59] Watanabe, M.: ‘Palm vein authentication’, in ‘Advances in biometrics’

(Springer, London, 2008), pp. 75–88.

[60] Kang, W., Wu, Q.: ‘Contactless palm vein recognition using a mutual

foreground-based local binary pattern’, IEEE Trans. Inf. Forensics Secur., 2014, 9,

(11), pp. 1974–1985.

[61] Micheletto, M., Orrù, G., Rida, I., et al.: ‘A multiple classifiers-based approach

to palmvein identification’. 2018 Eighth Int. Conf. on Image Processing Theory,

Tools and Applications (IPTA), Xi'an, China, November 2018, pp. 1–6

[62] Rida, I., Al-Maadeed, S., Mahmood, A., et al.: ‘Palmprint identification using an

ensemble of sparse representations’, IEEE. Access., 2018, 6, pp. 3241– 3248

[63] Rizki, F., Wirayuda, T.A.B., Ramadhani, K.N.: ‘Identity recognition based on

palm vein feature using two-dimensional linear discriminant analysis’. 2016 1st Int.

Conf. on Information Technology, Information Systems and Electrical Engineering

(ICITISEE), Yogyakarta, Indonesia, August 2016, pp. 21–25

[64] Elnasir, S., Shamsuddin, S.M.: ‘Proposed scheme for palm vein recognition

based on linear discrimination analysis and nearest neighbour classifier’. 2014 Int.

Symp. on Biometrics and Security Technologies (ISBAST), Kuala Lumpur,

Malaysia, August 2014, pp. 67–72

73

[65] Xu, J.: ‘An online biometric identification system based on two dimensional

fisher linear discriminant’. 2015 8th Int. Congress on Image and Signal Processing

(CISP), Shenyang, China, October 2015, pp. 894–898

[66] Lajevardi S.M. and Lech M.,”Averaged Gabor Filter Features for Facial

Expression Recognition”, DICTA08, Canberra, Australia, 2008.

[67] Ali Mohsin Al-juboori, Wei Bu Xiangqian Wu, and Qiushi Zhao1 , Palm Vein

Verification Using Multiple Features and Isometric Projection,2014, International

Journal of Signal Processing, Image Processing and Pattern Recognition.

[68] Ran Wang, Guoyou Wang, Zhong Chen, Zhigang Zeng, Yong Wang, A palm

vein identification system based on Gabor wavelet features , 2014, Neural Comput &

Applic.

[69] Timo Ahonen, Abdenour Hadid, Matti Pietikäinen, "Face Recognition with

Local Binary Patterns", 2004, Computer Vision - ECCV, pp. 469-481.

[70] T. Ojala, M. Pietikainen, T. Maenpaa, "Multiresolution gray-scale and rotation

invariant texture classification with local binary patterns", 2002, IEEE Transactions

on Pattern Analysis and Machine Intelligence, pp. 971-987.

[71] Arko Lucieer, Alfred Stein and Peter Fisher ,” Multivariate Texturebased

Segmentation of Remotely Sensed Imagery for Extraction of Objects and Their

Uncertainty”.

[72] M Heikkila, M Pietikainen, "A texture-based method for modeling the

background and detecting moving objects", IEEE Transactions on Pattern Analysis

and Machine Intelligence, 2006, pp.657-662.

[73] Zhenhua Guo,Lei Zhang,David Zhang,”Rotation Invariant texture classification

using LBP variance (LBPV) with global matching”. Pattern Recognition 43 (2010)

706–719.

[74] Lee, J.C.: ‘A novel biometric system based on palm vein image’, Pattern

Recognit. Lett., 2012, 33, (12), pp. 1520–1528.

74

[75] Lowe, D.G.: ‘Distinctive image features from scale-invariant keypoints’, Int. J.

Comput. Vis., 2004, 2, (60), pp. 91–110

[76] Badrinath, G.S., Gupta, P.: ‘Palmprint verification using sift features’. Proc. First

Workshops on Image Processing Theory, Tools and Application, IPTA 2008, 2008,

pp. 1 –8

[77] Zuiderveld, K.: ‘Contrast limited adaptive histogram equalization’, Graphic

Gems IV (Academic Press Professional, San Diego, 1994), pp. 474–485

75