TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
Tp 23, S 1 (2023)
13
NG DNG QUN LÝ VÀ CHM CÔNG
BNG NHN DNG KHUÔN MT DA TRÊN TRÍ TU NHÂN TO
Nguyn Đc Nht Quang*, Phan Văn Cưng,
Ngô Văn Tiến Đt, Phan Hi Phong
Khoa Điện, Điện t Công ngh vt liu, Trường Đại hc Khoa học, Đại hc Huế
*Email: ndnquang@hueuni.edu.vn
Ngày nhn bài: 19/9/2023; ngày hoàn thành phn bin: 28/9/2023; ngày duyệt đăng: 4/12/2023
TÓM TT
Nhn dng khuôn mt mt bài toán quan trng trong trí tu nhân to. Chm công
bng nhn dng khuôn mt với độ chính xác cao, giúp tiết kim thi gian và chi phí
so với các phương pháp khác. Trong nghiên cu này, nhóm tác gi ng dng thut
toán FaceNet kết hp vi mạng -ron tích chập đa nhiệm (Multi-task Cascaded
Convolutional Networks MTCNN) để phát hiện c định khuôn mt trong h
thng chm công. FaceNet đưc s dng để so sánh nhn dng khuôn mt, trong
khi MTCNN s dng hc sâu để phát hin khuôn mặt, xác định điểm đặc trưng
gii hn khuôn mt. Ngoài ra, nhóm tác gi còn thiết kế giao din ng dng thân
thin với người dùng, giúp qun chm công trực quan n. Kết qu th nghim
cho thy hiu qu nhn dng khuôn mt với độ chính xác lên đến 96%, đồng thi
gim ảnh hưởng ca yếu t khách quan như ánh sáng, góc độ.
T khóa: attendance, face recognition, facenet, MTCNN
1. M ĐẦU
Trong bi cnh ca thời đại s hóa s phát trin mnh m ca công ngh thông
tin, vic qun lý nhân s mt cách hiu qu chính xác đang trở thành mt thách thc
quan trng đối vi các t chc và doanh nghip. Hiện nay, các phương pháp chấm công
ph biến được s dng trong các t chc và doanh nghip bao gm chm công bng tay
(chm công th công), chm công bng th t chm công bng vân tay [1]. Mặc dù đã
phc v mục đích quản lý nhân s trong thi gian dài nhưng các phương pháp này đều
gp phi mt s hn chế như gian ln, sai sót do nhp liu, không đảm bo tính chính
xác và hiu qu chưa cao. Để gii quyết nhng hn chế này, h thng qun lý chm
công bng công ngh nhn dng khuôn mt [2] đã xuất hiện như một giải pháp đột phá.
Công ngh nhn dng khuôn mt hoạt động mt cách t động chính xác, có kh năng
ng dng qun lý và chm công bng nhn dng khuôn mt da trên trí tu nhân to
14
ghi nhn thi gian làm vic ca nhân viên, đồng thi mang li nhiu lợi ích vượt tri cho
vic qun lý nhân s.
H thng này hoạt động bng cách s dng thiết b chp nh hoặc camera để
quét ghi li hình nh khuôn mt của nhân viên. Sau đó, h thng s dng các thut
toán thông minh để phân tích so sánh các đặc điểm độc nht ca khuôn mt với
s d liu đã được lưu trữ trước đó. Khi nhận dng thành công, h thng s t động ghi
nhn thời gian và thông tin liên quan, như thời gian đến làm, thi gian ra vcác hot
động khác.
H thng qun lý và chm công bng công ngh nhn dng khuôn mt mang li
nhiu lợi ích đáng kể. Đầu tiên, nó giúp tiết kim thi gian và công sc ca c nhân viên
và người qun lí, quá trình chm công tr nên t động và nhanh chóng. Th hai, nó
gim thiu sai sót trong quá trình chấm công, đảm bo tính chính xác và minh bch. Th
ba, nó tăng cường an ninh và kim soát truy cp bng cách loi b kh năng sử dng th
hoc mt khu gi mo. Cui cùng, cung cấp cho người qun thông tin liên quan
đến chm công mt cách thun tin và d dàng.
Vi nhn thc v xu hưng phát trin ca công ngh, nghiên cu này tp trung
vào "H thng qun chm công bng công ngh nhn dng khuôn mt" trình
bày hai chức năng chính: chm công nhân viên bng nhn dng khuôn mt qun
trên ng dng.
2. PHƯƠNG PHÁP NGHIÊN CỨU
Nhn dng khuôn mt một lĩnh vực quan trng ca Trí tu nhân to (Artificial
Intelligence AI) và đã được ng dng rng rãi trong nhiu lĩnh vực như an ninh, giám
sát, chm công, gii trí, y tế và nhiu hơn nữa. Cùng vi s phát trin không ngng ca
công nghệ, các phương pháp và thuật toán để nhn dng khuôn mặt ngày càng được ci
tiến hoàn thin. Nhn dng khuôn mặt được t qua các bước phát hin khuôn
mt, chun hoá và trích chọn đặc trưng để đưa ra kết qu.
Hiện nay, có ba phương pháp tiếp cn ph biến trong bài toán phát hin nhn
dng khuôn mt, bao gm: thut toán Haar Cascade [3], mạng -ron tích chp
(Convolutional Neural Network CNN) [4] phân tích đặc trưng (Feature Analysis).
Trong đó:
Thut toán Haar Cascade hot đng bng cách s dng mt tp hợp các đặc
trưng kiểu Haar để phát hin s hin din ca khuôn mt trong mt hình
ảnh. Các đặc trưng kiểu Haar các mu ch nhật đơn giản th đưc s
dụng để phân bit gia các vùng khác nhau ca mt hình nh da trên giá
tr độ sáng ca các đim nh (pixel). Thut toán này kh năng phát hiện
khuôn mt với độ chính xác cao.
TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
Tp 23, S 1 (2023)
15
CNN hoạt động bng cách s dng mt mạng -ron sâu vi các lp tích
chập để trích xuất các đặc trưng của khuôn mt t mt hình nh. Các lp tích
chp trong CNN s dng b lọc để quét qua các vùng ca hình nh và to ra
các bản đồ đặc trưng tương ứng. Bng cách kết hp các lp tích chp vi các
lp kích hot phi tuyến, CNN kh năng học phân loại các đặc trưng
phc tp ca khuôn mt với độ chính xác cao.
Thuật toán phân tích đặc trưng một phương pháp nhn dng khuôn mt
da trên việc phân tích các đặc trưng của khuôn mt. Thut toán này s dng
mt tp hp các b lọc đơn giản để phát hiện các đặc trưng của khuôn mt
trong mt hình nh. Các b lc này bao gm các b lọc đường thng, hình
ch nht hình tam giác. Qua quá trình hun luyn tối ưu hóa, thuật
toán phân tích đặc trưng thể phát hin phân loi khuôn mt với độ
chính xác cao.
Tuy nhiên, các phương pháp trên vn tn ti mt s nhược điểm như tốc độ x
chậm, độ chính xác thp khi khuôn mt b che khuất, không đủ ánh sáng hoc góc
nghiêng ca khuôn mt, khó tích hp vào các ng dng thc tế và có độ bo mt không
cao.
Do đó, trong nghiên cu này, nhóm tác gi đã đề xut s dng Mạng -ron tích
chập đa nhiệm (Multi-task Cascaded Convolutional Networks MTCNN) [5] kết hp
vi thut toán FaceNet [5] làm phương pháp tiếp cn mi và ci tiến. Trong đó, MTCNN
s dụng CNN để phát hin khuôn mt to ra các véc- đặc trưng biểu din v trí
khuôn mt. FaceNet s dng mạng CNN để nhúng hình nh vào không gian Euclid và
to ra các biu diễn đặc trưng để nhn dng khuôn mt. S kết hp gia hai thut toán
này giúp khc phục các nhược điểm của các phương pháp truyền thng mang li hiu
sut nhn dng khuôn mặt cao hơn.
2.1. Phát hin khuôn mt bng MTCNN
Mạng -ron tích chập đa nhiệm là mt phương pháp phổ biến được s dụng để
phát hin khuôn mt trong bc nh. bao gm ba mạng -ron tích chập được xếp
chng lên nhau để phát hiện xác định v trí khuôn mt. Mi mạng -ron tích chp
trong MTCNN cu trúc vai trò khác nhau trong quá trình phát hin khuôn mt.
Khi s dng, MTCNN cho phép to ra nhiu bn sao ca ảnh đầu vào với các kích thước
khác nhau để s dng làm các d liu đầu vào. Kết qu đu ra ca MTCNN là mt véc-
đặc trưng biu din v trí khuôn mặt được xác định trên bc nh, bao gồm các đặc
điểm như mắt, mũi, miệng, và nhiều hơn nữa.
Quá trình phát hin khuôn mt bằng MTCNN được thc hiện thông qua ba bước
vi ba mạng -ron tích chp riêng biệt tương ng cho mi bước mạng đề xut
ng dng qun lý và chm công bng nhn dng khuôn mt da trên trí tu nhân to
16
(Proposal Network P-Net), mng lc (Refine Network R-Net) mạng đu ra
(Output Network O-Net), c th:
c 1: Mạng đề xut
Trong c này, mạng đề xut (Proposal Network P-Net) đưc s dụng để thu
đưc các ca s cha khuôn mt các véc- hồi quy để điu chnh v trí ca các ca
s đó. Tiếp theo, các ca s cha khuôn mt được hiu chun da trên các véc- hi
quy. Cui cùng, nhng ca s xếp chng nhau ti một vùng được hp nht thành mt
ca s. Kết qu ca P-Net là các ca s có kh ng cha khuôn mt.
P-Net trong MTCNN s dng mt kiến trúc CNN đơn giản gm 3 lp tích chp
(Convolutional CONV) 1 lp gp cực đại (Max Pooling MP) để thc hin nhim
v phát hin khuôn mt (Hình 1). Đầu vào ca P-Net mt ca s trượt có kích thước
12x12x3. Trong đó:
S 3 tương ứng với 3 kênh màu: đỏ, xanh lc, xanh lam trong h màu RGB.
12x12: kích thước ca ca s hoc vùng hình s quét qua bc nh.
Kích thước 12x12 nghĩa cửa s này mt hình vuông chiu rng
chiều cao đều là 12 điểm nh.
Hình 1. Mạng đề xut (P-Net) [8].
P-Net gm 3 cụm như sau:
Cm th nht có 2 b lọc kích thước 1x1 để nhn dng khuôn mt. Cm này
đưc s dụng đ xác định xem ca s hin ti cha khuôn mt hay không.
Cm th hai 4 b lọc kích thước 1x1 để đóng khung 4 vị trí hp gii hn
(bounding box). Cm này được s dụng để xác định v trí và kích thước ca
khuôn mt trong ca s.
Cm th ba 10 b lọc kích thước 1x1 để đóng khung 10 vị trí trên khuôn
mt. Cụm này được s dụng để xác định các điểm chính trên khuôn mặt như
mắt, mũi, miệng, v.v.
TP CHÍ KHOA HC VÀ CÔNG NGHỆ, Trường Đại hc Khoa học, ĐH Huế
Tp 23, S 1 (2023)
17
P-Net cho phép xác định v trí ca khuôn mặt các đặc điểm trên khuôn mt
trong ca s trượt. Các cụm này được s dụng để tiếp tc quá trình phát hin khuôn
mặt và điều chnh v trí trong các bước tiếp theo ca MTCNN.
c 2: Mng lc
Tt c các ca s cha khuôn mt t ớc trước s đưc sàng lc bằng cách đưa
vào mng lc (Refine Network R-Net) như trên Hình 2. R-Net tiếp tc lc b các ca
s không cha khuôn mt và áp dng các véc- hồi quy để điu chnh v trí ca các ca
s còn li.
Hình 2. Mng lc (R-Net) [8].
R-Net s dng kiến trúc CNN gm: 3 lp tích chp, 2 lp gp cực đại 1 lp
kết nối đầy đủ (Fully Connected FC). Đầu vào ca s trượt với kích thước 24x24x3.
Trong đó:
S 3 tương ứng với 3 kênh màu: đỏ, xanh lc, xanh lam trong h màu RGB.
24x24: kích tc ca ca s hoc vùng hình s quét qua bc nh.
Kích thước 24x24 nghĩa cửa s này mt hình vuông chiu rng
chiều cao đều là 24 điểm nh.
R-Net phân thành 3 cm:
Cm th nht có 2 lp nhn dng khuôn mt. Cụm này được s dụng đ xác
định xem ca s trượt hin ti có cha khuôn mt hay không.
Cm th hai 4 lớp đánh dấu v trí hp gii hn. Cụm này được s dng
để xác định v trí và kích thước ca khuôn mt trong ca s trượt.
Cm th ba có 10 lp v trí khuôn mt. Cụm này được s dụng để xác định
các điểm chính trên khuôn mặt như mắt, mũi, miệng, v.v.
Các cm này cung cp thông tin quan trọng để tiếp tc quá trình phát hin khuôn
mặt và điều chnh v trí trong bước cui cùng ca MTCNN.