®¹i häc th¸i nguyªn Trêng ®¹i häc c«ng nghÖ th«ng tin vµ truyÒn th«ng
NGUYỄN THẾ THỤY
PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT TỪ CAMERA, ỨNG DỤNG TRONG ĐIỂM DANH
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2015
1 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CAM ĐOAN
Tôi - Nguyễn Thế Thụy xin cam đoan những nội dung trình bày luận văn này là
kết quả tìm hiểu, nghiên cứu của bản thân dƣới sự hƣớng dẫn của TS. Nguyễn Văn
Tảo và tham khảo từ các nhà nghiên cứu đi trƣớc. Nội dung tham khảo, kế thừa, phát
triển từ các công trình đã đƣợc công bố đƣợc trích dẫn, ghi rõ nguồn gốc.
Nếu có gì sai phạm tôi xin hoàn toàn chịu trách nhiệm.
Ngƣời cam đoan
Nguyễn Thế Thụy
2 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CẢM ƠN
Trong quá trình thực hiện luận văn mặc dù gặp rất nhiều khó khăn nhƣng em luôn
nhận đƣợc sự quan tâm, giúp đỡ từ thầy cô, đồng nghiệp, bạn bè và ngƣời thân. Đây là
nguồn động lực giúp em hoàn thành luận văn này.
Em xin gửi lời cảm ơn chân thành tới TS. Nguyễn Văn Tảo đã tận tình giúp đỡ,
hƣớng dẫn và chỉ bảo trong quá trình thực hiện luận văn.
Em xin chân thành cảm ơn tới quý Thầy, Cô giáo đang công tác tại Viện Công nghệ
thông tin Việt Nam, Trƣờng Đại học Công nghệ thông tin và Truyền thông Thái Nguyên
đã tận tình chỉ bảo, truyền đạt những kiến thức qúy báu giúp em hoàn thành nhiệm vụ
học tập trong suốt thời gian theo học tại trƣờng. Quý Thầy Cô đã giúp em có đƣợc
những kiến thức quan trọng trong lĩnh vực Công nghệ thông tin, là nền tảng vững chắc
cho những nghiên cứu của bản thân trong thời gian tới.
Em xin cảm ơn các đồng nghiệp đã giúp đỡ, ủng hộ tinh thần trong thời gian em
tham gia học tập và nghiên cứu.
Cuối cùng, em xin cảm ơn tất cả những ngƣời đã luôn luôn quan tâm, sẻ chia và
động viên em.
Thái Nguyên, ngày 17 tháng 07 năm 2015
Nguyễn Thế Thụy
3 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................ 1 LỜI CẢM ƠN .................................................................................................................. 3
DANH MỤC CÁC HÌNH VẼ ......................................................................................... 6
LỜI MỞ ĐẦU ................................................................................................................. 7
CHƢƠNG 1: SINH TRẮC HỌC VÀ BÀI TOÁN NHẬN DẠNG KHUÔN MẶT
ỨNG DỤNG TRONG ĐIỂM DANH ............................................................................. 8
1.1. Tổng quan về sinh trắc học .................................................................................. 8
1.1.1. Hệ thống sinh trắc học ................................................................................ 10
1.1.1.1. Hệ thẩm định (Verification) ............................................................... 10
1.1.1.2. Nhận dạng (Identification, Recognition) ............................................ 11
1.1.1.3. Các thành phần chức năng chủ yếu .................................................... 11
1.1.1.4. Hoạt động của hệ thống ...................................................................... 11
1.1.2. Đánh giá hiệu năng và chất lƣợng hoạt động của hệ sinh trắc học ............ 11
1.1.3. Hệ thống an ninh bảo mật dựa trên sinh trắc học ....................................... 13
1.2. Phát hiện và nhận dạng khuôn mặt .................................................................... 13
1.3. Những khó khăn và thách thức trong bài toán nhận dạng khuôn mặt ............... 16
1.4. Các ứng dụng của bài toán nhận dạng khuôn mặt ............................................. 16
1.5. Bài toán điểm danh dựa trên khuôn mặt ............................................................ 18
1.5.1. Bài toán điểm danh và quản lý nhân sự ..................................................... 18
1.5.2. Đầu vào của bài toán .................................................................................. 19
1.5.3. Đầu ra và ý nghĩa thực tiễn ........................................................................ 20
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT21
2.1. Một số kỹ thuật phát hiện mặt ngƣời trong ảnh ................................................. 21
2.1.1. Hƣớng tiếp cận dựa trên đặc trƣng của ảnh ............................................... 22
2.1.1.1. Phân tích mức thấp (Low level analysis)............................................ 23
2.1.1.2. Phân tích đặc trƣng (Feature Analysis) .............................................. 27
2.1.1.3. Mô hình hình dạng động (Active shape models) ................................ 33
2.1.2. Hƣớng tiếp cận dựa trên ảnh (Image based detection) ............................... 37
2.1.2.1. Phƣơng pháp không gian con tuyến tính (Linear subspace methods) 38
2.1.2.2. Mạng neural ........................................................................................ 41
2.1.2.3. Phƣơng pháp thống kê (Statistical approachs) ................................... 44
4 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.2. Một số kỹ thuật nhận dạng khuôn mặt ............................................................... 47
2.2.1. Phƣơng pháp phân tích thành phần chính (PCA) ....................................... 48
2.2.2. Phƣơng pháp phân tách tuyến tính (LDA) ................................................. 49
2.2.3. Phƣơng pháp mạng neural .......................................................................... 52
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM .................................................................. 54
3.1. Yêu cầu thực nghiệm, ứng dụng ........................................................................ 54
3.2. Phân tích lựa chọn giải pháp, công cụ ............................................................... 55
3.3. Một số kết quả cài đặt thực nghiệm .................................................................. 56
3.3.1. Giao diện của chƣơng trình ........................................................................ 56
3.3.2. Một số kết quả điểm danh dựa trên khuôn mặt .......................................... 60
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 64
TÀI LIỆU THAM KHẢO ......................................................................................... 65
5 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Các đặc trƣng sinh trắc phổ biến ..................................................................... 8
Hình 1.2. Mô hình hệ thống sinh trắc học ....................................................................... 9
Hình 1.3. Các giá trị ngƣỡng của FAR và FRR ............................................................ 11
Hình 1.4. Mô hình hệ thống nhận dạng mặt ngƣời ....... Error! Bookmark not defined.
Hình 2.1. Sơ đồ các hƣớng tiếp cận và phƣơng pháp phát hiện mặt ngƣời .......... Error!
Bookmark not defined.
Hình 2.2. Hệ thống tìm kiếm mặt của Maio và Maltoni Error! Bookmark not defined.
Hình 2.3. Một số không gian riêng của CSDL ảnh ORL .............................................. 38
Hình 2.4. Mô hình mạng neural của Rowley và cộng sựError! Bookmark not
defined.
Hình 2.5. Hệ thống nhận dạng khuôn mặt ..................... Error! Bookmark not defined.
Hình 2.6. Ví dụ minh họa LDA ..................................................................................... 47
Hình 2.7. Ảnh sau khi biến đổi theo LDA ..................................................................... 49
Hình 2.8. Mạng neural 2 lớp truyền thẳng .................... Error! Bookmark not defined.
Hình 3.1. Quy trình hoạt động của hệ thống điểm danh dựa trên khuôn mặt …Error! Bookmark not defined.
Hình 3.2. Giao diện chính của chƣơng trình ................. Error! Bookmark not defined.
Hình 3.3. Hình ảnh từ camera và xử lý tƣơng ứng ........ Error! Bookmark not defined.
Hình 3.4. Giao diện quản lý danh sách điểm danh và điểm danhError! Bookmark not
defined.
Hình 3.5. Giao diện quản lý danh sách ảnh ................................................................... 60
Hình 3.6. Cơ sở dữ liệu ảnh ........................................................................................... 60
Hình 3.7. Giao diện các lựa chọn trên thanh thực đơn .................................................. 61
6 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI MỞ ĐẦU
Công nghệ Sinh trắc học (Biometric) là một công nghệ sử dụng những thuộc tính
vật lý hoặc các mẫu hành vi, các đặc điểm sinh học đặc trƣng nhƣ dấu vân tay, mẫu
mống mắt, giọng nói, khuôn mặt, dáng đi... để nhận diện con ngƣời.
Công nghệ sinh trắc học đƣợc áp dụng phổ biến và lâu đời, trong đó phƣơng pháp
sử dụng nhận dạng khuôn mặt là tự nhiên nhất. Phƣơng pháp này đƣợc chính bản thân
con ngƣời sử dụng từ khi đƣợc sinh ra để phân biệt giữa ngƣời này và ngƣời khác.
Ứng dụng khả năng phân biệt dựa trên các đặc điểm khác nhau của khuôn mặt, bài
toán “Phát hiện và nhận dạng khuôn mặt từ camera, ứng dụng trong điểm danh” là
bài toán có khả năng ứng dụng cao với chi phí thấp đƣợc áp dụng trong các cơ quan,
doanh nghiệp.
Với sự hỗ trợ của camera, máy tính và phần mềm điểm danh, nhà quản lý thu đƣợc
thông tin về sự có mặt và thời gian làm việc của ngƣời lao động một cách chính xác và
khách quan với chi phí thấp. Việc áp dụng nhận dạng khuôn mặt có thể đƣợc sử dụng
một cách độc lập với ƣu điểm hơn các phƣơng pháp sinh trắc học khác ở tính tự nhiên
của nó, đồng thời đây cũng có thể là một phƣơng pháp đƣợc sử dụng kết hợp với các
phƣơng pháp sinh trắc khác để nâng cao tính chính xác của hệ thống khi vận hành.
Chính vì tầm quan trọng của phát hiện, nhận dạng khuôn mặt nói riêng và công
nghệ sinh trắc nói chung, tôi thực hiện đề tài “Phát hiện và nhận dạng khuôn mặt từ
camera, ứng dụng trong điểm danh” với mục tiêu tìm hiểu các thuật toán phát hiện
và nhận dạng khuôn mặt ngƣời từ đó xây dựng chƣơng trình điểm danh dựa trên khuôn
mặt. Tôi hy vọng đề tài này sẽ đem lại một số kiến thức hữu ích cho những ai quan
tâm đến vấn đề về phát hiện và nhận dạng khôn mặt cũng nhƣ lĩnh vực sinh trắc học.
Nội dung luận văn đƣợc chia làm 3 phần chính: Chƣơng 1 trình bày khái quát về
quản lý học viên và bài toán điểm danh, trong đó nêu rõ đầu vào và đầu ra của bài toán
cũng nhƣ ứng dụng thực tiễn của bài toán. Chƣơng 2 là những nghiên cứu, tìm hiểu về
các thuật toán phát hiện và nhận dạng khuôn mặt. Chƣơng 3 trình bày thực nghiệm và
ứng dụng của chƣơng trình điểm danh dựa trên nhận dạng khuôn mặt. Phần cuối cùng
là kết luận và hƣớng phát triển tiếp theo của luận văn.
7 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
CHƢƠNG 1: SINH TRẮC HỌC VÀ BÀI TOÁN NHẬN DẠNG KHUÔN
MẶT ỨNG DỤNG TRONG ĐIỂM DANH
1.1. Tổng quan về sinh trắc học
Sinh trắc học hay công nghệ sinh trắc học (thuật ngữ khoa học là Biometric) là
công nghệ sử dụng những thuộc tính vật lý, đặc điểm sinh học riêng của mỗi cá nhân
nhƣ vân tay, mống mắt, khuôn mặt... để nhận diện. Thuật ngữ sinh trắc học
(Biometric) đƣợc dùng ghép theo tiếng Hy Lạp từ 2 từ: Bio (thuộc về thực thể sinh vật
sống) và metriko (kỹ thuật độ đo, đo lƣờng), thuật ngữ này đã đƣợc hình thành trong
quá trình phát triển loài ngƣời và đƣợc biết đến từ lâu để thể hiện các đặc trƣng về thể
chất hay về hành vi của từng cá thể con ngƣời. Có nhiều loại đặc trƣng sinh trắc học:
vân tay (Fingerprint), lòng bàn tay (Palm print), dạng hình học bàn tay (Hand
geometry), chữ ký viết tay (Hand written Signature), khuôn mặt (Face), tiếng nói
(Voice), con ngƣơi mắt (Iris), võng mạc (Retina)... Những đặc trƣng này đã đƣợc phát
hiện từ rất sớm để nhận dạng, xác thực chủ thể con ngƣời và hiện nay đang đƣợc quan
tâm nghiên cứu triển khai ứng dụng trong các lĩnh vực an ninh, quốc phòng, thƣơng
mại, công nghiệp, dịch vụ... Các đặc trƣng sinh trắc học của cơ thể ngƣời đƣợc sử
dụng phải đảm bảo các tiêu chuẩn sau đây: [1]
- Tính rộng rãi: là tính chất cho biết thông thƣờng mọi ngƣời đều có đặc trƣng này,
có thể tạo ra khả năng sử dụng hệ thống an ninh sinh trắc học cho một số lƣợng
ngƣời lớn.
- Tính phân biệt: là tính chất phân biệt đặc trƣng sinh trắc học giữa hai ngƣời bất
kỳ phải khác nhau, đảm bảo sự duy nhất của chủ thể sinh trắc.
- Tính ổn định: là tính chất mà đặc trƣng sinh trắc phải có tính ổn định trong một
thời gian tƣơng đối dài.
- Tính dễ thu thập: là tính chất đặc trƣng sinh trắc học phải dễ dàng thu nhận mẫu
khi đăng ký, kiểm tra xác thực, nâng cao tính khả thi trong sử dụng.
- Tính hiệu quả: là tính chất mà việc xác thực sinh trắc phải chính xác, nhanh
chóng và tài nguyên cần sử dụng đƣợc chấp nhận.
- Tính chấp nhận đƣợc: là tính chất mà quá trình thu thập mẫu sinh trắc phải đƣợc
sự đồng ý của ngƣời dùng.
8 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Chống giả mạo: là tính chất ƣu việt của việc sử dụng đặc trƣng sinh trắc, khả
năng mẫu sinh trắc khó bị giả mạo cao...
Hình 1.1. Các đặc trưng sinh trắc phổ biến
Đã có rất nhiều đặc trƣng sinh học khác nhau đã và đang đƣợc sử dụng. Mỗi loại
đặc trƣng sinh trắc có điểm mạnh và điểm yếu riêng. Tuy nhiên không một đặc trƣng
nào thỏa mãn tốt và đầy đủ tất cả các yêu cầu tính chất của một đặc trƣng sinh trắc học
nêu trên, nghĩa là không có một đặc trƣng sinh trắc học hoàn toàn tối ƣu. Trong một
công trình nghiên cứu, các chuyên gia đã đƣa ra một bảng so sánh khái quát các tiêu
chuẩn đánh giá các tính chất tƣơng ứng các đặc trƣng sinh trắc học sau đây: [1]
Bảng 1.1: So sánh các công nghệ nhận dạng sinh trắc học
Tính
Tính
Tính
Tính
Tính
chấp
Chống
Đặc trƣng sinh
Tính dễ
rộng
phân
ổn
hiệu
nhận
giả mạo
trắc học
thu thập
rãi
biệt
định
quả
đƣợc
M
M
M
M
M
M
L
Vân bàn tay
Dạng hình học
M
M
M
H
M
M
M
bàn tay
M
H
H
M
H
M
M
Vân tay
M
L
L
H
L
H
M
Dáng đi
H
L
M
H
L
H
H
Khuôn mặt
H
H
M
L
H
L
L
Võng mạc
H
H
H
M
H
L
L
Mống mắt
M
H
H
M
H
M
M
Chỉ tay
M
L
L
M
L
H
H
Giọng nói
Trong đó: Các ký hiệu có ý nghĩa nhƣ sau: H (cao), M (trung bình) và L (thấp).
9 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.1.1. Hệ thống sinh trắc học
Hình 1.2. Mô hình hệ thống sinh trắc học [2]
Một hệ thống sinh trắc học (Biometric System) thực chất là một hệ nhận dạng
dựa trên các đặc điểm về hành vi hay thuộc tính vật lý của ngƣời cần nhận dạng. Hệ
thống sinh trắc học đƣợc phân ra thành hai loại chính: hệ thẩm định (Verification) và
hệ nhận dạng (Identification, Recognition) [1]
1.1.1.1. Hệ thẩm định (Verification)
Hệ thẩm định (Verification) là hệ thống thực hiện nhiệm vụ đối sánh 1-1 giữa
mẫu sinh trắc học thu nhận đƣợc (biometric sample) với mẫu dạng sinh trắc học
(biometric template) đã có trong hệ thống từ trƣớc. Kết quả trả lời câu hỏi mẫu sinh
trắc thu nhận có liên quan tới mẫu dạng sinh trắc hay không? Thông thƣờng trong hệ
thẩm định có kết hợp với thông tin định danh chủ thể để thực hiện chức năng xác thực
10 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thẩm định sinh trắc (Authentication). Trong hệ xác thực thẩm định đòi hỏi cao về độ
chính xác để kết quả trả lời câu hỏi “Sinh trắc học sống thu nhận đƣợc (biometric
sample) có phải là sinh trắc của chủ thể đã lƣu trong hệ thống không?” [1]
1.1.1.2. Nhận dạng (Identification, Recognition)
Hệ nhận dạng (Identification, Recognition) là hệ thống thực hiện chức năng tìm
kiếm (1-n) từ một cơ sở dữ liệu lƣu trữ một tập các mẫu sinh trắc học để tìm ra một
mẫu sinh trắc cụ thể trong các mẫu khuôn dạng sinh trắc thu thập từ trƣớc và sau đó
thực hiện đối sánh xấp xỉ để nhận dạng phân lớp (Classification) hoặc nhận dạng đồng
nhất (Identification), ví dụ nhƣ việc tìm mẫu vân tay tội phạm trong hồ sơ các vân tay,
từ đó xác định danh tính của chủ sở hữu vân tay. [1]
1.1.1.3. Các thành phần chức năng chủ yếu
- Thu nhận (Sensor, Capture): là thành phần có chức năng thu nhận mẫu sinh trắc
học và biểu diễn chúng dƣới dạng số hóa.
- Xử lý và trích chọn đặc trƣng (Feature Extraction): là thành phần chức năng thực
hiện các phép xử lý phân tích và trích chọn các đặc trƣng từ mẫu sinh trắc học.
- Đối sánh (Matching): là thành phần chức năng thực hiện so sánh các đặc trƣng
vừa trích chọn với khuôn mẫu sinh trắc đã có trƣớc.
- Ra quyết định (Decision): là thành phần chức năng khẳng định danh tính ngƣời
dùng (với hệ nhận dạng) dựa trên kết quả đối sánh của chức năng đối sánh có thể
là một câu trả lời đúng hoặc một câu trả lời sai về mẫu sinh trắc học so với khuôn
mẫu sinh trắc có từ trƣớc (với hệ thẩm định). [1]
1.1.1.4. Hoạt động của hệ thống
Hoạt động của một hệ thống sinh trắc bao gồm 2 giai đoạn cơ bản sau đây:
- Đăng ký (Enrollment): là giai đoạn đăng ký mẫu sinh trắc vào hệ thống.
- Thẩm định hoặc nhận dạng (Verification/Identification): là giai đoạn thẩm định,
nhận dạng mẫu sinh trắc vừa trích chọn với khuôn mẫu sinh trắc đã có trƣớc.
1.1.2. Đánh giá hiệu năng và chất lƣợng hoạt động của hệ sinh trắc học
Một hệ sinh trắc học khi hoạt động thƣờng gặp hai vấn đề về lỗi sau đây:
11 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Lỗi phát sinh khi đối sánh mẫu sinh trắc của hai ngƣời khác nhau nhƣng cho kết
quả là của cùng một ngƣời. Lỗi này đƣợc gọi là loại bỏ sai (false reject hay false
match).
- Lỗi phát sinh khi đối sánh hai mẫu sinh trắc của cùng một ngƣời nhƣng cho kết
quả sai, vì cho rằng là của hai ngƣời khác nhau. Lỗi này đƣợc gọi là chấp nhận
sai (false accept hay false nonmatch). Để đo lƣờng mức độ lỗi của hệ thống sinh
trắc, các độ đo lƣờng thƣờng dùng đƣợc định nghĩa nhƣ sau:
- FMR (False Match Rate): còn gọi là FAR (False Accept Ratio) - Tỷ số chấp nhận
sai: cho biết tỉ lệ trả lời là đúng đối với dữ liệu vào là sai.
- FNMR (False Nonmatch Rate): còn gọi là FRR (False Rejection Ratio).
- Tỷ số từ chối sai: cho biết tỉ lệ trả lời là sai đối với dữ liệu vào là đúng.
Một vấn đề là hai độ đo lƣờng này có sự ràng buộc với nhau nhƣ sau: nếu FAR
cao thì FRR sẽ giảm tƣơng đối và ngƣợc lại. Mức độ chấp nhận đƣợc của FAR và
FRR tùy thuộc vào từng hệ xác thực sinh trắc cụ thể. Với hệ yêu cầu tính bảo mật cao,
và đặt nặng vấn đề an toàn của xác thực hơn sự tiện dụng của ngƣời dùng, thì FAR sẽ
nhỏ và FRR sẽ cao. Ngoài hai độ đo trên, ngƣời ta còn sử dụng độ đo FTC (Failure To
Capture - thu nhận mẫu thất bại) và FTE (Failure to Enroll - chấp nhận mẫu thất bại)
để đánh giá hiệu năng của hệ xác thực sinh trắc học. [1]
Hình 1.3. Các giá trị ngưỡng của FAR và FRR [3]
12 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.1.3. Hệ thống an ninh bảo mật dựa trên sinh trắc học
Hệ thống sinh trắc học có những ƣu điểm mà hệ bảo mật thông thƣờng không
có, trong những cuộc nghiên cứu hệ thống an ninh, bảo mật dựa trên hệ sinh trắc học
(Biometric Security System) đã đƣợc quan tâm nghiên cứu và đƣa vào ứng dụng thực
tiễn. Hƣớng nghiên xây dựng hệ thống trên cơ sở kết hợp hệ thống sinh trắc học với hệ
mật mã (Biometric Cryptosystem) đang là vấn đề thời sự đƣợc quan tâm nghiên cứu
phát triển. Sự kết hợp này nhằm mục tiêu nâng cao tính an toàn của hệ mật mã dựa
trên các ƣu điểm của hệ thống sinh trắc học. Hệ thống an ninh, bảo mật sinh trắc học
(Biometric based Security System) dựa trên sự nhận biết hoặc thẩm định các đặc trƣng
về thể chất hay về hành vi con ngƣời để nhận dạng, xác thực từng chủ thể. Cùng với sự
phát triển nhanh chóng của CNTT và truyền thông, hệ thống an ninh dựa trên nhận
dạng, thẩm định xác thực sinh trắc học đã và đang đƣợc quan tâm nghiên cứu và có
nhiều triển khai ứng dụng trong những năm gần đây trên thế giới. Đối với các giao
dịch điện tử và truyền thông, đây là một trong các hƣớng tiếp cận mới về an ninh
thông tin và mạng, an toàn dữ liệu. Phƣơng pháp này mở ra triển vọng lớn về an toàn
trong các giao dịch điện tử, chính phủ điện tử, thƣơng mại điện tử... [1]
Các lĩnh vực nghiên cứu về hệ thống an ninh sinh trắc học (Biometric Security
Systems).
- Các các nghiên cứu cơ bản về các loại sinh trắc học, về phƣơng pháp trích chọn
đặc trƣng sinh trắc và về nhận dạng, thẩm định xác thực chủ thể con ngƣời.
- Các hệ nhận dạng, thẩm định xác thực sinh trắc học chủ thể trong hệ thống.
- Mật mã sinh trắc học (Biometric Cryptography). Trong hệ mật mã thông thƣờng,
điểm yếu thƣờng ở quá trình bảo vệ, quản lý và phân phối khóa. Nguy cơ này đe
dọa các mục tiêu về xác thực và chống phủ nhận. Hệ sinh trắc học đƣợc ứng
dụng giải quyết vấn đề đó. Hiện nay có hai hƣớng tiếp cận để kết hợp sinh trắc
học và mật mã học nhƣ sau: [1]
- Dùng sinh trắc học quản lý khóa (biometric-based key release).
- Dùng sinh trắc học để tạo khóa (biometric-based key generation).
1.2. Phát hiện và nhận dạng khuôn mặt
Vấn đề nhận dạng mặt ngƣời có thể trình bày một cách tổng quan nhƣ sau: Cho
một ảnh tĩnh hay một đoạn video, hãy phát hiện và nhận ra những ngƣời trong ảnh hay
13 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
trong đoạn video đó dựa trên một tập cho trƣớc các dữ liệu về các mặt ngƣời đã biết.
Giải pháp cho vấn đề này bao gồm bốn vấn đề: phát hiện các mặt ngƣời từ ảnh (video),
trích chọn đặc trƣng từ vùng ảnh, nhận dạng ảnh và xác minh. Với quá trình nhận
dạng, đầu vào là một ảnh chƣa biết, sau quá trình nhận dạng, hệ thống đƣa ra định
danh về ngƣời trong ảnh và trong quá trình xác minh, hệ thống phải đƣợc xác định
rằng việc nhận dạng đấy là chính xác hay không. Về mặt tổng quát, mỗi phƣơng pháp
nhận dạng mặt ngƣời đều có thể đƣợc chia thành 2 module: Module phát hiện mặt
ngƣời trong ảnh và module nhận dạng mặt ngƣời.
Đƣợc khởi đầu vào những năm 70, nhận dạng mặt ngƣời là một trong những ứng
dụng của phân tích và xử lý ảnh đạt đƣợc nhiều thành tựu nhất. Trong thời gian gần
đây, do sự phát triển nhƣ vũ bão của khoa học máy tính và yêu cầu thực tiễn trong các
lĩnh vực kinh tế, luật pháp…, vấn đề nhận dạng mặt ngƣời đang đƣợc đặc biệt chú ý.
Một loạt các hội thảo đƣợc tổ chức bàn về vấn đề này nhƣ AFGR, AVBPA và những
đánh giá mang tính hệ thống về các kỹ thuật nhận dạng mặt ngƣời (Face Recognition
Techniques - FRT), bao gồm phƣơng pháp FERET và XM2VTS.
Nhu cầu cấp thiết về các hệ thống thân thiện với ngƣời sử dụng đã đảm bảo cho
các nghiên cứu về sau không bị lãng phí trong hàng loạt những nghiên cứu đã đƣợc
thực thi trƣớc đó. Hiện nay, để rút tiền từ ATM ta phải nhập PIN, hay để truy cập một
máy tính ta phải nhập mật khẩu hay hàng loạt phƣơng pháp khác để truy cập vào
Internet. Hiện đã có hàng loạt các phƣơng pháp nhận dạng có độ tin cậy cao dựa vào
các kỹ thuật nhân trắc học; chẳng hạn nhƣ, kỹ thuật phát hiện vân tay hay kỹ thuật
quét nhận dạng võng mạc. Tuy nhiên, những hệ thống này có chung nhƣợc điểm là
phức tạp và yêu cầu cần có sự phối hợp của nhiều ngƣời cùng xử lý. Bên cạnh đó, một
hệ thống nhận dạng dựa trên kỹ thuật phân tích ảnh mặt nhìn thẳng của một ngƣời sẽ
đơn giản hơn nhiều, không đòi hỏi có nhiều ngƣời cùng xử lý và cũng không đòi hỏi các
kiến thức chuyên môn sâu. Chính vì thế, hệ thống nhận dạng ngƣời dựa trên kỹ thuật
phân tích ảnh mặt đang ngày càng đƣợc ứng dụng rộng rãi.
Bảng 1.2. Các ứng dụng tiêu biểu của nhận dạng mặt người.
Lĩnh vực
Các ứng dụng đặc trƣng
Driver’s licences, Entitlement Programs
Nhân trắc học
Immigration, National ID, Passports, Voter Registration
14 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Welfare
Desktop Logon (Windows 95, Windows NT)
Application Security, Database Security, File Encryption
An toàn thông tin
Intranet Security, Internet Access, Medical Records
Secure Trading Terminals
Advanced Video Surveillance, CCTV Control
Law Enforcement
Portal Control, Post-Event Analysis
and Surveillance
Shoftlifting and Suspect Tracking and Investigation
Stored Value Security, User Authentification
SmartCards
Facility Access, Vehicular Access
Access Control
Một hệ thống nhận dạng mặt ngƣời điển hình bao gồm các thành phần chính nhƣ
Hình 1.4.
Ảnh mặt ngƣời
Thông tin ngƣời đƣợc nhận dạng
Trích chọn đặc trƣng
Nhận dạng mặt ngƣời
Hình 1.4. Mô hình hệ thống nhận dạng mặt người.
Nhận dạng mặt ngƣời (Face recognition) đƣợc nghiên cứu từ những năm 1980, là
một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision) và cũng đƣợc
xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Biometrics) tƣơng tự nhƣ
nhận dạng vân tay (Fingerprint recognition), hay nhận dạng mống mắt (Iris
recognition)… Trong khi nhận dạng vân tay và mống mắt có thể áp dụng trên thực tế
một cách rộng rãi thì nhận dạng mặt ngƣời vẫn còn nhiều thách thức. So với nhận dạng
vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi hỏi sự
tƣơng tác có kiểm soát hơn. Bài toán nhận dạng mặt ngƣời còn nhiều thách thức nên
hàng năm trong và ngoài nƣớc vẫn có nhiều nghiên cứu về các phƣơng pháp nhận
dạng mặt ngƣời.
15 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Nhận dạng khuôn mặt là một nhiệm vụ dễ dàng đối với con ngƣời. Thí nghiệm
trong [9] đã chỉ ra, ngay cả trẻ sơ sinh 1-3 ngày tuổi có thể phân biệt khuôn
mặt. Nhƣng làm thế nào với một máy tính? Cho đến nay chúng ta biết rất ít về nhận
dạng con ngƣời. Có phải đặc điểm bên trong (mắt, mũi, miệng) hoặc các đặc điểm bên
ngoài (hình dạng đầu, chân tóc) đƣợc sử dụng cho một nhận dạng khuôn mặt. Bộ não
con ngƣời phân tích một hình ảnh và mã hóa nhƣ thế nào? Theo nghiên cứu đƣợc bởi
David Hubel và Torsten Wiesel, rằng não của chúng ta có tế bào thần kinh chuyên biệt
phản ứng với từng hoàn cảnh cụ thể, chẳng hạn nhƣ đƣờng, cạnh, góc độ hoặc chuyển
động. Vì chúng ta không nhìn thấy thế giới nhƣ những mảnh phân tán, vỏ não của
chúng ta bằng cách nào đó phải kết hợp các nguồn thông tin khác nhau vào các mẫu
hữu ích. Nhận diện khuôn mặt tách ra những đặc điểm có ý nghĩa từ một hình ảnh, đƣa
chúng vào một sự biểu diễn hữu ích và thực hiện một số phân loại.
1.3. Những khó khăn và thách thức trong bài toán nhận dạng khuôn mặt
Việc xác định khuôn mặt ngƣời có những khó khăn nhất định nhƣ:
- Hƣớng (pose) của khuôn mặt đối với máy ảnh, nhƣ: nhìn thẳng, nhìn nghiêng hay
nhìn từ trên xuống. Cùng trong một ảnh có thể có nhiều khuôn mặt ở những tƣ
thế khác nhau.
- Sự có mặt của các chi tiết không phải là đặc trƣng riêng của khuôn mặt ngƣời,
nhƣ: râu quai nón, mắt kính...
- Các nét mặt (facial expression) khác nhau trên khuôn mặt, nhƣ: vui, buồn, ngạc
nhiên...
- Mặt ngƣời bị che khuất bởi các đối tƣợng khác có trong ảnh.
- Sự biểu cảm của khuôn mặt (The expression of the face): sự biểu cảm có thể làm
thay đổi đáng kể các đặc trƣng và thông số của khuôn mặt, ví dụ nhƣ khuôn mặt
của cùng một ngƣời sẽ rất khác khi ngƣời đó cƣời, tức giận hay sợ hãi…
1.4. Các ứng dụng của bài toán nhận dạng khuôn mặt
Xác định mặt ngƣời thƣờng là một phần của một hệ thống (facial recognition
system) [4]. Nó thƣờng đƣợc dùng trong giám sát video, giao tiếp ngƣời - máy và quản
lý cơ sở dữ liệu ảnh…
Các ứng dụng cơ bản của xác định mặt ngƣời có thể kể đến là:
16 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Xác minh tội phạm: Dựa vào ảnh của một ngƣời, nhận dạng xem ngƣời đấy có
phải là tội phạm hay không bằng cách so sách với các ảnh tội phạm đang đƣợc
lƣu trữ. Hoặc có thể sử dụng camera để phát hiện tội phạm trong đám đông.
Ứng dụng này giúp cơ quan an ninh quản lý con ngƣời tốt hơn.
- Camera chống trộm: Các hệ thống camera sẽ xác định đâu là con ngƣời và theo
dõi xem con ngƣời đó có làm gì phạm pháp không, ví dụ nhƣ lấy trộm đồ, xâm
nhập bất hợp pháp vào một khu vực nào đó.
- Bảo mật: Các ứng dụng về bảo mật rất đa dạng, một trong số đó là công nghệ
nhận dạng mặt ngƣời của laptop, công nghệ này cho phép chủ nhân của máy
tính chỉ cần ngồi trƣớc máy là có thể đăng nhập đƣợc. Để sử dụng công nghệ
này, ngƣời dùng phải sử dụng một webcam để chụp ảnh khuôn mặt của mình
và cho máy “học” thuộc các đặc điểm của khuôn mặt giúp cho quá trình đăng
nhập sau này.
- Lƣu trữ khuôn mặt: Xác định mặt ngƣời có thể đƣợc ứng dụng trong các trạm
rút tiền tự động (ATM) để lƣu trữ khuôn mặt của ngƣời rút tiền. Hiện nay có
những ngƣời bị ngƣời khác lấy trộm thẻ ATM, mã PIN và bị rút tiền trộm
hoặc có những chủ tài khoản đi rút tiền nhƣng lại báo với ngân hàng là bị mất
thẻ và bị rút tiền trộm. Nếu lƣu trữ đƣợc khuôn mặt của ngƣời rút tiền, ngân
hàng có thể đối chứng và xử lý dễ dàng hơn.
Một số ứng dụng khác:
- Điều khiển vào ra: Văn phòng, công ty, trụ sở, máy tính, Palm,… kết hợp thêm
vân tay và mống mắt, cho phép nhân viên đƣợc ra vào nơi cần thiết.
- An ninh sân bay, xuất nhập cảnh (hiện nay cơ quan xuất nhập cảnh Mỹ đang sử
dụng). Dùng camera quan sát để xác thực ngƣời nhập cảnh và kiểm tra xem
ngƣời đó có phải là tội phạm hay phần tử khủng bố không.
- Tìm kiếm và tổ chức dữ liệu liên quan đến con ngƣời thông qua khuôn mặt
ngƣời trên nhiều hệ cơ sở dữ liệu lƣu trữ thật lớn, nhƣ internet, các hãng
truyền hình… Ví dụ: tìm các đoạn video có tổng thống Obama phát biểu, tìm
các phim có diễn viên Thành Long đóng…
17 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Kiểm tra trạng thái ngƣời lái xe có ngủ gật, mất tập trung hay không và hỗ trợ
thông báo khi cần thiết.
- Tƣơng lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc trƣng của
ngƣời dùng trên đó, khi bất cứ ngƣời dùng khác dùng để truy cập hay xử lý tại
các hệ thống sẽ đƣợc yêu cầu kiểm tra các đặc trƣng khuôn mặt so với thẻ để
biết ngƣời này có phải là chủ thẻ hay không.
- Hãng máy chụp hình Canon đã ứng dụng bài toán xác định khuôn mặt ngƣời
vào máy chụp hình thế hệ mới để cho kết quả hình ảnh đẹp hơn, nhất là khuôn
mặt ngƣời.
1.5. Bài toán điểm danh dựa trên khuôn mặt
1.5.1. Bài toán điểm danh và quản lý nhân sự
Trong thời đại ngày nay, cùng với sự phát triển của khoa học kỹ thuật và xu hƣớng
công nghiệp hóa, hiện đại hóa: máy móc đang và sẽ tiếp tục thay thế con ngƣời trong
những công việc nặng nhọc và mang tính lặp đi lặp lại. Máy móc có những ƣu điểm
không thể phủ nhận nhƣ không biết mệt mỏi, sẵn sàng phục vụ liên tục, không mang
tính chủ quan, khả năng xử lý nhanh, lƣu trữ lớn...
Đối với bài toán điểm danh, chấm công với mục tiêu chủ yếu là kiểm soát nguồn
nhân lực về thời gian. Các nhà quản lý quan tâm tới hai vấn đề chính là một lao động
tên là “A” có mặt hay không, có đúng giờ hay không, “A” có làm đủ số giờ quy định
hay không?. Để giải quyết bài toán này thông thƣờng các công ty, doanh nghiệp, các
nhà quản lý sẽ sử dụng một nhóm ngƣời có chức năng chấm công và quản lý hoặc sử
dụng một hệ thống sinh trắc học. Đối với việc sử dụng con ngƣời có rất nhiều nhƣợc
điểm nhƣ: chi phí lớn, tính khách quan không cao, không hoạt động tốt liên tục trong
nhiều giờ liền, không thể sử dụng với phạm vi lớn (một cán bộ chấm công không thể
nhớ đƣợc quá nhiều ngƣời, đặc biệt với những ngƣời mới gặp vài lần)... Vì thế các hệ
thống sinh trắc học tỏ ra khá hiệu quả và là lựa chọn hàng đầu trong bài toán này.
Với sự hỗ trợ của camera, máy tính và phần mềm điểm danh, nhà quản lý thu đƣợc
thông tin về sự có mặt và thời gian làm việc của ngƣời lao động một cách chính xác và
khách quan với chi phí thấp. Việc áp dụng nhận dạng khuôn mặt có thể đƣợc sử dụng
một cách độc lập với ƣu điểm hơn các phƣơng pháp sinh trắc học khác ở tính tự nhiên
18 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
của nó, đồng thời đây cũng có thể là một phƣơng pháp đƣợc sử dụng kết hợp với các
phƣơng pháp sinh trắc khác để nâng cao tính chính xác của hệ thống khi vận hành.
1.5.2. Đầu vào của bài toán
Với bài toán điểm danh, trong nội dung luận văn tôi lựa chọn phƣơng pháp nhận
dạng khuôn mặt làm cơ sở để xây dựng hệ thống. Với đầu vào là ảnh của ngƣời cần
đƣợc điểm danh hệ thống sẽ nhận diện hình ảnh và đoán nhận chính xác tên của ngƣời
có trong ảnh, từ đó là cơ sở để điểm danh.
Nhƣ vậy, đầu vào của bài toán là ảnh thu đƣợc từ camera đặt ở vị trí quan sát. Vị trí
này thƣờng là trƣớc cửa của cơ quan, doanh nghiệp, đây thƣờng là lối vào duy nhất
của đơn vị cần đƣợc điểm danh. Trong trƣờng hợp có nhiều cửa vào cho một đơn vị
cần đƣợc điểm danh, hệ thống sẽ thiết đặt các camera tại các cổng vào. Kết quả điểm
danh sẽ là kết quả tổng hợp của các camera tại các vị trí khác nhau.
Trong trƣờng hợp ngƣời quản lý cần xác định rõ thời gian làm việc của lao động
(cần xác định rõ thời gian vào và thời gian ra của một ngƣời) thì hệ thống cần thiết đặt
hai camera trên một cổng, một camera hƣớng ra để điểm danh ngƣời lao động khi vào
và một camera hƣớng vào trong để điểm danh ngƣời lao động khi ra khỏi khu vực làm
việc. Hiệu thời gian của lần ra và lần vào sẽ là thời gian ngƣời cần đƣợc điểm danh có
mặt tại khu vực làm việc.
Để đảm bảo hệ thống làm việc hiệu quả, chính xác cần xây dựng các tiêu chuẩn cơ
bản để hệ thống làm việc. Đây là thiết lập cần thiết để nâng cao tính chính xác và khả
năng làm việc của hệ thống. Các thiết đặt này xuất phát từ chính các khó khăn tồn tại
trong các thuật toán xác định và nhận diện khuôn mặt hiện này:
- Các khuôn mặt đƣợc chụp thẳng hoặc góc nghiêng không đáng kể (nhỏ hơn
hoặc bằng 10o).
- Phông nền của ảnh không quá phức tạp.
- Ảnh đƣợc chụp trong điều kiện ánh sáng bình thƣờng.
- Ngƣời đƣợc điểm danh không có các vật dụng với độ che phủ cao trên khuôn
mặt (kính đen, khẩu trang, râu giả...).
- Không mang vác ảnh có mặt ngƣời qua khu vực điểm danh (sử dụng ảnh 2D
chụp ngƣời để điểm danh hộ, hoặc gây nhầm lẫn trong hệ thống)
19 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.5.3. Đầu ra và ý nghĩa thực tiễn
Bài toán điểm danh với đầu vào là ảnh thu đƣợc từ camera, dựa trên công nghệ
sinh trắc học nhận diện qua khuôn mặt sẽ trả lại kết quả là một danh sách tên ngƣời lao
động, trong đó mỗi một đối tƣợng ngƣời lao động tồn tại hai trạng thái là đƣợc điểm
danh và không đƣợc điểm danh. Để xác định một đối tƣợng cần đƣợc điểm danh ở trạng
thái nào, hệ thống dựa trên một tập các ảnh đƣợc lƣu trong cơ sở dữ liệu, trong quá trình
nhận dạng đối tƣợng đi qua và nhìn về phía camera. Hệ thống nhận diện khuôn mặt thu
đƣợc từ camera và xác định xem đối tƣợng có nằm trong danh sách điểm danh hay
không, nếu có đối tƣợng tƣơng ứng đƣợc xác định trạng thái là “có mặt”. Ngƣợc lại nếu
đối tƣợng cần điểm danh không xuất hiện trong thời gian điểm danh thì trạng thái của
đối tƣợng tại phiên làm việc đó đƣợc xác định trạng thái là “vắng”.
Nhƣ vậy, đầu ra tổng quát của bài toán là xác định hình ảnh ngƣời trong ảnh vào
có tƣơng ứng với một định danh ảnh đã có trong cơ sở dữ liệu hay không. Nếu có định
dang tƣơng ứng là gì. Dựa trên một định danh đƣợc cung cấp bởi hệ thống nhận dạng
ta xây dựng chƣơng trình điểm danh với hai trạng thái cơ bản là “vắng” và “có mặt”.
Nếu trong phiên làm việc định danh đƣợc hệ thống xác nhận thì trạng thái đƣợc xác
định là có mặt và ngƣợc lại. Trong trƣờng hợp cần xác định thời gian làm việc của đối
tƣợng đang theo dõi ta cần xác định thêm tham số thời gian khi đối tƣợng đƣợc hệ
thống định danh theo chiều vào và thời gian khi đối tƣợng đƣợc hệ thống định danh
theo chiều ra.
20 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT
2.1. Một số kỹ thuật phát hiện mặt ngƣời trong ảnh
Vấn đề phát hiện mặt đƣợc đƣa ra đầu tiên vào những năm 70 với việc sử dụng
các kỹ thuật nhân trắc học và các phép heuristic giản đơn. Với những kỹ thuật này, ta
chỉ có thể đạt đƣợc kết quả trong những điều kiện khá chặt, ví dụ nhƣ nền ảnh đồng
nhất, khuôn mặt chụp thẳng... Cho đến ngày nay, cùng với sự phát triển vƣợt bậc của
khoa học kỹ thuật, việc yêu cầu những giới hạn nhƣ thế là không còn. Tuy nhiên, cùng
với những yêu cầu ngày càng cao, thì vấn đề phát hiện mặt ngƣời đang phải đối mặt
với những khó khăn mới. Trong suốt quá trình từ những năm đầu tới nay, đã có rất
nhiều các hƣớng xử lý và tiếp cận khác nhau đƣợc đƣa ra nhằm giải quyết cho những
yêu cầu cụ thể khác nhau của từng giai đoạn, từng ứng dụng cụ thể và cũng có nhiều
cách phân loại các phƣơng pháp, hƣớng tiếp cận này. Trong luận văn này, tôi chia các
phƣơng pháp và hƣớng tiếp cận thành hai hƣớng chính: Hƣớng tiếp cận dựa trên đặc
trƣng (Feature - based) và hƣớng tiếp cận dựa trên ảnh (Image - based).
Các phƣơng pháp kỹ thuật đƣợc áp dụng trong phát hiện mặt đƣợc thể hiện trong
Hình 2.1.
21 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.1. Sơ đồ các hướng tiếp cận và phương pháp phát hiện mặt người
2.1.1. Hƣớng tiếp cận dựa trên đặc trƣng của ảnh
Phƣơng pháp tiếp cận dựa trên đặc trƣng đƣợc chia thành 3 vấn đề. Giả sử cần
phải phát hiện một khuôn mặt trong một nền ảnh lộn xộn, phân tích cấp thấp (low-
level analysis) thực hiện phân đoạn các đặc trƣng của ảnh dựa trên những thuộc tính
điểm ảnh nhƣ độ xám hay màu sắc. Sự phân đoạn này còn mập mờ và chƣa rõ ràng.
Trong phân tích đặc trƣng (feature analysis), các đặc trƣng của ảnh đƣợc tổ chức thành
các đặc trƣng khuôn mặt có tính tổng quát hơn dựa trên các đặc tính hình học của
22 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
khuôn mặt. Sau giai đoạn này, tính mập mờ của các đặc trƣng của ảnh đã đƣợc giảm
bớt, đồng thời vị trí khuôn mặt cùng với các đặc trƣng khuôn mặt đã đƣợc xác định.
Tiếp theo là việc sử dụng các mô hình hình dạng động (active shape models). Những
mô hình này bao gồm từ mô hình con rắn (snakes) (đƣợc đề xuất vào những năm 80)
cho tới mô hình điểm phân tán (Point Distributed Model - PDM) đƣợc đề xuất vào
những năm gần đây để trích chọn các đặc trƣng phức tạp nhƣ mắt, môi…
2.1.1.1. Phân tích mức thấp (Low level analysis)
Ngƣời ta gọi là phân tích mức thấp vì việc phân tích ở đây là phân tích dựa trên
các đặc trƣng rất cơ bản và mang tính trực quan, những đặc trƣng đó bao gồm biên
ảnh, thông tin đa mức xám, màu sắc, chuyển động, tính đối xứng của khuôn mặt.
a. Biên ảnh (Edges)
Biên ảnh (Edges) là một trong những thuộc tính quan trọng nhất trong các ứng
dụng xử lý ảnh, biên đã đƣợc sử dụng trong các ứng dụng phát hiện mặt ngay từ những
ngày đầu tiên bởi Sakai và cộng sự. Theo đó, các đặc trƣng khuôn mặt đƣợc xác định
dựa trên việc phân tích các đƣờng kẻ của các khuôn mặt trên ảnh. Craw và cộng sự sau
đó đã phát triển một giải thuật phân cấp dựa trên công việc của Sakai và cộng sự để
tìm các mô tả các đầu ngƣời có trong ảnh. Trong đó, một thành phần dò tìm đƣờng
biên (line-follower) với các ràng buộc về độ cong đƣợc sử dụng để tránh các biên
nhiễu. Các đặc trƣng về biên trong các biểu diễn mô tả của đầu ngƣời sau đấy đƣợc
phân tích đặc trƣng sử dụng thông tin hình dạng và thông tin vị trí của mặt. Gần đây,
vấn đề trích chọn đặc trƣng mặt sử dụng biên và phát hiện mặt sử dụng biên đã đƣợc
xây dựng bởi rất nhiều tác giả, trong đó có Brunelli và Poggio (1993), J.Choi, S.Kim
và P.R.Hee (1999), B.K.Low và M.K.Ibrahim (1997)... Ngoài ra, biên còn đƣợc sử
dụng trong việc phát hiện những ảnh mặt ngƣời đeo kính (Z.Ling và R.Mariani, 2000
và X. Jiang, M. Binkert, B. Achermann, H. Bunke, 2000).
Phát hiện biên là bƣớc đầu tiên trong vấn đề biểu diễn biên. Cho tới nay, đã có rất
nhiều toán tử phát hiện biên đƣợc áp dụng. Các vấn đề về biên và phát hiện biên sẽ
đƣợc trình bày kỹ hơn trong chƣơng sau.
Trong phƣơng pháp phát hiện mặt áp dụng biên, các biên phải đƣợc gán nhãn và
phù hợp với một mẫu mặt nhằm đảm bảo sự phát hiện là đúng đắn. Govindaraju đã
thực hiện công việc này bằng cách gán nhãn các biên nhƣ là bên trái, bên phải, nhìn
23 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thẳng hay là tóc và sau đó phù hợp chúng với một mẫu bằng cách sử dụng tỷ lệ vàng
của một khuôn mặt điển hình:
(1)
Trong hệ thống của Govindaraju, khi tiến hành kiểm thử 60 ảnh có nền phức tạp
bao gồm 90 khuôn mặt, thì thấy khả năng hệ thống có thể phát hiện chính xác là 76%
với mức độ trung bình sai 2 mặt/1 ảnh.
b. Thông tin đa mức xám (Grayscale Information)
Ngoài biên, thông tin đa mức xám trong ảnh cũng có thể đƣợc sử dụng nhƣ một
đặc trƣng. Một số đặc trƣng của khuôn mặt nhƣ lông mày, đồng tử hay môi thƣờng tối
hơn những vùng mặt xung quanh. Thuộc tính này có thể đƣợc sử dụng để phân biệt
nhiều vùng mặt khác nhau. Một số giải thuật trích chọn đặc trƣng gần đây thực hiện
tìm kiếm vùng cực tiểu địa phƣơng mức xám trong một phân đoạn ảnh mặt. Trong
những giải thuật này, ảnh đầu vào đƣợc cải thiện bằng cách làm tăng độ tƣơng phản
(contrast - stretching) và thực hiện các bƣớc biến hình mức xám (gray - scale
morphological routine) để làm tăng độ tối của những phần nói trên, do đó làm cho việc
phát hiện đƣợc dễ dàng hơn. Sau đó những vùng tối này đƣợc trích chọn bằng phép lấy
ngƣỡng dƣới. Bên cạnh đó, Wong và cộng sự tiến hành xây dựng một hệ thống tự
động tìm kiếm các vùng tối thuộc mặt thông qua sự phân tích về màu sắc. Hệ thống sử
dụng một mẫu mắt gán trọng số để xác định các vị trí có thể của cặp mắt.
c. Màu sắc (Color)
Thông tin mức xám cho phép chúng ta biểu diễn một cách cơ bản các đặc trƣng
của ảnh, còn thông tin về màu cho phép ta phân biệt hữu hiệu các đối tƣợng trong ảnh.
Bởi màu đƣợc biểu diễn trong không gian 3 chiều, nên 2 đối tƣợng có cùng mức xám
sẽ có những thể hiện khác nhau trong không gian màu. Ngƣời ta đã chứng minh đƣợc
rằng màu da của con ngƣời, dù ở lứa tuổi nào hay ở màu da nào, thì đều phân bố trên
một cụm xác định của hệ toạ độ màu [10].
Một trong những hệ toạ độ màu đƣợc sử dụng nhiều nhất là hệ toạ độ RGB. Theo
đó, mỗi màu đƣợc biểu diễn bởi sự kết hợp của các giá trị của 3 thành phần màu: đỏ
(Red - R), xanh (Green - G) và xanh lá cây (Blue - B). Bởi các thay đổi chính trong
việc biểu diễn da là bởi sự thay đổi về độ sáng, nên thông thƣờng ta thƣờng sử dụng hệ
24 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
toạ độ RGB chuẩn hoá, do đó ảnh hƣởng của độ sáng đƣợc loại bỏ. Các thành phần
chuẩn hoá đƣợc tính bởi [10]:
(2)
Do r + g + b = 1 nên trong hệ toạ độ màu chuẩn hoá này ta chỉ cần biết 2 giá trị r
và g, bởi b = 1 – r – g. Khi phân tích màu da, histogram màu dựa trên r và g chỉ ra
rằng màu của mặt ngƣời chỉ chiếm một vùng nhỏ trên histogram. Bằng cách so sánh
thông tin màu của một điểm ảnh với các giá trị r và g của vùng màu mặt, ta có thể xác
định đƣợc xác suất thuộc vùng mặt của điểm ảnh đấy.
Bên cạnh mô hình RGB, ngƣời ta cũng sử dụng một số mô hình khác trong việc
phát hiện mặt. C.H.Lee, J.S.Kim and K.H.Park, 1996, đã xây dựng một giải thuật sử
dụng mô hình HSI do ƣu điểm vƣợt trội của nó trong việc phân biệt các vùng màu của
các đặc trƣng khác nhau của khuôn mặt. Do đó, mô hình HSI đƣợc sử dụng trong việc
trích chọn các đặc trƣng của khuôn mặt nhƣ mắt, môi...
G.Wei và I.K.Sethi, 1999, sử dụng mô hình YIQ để phát hiện mặt. Bằng cách
chuyển đổi từ hệ toạ độ RGB sang YIQ, ngƣời ta nhận thấy thành phần I - thể hiện sự
thay đổi từ màu cam (orange) sang màu lục (cyan), có khả năng cải thiện vùng da của
ngƣời Á Châu. Việc chuyển đổi này cũng làm triệt tiêu các phần nền không phải da và
do đó, giúp cho việc phát hiện các khuôn mặt nhỏ đƣợc dễ dàng hơn. Ngoài ra, một số
mô hình màu khác cũng đƣợc sử dụng trong việc phát hiện mặt, nhƣ HSV, YES, CrCb,
YUV, CIE-xyz, L*a*b, L*u*v*...
d. Chuyển động (Motion)
Nếu yêu cầu của việc phát hiện mặt ngƣời là trong môi trƣờng ảnh video, thì hợp
lý nhất cho việc phát hiện mặt là sử dụng yếu tố chuyển động. Phƣơng pháp đơn giản
nhất là sử dụng sự khác biệt giữa các frame. Mặc dù phƣơng pháp này tỏ ra khá đơn
giản, nhƣng nó vẫn có thể phát hiện đƣợc sự cử động của các đối tƣợng trên bất cứ nền
nào một cách có hiệu quả. Các bóng cử động có chứa phần mặt và cơ thể ngƣời có thể
đƣợc tách bằng phép lấy ngƣỡng đối với sự khác biệt giữa các frame. Ngoài các vùng
25 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
mặt, các nhóm tác giả Luthon và Luevin; Crowley, Berard và Low cũng sử dụng sự
khác biệt giữa các frame để xác định các đặc trƣng mặt. J. L. Crowley và F. Berard,
1997, sử dụng sự khác biệt giữa các frame, xác định ra các vùng ứng viên cho vị trí
mặt. Sau đó, sử dụng độ dịch chuyển ngang và dọc của 2 vùng ứng viên lân cận nhau
để dự đoán sự xuất hiện của cặp mắt [10].
Một phƣơng pháp khác để xác định độ chuyển động là thông qua sự đánh giá các
đƣờng nét cử động (moving contour). So với phƣơng pháp trên, thì phƣơng pháp này
tỏ ra đáng tin cậy hơn, đặc biệt là trong những trƣờng hợp các cử động là không rõ
ràng. Mc Kenna và cộng sự đã sử dụng một bộ lọc không gian - thời gian Gaussian để
phát hiện sự chuyển động của các vùng biên mặt và cơ thể ngƣời. Quá trình này đƣợc
thực hiện bằng cách nhân chập ảnh đa mức xám I(x, y) với đạo hàm cấp 2 theo thời
(3)
(4)
gian m(x, y, t) của bộ lọc Gaussian G(x, y, t):
Trong đó: u là hệ số tỷ lệ thời gian và a là độ rộng của bộ lọc.
Sau đó, thực hiện nhân chập m(x, y, t) với các frame ảnh:
(5)
S(x,y,t) chứa các thành phần zero - crossing xác định các chuyển động của biên
trong I(x,y,t). Các thành phần zero - crossing sau đó đƣợc phân vùng để xác định chính
xác vị trí của các chuyển động.
e. Tiêu chuẩn suy rộng (Generalized Measure)
Các đặc tính trực quan nhƣ đƣờng biên , mầu và chuyển đô ̣ng đƣơ ̣c đƣa ra tƣ̀
nhƣ̃ng giai đoa ̣n đầu củ a hê ̣ thống hình ảnh ngƣờ i (human visual system ), đƣơ ̣c chỉ ra bở i nhiều da ̣ng đáp ƣ́ ng củ a mắt . Quá trình tiền xử lý này cho phép các thông tin trực quan đƣơ ̣c tổ chƣ́ c thành nhiều da ̣ng trƣớ c các hoa ̣t đô ̣ng trƣ̣c quan cấp cao trong bô ̣ não. Reifeld và Yeshurun đã giớ i thiê ̣u mô ̣t toán tƣ̉ đối xƣ́ ng suy rô ̣ng dƣ̣a vào các thao tác trên điểm biên . Do các đă ̣c trƣng mă ̣t có tính đối xƣ́ ng , toán tử không dựa trên các mƣ́ c cao củ a các tri thƣ́ c tiên nghiê ̣m về khuôn mă ̣t sẽ sinh ra mô ̣t biểu diễn đƣa la ̣i
26 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
. Đa ̣i
nhiều đáp ƣ́ ng vớ i các vị trí đặc trƣng khuôn mặt . Độ đo đối xứng gán một đại lƣợng cho mo ̣i điểm ảnh trong ảnh dƣ̣a trên tác đô ̣ng củ a các điểm ảnh xung quanh
lƣơ ̣ng đối xƣ́ ng
vớ i điểm ảnh p đƣơ ̣c cho nhƣ sau:
(6)
i và j (của điểm ảnh p) Trong đó : C(i,j) là tác động của điểm ảnh xung quanh
trong tâ ̣p các điểm ảnh . Biểu đồ các đa ̣i lƣơ ̣ng đối xƣ́ ng sẽ chỉ ra vi ̣ trí củ a các
đă ̣c tính khuôn mă ̣t nhƣ mắt và miê ̣ng
. Sƣ̉ du ̣ng biểu đồ này , điểm ảnh cù ng có Reisfeld và cộng sự đã đa ̣t đƣơ ̣c tỷ lê ̣ thành công là 95% trong dò tìm vi ̣ trí củ a mă ̣t và miê ̣ng củ a rất nhiều ảnh tƣơng tƣ̣ nhau trong mô ̣t cơ sở dƣ̃ liê ̣u , các ảnh nà y đồng thờ i
cũng dựa trên nhiều kiểu nền và xoay theo các hƣớng khác nhau .
Mô ̣t phƣơng pháp sƣ̉ du ̣ng tính đối xƣ́ ng suy rô ̣ng khác do Lin và cộng sự thƣ̣c
hối đối
hiê ̣n. Lin đã đƣa ra mô ̣t toán tƣ̉ mă ̣t na ̣ kép nhằm khai thác đă ̣c tính phân p xƣ́ ng xuyên tâm củ a , gradient hƣớ ng, trên các vù ng mă ̣t sáng và tối . Tƣơng tƣ̣ nhƣ
toán tử của Reisfeld và cộng sự , toán tử mặt nạ kép cũng cố gắng trích chọn ra những
các nền khác nhau và dƣới các tƣ thế khác nhau , nhƣng
đă ̣c trƣng củ a khuôn mă ̣t tƣ̀ vớ i sƣ̣ phƣ́ c ta ̣p thấp hơn so vớ i toán tƣ̉ củ a Reisfeld và cộng sự . Mô ̣t toán tƣ̉ mớ i và đáng chú ý hơn dƣ̣a trên các hình da ̣ng lồi và lõm đƣơ ̣c Tankus và cộng sự đƣa ra gần đây. Khác với các cách tiếp cận trƣớc , Tankus và cộng sự sƣ̉ du ̣ng đa ̣o hàm củ a
gradient hƣớ ng theo hƣớ ng y, đƣơ ̣c go ̣i là Y - Phase. Theo Tankus và cộng sự Y -
Phase của các đối tƣợng lồi và lõm có đáp ứng ma ̣nh ta ̣i các điểm âm củ a tru ̣c x. Bở i vì , nên Y - Phase củ a chú ng thƣờ ng tƣơng tƣ̣ các đặc tính mặt thƣờng có dạng parabol
vớ i Y - Phase củ a Parabol do đó sinh ra đáp ƣ́ ng ma ̣nh trên tru ̣c x. Bằng cách đƣa ra
mô ̣t đi ̣nh lý và so sánh Y - Phase củ a log(log(log(I))) và exp(exp(exp(I))) vớ i I là ảnh,
Tankus và cộng sự đã chƣ́ ng minh rằng Y - Phase là bất biến dƣớ i các điều kiê ̣n chiếu
sáng khác nhau. Các thực nghiệm chuyên sâu hơn đã chứng tỏ rằng toán tử n ày không
phản ứng nhạy với những đƣờng biên dày của các đối tƣợng không lồi và nền các vùng
nền kết cấu (texture backgounds).
2.1.1.2. Phân tích đặc trƣng (Feature Analysis)
Các đặc trƣng đƣợc trích chọn bởi phép phân tích cấp thấp thƣờng không rõ ràng.
Chẳng hạn, khi xác định vị trí của khuôn mặt sử dụng mô hình màu da, những đối
27 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tƣợng nền có màu tƣơng tự nhƣ màu da cũng đƣợc xác định là mặt. Trong nhiều
phƣơng pháp, ngƣời ta sử dụng các cấu trúc hình học của mặt để xác định và phân biệt
các đặc trƣng khác nhau của khuôn mặt trong điều kiện chúng còn chƣa rõ ràng. Hiện
có hai phƣơng pháp tiếp cận sử dụng cấu trúc hình học của khuôn mặt. Phƣơng pháp
thứ nhất sử dụng chiến lƣợc tìm kiếm đặc trƣng tuần tự dựa trên vị trí tƣơng đối giữa
các đặc trƣng của khuôn mặt. Sự tin cậy của một đặc trƣng đƣợc phát hiện đƣợc tăng
cƣờng bằng cách phát hiện thêm các đặc trƣng khác của khuôn mặt xung quanh nó.
Phƣơng pháp thứ hai nhóm các đặc trƣng thành các “chòm sao” (constellation) dựa
trên một số mô hình khuôn mặt khác nhau.
a. Tìm kiếm đặc trƣng
Kỹ thuật tìm kiếm đặc trƣng bắt đầu bằng việc xác định các đặc trƣng nổi bật của
khuôn mặt. Sau khi phát hiện đƣợc các đặc trƣng nổi bật, dựa trên kỹ thuật nhân trắc
học về cấu trúc hình học của khuôn mặt, ta có thể dự đoán đƣợc các đặc trƣng khác
kém nổi bật hơn. Chẳng hạn, với trƣờng hợp “một vùng nhỏ nằm trên một vùng lớn
hơn trong bối cảnh có đầu và vai” là thể hiện “đầu người nằm trên vai” và một cặp
vùng tối tìm thấy trong vùng nhỏ sẽ làm tăng khả năng vùng nhỏ vừa tìm đƣợc là một
mặt. Thông thƣờng, đặc trƣng đƣợc sử dụng để làm tăng xác suất xuất hiện mặt là cặp
mắt bởi chúng luôn xuất hiện cạnh nhau. Các đặc trƣng khác cũng đƣợc sử dụng cho
mục đích này là trục đối xứng của mặt, đƣờng nét của đầu và phần thân.
Giải thuật trích chọn đặc trƣng khuôn mặt xây dựng bởi De Silva và cộng sự là
một ví dụ điển hình cho phƣơng pháp tìm kiếm đặc trƣng. Giải thuật bắt đầu bằng việc
phỏng đoán vị trí đỉnh đầu và giải thuật tìm kiếm bắt đầu duyệt từ vị trí đấy đi xuống
nhằm tìm vị trí của đôi mắt. Sự hiện diện của cặp mắt đƣợc xác định bằng sự tăng đột
ngột mật độ các biên. Khoảng cách giữa đỉnh đầu và trục mắt đƣợc sử dụng nhƣ một
khoảng cách tham khảo. Sử dụng khoảng cách này, một mẫu mặt bao gồm các đặc
trƣng của khuôn mặt nhƣ mắt, miệng đƣợc khởi tạo từ ảnh đầu vào. Mẫu đầu tiên đƣợc
khởi tạo dựa trên kiến thức nhân trắc học, khoảng cách tham khảo nói trên và một số
khuôn mặt có sẵn trong cơ sở dữ liệu của hệ thống.
Khoảng cách nhân trắc trung bình đƣợc sử dụng trong thƣ̣c nghiê ̣m củ a De Silva.
Bảng 2.1. Khoảng cách trung bình trong thuật toán của De Silva.
28 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chiều cao
Độ phân tách
Mắ t
Mắ t
của mắt
của đầu
đến mũi
đến miệng
Khoảng cách
1.972
0.516
0.303
0.556
trung bình
Thuâ ̣t toán củ a De Silva đa ̣t đƣơ ̣c đô ̣ chính xác là 82% (khoảng 30 ảnh trong cơ (có độ
sở dƣ̃ liê ̣u) vớ i tất cả các đă ̣c trƣng củ a các ảnh đầu và vai gần nhƣ nhìn thẳng lê ̣ch ± 300) trên nền thuần nhất . Mă ̣c dù thuâ ̣t toán đã cố gắng để dò tìm đă ̣c tính khuôn mă ̣t củ a các chủ ng tô ̣c ngƣờ i khác nhau vì thuâ ̣t toán không dƣ̣a trên các thông tin về mƣ́ c xám và màu da , nhƣng thuâ ̣t toán đã không thể tìm kiếm chính xác các ảnh mă ̣t ngƣờ i đeo kính hoă ̣c có tóc che lên trán.
Jeng và cộng sự đã đề xuất mô ̣t hê ̣ thống tìm kiếm mă ̣t và các đă ̣c tính mă ̣t cũng dƣ̣a trên các khoảng cách nhân trắc ho ̣c . Trong hê ̣ thống này , các vị trí có khả năng
trí của cặp mắt dựa trên các
chƣ́ a mă ̣t đƣơ ̣c xác đi ̣nh tƣ̀ trƣớ c thông qua xác đi ̣nh vi ̣ ảnh tiền xử lý đƣợc nhị phân hoá . Vớ i mỗi vù ng ảnh có khả năng chƣ́ a că ̣p mắt , thuâ ̣t toán sẽ tiếp tục dò tìm vị trí của mũi , miê ̣ng và lông mày. Mỗi đă ̣c tính củ a mă ̣t có mô ̣t hàm lƣợng giá đi kèm đƣợc sử dụng để xác định vùng có khả năng cao nhất là mặt :
E = 0.5Emắ t + 0.2Emiê ̣ng + 0.1Elông mà y trá i + 0.1Elông mà y phải + 0.1Emũi
Vớ i hê ̣ thống này , tỷ lê ̣ tìm kiếm thành công đƣơ ̣c thông báo là 86% trên tâ ̣p dƣ̃ liệu 114 ảnh chụp trong điều kiện chụp ảnh đƣợc điều chỉnh , nhƣng đƣơ ̣c đă ̣t theo các
hƣớ ng khác nhau và trên các nền ảnh lô ̣n xô ̣n.
Mô ̣t thuâ ̣t toán tƣ̣ đô ̣ng tìm kiếm các đă ̣c trƣng mă ̣t GAZE đƣơ ̣c đề xuất bở i Herper và cộng sự dƣ̣a trên nguyên lý về chiến lƣơ ̣c chuyển đô ̣ng củ a mắt trong các hê ̣ thống hình ảnh ngƣờ i (Human Vision System ). Cơ chế trung tâm củ a thuâ ̣t toán là cơ
chế theo dõi cu ̣c bô ̣ trong đó xem xét tuần tƣ̣ các vù ng có khả năng chƣ́ a các đă ̣c trƣng nổi bâ ̣t nhất . Sau đó, mô ̣t biểu diễn theo da ̣ng đa mƣ́ c xám củ a các đă ̣c trƣng nổi bâ ̣t đƣơ ̣c sinh ra sƣ̉ du ̣ng bô ̣ lo ̣c Gaussian đa hƣớ ng . Các đặc trƣng nổi bật nhất (vớ i biểu diễn đô ̣ nổi bâ ̣t lớ n nhất ) đƣơ ̣c trích ra sƣ̉ du ̣n g các đánh giá tƣ̀ thô đến tinh trên biểu đồ biểu diễn đô ̣ nổi bâ ̣t. Bƣớ c tiếp theo củ a thuâ ̣t toán là bƣớ c cải thiê ̣n trong đó đô ̣ nổi bâ ̣t củ a các vù ng đã đƣơ ̣c trích ra sẽ bi ̣ giảm đi trong khi đô ̣ nổi bâ ̣t củ a đă ̣c trƣng có thể tiếp theo đƣơ ̣c gia tăng trong bƣớ c lă ̣p kế tiếp . Bằng cách áp du ̣ng thuâ ̣t toán lă ̣p đi
29 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
lă ̣p la ̣i trên 50 ảnh mặt nhìn thẳng có độ phân giải cao (không có ảnh nền ). Helper và cộng sự đã thông báo t ỷ lê ̣ dò tìm că ̣p mắt thành c ông là 98% chỉ trong ba lần lặp đầu tiên. Các vùng đặc tính mặt tiếp theo nhƣ mũi và miệng cũng đƣợc tìm ra trong các lần
lă ̣p tiếp theo . Vì các ảnh mặt dùng để thử nghiệm trong thuật toán chứa các ảnh mặt
theo các hƣớ ng khác nhau và có sự thay đổi nhỏ về điều kiện chiếu sáng và tỉ lệ , nên tỉ lê ̣ tìm kiếm mă ̣t thành công cao nhƣ vâ ̣y chỉ ra rằng thuâ ̣t toán không phu ̣ thuô ̣c vào các biến đổi của ảnh mặt . Hơn nƣ̃a, không giống nhƣ các thuâ ̣t t oán khác, thuâ ̣t toán
này không dựa trên thông tin cụ thể liên quan đến các đặc tính mặt .
Chiến lƣơ ̣c chuyển đô ̣ng củ a mắt nhƣ trên cũng là cơ sở củ a thuâ ̣t toán đƣơ ̣c đề xuất bở i Smeraldi và cộng sự, trong đó mô ̣t mô tả về đích tìm kiếm (că ̣p mắt) đƣơ ̣c xây dƣ̣ng bở i đáp ƣ́ ng Gabor trung bình tƣ̀ mô ̣t lƣớ i lấy mẫu võng ma ̣c đă ̣t ta ̣i că ̣p mắt củ a đố i tƣơ ̣ng trong tâ ̣p mẫu . Các hàm Gabor hai chiều đƣợc sử dụng theo 6 hƣớ ng và 5 tần số khác nhau dù ng tron g trích cho ̣n đă ̣c trƣng . Hàm Gabor nhỏ nhất đƣợc sử dụng ở trung tâm của lƣới lấy mẫu trong khi hàm lớn nhất đƣợc sử dụng tại các vùng lệch ra
. Để tìm kiếm că ̣p mắt , mô ̣t thuâ ̣t t oán tìm bên ngoài ta ̣i đó có các mẫu rờ i ra ̣c nhất kiếm dƣ̣a trên chuyển đô ̣ng mắt đƣơ ̣c sƣ̉ du ̣ng trong đó lƣớ i mẫu đƣơ ̣c đă ̣t ta ̣i mô ̣t vi ̣ trí ngẫu nhiên trong mă ̣t và sau đó chuyển dần tớ i các vi ̣ trí mà khoảng cách Euclide giƣ̃a . Lƣớ i mẫu sẽ các điểm trong lƣới mẫu và các điểm tr ên đích tìm kiếm là nhỏ nhất
đƣơ ̣c chuyển di ̣ch vòng quanh cho đến khi đô ̣ di ̣ch chuyển nhỏ hơn mô ̣t ngƣỡng đi ̣nh trƣớ c. Nếu đích không đƣơ ̣c tìm ra (có thể rơi vào trƣờng hợp quá trình tìm kiếm xuất . phát từ một vùng trống trong ảnh ) thì một điểm ngẫu nhiên mới sẽ đƣợc sử dụng
Smeraldi và cộng sự đã thông báo tìm kiếm chính xác vi ̣ trí că ̣p mắt củ a toàn bô ̣ mô ̣t cơ sở dƣ̃ liê ̣u chƣ́ a 800 ảnh nhìn thẳng. Bên ca ̣nh Smeraldi , đáp ƣ́ ng Gabor cũng đƣơ ̣c sƣ̉ du ̣ng nhiều trong tìm kiếm mă ̣t và các đă ̣c tính mă ̣t .
Các phƣơng pháp tiếp cận khác đƣợc đề xuất để tìm kiếm đặc tính mặt còn bao
gồm phƣơng pháp hàm bán kính cơ sở và phƣơng pháp sƣ̉ du ̣ng thuâ ̣t toán tiế n hoá.
b. Phân tích chòm sao
Một số giải thuật đƣợc đề cập tới trong phần trên dựa chủ yếu vào các thông tin
heuristic có đƣợc từ việc mô hình hoá các khuôn mặt khác nhau trên những điều kiện
cụ thể. Nếu nhƣ vấn đề đặt ra tổng quát hơn, chẳng hạn nhƣ xác định các khuôn mặt ở
nhiều tƣ thế trong một nền ảnh phức tạp, thì phần lớn trong số những giải thuật trên sẽ
30 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
gặp thất bại do tính cứng nhắc của chúng. Các kỹ thuật phát hiện mặt sau này đã cố
gắng linh động hơn bằng cách nhóm các đặc trƣng trong khuôn mặt, tƣơng tự nhƣ các
chòm sao, bằng cách sử dụng các phƣơng pháp mô hình hoá tốt hơn, chẳng hạn nhƣ
phƣơng pháp thống kê.
Có khá nhiều loại chòm sao đã đƣợc đề xuất. Burl và cộng sự sử dụng mô hình
thống kê các đặc trƣng đƣợc phát hiện bởi bộ lọc Gaussian. Mô hình thống kê về sắp
xếp không gian của các đặc trƣng cho phép giải thuật có khả năng phát hiện tốt hơn
trong những điều kiện bị thay đổi về thể hiện (thiếu đặc trƣng, đầu nghiêng…). Các
mô hình mặt thống kê cũng đƣợc sử dụng trong nhiều giải thuật. Theo đó, mặt đƣợc
phân thành nhiều lớp dựa trên các góc nhìn khác nhau. Sau đó, với mỗi lớp mặt này,
lại đƣợc phân nhỏ hơn nữa thành các thành phần đặc trƣng. Trong quá trình phát hiện
mặt, các đặc trƣng mặt đƣợc phát hiện bởi các phép xử lý cấp thấp (low - level), sau đó
đƣợc nhóm lại. Quá trình nhóm này đƣợc thực hiện cao dần, cho tới khi phát hiện
đƣợc ảnh.
Các phƣơng pháp mô hình thống kê mặt dựa trên sự xuất hiện nhiều mặt cũng đã
đƣơ ̣c đề xuất . Trong mô hình củ a Yow và Cipolla , các khuôn mặ t đƣơ ̣c phân loa ̣i ra thành một vài lớp mặt nhỏ có sự tƣơng đồng theo một cách nhìn nào đó . Các lớp này
sau đó la ̣i đƣơ ̣c tiếp tu ̣c phân lớp thành các lớp thành phần đă ̣c trƣng . Sau khi các đă ̣c
trƣng mă ̣t đƣơ ̣c xác đi ̣nh tƣ̀ các xƣ̉ lý mức thấp dựa trên biên , sƣ̣ phân lớp sau đó sẽ cho phép các lớp mă ̣t khác nhau đƣơ ̣c xác đi ̣nh mô ̣t cách phân cấp bắt đầu tƣ̀ phía thấp nhất củ a sƣ̣ phân lớ p các mă ̣t. Phép phân lớp sẽ làm giảm đi một cách hiệu quả các đặ c trƣng không chính xác sinh ra do nền không đồng nhất . Mô ̣t ma ̣ng Bayes sẽ cho phép kết hơ ̣p tổng quát các tìm kiếm riêng biê ̣t củ a tất cả các lớp và làm cho giả thiết về vùng mặt đƣợc đảm bảo với độ tin cậy cao . Mô ̣t tỷ lê ̣ dò tìm 92% đƣơ ̣c thông báo trên thí nghiê ̣m vớ i 100 ảnh chụp trong khung cảnh phòng thí nghiệm . Thuâ ̣t toán có thể giải quyết đƣợc các biến đổi nhỏ trong t ỷ lệ, hƣớ ng và điểm nhìn củ a tƣ̀ ng mă ̣t đồng thờ i vớ i các trƣờ ng hơ ̣p c ó kính và thiếu đặc trƣng . Vớ i cù ng mô ̣t chiến lƣơ ̣c tìm kiếm nhƣ củ a Yow và Cipolla , vớ i mô ̣t số khác biê ̣t nhỏ về mô hình mă ̣t và bô ̣ dò tìm đă ̣c trƣng, Sumi và cộng sự đã đề xuất mô ̣t hê ̣ thống trong đó các thành phần mă ̣t đ ƣợc xử lý bởi các tác tử song song dựa trong một mạng phân tán . Hê ̣ thống này cũng đa ̣t đƣơ ̣c tỷ lê ̣ thành công cao (94%) trong dò tìm các khuôn mă ̣t khác nhau .
31 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
, các ảnh đầu vào đƣợc chuyển th ành một Trong hê ̣ thống củ a Maio và Maltoni
ảnh hƣớng sử dụng toán tử dạng gradient qua một cửa sổ cục bộ
(7x7 điểm ảnh). Tƣ̀ ảnh hƣớng này, họ đã áp dụng phƣơng pháp dò tìm mặt hai giai đoạn trong đó sử dụng
.
phép biển đổi Hough suy rộng và một tập 12 mẫu nhi ̣ phân biểu diễn các nhóm mă ̣t Phép biến đổi Hough suy rộng đƣợc sử dụng để sinh ra các vùng mặt ứng viên thông
, đây là mô ̣t hê ̣ thống da ̣ng thờ i gian thƣ̣c
qua viê ̣c tìm kiếm các đƣờ ng elip . Các vùng ứng viên sau đó đƣợc đƣa vào giai đoạn phù hợp mẫu để quyết định vùng đó là mặt hay không . Bở i vì tính hiê ̣u quả trong cài . Maio và đă ̣t và các vấn đề về thiết kế Maltoni đã thông báo dò tìm chính xác 69 trên 70 ảnh (98,57%) mà không gặp cảnh báo lỗi nào. Các ảnh mẫu đƣợc sử dụng chứa một mặt với các kích cỡ mặt và dạng của
vùng nền thay đổi khác nhau . Phép biến đổi Hough suy rộng cũng đã đƣợc sử dụng
trong hê ̣ thống củ a Schubert.
Hình 2.2. Hê ̣ thống tìm kiế m mặt của Maio và Maltoni
Trong các hê ̣ thống nhâ ̣n da ̣ng , mô ̣t trong các kỹ thuâ ̣t đƣơ ̣c sƣ̉ du ̣ng rô ̣ng rãi là
phƣơng pháp đối sánh đồ thi ̣ . Các đồ thị lƣu trữ thông tin đặc trƣng cục bộ vào các
vectơ đă ̣c trƣng ta ̣i các đỉnh và các thông tin hình học vào các cạnh (nối kết các đỉnh ). Mô ̣t vài hê ̣ thống sƣ̉ du ̣ng phƣơng pháp đối sánh đồ thi ̣ gần đây đƣơ ̣c thiết kế liên quan
đến tìm kiếm khuôn mặt tự động nhƣng nhiệm vụ này không phải là mục đích chí nh
của toàn bộ hệ thống , vì vậy chỉ có một số kết quả định lƣợng mở rộng đƣợc báo cáo
dƣ̣a trên nhiê ̣m vu ̣ tìm kiếm khuôn mă ̣t . Mô ̣t phƣơng pháp tiếp câ ̣n tƣơng tƣ̣ dƣ̣a trên
32 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đố i sánh đồ thi ̣ cũng đƣơ ̣c áp du ̣ng trong tìm kiế m khuôn mă ̣t trong thuâ ̣t toán Ma ̣ng khả năng (Potential Net) của Bessho và cộng sự.
2.1.1.3. Mô hình hình dạng động (Active shape models)
Đây là mô hình thời gian thực hiệu quả và là thành tựu quan trọng của hƣớng tiếp
cận dựa vào phân tích đặc trƣng. Mô hình dựa vào tính chất vật lý thật sự và sự xuất
hiện mức cao của các đặc trƣng. Mô ̣t khi đƣơ ̣c đƣa ra vớ i mô ̣t mƣ́ c đô ̣ tƣơng tƣ̣ vớ i đă ̣c trƣng, mô ̣t mô hình hình da ̣ng tích cƣ̣c nhƣ vâ ̣y sẽ tƣơng tác vớ i các đă ̣c trƣng ảnh cu ̣c bô ̣ (nhƣ đƣờ ng biên, đô ̣ sáng) và gần nhƣ biến dạng để đạt đƣợc hình dạng của các đặc trƣng. Hiê ̣n ta ̣i, có khoảng 3 dạng mô hình hình dạng tích cực đƣợc nghiên cứu trong
lĩnh vực trích chọn các đặc trƣng mặt . Dạng thứ nhất sử dụng khái ni ệm đƣờng nét
tổng quát và có tên là con rắn (snake), đƣơ ̣c đƣa ra đầu tiên bở i Kass và cộng sự vào năm 1987. Dạng mẫu có thể biến đổi (deformable template) đƣơ ̣c đƣa ra bở i Yuille và
cộng sự trong đó quan tâm tớ i mƣ́ c đô ̣ ƣu tiên củ a cá c đă ̣c tính mă ̣t và nhằm hƣớ ng tớ i hiê ̣u năng cao hơn da ̣ng con rắn . Dạng thứ ba đƣợc Cootes và cộng sự đề xuất sử dụng
(smart snake) và PDM
mô hình mềm dẻo tổng quát mớ i có tên là con rắn thông minh để cung cấp một phƣơng tiện hi ệu quả xác định mặt ngƣời
. Mô hình củ a Cootes và cộng sự dƣ̣a trên tâ ̣p hơ ̣p các điểm đƣơ ̣c gán nhãn chỉ cho phép biến đổi theo mô ̣t vài hình dạng dựa trên quá trình học.
a. Mô hình dạng con rắn (Snake)
Đƣợc sử dụng để xác định đƣ ờng bao của đầu . Để thƣ̣c hiê ̣n viê ̣c này , mô ̣t con rắn ban đầu đƣơ ̣c khở i ta ̣o ta ̣i mô ̣t vù ng lân câ ̣n xung quanh vù ng biên đầu . Sau đó co dần về phía các đƣờ ng biên và đƣa ra hình da ̣ng giả đi ̣nh củ a vù ng đầu . Sƣ̣ tiến hoá của con rắn đƣơ ̣c thƣ̣c hiê ̣n thông qua viê ̣c cƣ̣c tiểu hoá mô ̣t hàm năng lƣơ ̣ng Esnake (tƣơng tƣ̣ vớ i các hê ̣ thống vâ ̣t lý) và đƣợc biểu diễn nhƣ sau:
Esnake = Ebên trong + Ebên ngoài
Trong đó : Ebên trong và Ebên ngoài lần lƣơ ̣t là các hàm n ăng lƣơ ̣ng bên trong và bên ngoài. Năng lƣơ ̣ng bên trong là phần năng lƣơ ̣ng phu ̣ thuô ̣c vào các thuô ̣c tính bản chất củ a con rắn và ta ̣o nên sƣ̣ tiến hoá tƣ̣ nhiên củ a đƣờ ng biên đô ̣ng . Các tiến hoá tự nhiên điển hình củ a con rắn là sƣ̣ co ngắn và sƣ̣ mở rô ̣ng. Trong khi đó năng lƣơ ̣ng bên ngoài có khuynh hƣớng chống lại năng lƣợng bên trong và làm cho các đƣờng biên
33 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đô ̣ng sai lê ̣ch so vớ i tiến hoá tƣ̣ nhiên thâ ̣m chí thƣ̀ a nhâ ̣n hình da ̣ng củ a các đă ̣c tính gần nhất là hình da ̣ng vù ng đầu khi ở tra ̣ng thái cân bằng.
Hai vấn đề chính cần quan tâm trong viê ̣c áp du ̣ng mô hình con rắn là lƣ̣a cho ̣n
cách tính năng lƣợng chính xác và kỹ thuật cực tiểu hoá năng lƣợng . Năng lƣơ ̣ng
Elastic đƣợc sử dụng phổ biến nhƣ là năng lƣợng bên trong . Khoảng cách giữa các
điểm điều khiển trên đƣờ ng biên đô ̣ng đƣơ ̣c cân đối và do đó đem la ̣i cho đƣờ ng biên đă ̣c tính giống nhƣ sơ ̣i dây cao su có thể co hoă ̣c dãn . Vấn đề năng lƣơ ̣ng bên ngoài đƣơ ̣c xem xét dƣ̣a vào kiểu da ̣ng củ a đă ̣c trƣng ảnh đƣơ ̣c xem xét . Gunn và Nixon làm cho năng lƣơ ̣ng này phản ƣ́ ng vớ i gradient củ a ảnh nên các đƣờ ng biên đô ̣ng thƣờ ng hô ̣i tu ̣ về phía các vi ̣ trí biên . Bên ca ̣nh các thông số về gradient, mô ̣t số cách tính năng lƣơ ̣ng bên ngoài khác còn bao gồ m cả các hàm liên quan đến màu da trong đó hấp dẫn các con rắn về phía các vùng mặt . Viê ̣c cƣ̣c tiểu hoá năng lƣơ ̣ng đƣơ ̣c thƣ̣c hiê ̣n thông qua các kỹ thuâ ̣t tối ƣu hoá nhƣ phƣơng pháp giảm gradient dốc nhất . Do yêu cầu tính toán cao của quá trình cực tiểu hoá , Hoang và Chen , Lam và Yang đã đồng thờ i sƣ̉
dụng phƣơng pháp lặp nhanh (thuâ ̣t toán tham ăn) để tăng tốc độ hội tụ.
Mă ̣c dù phƣơng pháp con rắn một cách tổng quát có thể xác định đƣợc các đƣờng
bao quanh các vù ng đă ̣c trƣng nhƣng viê ̣c triển khai phƣơng pháp vẫn bi ̣ cản trở bở i hai vấn đề . Các phần của con rắn hay bị bẫy vào các các vùng đặc t rƣng ảnh không
đú ng. Hơn nƣ̃a, phƣơng pháp con rắn không thƣ̣c sƣ̣ hiê ̣u quả trong xác đi ̣nh các đă ̣c trƣng không lồi do xu hƣớ ng tiến tớ i cƣ̣c tiểu đô ̣ cong củ a các con rắn . Gunn và Nixon giải quyết các vấn đề này bằng một mô hình c on rắn đƣơ ̣c tham số hoá cho trích cho ̣n mă ̣t và đƣờ ng bao vù ng đầu. Mô hình bao gồm hai đƣờ ng biên đô ̣ng tích hơ ̣p vớ i nhau , mô ̣t đƣờ ng mở rô ̣ng bên trong mă ̣t và mô ̣t đƣờ ng co nhỏ la ̣i bên ngoài đƣờ ng bao vù ng mă ̣t. Ban đầu, sƣ̣ biế n đổi củ a hai con rắn đƣơ ̣c điều khiển bở i mô ̣t mô hình tham số đă ̣t giƣ̃a chú ng. Mô hình tham số này hƣớ ng hai đƣờ ng về hình da ̣ng đích và cho phép phân biê ̣t các vù ng đă ̣c trƣng ảnh không dùng và do đó không bị bẫy bởi chúng . Khi mô ̣t đƣờ ng đa ̣t đƣơ ̣c đến sƣ̣ cân bằng , mô hình bi ̣ loa ̣i bỏ và thay vào đó các đƣờ ng biên đƣơ ̣c hoa ̣t đô ̣ng đô ̣c lâ ̣p nhƣ là các đƣờ ng biên đô ̣ng cơ bản tiến tớ i trích cho ̣n đƣơ ̣c đƣờ ng bao cuối cù ng . Đƣờng bao còn đƣợc sử dụn g trong dò tìm kính đeo mắt trong hê ̣ thống củ a Saito và cộng sự.
b. Mô hình dạng biến đổi (Deformable templates)
34 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Xác định đƣờng bao của một vùng đặc trƣng mặt không phải là một vấn đề dễ
giải quyết bởi vì các dấu hiệu cục bộ của các đƣờng biên mặt khó có thể đƣợc tổ chức
thành các thực thể tổng thể nhận biết đƣợc thông qua các đƣờng biên . Độ tƣơng phản
thấp về đô ̣ sáng xung quanh mô ̣t số vù ng đă ̣c trƣng ảnh cũng làm cho quá trình dò biên khó thực hiê ̣n. Yuille và cộng sự mở rô ̣ng khái niê ̣m con rắn thông qua viê ̣c kết hơ ̣p
các thông tin tổng thể về cặp mắt để nâng cao độ tin cậy của quá trình trích chọn đặc
trƣng. Mô ̣t mẫu có thể thay đổi củ a mắt dƣ̣a trên các đă ̣c trƣng n ổi bật của chúng đƣợc tham số hoá sƣ̉ du ̣ng 11 tham số . Hoạt động theo nguyên tắc giống nhƣ các con rắn , mô ̣t mẫu nếu đƣơ ̣c khở i đầu gần vớ i đă ̣c trƣng mắt sẽ tƣ̣ biến đổi hƣớ ng tớ i đƣờ ng bao đă ̣c trƣng tối ƣu . Cơ chế biến đổi liên quan đến phƣơng pháp cƣ̣c tiểu hoá giảm
gradient dốc nhất củ a tổ hơ ̣p năng lƣơ ̣ng ngoài do các vù ng trũng , đƣờ ng biên, đỉnh và đô ̣ sáng củ a ảnh (Ev, Ee, Ep, Ei) đƣơ ̣c tính theo công thƣ́ c:
E = Ev + Ee + Ep + Ei + Ebên trong
Tất cả các biểu thức năng lƣợng trên đƣợc biểu diễn bằng một tích phân sử dụng
các thuộc tính mẫu nhƣ diện tích . Năng , đô ̣ dài củ a đƣờ ng tròn và đƣờ ng parabol
lƣơ ̣ng bên trong đƣơ ̣c tính theo nhƣ các tham số mẫu nhƣ sau:
(7)
Các đại lƣợng của biểu thức năng lƣợng nhƣ {k1, k2, k3Y} điều khiển diễn biến
quá trình và sự biến đổi của các mẫu . Thay đổi giá tri ̣ củ a các đa ̣i lƣơ ̣ng này cho phép các mẫu biến đổi và thể hiện xung quanh các mô ̣t chiến lƣơ ̣c đối sánh mớ i trong đó
vùng đặc trƣng ảnh trong các giai đoạn khác nhau . Yuille và cộng sự đã đề xuấ t ra mô ̣t
đa ̣i lƣơ ̣ng 6 mốc (trên mô ̣t lần lă ̣p) làm thay đổi chiến lƣợc cho các mẫu mắt đƣợc khởi
đầu bên dƣớ i vi ̣ trí că ̣p mắt . Các kỹ thuật này đã đƣợc sử dụng nhƣ là một phần quan - máy của trọng trong hệ thống xác thực mặt dựa trên tƣơng tác trực quan ngƣời
Tistarelly và Grosso.
Có một số vấn đề lớn trong các ứng dụng sƣ̉ du ̣ng mẫu có thể thay đổi . Do chiến lƣợc đối sánh mẫu là cố định , vị trí khởi đầu của các mẫu sẽ ảnh hƣởng nhiều đến quá
trình tiến hoá. Chẳng hạn, Yuillr và cộng sự đã chỉ ra rằng nếu mẫu đƣơ ̣c đă ̣t trên mắt thì nó có thể bị hấp dẫn đ ến lông mày thay vì cặp mắt . Thờ i gian xƣ̉ lý cũng sẽ rất lớ n
quá trình thực hiện tuần tự hoá của quá trình cực tiểu hoá . Các trọng số của biểu thức
35 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
năng lƣơ ̣ng là heuristic và rất khó tổng quát hoá . Các nghiên cứu tro ng lĩnh vƣ̣c này hiê ̣n ta ̣i đang tâ ̣p trung chủ yếu vào các vấn đề nhƣ giảm thờ i gian thƣ̣c hiê ̣n , thay đổi các mẫu và biểu thức của năng lƣợng . Shackleton và Welsh nâng cao đô ̣ chính xác củ a đối sánh mẫu mắt bằng cách thêm các tham số bổ sung và và sƣ̉ du ̣ng biểu thƣ́ c năng lƣơ ̣ng bên ngoài nha ̣y vớ i vù ng trắng củ a mắt đã đƣơ ̣c cải thiê ̣n . Tỷ lê ̣ khớ p mẫu 86% đƣơ ̣c báo cáo trên thí nghiê ̣m vớ i tâ ̣p 64 ảnh. Thờ i gian xƣ̉ lý kéo dài đƣơ ̣c giảm đi bằng cá ch sƣ̉ du ̣ng mô ̣t phiên bản đơn giản củ a mẫu đa ̣t đƣơ ̣c qua viê ̣c loa ̣i bỏ các tham số ít ảnh hƣở ng đến các hình da ̣ng mẫu tổng thể . Chow và cộng sự sƣ̉ du ̣ng tiếp câ ̣n hai bƣớ c để trích cho ̣n că ̣p mắt . Phép biến đổi Hough vòng đƣ ợc thực hiện để xác đi ̣nh mống mắt trƣớ c khi đối sánh vớ i mô ̣t mẫu mắt đơn giản hoá chỉ có mô hình cấu trúc mắt dạng parabol . Viê ̣c đơn giản hoá làm tăng thờ i gian cha ̣y nhanh gấp 16 lần so sánh với các mẫu của Yuille và cộ ng sự. Trong mô ̣t phát triển gần đây , Lam và Yan đã sƣ̉ du ̣ng các thông tin về góc mắt để đánh giá các tham số khở i đầu củ a mô hình mẫu mắt. Sƣ̣ gia tăng về thông tin làm cho phép sƣ̣ đối sánh mẫu sẽ chính xác , tin câ ̣y hơn . Thời gian để mẫu đạt đƣợc vị trí tối ƣu cũng đã đƣợc giảm đến 40% (so sánh vớ i mẫu ban đầu ). Bên ca ̣nh các mẫu mắt , các mẫu miệng cũng đƣợc sử dụng với cùng một
chiến lƣơ ̣c.
c. Mô hình phân phối điểm (Point Distributed Models)
. Kiến trú c và Là mô ̣t mô tả tham số hoá tối ƣu củ a hình da ̣ng dƣ̣a trên thống kê
quá trình so khớp cả PDM khác với của các mô hình hình dạng động khác . Các đƣờng
biên đô ̣ng củ a PDM đƣơ ̣c rờ i ra ̣c hoá thành các tâ ̣p điểm đƣơ ̣c đ ánh nhãn. Sƣ̣ biến đổi của các tập điểm này trƣớc hết đƣợc tham số hoá thông qua các tập mẫu học chứa các
. Sƣ̉ du ̣ng phƣơng pháp phân tích thành đố i tƣơ ̣ng có hình da ̣ng và tƣ thế khác nhau phần chính (PCA), sƣ̣ biến đổi củ a các đă ̣c trƣng trong tâ ̣p mẫu ho ̣c đƣơ ̣c xây dƣ̣ng thành một mô hình linh động tuyến tính . Mô hình đƣơ ̣c cấu thành tƣ̀ trung bình củ a tất cả các đặc trƣng trong tập hợp và mô hình cơ bản của sự biến đổi từng điểm ảnh :
(8)
là đặc tính trung bình trong tập Trong đó : x biểu diễn mô ̣t điểm trong PDM và
mẫu đối vớ i điểm đó , P = [p1p2…pt] là ma trận chứa t vectơ biến đổi quan tro ̣ng nhất của ma trận hiê ̣p biến, v là vectơ trọng số.
36 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Mô hình PDM cho mă ̣t đƣơ ̣c phát triển đầu tiên bở i Lanitis và cộng sự nhƣ là mô ̣t mô hình linh đô ̣ng . Mô hình minh hoa ̣ dáng vẻ tổng thể củ a mă ̣t bao gồm các đă ̣c tính mă ̣t nhƣ lông mày , mũi và mắt . Sử dụng 152 điểm điều khiển đƣơ ̣c cho ̣n bằng tay và 160 ảnh mặt mẫu , mô ̣t mô hình PDM đƣơ ̣c xây dƣ̣ng . Chỉ sử dụng 16 trọng số , mô hình có thể xấp xỉ đƣợc 95% các hình dạng mặt trong tập mẫu . Để so khớ p mô ̣t mô
) đầu
hình PDM với m ột mặt, mô hình hình da ̣ng trung bình (vớ i điểm đánh nhãn = tiên đƣơ ̣c đă ̣t gần mă ̣t . Sau đó các chiến lƣơ ̣c tìm kiếm trên mƣ́ c xám cu ̣c bô ̣ đƣơ ̣c sƣ̉ dụng để đƣa từng điểm hƣớng đến điểm tƣơng ứng t huô ̣c đƣờ ng bao . Trong suốt quá trình biến đổi này , hình dạng chỉ đƣợc phép thay đổi theo một cách phù hợp với các
thông tin đã đƣơ ̣c mô hình hoá trong tâ ̣p mẫu.
Lơ ̣i điểm củ a viê ̣c sƣ̉ du ̣ng mô hình mă ̣t PDM là các mô tả đƣơ ̣c tham số hoá tối
ƣu. Mô hình PDM đã đƣơ ̣c cài đă ̣t nhƣ là biểu diễn tổng quát trong mô ̣t số ƣ́ ng du ̣ng xƣ̉ lý mă ̣t và các đă ̣c trƣng mă ̣t. Lanitis và cộng sự trong các bƣớ c tiếp theo đã tích hơ ̣p thuâ ̣t toán di truyền (GA) và các ti ếp cận đa phân giải để giải quyết vấn đề tồn tại
nhiều vù ng khả năng là mă ̣t . Đặc tính tổng thể của mô hình cũng cho phép tất cả các đă ̣c trƣng đƣơ ̣c xác đi ̣nh song song vớ i nhau và do đó lƣơ ̣c bớ t đƣơ ̣c yêu cầu phải tìm kiếm các đặc trƣng. Hơn nƣ̃a, sƣ̣ thiếu vắng mô ̣t đă ̣c trƣng nào đó không trở thành vấn
đề nghiêm trọng khi mà đến các đặc trƣng khác trong mô hình vẫn có thể đạt tới một
giải pháp tối ƣu toàn thể.
2.1.2. Hƣớng tiếp cận dựa trên ảnh (Image based detection)
Phƣơng pháp phát hiện mặt dựa trên các đặc trƣng nhƣ đã trình bày ở trên tỏ ra
khá cứng nhắc và gặp phải rất nhiểu khó khăn do các điều kiện môi trƣờng và những
thay đổi không thể đoán trƣớc của các khuôn mặt. Mặc dù đã có một số phƣơng pháp
cải tiến để tăng khả năng xử lý với các trƣờng hợp thay đổi, nhƣng chúng vẫn chỉ giới
hạn ở việc phát hiện các mặt nhìn thẳng và gần thẳng. Do đó yêu cầu đặt ra cần phải có
những phƣơng pháp hữu hiệu hơn, cho phép phát hiện mặt trong những trƣờng hợp
phức tạp hơn, chẳng hạn nhƣ phát hiện nhiều mặt trong một ảnh và trong môi trƣờng
nền ảnh phức tạp. Yêu cầu này đã mở ra một lĩnh vực nghiên cứu mới, trong đó vấn đề
phát hiện mặt đƣợc xem nhƣ một phần của lý thuyết nhận dạng mẫu. Bằng cách miêu
tả vấn đề này nhƣ là một kỹ thuật học các mẫu mặt ngƣời từ các tập dữ liệu, những lý
thuyết riêng về phát hiện mặt đã đƣợc bỏ qua. Điều này cho phép loại trừ những lỗi
37 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
gặp phải trong quá trình phát hiện mặt sinh ra bởi sự thiếu chính xác và thiếu toàn vẹn
tri thức về mặt. Phƣơng pháp tiếp cận cơ bản trong nhận dạng mẫu mặt là sử dụng một
giải thuật luyện trong đó dữ liệu đƣợc phân thành 2 lớp: lớp mẫu mặt và lớp không
phải là mẫu mặt. So sánh những lớp này với một mảng 2D trích chọn từ ảnh đầu vào
cho phép ta xác định đƣợc liệu có tồn tại các mặt hay không. Phƣơng pháp đơn giản
nhất dựa trên hƣớng tiếp cận này là phƣơng pháp đối sánh mẫu, tuy nhiên so với
những phƣơng pháp khác trong cùng hƣớng tiếp cận thì phƣơng pháp đối sánh mẫu tỏ
ra kém hiệu quả.
Hầu hết các phƣơng pháp theo hƣớng tiếp cận dựa trên ảnh đều áp dụng kỹ thuật
quét cửa sổ để phát hiện mặt. Kỹ thuật này thực chất là tìm kiếm trên toàn bộ ảnh đƣa
vào để có thể tìm đƣợc tất cả các mặt có trên ảnh ở mọi tỷ lệ. Tuy nhiên, cách thức xây
dựng kỹ thuật tìm kiếm rất đa dạng, phụ thuộc vào từng mục đích của mỗi hệ thống.
Thông thƣờng, kích cỡ cửa sổ quét, bƣớc nhảy, số bƣớc lặp, số mẫu con phụ thuộc vào
từng phƣơng pháp áp dụng và yêu cầu về hiệu quả tính toán của từng hệ thống.
Sau đây, chúng ta sẽ xem xét hƣớng tiếp cận này bằng cách chia nhỏ ra thành 3
hƣớng con, bao gồm phƣơng pháp không gian con tuyến tính (linear subspace
methods), mạng neural (neural network) và phƣơng pháp phân tích thống kê (statistical
analysis).
2.1.2.1. Phƣơng pháp không gian con tuyến tính (Linear subspace methods)
Vào cuối những năm 1980, Sirovich và Kirby đã phát triển một kỹ thuật để có thể
biểu diễn hiệu quả các mặt ngƣời, đƣợc gọi là phƣơng pháp phân tích các thành phần
chính (PCA - Principle Component Analysis). Với một bộ dữ liệu mặt ngƣời, đầu tiên,
ta tiến hành tính các thành phần chính của sự phân bố các mặt, biểu diễn dƣới dạng các
vector riêng (của ma trận hiệp biến của sự phân bố). Mỗi mặt trong tập dữ liệu sau đó
đƣợc xấp xỉ bằng cách kết hợp tuyến tính các vector riêng lớn nhất (không gian vector)
cùng với các trọng số tƣơng ứng của chúng.
Turk và Pentland sau đó đã phát triển kỹ thuật này trong phƣơng pháp nhận dạng
mặt. Phƣơng pháp của họ dựa trên tính chính xác của các trọng số của các vector riêng
trong việc biểu diễn các mặt. Do ảnh mặt đƣợc tái biểu diễn nhờ phép xấp xỉ các thành
phần chính của nó, do đó giá trị lỗi sinh ra trong quá trình xấp xỉ chính là một tham số
để xác định xem đấy có phải là mặt hay không. Giá trị lỗi này thƣờng đƣợc gọi là
38 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
“khoảng cách tới không gian mặt” (DFFS - Distance From Face Space). Giải thuật tính
không gian mặt và DFFS có thể đƣợc mô tả ngắn gọn nhƣ sau:
Giả sử có tập ảnh mặt gồm n ảnh 1, 2, …, n. Giá trị trung bình các mặt đƣợc
tính bởi:
(9)
Độ lệch của mỗi mặt so với mặt trung bình đƣợc tính bởi:
(10)
Đặt D = [12…n] và C = DDT. Các vector riêng của C đƣợc gọi là các thành
phần chính của D. Nếu biểu diễn các vector riêng này dƣới dạng ma trận ta có không
gian riêng của tập dữ liệu ảnh đầu vào. Hình vẽ sau thể hiện không gian riêng của một
số ảnh (sắp xếp theo giá trị riêng). Những không gian riêng này biểu diễn một không
gian con gọi là không gian mặt.
Một ảnh đầu vào đƣợc ánh xạ lên không gian riêng bởi:
(11)
Trong đó: m là số các thành phần chính đƣợc sử dụng để biểu diễn không gian
mặt. Thông thƣờng m << n bởi vì những thành phần chính tƣơng ứng với các giá trị
riêng rất bé không có nhiều giá trị trong việc biểu diễn ảnh (ví dụ trong ảnh số 200 ở
trên).
Ảnh có thể đƣợc khôi phục bởi công thức:
(12)
Hệ số lỗi = || - r|| chính là DFFS.
39 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.3. Một số không gian riêng của cơ sở dữ liệu ảnh ORL
(Số bên dưới mỗi ảnh là số các thành phần chính).
PCA tỏ ra là một phƣơng pháp khá trực quan và thích hợp cho việc xây dựng
không gian con biểu diễn các lớp đối tƣợng trong nhiều trƣờng hợp. Tuy nhiên, để mô
hình hoá đƣợc nhiều trạng thái của các ảnh mặt thì phƣơng pháp này chƣa tối ƣu thật
sự. Ngƣời ta đã cải tiến phƣơng pháp này bằng cách chia nhỏ không gian mặt ra thành
các lớp con. Kỹ thuật này lần đầu tiên đƣợc áp dụng bởi Sung và Poggio. Nó bao gồm
4 bƣớc chính nhƣ sau:
Tiền xử lý ảnh con đầu vào re - scale thành các vùng ảnh 19x19 pixel, áp dụng
một mặt nạ để khử các điểm gần biên, tối ƣu hoá độ tƣơng phản và sau đó áp dụng
phép cân bằng histogram của ảnh.
Xây dựng một mô hình phân bố các mẫu mặt và không phải mặt. Mô hình này
bao gồm 12 cụm Gaussian đa chiều (12 multi - dimensional Gaussian clusters) với vị
trí trung tâm và một ma trận hiệp biến, 6 để mô tả các mẫu mặt và 6 để mô tả các mẫu
không phải mặt. Những cụm này đƣợc xây dựng sử dụng giải thuật phân cụm k -
means sử dụng độ đo khoảng cách Mahalanobis chuẩn hoá.
40 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Với mỗi ảnh đầu vào, xây dựng một tập các giá trị độ đo của ảnh tƣơng đối so
với mô hình mặt. Với mỗi cụm, ta tính hai giá trị, là độ đo khoảng cách Mahalanobis
giữa ảnh đầu vào và trọng tâm của mô hình, xác định trong không gian con tạo bởi 75
vector riêng lớn nhất của cụm mô hình (prototype cluster) và khoảng cách Euclid từ
ảnh đó đến hình chiếu của nó trên không gian con.
Mạng perceptron nhiều lớp (MLP) đƣợc luyện để phân lớp mặt - không mặt.
Cũng tƣơng tự nhƣ phƣơng pháp này, nhƣng có những cải tiến tốt hơn, là N.Duta
và A.K.Jain với sự kết hợp các đặc trƣng về mức xám với các đặc trƣng nền, hay
Fouad và cộng sự với một giải thuật tƣơng tự nhƣng có sự cải thiện đáng kể về hiệu
quả tính toán.
Một vấn đề khi luyện các hệ thống nhận dạng mẫu để phân lớp mặt - không mặt
là xây dựng tập dữ liệu ảnh không phải mặt để luyện mạng nhƣ thế nào. Với bộ dữ liệu
ảnh mặt, ta có thể dễ dàng xác định đƣợc rằng đấy là tất cả các loại mặt, nhƣng với bộ
dữ liệu ảnh không phải mặt thì không đơn giản nhƣ vậy. Sung và Poggio đƣa ra một
giải thuật luyện, đƣợc gọi là “luyện bằng phƣơng pháp bẫy lỗi” nhằm giải quyết vần đề
này. Giải thuật bao gồm những bƣớc sau:
1. Tạo tập dữ liệu ảnh không phải mặt ban đầu bằng cách tạo ra ảnh với những điểm
ảnh đƣợc sinh ngẫu nhiên.
2. Luyện mạng.
3. Thực hiện hệ thống với những ảnh không có mặt ngƣời. Nếu phần ảnh nào đƣợc
nhận diện là mặt, chuyển sang bƣớc 4.
4. Với mỗi ảnh thoả mãn 3, tiền xử lý phần ảnh đƣợc phân lớp sai và đƣa phần ảnh
ấy vào hệ thống nhƣ là một mẫu không phải mặt.
2.1.2.2. Mạng neural
Mạng neural đã trở thành một kỹ thuật phổ biến trong vấn đề nhận dạng khuôn
mặt và cả nhận biết khuôn mặt. Vào thời gian đầu sử dụng mạng neural để phát hiện
mặt, ngƣời ta đã sử dụng các mạng perceptron nhiều lớp (MLP) và chỉ xử lý trên
những bộ dữ liệu đơn giản. Sau đó Rowley và cộng sự đã xây dựng một mạng neural
phức tạp hơn để xử lý những bộ dữ liệu lớn và phức tạp. Đầu vào của mạng là vùng
ảnh 20x20 điểm ảnh (do đó có 400 nút vào). Lớp ẩn gồm 26 nút, trong đó 4 nút nhận
41 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đầu vào từ các vùng ảnh 10x10, 16 nút nhận đầu vào từ các vùng ảnh 5x5, và 6 nút
Input image pyramid
Corrected lighting Histogram equalized
Receptive fields
Extracted window (20 by 20 pixels)
Hidden units
Output
Network Input
20 by 20 pixels
Preprocessing
Neural network
nhận đầu vào từ các vùng ảnh 20x5 điểm ảnh (hình vẽ) [8].
Hình 2.4. Mô hình mạng neural của Rowley và cộng sự
Vấn đề đặt ra trong việc áp dụng kỹ thuật quét cửa sổ là giải quyết vấn đề phát
hiện đè (overlap detection). Rowley và cộng sự giải quyết vấn đề này bằng cách sử
dụng các heuristic:
Lấy ngƣỡng: Nếu số các điểm mặt lân cận điểm đang xét đạt một giá trị ngƣỡng
nào đó thì điểm đó sẽ đƣợc xem là điểm mặt.
Loại bỏ hiện tƣợng phát hiện đè: Nếu một vùng nào đó đã đƣợc xác định là mặt
thì nó sẽ đƣợc bỏ qua trong các bƣớc phát hiện khác.
Để tăng thêm hiê ̣u năng củ a hê ̣ thống , Rowley đã luyê ̣n nhiều ma ̣ng neural và kết hơ ̣p các đầu ra theo mô ̣t chiến lƣơ ̣c nào đó (nhƣ AND, OR và lƣ̣a cho ̣n hoă ̣c sƣ̉ du ̣ng
mô ̣t mạng neural làm trọng tài ). Thuâ ̣t toán này đƣơ ̣c áp du ̣ng trong các hê ̣ thống theo dõi ngƣời của Darrel và cộng sự , của Satoh và trong bƣớc tìm kiếm mặt ban đầu của
hê ̣ thống tìm kiếm vù ng đầu củ a La Cascia và cộng sự . Mô ̣t hê ̣ thống tƣơng tự cũng đã đƣơ ̣c đƣa ra trong nghiên cƣ́ u củ a Han và cộng sự.
Gần đây , Rowley và cộng sự đã kết hơ ̣p hê ̣ thống vớ i mô ̣t ma ̣ng neural đi ̣nh
. Họ sử dụng một
hƣớ ng để tìm kiếm mă ̣t theo tất cả các hƣớ ng trong mă ̣t phẳng ảnh MLP đầy đủ vớ i mô ̣t lớ p ẩn và 36 nút xuất (mỗi nút cho mô ̣t góc 100) để quyết định góc quay của mặt . Hê ̣ thống đã xác đi ̣nh đú ng 79,6% các mặt trong hai tập dữ liệu lớn vớ i số lƣơ ̣ng các mẫu sai nhỏ .
42 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
. Sƣ̣ phân lớ p đa ̣t đƣơ ̣c thông qua phân tích
Feraud và cộng sự đã đề x uất mô ̣t phƣơng pháp sƣ̉ du ̣ng ma ̣ng neural khác dƣ̣a (Constrained Generative Model ). Mô hình CGM trên mô hình sinh ràng buô ̣c CGM đƣơ ̣c sƣ̉ du ̣ng là mô ̣t MLP đầy đủ , vớ i 300 (full - connected) vớ i ba lớ p tro ̣ng số (15x20) nút vào và ra (tƣơng đƣơng vớ i kích thƣớ c ảnh ). Lớ p ẩn thƣ́ nhất có 35 nút, trong khi lớ p ẩn thƣ́ hai có 50 nút. Vớ i mô hình CGM , ý tƣởng ẩn bên trong là ép cho mô ̣t PCA phi tuyến có thể đƣơ ̣c thƣ̣c thi bằng cách thay đổi hình chiếu củ a các mẫu không phải mă ̣t gần hơn vớ i các mẫu mă ̣t lỗi tái xây dƣ̣ng củ a CGM.
Trong quá trình ho ̣c , đích hƣớ ng tớ i củ a các ảnh mă ̣t là xây dƣ̣ng la ̣i đƣơ ̣c ảnh chính nó trong khi đích hƣớng tới củ a các ảnh không phải mă ̣t đƣơ ̣c thiết lâ ̣p tớ i trung
bình của n láng giềng gần nhất của các ảnh mặt . Feraud và cộng sự thƣ̣c hiê ̣n thuâ ̣t
toán luyện mạng dựa trên giải thuật bẫy lỗi của Sung và Poggio (cũng với quá trình
tiền xƣ̉ lý bao gồm cân bằng và làm mi ̣n histogram ). Để có thể điều khiển đƣơ ̣c quá trình học họ sử dụng một hàm lƣợng giá bổ sung dựa trên nguyên lý chiều dài mô tả
nhỏ nhất MDL (minimum description length ). Hê ̣ thống cũng đã đƣơ ̣c phá t triển thêm vớ i các thông tin về màu sắc và đa khung nhìn , đƣơ ̣c áp du ̣ng để tìm kiếm các ảnh mă ̣t trên các trang Website.
Lin và cộng sự đã đƣa ra mô ̣t hê ̣ thống nhâ ̣n da ̣ng mă ̣t tƣ̣ đô ̣ng sử dụng ma ̣ng
neural xác suất (PDBNN - Probabilistic Decision Based Neural Network ). PDBNN là
mô ̣t ma ̣ng neural phân lớ p vớ i mô ̣t cấu trú c mô đun phân cấp . PDBNN tƣơng tƣ̣ nhƣ
DBNN nhƣng đƣơ ̣c thêm vào bở i các yếu tố ràng buô ̣c xác suất . Mạng neural này bao
- take -
gồ m mô ̣t ma ̣ng con cho m ỗi lớp đối tƣợng , kết hơ ̣p vớ i chiến lƣơ ̣c “winner all”. Trong trƣờ ng hơ ̣p tìm kiếm mă ̣t , chỉ có một mạng con biểu diễn lớp các mặt . Quá trình học đƣợc thực hiện với các luật học DBNN , nghĩa là ngƣời giám sát chỉ thông
báo độ chính xác phân lớp ) và sử dụng phép học (không có giá tri ̣ đích chính xác
). Vớ i LUGS , mỗi ma ̣ng con đƣơ ̣c
LUGS (không giám sát cu ̣c bô ̣ giám sát tổng thể luyê ̣n riêng biê ̣t vớ i mô ̣t thuâ ̣t toán ho ̣c không giám sát (thuâ ̣t toán K-means vớ i lƣơ ̣ng
hoá vectơ hoặc thuật toán EM ). Quá trình học tổng thể đƣợc thực hiện để điều chỉnh
biên quyết đi ̣nh bằng cách sƣ̉ du ̣ng các thuâ ̣t toán ho ̣c củ ng cố và không củ ng cố khi mô ̣t da ̣ng trong tâ ̣p mẫu b ị nhận nhầm . Các ảnh đầu vào ban đầu có kích thƣớc
320x240 nhƣng sau đó đƣơ ̣c t ỷ lê ̣ hoá xuống xấp xỉ 46x35 và một cửa sổ 12x12 đƣơ ̣c sƣ̉ du ̣ng để quét ảnh này theo các bƣớ c sai khác nhau 1 điểm ảnh.
43 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Ngoài ứng dụng phân lớp mă ̣t, mạng neural còn đƣợc sử dụng trong phân lớp các
đă ̣c tính mă ̣t nhƣ trong các nghiên cƣ́ u củ a Duchnowski và cộng sự , McKenna và cộng sự, của Reider và cộng sự . Mô ̣t phƣơng pháp khác vớ i mu ̣c đích cải thiê ̣n thờ i gian dò tìm sử dụng MLP cũng đã đƣơ ̣c Ben Yacoub và cộng sự đƣa ra.
2.1.2.3. Phƣơng pháp thống kê (Statistical approachs)
Ngoài các phƣơng pháp sử dụng không gian con tuyến tính và sử dụng mạng
neural, còn có các phƣơng pháp phát hiện mặt sử dụng các đặc trƣn g thống kê. Những
phƣơng pháp này dựa trên cơ sở lý thuyết thông tin, lý thuyết về SVM (Support Vector
Machine) và các luật xác suất của Bayes.
, Colmenarez Dƣ̣a trên các phƣơng pháp tìm kiếm mă ̣t tối đa hoá sƣ̣ tƣơng đồng
và Huang đã đƣa ra một h ệ thống dựa trên thông tin tƣơng quan Kullback (hay khoảng
cách Kullback). Khoảng cách này là một phép đo không âm khoảng cách giữa hai hàm của quá trình ngẫu nhiên Xn: và mâ ̣t đô ̣ xác suất
(13)
Trong quá trình ho ̣c , vớ i mỗi că ̣p điểm ảnh trong tâ ̣p mẫu ho ̣c , mô ̣t biểu đồ xám
c ảnh
kết hơ ̣p đƣơ ̣c sƣ̉ du ̣ng để xây dƣ̣ng các hàm xác suất cho các lớ p mă ̣t và không phải mă ̣t. Khi giá tri ̣ các điểm ảnh phụ thuộc nhiều vào các điểm ảnh xung quanh , Xn đƣơ ̣c xem nhƣ mô ̣t quá trình Markov bâ ̣c mô ̣t và các giá tri ̣ điểm ảnh trong ảnh xám đƣơ ̣c lƣơ ̣ng hoá la ̣i theo 4 mƣ́ c. Colmenarez và Huang đã sƣ̉ du ̣ng mô ̣t tâ ̣p lớ n cá 11x11 gồm ảnh mă ̣t và ảnh không phải mă ̣t trong quá trình ho ̣c . Kết quả củ a quá trình học là một tập các bảng tìm kiếm với các t ỷ số tƣơng tƣ̣ tính đƣơ ̣c . Để cải thiê ̣n hiê ̣u năng và giảm yêu cầu tính toán , các cặp đ iểm ảnh không ảnh hƣở ng nhiều tớ i đô ̣ sai khác tổng thể đƣợc loại bỏ khỏi các bảng tìm kiếm và không đƣợc sử dụng trong hệ
thống tìm kiếm mă ̣t. Mô ̣t kỹ thuâ ̣t khác cũng đƣơ ̣c Colmenaez và Huang sƣ̉ du ̣ng là kỹ thuâ ̣t ho ̣c nỗ lƣ̣c vớ i mu ̣c tiêu cải thiê ̣n và hƣớ ng tớ i các hê ̣ thống dò tìm thờ i gian thƣ̣c.
. Hê ̣ Osuna và cộng sự đã áp du ̣ng phƣơng pháp SVM vào tìm kiếm khuôn mă ̣t
thố ng đề xuất tuân theo các nguyên tắc giống nhƣ hê ̣ thống củ a Sung và Pogg io. Mô ̣t
SVM vớ i hàm cơ sở là đa thƣ́ c bâ ̣c hai đƣơ ̣c luyê ̣n vớ i mô ̣t thuâ ̣t toán phân rã đảm bảo
đa ̣t tớ i tối ƣu toàn cu ̣c . Quá trình luyện đƣợc thực hiện với thuật toán bẫy lỗi và các
44 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ảnh đầu vào cũng đƣợc tiền xử lý theo cù ng phƣơng pháp giống nhƣ phƣơng pháp củ a Sung và Poggio. Kumar và Poggio gần đây đã tích hơ ̣p thuâ ̣t toán SVM củ a Osuna vào mô ̣t hê ̣ thống thờ i gian thƣ̣c tìm kiếm và phân tích mă ̣t . Họ áp dụng thuật toán SVM trên các vù ng da đã đ ƣợc phân đoạn trong ảnh đầu vào để tránh việc tìm kiếm toàn bộ ảnh. SVM cũng đƣơ ̣c sƣ̉ du ̣ng trong dò tìm nhiều mă ̣t bằng cách xây dƣ̣ng các SVM riêng biê ̣t cho các vù ng khác nhau . Terrillon và cộng sự đã sƣ̉ du ̣ng SVM để nâng cao hiê ̣u năng củ a các bô ̣ tìm kiếm mă ̣t so vớ i sƣ̉ du ̣ng các MLP trong các nghiên cƣ́ u trƣớ c đó .
Schneiderman và Kanade đã mô tả hai bô ̣ tìm kiếm mă ̣t dƣ̣a trên luâ ̣t ra quyết
đi ̣nh Bayes:
(14)
Nếu tỷ số tƣơng tƣ̣ (vế trái) của phƣơng trình trên lớn hơn vế phải thì có thể đi
đến kết luận rằng một đối tƣợng (mô ̣t khuôn mă ̣t ) có tồn tại ở vị trí hiện tại . Mô ̣t ƣu
và điểm củ a cách tiếp câ ̣n này là nếu các biểu diễn cho
là chính xác thì luật ra quyết định đƣợc chứng minh là tối ƣu .
, hàm
Trong hê ̣ thống tìm kiếm mă ̣t đầu tiên đƣơ ̣c Schneiderman và Kanade đề xuất xác suất đƣợc sinh ra dựa trên một tập hợp các sửa đổi và đơn giản hoá:
- Độ phân giải của cách ảnh mặt đƣợc chuẩn hoá thành 64x64 điểm ảnh.
- Các ảnh mặt đƣợc phân chia thành các vùng con 16x16 điểm ảnh và không có
mô hình thống kê nào liên quan giƣ̃a các vù ng con vớ i nhau.
- Các vùng con đƣợc chiếu vào các không gian con 12 chiều (xây dƣ̣ng bở i PCA).
- Toàn bộ vùng mặt đƣợc chuẩn hoá để có trung bình bằng không và phƣơng sai
đơn vi ̣.
Trong hê ̣ thống thƣ́ hai đƣơ ̣c đƣa ra, các thuộc tính trực quan củ a ảnh không đƣơ ̣c biểu diễn bằng các đa ̣i lƣơ ̣ng vectơ riêng cu ̣c bô ̣ (nhƣ trong phƣơng pháp tiếp câ ̣n thƣ́ . Mô ̣t phép biến đổi nhất) mà đƣợc thay thế bằng lấy mẫu cục bộ các biến đổi wavelet wavelet có thể thu thâ ̣p đƣơ ̣c các thông tin liên quan đến các thuô ̣c tính trƣ̣c quan nhƣ không gian , tần số và hƣớ ng ; nhƣ vâ ̣y có thể thích hơ ̣p để mô tả các đă ̣c tính củ a khuôn mă ̣t ngƣờ i. Mô ̣t cách áp du ̣ng biến đổi wavelet khác sƣ̉ du ̣ng phân rã 3 mƣ́ c vớ i
45 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
bô ̣ lo ̣c dải 5/3 pha tuyến tính. Biến đổi này sẽ phân rã ảnh thành 10 dải con. Tƣ̀ các dải con này, 17 thuô ̣c tính trƣ̣c quan , mỗi thuô ̣c tính bao gồm 8 đa ̣i lƣơ ̣ng đƣơ ̣c trích ra và đƣơ ̣c xem nhƣ các biến ngẫu nhiên đô ̣c lâ ̣p thống kê . Các đại lƣợng sau đó đƣợc lƣợng hoá lại theo 3 mƣ́ c và các thuô ̣c tính trƣ̣c quan đƣơ ̣c biểu diễn dƣớ i da ̣ng biểu đồ . Vớ i cách tiếp cận này, mô ̣t bô ̣ tìm kiếm mă ̣t dƣ̣a trên khung nhìn sẽ đƣơ ̣c xây dƣ̣ng vớ i mô ̣t (để dò tìm bô ̣ dò tìm khung nhìn thẳng và một bộ dò tìm khung nhìn nghiêng phải khung nhìn nghiêng trái , khung nhìn nghiêng phải đƣơ ̣c áp du ̣ng nhƣ vớ i ảnh ngƣờ i của khung nhìn trái ). Các kết quả tốt nhất đã đạt đƣợc từ hai hệ thống mô tả trên đây
vớ i hê ̣ thống các vectơ riêng , tuy nhiên điều này la ̣i có đƣơ ̣c trên tâ ̣p dƣ̃ liê ̣u thƣ̉ mà chƣ́ a phần lớ n các ảnh mă ̣t nhìn thẳng . Trong mô ̣t thí nghiê ̣m riêng biê ̣t trên tâ ̣p chủ yếu các ảnh nhìn nghiêng , bô ̣ tìm kiếm vớ i wavelet hoa ̣t đô ̣ng tốt hơn hê ̣ thống tìm kiếm sƣ̉ du ̣ng các vectơ riêng.
Phƣơng pháp tìm kiếm mă ̣t dƣ̣a trên mô hình Markov ẩn cũng là mô ̣t trong các hƣớ ng nghiên cƣ́ u đƣơ ̣c chú tro ̣ng . Mô hình Markov ẩn là mô ̣t tâ ̣p các mô hình thố ng kê đƣơ ̣c sƣ̉ du ̣ng để mô tả các đă ̣c tính thống kê củ a tín hiê ̣u . Lý thuyết về chuỗi Markov và mô hình Markov đã đƣơ ̣c nghiên cƣ́ u sâu rô ̣ng và áp du ̣ng nhiều trong lý thuyết nhâ ̣n da ̣ng nhƣ nhâ ̣n da ̣ng tiếng nói , chƣ̃ viết . Samarie và cộng sự, Netfian và cộng sự là hai nhóm nghiên cƣ́ u hàng đầu trong viê ̣c áp du ̣ng mô hình Markov ẩn vào tìm kiếm và nhận dạng mặt ngƣời.
Tóm lại, nhận biết mặt ngƣời là một lĩnh vực đang thu hút nhiều sự quan tâm của
các nhà nghiên cứu. Ngày càng có nhiều thuật toán mới, hƣớng tiếp cận mới nhằm
nâng cao chất lƣợng cũng nhƣ độ chính xác của hệ thống dò tìm khuôn mặt. Tuy
nhiên, do tính phức tạp của môi trƣờng, không gian và bối cảnh cũng nhƣ yêu cầu về
tính thời gian thực của hệ thống mà cho đến nay vẫn chƣa có một phƣơng pháp nào
thật sự tối ƣu. Việc tìm ra phƣơng pháp mới vẫn còn để ngỏ và có thể cần sự trợ giúp
của công nghiệp máy tính, đó là sự phát triển của phần cứng, tốc độ xử lý của máy
tính.
Nhìn chung thì nhận dạng mặt ngƣời có hai hƣớng tiếp cận chính là hƣớng tiếp
cận dựa vào những đặc trƣng của mặt ngƣời và hƣớng tiếp cận dựa vào thông tin hình
ảnh.
46 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hƣớng tiếp cận dựa vào những đặc trƣng của mặt ngƣời đƣợc áp dụng chủ yếu
khi hệ thống yêu cầu tính thời gian thực. Vì khi đó vấn đề về màu sắc và chuyển
động của hình ảnh phải đƣợc quan tâm. Tuy nhiên, hƣớng tiếp cận này thì chất
lƣợng phát hiện của hệ thống có thể sẽ không cao, muốn nâng cao chúng ta phải
có thêm những kỹ thuật mới bổ sung và khá phức tạp.
Hƣớng tiếp cận dựa vào thông tin hình ảnh là phƣơng pháp có chất lƣợng và hiệu
quả cao nhất nhƣng chỉ xử lý cho ảnh xám. Và các phƣơng pháp đều sử dụng
chung kỹ thuật cửa sổ đa phân giải. Chúng ta có thể không cần sử dụng cửa sổ
quét này nếu kết hợp hƣớng tiếp cận trên với phƣơng pháp dựa vào đặc tính
khuôn mặt nhƣ là một bƣớc tiền xử lý.
Ứng dụng quan trọng nhất của phát hiện khuôn mặt cho đến hiện nay có lẽ là giai
đoạn tiền xử lý cho hệ thống nhận dạng mặt ngƣời. Ngoài ra, với sự gia tăng của tài
nguyên trên Internet, lý thuyết về nhận biết mặt ngƣời có thể đƣợc ứng dụng để chỉ số
hóa nội dung ảnh và cơ sở dữ liệu video. Ngoài ra còn có ứng dụng trong công nghệ
sinh trắc học và hội thảo truyền hình.
2.2. Một số kỹ thuật nhận dạng khuôn mặt
Nhận dạng khuôn mặt ngƣời là một công nghệ đƣợc ứng dụng rộng rãi trong đời
sống hằng ngày của con ngƣời nhƣ các hệ thống giám sát, quản lý vào ra, tìm kiếm
thông tin một ngƣời nổi tiếng…
Một hệ thống nhận dạng mặt ngƣời thông thƣờng gồm các bƣớc sau đây [5]:
Hình 2.5. Hệ thống nhận dạng khuôn mặt
47 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Phát hiện khuôn mặt sẽ lấy ra tất cả các khuôn mặt trong một hình ảnh. Cho đến
năm 2000, có rất nhiều kỹ thuật khác nhau đƣợc sử dụng cho việc tìm kiếm khuôn mặt
đã đƣợc trình bày ở phần trên.
Các bƣớc chính trong hệ thống nhận dạng khuôn mặt:
Tiền xử lý
Quá trình này nhằm nâng cao chất lƣợng ảnh, chuẩn hóa dữ liệu, kích thƣớc
ảnh.
Trích chọn đặc trƣng
Sử dụng các thuật toán để lấy ra những thông tin mang những đặc điểm riêng
biệt của một ngƣời.
Phân loại
Những đặc trƣng sau khi đƣợc trích rút sẽ đƣa vào khối nhận dạng để phân lớp
đối tƣợng.
Có rất nhiều phƣơng pháp nhận dạng khuôn mặt để nâng cao hiệu suất tuy nhiên
dù ít hay nhiều những phƣơng pháp này đang vấp phải những thử thách về độ sáng,
hƣớng nghiêng, kích thƣớc ảnh, hay ảnh hƣởng của tham số môi trƣờng. Có hai
phƣơng pháp nhận dạng phổ biến hiện nay là nhận dạng dựa trên đặc trƣng của các
phần tử trên khuôn mặt nhƣ biến đổi Gabor Wavelet và mạng Neural, SVM,… và nhận
dạng dựa trên xét tổng thể toàn khuôn mặt nhƣ phƣơng pháp PCA, LDA, LFA [1][2].
Trong đó, PCA là phƣơng pháp trích rút đặc trƣng nhằm giảm số chiều của ảnh tuy
đơn giản nhƣng mang lại hiệu quả tốt. Nhận dạng khuôn mặt dùng PCA kết hợp với
mạng nơron là phƣơng pháp mang lại hiệu quả nhận dạng cao bởi nó phát huy đƣợc ƣu
điểm của PCA và mạng nơron [3]. Hệ thống hoạt động ổn định và có tính thích nghi
cao khi dữ liệu đầu vào thay đổi nhiều.
2.2.1. Phƣơng pháp phân tích thành phần chính (PCA)
PCA (Principle Components Analysis) là một thuật toán đƣợc sử dụng để tạo ra
một ảnh mới từ ảnh ban đầu. Ảnh mới này có kích thƣớc nhỏ hơn nhiều so với ảnh ban
đầu nhƣng vẫn mang những đặc trƣng cơ bản nhất của ảnh cần nhận dạng [5].
48 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
PCA không cần quan tâm đến việc tìm ra các đặc điểm cụ thể của thực thể cần
nhận dạng và mối quan hệ giữa các đặc điểm đó. Tất cả các chi tiết đó đều đƣợc thể
hiện ở ảnh mới đƣợc tạo ra từ PCA.
Về bản chất, PCA tìm ra một không gian mới theo hƣớng biến thiên mạnh nhất
của một tập hợp các vector trong không gian cho trƣớc. Trong không gian mới, ngƣời
ta hy vọng rằng việc phân loại sẽ mang lại kết quả tốt hơn so với không gian ban đầu.
Bƣớc đầu tiên trong nhận dạng khuôn mặt dựa trên PCA là trích chọn vector đặc tính.
Một bức ảnh về khuôn mặt đƣợc coi nhƣ một vector, nếu bức ảnh có kích thƣớc là w*h
pixel thì không gian chứa vector này có số chiều là N = w*h. Mỗi pixel sẽ đƣợc mã
hóa bởi một thành phần của vector.
Sau khi trích chọn đƣợc các vector đặc tính, cần đối chiếu vector này với cơ sở
dữ liệu, từ đó đƣa ra kết quả nhận dạng. Trong bài toán, kết quả nhận dạng sẽ là nhận
biết đƣợc hoặc chƣa nhận biết đƣợc.
2.2.2. Phƣơng pháp phân tách tuyến tính (LDA)
Phƣơng pháp PCA ở trên còn có nhƣợc điểm là chỉ làm nổi bật lên các đặc
trƣng của từng ảnh mà chƣa quan tâm đến các ảnh đó là của cùng một ngƣời hay của
những ngƣời khác nhau. Phƣơng pháp phân tách tuyến tính [4] (LDA - Linear
Discriminant Analysis) có thể khắc phục đƣợc những nhƣợc điểm đó. Nhiệm vụ
chính của phƣơng pháp là tính sự biến thiên giữa các ảnh của những ngƣời khác nhau
và tính sự biến thiên giữa các ảnh của cùng một ngƣời, sau đó tìm một phép biến đổi
để làm cực đại tỷ số của hai sự biến thiên trên. Nghĩa là, tập ảnh huấn luyện sẽ đƣợc
biến đổi sang một không gian mới sao cho sự khác nhau giữa các ảnh của những
ngƣời khác nhau đƣợc tăng lên tối đa, còn sự giống nhau giữa các ảnh của cùng một
ngƣời đƣợc làm cực đại. Hình 2.6 là một ví dụ minh họa trực quan ý nghĩa của phép
biến đổi này. Hình 2.6 (a) là một cách biến đổi không tốt khi các hình chiếu của các
điểm thuộc hai lớp vẫn lẫn lộn với nhau; hình 2.6 (b) là một cách biến đổi khá tốt khi
hình chiếu của các điểm thuộc cùng một lớp gần nhau, còn hình chiếu của các điểm
khác lớp xa nhau.
49 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.6. Ví dụ minh họa LDA
Thông thƣờng trong phƣơng pháp LDA, sự phân bố ngoại và sự phân bố nội
đƣợc dùng làm tiêu chí để phân lớp. Ma trận phân bố nội đƣợc tính nhƣ sau [5]:
(15)
Trong đó:
là ảnh thứ i của lớp j.
-
- j là giá trị trung bình của lớp j.
- C là số lƣợng lớp.
- Nj là số lƣợng ảnh trong lớp j.
- N là tổng số ảnh trong tập huấn luyện.
Ma trận phân bố ngoại:
(16)
Trong đó: là giá trị trung bình của tất cả các lớp.
Không gian mới của LDA đƣợc hình thành từ tập vector W = [W1,..,Wd], thỏa
mãn:
(17)
Ma trận phân bố nội Sw biểu diễn sự phân bố gần nhau của các ảnh trong các lớp
và ma trận phân bố ngoại Sb mô tả sự tách biệt của các lớp. Khi các ảnh đƣợc chiếu lên
các vector của W, các ảnh sẽ đƣợc phân bố gần nhau trong mỗi lớp và sẽ đƣợc tách
biệt giữa các lớp, càng nhiều càng tốt. Nói cách khác, các vector này cực tiểu hóa mẫu
số và cực đại hóa tử số của công thức (17). Nếu ma trận Sw là khả nghịch, tỷ số ở công
50 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thức (17) sẽ đạt cực đại khi các vector của W là các vector riêng của
. Đối với bài
toán nhận dạng mặt ngƣời, ma trận Sw thƣờng không khả nghịch, vì số lƣợng ảnh nhỏ
hơn rất nhiều so với số chiều biểu diễn ảnh. Có nhiều phƣơng pháp khác nhau để giải
quyết vấn đề của LDA nhƣ phƣơng pháp giả nghịch đảo, phƣơng pháp không gian con
hoặc phƣơng pháp không gian null.
Trong luận văn này, phƣơng pháp giả nghịch đảo đƣợc dùng để giải quyết vấn đề
trên. Vì ảnh gốc có kích thƣớc 112×92, mỗi ảnh có thể coi là một điểm trong không
gian 10304 chiều, số chiều này quá lớn để có thể thực hiện LDA nên trƣớc hết cần sử
dụng phƣơng pháp PCA để giảm bớt số chiều của không gian này. Sau đó, áp dụng
phƣơng pháp giả nghịch đảo với tập dữ liệu mới để tìm ma trận biến đổi W.
Để tính ma trận giả nghịch đảo , Sw đƣợc phân tích nhƣ sau:
(18)
Trong đó:
- = diag(1, .., k) chứa các giá trị riêng dƣơng của Sw, nghĩa là các phần tử
trên đƣờng chéo chính của là các giá trị riêng của Sw, còn các phần tử khác
đều bằng 0.
- k là hạng của Sw.
- Q1 chứa các vector riêng của Sw tƣơng ứng với k giá trị riêng dƣơng.
Khi đó ma trận giả nghịch đảo của Sw là:
(19)
Cuối cùng, các vector riêng của ứng với các giá trị riêng dƣơng chính là các
vector cột của ma trận biến đổi W.
Hình 2.7 là một số ảnh sau khi biến đổi theo phƣơng pháp phân lớp tuyến tính.
51 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.7. Ảnh sau khi biến đổi theo LDA
2.2.3. Phƣơng pháp mạng neural
Là kỹ thuật tái tạo mạng nơron thần kinh của con ngƣời bằng máy tính. Nó bao
gồm các phần tử đơn giản (còn gọi là nơron) hoạt động song song đƣợc nối với nhau
bằng các liên kết có trọng số để kích thích hoặc ức chế giữa các nơron. Có nhiều cấu
trúc mạng nơron khác nhau nhƣ mạng hồi quy (feedback), mạng tự tổ chức (self-
organizing), mạng truyền thẳng (feedforward). Đề tài này tập trung với mạng truyền
thẳng đa lớp với thuật toán lan truyền ngƣợc (back propagation) các sai số [6][7][8].
Hình 2.8. Mạng noron 2 lớp truyền thẳng
Quá trình huấn luyện mạng:
Quá trình huấn luyện mạng chính là quá trình huấn luyện các mẫu học Xs={x1,
x2, …,xn} để giá trị ra cuối cùng Ts={t1, t2, …,tn} nhƣ ta mong muốn.
- Quá trình truyền thẳng: Giá trị đầu ra tại nơron j của một lớp bất kì:
Input layer
Hidden layer
với (20)
52 Output layer Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong đó wji gọi là trong số liên kết từ đầu vào thứ i đến nơron j, xji là giá trị
đầu vào thứ i đến nơron j, m là số phần từ của lớp trƣớc đó.
- Quá trình lan truyền ngƣợc các sai số: Tại mỗi nơron đầu ra k ta tính lỗi giá trị:
(21)
Với tk là giá trị đầu ra mong muốn thứ k.
Đối với mỗi nơron trong lớp ẩn :
(22)
Với outputs là tập hợp cái nơron ở lớp ra, wjk là trọng số liên kết từ k nơron lớp
ra đến nơron j của lớp ẩn.
Quá trình cập nhật lại trọng số: wjk wjk + wjk (23)
(24) Nếu gọi η là hệ số học thì wjk = η
Sau khi cập nhật những trọng số này, các mẫu trong tập Xs lại tiếp tục đƣa vào
mạng, quá trình này sẽ diễn ra khi giá trị lỗi E < ε cho trƣớc:
(25)
Với outputs là tập hợp các nơron ở lớp ra, tk là giá trị ra mong muốn của nơron
k cho mẫu huấn luyện d và ok là giá trị ra thực của nơron k.
53 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM
3.1. Yêu cầu thực nghiệm, ứng dụng
Nhƣ đã trình bày tại chƣơng 1, bài toán điểm danh, chấm công là một trong số
những bài toán phổ biến và hiện đang đƣợc công nghệ hóa tại nhiều cơ quan, doanh
nghiệp. Qua tìm hiểu nghiên cứu các thuật toán phát hiện và nhận dạng mặt ngƣời tôi
lựa chọn khuôn mặt làm tiêu chí để phân biệt giữa các đối tƣợng cần đƣợc điểm danh.
Đây là một đặc trƣng cơ bản và phổ dụng đƣợc chính bản thân con ngƣời sử dụng từ
hàng nghìn năm. Việc cài đặt, thực nghiệm hệ thống sẽ minh chứng cho những lý
thuyết đƣợc tìm hiểu trong chƣơng 2 của luận văn.
Đối với bài toán điểm danh, chấm công với mục tiêu chủ yếu là kiểm soát nguồn
nhân lực về thời gian. Các nhà quản lý quan tâm tới hai vấn đề chính là một lao động
tên là “A” có mặt hay không?, có đúng giờ hay không?, “A” có làm đủ số giờ quy định
hay không?. Với các yêu cầu đó tôi lựa chọn cài đặt thuật toán PCA (phân tích thành
phần chính) áp dụng cho bài toán điểm danh. Với đầu vào đƣợc thu trực tiếp từ
camera, đầu ra là định danh đối tƣợng đang đƣợc kiểm tra, chƣơng trình thực hiện quy
trình điểm danh nhƣ sau:
Hình 3.1. Quy trình hoạt động của hệ thống điểm danh dựa trên khuôn mặt.
Trong hệ thống điểm danh dựa trên đặc trƣng khuôn mặt, đầu tiên chƣơng trình thu
hình ảnh trực tiếp từ camera. Sau đó, dựa trên thuật toán đƣợc lựa chọn tiến hành xác
định các đặc trƣng từ đó tách riêng phần ảnh có tồn tại khuôn mặt từ ảnh đầu vào. Ảnh
khuôn mặt sau khi đƣợc tách riêng tiếp tục đƣợc so sánh với tập ảnh đã có trong cơ sở
dữ liệu khuôn mặt dùng để điểm danh. Trong thực tế tập các khuôn mặt này đƣợc
54 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ngƣời sử dụng chƣơng trình xây dựng trƣớc khi điểm danh, trong đó có tất cả ảnh của
nhân viên, ngƣời lao động cần đƣợc điểm danh trong một phiên làm việc. Việc so sánh
với cơ sở dữ liệu ảnh sẽ cho đầu ra là một định danh, định danh này chính là tên của
một ngƣời có trong cơ sở dữ liệu ảnh hoặc thông báo không có trong cơ sở dữ liệu ảnh.
Dựa trên định danh này chƣơng trình tiến hành tích chọn điểm danh cho ngƣời đƣợc
nhận dạng. Nhƣ vậy trong một phiên làm việc, đầu tiên bảng điểm danh đƣợc khởi tạo
với trạng thái mặc định là “vắng”, khi một đối tƣợng đƣợc xác định là “có mặt” thông
qua hệ thống nhận dạng thì trạng thái ứng với tên của đối tƣợng có mặt đƣợc thay đổi
thành “có mặt”. Nhƣ vậy, cuối một phiên làm việc nhà quản lý xác định đƣợc ngƣời
lao động có đến làm việc hay không dựa trên bảng trạng thái “vắng”, “có mặt” mà
máy tính cung cấp.
3.2. Phân tích lựa chọn giải pháp, công cụ
Dựa trên quy trình làm việc của chƣơng trình điểm danh dựa trên đặc trƣng khuôn
mặt đã trình bày ở phần trên, có thể thấy các thành phần cơ bản cần phải có của
chƣơng trình cần phải có nhƣ sau:
- Camera thu nhận tín hiệu từ môi trƣờng ngoài.
- Hệ cơ sở dữ liệu ảnh các đối tƣợng cần nhận dạng.
- Phần mềm xác định, nhận dạng khuôn mặt và điểm danh.
Nhƣ vậy, đầu tiên cần phải lựa chọn thiết bị phần cứng là camera, hiện nay thị
trƣờng camera đặc biệt là camera giám sát tƣơng đối phát triển. Đây là một thiết bị
phần cứng phổ dụng và đƣợc sử dụng rộng rãi tại các cơ quan, doanh nghiệp... Đối với
hệ thống nhận dạng khuôn mặt cần lựa chọn camera với độ phân giải thích hợp, xây
dựng kết nối giữa camera và phầm mềm đảm bảo hai vấn đề quan trọng: Thứ nhất là
chất lƣợng hình ảnh phải đảm bảo đủ để hệ thống có thể nhận dạng chính xác, nếu ảnh
quá mờ sẽ khó nhận dạng hơn. Thứ hai là chất lƣợng hình ảnh cũng không quá cao để
đảm bảo tốc độ xử lý của hệ thống máy tính. Nếu ảnh quá lớn máy tính không thể xử
lý kịp dẫn tới sự đình trệ trong quá trình điểm danh. Trong luận văn này, qua quá trình
thực nghiệm tôi lựa chọn độ phân giải của camera từ 2 đến 8 triệu điểm ảnh (2 đến 8
Megapixel) làm đầu vào cho bài toán điểm danh.
Đối với hệ cơ sở dữ liệu ảnh, hiện nay đã có nhiều cơ sở dữ liệu cho phép lƣu và
truy xuất ảnh. Ảnh đầu vào đƣợc xử lý và lƣu lại trong cơ sở dữ liệu, điều đó đảm bảo
tính bảo mật và quản lý tốt hơn trong quá trình truy xuất, tìm kiếm một tập ảnh. Tuy
55 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
nhiên việc lƣu trữ ảnh trong cơ sở dữ liệu cũng tồn tại những hạn chế riêng: cần phải
có một hệ thống quản trị cơ sở dữ liệu ảnh và giao diện tƣơng tác với hệ thống này,
đồng thời đối với một hệ thống xử lý ảnh thì điều quan trọng nhất là tốc độ xử lý ảnh
chứ không phải là tính năng quản lý. Vì lý do đó trong chƣơng trình thực nghiệm tôi
lựa chọn việc lƣu trữ ảnh trực tiếp trên ổ cứng. Điều đó đảm bảo tính đơn giản của
chƣơng trình và khả năng truy nhập trực tiếp với ảnh số.
Phầm mềm xác định, định danh khuôn mặt và điểm danh đƣợc xây dựng đảm bảo
kết nối đƣợc với camera và lấy hình ảnh trong thời gian thực. Điều này đảm bảo tốc độ
vận hành và xử lý của chƣơng trình. Đồng thời dựa trên thuật toán PCA đã đƣợc lựa
chọn chƣơng trình cần tiến hành xử lý ảnh đầu vào từ đó đƣa ra các quyết định điểm
danh đối với mỗi một đối tƣợng đầu vào.
Hệ thống điểm danh dựa trên đặc trƣng khuôn mặt là một hệ thống xử lý hình ảnh
tƣơng đối điển hình. Vì vậy, yêu cầu đặt ra khi tiến hành xây dựng phần mềm chính là
tốc độ xử lý hình ảnh. Ngôn ngữ thƣờng đƣợc lựa chọn khi cài đặt thƣờng là C++, C#,
java... Trong đó C++ đƣợc nhiều nhà nghiên cứu lựa chọn với ƣu thế về tốc độ và tính
truyền thống của nó, C# và java là ngôn ngữ lập trình phát triển sau nhƣng mang nhiều
thế mạnh khi xây dựng ứng dụng. Trong luận văn này, tôi lựa chọn ngôn ngữ lập trình
Visual C# để cài đặt thuật toán và ứng dụng. Đây là ngôn ngữ lập trình mạnh với tính
năng phát triển ứng dụng nhanh và hiệu quả. Trong luận văn sử dụng các thƣ viện đọc
ảnh đƣợc cung cấp sẵn trong nền tảng framework 4.5. Nhờ đó nhà phát triển có thể
nghiên cứu, phát triển ứng dụng nhanh hơn khi không cần quan tâm tới cấu trúc ảnh
đƣợc đọc.
3.3. Một số kết quả cài đặt thực nghiệm
3.3.1. Giao diện của chƣơng trình
Chƣơng trình cài đặt với mục tiêu điểm danh nguồn nhân lực dựa trên khuôn mặt và
minh họa thuật toán PCA đƣợc trình bày tại chƣơng 2. Với các tính năng và thành
phần đã đƣợc phân tích ở trên, tôi đã tiến hành cài đặt và xây dựng chƣơng trình với
các thành phần giao diện chính nhƣ hình bên dƣới.
56 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3
1
2
Hình 3.2. Giao diện chính của chương trình.
Giao diện của chƣơng trình gồm có 3 phần chính:
- Phần 1: là hình ảnh thu đƣợc từ camera, đây là nơi hiển thị tất cả hình ảnh thu
đƣợc từ camera, qua đó ngƣời sử dụng có thể nhìn thấy hình ảnh của đối tƣợng
đang đƣợc quan sát và một số xử lý tƣơng ứng của hệ thống nhận dạng.
- Phần 2: hiển thị các lựa chọn đối với danh sách điểm danh, các thông báo trong
quá trình điểm danh, bảng điểm danh và cơ sở dữ liệu hình ảnh.
- Phần 3: là thanh menu lựa chọn các tính năng khác nhau của chƣơng trình điểm
danh.
Hình 3.3. Hình ảnh từ camera và xử lý tương ứng
57 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong giao diện hiển thị hình ảnh thu đƣợc từ camera và xử lý phát hiện và nhận
dạng khuôn mặt tƣơng ứng của chƣơng trình. Trong đó, khuôn mặt đƣợc khoanh vùng
trong một hình chữ nhật màu đỏ, phía trên là một tập kí tự mô tả tên của đối tƣợng
đƣợc nhận dạng trong hình chữ nhật đƣợc khoanh vùng. Trong chƣơng trình có thể
cùng một lúc phát hiện và nhận dạng nhiều khuôn mặt cùng một thời điểm.
Hình 3.4. Giao diện quản lý danh sách điểm danh và điểm danh
Trong giao diện quản lý danh sách điểm danh cho phép ngƣời sử dụng lựa chọn
một danh sách các đối tƣợng cần đƣợc điểm danh. Khi đó danh sách này sẽ đƣợc hiển
thị lên phầm mềm với trạng thái bắt đầu là “Vắng”. Trong một phiên làm việc nếu đối
tƣợng cần đƣợc điểm danh đƣợc xác định là có mặt thì trạng thái đƣợc thay đổi thành
“Có mặt”. Trong một phiên làm việc trạng thái của một đối tƣợng chỉ chuyển từ
“Vắng” sang “Có mặt” và chỉ chuyển một lần. Giao diện quản lý danh sách điểm
danh nằm trên cùng một tab với giao diện quản lý cơ sở dữ liệu ảnh. Khi lựa chọn một
trong hai giao diện có sự xuất hiện của các nút chọn tƣơng ứng trên giao diện.
58 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 3.5. Giao diện quản lý danh sách ảnh
Giao diện quản lý danh sách ảnh với hai thành phần chính là hiển thị danh sách
các ảnh đang đƣợc quản lý và công cụ thêm ảnh mới vào trong danh sách các ảnh đang
đƣợc quản lý. Với danh sách hiển thị ảnh đƣợc quản lý, chƣơng trình hiển thị ảnh của
đối tƣợng cần quản lý và định danh tƣơng ứng ở phía dƣới mỗi ảnh. Để thêm một ảnh
mới vào chƣơng trình cần kích chuột vào lựa chọn “Thêm vào cơ sở dữ liệu”, khi đó
đối tƣợng đang đƣợc quan sát sẽ đƣợc thêm vào cơ sở dữ liệu ảnh với định danh tƣơng
ứng đƣợc nhập vào tại ô “Tên:” bên trên. Cơ sở dữ liệu ảnh có thể đƣợc quan sát tại
thƣ mục có cùng đƣờng dẫn với chƣơng trình chạy, trong đó các ảnh đƣợc đặt tên theo
thứ tự của chƣơng trình.
Hình 3.6. Cơ sở dữ liệu ảnh
59 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Cuối cùng là danh sách các lựa chọn trên thanh thực đơn của chƣơng trình, tại đây
ngƣời sử dụng có thể lựa chọn các tính năng cần thiết nhất khi sử dụng chƣơng trình.
Nút bấm “Bắt đầu” sẽ khởi động liên kết với camera sau khi ngƣời sử dụng lựa chọn
một danh sách cần đƣợc điểm danh. Tiếp đó là một số tính năng cần thiết nhƣ “Lựa
chọn danh sách”, “Thêm danh sách mới”, “Làm mới cơ sở dữ liệu ảnh”, “Thống kế
số người vắng trong danh sách”, “Xem cơ sở dữ liệu ảnh”, “Kết thúc...”.
Hình 3.7. Giao diện các lựa chọn trên thanh thực đơn
3.3.2. Một số kết quả điểm danh dựa trên khuôn mặt
Sau khi cài đặt chƣơng trình thực nghiệm tôi đã tiến hành thực nghiệm chƣơng
trình điểm danh với một nhóm gồm 30 đối tƣợng cần đƣợc điểm danh. Kết quả điểm
danh qua 20 lần cho thấy chƣơng trình hoạt động tốt trong một số điều kiện nhất định
và có những hạn chế cần tiếp tục nghiên cứu phát triển.
Với ứng dụng lƣu trữ 30 ảnh khác nhau cho mỗi đối tƣợng cần đƣợc điểm danh và
tiến hành điểm danh trong điều kiện ánh sáng bình thƣờng kết quả thực nghiệm của
chƣơng trình đƣợc thống kê bởi bảng dƣới đây:
Bảng 3.1. Kết quả thực nghiệm trong điều kiện ánh sáng bình thường
Lần Tổng Đúng Sai Lần Tổng Đúng Sai
1 30 25 5 11 30 24 6
2 30 23 7 12 30 25 5
3 30 24 6 13 30 24 6
4 30 25 5 14 30 23 7
5 30 25 5 15 30 24 6
6 30 25 5 16 30 25 5
7 30 24 6 17 30 25 5
8 30 25 5 18 30 24 6
9 30 25 5 19 30 25 5
10 30 24 6 20 30 24 6
60 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Kết quả thực nghiệm cho thấy độ chính xác của điểm danh giao động từ 77% tới
82%, đây là một kết quả điểm danh với độ chính xác tƣơng đối tốt nhƣng không đủ để
đáp ứng khi sử dụng trong bài toán điểm danh, chấm công. Đồng thời khi áp dụng
chƣơng trình với các điều kiện ánh sáng khác nhau cho những kết quả khác nhau, tôi
đã tiến hành thực nghiệm trong điều kiện thiếu ánh sáng và ánh sáng bị lóa, kết quả
thực nghiệm cho thấy khả năng nhận dạng đúng của chƣơng trình giảm đi rõ rệt. Kết
quả này đƣợc thể hiện bởi bảng sau:
Bảng 3.2. Kết quả thực nghiệm trong điều kiện ánh sáng chói và thiếu ánh sáng
Lần Điều kiện ánh sáng Tổng Đúng Sai
1 Thiếu ánh sáng 30 20 10
2 Thiếu ánh sáng 30 17 13
3 Thiếu ánh sáng 30 18 12
4 Thiếu ánh sáng 30 18 12
5 Thiếu ánh sáng 30 17 13
6 Thiếu ánh sáng 30 19 11
7 Thiếu ánh sáng 30 18 12
8 Ánh sáng chói 30 16 14
9 Ánh sáng chói 30 20 10
10 Ánh sáng chói 30 16 14
11 Ánh sáng chói 30 18 12
12 Ánh sáng chói 30 17 13
13 Ánh sáng chói 30 16 14
14 Ánh sáng chói 30 16 14
Dựa trên kết quả thực nghiệm có thể thấy việc điểm danh có thể đƣợc thực hiện
trong điều kiện ánh sáng đầy đủ không quá chói. Thuật toán và chƣơng trình sẽ gặp
khó khăn khi tiến hành trong điều kiện thiếu ánh sáng hoặc ánh sáng quá chói. Tuy
nhiên khi điểm danh ta có thể xây dựng đƣợc điều kiện ánh sáng khi hệ thống điểm
danh đƣợc đặt trong nhà và có hệ thống chiếu sáng riêng. Nhƣ vậy cần đƣa ra giải
pháp nâng cao độ chính xác của hệ thống điểm danh trong điều kiện ánh sáng thƣờng.
Khi đó kết quả của hệ thông điểm danh mới đáng tin cậy hoặc có thể đƣợc sử dụng
làm một tiêu chí nhận dạng trong một hệ thống gồm nhiều bƣớc sinh trắc học.
61 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong quá trình tìm hiểu nguyên nhân ảnh hƣởng tới khả năng nhận dạng của hệ
thống, ngoài các nguyên nhân về điều kiện môi trƣờng còn tồn tại nguyên nhân tới từ
chính ngƣời cần đƣợc nhận dạng. Sự thay đổi về khuôn mặt của một đối tƣợng là điều
đƣơng nhiên sẽ dẫn tới độ chính xác trong quá trình nhận dạng. Bên cạnh đó với mỗi
góc nhìn khác nhau sẽ cho những hình ảnh khác nhau về cùng một đối tƣợng. Nhƣ vậy
để giải quyết vấn đề này cần quan tâm tới các bài toán về trích rút đặc trƣng của khuôn
mặt và nắn chỉnh góc nghiêng của đối tƣợng cần quan sát. Đây là một bài toán khó,
đòi hỏi nhiều lỗ lực nghiên cứu tìm hiểu hơn đối với vấn đề nhận dạng, trích rút đặc
trƣng, quan sát đối tƣợng với các góc nhìn khác nhau... Vì giới hạn về thời gian trong
nội dung luận văn tôi không đề cập tới các vấn đề này. Tuy nhiên, để sử dụng đƣợc
chƣơng trình vẫn cần nâng cao độ chính xác trong quá trình nhận dạng.
Để giải quyết vấn đề này giải pháp đƣợc đƣa ra là sử dụng nhiều hơn một ảnh cho
một đối tƣợng trong quá trình nhận dạng. Tức là thay vì sử dụng một ảnh duy nhất
trong cơ sở dữ liệu ảnh, chƣơng trình sử dụng nhiều ảnh hơn với cùng một định danh,
khi đó các góc nhìn khác nhau của một đối tƣợng và các trạng thái khác nhau có thể
đƣợc mô tả trong cơ sở dữ liệu. Với việc sử dụng 8 ảnh cho một đối tƣợng, thực
nghiệm cho thấy khi sử dụng nhiều hơn một ảnh kết quả nhận dạng đƣợc nâng lên, kết
quả này đƣợc thể hiện trong bảng sau:
Bảng 3.3. Kết quả thực nghiệm trong điều kiện ánh sáng bình thường với 8 ảnh cho
mỗi đối tượng
Lần Tổng Đúng Sai Lần Tổng Đúng Sai
1 30 30 0 11 30 30 0
2 30 29 1 12 30 29 1
3 30 29 1 13 30 29 1
4 30 30 0 14 30 28 2
5 30 28 2 15 30 28 2
6 30 29 1 16 30 25 1
7 30 29 1 17 30 25 1
8 30 29 1 18 30 24 1
9 30 29 1 19 30 25 1
10 30 28 2 20 30 30 0
62 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tiếp tục thực nghiệm với nhiều hơn một ảnh cho mỗi đối tƣợng trong điều kiện
ánh sáng chói và thiếu ánh sáng, chƣơng trình thực nghiệm cho kết quả tốt hơn so với
sử dụng một ảnh duy nhất, tuy nhiên kết quả nhận đƣợc vẫn là tƣơng đối khiêm tốn.
Sau đây là bảng thực nghiệm với điều kiện ánh sáng chói và thiếu ánh sáng với việc sử
dụng 8 ảnh cho mỗi đối tƣợng:
Bảng 3.4: Kết quả thực nghiệm trong điều kiện ánh sáng chói và thiếu ánh sáng với 8
ảnh cho mỗi đối tượng
Lần Điều kiện ánh sáng Tổng Đúng Sai
1 Thiếu ánh sáng 30 20 10
2 Thiếu ánh sáng 30 21 9
3 Thiếu ánh sáng 30 21 9
4 Thiếu ánh sáng 30 19 11
5 Thiếu ánh sáng 30 20 10
6 Thiếu ánh sáng 30 21 9
7 Thiếu ánh sáng 30 21 9
8 Ánh sáng chói 30 20 10
9 Ánh sáng chói 30 20 10
10 Ánh sáng chói 30 19 11
11 Ánh sáng chói 30 19 11
12 Ánh sáng chói 30 21 9
13 Ánh sáng chói 30 21 9
14 Ánh sáng chói 30 20 10
Qua thực nghiệm cho thấy chƣơng trình chạy tốt trong điều kiện ánh sáng bình
thƣờng và có nhiều ảnh mô tả cùng một đối tƣợng. Tuy nhiên vẫn tồn tại sai số trong
quá trình điểm danh, vì thế cần tiếp tục nghiên cứu, tìm hiểu hoàn thiện phƣơng pháp
nhận dạng, định danh khuôn mặt ngƣời để có thể áp dụng vào thực tế. Đồng thời qua
thực nghiệm cũng cho thấy với điều kiện ánh sáng không phù hợp khả năng nhận dạng
của thuật toán giảm đi nhiều, đây cũng là một vấn đề đòi hỏi cần tìm hiểu những
phƣơng pháp giải quyết và cũng là một thách thức trong lĩnh vực thị giác máy khi khả
năng quan sát của máy tính còn thua kém rất xa so với con ngƣời.
63 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Kết luận
Trong luận văn này, tôi đã hoàn thành các mục tiêu nghiên cứu đề ra. Cụ thể:
1- Luận văn đã nêu đƣợc tầm quan trọng của việc xác định vị trí khuôn mặt đối
với hệ thống nhận dạng mặt ngƣời nói riêng cũng nhƣ trong các hệ thống sinh
trắc học nói chung.
2- Luận văn đã nêu và đánh giá các thuật toán phƣơng pháp xác định và nhận
dạng mặt ngƣời đã và đang đƣợc sử dụng, cũng nhƣ đã đƣa ra đƣợc các đánh
giá ƣu điểm nhƣợc điểm của các phƣơng pháp. Trên cơ sở đó lựa chọn thuật
toán có ƣu điểm nhất cài đặt cho bài toán.
3- Trong chƣơng 3 đã đƣa ra và xây dựng thuật toán xác định vị trí mặt ngƣời và
nhận dạng mặt ngƣời, cũng nhƣ đƣa ra đƣợc một bài toán có ý nghĩa thực tiễn
đó là bài toán điểm danh dựa trên thuật toán xác định vị trí mặt ngƣời và nhận
dạng mặt ngƣời.
4- Trong phần thực nghiệm đã thử nghiệm trên cơ sở dữ liệu FERET COLOR -
là cơ sở dữ liệu đƣợc sử dụng rộng rãi đối với các hệ thống nhận dạng mặt
ngƣời.
Hƣớng phát triển
Trong tƣơng lai chúng tôi sẽ tiếp tục nghiên cứu, phát triển đề tài, thử nghiệm các
đặc trƣng khác, thử nghiệm các thuật toán tối ƣu khác, áp dụng thử nghiệm trên
bộ cơ sở dữ liệu ảnh mặt ngƣời lớn để đánh giá hiệu quả của các phƣơng pháp
một cách khách quan và chính xác hơn. Từ đó xây dựng hệ thống chuẩn đƣa vào
ứng dụng trong thực tế sao cho hiệu quả, chi phí thấp và giải phóng sức lao động
của con ngƣời.
64 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
TÀI LIỆU THAM KHẢO
[1] PGS.TS. Nguyễn Thị Hoàng Lan (2009), “Hệ thống an ninh thông tin dựa trên
sinh trắc học Bio-PKI (Bio-PKI Based Information Security System)”, Báo cáo đề
tài theo nghị định thƣ, Trƣờng Đại học Bách khoa Hà Nội.
[2] TS. Hồ Văn Hƣơng (2009), Mật mã sinh trắc, http://antoanthongtin.vn, ngày
04/10/2009.
[3] Sinh trắc học, http://www.biometria.sk
[4] Phạm Thế Bảo, Nguyễn Thành Nhựt, Cao Minh Thịnh, Trần Anh Tuấn, Phan Phú
Doãn (2007), “Tổng quan các phƣơng pháp xác định khuôn mặt ngƣời”, Báo cáo
khoa học.
[5] Ion Marqués (2010), Face recognition Algorithms, Universidad del País Vasco.
[6] Byung-Joo Oh (2003), “Face Recognition by Using Neural Network Classifiers
based on PCA and LDA”, Daejeon, Korea.
[7] D. Maio and D. Maltoni, “Real-time face location on grayscale static images”,
Pattern Recognition, vol.33, no. 9, pp. 1525-1539, Sept. 2000.
[8] H. A. Rowley, S. Baluja, and T. Kanade, “Neural NetworkBased Face Detection”,
IEEE Trans. PAMI, vol. 20, pp. 23-38, Jan. 1998.
[9] M. Abdel-Mottaleb and A. Elgammal, “Face Detection in complex environments
from color images”, IEEE ICIP, pp. 622- 626, Oct. 1999.
[10] H. Martin Hunke (1994), Locating and tracking of human faces with neural
network, Master’s thesis, University of Karlsruhe.