®¹i häc th¸i nguyªn Tr­êng ®¹i häc c«ng nghÖ th«ng tin vµ truyÒn th«ng

NGUYỄN THẾ THỤY

PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT TỪ CAMERA, ỨNG DỤNG TRONG ĐIỂM DANH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

1 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CAM ĐOAN

Tôi - Nguyễn Thế Thụy xin cam đoan những nội dung trình bày luận văn này là

kết quả tìm hiểu, nghiên cứu của bản thân dƣới sự hƣớng dẫn của TS. Nguyễn Văn

Tảo và tham khảo từ các nhà nghiên cứu đi trƣớc. Nội dung tham khảo, kế thừa, phát

triển từ các công trình đã đƣợc công bố đƣợc trích dẫn, ghi rõ nguồn gốc.

Nếu có gì sai phạm tôi xin hoàn toàn chịu trách nhiệm.

Ngƣời cam đoan

Nguyễn Thế Thụy

2 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn mặc dù gặp rất nhiều khó khăn nhƣng em luôn

nhận đƣợc sự quan tâm, giúp đỡ từ thầy cô, đồng nghiệp, bạn bè và ngƣời thân. Đây là

nguồn động lực giúp em hoàn thành luận văn này.

Em xin gửi lời cảm ơn chân thành tới TS. Nguyễn Văn Tảo đã tận tình giúp đỡ,

hƣớng dẫn và chỉ bảo trong quá trình thực hiện luận văn.

Em xin chân thành cảm ơn tới quý Thầy, Cô giáo đang công tác tại Viện Công nghệ

thông tin Việt Nam, Trƣờng Đại học Công nghệ thông tin và Truyền thông Thái Nguyên

đã tận tình chỉ bảo, truyền đạt những kiến thức qúy báu giúp em hoàn thành nhiệm vụ

học tập trong suốt thời gian theo học tại trƣờng. Quý Thầy Cô đã giúp em có đƣợc

những kiến thức quan trọng trong lĩnh vực Công nghệ thông tin, là nền tảng vững chắc

cho những nghiên cứu của bản thân trong thời gian tới.

Em xin cảm ơn các đồng nghiệp đã giúp đỡ, ủng hộ tinh thần trong thời gian em

tham gia học tập và nghiên cứu.

Cuối cùng, em xin cảm ơn tất cả những ngƣời đã luôn luôn quan tâm, sẻ chia và

động viên em.

Thái Nguyên, ngày 17 tháng 07 năm 2015

Nguyễn Thế Thụy

3 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

MỤC LỤC

LỜI CAM ĐOAN ............................................................................................................ 1 LỜI CẢM ƠN .................................................................................................................. 3

DANH MỤC CÁC HÌNH VẼ ......................................................................................... 6

LỜI MỞ ĐẦU ................................................................................................................. 7

CHƢƠNG 1: SINH TRẮC HỌC VÀ BÀI TOÁN NHẬN DẠNG KHUÔN MẶT

ỨNG DỤNG TRONG ĐIỂM DANH ............................................................................. 8

1.1. Tổng quan về sinh trắc học .................................................................................. 8

1.1.1. Hệ thống sinh trắc học ................................................................................ 10

1.1.1.1. Hệ thẩm định (Verification) ............................................................... 10

1.1.1.2. Nhận dạng (Identification, Recognition) ............................................ 11

1.1.1.3. Các thành phần chức năng chủ yếu .................................................... 11

1.1.1.4. Hoạt động của hệ thống ...................................................................... 11

1.1.2. Đánh giá hiệu năng và chất lƣợng hoạt động của hệ sinh trắc học ............ 11

1.1.3. Hệ thống an ninh bảo mật dựa trên sinh trắc học ....................................... 13

1.2. Phát hiện và nhận dạng khuôn mặt .................................................................... 13

1.3. Những khó khăn và thách thức trong bài toán nhận dạng khuôn mặt ............... 16

1.4. Các ứng dụng của bài toán nhận dạng khuôn mặt ............................................. 16

1.5. Bài toán điểm danh dựa trên khuôn mặt ............................................................ 18

1.5.1. Bài toán điểm danh và quản lý nhân sự ..................................................... 18

1.5.2. Đầu vào của bài toán .................................................................................. 19

1.5.3. Đầu ra và ý nghĩa thực tiễn ........................................................................ 20

CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT21

2.1. Một số kỹ thuật phát hiện mặt ngƣời trong ảnh ................................................. 21

2.1.1. Hƣớng tiếp cận dựa trên đặc trƣng của ảnh ............................................... 22

2.1.1.1. Phân tích mức thấp (Low level analysis)............................................ 23

2.1.1.2. Phân tích đặc trƣng (Feature Analysis) .............................................. 27

2.1.1.3. Mô hình hình dạng động (Active shape models) ................................ 33

2.1.2. Hƣớng tiếp cận dựa trên ảnh (Image based detection) ............................... 37

2.1.2.1. Phƣơng pháp không gian con tuyến tính (Linear subspace methods) 38

2.1.2.2. Mạng neural ........................................................................................ 41

2.1.2.3. Phƣơng pháp thống kê (Statistical approachs) ................................... 44

4 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.2. Một số kỹ thuật nhận dạng khuôn mặt ............................................................... 47

2.2.1. Phƣơng pháp phân tích thành phần chính (PCA) ....................................... 48

2.2.2. Phƣơng pháp phân tách tuyến tính (LDA) ................................................. 49

2.2.3. Phƣơng pháp mạng neural .......................................................................... 52

CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM .................................................................. 54

3.1. Yêu cầu thực nghiệm, ứng dụng ........................................................................ 54

3.2. Phân tích lựa chọn giải pháp, công cụ ............................................................... 55

3.3. Một số kết quả cài đặt thực nghiệm .................................................................. 56

3.3.1. Giao diện của chƣơng trình ........................................................................ 56

3.3.2. Một số kết quả điểm danh dựa trên khuôn mặt .......................................... 60

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 64

TÀI LIỆU THAM KHẢO ......................................................................................... 65

5 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Các đặc trƣng sinh trắc phổ biến ..................................................................... 8

Hình 1.2. Mô hình hệ thống sinh trắc học ....................................................................... 9

Hình 1.3. Các giá trị ngƣỡng của FAR và FRR ............................................................ 11

Hình 1.4. Mô hình hệ thống nhận dạng mặt ngƣời ....... Error! Bookmark not defined.

Hình 2.1. Sơ đồ các hƣớng tiếp cận và phƣơng pháp phát hiện mặt ngƣời .......... Error!

Bookmark not defined.

Hình 2.2. Hệ thống tìm kiếm mặt của Maio và Maltoni Error! Bookmark not defined.

Hình 2.3. Một số không gian riêng của CSDL ảnh ORL .............................................. 38

Hình 2.4. Mô hình mạng neural của Rowley và cộng sựError! Bookmark not

defined.

Hình 2.5. Hệ thống nhận dạng khuôn mặt ..................... Error! Bookmark not defined.

Hình 2.6. Ví dụ minh họa LDA ..................................................................................... 47

Hình 2.7. Ảnh sau khi biến đổi theo LDA ..................................................................... 49

Hình 2.8. Mạng neural 2 lớp truyền thẳng .................... Error! Bookmark not defined.

Hình 3.1. Quy trình hoạt động của hệ thống điểm danh dựa trên khuôn mặt …Error! Bookmark not defined.

Hình 3.2. Giao diện chính của chƣơng trình ................. Error! Bookmark not defined.

Hình 3.3. Hình ảnh từ camera và xử lý tƣơng ứng ........ Error! Bookmark not defined.

Hình 3.4. Giao diện quản lý danh sách điểm danh và điểm danhError! Bookmark not

defined.

Hình 3.5. Giao diện quản lý danh sách ảnh ................................................................... 60

Hình 3.6. Cơ sở dữ liệu ảnh ........................................................................................... 60

Hình 3.7. Giao diện các lựa chọn trên thanh thực đơn .................................................. 61

6 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI MỞ ĐẦU

Công nghệ Sinh trắc học (Biometric) là một công nghệ sử dụng những thuộc tính

vật lý hoặc các mẫu hành vi, các đặc điểm sinh học đặc trƣng nhƣ dấu vân tay, mẫu

mống mắt, giọng nói, khuôn mặt, dáng đi... để nhận diện con ngƣời.

Công nghệ sinh trắc học đƣợc áp dụng phổ biến và lâu đời, trong đó phƣơng pháp

sử dụng nhận dạng khuôn mặt là tự nhiên nhất. Phƣơng pháp này đƣợc chính bản thân

con ngƣời sử dụng từ khi đƣợc sinh ra để phân biệt giữa ngƣời này và ngƣời khác.

Ứng dụng khả năng phân biệt dựa trên các đặc điểm khác nhau của khuôn mặt, bài

toán “Phát hiện và nhận dạng khuôn mặt từ camera, ứng dụng trong điểm danh” là

bài toán có khả năng ứng dụng cao với chi phí thấp đƣợc áp dụng trong các cơ quan,

doanh nghiệp.

Với sự hỗ trợ của camera, máy tính và phần mềm điểm danh, nhà quản lý thu đƣợc

thông tin về sự có mặt và thời gian làm việc của ngƣời lao động một cách chính xác và

khách quan với chi phí thấp. Việc áp dụng nhận dạng khuôn mặt có thể đƣợc sử dụng

một cách độc lập với ƣu điểm hơn các phƣơng pháp sinh trắc học khác ở tính tự nhiên

của nó, đồng thời đây cũng có thể là một phƣơng pháp đƣợc sử dụng kết hợp với các

phƣơng pháp sinh trắc khác để nâng cao tính chính xác của hệ thống khi vận hành.

Chính vì tầm quan trọng của phát hiện, nhận dạng khuôn mặt nói riêng và công

nghệ sinh trắc nói chung, tôi thực hiện đề tài “Phát hiện và nhận dạng khuôn mặt từ

camera, ứng dụng trong điểm danh” với mục tiêu tìm hiểu các thuật toán phát hiện

và nhận dạng khuôn mặt ngƣời từ đó xây dựng chƣơng trình điểm danh dựa trên khuôn

mặt. Tôi hy vọng đề tài này sẽ đem lại một số kiến thức hữu ích cho những ai quan

tâm đến vấn đề về phát hiện và nhận dạng khôn mặt cũng nhƣ lĩnh vực sinh trắc học.

Nội dung luận văn đƣợc chia làm 3 phần chính: Chƣơng 1 trình bày khái quát về

quản lý học viên và bài toán điểm danh, trong đó nêu rõ đầu vào và đầu ra của bài toán

cũng nhƣ ứng dụng thực tiễn của bài toán. Chƣơng 2 là những nghiên cứu, tìm hiểu về

các thuật toán phát hiện và nhận dạng khuôn mặt. Chƣơng 3 trình bày thực nghiệm và

ứng dụng của chƣơng trình điểm danh dựa trên nhận dạng khuôn mặt. Phần cuối cùng

là kết luận và hƣớng phát triển tiếp theo của luận văn.

7 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

CHƢƠNG 1: SINH TRẮC HỌC VÀ BÀI TOÁN NHẬN DẠNG KHUÔN

MẶT ỨNG DỤNG TRONG ĐIỂM DANH

1.1. Tổng quan về sinh trắc học

Sinh trắc học hay công nghệ sinh trắc học (thuật ngữ khoa học là Biometric) là

công nghệ sử dụng những thuộc tính vật lý, đặc điểm sinh học riêng của mỗi cá nhân

nhƣ vân tay, mống mắt, khuôn mặt... để nhận diện. Thuật ngữ sinh trắc học

(Biometric) đƣợc dùng ghép theo tiếng Hy Lạp từ 2 từ: Bio (thuộc về thực thể sinh vật

sống) và metriko (kỹ thuật độ đo, đo lƣờng), thuật ngữ này đã đƣợc hình thành trong

quá trình phát triển loài ngƣời và đƣợc biết đến từ lâu để thể hiện các đặc trƣng về thể

chất hay về hành vi của từng cá thể con ngƣời. Có nhiều loại đặc trƣng sinh trắc học:

vân tay (Fingerprint), lòng bàn tay (Palm print), dạng hình học bàn tay (Hand

geometry), chữ ký viết tay (Hand written Signature), khuôn mặt (Face), tiếng nói

(Voice), con ngƣơi mắt (Iris), võng mạc (Retina)... Những đặc trƣng này đã đƣợc phát

hiện từ rất sớm để nhận dạng, xác thực chủ thể con ngƣời và hiện nay đang đƣợc quan

tâm nghiên cứu triển khai ứng dụng trong các lĩnh vực an ninh, quốc phòng, thƣơng

mại, công nghiệp, dịch vụ... Các đặc trƣng sinh trắc học của cơ thể ngƣời đƣợc sử

dụng phải đảm bảo các tiêu chuẩn sau đây: [1]

- Tính rộng rãi: là tính chất cho biết thông thƣờng mọi ngƣời đều có đặc trƣng này,

có thể tạo ra khả năng sử dụng hệ thống an ninh sinh trắc học cho một số lƣợng

ngƣời lớn.

- Tính phân biệt: là tính chất phân biệt đặc trƣng sinh trắc học giữa hai ngƣời bất

kỳ phải khác nhau, đảm bảo sự duy nhất của chủ thể sinh trắc.

- Tính ổn định: là tính chất mà đặc trƣng sinh trắc phải có tính ổn định trong một

thời gian tƣơng đối dài.

- Tính dễ thu thập: là tính chất đặc trƣng sinh trắc học phải dễ dàng thu nhận mẫu

khi đăng ký, kiểm tra xác thực, nâng cao tính khả thi trong sử dụng.

- Tính hiệu quả: là tính chất mà việc xác thực sinh trắc phải chính xác, nhanh

chóng và tài nguyên cần sử dụng đƣợc chấp nhận.

- Tính chấp nhận đƣợc: là tính chất mà quá trình thu thập mẫu sinh trắc phải đƣợc

sự đồng ý của ngƣời dùng.

8 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Chống giả mạo: là tính chất ƣu việt của việc sử dụng đặc trƣng sinh trắc, khả

năng mẫu sinh trắc khó bị giả mạo cao...

Hình 1.1. Các đặc trưng sinh trắc phổ biến

Đã có rất nhiều đặc trƣng sinh học khác nhau đã và đang đƣợc sử dụng. Mỗi loại

đặc trƣng sinh trắc có điểm mạnh và điểm yếu riêng. Tuy nhiên không một đặc trƣng

nào thỏa mãn tốt và đầy đủ tất cả các yêu cầu tính chất của một đặc trƣng sinh trắc học

nêu trên, nghĩa là không có một đặc trƣng sinh trắc học hoàn toàn tối ƣu. Trong một

công trình nghiên cứu, các chuyên gia đã đƣa ra một bảng so sánh khái quát các tiêu

chuẩn đánh giá các tính chất tƣơng ứng các đặc trƣng sinh trắc học sau đây: [1]

Bảng 1.1: So sánh các công nghệ nhận dạng sinh trắc học

Tính

Tính

Tính

Tính

Tính

chấp

Chống

Đặc trƣng sinh

Tính dễ

rộng

phân

ổn

hiệu

nhận

giả mạo

trắc học

thu thập

rãi

biệt

định

quả

đƣợc

M

M

M

M

M

M

L

Vân bàn tay

Dạng hình học

M

M

M

H

M

M

M

bàn tay

M

H

H

M

H

M

M

Vân tay

M

L

L

H

L

H

M

Dáng đi

H

L

M

H

L

H

H

Khuôn mặt

H

H

M

L

H

L

L

Võng mạc

H

H

H

M

H

L

L

Mống mắt

M

H

H

M

H

M

M

Chỉ tay

M

L

L

M

L

H

H

Giọng nói

Trong đó: Các ký hiệu có ý nghĩa nhƣ sau: H (cao), M (trung bình) và L (thấp).

9 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.1.1. Hệ thống sinh trắc học

Hình 1.2. Mô hình hệ thống sinh trắc học [2]

Một hệ thống sinh trắc học (Biometric System) thực chất là một hệ nhận dạng

dựa trên các đặc điểm về hành vi hay thuộc tính vật lý của ngƣời cần nhận dạng. Hệ

thống sinh trắc học đƣợc phân ra thành hai loại chính: hệ thẩm định (Verification) và

hệ nhận dạng (Identification, Recognition) [1]

1.1.1.1. Hệ thẩm định (Verification)

Hệ thẩm định (Verification) là hệ thống thực hiện nhiệm vụ đối sánh 1-1 giữa

mẫu sinh trắc học thu nhận đƣợc (biometric sample) với mẫu dạng sinh trắc học

(biometric template) đã có trong hệ thống từ trƣớc. Kết quả trả lời câu hỏi mẫu sinh

trắc thu nhận có liên quan tới mẫu dạng sinh trắc hay không? Thông thƣờng trong hệ

thẩm định có kết hợp với thông tin định danh chủ thể để thực hiện chức năng xác thực

10 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thẩm định sinh trắc (Authentication). Trong hệ xác thực thẩm định đòi hỏi cao về độ

chính xác để kết quả trả lời câu hỏi “Sinh trắc học sống thu nhận đƣợc (biometric

sample) có phải là sinh trắc của chủ thể đã lƣu trong hệ thống không?” [1]

1.1.1.2. Nhận dạng (Identification, Recognition)

Hệ nhận dạng (Identification, Recognition) là hệ thống thực hiện chức năng tìm

kiếm (1-n) từ một cơ sở dữ liệu lƣu trữ một tập các mẫu sinh trắc học để tìm ra một

mẫu sinh trắc cụ thể trong các mẫu khuôn dạng sinh trắc thu thập từ trƣớc và sau đó

thực hiện đối sánh xấp xỉ để nhận dạng phân lớp (Classification) hoặc nhận dạng đồng

nhất (Identification), ví dụ nhƣ việc tìm mẫu vân tay tội phạm trong hồ sơ các vân tay,

từ đó xác định danh tính của chủ sở hữu vân tay. [1]

1.1.1.3. Các thành phần chức năng chủ yếu

- Thu nhận (Sensor, Capture): là thành phần có chức năng thu nhận mẫu sinh trắc

học và biểu diễn chúng dƣới dạng số hóa.

- Xử lý và trích chọn đặc trƣng (Feature Extraction): là thành phần chức năng thực

hiện các phép xử lý phân tích và trích chọn các đặc trƣng từ mẫu sinh trắc học.

- Đối sánh (Matching): là thành phần chức năng thực hiện so sánh các đặc trƣng

vừa trích chọn với khuôn mẫu sinh trắc đã có trƣớc.

- Ra quyết định (Decision): là thành phần chức năng khẳng định danh tính ngƣời

dùng (với hệ nhận dạng) dựa trên kết quả đối sánh của chức năng đối sánh có thể

là một câu trả lời đúng hoặc một câu trả lời sai về mẫu sinh trắc học so với khuôn

mẫu sinh trắc có từ trƣớc (với hệ thẩm định). [1]

1.1.1.4. Hoạt động của hệ thống

Hoạt động của một hệ thống sinh trắc bao gồm 2 giai đoạn cơ bản sau đây:

- Đăng ký (Enrollment): là giai đoạn đăng ký mẫu sinh trắc vào hệ thống.

- Thẩm định hoặc nhận dạng (Verification/Identification): là giai đoạn thẩm định,

nhận dạng mẫu sinh trắc vừa trích chọn với khuôn mẫu sinh trắc đã có trƣớc.

1.1.2. Đánh giá hiệu năng và chất lƣợng hoạt động của hệ sinh trắc học

Một hệ sinh trắc học khi hoạt động thƣờng gặp hai vấn đề về lỗi sau đây:

11 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Lỗi phát sinh khi đối sánh mẫu sinh trắc của hai ngƣời khác nhau nhƣng cho kết

quả là của cùng một ngƣời. Lỗi này đƣợc gọi là loại bỏ sai (false reject hay false

match).

- Lỗi phát sinh khi đối sánh hai mẫu sinh trắc của cùng một ngƣời nhƣng cho kết

quả sai, vì cho rằng là của hai ngƣời khác nhau. Lỗi này đƣợc gọi là chấp nhận

sai (false accept hay false nonmatch). Để đo lƣờng mức độ lỗi của hệ thống sinh

trắc, các độ đo lƣờng thƣờng dùng đƣợc định nghĩa nhƣ sau:

- FMR (False Match Rate): còn gọi là FAR (False Accept Ratio) - Tỷ số chấp nhận

sai: cho biết tỉ lệ trả lời là đúng đối với dữ liệu vào là sai.

- FNMR (False Nonmatch Rate): còn gọi là FRR (False Rejection Ratio).

- Tỷ số từ chối sai: cho biết tỉ lệ trả lời là sai đối với dữ liệu vào là đúng.

Một vấn đề là hai độ đo lƣờng này có sự ràng buộc với nhau nhƣ sau: nếu FAR

cao thì FRR sẽ giảm tƣơng đối và ngƣợc lại. Mức độ chấp nhận đƣợc của FAR và

FRR tùy thuộc vào từng hệ xác thực sinh trắc cụ thể. Với hệ yêu cầu tính bảo mật cao,

và đặt nặng vấn đề an toàn của xác thực hơn sự tiện dụng của ngƣời dùng, thì FAR sẽ

nhỏ và FRR sẽ cao. Ngoài hai độ đo trên, ngƣời ta còn sử dụng độ đo FTC (Failure To

Capture - thu nhận mẫu thất bại) và FTE (Failure to Enroll - chấp nhận mẫu thất bại)

để đánh giá hiệu năng của hệ xác thực sinh trắc học. [1]

Hình 1.3. Các giá trị ngưỡng của FAR và FRR [3]

12 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.1.3. Hệ thống an ninh bảo mật dựa trên sinh trắc học

Hệ thống sinh trắc học có những ƣu điểm mà hệ bảo mật thông thƣờng không

có, trong những cuộc nghiên cứu hệ thống an ninh, bảo mật dựa trên hệ sinh trắc học

(Biometric Security System) đã đƣợc quan tâm nghiên cứu và đƣa vào ứng dụng thực

tiễn. Hƣớng nghiên xây dựng hệ thống trên cơ sở kết hợp hệ thống sinh trắc học với hệ

mật mã (Biometric Cryptosystem) đang là vấn đề thời sự đƣợc quan tâm nghiên cứu

phát triển. Sự kết hợp này nhằm mục tiêu nâng cao tính an toàn của hệ mật mã dựa

trên các ƣu điểm của hệ thống sinh trắc học. Hệ thống an ninh, bảo mật sinh trắc học

(Biometric based Security System) dựa trên sự nhận biết hoặc thẩm định các đặc trƣng

về thể chất hay về hành vi con ngƣời để nhận dạng, xác thực từng chủ thể. Cùng với sự

phát triển nhanh chóng của CNTT và truyền thông, hệ thống an ninh dựa trên nhận

dạng, thẩm định xác thực sinh trắc học đã và đang đƣợc quan tâm nghiên cứu và có

nhiều triển khai ứng dụng trong những năm gần đây trên thế giới. Đối với các giao

dịch điện tử và truyền thông, đây là một trong các hƣớng tiếp cận mới về an ninh

thông tin và mạng, an toàn dữ liệu. Phƣơng pháp này mở ra triển vọng lớn về an toàn

trong các giao dịch điện tử, chính phủ điện tử, thƣơng mại điện tử... [1]

Các lĩnh vực nghiên cứu về hệ thống an ninh sinh trắc học (Biometric Security

Systems).

- Các các nghiên cứu cơ bản về các loại sinh trắc học, về phƣơng pháp trích chọn

đặc trƣng sinh trắc và về nhận dạng, thẩm định xác thực chủ thể con ngƣời.

- Các hệ nhận dạng, thẩm định xác thực sinh trắc học chủ thể trong hệ thống.

- Mật mã sinh trắc học (Biometric Cryptography). Trong hệ mật mã thông thƣờng,

điểm yếu thƣờng ở quá trình bảo vệ, quản lý và phân phối khóa. Nguy cơ này đe

dọa các mục tiêu về xác thực và chống phủ nhận. Hệ sinh trắc học đƣợc ứng

dụng giải quyết vấn đề đó. Hiện nay có hai hƣớng tiếp cận để kết hợp sinh trắc

học và mật mã học nhƣ sau: [1]

- Dùng sinh trắc học quản lý khóa (biometric-based key release).

- Dùng sinh trắc học để tạo khóa (biometric-based key generation).

1.2. Phát hiện và nhận dạng khuôn mặt

Vấn đề nhận dạng mặt ngƣời có thể trình bày một cách tổng quan nhƣ sau: Cho

một ảnh tĩnh hay một đoạn video, hãy phát hiện và nhận ra những ngƣời trong ảnh hay

13 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

trong đoạn video đó dựa trên một tập cho trƣớc các dữ liệu về các mặt ngƣời đã biết.

Giải pháp cho vấn đề này bao gồm bốn vấn đề: phát hiện các mặt ngƣời từ ảnh (video),

trích chọn đặc trƣng từ vùng ảnh, nhận dạng ảnh và xác minh. Với quá trình nhận

dạng, đầu vào là một ảnh chƣa biết, sau quá trình nhận dạng, hệ thống đƣa ra định

danh về ngƣời trong ảnh và trong quá trình xác minh, hệ thống phải đƣợc xác định

rằng việc nhận dạng đấy là chính xác hay không. Về mặt tổng quát, mỗi phƣơng pháp

nhận dạng mặt ngƣời đều có thể đƣợc chia thành 2 module: Module phát hiện mặt

ngƣời trong ảnh và module nhận dạng mặt ngƣời.

Đƣợc khởi đầu vào những năm 70, nhận dạng mặt ngƣời là một trong những ứng

dụng của phân tích và xử lý ảnh đạt đƣợc nhiều thành tựu nhất. Trong thời gian gần

đây, do sự phát triển nhƣ vũ bão của khoa học máy tính và yêu cầu thực tiễn trong các

lĩnh vực kinh tế, luật pháp…, vấn đề nhận dạng mặt ngƣời đang đƣợc đặc biệt chú ý.

Một loạt các hội thảo đƣợc tổ chức bàn về vấn đề này nhƣ AFGR, AVBPA và những

đánh giá mang tính hệ thống về các kỹ thuật nhận dạng mặt ngƣời (Face Recognition

Techniques - FRT), bao gồm phƣơng pháp FERET và XM2VTS.

Nhu cầu cấp thiết về các hệ thống thân thiện với ngƣời sử dụng đã đảm bảo cho

các nghiên cứu về sau không bị lãng phí trong hàng loạt những nghiên cứu đã đƣợc

thực thi trƣớc đó. Hiện nay, để rút tiền từ ATM ta phải nhập PIN, hay để truy cập một

máy tính ta phải nhập mật khẩu hay hàng loạt phƣơng pháp khác để truy cập vào

Internet. Hiện đã có hàng loạt các phƣơng pháp nhận dạng có độ tin cậy cao dựa vào

các kỹ thuật nhân trắc học; chẳng hạn nhƣ, kỹ thuật phát hiện vân tay hay kỹ thuật

quét nhận dạng võng mạc. Tuy nhiên, những hệ thống này có chung nhƣợc điểm là

phức tạp và yêu cầu cần có sự phối hợp của nhiều ngƣời cùng xử lý. Bên cạnh đó, một

hệ thống nhận dạng dựa trên kỹ thuật phân tích ảnh mặt nhìn thẳng của một ngƣời sẽ

đơn giản hơn nhiều, không đòi hỏi có nhiều ngƣời cùng xử lý và cũng không đòi hỏi các

kiến thức chuyên môn sâu. Chính vì thế, hệ thống nhận dạng ngƣời dựa trên kỹ thuật

phân tích ảnh mặt đang ngày càng đƣợc ứng dụng rộng rãi.

Bảng 1.2. Các ứng dụng tiêu biểu của nhận dạng mặt người.

Lĩnh vực

Các ứng dụng đặc trƣng

Driver’s licences, Entitlement Programs

Nhân trắc học

Immigration, National ID, Passports, Voter Registration

14 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Welfare

Desktop Logon (Windows 95, Windows NT)

Application Security, Database Security, File Encryption

An toàn thông tin

Intranet Security, Internet Access, Medical Records

Secure Trading Terminals

Advanced Video Surveillance, CCTV Control

Law Enforcement

Portal Control, Post-Event Analysis

and Surveillance

Shoftlifting and Suspect Tracking and Investigation

Stored Value Security, User Authentification

SmartCards

Facility Access, Vehicular Access

Access Control

Một hệ thống nhận dạng mặt ngƣời điển hình bao gồm các thành phần chính nhƣ

Hình 1.4.

Ảnh mặt ngƣời

Thông tin ngƣời đƣợc nhận dạng

Trích chọn đặc trƣng

Nhận dạng mặt ngƣời

Hình 1.4. Mô hình hệ thống nhận dạng mặt người.

Nhận dạng mặt ngƣời (Face recognition) đƣợc nghiên cứu từ những năm 1980, là

một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision) và cũng đƣợc

xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Biometrics) tƣơng tự nhƣ

nhận dạng vân tay (Fingerprint recognition), hay nhận dạng mống mắt (Iris

recognition)… Trong khi nhận dạng vân tay và mống mắt có thể áp dụng trên thực tế

một cách rộng rãi thì nhận dạng mặt ngƣời vẫn còn nhiều thách thức. So với nhận dạng

vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi hỏi sự

tƣơng tác có kiểm soát hơn. Bài toán nhận dạng mặt ngƣời còn nhiều thách thức nên

hàng năm trong và ngoài nƣớc vẫn có nhiều nghiên cứu về các phƣơng pháp nhận

dạng mặt ngƣời.

15 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Nhận dạng khuôn mặt là một nhiệm vụ dễ dàng đối với con ngƣời. Thí nghiệm

trong [9] đã chỉ ra, ngay cả trẻ sơ sinh 1-3 ngày tuổi có thể phân biệt khuôn

mặt. Nhƣng làm thế nào với một máy tính? Cho đến nay chúng ta biết rất ít về nhận

dạng con ngƣời. Có phải đặc điểm bên trong (mắt, mũi, miệng) hoặc các đặc điểm bên

ngoài (hình dạng đầu, chân tóc) đƣợc sử dụng cho một nhận dạng khuôn mặt. Bộ não

con ngƣời phân tích một hình ảnh và mã hóa nhƣ thế nào? Theo nghiên cứu đƣợc bởi

David Hubel và Torsten Wiesel, rằng não của chúng ta có tế bào thần kinh chuyên biệt

phản ứng với từng hoàn cảnh cụ thể, chẳng hạn nhƣ đƣờng, cạnh, góc độ hoặc chuyển

động. Vì chúng ta không nhìn thấy thế giới nhƣ những mảnh phân tán, vỏ não của

chúng ta bằng cách nào đó phải kết hợp các nguồn thông tin khác nhau vào các mẫu

hữu ích. Nhận diện khuôn mặt tách ra những đặc điểm có ý nghĩa từ một hình ảnh, đƣa

chúng vào một sự biểu diễn hữu ích và thực hiện một số phân loại.

1.3. Những khó khăn và thách thức trong bài toán nhận dạng khuôn mặt

Việc xác định khuôn mặt ngƣời có những khó khăn nhất định nhƣ:

- Hƣớng (pose) của khuôn mặt đối với máy ảnh, nhƣ: nhìn thẳng, nhìn nghiêng hay

nhìn từ trên xuống. Cùng trong một ảnh có thể có nhiều khuôn mặt ở những tƣ

thế khác nhau.

- Sự có mặt của các chi tiết không phải là đặc trƣng riêng của khuôn mặt ngƣời,

nhƣ: râu quai nón, mắt kính...

- Các nét mặt (facial expression) khác nhau trên khuôn mặt, nhƣ: vui, buồn, ngạc

nhiên...

- Mặt ngƣời bị che khuất bởi các đối tƣợng khác có trong ảnh.

- Sự biểu cảm của khuôn mặt (The expression of the face): sự biểu cảm có thể làm

thay đổi đáng kể các đặc trƣng và thông số của khuôn mặt, ví dụ nhƣ khuôn mặt

của cùng một ngƣời sẽ rất khác khi ngƣời đó cƣời, tức giận hay sợ hãi…

1.4. Các ứng dụng của bài toán nhận dạng khuôn mặt

Xác định mặt ngƣời thƣờng là một phần của một hệ thống (facial recognition

system) [4]. Nó thƣờng đƣợc dùng trong giám sát video, giao tiếp ngƣời - máy và quản

lý cơ sở dữ liệu ảnh…

 Các ứng dụng cơ bản của xác định mặt ngƣời có thể kể đến là:

16 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Xác minh tội phạm: Dựa vào ảnh của một ngƣời, nhận dạng xem ngƣời đấy có

phải là tội phạm hay không bằng cách so sách với các ảnh tội phạm đang đƣợc

lƣu trữ. Hoặc có thể sử dụng camera để phát hiện tội phạm trong đám đông.

Ứng dụng này giúp cơ quan an ninh quản lý con ngƣời tốt hơn.

- Camera chống trộm: Các hệ thống camera sẽ xác định đâu là con ngƣời và theo

dõi xem con ngƣời đó có làm gì phạm pháp không, ví dụ nhƣ lấy trộm đồ, xâm

nhập bất hợp pháp vào một khu vực nào đó.

- Bảo mật: Các ứng dụng về bảo mật rất đa dạng, một trong số đó là công nghệ

nhận dạng mặt ngƣời của laptop, công nghệ này cho phép chủ nhân của máy

tính chỉ cần ngồi trƣớc máy là có thể đăng nhập đƣợc. Để sử dụng công nghệ

này, ngƣời dùng phải sử dụng một webcam để chụp ảnh khuôn mặt của mình

và cho máy “học” thuộc các đặc điểm của khuôn mặt giúp cho quá trình đăng

nhập sau này.

- Lƣu trữ khuôn mặt: Xác định mặt ngƣời có thể đƣợc ứng dụng trong các trạm

rút tiền tự động (ATM) để lƣu trữ khuôn mặt của ngƣời rút tiền. Hiện nay có

những ngƣời bị ngƣời khác lấy trộm thẻ ATM, mã PIN và bị rút tiền trộm

hoặc có những chủ tài khoản đi rút tiền nhƣng lại báo với ngân hàng là bị mất

thẻ và bị rút tiền trộm. Nếu lƣu trữ đƣợc khuôn mặt của ngƣời rút tiền, ngân

hàng có thể đối chứng và xử lý dễ dàng hơn.

 Một số ứng dụng khác:

- Điều khiển vào ra: Văn phòng, công ty, trụ sở, máy tính, Palm,… kết hợp thêm

vân tay và mống mắt, cho phép nhân viên đƣợc ra vào nơi cần thiết.

- An ninh sân bay, xuất nhập cảnh (hiện nay cơ quan xuất nhập cảnh Mỹ đang sử

dụng). Dùng camera quan sát để xác thực ngƣời nhập cảnh và kiểm tra xem

ngƣời đó có phải là tội phạm hay phần tử khủng bố không.

- Tìm kiếm và tổ chức dữ liệu liên quan đến con ngƣời thông qua khuôn mặt

ngƣời trên nhiều hệ cơ sở dữ liệu lƣu trữ thật lớn, nhƣ internet, các hãng

truyền hình… Ví dụ: tìm các đoạn video có tổng thống Obama phát biểu, tìm

các phim có diễn viên Thành Long đóng…

17 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Kiểm tra trạng thái ngƣời lái xe có ngủ gật, mất tập trung hay không và hỗ trợ

thông báo khi cần thiết.

- Tƣơng lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc trƣng của

ngƣời dùng trên đó, khi bất cứ ngƣời dùng khác dùng để truy cập hay xử lý tại

các hệ thống sẽ đƣợc yêu cầu kiểm tra các đặc trƣng khuôn mặt so với thẻ để

biết ngƣời này có phải là chủ thẻ hay không.

- Hãng máy chụp hình Canon đã ứng dụng bài toán xác định khuôn mặt ngƣời

vào máy chụp hình thế hệ mới để cho kết quả hình ảnh đẹp hơn, nhất là khuôn

mặt ngƣời.

1.5. Bài toán điểm danh dựa trên khuôn mặt

1.5.1. Bài toán điểm danh và quản lý nhân sự

Trong thời đại ngày nay, cùng với sự phát triển của khoa học kỹ thuật và xu hƣớng

công nghiệp hóa, hiện đại hóa: máy móc đang và sẽ tiếp tục thay thế con ngƣời trong

những công việc nặng nhọc và mang tính lặp đi lặp lại. Máy móc có những ƣu điểm

không thể phủ nhận nhƣ không biết mệt mỏi, sẵn sàng phục vụ liên tục, không mang

tính chủ quan, khả năng xử lý nhanh, lƣu trữ lớn...

Đối với bài toán điểm danh, chấm công với mục tiêu chủ yếu là kiểm soát nguồn

nhân lực về thời gian. Các nhà quản lý quan tâm tới hai vấn đề chính là một lao động

tên là “A” có mặt hay không, có đúng giờ hay không, “A” có làm đủ số giờ quy định

hay không?. Để giải quyết bài toán này thông thƣờng các công ty, doanh nghiệp, các

nhà quản lý sẽ sử dụng một nhóm ngƣời có chức năng chấm công và quản lý hoặc sử

dụng một hệ thống sinh trắc học. Đối với việc sử dụng con ngƣời có rất nhiều nhƣợc

điểm nhƣ: chi phí lớn, tính khách quan không cao, không hoạt động tốt liên tục trong

nhiều giờ liền, không thể sử dụng với phạm vi lớn (một cán bộ chấm công không thể

nhớ đƣợc quá nhiều ngƣời, đặc biệt với những ngƣời mới gặp vài lần)... Vì thế các hệ

thống sinh trắc học tỏ ra khá hiệu quả và là lựa chọn hàng đầu trong bài toán này.

Với sự hỗ trợ của camera, máy tính và phần mềm điểm danh, nhà quản lý thu đƣợc

thông tin về sự có mặt và thời gian làm việc của ngƣời lao động một cách chính xác và

khách quan với chi phí thấp. Việc áp dụng nhận dạng khuôn mặt có thể đƣợc sử dụng

một cách độc lập với ƣu điểm hơn các phƣơng pháp sinh trắc học khác ở tính tự nhiên

18 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

của nó, đồng thời đây cũng có thể là một phƣơng pháp đƣợc sử dụng kết hợp với các

phƣơng pháp sinh trắc khác để nâng cao tính chính xác của hệ thống khi vận hành.

1.5.2. Đầu vào của bài toán

Với bài toán điểm danh, trong nội dung luận văn tôi lựa chọn phƣơng pháp nhận

dạng khuôn mặt làm cơ sở để xây dựng hệ thống. Với đầu vào là ảnh của ngƣời cần

đƣợc điểm danh hệ thống sẽ nhận diện hình ảnh và đoán nhận chính xác tên của ngƣời

có trong ảnh, từ đó là cơ sở để điểm danh.

Nhƣ vậy, đầu vào của bài toán là ảnh thu đƣợc từ camera đặt ở vị trí quan sát. Vị trí

này thƣờng là trƣớc cửa của cơ quan, doanh nghiệp, đây thƣờng là lối vào duy nhất

của đơn vị cần đƣợc điểm danh. Trong trƣờng hợp có nhiều cửa vào cho một đơn vị

cần đƣợc điểm danh, hệ thống sẽ thiết đặt các camera tại các cổng vào. Kết quả điểm

danh sẽ là kết quả tổng hợp của các camera tại các vị trí khác nhau.

Trong trƣờng hợp ngƣời quản lý cần xác định rõ thời gian làm việc của lao động

(cần xác định rõ thời gian vào và thời gian ra của một ngƣời) thì hệ thống cần thiết đặt

hai camera trên một cổng, một camera hƣớng ra để điểm danh ngƣời lao động khi vào

và một camera hƣớng vào trong để điểm danh ngƣời lao động khi ra khỏi khu vực làm

việc. Hiệu thời gian của lần ra và lần vào sẽ là thời gian ngƣời cần đƣợc điểm danh có

mặt tại khu vực làm việc.

Để đảm bảo hệ thống làm việc hiệu quả, chính xác cần xây dựng các tiêu chuẩn cơ

bản để hệ thống làm việc. Đây là thiết lập cần thiết để nâng cao tính chính xác và khả

năng làm việc của hệ thống. Các thiết đặt này xuất phát từ chính các khó khăn tồn tại

trong các thuật toán xác định và nhận diện khuôn mặt hiện này:

- Các khuôn mặt đƣợc chụp thẳng hoặc góc nghiêng không đáng kể (nhỏ hơn

hoặc bằng 10o).

- Phông nền của ảnh không quá phức tạp.

- Ảnh đƣợc chụp trong điều kiện ánh sáng bình thƣờng.

- Ngƣời đƣợc điểm danh không có các vật dụng với độ che phủ cao trên khuôn

mặt (kính đen, khẩu trang, râu giả...).

- Không mang vác ảnh có mặt ngƣời qua khu vực điểm danh (sử dụng ảnh 2D

chụp ngƣời để điểm danh hộ, hoặc gây nhầm lẫn trong hệ thống)

19 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.5.3. Đầu ra và ý nghĩa thực tiễn

Bài toán điểm danh với đầu vào là ảnh thu đƣợc từ camera, dựa trên công nghệ

sinh trắc học nhận diện qua khuôn mặt sẽ trả lại kết quả là một danh sách tên ngƣời lao

động, trong đó mỗi một đối tƣợng ngƣời lao động tồn tại hai trạng thái là đƣợc điểm

danh và không đƣợc điểm danh. Để xác định một đối tƣợng cần đƣợc điểm danh ở trạng

thái nào, hệ thống dựa trên một tập các ảnh đƣợc lƣu trong cơ sở dữ liệu, trong quá trình

nhận dạng đối tƣợng đi qua và nhìn về phía camera. Hệ thống nhận diện khuôn mặt thu

đƣợc từ camera và xác định xem đối tƣợng có nằm trong danh sách điểm danh hay

không, nếu có đối tƣợng tƣơng ứng đƣợc xác định trạng thái là “có mặt”. Ngƣợc lại nếu

đối tƣợng cần điểm danh không xuất hiện trong thời gian điểm danh thì trạng thái của

đối tƣợng tại phiên làm việc đó đƣợc xác định trạng thái là “vắng”.

Nhƣ vậy, đầu ra tổng quát của bài toán là xác định hình ảnh ngƣời trong ảnh vào

có tƣơng ứng với một định danh ảnh đã có trong cơ sở dữ liệu hay không. Nếu có định

dang tƣơng ứng là gì. Dựa trên một định danh đƣợc cung cấp bởi hệ thống nhận dạng

ta xây dựng chƣơng trình điểm danh với hai trạng thái cơ bản là “vắng” và “có mặt”.

Nếu trong phiên làm việc định danh đƣợc hệ thống xác nhận thì trạng thái đƣợc xác

định là có mặt và ngƣợc lại. Trong trƣờng hợp cần xác định thời gian làm việc của đối

tƣợng đang theo dõi ta cần xác định thêm tham số thời gian khi đối tƣợng đƣợc hệ

thống định danh theo chiều vào và thời gian khi đối tƣợng đƣợc hệ thống định danh

theo chiều ra.

20 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ NHẬN DẠNG KHUÔN MẶT

2.1. Một số kỹ thuật phát hiện mặt ngƣời trong ảnh

Vấn đề phát hiện mặt đƣợc đƣa ra đầu tiên vào những năm 70 với việc sử dụng

các kỹ thuật nhân trắc học và các phép heuristic giản đơn. Với những kỹ thuật này, ta

chỉ có thể đạt đƣợc kết quả trong những điều kiện khá chặt, ví dụ nhƣ nền ảnh đồng

nhất, khuôn mặt chụp thẳng... Cho đến ngày nay, cùng với sự phát triển vƣợt bậc của

khoa học kỹ thuật, việc yêu cầu những giới hạn nhƣ thế là không còn. Tuy nhiên, cùng

với những yêu cầu ngày càng cao, thì vấn đề phát hiện mặt ngƣời đang phải đối mặt

với những khó khăn mới. Trong suốt quá trình từ những năm đầu tới nay, đã có rất

nhiều các hƣớng xử lý và tiếp cận khác nhau đƣợc đƣa ra nhằm giải quyết cho những

yêu cầu cụ thể khác nhau của từng giai đoạn, từng ứng dụng cụ thể và cũng có nhiều

cách phân loại các phƣơng pháp, hƣớng tiếp cận này. Trong luận văn này, tôi chia các

phƣơng pháp và hƣớng tiếp cận thành hai hƣớng chính: Hƣớng tiếp cận dựa trên đặc

trƣng (Feature - based) và hƣớng tiếp cận dựa trên ảnh (Image - based).

Các phƣơng pháp kỹ thuật đƣợc áp dụng trong phát hiện mặt đƣợc thể hiện trong

Hình 2.1.

21 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.1. Sơ đồ các hướng tiếp cận và phương pháp phát hiện mặt người

2.1.1. Hƣớng tiếp cận dựa trên đặc trƣng của ảnh

Phƣơng pháp tiếp cận dựa trên đặc trƣng đƣợc chia thành 3 vấn đề. Giả sử cần

phải phát hiện một khuôn mặt trong một nền ảnh lộn xộn, phân tích cấp thấp (low-

level analysis) thực hiện phân đoạn các đặc trƣng của ảnh dựa trên những thuộc tính

điểm ảnh nhƣ độ xám hay màu sắc. Sự phân đoạn này còn mập mờ và chƣa rõ ràng.

Trong phân tích đặc trƣng (feature analysis), các đặc trƣng của ảnh đƣợc tổ chức thành

các đặc trƣng khuôn mặt có tính tổng quát hơn dựa trên các đặc tính hình học của

22 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

khuôn mặt. Sau giai đoạn này, tính mập mờ của các đặc trƣng của ảnh đã đƣợc giảm

bớt, đồng thời vị trí khuôn mặt cùng với các đặc trƣng khuôn mặt đã đƣợc xác định.

Tiếp theo là việc sử dụng các mô hình hình dạng động (active shape models). Những

mô hình này bao gồm từ mô hình con rắn (snakes) (đƣợc đề xuất vào những năm 80)

cho tới mô hình điểm phân tán (Point Distributed Model - PDM) đƣợc đề xuất vào

những năm gần đây để trích chọn các đặc trƣng phức tạp nhƣ mắt, môi…

2.1.1.1. Phân tích mức thấp (Low level analysis)

Ngƣời ta gọi là phân tích mức thấp vì việc phân tích ở đây là phân tích dựa trên

các đặc trƣng rất cơ bản và mang tính trực quan, những đặc trƣng đó bao gồm biên

ảnh, thông tin đa mức xám, màu sắc, chuyển động, tính đối xứng của khuôn mặt.

a. Biên ảnh (Edges)

Biên ảnh (Edges) là một trong những thuộc tính quan trọng nhất trong các ứng

dụng xử lý ảnh, biên đã đƣợc sử dụng trong các ứng dụng phát hiện mặt ngay từ những

ngày đầu tiên bởi Sakai và cộng sự. Theo đó, các đặc trƣng khuôn mặt đƣợc xác định

dựa trên việc phân tích các đƣờng kẻ của các khuôn mặt trên ảnh. Craw và cộng sự sau

đó đã phát triển một giải thuật phân cấp dựa trên công việc của Sakai và cộng sự để

tìm các mô tả các đầu ngƣời có trong ảnh. Trong đó, một thành phần dò tìm đƣờng

biên (line-follower) với các ràng buộc về độ cong đƣợc sử dụng để tránh các biên

nhiễu. Các đặc trƣng về biên trong các biểu diễn mô tả của đầu ngƣời sau đấy đƣợc

phân tích đặc trƣng sử dụng thông tin hình dạng và thông tin vị trí của mặt. Gần đây,

vấn đề trích chọn đặc trƣng mặt sử dụng biên và phát hiện mặt sử dụng biên đã đƣợc

xây dựng bởi rất nhiều tác giả, trong đó có Brunelli và Poggio (1993), J.Choi, S.Kim

và P.R.Hee (1999), B.K.Low và M.K.Ibrahim (1997)... Ngoài ra, biên còn đƣợc sử

dụng trong việc phát hiện những ảnh mặt ngƣời đeo kính (Z.Ling và R.Mariani, 2000

và X. Jiang, M. Binkert, B. Achermann, H. Bunke, 2000).

Phát hiện biên là bƣớc đầu tiên trong vấn đề biểu diễn biên. Cho tới nay, đã có rất

nhiều toán tử phát hiện biên đƣợc áp dụng. Các vấn đề về biên và phát hiện biên sẽ

đƣợc trình bày kỹ hơn trong chƣơng sau.

Trong phƣơng pháp phát hiện mặt áp dụng biên, các biên phải đƣợc gán nhãn và

phù hợp với một mẫu mặt nhằm đảm bảo sự phát hiện là đúng đắn. Govindaraju đã

thực hiện công việc này bằng cách gán nhãn các biên nhƣ là bên trái, bên phải, nhìn

23 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thẳng hay là tóc và sau đó phù hợp chúng với một mẫu bằng cách sử dụng tỷ lệ vàng

của một khuôn mặt điển hình:

(1)

Trong hệ thống của Govindaraju, khi tiến hành kiểm thử 60 ảnh có nền phức tạp

bao gồm 90 khuôn mặt, thì thấy khả năng hệ thống có thể phát hiện chính xác là 76%

với mức độ trung bình sai 2 mặt/1 ảnh.

b. Thông tin đa mức xám (Grayscale Information)

Ngoài biên, thông tin đa mức xám trong ảnh cũng có thể đƣợc sử dụng nhƣ một

đặc trƣng. Một số đặc trƣng của khuôn mặt nhƣ lông mày, đồng tử hay môi thƣờng tối

hơn những vùng mặt xung quanh. Thuộc tính này có thể đƣợc sử dụng để phân biệt

nhiều vùng mặt khác nhau. Một số giải thuật trích chọn đặc trƣng gần đây thực hiện

tìm kiếm vùng cực tiểu địa phƣơng mức xám trong một phân đoạn ảnh mặt. Trong

những giải thuật này, ảnh đầu vào đƣợc cải thiện bằng cách làm tăng độ tƣơng phản

(contrast - stretching) và thực hiện các bƣớc biến hình mức xám (gray - scale

morphological routine) để làm tăng độ tối của những phần nói trên, do đó làm cho việc

phát hiện đƣợc dễ dàng hơn. Sau đó những vùng tối này đƣợc trích chọn bằng phép lấy

ngƣỡng dƣới. Bên cạnh đó, Wong và cộng sự tiến hành xây dựng một hệ thống tự

động tìm kiếm các vùng tối thuộc mặt thông qua sự phân tích về màu sắc. Hệ thống sử

dụng một mẫu mắt gán trọng số để xác định các vị trí có thể của cặp mắt.

c. Màu sắc (Color)

Thông tin mức xám cho phép chúng ta biểu diễn một cách cơ bản các đặc trƣng

của ảnh, còn thông tin về màu cho phép ta phân biệt hữu hiệu các đối tƣợng trong ảnh.

Bởi màu đƣợc biểu diễn trong không gian 3 chiều, nên 2 đối tƣợng có cùng mức xám

sẽ có những thể hiện khác nhau trong không gian màu. Ngƣời ta đã chứng minh đƣợc

rằng màu da của con ngƣời, dù ở lứa tuổi nào hay ở màu da nào, thì đều phân bố trên

một cụm xác định của hệ toạ độ màu [10].

Một trong những hệ toạ độ màu đƣợc sử dụng nhiều nhất là hệ toạ độ RGB. Theo

đó, mỗi màu đƣợc biểu diễn bởi sự kết hợp của các giá trị của 3 thành phần màu: đỏ

(Red - R), xanh (Green - G) và xanh lá cây (Blue - B). Bởi các thay đổi chính trong

việc biểu diễn da là bởi sự thay đổi về độ sáng, nên thông thƣờng ta thƣờng sử dụng hệ

24 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

toạ độ RGB chuẩn hoá, do đó ảnh hƣởng của độ sáng đƣợc loại bỏ. Các thành phần

chuẩn hoá đƣợc tính bởi [10]:

(2)

Do r + g + b = 1 nên trong hệ toạ độ màu chuẩn hoá này ta chỉ cần biết 2 giá trị r

và g, bởi b = 1 – r – g. Khi phân tích màu da, histogram màu dựa trên r và g chỉ ra

rằng màu của mặt ngƣời chỉ chiếm một vùng nhỏ trên histogram. Bằng cách so sánh

thông tin màu của một điểm ảnh với các giá trị r và g của vùng màu mặt, ta có thể xác

định đƣợc xác suất thuộc vùng mặt của điểm ảnh đấy.

Bên cạnh mô hình RGB, ngƣời ta cũng sử dụng một số mô hình khác trong việc

phát hiện mặt. C.H.Lee, J.S.Kim and K.H.Park, 1996, đã xây dựng một giải thuật sử

dụng mô hình HSI do ƣu điểm vƣợt trội của nó trong việc phân biệt các vùng màu của

các đặc trƣng khác nhau của khuôn mặt. Do đó, mô hình HSI đƣợc sử dụng trong việc

trích chọn các đặc trƣng của khuôn mặt nhƣ mắt, môi...

G.Wei và I.K.Sethi, 1999, sử dụng mô hình YIQ để phát hiện mặt. Bằng cách

chuyển đổi từ hệ toạ độ RGB sang YIQ, ngƣời ta nhận thấy thành phần I - thể hiện sự

thay đổi từ màu cam (orange) sang màu lục (cyan), có khả năng cải thiện vùng da của

ngƣời Á Châu. Việc chuyển đổi này cũng làm triệt tiêu các phần nền không phải da và

do đó, giúp cho việc phát hiện các khuôn mặt nhỏ đƣợc dễ dàng hơn. Ngoài ra, một số

mô hình màu khác cũng đƣợc sử dụng trong việc phát hiện mặt, nhƣ HSV, YES, CrCb,

YUV, CIE-xyz, L*a*b, L*u*v*...

d. Chuyển động (Motion)

Nếu yêu cầu của việc phát hiện mặt ngƣời là trong môi trƣờng ảnh video, thì hợp

lý nhất cho việc phát hiện mặt là sử dụng yếu tố chuyển động. Phƣơng pháp đơn giản

nhất là sử dụng sự khác biệt giữa các frame. Mặc dù phƣơng pháp này tỏ ra khá đơn

giản, nhƣng nó vẫn có thể phát hiện đƣợc sự cử động của các đối tƣợng trên bất cứ nền

nào một cách có hiệu quả. Các bóng cử động có chứa phần mặt và cơ thể ngƣời có thể

đƣợc tách bằng phép lấy ngƣỡng đối với sự khác biệt giữa các frame. Ngoài các vùng

25 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

mặt, các nhóm tác giả Luthon và Luevin; Crowley, Berard và Low cũng sử dụng sự

khác biệt giữa các frame để xác định các đặc trƣng mặt. J. L. Crowley và F. Berard,

1997, sử dụng sự khác biệt giữa các frame, xác định ra các vùng ứng viên cho vị trí

mặt. Sau đó, sử dụng độ dịch chuyển ngang và dọc của 2 vùng ứng viên lân cận nhau

để dự đoán sự xuất hiện của cặp mắt [10].

Một phƣơng pháp khác để xác định độ chuyển động là thông qua sự đánh giá các

đƣờng nét cử động (moving contour). So với phƣơng pháp trên, thì phƣơng pháp này

tỏ ra đáng tin cậy hơn, đặc biệt là trong những trƣờng hợp các cử động là không rõ

ràng. Mc Kenna và cộng sự đã sử dụng một bộ lọc không gian - thời gian Gaussian để

phát hiện sự chuyển động của các vùng biên mặt và cơ thể ngƣời. Quá trình này đƣợc

thực hiện bằng cách nhân chập ảnh đa mức xám I(x, y) với đạo hàm cấp 2 theo thời

(3)

(4)

gian m(x, y, t) của bộ lọc Gaussian G(x, y, t):

Trong đó: u là hệ số tỷ lệ thời gian và a là độ rộng của bộ lọc.

Sau đó, thực hiện nhân chập m(x, y, t) với các frame ảnh:

(5)

S(x,y,t) chứa các thành phần zero - crossing xác định các chuyển động của biên

trong I(x,y,t). Các thành phần zero - crossing sau đó đƣợc phân vùng để xác định chính

xác vị trí của các chuyển động.

e. Tiêu chuẩn suy rộng (Generalized Measure)

Các đặc tính trực quan nhƣ đƣờng biên , mầu và chuyển đô ̣ng đƣơ ̣c đƣa ra tƣ̀

nhƣ̃ng giai đoa ̣n đầu củ a hê ̣ thống hình ảnh ngƣờ i (human visual system ), đƣơ ̣c chỉ ra bở i nhiều da ̣ng đáp ƣ́ ng củ a mắt . Quá trình tiền xử lý này cho phép các thông tin trực quan đƣơ ̣c tổ chƣ́ c thành nhiều da ̣ng trƣớ c các hoa ̣t đô ̣ng trƣ̣c quan cấp cao trong bô ̣ não. Reifeld và Yeshurun đã giớ i thiê ̣u mô ̣t toán tƣ̉ đối xƣ́ ng suy rô ̣ng dƣ̣a vào các thao tác trên điểm biên . Do các đă ̣c trƣng mă ̣t có tính đối xƣ́ ng , toán tử không dựa trên các mƣ́ c cao củ a các tri thƣ́ c tiên nghiê ̣m về khuôn mă ̣t sẽ sinh ra mô ̣t biểu diễn đƣa la ̣i

26 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

. Đa ̣i

nhiều đáp ƣ́ ng vớ i các vị trí đặc trƣng khuôn mặt . Độ đo đối xứng gán một đại lƣợng cho mo ̣i điểm ảnh trong ảnh dƣ̣a trên tác đô ̣ng củ a các điểm ảnh xung quanh

lƣơ ̣ng đối xƣ́ ng

vớ i điểm ảnh p đƣơ ̣c cho nhƣ sau:

(6)

i và j (của điểm ảnh p) Trong đó : C(i,j) là tác động của điểm ảnh xung quanh

trong tâ ̣p các điểm ảnh . Biểu đồ các đa ̣i lƣơ ̣ng đối xƣ́ ng sẽ chỉ ra vi ̣ trí củ a các

đă ̣c tính khuôn mă ̣t nhƣ mắt và miê ̣ng

. Sƣ̉ du ̣ng biểu đồ này , điểm ảnh cù ng có Reisfeld và cộng sự đã đa ̣t đƣơ ̣c tỷ lê ̣ thành công là 95% trong dò tìm vi ̣ trí củ a mă ̣t và miê ̣ng củ a rất nhiều ảnh tƣơng tƣ̣ nhau trong mô ̣t cơ sở dƣ̃ liê ̣u , các ảnh nà y đồng thờ i

cũng dựa trên nhiều kiểu nền và xoay theo các hƣớng khác nhau .

Mô ̣t phƣơng pháp sƣ̉ du ̣ng tính đối xƣ́ ng suy rô ̣ng khác do Lin và cộng sự thƣ̣c

hối đối

hiê ̣n. Lin đã đƣa ra mô ̣t toán tƣ̉ mă ̣t na ̣ kép nhằm khai thác đă ̣c tính phân p xƣ́ ng xuyên tâm củ a , gradient hƣớ ng, trên các vù ng mă ̣t sáng và tối . Tƣơng tƣ̣ nhƣ

toán tử của Reisfeld và cộng sự , toán tử mặt nạ kép cũng cố gắng trích chọn ra những

các nền khác nhau và dƣới các tƣ thế khác nhau , nhƣng

đă ̣c trƣng củ a khuôn mă ̣t tƣ̀ vớ i sƣ̣ phƣ́ c ta ̣p thấp hơn so vớ i toán tƣ̉ củ a Reisfeld và cộng sự . Mô ̣t toán tƣ̉ mớ i và đáng chú ý hơn dƣ̣a trên các hình da ̣ng lồi và lõm đƣơ ̣c Tankus và cộng sự đƣa ra gần đây. Khác với các cách tiếp cận trƣớc , Tankus và cộng sự sƣ̉ du ̣ng đa ̣o hàm củ a

gradient hƣớ ng theo hƣớ ng y, đƣơ ̣c go ̣i là Y - Phase. Theo Tankus và cộng sự Y -

Phase của các đối tƣợng lồi và lõm có đáp ứng ma ̣nh ta ̣i các điểm âm củ a tru ̣c x. Bở i vì , nên Y - Phase củ a chú ng thƣờ ng tƣơng tƣ̣ các đặc tính mặt thƣờng có dạng parabol

vớ i Y - Phase củ a Parabol do đó sinh ra đáp ƣ́ ng ma ̣nh trên tru ̣c x. Bằng cách đƣa ra

mô ̣t đi ̣nh lý và so sánh Y - Phase củ a log(log(log(I))) và exp(exp(exp(I))) vớ i I là ảnh,

Tankus và cộng sự đã chƣ́ ng minh rằng Y - Phase là bất biến dƣớ i các điều kiê ̣n chiếu

sáng khác nhau. Các thực nghiệm chuyên sâu hơn đã chứng tỏ rằng toán tử n ày không

phản ứng nhạy với những đƣờng biên dày của các đối tƣợng không lồi và nền các vùng

nền kết cấu (texture backgounds).

2.1.1.2. Phân tích đặc trƣng (Feature Analysis)

Các đặc trƣng đƣợc trích chọn bởi phép phân tích cấp thấp thƣờng không rõ ràng.

Chẳng hạn, khi xác định vị trí của khuôn mặt sử dụng mô hình màu da, những đối

27 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

tƣợng nền có màu tƣơng tự nhƣ màu da cũng đƣợc xác định là mặt. Trong nhiều

phƣơng pháp, ngƣời ta sử dụng các cấu trúc hình học của mặt để xác định và phân biệt

các đặc trƣng khác nhau của khuôn mặt trong điều kiện chúng còn chƣa rõ ràng. Hiện

có hai phƣơng pháp tiếp cận sử dụng cấu trúc hình học của khuôn mặt. Phƣơng pháp

thứ nhất sử dụng chiến lƣợc tìm kiếm đặc trƣng tuần tự dựa trên vị trí tƣơng đối giữa

các đặc trƣng của khuôn mặt. Sự tin cậy của một đặc trƣng đƣợc phát hiện đƣợc tăng

cƣờng bằng cách phát hiện thêm các đặc trƣng khác của khuôn mặt xung quanh nó.

Phƣơng pháp thứ hai nhóm các đặc trƣng thành các “chòm sao” (constellation) dựa

trên một số mô hình khuôn mặt khác nhau.

a. Tìm kiếm đặc trƣng

Kỹ thuật tìm kiếm đặc trƣng bắt đầu bằng việc xác định các đặc trƣng nổi bật của

khuôn mặt. Sau khi phát hiện đƣợc các đặc trƣng nổi bật, dựa trên kỹ thuật nhân trắc

học về cấu trúc hình học của khuôn mặt, ta có thể dự đoán đƣợc các đặc trƣng khác

kém nổi bật hơn. Chẳng hạn, với trƣờng hợp “một vùng nhỏ nằm trên một vùng lớn

hơn trong bối cảnh có đầu và vai” là thể hiện “đầu người nằm trên vai” và một cặp

vùng tối tìm thấy trong vùng nhỏ sẽ làm tăng khả năng vùng nhỏ vừa tìm đƣợc là một

mặt. Thông thƣờng, đặc trƣng đƣợc sử dụng để làm tăng xác suất xuất hiện mặt là cặp

mắt bởi chúng luôn xuất hiện cạnh nhau. Các đặc trƣng khác cũng đƣợc sử dụng cho

mục đích này là trục đối xứng của mặt, đƣờng nét của đầu và phần thân.

Giải thuật trích chọn đặc trƣng khuôn mặt xây dựng bởi De Silva và cộng sự là

một ví dụ điển hình cho phƣơng pháp tìm kiếm đặc trƣng. Giải thuật bắt đầu bằng việc

phỏng đoán vị trí đỉnh đầu và giải thuật tìm kiếm bắt đầu duyệt từ vị trí đấy đi xuống

nhằm tìm vị trí của đôi mắt. Sự hiện diện của cặp mắt đƣợc xác định bằng sự tăng đột

ngột mật độ các biên. Khoảng cách giữa đỉnh đầu và trục mắt đƣợc sử dụng nhƣ một

khoảng cách tham khảo. Sử dụng khoảng cách này, một mẫu mặt bao gồm các đặc

trƣng của khuôn mặt nhƣ mắt, miệng đƣợc khởi tạo từ ảnh đầu vào. Mẫu đầu tiên đƣợc

khởi tạo dựa trên kiến thức nhân trắc học, khoảng cách tham khảo nói trên và một số

khuôn mặt có sẵn trong cơ sở dữ liệu của hệ thống.

Khoảng cách nhân trắc trung bình đƣợc sử dụng trong thƣ̣c nghiê ̣m củ a De Silva.

Bảng 2.1. Khoảng cách trung bình trong thuật toán của De Silva.

28 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chiều cao

Độ phân tách

Mắ t

Mắ t

của mắt

của đầu

đến mũi

đến miệng

Khoảng cách

1.972

0.516

0.303

0.556

trung bình

Thuâ ̣t toán củ a De Silva đa ̣t đƣơ ̣c đô ̣ chính xác là 82% (khoảng 30 ảnh trong cơ (có độ

sở dƣ̃ liê ̣u) vớ i tất cả các đă ̣c trƣng củ a các ảnh đầu và vai gần nhƣ nhìn thẳng lê ̣ch ± 300) trên nền thuần nhất . Mă ̣c dù thuâ ̣t toán đã cố gắng để dò tìm đă ̣c tính khuôn mă ̣t củ a các chủ ng tô ̣c ngƣờ i khác nhau vì thuâ ̣t toán không dƣ̣a trên các thông tin về mƣ́ c xám và màu da , nhƣng thuâ ̣t toán đã không thể tìm kiếm chính xác các ảnh mă ̣t ngƣờ i đeo kính hoă ̣c có tóc che lên trán.

Jeng và cộng sự đã đề xuất mô ̣t hê ̣ thống tìm kiếm mă ̣t và các đă ̣c tính mă ̣t cũng dƣ̣a trên các khoảng cách nhân trắc ho ̣c . Trong hê ̣ thống này , các vị trí có khả năng

trí của cặp mắt dựa trên các

chƣ́ a mă ̣t đƣơ ̣c xác đi ̣nh tƣ̀ trƣớ c thông qua xác đi ̣nh vi ̣ ảnh tiền xử lý đƣợc nhị phân hoá . Vớ i mỗi vù ng ảnh có khả năng chƣ́ a că ̣p mắt , thuâ ̣t toán sẽ tiếp tục dò tìm vị trí của mũi , miê ̣ng và lông mày. Mỗi đă ̣c tính củ a mă ̣t có mô ̣t hàm lƣợng giá đi kèm đƣợc sử dụng để xác định vùng có khả năng cao nhất là mặt :

E = 0.5Emắ t + 0.2Emiê ̣ng + 0.1Elông mà y trá i + 0.1Elông mà y phải + 0.1Emũi

Vớ i hê ̣ thống này , tỷ lê ̣ tìm kiếm thành công đƣơ ̣c thông báo là 86% trên tâ ̣p dƣ̃ liệu 114 ảnh chụp trong điều kiện chụp ảnh đƣợc điều chỉnh , nhƣng đƣơ ̣c đă ̣t theo các

hƣớ ng khác nhau và trên các nền ảnh lô ̣n xô ̣n.

Mô ̣t thuâ ̣t toán tƣ̣ đô ̣ng tìm kiếm các đă ̣c trƣng mă ̣t GAZE đƣơ ̣c đề xuất bở i Herper và cộng sự dƣ̣a trên nguyên lý về chiến lƣơ ̣c chuyển đô ̣ng củ a mắt trong các hê ̣ thống hình ảnh ngƣờ i (Human Vision System ). Cơ chế trung tâm củ a thuâ ̣t toán là cơ

chế theo dõi cu ̣c bô ̣ trong đó xem xét tuần tƣ̣ các vù ng có khả năng chƣ́ a các đă ̣c trƣng nổi bâ ̣t nhất . Sau đó, mô ̣t biểu diễn theo da ̣ng đa mƣ́ c xám củ a các đă ̣c trƣng nổi bâ ̣t đƣơ ̣c sinh ra sƣ̉ du ̣ng bô ̣ lo ̣c Gaussian đa hƣớ ng . Các đặc trƣng nổi bật nhất (vớ i biểu diễn đô ̣ nổi bâ ̣t lớ n nhất ) đƣơ ̣c trích ra sƣ̉ du ̣n g các đánh giá tƣ̀ thô đến tinh trên biểu đồ biểu diễn đô ̣ nổi bâ ̣t. Bƣớ c tiếp theo củ a thuâ ̣t toán là bƣớ c cải thiê ̣n trong đó đô ̣ nổi bâ ̣t củ a các vù ng đã đƣơ ̣c trích ra sẽ bi ̣ giảm đi trong khi đô ̣ nổi bâ ̣t củ a đă ̣c trƣng có thể tiếp theo đƣơ ̣c gia tăng trong bƣớ c lă ̣p kế tiếp . Bằng cách áp du ̣ng thuâ ̣t toán lă ̣p đi

29 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

lă ̣p la ̣i trên 50 ảnh mặt nhìn thẳng có độ phân giải cao (không có ảnh nền ). Helper và cộng sự đã thông báo t ỷ lê ̣ dò tìm că ̣p mắt thành c ông là 98% chỉ trong ba lần lặp đầu tiên. Các vùng đặc tính mặt tiếp theo nhƣ mũi và miệng cũng đƣợc tìm ra trong các lần

lă ̣p tiếp theo . Vì các ảnh mặt dùng để thử nghiệm trong thuật toán chứa các ảnh mặt

theo các hƣớ ng khác nhau và có sự thay đổi nhỏ về điều kiện chiếu sáng và tỉ lệ , nên tỉ lê ̣ tìm kiếm mă ̣t thành công cao nhƣ vâ ̣y chỉ ra rằng thuâ ̣t toán không phu ̣ thuô ̣c vào các biến đổi của ảnh mặt . Hơn nƣ̃a, không giống nhƣ các thuâ ̣t t oán khác, thuâ ̣t toán

này không dựa trên thông tin cụ thể liên quan đến các đặc tính mặt .

Chiến lƣơ ̣c chuyển đô ̣ng củ a mắt nhƣ trên cũng là cơ sở củ a thuâ ̣t toán đƣơ ̣c đề xuất bở i Smeraldi và cộng sự, trong đó mô ̣t mô tả về đích tìm kiếm (că ̣p mắt) đƣơ ̣c xây dƣ̣ng bở i đáp ƣ́ ng Gabor trung bình tƣ̀ mô ̣t lƣớ i lấy mẫu võng ma ̣c đă ̣t ta ̣i că ̣p mắt củ a đố i tƣơ ̣ng trong tâ ̣p mẫu . Các hàm Gabor hai chiều đƣợc sử dụng theo 6 hƣớ ng và 5 tần số khác nhau dù ng tron g trích cho ̣n đă ̣c trƣng . Hàm Gabor nhỏ nhất đƣợc sử dụng ở trung tâm của lƣới lấy mẫu trong khi hàm lớn nhất đƣợc sử dụng tại các vùng lệch ra

. Để tìm kiếm că ̣p mắt , mô ̣t thuâ ̣t t oán tìm bên ngoài ta ̣i đó có các mẫu rờ i ra ̣c nhất kiếm dƣ̣a trên chuyển đô ̣ng mắt đƣơ ̣c sƣ̉ du ̣ng trong đó lƣớ i mẫu đƣơ ̣c đă ̣t ta ̣i mô ̣t vi ̣ trí ngẫu nhiên trong mă ̣t và sau đó chuyển dần tớ i các vi ̣ trí mà khoảng cách Euclide giƣ̃a . Lƣớ i mẫu sẽ các điểm trong lƣới mẫu và các điểm tr ên đích tìm kiếm là nhỏ nhất

đƣơ ̣c chuyển di ̣ch vòng quanh cho đến khi đô ̣ di ̣ch chuyển nhỏ hơn mô ̣t ngƣỡng đi ̣nh trƣớ c. Nếu đích không đƣơ ̣c tìm ra (có thể rơi vào trƣờng hợp quá trình tìm kiếm xuất . phát từ một vùng trống trong ảnh ) thì một điểm ngẫu nhiên mới sẽ đƣợc sử dụng

Smeraldi và cộng sự đã thông báo tìm kiếm chính xác vi ̣ trí că ̣p mắt củ a toàn bô ̣ mô ̣t cơ sở dƣ̃ liê ̣u chƣ́ a 800 ảnh nhìn thẳng. Bên ca ̣nh Smeraldi , đáp ƣ́ ng Gabor cũng đƣơ ̣c sƣ̉ du ̣ng nhiều trong tìm kiếm mă ̣t và các đă ̣c tính mă ̣t .

Các phƣơng pháp tiếp cận khác đƣợc đề xuất để tìm kiếm đặc tính mặt còn bao

gồm phƣơng pháp hàm bán kính cơ sở và phƣơng pháp sƣ̉ du ̣ng thuâ ̣t toán tiế n hoá.

b. Phân tích chòm sao

Một số giải thuật đƣợc đề cập tới trong phần trên dựa chủ yếu vào các thông tin

heuristic có đƣợc từ việc mô hình hoá các khuôn mặt khác nhau trên những điều kiện

cụ thể. Nếu nhƣ vấn đề đặt ra tổng quát hơn, chẳng hạn nhƣ xác định các khuôn mặt ở

nhiều tƣ thế trong một nền ảnh phức tạp, thì phần lớn trong số những giải thuật trên sẽ

30 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

gặp thất bại do tính cứng nhắc của chúng. Các kỹ thuật phát hiện mặt sau này đã cố

gắng linh động hơn bằng cách nhóm các đặc trƣng trong khuôn mặt, tƣơng tự nhƣ các

chòm sao, bằng cách sử dụng các phƣơng pháp mô hình hoá tốt hơn, chẳng hạn nhƣ

phƣơng pháp thống kê.

Có khá nhiều loại chòm sao đã đƣợc đề xuất. Burl và cộng sự sử dụng mô hình

thống kê các đặc trƣng đƣợc phát hiện bởi bộ lọc Gaussian. Mô hình thống kê về sắp

xếp không gian của các đặc trƣng cho phép giải thuật có khả năng phát hiện tốt hơn

trong những điều kiện bị thay đổi về thể hiện (thiếu đặc trƣng, đầu nghiêng…). Các

mô hình mặt thống kê cũng đƣợc sử dụng trong nhiều giải thuật. Theo đó, mặt đƣợc

phân thành nhiều lớp dựa trên các góc nhìn khác nhau. Sau đó, với mỗi lớp mặt này,

lại đƣợc phân nhỏ hơn nữa thành các thành phần đặc trƣng. Trong quá trình phát hiện

mặt, các đặc trƣng mặt đƣợc phát hiện bởi các phép xử lý cấp thấp (low - level), sau đó

đƣợc nhóm lại. Quá trình nhóm này đƣợc thực hiện cao dần, cho tới khi phát hiện

đƣợc ảnh.

Các phƣơng pháp mô hình thống kê mặt dựa trên sự xuất hiện nhiều mặt cũng đã

đƣơ ̣c đề xuất . Trong mô hình củ a Yow và Cipolla , các khuôn mặ t đƣơ ̣c phân loa ̣i ra thành một vài lớp mặt nhỏ có sự tƣơng đồng theo một cách nhìn nào đó . Các lớp này

sau đó la ̣i đƣơ ̣c tiếp tu ̣c phân lớp thành các lớp thành phần đă ̣c trƣng . Sau khi các đă ̣c

trƣng mă ̣t đƣơ ̣c xác đi ̣nh tƣ̀ các xƣ̉ lý mức thấp dựa trên biên , sƣ̣ phân lớp sau đó sẽ cho phép các lớp mă ̣t khác nhau đƣơ ̣c xác đi ̣nh mô ̣t cách phân cấp bắt đầu tƣ̀ phía thấp nhất củ a sƣ̣ phân lớ p các mă ̣t. Phép phân lớp sẽ làm giảm đi một cách hiệu quả các đặ c trƣng không chính xác sinh ra do nền không đồng nhất . Mô ̣t ma ̣ng Bayes sẽ cho phép kết hơ ̣p tổng quát các tìm kiếm riêng biê ̣t củ a tất cả các lớp và làm cho giả thiết về vùng mặt đƣợc đảm bảo với độ tin cậy cao . Mô ̣t tỷ lê ̣ dò tìm 92% đƣơ ̣c thông báo trên thí nghiê ̣m vớ i 100 ảnh chụp trong khung cảnh phòng thí nghiệm . Thuâ ̣t toán có thể giải quyết đƣợc các biến đổi nhỏ trong t ỷ lệ, hƣớ ng và điểm nhìn củ a tƣ̀ ng mă ̣t đồng thờ i vớ i các trƣờ ng hơ ̣p c ó kính và thiếu đặc trƣng . Vớ i cù ng mô ̣t chiến lƣơ ̣c tìm kiếm nhƣ củ a Yow và Cipolla , vớ i mô ̣t số khác biê ̣t nhỏ về mô hình mă ̣t và bô ̣ dò tìm đă ̣c trƣng, Sumi và cộng sự đã đề xuất mô ̣t hê ̣ thống trong đó các thành phần mă ̣t đ ƣợc xử lý bởi các tác tử song song dựa trong một mạng phân tán . Hê ̣ thống này cũng đa ̣t đƣơ ̣c tỷ lê ̣ thành công cao (94%) trong dò tìm các khuôn mă ̣t khác nhau .

31 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

, các ảnh đầu vào đƣợc chuyển th ành một Trong hê ̣ thống củ a Maio và Maltoni

ảnh hƣớng sử dụng toán tử dạng gradient qua một cửa sổ cục bộ

(7x7 điểm ảnh). Tƣ̀ ảnh hƣớng này, họ đã áp dụng phƣơng pháp dò tìm mặt hai giai đoạn trong đó sử dụng

.

phép biển đổi Hough suy rộng và một tập 12 mẫu nhi ̣ phân biểu diễn các nhóm mă ̣t Phép biến đổi Hough suy rộng đƣợc sử dụng để sinh ra các vùng mặt ứng viên thông

, đây là mô ̣t hê ̣ thống da ̣ng thờ i gian thƣ̣c

qua viê ̣c tìm kiếm các đƣờ ng elip . Các vùng ứng viên sau đó đƣợc đƣa vào giai đoạn phù hợp mẫu để quyết định vùng đó là mặt hay không . Bở i vì tính hiê ̣u quả trong cài . Maio và đă ̣t và các vấn đề về thiết kế Maltoni đã thông báo dò tìm chính xác 69 trên 70 ảnh (98,57%) mà không gặp cảnh báo lỗi nào. Các ảnh mẫu đƣợc sử dụng chứa một mặt với các kích cỡ mặt và dạng của

vùng nền thay đổi khác nhau . Phép biến đổi Hough suy rộng cũng đã đƣợc sử dụng

trong hê ̣ thống củ a Schubert.

Hình 2.2. Hê ̣ thống tìm kiế m mặt của Maio và Maltoni

Trong các hê ̣ thống nhâ ̣n da ̣ng , mô ̣t trong các kỹ thuâ ̣t đƣơ ̣c sƣ̉ du ̣ng rô ̣ng rãi là

phƣơng pháp đối sánh đồ thi ̣ . Các đồ thị lƣu trữ thông tin đặc trƣng cục bộ vào các

vectơ đă ̣c trƣng ta ̣i các đỉnh và các thông tin hình học vào các cạnh (nối kết các đỉnh ). Mô ̣t vài hê ̣ thống sƣ̉ du ̣ng phƣơng pháp đối sánh đồ thi ̣ gần đây đƣơ ̣c thiết kế liên quan

đến tìm kiếm khuôn mặt tự động nhƣng nhiệm vụ này không phải là mục đích chí nh

của toàn bộ hệ thống , vì vậy chỉ có một số kết quả định lƣợng mở rộng đƣợc báo cáo

dƣ̣a trên nhiê ̣m vu ̣ tìm kiếm khuôn mă ̣t . Mô ̣t phƣơng pháp tiếp câ ̣n tƣơng tƣ̣ dƣ̣a trên

32 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đố i sánh đồ thi ̣ cũng đƣơ ̣c áp du ̣ng trong tìm kiế m khuôn mă ̣t trong thuâ ̣t toán Ma ̣ng khả năng (Potential Net) của Bessho và cộng sự.

2.1.1.3. Mô hình hình dạng động (Active shape models)

Đây là mô hình thời gian thực hiệu quả và là thành tựu quan trọng của hƣớng tiếp

cận dựa vào phân tích đặc trƣng. Mô hình dựa vào tính chất vật lý thật sự và sự xuất

hiện mức cao của các đặc trƣng. Mô ̣t khi đƣơ ̣c đƣa ra vớ i mô ̣t mƣ́ c đô ̣ tƣơng tƣ̣ vớ i đă ̣c trƣng, mô ̣t mô hình hình da ̣ng tích cƣ̣c nhƣ vâ ̣y sẽ tƣơng tác vớ i các đă ̣c trƣng ảnh cu ̣c bô ̣ (nhƣ đƣờ ng biên, đô ̣ sáng) và gần nhƣ biến dạng để đạt đƣợc hình dạng của các đặc trƣng. Hiê ̣n ta ̣i, có khoảng 3 dạng mô hình hình dạng tích cực đƣợc nghiên cứu trong

lĩnh vực trích chọn các đặc trƣng mặt . Dạng thứ nhất sử dụng khái ni ệm đƣờng nét

tổng quát và có tên là con rắn (snake), đƣơ ̣c đƣa ra đầu tiên bở i Kass và cộng sự vào năm 1987. Dạng mẫu có thể biến đổi (deformable template) đƣơ ̣c đƣa ra bở i Yuille và

cộng sự trong đó quan tâm tớ i mƣ́ c đô ̣ ƣu tiên củ a cá c đă ̣c tính mă ̣t và nhằm hƣớ ng tớ i hiê ̣u năng cao hơn da ̣ng con rắn . Dạng thứ ba đƣợc Cootes và cộng sự đề xuất sử dụng

(smart snake) và PDM

mô hình mềm dẻo tổng quát mớ i có tên là con rắn thông minh để cung cấp một phƣơng tiện hi ệu quả xác định mặt ngƣời

. Mô hình củ a Cootes và cộng sự dƣ̣a trên tâ ̣p hơ ̣p các điểm đƣơ ̣c gán nhãn chỉ cho phép biến đổi theo mô ̣t vài hình dạng dựa trên quá trình học.

a. Mô hình dạng con rắn (Snake)

Đƣợc sử dụng để xác định đƣ ờng bao của đầu . Để thƣ̣c hiê ̣n viê ̣c này , mô ̣t con rắn ban đầu đƣơ ̣c khở i ta ̣o ta ̣i mô ̣t vù ng lân câ ̣n xung quanh vù ng biên đầu . Sau đó co dần về phía các đƣờ ng biên và đƣa ra hình da ̣ng giả đi ̣nh củ a vù ng đầu . Sƣ̣ tiến hoá của con rắn đƣơ ̣c thƣ̣c hiê ̣n thông qua viê ̣c cƣ̣c tiểu hoá mô ̣t hàm năng lƣơ ̣ng Esnake (tƣơng tƣ̣ vớ i các hê ̣ thống vâ ̣t lý) và đƣợc biểu diễn nhƣ sau:

Esnake = Ebên trong + Ebên ngoài

Trong đó : Ebên trong và Ebên ngoài lần lƣơ ̣t là các hàm n ăng lƣơ ̣ng bên trong và bên ngoài. Năng lƣơ ̣ng bên trong là phần năng lƣơ ̣ng phu ̣ thuô ̣c vào các thuô ̣c tính bản chất củ a con rắn và ta ̣o nên sƣ̣ tiến hoá tƣ̣ nhiên củ a đƣờ ng biên đô ̣ng . Các tiến hoá tự nhiên điển hình củ a con rắn là sƣ̣ co ngắn và sƣ̣ mở rô ̣ng. Trong khi đó năng lƣơ ̣ng bên ngoài có khuynh hƣớng chống lại năng lƣợng bên trong và làm cho các đƣờng biên

33 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đô ̣ng sai lê ̣ch so vớ i tiến hoá tƣ̣ nhiên thâ ̣m chí thƣ̀ a nhâ ̣n hình da ̣ng củ a các đă ̣c tính gần nhất là hình da ̣ng vù ng đầu khi ở tra ̣ng thái cân bằng.

Hai vấn đề chính cần quan tâm trong viê ̣c áp du ̣ng mô hình con rắn là lƣ̣a cho ̣n

cách tính năng lƣợng chính xác và kỹ thuật cực tiểu hoá năng lƣợng . Năng lƣơ ̣ng

Elastic đƣợc sử dụng phổ biến nhƣ là năng lƣợng bên trong . Khoảng cách giữa các

điểm điều khiển trên đƣờ ng biên đô ̣ng đƣơ ̣c cân đối và do đó đem la ̣i cho đƣờ ng biên đă ̣c tính giống nhƣ sơ ̣i dây cao su có thể co hoă ̣c dãn . Vấn đề năng lƣơ ̣ng bên ngoài đƣơ ̣c xem xét dƣ̣a vào kiểu da ̣ng củ a đă ̣c trƣng ảnh đƣơ ̣c xem xét . Gunn và Nixon làm cho năng lƣơ ̣ng này phản ƣ́ ng vớ i gradient củ a ảnh nên các đƣờ ng biên đô ̣ng thƣờ ng hô ̣i tu ̣ về phía các vi ̣ trí biên . Bên ca ̣nh các thông số về gradient, mô ̣t số cách tính năng lƣơ ̣ng bên ngoài khác còn bao gồ m cả các hàm liên quan đến màu da trong đó hấp dẫn các con rắn về phía các vùng mặt . Viê ̣c cƣ̣c tiểu hoá năng lƣơ ̣ng đƣơ ̣c thƣ̣c hiê ̣n thông qua các kỹ thuâ ̣t tối ƣu hoá nhƣ phƣơng pháp giảm gradient dốc nhất . Do yêu cầu tính toán cao của quá trình cực tiểu hoá , Hoang và Chen , Lam và Yang đã đồng thờ i sƣ̉

dụng phƣơng pháp lặp nhanh (thuâ ̣t toán tham ăn) để tăng tốc độ hội tụ.

Mă ̣c dù phƣơng pháp con rắn một cách tổng quát có thể xác định đƣợc các đƣờng

bao quanh các vù ng đă ̣c trƣng nhƣng viê ̣c triển khai phƣơng pháp vẫn bi ̣ cản trở bở i hai vấn đề . Các phần của con rắn hay bị bẫy vào các các vùng đặc t rƣng ảnh không

đú ng. Hơn nƣ̃a, phƣơng pháp con rắn không thƣ̣c sƣ̣ hiê ̣u quả trong xác đi ̣nh các đă ̣c trƣng không lồi do xu hƣớ ng tiến tớ i cƣ̣c tiểu đô ̣ cong củ a các con rắn . Gunn và Nixon giải quyết các vấn đề này bằng một mô hình c on rắn đƣơ ̣c tham số hoá cho trích cho ̣n mă ̣t và đƣờ ng bao vù ng đầu. Mô hình bao gồm hai đƣờ ng biên đô ̣ng tích hơ ̣p vớ i nhau , mô ̣t đƣờ ng mở rô ̣ng bên trong mă ̣t và mô ̣t đƣờ ng co nhỏ la ̣i bên ngoài đƣờ ng bao vù ng mă ̣t. Ban đầu, sƣ̣ biế n đổi củ a hai con rắn đƣơ ̣c điều khiển bở i mô ̣t mô hình tham số đă ̣t giƣ̃a chú ng. Mô hình tham số này hƣớ ng hai đƣờ ng về hình da ̣ng đích và cho phép phân biê ̣t các vù ng đă ̣c trƣng ảnh không dùng và do đó không bị bẫy bởi chúng . Khi mô ̣t đƣờ ng đa ̣t đƣơ ̣c đến sƣ̣ cân bằng , mô hình bi ̣ loa ̣i bỏ và thay vào đó các đƣờ ng biên đƣơ ̣c hoa ̣t đô ̣ng đô ̣c lâ ̣p nhƣ là các đƣờ ng biên đô ̣ng cơ bản tiến tớ i trích cho ̣n đƣơ ̣c đƣờ ng bao cuối cù ng . Đƣờng bao còn đƣợc sử dụn g trong dò tìm kính đeo mắt trong hê ̣ thống củ a Saito và cộng sự.

b. Mô hình dạng biến đổi (Deformable templates)

34 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Xác định đƣờng bao của một vùng đặc trƣng mặt không phải là một vấn đề dễ

giải quyết bởi vì các dấu hiệu cục bộ của các đƣờng biên mặt khó có thể đƣợc tổ chức

thành các thực thể tổng thể nhận biết đƣợc thông qua các đƣờng biên . Độ tƣơng phản

thấp về đô ̣ sáng xung quanh mô ̣t số vù ng đă ̣c trƣng ảnh cũng làm cho quá trình dò biên khó thực hiê ̣n. Yuille và cộng sự mở rô ̣ng khái niê ̣m con rắn thông qua viê ̣c kết hơ ̣p

các thông tin tổng thể về cặp mắt để nâng cao độ tin cậy của quá trình trích chọn đặc

trƣng. Mô ̣t mẫu có thể thay đổi củ a mắt dƣ̣a trên các đă ̣c trƣng n ổi bật của chúng đƣợc tham số hoá sƣ̉ du ̣ng 11 tham số . Hoạt động theo nguyên tắc giống nhƣ các con rắn , mô ̣t mẫu nếu đƣơ ̣c khở i đầu gần vớ i đă ̣c trƣng mắt sẽ tƣ̣ biến đổi hƣớ ng tớ i đƣờ ng bao đă ̣c trƣng tối ƣu . Cơ chế biến đổi liên quan đến phƣơng pháp cƣ̣c tiểu hoá giảm

gradient dốc nhất củ a tổ hơ ̣p năng lƣơ ̣ng ngoài do các vù ng trũng , đƣờ ng biên, đỉnh và đô ̣ sáng củ a ảnh (Ev, Ee, Ep, Ei) đƣơ ̣c tính theo công thƣ́ c:

E = Ev + Ee + Ep + Ei + Ebên trong

Tất cả các biểu thức năng lƣợng trên đƣợc biểu diễn bằng một tích phân sử dụng

các thuộc tính mẫu nhƣ diện tích . Năng , đô ̣ dài củ a đƣờ ng tròn và đƣờ ng parabol

lƣơ ̣ng bên trong đƣơ ̣c tính theo nhƣ các tham số mẫu nhƣ sau:

(7)

Các đại lƣợng của biểu thức năng lƣợng nhƣ {k1, k2, k3Y} điều khiển diễn biến

quá trình và sự biến đổi của các mẫu . Thay đổi giá tri ̣ củ a các đa ̣i lƣơ ̣ng này cho phép các mẫu biến đổi và thể hiện xung quanh các mô ̣t chiến lƣơ ̣c đối sánh mớ i trong đó

vùng đặc trƣng ảnh trong các giai đoạn khác nhau . Yuille và cộng sự đã đề xuấ t ra mô ̣t

đa ̣i lƣơ ̣ng 6 mốc (trên mô ̣t lần lă ̣p) làm thay đổi chiến lƣợc cho các mẫu mắt đƣợc khởi

đầu bên dƣớ i vi ̣ trí că ̣p mắt . Các kỹ thuật này đã đƣợc sử dụng nhƣ là một phần quan - máy của trọng trong hệ thống xác thực mặt dựa trên tƣơng tác trực quan ngƣời

Tistarelly và Grosso.

Có một số vấn đề lớn trong các ứng dụng sƣ̉ du ̣ng mẫu có thể thay đổi . Do chiến lƣợc đối sánh mẫu là cố định , vị trí khởi đầu của các mẫu sẽ ảnh hƣởng nhiều đến quá

trình tiến hoá. Chẳng hạn, Yuillr và cộng sự đã chỉ ra rằng nếu mẫu đƣơ ̣c đă ̣t trên mắt thì nó có thể bị hấp dẫn đ ến lông mày thay vì cặp mắt . Thờ i gian xƣ̉ lý cũng sẽ rất lớ n

quá trình thực hiện tuần tự hoá của quá trình cực tiểu hoá . Các trọng số của biểu thức

35 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

năng lƣơ ̣ng là heuristic và rất khó tổng quát hoá . Các nghiên cứu tro ng lĩnh vƣ̣c này hiê ̣n ta ̣i đang tâ ̣p trung chủ yếu vào các vấn đề nhƣ giảm thờ i gian thƣ̣c hiê ̣n , thay đổi các mẫu và biểu thức của năng lƣợng . Shackleton và Welsh nâng cao đô ̣ chính xác củ a đối sánh mẫu mắt bằng cách thêm các tham số bổ sung và và sƣ̉ du ̣ng biểu thƣ́ c năng lƣơ ̣ng bên ngoài nha ̣y vớ i vù ng trắng củ a mắt đã đƣơ ̣c cải thiê ̣n . Tỷ lê ̣ khớ p mẫu 86% đƣơ ̣c báo cáo trên thí nghiê ̣m vớ i tâ ̣p 64 ảnh. Thờ i gian xƣ̉ lý kéo dài đƣơ ̣c giảm đi bằng cá ch sƣ̉ du ̣ng mô ̣t phiên bản đơn giản củ a mẫu đa ̣t đƣơ ̣c qua viê ̣c loa ̣i bỏ các tham số ít ảnh hƣở ng đến các hình da ̣ng mẫu tổng thể . Chow và cộng sự sƣ̉ du ̣ng tiếp câ ̣n hai bƣớ c để trích cho ̣n că ̣p mắt . Phép biến đổi Hough vòng đƣ ợc thực hiện để xác đi ̣nh mống mắt trƣớ c khi đối sánh vớ i mô ̣t mẫu mắt đơn giản hoá chỉ có mô hình cấu trúc mắt dạng parabol . Viê ̣c đơn giản hoá làm tăng thờ i gian cha ̣y nhanh gấp 16 lần so sánh với các mẫu của Yuille và cộ ng sự. Trong mô ̣t phát triển gần đây , Lam và Yan đã sƣ̉ du ̣ng các thông tin về góc mắt để đánh giá các tham số khở i đầu củ a mô hình mẫu mắt. Sƣ̣ gia tăng về thông tin làm cho phép sƣ̣ đối sánh mẫu sẽ chính xác , tin câ ̣y hơn . Thời gian để mẫu đạt đƣợc vị trí tối ƣu cũng đã đƣợc giảm đến 40% (so sánh vớ i mẫu ban đầu ). Bên ca ̣nh các mẫu mắt , các mẫu miệng cũng đƣợc sử dụng với cùng một

chiến lƣơ ̣c.

c. Mô hình phân phối điểm (Point Distributed Models)

. Kiến trú c và Là mô ̣t mô tả tham số hoá tối ƣu củ a hình da ̣ng dƣ̣a trên thống kê

quá trình so khớp cả PDM khác với của các mô hình hình dạng động khác . Các đƣờng

biên đô ̣ng củ a PDM đƣơ ̣c rờ i ra ̣c hoá thành các tâ ̣p điểm đƣơ ̣c đ ánh nhãn. Sƣ̣ biến đổi của các tập điểm này trƣớc hết đƣợc tham số hoá thông qua các tập mẫu học chứa các

. Sƣ̉ du ̣ng phƣơng pháp phân tích thành đố i tƣơ ̣ng có hình da ̣ng và tƣ thế khác nhau phần chính (PCA), sƣ̣ biến đổi củ a các đă ̣c trƣng trong tâ ̣p mẫu ho ̣c đƣơ ̣c xây dƣ̣ng thành một mô hình linh động tuyến tính . Mô hình đƣơ ̣c cấu thành tƣ̀ trung bình củ a tất cả các đặc trƣng trong tập hợp và mô hình cơ bản của sự biến đổi từng điểm ảnh :

(8)

là đặc tính trung bình trong tập Trong đó : x biểu diễn mô ̣t điểm trong PDM và

mẫu đối vớ i điểm đó , P = [p1p2…pt] là ma trận chứa t vectơ biến đổi quan tro ̣ng nhất của ma trận hiê ̣p biến, v là vectơ trọng số.

36 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Mô hình PDM cho mă ̣t đƣơ ̣c phát triển đầu tiên bở i Lanitis và cộng sự nhƣ là mô ̣t mô hình linh đô ̣ng . Mô hình minh hoa ̣ dáng vẻ tổng thể củ a mă ̣t bao gồm các đă ̣c tính mă ̣t nhƣ lông mày , mũi và mắt . Sử dụng 152 điểm điều khiển đƣơ ̣c cho ̣n bằng tay và 160 ảnh mặt mẫu , mô ̣t mô hình PDM đƣơ ̣c xây dƣ̣ng . Chỉ sử dụng 16 trọng số , mô hình có thể xấp xỉ đƣợc 95% các hình dạng mặt trong tập mẫu . Để so khớ p mô ̣t mô

) đầu

hình PDM với m ột mặt, mô hình hình da ̣ng trung bình (vớ i điểm đánh nhãn = tiên đƣơ ̣c đă ̣t gần mă ̣t . Sau đó các chiến lƣơ ̣c tìm kiếm trên mƣ́ c xám cu ̣c bô ̣ đƣơ ̣c sƣ̉ dụng để đƣa từng điểm hƣớng đến điểm tƣơng ứng t huô ̣c đƣờ ng bao . Trong suốt quá trình biến đổi này , hình dạng chỉ đƣợc phép thay đổi theo một cách phù hợp với các

thông tin đã đƣơ ̣c mô hình hoá trong tâ ̣p mẫu.

Lơ ̣i điểm củ a viê ̣c sƣ̉ du ̣ng mô hình mă ̣t PDM là các mô tả đƣơ ̣c tham số hoá tối

ƣu. Mô hình PDM đã đƣơ ̣c cài đă ̣t nhƣ là biểu diễn tổng quát trong mô ̣t số ƣ́ ng du ̣ng xƣ̉ lý mă ̣t và các đă ̣c trƣng mă ̣t. Lanitis và cộng sự trong các bƣớ c tiếp theo đã tích hơ ̣p thuâ ̣t toán di truyền (GA) và các ti ếp cận đa phân giải để giải quyết vấn đề tồn tại

nhiều vù ng khả năng là mă ̣t . Đặc tính tổng thể của mô hình cũng cho phép tất cả các đă ̣c trƣng đƣơ ̣c xác đi ̣nh song song vớ i nhau và do đó lƣơ ̣c bớ t đƣơ ̣c yêu cầu phải tìm kiếm các đặc trƣng. Hơn nƣ̃a, sƣ̣ thiếu vắng mô ̣t đă ̣c trƣng nào đó không trở thành vấn

đề nghiêm trọng khi mà đến các đặc trƣng khác trong mô hình vẫn có thể đạt tới một

giải pháp tối ƣu toàn thể.

2.1.2. Hƣớng tiếp cận dựa trên ảnh (Image based detection)

Phƣơng pháp phát hiện mặt dựa trên các đặc trƣng nhƣ đã trình bày ở trên tỏ ra

khá cứng nhắc và gặp phải rất nhiểu khó khăn do các điều kiện môi trƣờng và những

thay đổi không thể đoán trƣớc của các khuôn mặt. Mặc dù đã có một số phƣơng pháp

cải tiến để tăng khả năng xử lý với các trƣờng hợp thay đổi, nhƣng chúng vẫn chỉ giới

hạn ở việc phát hiện các mặt nhìn thẳng và gần thẳng. Do đó yêu cầu đặt ra cần phải có

những phƣơng pháp hữu hiệu hơn, cho phép phát hiện mặt trong những trƣờng hợp

phức tạp hơn, chẳng hạn nhƣ phát hiện nhiều mặt trong một ảnh và trong môi trƣờng

nền ảnh phức tạp. Yêu cầu này đã mở ra một lĩnh vực nghiên cứu mới, trong đó vấn đề

phát hiện mặt đƣợc xem nhƣ một phần của lý thuyết nhận dạng mẫu. Bằng cách miêu

tả vấn đề này nhƣ là một kỹ thuật học các mẫu mặt ngƣời từ các tập dữ liệu, những lý

thuyết riêng về phát hiện mặt đã đƣợc bỏ qua. Điều này cho phép loại trừ những lỗi

37 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

gặp phải trong quá trình phát hiện mặt sinh ra bởi sự thiếu chính xác và thiếu toàn vẹn

tri thức về mặt. Phƣơng pháp tiếp cận cơ bản trong nhận dạng mẫu mặt là sử dụng một

giải thuật luyện trong đó dữ liệu đƣợc phân thành 2 lớp: lớp mẫu mặt và lớp không

phải là mẫu mặt. So sánh những lớp này với một mảng 2D trích chọn từ ảnh đầu vào

cho phép ta xác định đƣợc liệu có tồn tại các mặt hay không. Phƣơng pháp đơn giản

nhất dựa trên hƣớng tiếp cận này là phƣơng pháp đối sánh mẫu, tuy nhiên so với

những phƣơng pháp khác trong cùng hƣớng tiếp cận thì phƣơng pháp đối sánh mẫu tỏ

ra kém hiệu quả.

Hầu hết các phƣơng pháp theo hƣớng tiếp cận dựa trên ảnh đều áp dụng kỹ thuật

quét cửa sổ để phát hiện mặt. Kỹ thuật này thực chất là tìm kiếm trên toàn bộ ảnh đƣa

vào để có thể tìm đƣợc tất cả các mặt có trên ảnh ở mọi tỷ lệ. Tuy nhiên, cách thức xây

dựng kỹ thuật tìm kiếm rất đa dạng, phụ thuộc vào từng mục đích của mỗi hệ thống.

Thông thƣờng, kích cỡ cửa sổ quét, bƣớc nhảy, số bƣớc lặp, số mẫu con phụ thuộc vào

từng phƣơng pháp áp dụng và yêu cầu về hiệu quả tính toán của từng hệ thống.

Sau đây, chúng ta sẽ xem xét hƣớng tiếp cận này bằng cách chia nhỏ ra thành 3

hƣớng con, bao gồm phƣơng pháp không gian con tuyến tính (linear subspace

methods), mạng neural (neural network) và phƣơng pháp phân tích thống kê (statistical

analysis).

2.1.2.1. Phƣơng pháp không gian con tuyến tính (Linear subspace methods)

Vào cuối những năm 1980, Sirovich và Kirby đã phát triển một kỹ thuật để có thể

biểu diễn hiệu quả các mặt ngƣời, đƣợc gọi là phƣơng pháp phân tích các thành phần

chính (PCA - Principle Component Analysis). Với một bộ dữ liệu mặt ngƣời, đầu tiên,

ta tiến hành tính các thành phần chính của sự phân bố các mặt, biểu diễn dƣới dạng các

vector riêng (của ma trận hiệp biến của sự phân bố). Mỗi mặt trong tập dữ liệu sau đó

đƣợc xấp xỉ bằng cách kết hợp tuyến tính các vector riêng lớn nhất (không gian vector)

cùng với các trọng số tƣơng ứng của chúng.

Turk và Pentland sau đó đã phát triển kỹ thuật này trong phƣơng pháp nhận dạng

mặt. Phƣơng pháp của họ dựa trên tính chính xác của các trọng số của các vector riêng

trong việc biểu diễn các mặt. Do ảnh mặt đƣợc tái biểu diễn nhờ phép xấp xỉ các thành

phần chính của nó, do đó giá trị lỗi sinh ra trong quá trình xấp xỉ chính là một tham số

để xác định xem đấy có phải là mặt hay không. Giá trị lỗi này thƣờng đƣợc gọi là

38 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

“khoảng cách tới không gian mặt” (DFFS - Distance From Face Space). Giải thuật tính

không gian mặt và DFFS có thể đƣợc mô tả ngắn gọn nhƣ sau:

Giả sử có tập ảnh mặt gồm n ảnh 1, 2, …, n. Giá trị trung bình các mặt đƣợc

tính bởi:

(9)

Độ lệch của mỗi mặt so với mặt trung bình đƣợc tính bởi:

(10)

Đặt D = [12…n] và C = DDT. Các vector riêng của C đƣợc gọi là các thành

phần chính của D. Nếu biểu diễn các vector riêng này dƣới dạng ma trận ta có không

gian riêng của tập dữ liệu ảnh đầu vào. Hình vẽ sau thể hiện không gian riêng của một

số ảnh (sắp xếp theo giá trị riêng). Những không gian riêng này biểu diễn một không

gian con gọi là không gian mặt.

Một ảnh đầu vào đƣợc ánh xạ lên không gian riêng bởi:

(11)

Trong đó: m là số các thành phần chính đƣợc sử dụng để biểu diễn không gian

mặt. Thông thƣờng m << n bởi vì những thành phần chính tƣơng ứng với các giá trị

riêng rất bé không có nhiều giá trị trong việc biểu diễn ảnh (ví dụ trong ảnh số 200 ở

trên).

Ảnh  có thể đƣợc khôi phục bởi công thức:

(12)

Hệ số lỗi  = || - r|| chính là DFFS.

39 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.3. Một số không gian riêng của cơ sở dữ liệu ảnh ORL

(Số bên dưới mỗi ảnh là số các thành phần chính).

PCA tỏ ra là một phƣơng pháp khá trực quan và thích hợp cho việc xây dựng

không gian con biểu diễn các lớp đối tƣợng trong nhiều trƣờng hợp. Tuy nhiên, để mô

hình hoá đƣợc nhiều trạng thái của các ảnh mặt thì phƣơng pháp này chƣa tối ƣu thật

sự. Ngƣời ta đã cải tiến phƣơng pháp này bằng cách chia nhỏ không gian mặt ra thành

các lớp con. Kỹ thuật này lần đầu tiên đƣợc áp dụng bởi Sung và Poggio. Nó bao gồm

4 bƣớc chính nhƣ sau:

Tiền xử lý ảnh con đầu vào re - scale thành các vùng ảnh 19x19 pixel, áp dụng

một mặt nạ để khử các điểm gần biên, tối ƣu hoá độ tƣơng phản và sau đó áp dụng

phép cân bằng histogram của ảnh.

Xây dựng một mô hình phân bố các mẫu mặt và không phải mặt. Mô hình này

bao gồm 12 cụm Gaussian đa chiều (12 multi - dimensional Gaussian clusters) với vị

trí trung tâm và một ma trận hiệp biến, 6 để mô tả các mẫu mặt và 6 để mô tả các mẫu

không phải mặt. Những cụm này đƣợc xây dựng sử dụng giải thuật phân cụm k -

means sử dụng độ đo khoảng cách Mahalanobis chuẩn hoá.

40 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Với mỗi ảnh đầu vào, xây dựng một tập các giá trị độ đo của ảnh tƣơng đối so

với mô hình mặt. Với mỗi cụm, ta tính hai giá trị, là độ đo khoảng cách Mahalanobis

giữa ảnh đầu vào và trọng tâm của mô hình, xác định trong không gian con tạo bởi 75

vector riêng lớn nhất của cụm mô hình (prototype cluster) và khoảng cách Euclid từ

ảnh đó đến hình chiếu của nó trên không gian con.

Mạng perceptron nhiều lớp (MLP) đƣợc luyện để phân lớp mặt - không mặt.

Cũng tƣơng tự nhƣ phƣơng pháp này, nhƣng có những cải tiến tốt hơn, là N.Duta

và A.K.Jain với sự kết hợp các đặc trƣng về mức xám với các đặc trƣng nền, hay

Fouad và cộng sự với một giải thuật tƣơng tự nhƣng có sự cải thiện đáng kể về hiệu

quả tính toán.

Một vấn đề khi luyện các hệ thống nhận dạng mẫu để phân lớp mặt - không mặt

là xây dựng tập dữ liệu ảnh không phải mặt để luyện mạng nhƣ thế nào. Với bộ dữ liệu

ảnh mặt, ta có thể dễ dàng xác định đƣợc rằng đấy là tất cả các loại mặt, nhƣng với bộ

dữ liệu ảnh không phải mặt thì không đơn giản nhƣ vậy. Sung và Poggio đƣa ra một

giải thuật luyện, đƣợc gọi là “luyện bằng phƣơng pháp bẫy lỗi” nhằm giải quyết vần đề

này. Giải thuật bao gồm những bƣớc sau:

1. Tạo tập dữ liệu ảnh không phải mặt ban đầu bằng cách tạo ra ảnh với những điểm

ảnh đƣợc sinh ngẫu nhiên.

2. Luyện mạng.

3. Thực hiện hệ thống với những ảnh không có mặt ngƣời. Nếu phần ảnh nào đƣợc

nhận diện là mặt, chuyển sang bƣớc 4.

4. Với mỗi ảnh thoả mãn 3, tiền xử lý phần ảnh đƣợc phân lớp sai và đƣa phần ảnh

ấy vào hệ thống nhƣ là một mẫu không phải mặt.

2.1.2.2. Mạng neural

Mạng neural đã trở thành một kỹ thuật phổ biến trong vấn đề nhận dạng khuôn

mặt và cả nhận biết khuôn mặt. Vào thời gian đầu sử dụng mạng neural để phát hiện

mặt, ngƣời ta đã sử dụng các mạng perceptron nhiều lớp (MLP) và chỉ xử lý trên

những bộ dữ liệu đơn giản. Sau đó Rowley và cộng sự đã xây dựng một mạng neural

phức tạp hơn để xử lý những bộ dữ liệu lớn và phức tạp. Đầu vào của mạng là vùng

ảnh 20x20 điểm ảnh (do đó có 400 nút vào). Lớp ẩn gồm 26 nút, trong đó 4 nút nhận

41 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đầu vào từ các vùng ảnh 10x10, 16 nút nhận đầu vào từ các vùng ảnh 5x5, và 6 nút

Input image pyramid

Corrected lighting Histogram equalized

Receptive fields

Extracted window (20 by 20 pixels)

Hidden units

Output

Network Input

20 by 20 pixels

Preprocessing

Neural network

nhận đầu vào từ các vùng ảnh 20x5 điểm ảnh (hình vẽ) [8].

Hình 2.4. Mô hình mạng neural của Rowley và cộng sự

Vấn đề đặt ra trong việc áp dụng kỹ thuật quét cửa sổ là giải quyết vấn đề phát

hiện đè (overlap detection). Rowley và cộng sự giải quyết vấn đề này bằng cách sử

dụng các heuristic:

Lấy ngƣỡng: Nếu số các điểm mặt lân cận điểm đang xét đạt một giá trị ngƣỡng

nào đó thì điểm đó sẽ đƣợc xem là điểm mặt.

Loại bỏ hiện tƣợng phát hiện đè: Nếu một vùng nào đó đã đƣợc xác định là mặt

thì nó sẽ đƣợc bỏ qua trong các bƣớc phát hiện khác.

Để tăng thêm hiê ̣u năng củ a hê ̣ thống , Rowley đã luyê ̣n nhiều ma ̣ng neural và kết hơ ̣p các đầu ra theo mô ̣t chiến lƣơ ̣c nào đó (nhƣ AND, OR và lƣ̣a cho ̣n hoă ̣c sƣ̉ du ̣ng

mô ̣t mạng neural làm trọng tài ). Thuâ ̣t toán này đƣơ ̣c áp du ̣ng trong các hê ̣ thống theo dõi ngƣời của Darrel và cộng sự , của Satoh và trong bƣớc tìm kiếm mặt ban đầu của

hê ̣ thống tìm kiếm vù ng đầu củ a La Cascia và cộng sự . Mô ̣t hê ̣ thống tƣơng tự cũng đã đƣơ ̣c đƣa ra trong nghiên cƣ́ u củ a Han và cộng sự.

Gần đây , Rowley và cộng sự đã kết hơ ̣p hê ̣ thống vớ i mô ̣t ma ̣ng neural đi ̣nh

. Họ sử dụng một

hƣớ ng để tìm kiếm mă ̣t theo tất cả các hƣớ ng trong mă ̣t phẳng ảnh MLP đầy đủ vớ i mô ̣t lớ p ẩn và 36 nút xuất (mỗi nút cho mô ̣t góc 100) để quyết định góc quay của mặt . Hê ̣ thống đã xác đi ̣nh đú ng 79,6% các mặt trong hai tập dữ liệu lớn vớ i số lƣơ ̣ng các mẫu sai nhỏ .

42 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

. Sƣ̣ phân lớ p đa ̣t đƣơ ̣c thông qua phân tích

Feraud và cộng sự đã đề x uất mô ̣t phƣơng pháp sƣ̉ du ̣ng ma ̣ng neural khác dƣ̣a (Constrained Generative Model ). Mô hình CGM trên mô hình sinh ràng buô ̣c CGM đƣơ ̣c sƣ̉ du ̣ng là mô ̣t MLP đầy đủ , vớ i 300 (full - connected) vớ i ba lớ p tro ̣ng số (15x20) nút vào và ra (tƣơng đƣơng vớ i kích thƣớ c ảnh ). Lớ p ẩn thƣ́ nhất có 35 nút, trong khi lớ p ẩn thƣ́ hai có 50 nút. Vớ i mô hình CGM , ý tƣởng ẩn bên trong là ép cho mô ̣t PCA phi tuyến có thể đƣơ ̣c thƣ̣c thi bằng cách thay đổi hình chiếu củ a các mẫu không phải mă ̣t gần hơn vớ i các mẫu mă ̣t lỗi tái xây dƣ̣ng củ a CGM.

Trong quá trình ho ̣c , đích hƣớ ng tớ i củ a các ảnh mă ̣t là xây dƣ̣ng la ̣i đƣơ ̣c ảnh chính nó trong khi đích hƣớng tới củ a các ảnh không phải mă ̣t đƣơ ̣c thiết lâ ̣p tớ i trung

bình của n láng giềng gần nhất của các ảnh mặt . Feraud và cộng sự thƣ̣c hiê ̣n thuâ ̣t

toán luyện mạng dựa trên giải thuật bẫy lỗi của Sung và Poggio (cũng với quá trình

tiền xƣ̉ lý bao gồm cân bằng và làm mi ̣n histogram ). Để có thể điều khiển đƣơ ̣c quá trình học họ sử dụng một hàm lƣợng giá bổ sung dựa trên nguyên lý chiều dài mô tả

nhỏ nhất MDL (minimum description length ). Hê ̣ thống cũng đã đƣơ ̣c phá t triển thêm vớ i các thông tin về màu sắc và đa khung nhìn , đƣơ ̣c áp du ̣ng để tìm kiếm các ảnh mă ̣t trên các trang Website.

Lin và cộng sự đã đƣa ra mô ̣t hê ̣ thống nhâ ̣n da ̣ng mă ̣t tƣ̣ đô ̣ng sử dụng ma ̣ng

neural xác suất (PDBNN - Probabilistic Decision Based Neural Network ). PDBNN là

mô ̣t ma ̣ng neural phân lớ p vớ i mô ̣t cấu trú c mô đun phân cấp . PDBNN tƣơng tƣ̣ nhƣ

DBNN nhƣng đƣơ ̣c thêm vào bở i các yếu tố ràng buô ̣c xác suất . Mạng neural này bao

- take -

gồ m mô ̣t ma ̣ng con cho m ỗi lớp đối tƣợng , kết hơ ̣p vớ i chiến lƣơ ̣c “winner all”. Trong trƣờ ng hơ ̣p tìm kiếm mă ̣t , chỉ có một mạng con biểu diễn lớp các mặt . Quá trình học đƣợc thực hiện với các luật học DBNN , nghĩa là ngƣời giám sát chỉ thông

báo độ chính xác phân lớp ) và sử dụng phép học (không có giá tri ̣ đích chính xác

). Vớ i LUGS , mỗi ma ̣ng con đƣơ ̣c

LUGS (không giám sát cu ̣c bô ̣ giám sát tổng thể luyê ̣n riêng biê ̣t vớ i mô ̣t thuâ ̣t toán ho ̣c không giám sát (thuâ ̣t toán K-means vớ i lƣơ ̣ng

hoá vectơ hoặc thuật toán EM ). Quá trình học tổng thể đƣợc thực hiện để điều chỉnh

biên quyết đi ̣nh bằng cách sƣ̉ du ̣ng các thuâ ̣t toán ho ̣c củ ng cố và không củ ng cố khi mô ̣t da ̣ng trong tâ ̣p mẫu b ị nhận nhầm . Các ảnh đầu vào ban đầu có kích thƣớc

320x240 nhƣng sau đó đƣơ ̣c t ỷ lê ̣ hoá xuống xấp xỉ 46x35 và một cửa sổ 12x12 đƣơ ̣c sƣ̉ du ̣ng để quét ảnh này theo các bƣớ c sai khác nhau 1 điểm ảnh.

43 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ngoài ứng dụng phân lớp mă ̣t, mạng neural còn đƣợc sử dụng trong phân lớp các

đă ̣c tính mă ̣t nhƣ trong các nghiên cƣ́ u củ a Duchnowski và cộng sự , McKenna và cộng sự, của Reider và cộng sự . Mô ̣t phƣơng pháp khác vớ i mu ̣c đích cải thiê ̣n thờ i gian dò tìm sử dụng MLP cũng đã đƣơ ̣c Ben Yacoub và cộng sự đƣa ra.

2.1.2.3. Phƣơng pháp thống kê (Statistical approachs)

Ngoài các phƣơng pháp sử dụng không gian con tuyến tính và sử dụng mạng

neural, còn có các phƣơng pháp phát hiện mặt sử dụng các đặc trƣn g thống kê. Những

phƣơng pháp này dựa trên cơ sở lý thuyết thông tin, lý thuyết về SVM (Support Vector

Machine) và các luật xác suất của Bayes.

, Colmenarez Dƣ̣a trên các phƣơng pháp tìm kiếm mă ̣t tối đa hoá sƣ̣ tƣơng đồng

và Huang đã đƣa ra một h ệ thống dựa trên thông tin tƣơng quan Kullback (hay khoảng

cách Kullback). Khoảng cách này là một phép đo không âm khoảng cách giữa hai hàm của quá trình ngẫu nhiên Xn: và mâ ̣t đô ̣ xác suất

(13)

Trong quá trình ho ̣c , vớ i mỗi că ̣p điểm ảnh trong tâ ̣p mẫu ho ̣c , mô ̣t biểu đồ xám

c ảnh

kết hơ ̣p đƣơ ̣c sƣ̉ du ̣ng để xây dƣ̣ng các hàm xác suất cho các lớ p mă ̣t và không phải mă ̣t. Khi giá tri ̣ các điểm ảnh phụ thuộc nhiều vào các điểm ảnh xung quanh , Xn đƣơ ̣c xem nhƣ mô ̣t quá trình Markov bâ ̣c mô ̣t và các giá tri ̣ điểm ảnh trong ảnh xám đƣơ ̣c lƣơ ̣ng hoá la ̣i theo 4 mƣ́ c. Colmenarez và Huang đã sƣ̉ du ̣ng mô ̣t tâ ̣p lớ n cá 11x11 gồm ảnh mă ̣t và ảnh không phải mă ̣t trong quá trình ho ̣c . Kết quả củ a quá trình học là một tập các bảng tìm kiếm với các t ỷ số tƣơng tƣ̣ tính đƣơ ̣c . Để cải thiê ̣n hiê ̣u năng và giảm yêu cầu tính toán , các cặp đ iểm ảnh không ảnh hƣở ng nhiều tớ i đô ̣ sai khác tổng thể đƣợc loại bỏ khỏi các bảng tìm kiếm và không đƣợc sử dụng trong hệ

thống tìm kiếm mă ̣t. Mô ̣t kỹ thuâ ̣t khác cũng đƣơ ̣c Colmenaez và Huang sƣ̉ du ̣ng là kỹ thuâ ̣t ho ̣c nỗ lƣ̣c vớ i mu ̣c tiêu cải thiê ̣n và hƣớ ng tớ i các hê ̣ thống dò tìm thờ i gian thƣ̣c.

. Hê ̣ Osuna và cộng sự đã áp du ̣ng phƣơng pháp SVM vào tìm kiếm khuôn mă ̣t

thố ng đề xuất tuân theo các nguyên tắc giống nhƣ hê ̣ thống củ a Sung và Pogg io. Mô ̣t

SVM vớ i hàm cơ sở là đa thƣ́ c bâ ̣c hai đƣơ ̣c luyê ̣n vớ i mô ̣t thuâ ̣t toán phân rã đảm bảo

đa ̣t tớ i tối ƣu toàn cu ̣c . Quá trình luyện đƣợc thực hiện với thuật toán bẫy lỗi và các

44 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ảnh đầu vào cũng đƣợc tiền xử lý theo cù ng phƣơng pháp giống nhƣ phƣơng pháp củ a Sung và Poggio. Kumar và Poggio gần đây đã tích hơ ̣p thuâ ̣t toán SVM củ a Osuna vào mô ̣t hê ̣ thống thờ i gian thƣ̣c tìm kiếm và phân tích mă ̣t . Họ áp dụng thuật toán SVM trên các vù ng da đã đ ƣợc phân đoạn trong ảnh đầu vào để tránh việc tìm kiếm toàn bộ ảnh. SVM cũng đƣơ ̣c sƣ̉ du ̣ng trong dò tìm nhiều mă ̣t bằng cách xây dƣ̣ng các SVM riêng biê ̣t cho các vù ng khác nhau . Terrillon và cộng sự đã sƣ̉ du ̣ng SVM để nâng cao hiê ̣u năng củ a các bô ̣ tìm kiếm mă ̣t so vớ i sƣ̉ du ̣ng các MLP trong các nghiên cƣ́ u trƣớ c đó .

Schneiderman và Kanade đã mô tả hai bô ̣ tìm kiếm mă ̣t dƣ̣a trên luâ ̣t ra quyết

đi ̣nh Bayes:

(14)

Nếu tỷ số tƣơng tƣ̣ (vế trái) của phƣơng trình trên lớn hơn vế phải thì có thể đi

đến kết luận rằng một đối tƣợng (mô ̣t khuôn mă ̣t ) có tồn tại ở vị trí hiện tại . Mô ̣t ƣu

và điểm củ a cách tiếp câ ̣n này là nếu các biểu diễn cho

là chính xác thì luật ra quyết định đƣợc chứng minh là tối ƣu .

, hàm

Trong hê ̣ thống tìm kiếm mă ̣t đầu tiên đƣơ ̣c Schneiderman và Kanade đề xuất xác suất đƣợc sinh ra dựa trên một tập hợp các sửa đổi và đơn giản hoá:

- Độ phân giải của cách ảnh mặt đƣợc chuẩn hoá thành 64x64 điểm ảnh.

- Các ảnh mặt đƣợc phân chia thành các vùng con 16x16 điểm ảnh và không có

mô hình thống kê nào liên quan giƣ̃a các vù ng con vớ i nhau.

- Các vùng con đƣợc chiếu vào các không gian con 12 chiều (xây dƣ̣ng bở i PCA).

- Toàn bộ vùng mặt đƣợc chuẩn hoá để có trung bình bằng không và phƣơng sai

đơn vi ̣.

Trong hê ̣ thống thƣ́ hai đƣơ ̣c đƣa ra, các thuộc tính trực quan củ a ảnh không đƣơ ̣c biểu diễn bằng các đa ̣i lƣơ ̣ng vectơ riêng cu ̣c bô ̣ (nhƣ trong phƣơng pháp tiếp câ ̣n thƣ́ . Mô ̣t phép biến đổi nhất) mà đƣợc thay thế bằng lấy mẫu cục bộ các biến đổi wavelet wavelet có thể thu thâ ̣p đƣơ ̣c các thông tin liên quan đến các thuô ̣c tính trƣ̣c quan nhƣ không gian , tần số và hƣớ ng ; nhƣ vâ ̣y có thể thích hơ ̣p để mô tả các đă ̣c tính củ a khuôn mă ̣t ngƣờ i. Mô ̣t cách áp du ̣ng biến đổi wavelet khác sƣ̉ du ̣ng phân rã 3 mƣ́ c vớ i

45 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

bô ̣ lo ̣c dải 5/3 pha tuyến tính. Biến đổi này sẽ phân rã ảnh thành 10 dải con. Tƣ̀ các dải con này, 17 thuô ̣c tính trƣ̣c quan , mỗi thuô ̣c tính bao gồm 8 đa ̣i lƣơ ̣ng đƣơ ̣c trích ra và đƣơ ̣c xem nhƣ các biến ngẫu nhiên đô ̣c lâ ̣p thống kê . Các đại lƣợng sau đó đƣợc lƣợng hoá lại theo 3 mƣ́ c và các thuô ̣c tính trƣ̣c quan đƣơ ̣c biểu diễn dƣớ i da ̣ng biểu đồ . Vớ i cách tiếp cận này, mô ̣t bô ̣ tìm kiếm mă ̣t dƣ̣a trên khung nhìn sẽ đƣơ ̣c xây dƣ̣ng vớ i mô ̣t (để dò tìm bô ̣ dò tìm khung nhìn thẳng và một bộ dò tìm khung nhìn nghiêng phải khung nhìn nghiêng trái , khung nhìn nghiêng phải đƣơ ̣c áp du ̣ng nhƣ vớ i ảnh ngƣờ i của khung nhìn trái ). Các kết quả tốt nhất đã đạt đƣợc từ hai hệ thống mô tả trên đây

vớ i hê ̣ thống các vectơ riêng , tuy nhiên điều này la ̣i có đƣơ ̣c trên tâ ̣p dƣ̃ liê ̣u thƣ̉ mà chƣ́ a phần lớ n các ảnh mă ̣t nhìn thẳng . Trong mô ̣t thí nghiê ̣m riêng biê ̣t trên tâ ̣p chủ yếu các ảnh nhìn nghiêng , bô ̣ tìm kiếm vớ i wavelet hoa ̣t đô ̣ng tốt hơn hê ̣ thống tìm kiếm sƣ̉ du ̣ng các vectơ riêng.

Phƣơng pháp tìm kiếm mă ̣t dƣ̣a trên mô hình Markov ẩn cũng là mô ̣t trong các hƣớ ng nghiên cƣ́ u đƣơ ̣c chú tro ̣ng . Mô hình Markov ẩn là mô ̣t tâ ̣p các mô hình thố ng kê đƣơ ̣c sƣ̉ du ̣ng để mô tả các đă ̣c tính thống kê củ a tín hiê ̣u . Lý thuyết về chuỗi Markov và mô hình Markov đã đƣơ ̣c nghiên cƣ́ u sâu rô ̣ng và áp du ̣ng nhiều trong lý thuyết nhâ ̣n da ̣ng nhƣ nhâ ̣n da ̣ng tiếng nói , chƣ̃ viết . Samarie và cộng sự, Netfian và cộng sự là hai nhóm nghiên cƣ́ u hàng đầu trong viê ̣c áp du ̣ng mô hình Markov ẩn vào tìm kiếm và nhận dạng mặt ngƣời.

Tóm lại, nhận biết mặt ngƣời là một lĩnh vực đang thu hút nhiều sự quan tâm của

các nhà nghiên cứu. Ngày càng có nhiều thuật toán mới, hƣớng tiếp cận mới nhằm

nâng cao chất lƣợng cũng nhƣ độ chính xác của hệ thống dò tìm khuôn mặt. Tuy

nhiên, do tính phức tạp của môi trƣờng, không gian và bối cảnh cũng nhƣ yêu cầu về

tính thời gian thực của hệ thống mà cho đến nay vẫn chƣa có một phƣơng pháp nào

thật sự tối ƣu. Việc tìm ra phƣơng pháp mới vẫn còn để ngỏ và có thể cần sự trợ giúp

của công nghiệp máy tính, đó là sự phát triển của phần cứng, tốc độ xử lý của máy

tính.

Nhìn chung thì nhận dạng mặt ngƣời có hai hƣớng tiếp cận chính là hƣớng tiếp

cận dựa vào những đặc trƣng của mặt ngƣời và hƣớng tiếp cận dựa vào thông tin hình

ảnh.

46 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

 Hƣớng tiếp cận dựa vào những đặc trƣng của mặt ngƣời đƣợc áp dụng chủ yếu

khi hệ thống yêu cầu tính thời gian thực. Vì khi đó vấn đề về màu sắc và chuyển

động của hình ảnh phải đƣợc quan tâm. Tuy nhiên, hƣớng tiếp cận này thì chất

lƣợng phát hiện của hệ thống có thể sẽ không cao, muốn nâng cao chúng ta phải

có thêm những kỹ thuật mới bổ sung và khá phức tạp.

 Hƣớng tiếp cận dựa vào thông tin hình ảnh là phƣơng pháp có chất lƣợng và hiệu

quả cao nhất nhƣng chỉ xử lý cho ảnh xám. Và các phƣơng pháp đều sử dụng

chung kỹ thuật cửa sổ đa phân giải. Chúng ta có thể không cần sử dụng cửa sổ

quét này nếu kết hợp hƣớng tiếp cận trên với phƣơng pháp dựa vào đặc tính

khuôn mặt nhƣ là một bƣớc tiền xử lý.

Ứng dụng quan trọng nhất của phát hiện khuôn mặt cho đến hiện nay có lẽ là giai

đoạn tiền xử lý cho hệ thống nhận dạng mặt ngƣời. Ngoài ra, với sự gia tăng của tài

nguyên trên Internet, lý thuyết về nhận biết mặt ngƣời có thể đƣợc ứng dụng để chỉ số

hóa nội dung ảnh và cơ sở dữ liệu video. Ngoài ra còn có ứng dụng trong công nghệ

sinh trắc học và hội thảo truyền hình.

2.2. Một số kỹ thuật nhận dạng khuôn mặt

Nhận dạng khuôn mặt ngƣời là một công nghệ đƣợc ứng dụng rộng rãi trong đời

sống hằng ngày của con ngƣời nhƣ các hệ thống giám sát, quản lý vào ra, tìm kiếm

thông tin một ngƣời nổi tiếng…

Một hệ thống nhận dạng mặt ngƣời thông thƣờng gồm các bƣớc sau đây [5]:

Hình 2.5. Hệ thống nhận dạng khuôn mặt

47 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Phát hiện khuôn mặt sẽ lấy ra tất cả các khuôn mặt trong một hình ảnh. Cho đến

năm 2000, có rất nhiều kỹ thuật khác nhau đƣợc sử dụng cho việc tìm kiếm khuôn mặt

đã đƣợc trình bày ở phần trên.

Các bƣớc chính trong hệ thống nhận dạng khuôn mặt:

 Tiền xử lý

Quá trình này nhằm nâng cao chất lƣợng ảnh, chuẩn hóa dữ liệu, kích thƣớc

ảnh.

 Trích chọn đặc trƣng

Sử dụng các thuật toán để lấy ra những thông tin mang những đặc điểm riêng

biệt của một ngƣời.

 Phân loại

Những đặc trƣng sau khi đƣợc trích rút sẽ đƣa vào khối nhận dạng để phân lớp

đối tƣợng.

Có rất nhiều phƣơng pháp nhận dạng khuôn mặt để nâng cao hiệu suất tuy nhiên

dù ít hay nhiều những phƣơng pháp này đang vấp phải những thử thách về độ sáng,

hƣớng nghiêng, kích thƣớc ảnh, hay ảnh hƣởng của tham số môi trƣờng. Có hai

phƣơng pháp nhận dạng phổ biến hiện nay là nhận dạng dựa trên đặc trƣng của các

phần tử trên khuôn mặt nhƣ biến đổi Gabor Wavelet và mạng Neural, SVM,… và nhận

dạng dựa trên xét tổng thể toàn khuôn mặt nhƣ phƣơng pháp PCA, LDA, LFA [1][2].

Trong đó, PCA là phƣơng pháp trích rút đặc trƣng nhằm giảm số chiều của ảnh tuy

đơn giản nhƣng mang lại hiệu quả tốt. Nhận dạng khuôn mặt dùng PCA kết hợp với

mạng nơron là phƣơng pháp mang lại hiệu quả nhận dạng cao bởi nó phát huy đƣợc ƣu

điểm của PCA và mạng nơron [3]. Hệ thống hoạt động ổn định và có tính thích nghi

cao khi dữ liệu đầu vào thay đổi nhiều.

2.2.1. Phƣơng pháp phân tích thành phần chính (PCA)

PCA (Principle Components Analysis) là một thuật toán đƣợc sử dụng để tạo ra

một ảnh mới từ ảnh ban đầu. Ảnh mới này có kích thƣớc nhỏ hơn nhiều so với ảnh ban

đầu nhƣng vẫn mang những đặc trƣng cơ bản nhất của ảnh cần nhận dạng [5].

48 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

PCA không cần quan tâm đến việc tìm ra các đặc điểm cụ thể của thực thể cần

nhận dạng và mối quan hệ giữa các đặc điểm đó. Tất cả các chi tiết đó đều đƣợc thể

hiện ở ảnh mới đƣợc tạo ra từ PCA.

Về bản chất, PCA tìm ra một không gian mới theo hƣớng biến thiên mạnh nhất

của một tập hợp các vector trong không gian cho trƣớc. Trong không gian mới, ngƣời

ta hy vọng rằng việc phân loại sẽ mang lại kết quả tốt hơn so với không gian ban đầu.

Bƣớc đầu tiên trong nhận dạng khuôn mặt dựa trên PCA là trích chọn vector đặc tính.

Một bức ảnh về khuôn mặt đƣợc coi nhƣ một vector, nếu bức ảnh có kích thƣớc là w*h

pixel thì không gian chứa vector này có số chiều là N = w*h. Mỗi pixel sẽ đƣợc mã

hóa bởi một thành phần của vector.

Sau khi trích chọn đƣợc các vector đặc tính, cần đối chiếu vector này với cơ sở

dữ liệu, từ đó đƣa ra kết quả nhận dạng. Trong bài toán, kết quả nhận dạng sẽ là nhận

biết đƣợc hoặc chƣa nhận biết đƣợc.

2.2.2. Phƣơng pháp phân tách tuyến tính (LDA)

Phƣơng pháp PCA ở trên còn có nhƣợc điểm là chỉ làm nổi bật lên các đặc

trƣng của từng ảnh mà chƣa quan tâm đến các ảnh đó là của cùng một ngƣời hay của

những ngƣời khác nhau. Phƣơng pháp phân tách tuyến tính [4] (LDA - Linear

Discriminant Analysis) có thể khắc phục đƣợc những nhƣợc điểm đó. Nhiệm vụ

chính của phƣơng pháp là tính sự biến thiên giữa các ảnh của những ngƣời khác nhau

và tính sự biến thiên giữa các ảnh của cùng một ngƣời, sau đó tìm một phép biến đổi

để làm cực đại tỷ số của hai sự biến thiên trên. Nghĩa là, tập ảnh huấn luyện sẽ đƣợc

biến đổi sang một không gian mới sao cho sự khác nhau giữa các ảnh của những

ngƣời khác nhau đƣợc tăng lên tối đa, còn sự giống nhau giữa các ảnh của cùng một

ngƣời đƣợc làm cực đại. Hình 2.6 là một ví dụ minh họa trực quan ý nghĩa của phép

biến đổi này. Hình 2.6 (a) là một cách biến đổi không tốt khi các hình chiếu của các

điểm thuộc hai lớp vẫn lẫn lộn với nhau; hình 2.6 (b) là một cách biến đổi khá tốt khi

hình chiếu của các điểm thuộc cùng một lớp gần nhau, còn hình chiếu của các điểm

khác lớp xa nhau.

49 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.6. Ví dụ minh họa LDA

Thông thƣờng trong phƣơng pháp LDA, sự phân bố ngoại và sự phân bố nội

đƣợc dùng làm tiêu chí để phân lớp. Ma trận phân bố nội đƣợc tính nhƣ sau [5]:

(15)

Trong đó:

là ảnh thứ i của lớp j.

-

- j là giá trị trung bình của lớp j.

- C là số lƣợng lớp.

- Nj là số lƣợng ảnh trong lớp j.

- N là tổng số ảnh trong tập huấn luyện.

Ma trận phân bố ngoại:

(16)

Trong đó:  là giá trị trung bình của tất cả các lớp.

Không gian mới của LDA đƣợc hình thành từ tập vector W = [W1,..,Wd], thỏa

mãn:

(17)

Ma trận phân bố nội Sw biểu diễn sự phân bố gần nhau của các ảnh trong các lớp

và ma trận phân bố ngoại Sb mô tả sự tách biệt của các lớp. Khi các ảnh đƣợc chiếu lên

các vector của W, các ảnh sẽ đƣợc phân bố gần nhau trong mỗi lớp và sẽ đƣợc tách

biệt giữa các lớp, càng nhiều càng tốt. Nói cách khác, các vector này cực tiểu hóa mẫu

số và cực đại hóa tử số của công thức (17). Nếu ma trận Sw là khả nghịch, tỷ số ở công

50 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thức (17) sẽ đạt cực đại khi các vector của W là các vector riêng của

. Đối với bài

toán nhận dạng mặt ngƣời, ma trận Sw thƣờng không khả nghịch, vì số lƣợng ảnh nhỏ

hơn rất nhiều so với số chiều biểu diễn ảnh. Có nhiều phƣơng pháp khác nhau để giải

quyết vấn đề của LDA nhƣ phƣơng pháp giả nghịch đảo, phƣơng pháp không gian con

hoặc phƣơng pháp không gian null.

Trong luận văn này, phƣơng pháp giả nghịch đảo đƣợc dùng để giải quyết vấn đề

trên. Vì ảnh gốc có kích thƣớc 112×92, mỗi ảnh có thể coi là một điểm trong không

gian 10304 chiều, số chiều này quá lớn để có thể thực hiện LDA nên trƣớc hết cần sử

dụng phƣơng pháp PCA để giảm bớt số chiều của không gian này. Sau đó, áp dụng

phƣơng pháp giả nghịch đảo với tập dữ liệu mới để tìm ma trận biến đổi W.

Để tính ma trận giả nghịch đảo , Sw đƣợc phân tích nhƣ sau:

(18)

Trong đó:

-  = diag(1, .., k) chứa các giá trị riêng dƣơng của Sw, nghĩa là các phần tử

trên đƣờng chéo chính của  là các giá trị riêng của Sw, còn các phần tử khác

đều bằng 0.

- k là hạng của Sw.

- Q1 chứa các vector riêng của Sw tƣơng ứng với k giá trị riêng dƣơng.

Khi đó ma trận giả nghịch đảo của Sw là:

(19)

Cuối cùng, các vector riêng của ứng với các giá trị riêng dƣơng chính là các

vector cột của ma trận biến đổi W.

Hình 2.7 là một số ảnh sau khi biến đổi theo phƣơng pháp phân lớp tuyến tính.

51 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.7. Ảnh sau khi biến đổi theo LDA

2.2.3. Phƣơng pháp mạng neural

Là kỹ thuật tái tạo mạng nơron thần kinh của con ngƣời bằng máy tính. Nó bao

gồm các phần tử đơn giản (còn gọi là nơron) hoạt động song song đƣợc nối với nhau

bằng các liên kết có trọng số để kích thích hoặc ức chế giữa các nơron. Có nhiều cấu

trúc mạng nơron khác nhau nhƣ mạng hồi quy (feedback), mạng tự tổ chức (self-

organizing), mạng truyền thẳng (feedforward). Đề tài này tập trung với mạng truyền

thẳng đa lớp với thuật toán lan truyền ngƣợc (back propagation) các sai số [6][7][8].

Hình 2.8. Mạng noron 2 lớp truyền thẳng

Quá trình huấn luyện mạng:

Quá trình huấn luyện mạng chính là quá trình huấn luyện các mẫu học Xs={x1,

x2, …,xn} để giá trị ra cuối cùng Ts={t1, t2, …,tn} nhƣ ta mong muốn.

- Quá trình truyền thẳng: Giá trị đầu ra tại nơron j của một lớp bất kì:

Input layer

Hidden layer

với (20)

52 Output layer Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Trong đó wji gọi là trong số liên kết từ đầu vào thứ i đến nơron j, xji là giá trị

đầu vào thứ i đến nơron j, m là số phần từ của lớp trƣớc đó.

- Quá trình lan truyền ngƣợc các sai số: Tại mỗi nơron đầu ra k ta tính lỗi giá trị:

(21)

Với tk là giá trị đầu ra mong muốn thứ k.

Đối với mỗi nơron trong lớp ẩn :

(22)

Với outputs là tập hợp cái nơron ở lớp ra, wjk là trọng số liên kết từ k nơron lớp

ra đến nơron j của lớp ẩn.

Quá trình cập nhật lại trọng số: wjk  wjk + wjk (23)

(24) Nếu gọi η là hệ số học thì wjk = η

Sau khi cập nhật những trọng số này, các mẫu trong tập Xs lại tiếp tục đƣa vào

mạng, quá trình này sẽ diễn ra khi giá trị lỗi E < ε cho trƣớc:

(25)

Với outputs là tập hợp các nơron ở lớp ra, tk là giá trị ra mong muốn của nơron

k cho mẫu huấn luyện d và ok là giá trị ra thực của nơron k.

53 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM

3.1. Yêu cầu thực nghiệm, ứng dụng

Nhƣ đã trình bày tại chƣơng 1, bài toán điểm danh, chấm công là một trong số

những bài toán phổ biến và hiện đang đƣợc công nghệ hóa tại nhiều cơ quan, doanh

nghiệp. Qua tìm hiểu nghiên cứu các thuật toán phát hiện và nhận dạng mặt ngƣời tôi

lựa chọn khuôn mặt làm tiêu chí để phân biệt giữa các đối tƣợng cần đƣợc điểm danh.

Đây là một đặc trƣng cơ bản và phổ dụng đƣợc chính bản thân con ngƣời sử dụng từ

hàng nghìn năm. Việc cài đặt, thực nghiệm hệ thống sẽ minh chứng cho những lý

thuyết đƣợc tìm hiểu trong chƣơng 2 của luận văn.

Đối với bài toán điểm danh, chấm công với mục tiêu chủ yếu là kiểm soát nguồn

nhân lực về thời gian. Các nhà quản lý quan tâm tới hai vấn đề chính là một lao động

tên là “A” có mặt hay không?, có đúng giờ hay không?, “A” có làm đủ số giờ quy định

hay không?. Với các yêu cầu đó tôi lựa chọn cài đặt thuật toán PCA (phân tích thành

phần chính) áp dụng cho bài toán điểm danh. Với đầu vào đƣợc thu trực tiếp từ

camera, đầu ra là định danh đối tƣợng đang đƣợc kiểm tra, chƣơng trình thực hiện quy

trình điểm danh nhƣ sau:

Hình 3.1. Quy trình hoạt động của hệ thống điểm danh dựa trên khuôn mặt.

Trong hệ thống điểm danh dựa trên đặc trƣng khuôn mặt, đầu tiên chƣơng trình thu

hình ảnh trực tiếp từ camera. Sau đó, dựa trên thuật toán đƣợc lựa chọn tiến hành xác

định các đặc trƣng từ đó tách riêng phần ảnh có tồn tại khuôn mặt từ ảnh đầu vào. Ảnh

khuôn mặt sau khi đƣợc tách riêng tiếp tục đƣợc so sánh với tập ảnh đã có trong cơ sở

dữ liệu khuôn mặt dùng để điểm danh. Trong thực tế tập các khuôn mặt này đƣợc

54 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ngƣời sử dụng chƣơng trình xây dựng trƣớc khi điểm danh, trong đó có tất cả ảnh của

nhân viên, ngƣời lao động cần đƣợc điểm danh trong một phiên làm việc. Việc so sánh

với cơ sở dữ liệu ảnh sẽ cho đầu ra là một định danh, định danh này chính là tên của

một ngƣời có trong cơ sở dữ liệu ảnh hoặc thông báo không có trong cơ sở dữ liệu ảnh.

Dựa trên định danh này chƣơng trình tiến hành tích chọn điểm danh cho ngƣời đƣợc

nhận dạng. Nhƣ vậy trong một phiên làm việc, đầu tiên bảng điểm danh đƣợc khởi tạo

với trạng thái mặc định là “vắng”, khi một đối tƣợng đƣợc xác định là “có mặt” thông

qua hệ thống nhận dạng thì trạng thái ứng với tên của đối tƣợng có mặt đƣợc thay đổi

thành “có mặt”. Nhƣ vậy, cuối một phiên làm việc nhà quản lý xác định đƣợc ngƣời

lao động có đến làm việc hay không dựa trên bảng trạng thái “vắng”, “có mặt” mà

máy tính cung cấp.

3.2. Phân tích lựa chọn giải pháp, công cụ

Dựa trên quy trình làm việc của chƣơng trình điểm danh dựa trên đặc trƣng khuôn

mặt đã trình bày ở phần trên, có thể thấy các thành phần cơ bản cần phải có của

chƣơng trình cần phải có nhƣ sau:

- Camera thu nhận tín hiệu từ môi trƣờng ngoài.

- Hệ cơ sở dữ liệu ảnh các đối tƣợng cần nhận dạng.

- Phần mềm xác định, nhận dạng khuôn mặt và điểm danh.

Nhƣ vậy, đầu tiên cần phải lựa chọn thiết bị phần cứng là camera, hiện nay thị

trƣờng camera đặc biệt là camera giám sát tƣơng đối phát triển. Đây là một thiết bị

phần cứng phổ dụng và đƣợc sử dụng rộng rãi tại các cơ quan, doanh nghiệp... Đối với

hệ thống nhận dạng khuôn mặt cần lựa chọn camera với độ phân giải thích hợp, xây

dựng kết nối giữa camera và phầm mềm đảm bảo hai vấn đề quan trọng: Thứ nhất là

chất lƣợng hình ảnh phải đảm bảo đủ để hệ thống có thể nhận dạng chính xác, nếu ảnh

quá mờ sẽ khó nhận dạng hơn. Thứ hai là chất lƣợng hình ảnh cũng không quá cao để

đảm bảo tốc độ xử lý của hệ thống máy tính. Nếu ảnh quá lớn máy tính không thể xử

lý kịp dẫn tới sự đình trệ trong quá trình điểm danh. Trong luận văn này, qua quá trình

thực nghiệm tôi lựa chọn độ phân giải của camera từ 2 đến 8 triệu điểm ảnh (2 đến 8

Megapixel) làm đầu vào cho bài toán điểm danh.

Đối với hệ cơ sở dữ liệu ảnh, hiện nay đã có nhiều cơ sở dữ liệu cho phép lƣu và

truy xuất ảnh. Ảnh đầu vào đƣợc xử lý và lƣu lại trong cơ sở dữ liệu, điều đó đảm bảo

tính bảo mật và quản lý tốt hơn trong quá trình truy xuất, tìm kiếm một tập ảnh. Tuy

55 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

nhiên việc lƣu trữ ảnh trong cơ sở dữ liệu cũng tồn tại những hạn chế riêng: cần phải

có một hệ thống quản trị cơ sở dữ liệu ảnh và giao diện tƣơng tác với hệ thống này,

đồng thời đối với một hệ thống xử lý ảnh thì điều quan trọng nhất là tốc độ xử lý ảnh

chứ không phải là tính năng quản lý. Vì lý do đó trong chƣơng trình thực nghiệm tôi

lựa chọn việc lƣu trữ ảnh trực tiếp trên ổ cứng. Điều đó đảm bảo tính đơn giản của

chƣơng trình và khả năng truy nhập trực tiếp với ảnh số.

Phầm mềm xác định, định danh khuôn mặt và điểm danh đƣợc xây dựng đảm bảo

kết nối đƣợc với camera và lấy hình ảnh trong thời gian thực. Điều này đảm bảo tốc độ

vận hành và xử lý của chƣơng trình. Đồng thời dựa trên thuật toán PCA đã đƣợc lựa

chọn chƣơng trình cần tiến hành xử lý ảnh đầu vào từ đó đƣa ra các quyết định điểm

danh đối với mỗi một đối tƣợng đầu vào.

Hệ thống điểm danh dựa trên đặc trƣng khuôn mặt là một hệ thống xử lý hình ảnh

tƣơng đối điển hình. Vì vậy, yêu cầu đặt ra khi tiến hành xây dựng phần mềm chính là

tốc độ xử lý hình ảnh. Ngôn ngữ thƣờng đƣợc lựa chọn khi cài đặt thƣờng là C++, C#,

java... Trong đó C++ đƣợc nhiều nhà nghiên cứu lựa chọn với ƣu thế về tốc độ và tính

truyền thống của nó, C# và java là ngôn ngữ lập trình phát triển sau nhƣng mang nhiều

thế mạnh khi xây dựng ứng dụng. Trong luận văn này, tôi lựa chọn ngôn ngữ lập trình

Visual C# để cài đặt thuật toán và ứng dụng. Đây là ngôn ngữ lập trình mạnh với tính

năng phát triển ứng dụng nhanh và hiệu quả. Trong luận văn sử dụng các thƣ viện đọc

ảnh đƣợc cung cấp sẵn trong nền tảng framework 4.5. Nhờ đó nhà phát triển có thể

nghiên cứu, phát triển ứng dụng nhanh hơn khi không cần quan tâm tới cấu trúc ảnh

đƣợc đọc.

3.3. Một số kết quả cài đặt thực nghiệm

3.3.1. Giao diện của chƣơng trình

Chƣơng trình cài đặt với mục tiêu điểm danh nguồn nhân lực dựa trên khuôn mặt và

minh họa thuật toán PCA đƣợc trình bày tại chƣơng 2. Với các tính năng và thành

phần đã đƣợc phân tích ở trên, tôi đã tiến hành cài đặt và xây dựng chƣơng trình với

các thành phần giao diện chính nhƣ hình bên dƣới.

56 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

3

1

2

Hình 3.2. Giao diện chính của chương trình.

Giao diện của chƣơng trình gồm có 3 phần chính:

- Phần 1: là hình ảnh thu đƣợc từ camera, đây là nơi hiển thị tất cả hình ảnh thu

đƣợc từ camera, qua đó ngƣời sử dụng có thể nhìn thấy hình ảnh của đối tƣợng

đang đƣợc quan sát và một số xử lý tƣơng ứng của hệ thống nhận dạng.

- Phần 2: hiển thị các lựa chọn đối với danh sách điểm danh, các thông báo trong

quá trình điểm danh, bảng điểm danh và cơ sở dữ liệu hình ảnh.

- Phần 3: là thanh menu lựa chọn các tính năng khác nhau của chƣơng trình điểm

danh.

Hình 3.3. Hình ảnh từ camera và xử lý tương ứng

57 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Trong giao diện hiển thị hình ảnh thu đƣợc từ camera và xử lý phát hiện và nhận

dạng khuôn mặt tƣơng ứng của chƣơng trình. Trong đó, khuôn mặt đƣợc khoanh vùng

trong một hình chữ nhật màu đỏ, phía trên là một tập kí tự mô tả tên của đối tƣợng

đƣợc nhận dạng trong hình chữ nhật đƣợc khoanh vùng. Trong chƣơng trình có thể

cùng một lúc phát hiện và nhận dạng nhiều khuôn mặt cùng một thời điểm.

Hình 3.4. Giao diện quản lý danh sách điểm danh và điểm danh

Trong giao diện quản lý danh sách điểm danh cho phép ngƣời sử dụng lựa chọn

một danh sách các đối tƣợng cần đƣợc điểm danh. Khi đó danh sách này sẽ đƣợc hiển

thị lên phầm mềm với trạng thái bắt đầu là “Vắng”. Trong một phiên làm việc nếu đối

tƣợng cần đƣợc điểm danh đƣợc xác định là có mặt thì trạng thái đƣợc thay đổi thành

“Có mặt”. Trong một phiên làm việc trạng thái của một đối tƣợng chỉ chuyển từ

“Vắng” sang “Có mặt” và chỉ chuyển một lần. Giao diện quản lý danh sách điểm

danh nằm trên cùng một tab với giao diện quản lý cơ sở dữ liệu ảnh. Khi lựa chọn một

trong hai giao diện có sự xuất hiện của các nút chọn tƣơng ứng trên giao diện.

58 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 3.5. Giao diện quản lý danh sách ảnh

Giao diện quản lý danh sách ảnh với hai thành phần chính là hiển thị danh sách

các ảnh đang đƣợc quản lý và công cụ thêm ảnh mới vào trong danh sách các ảnh đang

đƣợc quản lý. Với danh sách hiển thị ảnh đƣợc quản lý, chƣơng trình hiển thị ảnh của

đối tƣợng cần quản lý và định danh tƣơng ứng ở phía dƣới mỗi ảnh. Để thêm một ảnh

mới vào chƣơng trình cần kích chuột vào lựa chọn “Thêm vào cơ sở dữ liệu”, khi đó

đối tƣợng đang đƣợc quan sát sẽ đƣợc thêm vào cơ sở dữ liệu ảnh với định danh tƣơng

ứng đƣợc nhập vào tại ô “Tên:” bên trên. Cơ sở dữ liệu ảnh có thể đƣợc quan sát tại

thƣ mục có cùng đƣờng dẫn với chƣơng trình chạy, trong đó các ảnh đƣợc đặt tên theo

thứ tự của chƣơng trình.

Hình 3.6. Cơ sở dữ liệu ảnh

59 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Cuối cùng là danh sách các lựa chọn trên thanh thực đơn của chƣơng trình, tại đây

ngƣời sử dụng có thể lựa chọn các tính năng cần thiết nhất khi sử dụng chƣơng trình.

Nút bấm “Bắt đầu” sẽ khởi động liên kết với camera sau khi ngƣời sử dụng lựa chọn

một danh sách cần đƣợc điểm danh. Tiếp đó là một số tính năng cần thiết nhƣ “Lựa

chọn danh sách”, “Thêm danh sách mới”, “Làm mới cơ sở dữ liệu ảnh”, “Thống kế

số người vắng trong danh sách”, “Xem cơ sở dữ liệu ảnh”, “Kết thúc...”.

Hình 3.7. Giao diện các lựa chọn trên thanh thực đơn

3.3.2. Một số kết quả điểm danh dựa trên khuôn mặt

Sau khi cài đặt chƣơng trình thực nghiệm tôi đã tiến hành thực nghiệm chƣơng

trình điểm danh với một nhóm gồm 30 đối tƣợng cần đƣợc điểm danh. Kết quả điểm

danh qua 20 lần cho thấy chƣơng trình hoạt động tốt trong một số điều kiện nhất định

và có những hạn chế cần tiếp tục nghiên cứu phát triển.

Với ứng dụng lƣu trữ 30 ảnh khác nhau cho mỗi đối tƣợng cần đƣợc điểm danh và

tiến hành điểm danh trong điều kiện ánh sáng bình thƣờng kết quả thực nghiệm của

chƣơng trình đƣợc thống kê bởi bảng dƣới đây:

Bảng 3.1. Kết quả thực nghiệm trong điều kiện ánh sáng bình thường

Lần Tổng Đúng Sai Lần Tổng Đúng Sai

1 30 25 5 11 30 24 6

2 30 23 7 12 30 25 5

3 30 24 6 13 30 24 6

4 30 25 5 14 30 23 7

5 30 25 5 15 30 24 6

6 30 25 5 16 30 25 5

7 30 24 6 17 30 25 5

8 30 25 5 18 30 24 6

9 30 25 5 19 30 25 5

10 30 24 6 20 30 24 6

60 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Kết quả thực nghiệm cho thấy độ chính xác của điểm danh giao động từ 77% tới

82%, đây là một kết quả điểm danh với độ chính xác tƣơng đối tốt nhƣng không đủ để

đáp ứng khi sử dụng trong bài toán điểm danh, chấm công. Đồng thời khi áp dụng

chƣơng trình với các điều kiện ánh sáng khác nhau cho những kết quả khác nhau, tôi

đã tiến hành thực nghiệm trong điều kiện thiếu ánh sáng và ánh sáng bị lóa, kết quả

thực nghiệm cho thấy khả năng nhận dạng đúng của chƣơng trình giảm đi rõ rệt. Kết

quả này đƣợc thể hiện bởi bảng sau:

Bảng 3.2. Kết quả thực nghiệm trong điều kiện ánh sáng chói và thiếu ánh sáng

Lần Điều kiện ánh sáng Tổng Đúng Sai

1 Thiếu ánh sáng 30 20 10

2 Thiếu ánh sáng 30 17 13

3 Thiếu ánh sáng 30 18 12

4 Thiếu ánh sáng 30 18 12

5 Thiếu ánh sáng 30 17 13

6 Thiếu ánh sáng 30 19 11

7 Thiếu ánh sáng 30 18 12

8 Ánh sáng chói 30 16 14

9 Ánh sáng chói 30 20 10

10 Ánh sáng chói 30 16 14

11 Ánh sáng chói 30 18 12

12 Ánh sáng chói 30 17 13

13 Ánh sáng chói 30 16 14

14 Ánh sáng chói 30 16 14

Dựa trên kết quả thực nghiệm có thể thấy việc điểm danh có thể đƣợc thực hiện

trong điều kiện ánh sáng đầy đủ không quá chói. Thuật toán và chƣơng trình sẽ gặp

khó khăn khi tiến hành trong điều kiện thiếu ánh sáng hoặc ánh sáng quá chói. Tuy

nhiên khi điểm danh ta có thể xây dựng đƣợc điều kiện ánh sáng khi hệ thống điểm

danh đƣợc đặt trong nhà và có hệ thống chiếu sáng riêng. Nhƣ vậy cần đƣa ra giải

pháp nâng cao độ chính xác của hệ thống điểm danh trong điều kiện ánh sáng thƣờng.

Khi đó kết quả của hệ thông điểm danh mới đáng tin cậy hoặc có thể đƣợc sử dụng

làm một tiêu chí nhận dạng trong một hệ thống gồm nhiều bƣớc sinh trắc học.

61 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Trong quá trình tìm hiểu nguyên nhân ảnh hƣởng tới khả năng nhận dạng của hệ

thống, ngoài các nguyên nhân về điều kiện môi trƣờng còn tồn tại nguyên nhân tới từ

chính ngƣời cần đƣợc nhận dạng. Sự thay đổi về khuôn mặt của một đối tƣợng là điều

đƣơng nhiên sẽ dẫn tới độ chính xác trong quá trình nhận dạng. Bên cạnh đó với mỗi

góc nhìn khác nhau sẽ cho những hình ảnh khác nhau về cùng một đối tƣợng. Nhƣ vậy

để giải quyết vấn đề này cần quan tâm tới các bài toán về trích rút đặc trƣng của khuôn

mặt và nắn chỉnh góc nghiêng của đối tƣợng cần quan sát. Đây là một bài toán khó,

đòi hỏi nhiều lỗ lực nghiên cứu tìm hiểu hơn đối với vấn đề nhận dạng, trích rút đặc

trƣng, quan sát đối tƣợng với các góc nhìn khác nhau... Vì giới hạn về thời gian trong

nội dung luận văn tôi không đề cập tới các vấn đề này. Tuy nhiên, để sử dụng đƣợc

chƣơng trình vẫn cần nâng cao độ chính xác trong quá trình nhận dạng.

Để giải quyết vấn đề này giải pháp đƣợc đƣa ra là sử dụng nhiều hơn một ảnh cho

một đối tƣợng trong quá trình nhận dạng. Tức là thay vì sử dụng một ảnh duy nhất

trong cơ sở dữ liệu ảnh, chƣơng trình sử dụng nhiều ảnh hơn với cùng một định danh,

khi đó các góc nhìn khác nhau của một đối tƣợng và các trạng thái khác nhau có thể

đƣợc mô tả trong cơ sở dữ liệu. Với việc sử dụng 8 ảnh cho một đối tƣợng, thực

nghiệm cho thấy khi sử dụng nhiều hơn một ảnh kết quả nhận dạng đƣợc nâng lên, kết

quả này đƣợc thể hiện trong bảng sau:

Bảng 3.3. Kết quả thực nghiệm trong điều kiện ánh sáng bình thường với 8 ảnh cho

mỗi đối tượng

Lần Tổng Đúng Sai Lần Tổng Đúng Sai

1 30 30 0 11 30 30 0

2 30 29 1 12 30 29 1

3 30 29 1 13 30 29 1

4 30 30 0 14 30 28 2

5 30 28 2 15 30 28 2

6 30 29 1 16 30 25 1

7 30 29 1 17 30 25 1

8 30 29 1 18 30 24 1

9 30 29 1 19 30 25 1

10 30 28 2 20 30 30 0

62 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Tiếp tục thực nghiệm với nhiều hơn một ảnh cho mỗi đối tƣợng trong điều kiện

ánh sáng chói và thiếu ánh sáng, chƣơng trình thực nghiệm cho kết quả tốt hơn so với

sử dụng một ảnh duy nhất, tuy nhiên kết quả nhận đƣợc vẫn là tƣơng đối khiêm tốn.

Sau đây là bảng thực nghiệm với điều kiện ánh sáng chói và thiếu ánh sáng với việc sử

dụng 8 ảnh cho mỗi đối tƣợng:

Bảng 3.4: Kết quả thực nghiệm trong điều kiện ánh sáng chói và thiếu ánh sáng với 8

ảnh cho mỗi đối tượng

Lần Điều kiện ánh sáng Tổng Đúng Sai

1 Thiếu ánh sáng 30 20 10

2 Thiếu ánh sáng 30 21 9

3 Thiếu ánh sáng 30 21 9

4 Thiếu ánh sáng 30 19 11

5 Thiếu ánh sáng 30 20 10

6 Thiếu ánh sáng 30 21 9

7 Thiếu ánh sáng 30 21 9

8 Ánh sáng chói 30 20 10

9 Ánh sáng chói 30 20 10

10 Ánh sáng chói 30 19 11

11 Ánh sáng chói 30 19 11

12 Ánh sáng chói 30 21 9

13 Ánh sáng chói 30 21 9

14 Ánh sáng chói 30 20 10

Qua thực nghiệm cho thấy chƣơng trình chạy tốt trong điều kiện ánh sáng bình

thƣờng và có nhiều ảnh mô tả cùng một đối tƣợng. Tuy nhiên vẫn tồn tại sai số trong

quá trình điểm danh, vì thế cần tiếp tục nghiên cứu, tìm hiểu hoàn thiện phƣơng pháp

nhận dạng, định danh khuôn mặt ngƣời để có thể áp dụng vào thực tế. Đồng thời qua

thực nghiệm cũng cho thấy với điều kiện ánh sáng không phù hợp khả năng nhận dạng

của thuật toán giảm đi nhiều, đây cũng là một vấn đề đòi hỏi cần tìm hiểu những

phƣơng pháp giải quyết và cũng là một thách thức trong lĩnh vực thị giác máy khi khả

năng quan sát của máy tính còn thua kém rất xa so với con ngƣời.

63 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Kết luận

Trong luận văn này, tôi đã hoàn thành các mục tiêu nghiên cứu đề ra. Cụ thể:

1- Luận văn đã nêu đƣợc tầm quan trọng của việc xác định vị trí khuôn mặt đối

với hệ thống nhận dạng mặt ngƣời nói riêng cũng nhƣ trong các hệ thống sinh

trắc học nói chung.

2- Luận văn đã nêu và đánh giá các thuật toán phƣơng pháp xác định và nhận

dạng mặt ngƣời đã và đang đƣợc sử dụng, cũng nhƣ đã đƣa ra đƣợc các đánh

giá ƣu điểm nhƣợc điểm của các phƣơng pháp. Trên cơ sở đó lựa chọn thuật

toán có ƣu điểm nhất cài đặt cho bài toán.

3- Trong chƣơng 3 đã đƣa ra và xây dựng thuật toán xác định vị trí mặt ngƣời và

nhận dạng mặt ngƣời, cũng nhƣ đƣa ra đƣợc một bài toán có ý nghĩa thực tiễn

đó là bài toán điểm danh dựa trên thuật toán xác định vị trí mặt ngƣời và nhận

dạng mặt ngƣời.

4- Trong phần thực nghiệm đã thử nghiệm trên cơ sở dữ liệu FERET COLOR -

là cơ sở dữ liệu đƣợc sử dụng rộng rãi đối với các hệ thống nhận dạng mặt

ngƣời.

Hƣớng phát triển

Trong tƣơng lai chúng tôi sẽ tiếp tục nghiên cứu, phát triển đề tài, thử nghiệm các

đặc trƣng khác, thử nghiệm các thuật toán tối ƣu khác, áp dụng thử nghiệm trên

bộ cơ sở dữ liệu ảnh mặt ngƣời lớn để đánh giá hiệu quả của các phƣơng pháp

một cách khách quan và chính xác hơn. Từ đó xây dựng hệ thống chuẩn đƣa vào

ứng dụng trong thực tế sao cho hiệu quả, chi phí thấp và giải phóng sức lao động

của con ngƣời.

64 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

TÀI LIỆU THAM KHẢO

[1] PGS.TS. Nguyễn Thị Hoàng Lan (2009), “Hệ thống an ninh thông tin dựa trên

sinh trắc học Bio-PKI (Bio-PKI Based Information Security System)”, Báo cáo đề

tài theo nghị định thƣ, Trƣờng Đại học Bách khoa Hà Nội.

[2] TS. Hồ Văn Hƣơng (2009), Mật mã sinh trắc, http://antoanthongtin.vn, ngày

04/10/2009.

[3] Sinh trắc học, http://www.biometria.sk

[4] Phạm Thế Bảo, Nguyễn Thành Nhựt, Cao Minh Thịnh, Trần Anh Tuấn, Phan Phú

Doãn (2007), “Tổng quan các phƣơng pháp xác định khuôn mặt ngƣời”, Báo cáo

khoa học.

[5] Ion Marqués (2010), Face recognition Algorithms, Universidad del País Vasco.

[6] Byung-Joo Oh (2003), “Face Recognition by Using Neural Network Classifiers

based on PCA and LDA”, Daejeon, Korea.

[7] D. Maio and D. Maltoni, “Real-time face location on grayscale static images”,

Pattern Recognition, vol.33, no. 9, pp. 1525-1539, Sept. 2000.

[8] H. A. Rowley, S. Baluja, and T. Kanade, “Neural NetworkBased Face Detection”,

IEEE Trans. PAMI, vol. 20, pp. 23-38, Jan. 1998.

[9] M. Abdel-Mottaleb and A. Elgammal, “Face Detection in complex environments

from color images”, IEEE ICIP, pp. 622- 626, Oct. 1999.

[10] H. Martin Hunke (1994), Locating and tracking of human faces with neural

network, Master’s thesis, University of Karlsruhe.

65 Số hoá bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn