BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN CĂN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN TỪ DỮ LIỆU VIDEO GIAO THÔNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI, NĂM 2015

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN CĂN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN TỪ DỮ LIỆU VIDEO GIAO THÔNG

Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC

Mã số: 62 46 01 10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS. TS. NGUYỄN ĐỨC HIẾU Học viện Kỹ thuật Quân sự

2. TS. PHẠM VIỆT TRUNG Cục Công nghệ thông tin – Bộ Quốc phòng

HÀ NỘI, NĂM 2015

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Những nội dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa có tác giả nào công bố trong bất cứ một công trình nào khác.

Tác giả luận án

Nguyễn Văn Căn

LỜI CẢM ƠN

Trước hết tôi xin bày tỏ lòng biết ơn chân thành của tôi với tập thể giáo viên hướng dẫn của tôi, PGS. TS Nguyễn Đức Hiếu, Giám đốc Trung tâm Công nghệ thông tin, Học viện Kỹ thuật Quân sự Việt Nam; TS. Phạm Việt Trung, Phó cục trưởng Cục Công nghệ thông tin - Bộ Quốc phòng trực tiếp hướng dẫn cho tôi thông qua sự tiến bộ nghiên cứu.

Tôi muốn cảm ơn tất cả các giảng viên mà tôi đã có vinh dự được cùng làm việc hoặc tham gia các khóa học trong quá trình làm nghiên cứu sinh. Cảm ơn các thầy giáo, cô giáo Viện Công nghệ thông tin, phòng Quản lý đào tạo sau đại học thuộc Viện Khoa học và Công nghệ quân sự - Bộ quốc phòng.

Tôi muốn đặc biệt cảm ơn PGS. TS Ngô Quốc Tạo, TS. Nguyễn Đức Dũng, phòng Nhận dạng và Xử lý tri thức, thuộc Viện Công nghệ thông tin, Viện hàn lâm Khoa học Việt Nam; cảm ơn các đồng nghiệp công tác tại Trường Đại học Kỹ thuật – Hậu cần Công an nhân dân đã có những bàn luận, thảo luận hữu ích, cài đặt thử nghiệm trong công việc nghiên cứu của tôi.

Cuối cùng, tôi dành luận án này cho gia đình tôi và bạn bè của tôi. Nếu không có sự hỗ trợ của họ đầy đủ, tôi sẽ không có can đảm để đi qua tất cả những khó khăn trong việc nghiên cứu.

i

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU ................................................................................................... iii

DANH MỤC CHỮ VIẾT TẮT ................................................................................................. iv

DANH MỤC CÁC BẢNG ......................................................................................................... v

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................................... vi

MỞ ĐẦU ............................................................................................................... 1 Chương 1. TỔNG QUAN VỀ PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG TỪ VIDEO ........................................................................ 8

1.1. Cơ sở lý thuyết và những khái niệm cơ bản ........................................... 8

1.1.1. 1.1.2. 1.1.3. 1.1.4. 1.1.5. 1.1.6. 1.1.7.

Dữ liệu video số ............................................................................... 8 Mô-men bất biến ............................................................................ 12 Hình dạng và Khối đối tượng chuyển động ................................... 13 Đường viền đối tượng .................................................................... 13 Nền và đối tượng chuyển động ...................................................... 21 Entropy của khối ............................................................................ 22 Biểu diễn hình dạng đối tượng theo vector khoảng cách .............. 25 1.2. Một số phương pháp và công trình nghiên cứu liên quan .................... 29

1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6.

Hệ thống điều khiển giao thông và giám sát an ninh ..................... 30 Hệ thống phát hiện và phân loại xe dựa trên video ....................... 32 Hệ thống giám sát giao thông dựa trên độ dài ............................... 34 Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại ............ 36 Phát hiện đối tượng ........................................................................ 38 Phân loại đối tượng ........................................................................ 41 1.3. Hướng tiếp cận của luận án .................................................................. 45

1.3.1. 1.3.2.

Sơ đồ khái quát hướng tiếp cận xử lý bài toán .............................. 45 Xác định vùng quan tâm và nhiệm vụ của luận án ........................ 47 1.4. Kết luận chương 1 ................................................................................. 49

Chương 2. PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG TỪ VIDEO DỰA TRÊN MÔ HÌNH GAUSS HỖN HỢP THÍCH NGHI VỚI THAY ĐỔI ÁNH SÁNG ........................................................................................................ 51

2.1. Một số thuật toán phát hiện chuyển động ............................................. 51

2.1.1. 2.1.2. 2.1.3. 2.1.4. Thuật toán trừ nền cơ bản .............................................................. 51 Thuật toán trừ nền trung bình: ....................................................... 53 Thuật toán Σ-Δ: .............................................................................. 54 Thuật toán Σ-Δ cải tiến: ................................................................. 56

ii

2.1.5. 2.1.6. 2.1.7.

Thuật toán thống kê khác biệt cơ bản ............................................ 58 Mô hình Gauss hỗn hợp ................................................................. 61 Đánh giá các thuật toán trừ nền thông qua một số phép đo ........... 66 2.2. Mô hình và thuật toán đề nghị .............................................................. 72

2.2.1. 2.2.2. Mô hình GMM đề nghị .................................................................. 72 Thuật toán trích chọn khối chuyển động (EMB) ........................... 77

2.3. Phương pháp đếm phương tiện giao thông áp dụng mô hình GMM thích nghi thay đổi ánh sáng kết hợp luồng quang học ............................... 78

2.3.1. 2.3.2. 2.3.3. 2.3.4.

Sơ đồ khối tổng quát ...................................................................... 79 Thuật toán phát hiện và gán nhãn cho khối (SLBBI) .................... 82 Thuật toán trích chọn luồng quang học (EBOF) ........................... 83 Kết quả thực nghiệm. ..................................................................... 86 2.4. Kết luận chương 2. ................................................................................ 91

Chương 3. PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG TỪ VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DẠNG ........................................................ 93

3.1. Phân đoạn khối phương tiện dựa trên kích thước ................................. 93

3.1.1. 3.1.2. Phân tích kích thước phương tiện .................................................. 93 Thuật toán phân loại theo kích thước ............................................ 95

3.2. Phân loại phương tiện bằng kết hợp kích thước ảnh và hình chiếu hình dạng khối phương tiện ......................................................................... 98

3.2.1. 3.2.2. 3.2.3.

Ý tưởng phương pháp .................................................................... 99 Giai đoạn chuẩn bị CSDL ............................................................ 100 Thuật toán phân loại dựa trên độ dài và hình chiếu đối tượng .... 101 3.3. Phân loại phương tiện dựa trên đường viền biểu diễn bằng số phức . 103

3.3.1. 3.3.2. 3.3.3. 3.3.4.

Sơ đồ khái quát............................................................................. 104 Xấp xỉ độ dài đường viền và thuật toán Douglas Peucker ........... 104 Thuật toán CCAVC ...................................................................... 107 Kết quả thực nghiệm: ................................................................... 111 3.4. Kết luận chương 3 ............................................................................... 114

PHẦN KẾT LUẬN ........................................................................................... 116 PHỤ LỤC .............................................................................................................. 1 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ........................................ 118 TÀI LIỆU THAM KHẢO ................................................................................. 119

iii

DANH MỤC CÁC KÝ HIỆU

Ý nghĩa

Ký hiệu

Giá trị ngưỡng cho trước trong trừ nền

Giá trị nền cố định tại điểm ảnh (x,y)

B(x,y)

Giá trị điểm ảnh tại điểm ảnh (x,y)

It(x,y)

Mặt nạ nhị phân của đối tượng tiền cảnh

Dt(x,y)

Hằng số tỷ lệ học cho trước

α,,,

t(x,y)

Giá trị tuyệt đối của hiệu giá trị điểm ảnh trừ giá trị nền của điểm ảnh (x,y) tại thời điểm t

Giá trị điểm ảnh (x,y) của khung hình đang xét thời gian t

Vt(x,y)

xy

Giá trị trung bình của các điểm ảnh tương ứng của tập hợp điểm ảnh (x,y) theo các khung hình đang xét

Trung bình độ lệch chuẩn của điểm ảnh (x,y)

Mô hình nền thích nghi biến đổi cosin rời rạc

Khoảng cách Ơclit giữa các mô hình nền thích nghi

Xác suất quan sát của điểm ảnh tại thời điểm t

xy P(Xt)

Hàm mật độ xác suất tại thời điểm t

(Xt, , )

Ma trận hiệp phương sai của phân bố Gauss thứ i tại thời gian t

i,t

Giá trị trung bình của các điểm ảnh tại thời điểm t

i,t

Biến nhận giá trị 1/0 thể hiện sự phù hợp mô hình của điểm ảnh mới

Hệ số cập nhật nền K mô hình tại thời điểm t

k,t

Hệ số biểu thị mức độ ánh sáng thay đổi

t

Giá trị thông tin Entropy của điểm ảnh tại thời điểm t

Et

D(t,t-1)

Hàm biểu diễn cường độ sáng

Hệ số lựa chọn sự thay đổi ánh sáng

Ảnh điểm ảnh (x,y) biểu diễn mức L trong mô hình kim tự tháp

Tập biểu diễn kết quả phát hiện đối tượng tại thời điểm t

Tính chất thứ i của mô-men bất biến

i IL(x,y) i

Hằng số xấp xỉ diện tích hai hình đa giác

Khoảng cách giữa các điểm cơ bản trên biên

Lrounded

Khoảng cách giữa điểm mẫu và trọng tâm đa giác

D(si,c)

SIM(D1,D2) Độ đo tương tự giữa 2 đa giác D1 và D2.

u

Chiều dài đối tượng tính xấp xỉ

v

Chiều rộng đối tượng tính xấp xỉ

Đường viền Vector

Vector cơ sở đường viền

Tích vô hướng giữa 2 đường viền

Hàm tương quan giữa 2 đường viền m đỉnh

(m)

( )

( ) {

iv

v

DANH MỤC CÁC CHỮ VIẾT TẮT

Chữ viết tắt

Ý nghĩa

ACF

Hàm tự tương quan (Auto Correlation Function)

BMC

Thách thức mô hình trừ nền (Background Models Challenge)

BSM

Trừ nền (Background Subtraction Method)

BGS

Thư viện trừ nền (Background Subtraction Library)

CA

Phân tích đường viền (Contour Analys)

CSDL

Cơ sở dữ liệu (Database)

EV

Vector cơ sở (Elementary Vector)

FG

Tiền cảnh (Foreground)

GMM

Mô hình hỗn hợp Gauss (Gauss Mixture Model)

ICF

Hàm tương quan (Intercorrelation Function)

NSP

Tích vô hướng chuẩn hóa (Normalized Scalar Product)

ROI

Vùng quan tâm (Region of Interest)

TVH

Tích vô hướng

VC

đường viền vector (Vector Contour)

VVDC

Phát hiện và phân loại phương tiện dựa trên video (Video-based

Vehicle Detection and Classification)

vi

DANH MỤC CÁC BẢNG Bảng 1.1. Phân loại các phương pháp mô hình nền ...................................................... 40 Bảng 1.2. Kết quả sử dụng độ dài đường biên hình chiếu ........................................... 42 Bảng 2.1. Ưu điểm và nhược điểm các thuật toán BSM đã trình bày .......................... 64 Bảng 2.2. Hệ số đánh giá toàn cục các thuật toán BS trong tập dữ liệu BMC [36]. .... 69 Bảng 2.3. Dữ liệu thực nghiệm ..................................................................................... 87 Bảng 2.4. Phản ứng với mật độ xe trên các cung đường .............................................. 90 Bảng 2.5. So sánh thời gian xử lý của thuật toán với mỗi khung hình ......................... 90 Bảng 3.1. Kết quả thực nghiệm thuật toán CVIL ......................................................... 98 Bảng 3.2. Bảng kết quả thực nghiệm thuật toán VCALOS ....................................... 103

vii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Cấu trúc phân đoạn của video ............................................................... 8 Hình 1.2. Các biến đổi hình dáng đối tượng trong không gian 2D. .................... 12 Hình 1.3. Biểu diễn đường viền bằng vector số phức ......................................... 14 Hình 1.4. NSP trên đường viền vector ................................................................ 18 Hình 1.5. Biểu diễn đường viền và lược đồ xám ................................................ 21 Hình 1.6. Mô tả hình dạng hình tròn ................................................................... 26 Hình 1.7. Đa giác xấp xỉ đối tượng có n cạnh ..................................................... 27 Hình 1.8. Điểm mẫu căng đều trên mỗi cạnh biên .............................................. 28 Hình 1.9. Kiến trúc tổng thể hệ thống CadProTMS ........................................... 31 Hình 1.10. Trạm nghiệp vụ xử lý phạt nguội vượt đèn đỏ ngã tư ...................... 32 Hình 1.11. Cấu trúc hệ thống phát hiện và phân loại xe dựa trên video ............. 33 Hình 1.12. Sơ đồ của hệ thống giám sát giao thông tự động .............................. 35 Hình 1.13. Cấu trúc hệ thống tích hợp phát hiện, phân loại, theo dõi đối tượng 36 Hình 1.14. Cấu trúc hệ thống phát hiện đối tượng chuyển động ........................ 37 Hình 1.15. Lược đồ khái quát phân loại đối tượng dựa trên hình chiếu ............. 38 Hình 1.16. Cấu trúc khái quát hệ thống nhận dạng đối tượng chuyển động ...... 46 Hình 1.17. Sơ đồ xác định vùng nghiên cứu ....................................................... 47 Hình 1.18. Hướng tiếp cận xử lý bài toán ........................................................... 49 Hình 2.1. Lược đồ khái quát thuật toán CCA-GMMOF ..................................... 80 Hình 2.2. Minh họa thuật toán gán nhãn cho khối .............................................. 83 Hình 2.3. Dữ liệu video quay trên đường quốc lộ 5, hướng Hải phòng - Hà Nội ............................................................................................................................. 88 Hình 2.4. Một số hình ảnh từ camera đưa vào thực nghiệm ............................... 89 Hình 2.5. Giao diện kết quả thực nghiệm của hệ thống ...................................... 89 Hình 3.1. Phân tích kích thước khối xe ô tô con ................................................. 93 Hình 3.2. Sơ đồ tổng quát phân giải theo độ dài ................................................. 95 Hình 3.3. Sơ đồ tổng quát phân loại theo hình dạng ........................................... 99 Hình 3.4. Sơ đồ khối tổng quát phân loại theo đường viền .............................. 104 Hình 3.5 Đơn giản hóa đường công theo thuật toán Douglas Peucker ............ 105 Hình 3.6. Xấp xỉ hóa đường viền ...................................................................... 106 Hình 3.7. Giao diện hệ thống thực nghiệm thuật toán CCAVC ....................... 111 Hình 3.8. Giao diện hệ thống thực nghiệm thuật toán CCAVC ....................... 112 Hình 3.9. Ví dụ về tập mẫu để so sánh ............................................................. 113 Hình 3.10. Ví dụ kết quả nhận dạng xe ô tô và xe máy .................................... 114

1

MỞ ĐẦU

Phần này giới thiệu bài toán phát hiện và phân loại phương tiện giao thông,

những vấn đề đặt ra cho bài toán để giải quyết vấn đề tăng độ chính xác với điều

kiện giao thông đông đúc và đa dạng ở Việt Nam. Tiếp theo, trình bày mục tiêu,

phạm vi, nội dung và phạm vi nghiên cứu của luận án. Cuối cùng là giới thiệu

cấu trúc của luận án.

1. Tính cấp thiết của vấn đề nghiên cứu

Giám sát và quản lý giao thông đã và đang được các nhà khoa học thế giới

và Việt Nam quan tâm nghiên cứu phát triển. Trong điều kiện giao thông Việt

Nam, từ các tuyến đường quốc lộ, đường cao tốc, đến giao thông đô thị, giao

thông nông thôn mật độ phương tiện rất dày đặc, đa dạng về chủng loại, trong đó

hai thành phần chính đó là ô tô và xe máy. Nếu mật độ xe dày đặc, tức là số

lượng xe trên một vùng quan sát là lớn, khi đó ảnh giao thông thu được tồn tại

các phương tiện trước sau, bên cạnh liên tiếp nhau, các phương tiện tạo thành

khối phương tiện, khi đó các đường viền có thể bị che khuất thì việc phân tích

đường viền các phương tiện để phát hiện, đếm, phân loại gặp rất nhiều khó

khăn.

Nhiều nghiên cứu trên thế giới và Việt Nam đã quan tâm đến vấn đề phát

hiện và phân loại phương tiện giao thông, tuy nhiên chưa có nghiên cứu đầy đủ

nào quan tâm đến mức độ dày đặc của phương tiện trên đường, cũng như quan

tâm đặc biệt đến phương tiện giao thông chủ yếu là xe máy và xe ô tô.

Việc lựa chọn phương pháp, thuật toán, hay phối kết hợp các thuật toán sử

dụng trong hệ thống giám sát tự động, cũng như cải tiến một số thông số kỹ

thuật trong thuật toán mang lại lợi ích cho việc phát hiện và phân loại phương

tiện giao thông trong bối cảnh Việt Nam là điều cần thiết có ý nghĩa cả về lý

thuyết và thực tiễn.

Bài toán phát hiện và phân loại phương tiện giao thông dựa trên video là

xét xem tại một thời điểm, trong vùng quan tâm, có những loại phương tiện gì,

số lượng tương ứng. Về ứng dụng, bài toán thuộc nhóm các ứng dụng liên quan

2

đến giao thông thông minh. Bài toán được ứng dụng nhiều trong lĩnh vực quản

lý giao thông, trong nhiều hoạt động an ninh, quốc phòng, kinh tế xã hội, như

cảnh báo trộm, cảnh báo cháy, giám sát bảo vệ các mục tiêu quan trọng, thu thập

các chứng cứ tại những tình huống nhạy cảm.

Yêu cầu cơ bản của bài toán phát hiện và phân loại giao thông là với dữ

liệu đầu vào là video giao thông, yêu cầu đầu ra là loại phương tiện tham gia

giao thông trong vùng quan sát (ô tô, xe máy và các phương tiện thô sơ khác).

Hướng tiếp cận giải quyết bài toán:

Thứ nhất, cần xem xét cấu trúc và phương pháp xử lý dữ liệu video. Cấu

trúc dữ liệu video được kết cấu từ tập các khung hình, tốc độ hiển thị các khung

hình trong một đơn vị thời gian (giây), mỗi khung hình là một ảnh tĩnh,...

Phương pháp xử lý dữ liệu video là việc xử lý lưu trữ, trích chọn khung hình,

phân đoạn, phân tích, trích chọn đặc trưng dựa trên cơ sở dữ liệu (CSDL) tri

thức có sẵn. Từ những tập dữ liệu video, qua quá trình xử lý, mang lại những

thông tin hữu ích theo mục đích yêu cầu của con người.

Thứ hai, cần xác định tập các đặc trưng riêng có của video giao thông. Các

đặc trưng của phương tiện chuyển động trong video được chia thành 2 mức tiếp

cận: mức cục bộ và mức toàn cục. Mức toàn cục quan tâm đến các đặc trưng

toàn cảnh như nền, đối tượng chuyển động, khối, đốm sáng. Mức cục bộ quan

tâm đến các vấn đề xử lý hình dạng, khoảng cách, đường biên,...

Đặc trưng tiếp cận ở mức toàn cục gồm:

 Vùng quan tâm (ROI), hướng quan sát, khoảng cách quan sát;

 Video và khung hình;

 Đối tượng chuyển động và nền (Moving Object and Background);

 Khối chuyển động (Block);

 Đốm sáng (Blob).

Đặc trưng ở mức toàn cục ảnh hưởng nhiều đến trích chọn đối tượng

chuyển động. ROI ảnh hưởng đến việc xét điểm bắt đầu và điểm kết thúc thời

điểm quan sát, hướng quay ảnh hưởng đến hình dạng đối tượng; Video ảnh

3

hưởng đến chất lượng hình ảnh, độ phân giải, tốc độ hình; Khung hình được

trích chọn từ video thành ảnh tĩnh để phân tích,...

Đặc trưng tiếp cận ở mức cục bộ gồm:

 Đối tượng chuyển động và bóng của nó (Moving Object, Shadow);

 Độ dài (Visual Length);

 Hình dạng đối tượng (Edge, Contour), hình dạng và đường viền;

 Mức xám khu vực đèn trước/sau xe;

 Mức xám và đặc điểm khu vực biển số xe, kính trước xe;

 Các đường biên ngang trên xe.

Đặc trưng ở mức cục bộ, đặc biệt là độ dài, hình dạng đối tượng, các đường

biên bên ngoài và bên trong phương tiện là những đặc trưng quan trọng trong

việc phân loại phương tiện. Sử dụng một đặc trưng, hoặc kết hợp 2 hay nhiều

đặc trưng và một số kỹ thuật liên quan để phân loại phương tiện là rất hiệu quả.

Yếu tố ảnh hưởng đến phương pháp tiếp cận:

Về màu sắc phương tiện thay đổi liên tục theo thời gian, thêm vào đó có

nhiều loại phương tiện có màu sắc tương đồng nhau, do vậy việc phân loại dựa

trên màu sắc là khó khăn và không mang lại kết quả.

Về hình dạng, các phương tiện có thể đi sát nhau trong khung hình quan

sát, hợp thành các khối và dẫn đến khó xác định được chính xác đó là phương

tiện gì bằng biện pháp thông thường. Đặc biệt trong điều kiện giao thông tại Việt

Nam, mật độ phương tiện di chuyển trên đường dày đặc về mật độ, đa dạng về

chủng loại thì việc phân loại càng khó khăn. Tuy nhiên hình dạng xe ô tô, hình

dạng xe máy, phương tiện thô sơ khác là một tập có thể xác định kể cả khi chúng

hợp khối.

Ngoài việc xác định tập đặc trưng của phương tiện chuyển động trong

video, để có thể nhận dạng, xác định mật độ phương tiện, cần xác định các yếu

tố, tình huống ảnh hưởng đến phương pháp xác định các tập thuộc tính liên quan

đến phương pháp tiếp cận phát hiện và phân loại phương tiện giao thông.

Tình huống liên quan đến chuyển động gồm:

4

 Đối tượng bắt đầu vào vùng quan sát;

 Đối tượng ra khỏi vùng quan sát;

 Đối tượng đang đi rồi dừng lại;

 Đối tượng đang dừng thì chuyển động;

 Nền động (dao động tự nhiên).

Tình huống liên quan đến khối chuyển động gồm:

 Các đối tượng di chuyển cạnh nhau tạo thành một khối đối tượng;

 Đối tượng đang di chuyển tách khối;

 Đối tượng đang di chuyển thì hợp khối.

Tình huống liên quan đến chất lượng ảnh gồm nhiều yếu tố liên quan,

nhưng chủ yếu là:

 Ánh sáng thay đổi;

 Điều kiện thời tiết.

2. Mục tiêu nghiên cứu của luận án

- Mục tiêu chung: Từ dữ liệu video thu được từ các đường quốc lộ, tìm một

số thuật toán hợp lý để phân loại và xác định phương tiện chuyển động.

- Mục tiêu cụ thể:

+ Lựa chọn và cải tiến phương pháp phát hiện phương tiện chuyển động

phù hợp với môi trường ngoài trời, chịu tác động nhiều của sự thay đổi ánh

sáng.

+ Trích chọn các đặc trưng của phương tiện chuyển động, phân tích và biểu

diễn đặc trưng phù hợp để đề xuất và áp dụng thuật toán phân loại phương tiện

chuyển động.

+ Trên cơ sở phân tích tập thuật toán, đề xuất sự cải tiến, kết hợp các thuật

toán cho mục đích phát hiện, phân loại phương tiện giao thông trong điều kiện

giao thông đông đúc và đa dạng về chủng loại phương tiện.

3. Đối tượng và phạm vi nghiên cứu

Vấn đề "Nghiên cứu phát triển một số thuật toán phát hiện và phân loại

phương tiện từ dữ liệu video giao thông” được thực hiện chủ yếu trên môi

5

trường ngoài trời. Dữ liệu video giao thông có thể thu được từ những cung

đường khác nhau: từ các cung đường nông thôn (quận, huyện), từ các đường

quốc lộ (cao tốc), từ các đường trong đô thị (thành phố). Trong điều kiện ở Việt

Nam hiện nay, việc gắn các camera giao thông của các cơ quan quản lý và điều

khiển giao thông ở các đường quốc lộ (đường cao tốc) là phổ biến, tập dữ liệu

dùng cho việc thực nghiệm cũng thu được một cách dễ dàng hơn. Dữ liệu video

nghiên cứu trong luận án tập trung vào việc nghiên cứu dữ liệu video thu được

từ các cung đường quốc lộ. Chẳng hạn như quốc lộ 1, quốc lộ 5 và một số đường

cao tốc mới xây dựng như đại lộ Thăng long, Bắc Thăng long - Nội bài.

Luận án tập trung trình bày và giải quyết cốt lõi của hệ thống phát hiện và

phân loại phương tiện giao thông thông qua quá trình xử lý hình ảnh và đưa ra

thông tin. Bản chất của quá trình này là: phân tách video thành các khung hình;

phát hiện đối tượng chuyển động trong cảnh video; dựa vào các đặc trưng hình

học, chuyển động để phân loại và kết hợp với những đặc tính không gian, thời

gian khác để đếm các loại đối tượng chuyển động có trong video. Đối tượng

nghiên cứu của luận án gồm: Bài toán phát hiện, theo dõi và phân loại đối tượng

chuyển động; Các công trình đã và đang nghiên cứu trong và ngoài nước về vấn

đề phát hiện, theo dõi và phân loại đối tượng chuyển động; Các thuật toán,

phương pháp đã áp dụng trong vấn đề này. Các đoạn video quay cảnh giao

thông.

Tổng quát lại, đây là một phạm vi rộng, bao gồm: phát hiện, phân loại và

theo dõi đối tượng chuyển động. Luận án tập trung vào việc nghiên cứu một số

thuật toán phát hiện và phân loại đối tượng chuyển động trong vùng quan tâm;

giải quyết vấn đề ô tô, xe máy trong video giao thông mà lưu lượng giao thông

đông đúc ("dày đặc") có sự và "dính nhau" trong điều kiện Việt Nam.

4. Phương pháp nghiên cứu

Thu thập và nghiên cứu tài liệu về các nghiên cứu đã thực hiện trên thế giới

và Việt nam về vấn đề giám sát thông minh bằng hình ảnh.

6

Phân tích cấu trúc một hệ thống giám sát thông minh bằng hình ảnh; thống

kê, phân tích và đánh giá các phương pháp đã sử dụng; trên cơ sở đó thực hiện

một số công việc giải quyết bài toán:

 Lựa chọn phương pháp phù hợp trong từng điều kiện hoàn cảnh khác

nhau của bài toán giám sát tự động.

 Phân tích và cải tiến hệ thống về mặt cấu trúc, quy trình, khung làm

việc của hệ thống giám sát tự động.

 Lựa chọn và đề xuất cải tiến một số thuật toán áp dụng.

Thử nghiệm và đánh giá kết quả một số phương pháp đề xuất:

 Thu thập dữ liệu video trên một số cung đường tại đường quốc lộ.

 Viết chương trình thử nghiệm bằng ngôn ngữ lập trình C++ trên môi

trường .NET.

 Đánh giá và phân tích kết quả.

5. Ý nghĩa khoa học và thực tiễn của luận án

Ý nghĩa khoa học:

Làm phong phú hơn về lý luận cho phương pháp phát hiện và phân loại đối

tượng chuyển động trong video.

Tổng hợp và xây dựng một tập các phương pháp trích chọn các đặc trưng

phương tiện chuyển động, biểu diễn và xử lý các đặc trưng của phương tiện theo

từng cấp độ phù hợp cho phân loại và đếm đối tượng, bao gồm:

 Đặc trưng khối chuyển động.

 Đặc trưng hình dạng và kích thước đối tượng.

 Đặc trưng luồng quang học.

 Đặc trưng đường viền đối tượng.

Đề xuất khung làm việc chung cho bài toán xác định mật độ phương tiện

trong video giao thông.

Ý nghĩa thực tiễn:

Mở ra khả năng tính toán mới để xác định đối tượng trong ảnh nhanh hơn;

có sự phân loại tốt hơn, tránh được những thông tin dư thừa do mật độ đối tượng

7

chuyển động dày đặc, đan xen gây ra... phục vụ cho các ứng dụng thực tế như đo

lưu lượng giao thông, xác định hiện trường tai nạn giao thông, chứng thực xe đã

đi qua đoạn đường trong khoảng thời gian t,... phục vụ trong công tác an ninh.

6. Cấu trúc của luận án

Phần mở đầu. Giới thiệu tổng quát bài toán, phương pháp tiếp cận, phạm vi

nghiên cứu, những thách thức đặt ra cho bài toán, hướng nghiên cứu, ý nghĩa

khoa học, ý nghĩa thực tiễn của bài toán nghiên cứu.

Chương 1. Tổng quan về bài toán phát hiện và phân loại phương tiện trong

video giao thông. Đặt vấn đề về bài toán nghiên cứu; trình bày kết quả của một

số nghiên cứu liên quan. Đề xuất vấn đề nghiên cứu của luận án.

Chương 2. Trình bày phương pháp trích chọn đặc trưng đối tượng chuyển

động từ video. Cải tiến phương pháp GMM thích nghi với ánh sáng thay đổi. Áp

dụng kết hợp GMM thích nghi với phát hiện luồng quang học để đếm số lượng

xe trong vùng quan tâm.

Chương 3. Trình bày cách thức phân loại phương tiện giao thông thông qua

một số phương pháp: tính toán độ dài; biểu diễn hình dạng đối tượng dựa trên

vector khoảng cách từ tâm đến cạnh của đa giác xấp xỉ; kết hợp độ dài và vector

khoảng cách để nhận dạng, phân loại phương tiện trong ảnh; Áp dụng một số

tính chất của đường viền vector để phân loại phương tiện dựa trên độ dài và hình

dáng đường viền dựa trên đối sánh ảnh.

Phần kết luận. Trình bày những đóng góp và hướng nghiên cứu phát triển

tiếp theo của luận án.

8

Chương 1. TỔNG QUAN VỀ PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG

TIỆN GIAO THÔNG TỪ VIDEO

Chương này trình bày một số phương pháp, kỹ thuật xử lý, kết quả trong

bài toán xác định mật độ phương tiện giao thông đã sử dụng. Tập trung phân

tích những kỹ thuật, phương pháp liên quan đến hướng tiếp cận của bài toán.

Bao gồm 3 nhóm phương pháp chính: phát hiện, phân loại và theo dõi. Tuy

nhiên những kỹ thuật liên quan đến máy camera, nén dữ liệu, tiền xử lý dữ liệu

không được đề cập đến trong luận án này.

1.1. Cơ sở lý thuyết và những khái niệm cơ bản

1.1.1. Dữ liệu video số

Năm 2005, Sagar Deb, University Southem Queensland, Australia, đã tổng

hợp và biên tập tài liệu Quản lý dữ liệu video và tìm kiếm thông tin [20], trong

đó đã xác định khái niệm, cấu trúc video số, cách tổ chức và xem xét cấu trúc dữ

liệu video.

Định nghĩa 1.1. Video số

Video số là một dãy các khung hình liên tiếp, mỗi khung hình tương ứng

với một hình ảnh tĩnh. Khi video được thực hiện, dãy khung hình được hiển thị

tuần tự với một tốc độ nhất định. Tốc độ hiển thị các khung hình thường là 30

hoặc 25 khung hình/giây [20].

Hình 1.1 thể hiện cấu trúc tổng quát của dữ liệu Video: khung hình, cảnh

quay, cảnh.

Hình 1.1. Cấu trúc phân đoạn của video

9

Trong kỹ thuật xử lý dữ liệu video tác động đến nhiều thành phần và các

đối tượng kéo theo của video như: cảnh, cảnh quay, khung hình, ảnh, điểm ảnh,

ngưỡng, tách ngưỡng, đường viền, nền, phép cộng ảnh, phép nhân ảnh với 1

số... Dữ liệu video và những thành phần liên quan được đặc tả hình thức bằng

scheme Video=

class

type

Video=Scene-list, /*Video là một danh sách các cảnh*/

Scene=Shot-list, /*Cảnh là một danh sách các cảnh quay*/

Shot=Image-list, /*Cảnh quay là một danh sách các ảnh*/

Image=Point-set, /*Ảnh là một tập hợp các điểm ảnh*/

Point=Nat>

dòng và tọa độ cột*/

Cycle ={|pl:Point-list:-Check_Cycle(pl)|} /*Một chu trình

điểm ảnh khép kín */

value

/* tốc độ hiển thị video*/

speed:Video>Real

speed(v,t) is real(len(v))/t,

/* thời gian hiển thị*/

displaytime:Video>Real

displaytime(v,t) is real(Shotnumber(v))/t,

/* Số cảnh quay trong một video*/

Shotnumber:Video->Nat

Shotnumber(v) is if v=<..> then 0

else Shotnumber(hd(v))+Shotnumber(tl(v))

end,

/* Số cảnh quay trong một cảnh */

Shotnumber:Scene->Nat

Shotnumber(s) is if s=<..> then 0

else Shotnumber(hd(s))+Shotnumber(tl(s))

ngôn ngữ đặc tả hình thức RAISE như sau:

end,

Shotnumber:Shot->Nat

Shotnumber(sh) is if sh=<..> then 0

else 1+Shotnumber(tl(sh))

end,

/* Định nghĩa phép tổng hai ảnh */

+: Image>Image,

tong:Shot->Image

tong(sh) is if len(sh) = 1 then hd(sh)

else hd(sh)+tong(tl(sh))

end,

/:Image>Image,

/* Định nghĩa ảnh nền */

back1:Shot->Image

back1(sh) is tong(sh)/Shotnumber(sh),

/* Định nghĩa phép nhân ảnh với một số*/

alpha: Real,

*:Real> Image,

back:Shot->Image /* anh nen*/

back(sh) is if len(sh) = 1 then hd(sh)

else alpha*hd(sh)+(1.0-alpha)*back( tl(sh))

end,

/* Định nghĩa ảnh biên */

constraint:Image>Bool,

anhbien:Image->Image

anhbien(I) as I1 post constraint(I,I1),

/* Tách ngưỡng */

constraint:Image>Bool,

tachnguong:Image>Image

tachnguong(I,

threshold)

as

I1

post

constraint(I,I1,threshold)

10

/* Xác định đường viền */

Check_Cycle :Point-list-> Bool /* Kiểm tra chu trình*/

Check_Cycle(pl) is hd(pl)=ptcuoi(pl),

ptcuoi: Point-list-~->Point

ptcuoi(pl) is if len(pl)=1

then hd(pl)

else ptcuoi(tl(pl))

end

pre len(pl)>0,

end

Đặc trưng của video: Bao gồm màu, kết cấu, hình dạng và chuyển động.

11

- Màu (Color): Màu sắc là một đặc trưng cơ bản của ảnh. Với ảnh thì lược

đồ màu là biểu diễn sự phân bố màu trong ảnh. Biểu đồ màu không phụ thuộc

vào việc quay ảnh, dịch chuyển ảnh, hướng ảnh mà phụ thuộc vào vào hệ màu

và các phương pháp lượng tử hóa ảnh được dùng.

- Kết cấu (Texture): là một đặc trưng quan trọng của bề mặt khung hình,

nơi xảy ra việc lặp lại mẫu cơ bản. Có hai dạng biểu diễn kết cấu phổ biến: ma

trận đồng thời và Tamura. Ma trận đồng thời mô tả hướng và khoảng cách giữa

các điểm ảnh, ta có thể trích chọn được các thống kê có ý nghĩa. Biểu diễn

Tamura bao gồm các thuộc tính đo tính thô, độ tương phản, hướng, tính trơn,

tính cân đối và độ thô ráp. Các đặc tính này rất quan trọng trong việc tìm hiểu

nội dung ảnh vì nó biểu diễn rất trực quan.

- Hình dạng (Shape): đặc trưng hình dạng có thể được phân chia thành đặc

trưng toàn cục và đặc trưng cục bộ. Đặc trưng toàn cục là đặc trưng thu được từ

toàn bộ hình dáng đối tượng trong ảnh (Ví dụ: chu vi, tính tròn, hướng trục

chính...). Đặc trưng cục bộ là đặc trưng thu được từ việc thao tác với một phần

của ảnh, không phụ thuộc vào toàn bộ ảnh.

- Chuyển động (Motion): Là thuộc tính quan trọng của video. Các đặc

trưng chuyển động như mô-men của trường chuyển động, biểu đồ chuyển động,

các tham số chuyển động toàn cục có thể được trích chọn từ vectơ chuyển động.

12

Mô-men bất biến 1.1.2.

Mô-men có nhiều ứng dụng trong kỹ thuật phân đoạn ảnh, đối sánh ảnh và

nhận dạng ảnh. Năm 2004, Chee-Way Chong and và cộng sự nghiên cứu về lý

thuyết môn men và ứng dụng [6]. Từ những năm 1962, tác giả Hu M. K [13] đã

đề cập đến vấn đề hệ số tương quan trong kỹ thuật phân đoạn ảnh. Dựa vào tính

chất bất biến và hệ số tương quan của mô-men để đối sánh và phân loại đối

tượng trong ảnh theo hình chiếu đối tượng trong không gian 2D.

Ứng dụng của mô-men bất biến trong nhận dạng ảnh:

Mô-men bất biến thường được dùng để trích đặc điểm trong xử lý ảnh, và

ghi nhận hình dạng đối tượng và phân lớp. Mô-men có thể cung cấp các đặc

điểm của một đối tượng duy nhất mô tả hình dạng của đối tượng.

Hình dạng đối tượng không phụ thuộc vào 3 dạng biến đổi: chuyển đổi

(thay đổi vị trí), co giãn (thay đổi kích thước) và hướng (biến đổi quay). Hình

1.2 thể hiện sự bất biến đối với phép biến đổi trong không gian 2 chiều.

Tính bất biến của chuyển đổi vị trí được xác định bởi mô-men đã được

chuẩn hóa là trọng tâm của đối tượng. Tính bất biến của biến đổi kích thước đối

tượng là sự bất biến của các giá trị đại số liên quan đã được chuẩn hóa.

Một vấn đề thiết yếu trong lĩnh vực phân tích mẫu là việc ghi nhận đối

tượng và đặc điểm ký tự cho dù đối tượng đó thay đổi vị trí, thay đổi kích thước

hay là biến đổi hướng. Mô-men bất biến được tính toán cơ bản dựa trên các

thông tin được cung cấp bởi đường biên và miền bên trong của đối tượng.

Hình 1.2. Các biến đổi hình dáng đối tượng trong không gian 2D.

13

Hình dạng và Khối đối tượng chuyển động 1.1.3.

Định nghĩa 1.2. Khối đối tượng chuyển động

Khối đối tượng chuyển động là tập hợp các điểm ảnh của các đối tượng

chuyển động được trích ra từ các khung hình sau khi loại bỏ các đối tượng

không chuyển động. Khối đối tượng chuyển động có thể gồm một đối tượng độc

lập, hoặc có thể là một tập hợp các đối tượng dính nhau, che khuất nhau một

phần. Gọi I là khung hình trích ra từ video, B là các đối tượng không chuyển

động, X là khối đối tượng chuyển động,  là ngưỡng sai số cho phép. Khi đó:

X = I – B + 

Một số các thao tác trên X:

- Xác định X trở thành vấn đề xác định B và ngược lại.

- Loại bỏ nhiễu, tức là làm sạch X, loại bỏ những thành phần không quan

tâm ra khỏi X. Thường là xác định ngưỡng kích thước để loại bỏ những thành

phần nhỏ ra khỏi khối X quan tâm.

- Phân rã X thành các khối con: X=X1+ ... + Xn, với tiêu chuẩn phân rã là

một ngưỡng xác định để các điểm ảnh tạo thành một khối.

- Gán nhãn cho các khối con: Xác định đối tượng có trong khối.

Định nghĩa 1.3. Hình dạng khối đối tượng

Hình dạng khối đối tượng [30] là một đa giác được xấp xỉ lên đường biên

của nó. Biên đối tượng trong ảnh là một tập hợp các điểm ảnh phân biệt giữa

vùng bên trong và bên ngoài đối tượng. Gọi X là đường biên của đối tượng, DG

là đa giác xấp xỉ lên đường biên đối tượng, DT(X) là diện tích khối ảnh đối

tượng, DT(DG) là diện tích của đa giác xấp xỉ lên X. Khi đó:

DT(X)  DT(DG) + , với  là ngưỡng xác định cho phép sai số.

1.1.4. Đường viền đối tượng

Định nghĩa 1.4. Đường viền

Tập hợp tất cả các điểm biên của đối tượng, tạo thành một đường khép kín

bao quanh đối tượng gọi là đường viền của đối tượng, hay nói cách khác đường

viền của một đối tượng là đường biên khép kín bao quanh đối tượng [30].

14

Một số đặc tính của đường viền như độ dài, hình dáng, trọng tâm diện tích

bên trong, rất có ích để tính toán, nhận diện đối tượng là gì. Biểu diễn đường

viền trong ảnh có nhiều cách khác nhau. Trong các hệ thống thị giác máy tính,

một vài định dạng mã hóa đường viền được sử dụng như mã hóa Freeman, mã

hóa 2 chiều, mã hóa đa giác thường được sử dụng.

Phân tích đường viền (CA) [30] cho phép mô tả, lưu trữ, so sánh và tìm ra

các đối tượng biểu diễn dưới dạng đường viền. Đường viền chứa thông tin cần

thiết về hình dạng đối tượng. Không quan tâm nhiều đến các điểm bên trong của

đối tượng. Các trường hợp không quan tâm nhiều đến vùng bên trong đối tượng

nhưng quan tâm nhiều về thể hiện đường viền bên ngoài thì cho phép chuyển về

không gian 2 chiều của ảnh tức là không gian đường viền, từ đó cho phép giảm

thời gian tính toán và độ phức tạp tính toán. CA cho phép giải quyết hiệu quả

các bài toán cơ bản của nhận dạng mẫu – biến đổi, quay và tỷ lệ của ảnh đối

tượng. Phương pháp CA là bất biến đối với phép biến đổi.

Một phương pháp biểu diễn đường viền được đề nghị là biểu diễn bằng một

dãy các số phức (Xem Hình 1.3). Trên một đường viền, điểm bắt đầu cần được

xác định. Tiếp theo, đường viền sẽ được quét (xoay theo chiều kim đồng hồ), và

mỗi vector được biểu diễn bằng một số phức a+ib. Với a, b là điểm tương ứng

trên trục x, y. Các điểm được biểu diễn kế tiếp nhau.

Hình 1.3. Biểu diễn đường viền bằng vector số phức

Do tính chất vật lý của các đối tượng ba chiều, đường viền của chúng luôn

khép kín và không tự giao nhau. Nó cho phép xác định rõ ràng việc duyệt qua

15

một đường viền (xuôi/ngược chiều kim đồng hồ). Vector cuối cùng của một

đường viền luôn luôn dẫn đến điểm khởi đầu.

Định nghĩa 1.5. Đường viền vector

Đường viền được biểu diễn dưới dạng một tập các véc tơ số phức được gọi

là đường viền vector (VC) [31]. Một vector thành phần của VC được gọi là

vector cơ sở (EV).

Đường viền vector VC ký hiệu bằng chữ cái Γ và EV ký hiệu là . Khi đó,

Γ có độ dài p có thể được xác định là:

=(0, 1, ..., p-1)

Thao tác trên đường viền như là thao tác trên vector số phức có chứa nhiều

đặc tính toán học hơn là các mã biểu diễn khác. Về cơ bản, mã số phức là gần

với mã hai chiều khi mà đường viền được định nghĩa phổ biến bằng EV trong

tọa độ 2 chiều. Nhưng sự khác biệt giữa thao tác tỷ lệ của các vector đối với số

phức là khác nhau. Trường hợp này cũng ưu tiên cho các phương pháp CA.

Rohit Kolar và cộng sự, năm 2014, trong công trình [31] đã định nghĩa

nhiều khái niệm liên quan đến phương pháp CA như là: tích vô hướng của

đường viền vector, tích vô hướng chuẩn hóa, hàm tương quan, hàm tự tương

quan,...

Định nghĩa 1.6. Tích vô hướng của đường viền vector [31]

Hai số phức của 2 đường viền Γ và N, tích vô hướng (TVH) của nó là:

(1.1) ( ) ∑ ( )

với p – kích thước của VC, γn là EV của đường viền Γ, νn là EV của đường

viền N. (γn, νn) là TVH của hai số phức.

Tính chất TVH của đường viền:

TVH của các số phức được tính bằng biểu thức liên hợp [37]:

(a+ib, c+id) = (a+ib) (c-id) = ac + bd + i(bc-ad) (1.2)

Trong CA thì VC có chiều đồng nhất, vì thế số EV là trùng nhau.

Nếu ta nhân một EV đơn giản như một vector, TVH của chúng:

((a,b),(c,d))=ac + bd (1.3)

16

So sánh công thức này với công thức (1.2) chú ý rằng:

- Kết quả TVH của các vector là một số thực. Và kết quả tích của các số

phức là một số phức.

- Phần thực của TVH của các số phức trùng với TVH của các vector phù

hợp. Tích số phức bao gồm TVH vector.

Theo đại số tuyến tính, để xác định được chính xác chiều vật lý và các đặc

tính của TVH. TVH bằng với tích của độ dài vector của góc cosin ở giữa trong

đại số tuyến tính. Tức là 2 vector vuông góc sẽ luôn có TVH bằng 0. Ngược lại,

tích của vector thẳng hàng sẽ cho giá trị TVH tối đa.

Những đặc tính của TVH được sử dụng để đo lường độ gần của các vector.

Nếu tích càng lớn, góc giữa các vector càng nhỏ, các vector này càng gần nhau.

Với những vector vuông góc, tích này bằng 0, và hơn nữa có thể nhận giá trị âm

cho những vector có hướng khác nhau. TVH cũng có các đặc tính tương tự.

Mệnh đề 1.1. Đặc tính đường viền

1. Tổng các EV của một đường viền kín bằng 0. Nó là tầm thường đối với

các vectơ tự trỏ vào điểm khởi đầu, tổng bằng 0 tương ứng với vector 0.

2. VC thì không phụ thuộc vào phép chuyển vị song song của ảnh nguồn.

Như vậy các đường viền được mã hóa tương đối so với điểm bắt đầu, chế độ này

của mã hóa là bất biến chuyển của một đường viền ban đầu.

3. Quay ảnh theo một góc độ nào đó tương đương với quay mỗi EV của

đường viền trên cùng góc độ đó.

4. Việc thay đổi điểm khởi đầu tiến hành theo vòng tròn VC. Vì các EV

được mã hóa liên quan đến các điểm trước đó, điều này rõ ràng là thay đổi điểm

khởi đầu, trình tự của một EV sẽ là như nhau, nhưng EV đầu tiên sẽ là bắt đầu từ

điểm khởi đầu.

5. Thay đổi tỷ lệ ảnh nguồn có thể được coi là phép nhân của mỗi EV của

đường viền với một hệ số tỷ lệ.

Chứng minh:

17

Gọi tọa độ các điểm biên là z1, z2, z3, z4,…zn, z1. Khi quay zp góc  ta được

điểm eizp tương tự như vậy các véc tơ hướng biên dp sẽ biến thành ei dp.

Do đó từ đầu tiên có dãy d1 d2 d3.. dn thì sau biến đổi sẽ là d’1 d’2 d’3..d’n d’1.

Trong đó d’p= e-i dp.

Như vậy [d1d2d3..dn d1][d’1d’2d’3....d’n d’1] =  ∑ ̅ =∑  ̅

̅̅̅ | | |∑

Do đó | | [d1d2..dn d1][d’1d’2..d’n d’1]| =

|∑

|

Vì  {   

| là hằng số với các phép quay , |∑

Đây là điều cần chứng minh.

Định nghĩa 1.7. Tích vô hướng chuẩn hóa đường viền [31]

Tích vô hướng chuẩn hóa (NSP):

( )

(1.4)

|Γ| và |N| - Tiêu chuẩn (chiều dài) của đường viền được tính:

(1.5) ) (∑

Tính chất của NSP:

NSP trong không gian phức cũng là một số phức. Do vậy, tính đồng nhất là

giá trị lớn nhất có thể của chuẩn NSP (Theo bất đẳng thức Cauchy-Bunyakovsky

Schwarz): |ab| <= |a||b|, và chỉ có thể đạt được giá trị này khi và chỉ khi:

(1.6)

với μ – Là một số phức tùy chọn.

Khi nhân các số phức, độ dài của chúng được nhân, và các góc được cộng

lại với nhau. Đường viền μN giống với đường viền N, ngoại trừ xoay và tỉ lệ. Tỉ

lệ và hướng xoay được định nghĩa bởi một số phức μ.

18

Do đó dạng chuẩn của NSP đạt giá trị max, chỉ khi đường viền Γ giống với

đường viền N, nhưng xoay theo một số góc và tỉ lệ bởi một hệ số xác định.

Hình 1.4 thể hiện giá trị NSP, |NSP| trên đường viền vector.

Hình 1.4. NSP trên đường viền vector

Ví dụ, coi một TVH của một đường viền với chính nó, nhưng xoay một góc

nhất định:

Nếu nhân NSP của một vector với chính nó, ta sẽ nhận giá trị NSP=1. Nếu xoay đường viền một góc 90o, sẽ nhận giá trị NSP=0+I, xoay một góc 180 độ

nhận giá trị NSP=-1. Do vậy, phần thực của một NSP sẽ cho ta cosin của góc

giữa các đường viền, và chuẩn của NSP luôn bằng 1.

Nếu tăng VC với một hệ số thực nào đó, thì giá trị NSP=1 (công thức 1.9).

NSP thì bất biến đối với phép dịch chuyển, xoay và tỷ lệ của đường viền.

Do vậy, chuẩn của NSP của đường viền cho giá trị đồng nhất chỉ khi 2

đường viền này bằng nhau cả về độ xoay và tỉ lệ. Mặt khác chuẩn của NSP sẽ bị

giới hạn ít đồng nhất hơn.

Chuẩn NSP là bất biến trong phép chuyển dịch, xoay và tỉ lệ của đường

viền. Nếu 2 đường viền tương đồng nhau, NSP của chúng sẽ luôn cho giá trị

đồng nhất, không phụ thuộc vào vị trí của đường viền, hay độ xoay của góc và tỉ

lệ của chúng. Tương tự, nếu các đường viền khác nhau, NSP sẽ bị giới hạn nhỏ

hơn 1, và độc lập trong không gian, độ xoay và tỉ lệ.

19

Chuẩn của NSP là phép đo độ gần của các đường viền. Chuẩn đưa ra giá trị

đo của một đường viền và tham số của một NSP (bằng atan(b/a)) – đưa ra một

góc xoay của đường viền.

Định nghĩa 1.8. Hàm tương quan của 2 đường viền [31]

Hàm tương quan ICF của 2 đường viền:

(m) = (,N(m)), m=0,...,p-1

(1.7) Trong đó N(m): là đường viền nhận từ N bởi vòng dịch chuyển bởi vector cơ

sở EV của chính nó trên m phần tử.

Ví dụ, nếu N = (n1, n2, n3, n4), N(1) = (n2, n3, n4, n1), N(2) = (n3, n4, n1, n2),…

Giá trị của hàm tương quan chỉ ra đường viền Γ và N giống nhau thế nào

nếu chuyển điểm bắt đầu N vào vị trí M.

ICF được định nghĩa trên một tập số nguyên nhưng vòng tròn chuyển dịch

trên tập p dẫn tới đường viền khởi tạo ICF là một chu kỳ, với giai đoạn p. Do đó

ta thấy giá trị của hàm này chỉ giới hạn từ 0 cho tới p-1. Độ lớn của chuẩn tối đa

giữa các giá trị của ICF:

( )

(1.8) ) (

Từ việc xác định một NSP và một ICF, có thể thấy τmax là giá trị đo lường

sự giống nhau của 2 đường viền, bất biến với việc dịch chuyển, xoay, tỉ lệ và sự

thay đổi điểm khởi đầu.

Chuẩn |τmax| chỉ ra mức độ giống nhau của đường viền và đạt được sự đồng

nhất cho đường viền giống nhau, và tham số arg(τmax) cho thấy một góc xoay

của một đường viền so với những đường viền khác. Độ lớn tối đa của chuẩn ICF

được tính bằng sự giống nhau của 2 đường viền. Độ lớn tối đa của chuẩn ICF là

bất biến với phép dịch chuyển, tỉ lệ, xoay và thay đổi điểm khởi đầu.

NSP là được sử dụng trong các công thức để tìm đường viền tương tự nhau.

Nhưng có một vấn đề, là một trường hợp không cho phép sử dụng trực tiếp.

Trường hợp này là việc chọn điểm khởi đầu:

20

Phương trình (1.9) chỉ có thể đạt được khi và chỉ khi điểm khởi đầu của

đường viền là trùng nhau. Nếu đường viền là đồng nhất nhưng EV bắt đầu với

một điểm khác, chuẩn NSP của đường viền sẽ không bằng với giá trị đồng nhất.

Định nghĩa 1.9. Hàm tự tương quan của đường viền [31]

Hàm tự tương quan (ACF) là hàm tương quan và có N=Γ. TVH của đường

viền trên chính nó tại các dịch chuyển khác nhau của điểm khởi đầu được tính

theo công thức:

(m) = (, (m)), m=0,...,p-1 (1.9)

Một số đặc tính của ACF:

1. ACF không phụ thuộc vào việc chọn điểm khởi đầu của đường viền. Dựa

trên việc xác định TVH (1.2), có thể thấy việc thay đổi điểm khởi đầu dẫn tới sự

thay đổi thứ tự của phần tử khả tổng và không làm thay đổi tổng.

2. Chuẩn ACF có liên quan đối xứng tới quy chiếu trung tâm p/2. Vì ACF

là tổng của tích đôi một EV của một đường viền mà mỗi cặp sẽ giao nhau 2 lần

trong một khoảng thời gian từ 0 đến p.

Ví dụ, N = (n1, n2, n3, n4), ta có thể viết giá trị của một ACF cho các giá

trị m khác nhau.

ACF(0)=(n1,n1)+(n2,n2)+(n3,n3)+(n4,n4)

ACF(1)=(n1,n2)+(n2,n3)+(n3,n4)+(n4,n1)

ACF(2)=(n1,n3)+(n2,n4)+(n3,n1)+(n4,n2)

ACF(3)=(n1,n4)+(n2,n1)+(n3,n2)+(n4,n3)

ACF(4)=(n1,n1)+(n2,n2)+(n3,n3)+(n4,n4)

Chú ý rằng đối tượng trong ACF(1) là giống với trong ACF(3) trong việc

hoán đổi hệ số. Một số phức (a,b)=(b,a)* sẽ nhận giá trị ACF(!)=ACF(3)*, với *

là một ký hiệu số phức liên hiệp.

Và |a*|=|a| cho thấy chuẩn ACF(1) và ACF(3) là tương đồng. Tương tự,

chuẩn ACF(0) và ACF(4) là tương đồng.

21

Thêm vào đó, với 1 ACF ta sẽ hiểu chỉ một phần của hàm trong một

khoảng thời gian từ 0 đến p/2 như một phần còn lại của hàm là đối xứng với

phần đầu tiên.

1. Nếu đường viền có nhiều đối xứng để xoay thì ACF của chúng sẽ có đối

xứng tương tự nhau. Ví dụ, xét đồ họa một ACF cho một số đường viền (Hình

1.5) sau:

Hình 1.5. Biểu diễn đường viền và lược đồ xám

Trong ảnh trên, chuẩn của ACF được thể hiện bằng màu xanh đậm (1 ACF

được thể hiện cho một khoảng thời gian từ 0 đến p/2). Tất cả các đường viền,

ngoại trừ đường viền cuối cùng có đối xứng xoay cái mà ACF dẫn tới đối xứng.

Đường viền cuối cùng không có đối xứng và biểu đồ ACF của nó không có đối

xứng.

2. Có thể coi một đường viền ACF là một đặc tính của hình dạng của

đường viền. Đường viền gần tròn có các giá trị duy nhất của chuẩn ACF. Hình

dạng thon hẳn về một hướng, có độ nghiêng ở phần trung tâm 1 ACF (hình 1.6).

Hình dạng này thay đổi theo vòng, lần lượt, có giá trị cực đại ACF ở một vị trí

thích hợp.

3. Chuẩn ACF không phụ thuộc vào tỉ lệ, vị trí, xoay và việc chọn điểm bắt

đầu của đường viền.

1.1.5. Nền và đối tượng chuyển động

Nền hay hình nền [24] là các hình đại diện cho một quang cảnh trong video

khi không có đối tượng chuyển động và phải được giữ cập nhật thường xuyên để

thích ứng với các điều kiện khác nhau về ánh sáng. Nói cách khác trong video,

22

nền là những đối tượng đứng yên không chuyển động. Trên thực tế khó có một

nền có được các đối tượng đứng yên tuyệt đối, mà luôn có những dao động nhỏ

như cành lá cây đung đưa, mặt nước có sóng, đối tượng đang đi thì đứng lại,

hoặc đang đứng yên lại chuyển động... Trong các kỹ thuật phát hiện đối tượng

chuyển động thường sử dụng phép lấy nền là trung bình của các nền theo thời

gian bằng các cách khác nhau. Tuy nhiên nền tối ưu là nền có độ lệch so với nền

trung bình là bé nhất.

Một trong những thao tác cơ bản trong xử lý video là tách đối tượng

chuyển động ra khỏi nền. Nhiều phương pháp đã sử dụng trong đó có các

phương pháp trừ nền. Thường được thực hiện bằng cách gán nhãn cho các điểm

ảnh trong các khung hình. Điểm ảnh thuộc đối tượng chuyển động được gán

nhãn là "1" và thuộc nền được gán nhãn là "0".

1.1.6. Entropy của khối

Định nghĩa 1.10. Entropy

Entropy [28] là một đại lượng toán học dùng để đo lượng tin không chắc

chắn (hay lượng ngẫu nhiên) của một sự kiện hay của phân phối ngẫu nhiên cho

trước.

Yu-Kumg Chen, Tung-Yi Cheng, Shuo-Tsung Chiu (2009), trong công

trình [28] đã đề xuất phương pháp phát hiện chuyển động sử dụng lý thuyết

Entropy.

Entropy của x là giá trị kỳ vọng của biến ngẫu nhiên mà x có thể nhận.

Trong trường hợp này, biến x là độ lệch về màu sắc giữa khung hình mới đến và

khung hình hiện thời. Nếu độ lệch màu sắc không có biến đổi gì hoặc giá trị độ

lệch chỉ nằm trong 1 khoảng duy nhất (Entropy nhỏ hơn một ngưỡng cho trước)

thì ta coi như không có sự thay đổi về màu sắc của x. Ngược lại, nếu Entropy

lớn hơn ngưỡng trên thì có thể kết luận đã có sự sai khác về màu sắc của x.

Trong bài toán phát hiện chuyển động, có thể sử dụng giá trị Entropy để

xác định xem những điểm ảnh có phải của đối tượng chuyển động không. Khi

giá trị Entropy của điểm ảnh có sự thay đổi ở một ngưỡng nào đó, thì có thể kết

23

luận đây là điểm ảnh của đối tượng chuyển động, ngược lại, giá trị Entropy này

không thay đổi hoặc thay đổi trong một khoảng nhỏ nào đó (nhỏ hơn giá trị của

ngưỡng) xác định đây không phải là điểm ảnh của đối tượng chuyển động.

Tính giá trị Entropy của một phân phối:

Xét biến ngẫu nhiên X có phân phối:

X x1 x2 x3 … xM

P p1 p2 p3 … pM

Nếu gọi Ai là sự kiện X = xi, (i=1, 2, 3,..) thì Entropy của Ai là: h(Ai)=h(pi)

với pi là phân phối xác suất của X.

Gọi Y=h(X) là hàm ngẫu nhiên của X và nhận các giá trị là dãy các

Entropy của các sự kiện X=xi, tức là Y=h(X)={h(p1), h(p2), …, h(pn)}. Entropy

của X chính là kỳ vọng toán học của Y = h(X) có dạng:

H(X) = H(p1, p2, p3, …,pn) = p1h(p1) + p2h(p2) + … + pnh(pn)

Tổng quát Entropy của X là: ( ) ∑ ( )

Dạng giải tích của Entropy:

(1.10) ( ) ( ) ∑ ( )

trong đó C = const > 0; cơ số logarithm là bất kỳ.

Bổ đề: h(p)=-Clog(p)

Trường hợp C = 1 và cơ số logarithm = 2 thì đơn vị tính là bit.

Khi đó: h(p)=-log(p) (đvt: bit) và Entropy của X là:

(1.11) ( ) ( ) ∑ ( )

Sử dụng giá trị Entropy của độ lệch (hiệu tuyệt đối) giữa khung hình hiện

thời và nền, hay nói khác đi đó chính là độ lệch về màu sắc của hai khung hình

video. Việc xác định giá trị Entropy của độ lệch này là cơ sở để xác định những

điểm ảnh của đối tượng chuyển động.

24

Sau khi xây dựng được nền tối ưu Bt(x,y) tương ứng với mỗi khung hình

hiện thời It(x,y), tính hiệu tuyệt đối Δt(x,y) giữa mô hình nền tối ưu và khung

hình hiện thời:

(1.12) ( ) ( ) ( )

Khối ảnh, thường được sử dụng trong xử lý hình ảnh và bao đối tượng

chuyển động trong phát hiện chuyển động [22]. Giả sử ký hiệu một khối ảnh có

chiều dài và rộng bằng nhau, được ký hiệu là ww, giá trị mức xám điểm ảnh

trong khối là ww(i,j) với i,j=1..n, với n là kích thước của khối.

Giả sử, với mỗi khối ww(i,j) với hiệu tuyệt đối Δt(x,y) được tạo thành

( ) được định nghĩa như sau:

bởi vector xám rời rạc cấp V {L0, L1, …, LV-1}. Hàm mật độ xác suất của những

điểm ảnh có mức xám h của khối ww(i,j):

( )

( )

(1.13)

( ) là số pixel tương ứng với mức

Trong đó: h là phần tử tùy ý của {L0, L1, …, LV-1} đại diện cho bất kỳ

vector mức xám trong mỗi khối ww(i,j);

xám h tùy ý; Coi h0 khi h<,  là giá trị ngưỡng chuyển động đối với cấp

xám rời rạc.

Như vậy, giá trị Entropy của khối theo định nghĩa được tính bởi:

( ))

( ) (

(1.14) ( ) ∑

Sau khi giá trị Entropy E(i,j) của mỗi khối ww được tính, khối chuyển

động A(i,j) được xác định như sau:

(1.15) ( ) { ( )

Khi tính giá trị Entropy của khối A(i,j) lớn hơn T (T là ngưỡng cho các giá

trị Entropy), khối A(i,j) được gán bằng ‘1’, có nghĩa A(i,j) chứa những điểm ảnh

của đối tượng chuyển động. Ngược lại, A(i,j) gán bằng ‘0’, có nghĩa khối đó

không chứa điểm ảnh của đối tượng chuyển động.

25

Biểu diễn hình dạng đối tượng theo vector khoảng cách 1.1.7.

Trong công trình [26] của Yigithan Dedeoglu, đã định nghĩa khái niệm về

khoảng cách giữa các điểm ảnh, véc tơ trọng tâm đối tượng.

Một số vấn đề đặt ra với việc xấp xỉ đối tượng bằng hình dạng:

- Xấp xỉ hình dạng của đối tượng bằng đa giác.

- Theo định nghĩa 1.3, tham số  càng bé thì mức độ xấp xỉ càng chính xác,

tuy nhiên ảnh hưởng đến độ phức tạp tính toán.

- Xác định các đỉnh của đa giác. Đỉnh của đa giác được thiết lập khi có sự

thay đổi về hướng của đường biên đối tượng.

- Xác định điểm trọng tâm của đa giác. Điểm trọng tâm được tính toán theo

phương pháp hình học phẳng.

- Xác định độ dài khoảng cách từ tâm của đa giác lên cạnh của đa giác xấp

xỉ. Cần xác định số lượng các điểm chia trên mỗi cạnh của đa giác để tính độ dài

khoảng cách.

- Xác định điểm bắt đầu biểu diễn xấp xỉ đa giác.

- Đối tượng hoàn toàn có thể biểu diễn bằng một chuỗi độ dài các khoảng

cách. Từ đây có thể thay thế thao tác trên hình học bằng thao tác trên đại số và

có thể lập trình trên máy tính để xác định, kết luận về đa giác xấp xỉ.

Xấp xỉ hình dạng đối tượng bằng đa giác:

Biên của đối tượng trong ảnh là đường phân cách giữa đối tượng với nền và

các đối tượng khác trong ảnh. Giữa biên và nền giá trị mức xám các điểm ảnh

thường có sự thay đổi đột ngột. Trong xử lý ảnh, bài toán tìm biên của đối tượng

có nhiều phương pháp khác nhau như kỹ thuật Prewitt, Sobel, Laplace, Canny.

Tuy nhiên theo hướng tiếp cận phương pháp trừ nền thì thu được mặt nạ đối

tượng và nền là tách nhau, nên không sử dụng các kỹ thuật Prewitt, Sobel,

Laplace, Canny. Sau khi có mặt nạ đối tượng chuyển động, trích chọn lấy đường

biên, thực hiện xấp hình dạng đối tượng bằng đa giác bằng một số phương pháp

chẳng hạn như phương pháp đơn giản hóa đường cong theo thuật toán Douglas

Peucker [29].

26

Về xấp xỉ hình dạng bằng đa giác, năm 2001, George S.K. Fung và cộng sự

đã nghiên cứu các phương pháp xấp xỉ hình dạng phương tiện từ chuyển động

cho các hệ thống giám sát giao thông bằng hình ảnh [11].

Vector hóa hình dạng đối tượng:

Cho một bức hình chứa một đối tượng, với bố cục nền không phức tạp, dễ

dàng phát hiện được biên đối tượng, và trích chọn nội dung đối tượng để làm

đặc trưng cho bức ảnh. Phương pháp biểu diễn hình ảnh thông qua lược đồ

khoảng cách thực hiện dựa trên các hình đa giác và trọng tâm của đa giác (thuộc

a) Đường tròn gốc

c) 8 điểm cơ bản

d) 16 điểm cơ bản

tính hình học).

b) Với 4 điểm cơ bản

Hình 1.6. Mô tả hình dạng hình tròn

Hình 1.6 cho thấy, khi số lượng điểm cơ bản trên biên của hình tròn càng

tăng thì hình mô tả sẽ gần giống hơn đối với hình ảnh gốc, và các điểm biên cơ

bản này luôn được căng đều trên biên, đồng thời dây cung nối giữa các điểm này

sẽ tạo lên đường mô phỏng hình dạng gốc.

Hình 1.7 cho thấy, với một hình dạng khối đối tượng bất kỳ, có thể xấp xỉ

bằng một đa giác n cạnh.

Công việc xác định điểm cơ bản được thực hiện bằng cách, duyệt lần lượt

các điểm ảnh biên theo thứ tự ngược chiều kim đồng hồ hoặc xuôi chiều kim

đồng hồ. Thu được tổng số điểm ảnh trên biên của đối tượng, sau đó chia đều

theo số điểm cơ bản cho trước theo công thức sau:

(1.16)

với Lrounded là khoảng cách giữa các điểm cơ bản trên biên đã được làm

tròn, Lsum là tổng chiều dài của biên ảnh, N là số lượng điểm cơ bản cho trước.

27

Cho hình đa giác bất kỳ, có các đỉnh (xi,yi) với i = 0,1,2,…n, x0=xn,y0=yn.

Hình 1.7. Đa giác xấp xỉ đối tượng có n cạnh

Diện tích của đa giác:

(1.17) ) ∑ (

Xác định tọa độ trọng tâm của đa giác theo công thức (định lý Green):

(( )( )) ( ) ∑

̅

(( )( )) ∑ ( )

(1.18) ̅

Điểm mẫu là tập hợp các điểm được chọn trên đường biên của hình dạng để

mô tả đầy đủ cho một hình dạng (Hình 1.8). Nếu một đa giác có chiều dài các

cạnh là Li(i=1..n), tổng chiều dài của tất cả cạnh là Lsum và số lượng điểm mẫu

cần lấy để tính toán là N thì số lượng điểm mẫu sẽ là Ni tương ứng với cạnh thứ

i là:

N (1.19)

Khoảng cách từ điểm mẫu có tọa độ si = (xi,yi) và trung tâm đa giác có tọa

độ c=(xc,yc), được tính theo công thức Ơclit:

(1.20) ( ) √( ) ( )

28

Hình 1.8. Điểm mẫu căng đều trên mỗi cạnh biên

Lược đồ là một công cụ miêu tả các thuộc tính của dữ liệu. Các điểm mẫu

sẽ được đặt cách đều nhau trên biên của đa giác, đặt khoảng cách giữa hai điểm

mẫu kề nhau là D, và tổng độ dài của biên sẽ là Dmax, phân tách D thành nhiều

phần thông qua các điểm mẫu. Dãy sau thể hiện phân tách biên thành R thành

phần:

[ ] [ ] [ ] [( ) ]

(1.21)

e) Chuẩn hóa

Gọi D[i] là tập giá trị khoảng cách từ tâm C đến các điểm mẫu trên biên. Ta

[ ] . { }

có tập DS (chuẩn hóa) được chuẩn hóa [ ]

Sau quá trình chuẩn hóa, tất cả khoảng cách chuẩn hóa thu được sẽ nằm

trong khoảng [0,1]. Bởi vì việc gán điểm mẫu dựa trên chiều dài của biên, và

căng đều chúng trên biên, hai đa giác có kích thước khác nhau nhưng hình dạng

giống nhau sẽ sinh ra giá trị khoảng cách chuẩn hóa. Do đó, phương pháp này là

bất biến đối với tỷ lệ sau khi chuẩn hóa.

Độ đo tương tự của các đối tượng:

Lược đồ khoảng cách của một đa giác có thể được mô tả bằng:

(d0,d1,d2,d3,…dn), n là số lượng khoảng cách trong lược đồ và di, i  [0, n-1] là

số khoảng cách trong vùng khoảng cách này. Theo đó cho hai đa giác D1 và D2

29

với lược đồ khoảng cách tương ứng là D1: (d11,d12,d13,…,D1n) và D2:

(d21,d22,d23,…,d2n), có độ tương tự được tính theo khoảng cách Ơclit:

(1.22) ( ) √∑ ( )

Đánh giá về vector hóa hình dạng đối tượng:

Biểu diễn hình dạng đối tượng theo trọng tâm và khoảng cách từ tâm đến

biên đối tượng, áp dụng các tính chất bất biến quay, bất biến tỷ lệ của mô-men

mang đến khả năng nhận dạng và phân loại đối tượng theo hình dạng. Điều này

có thể áp dụng phân loại phương tiện giao thông trên đường trong trường hợp

đông đúc, có sự chồng lấp lên nhau về hình dạng sau khi thực hiện phát hiện

khối chuyển động. Trong điều kiện giao thông đô thị đông đúc, các xe ô tô, xe

máy, người đi bộ có thể đi sát nhau và tạo thành các khối chuyển động có hình

dạng phức tạp và khó có thể phân định được bằng các phương pháp thông

thường. Để thực hiện nhận dạng và xác định số lượng đối tượng có thể áp dụng

thuật toán máy học. Tạo ra một tập huấn luyện các khả năng có thể, sau đó đối

sánh và kết luận về số lượng phương tiện chuyển động.

1.2. Một số phương pháp và công trình nghiên cứu liên quan

Trên thế giới, nhiều công trình nghiên cứu về hệ thống giám sát giao

thông tự động đã công bố và có những kết quả xác định. Ví dụ như hệ thống

đếm xe ô tô của Clement Chun Cheong Pang và cộng sự [8]; hệ thống phát hiện

và phân loại xe dựa trên video của nhóm Guohui Zhang, trường đại học

Washington [12]; hệ thống tích hợp phát hiện, theo dõi và phân loại cho mục

đích giám sát video thông minh của Yigithan Dedeoglu [26], năm 2004.

Ở Việt nam gần đây, cũng đã có những công trình nghiên cứu về vấn đề

này, một vài nghiên cứu đã triển khai ứng dụng hiệu quả trong công tác quản lý

giao thông. Năm 2014 nhóm Phạm Hồng Quang, Tạ Tuấn Anh, xây dựng cấu

trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin,

truyền thông, điều khiển áp dụng trong hệ thống giao thông thông minh tại Việt

Nam thuộc đề tài KC01.14/11-15, Trung tâm Tin học và Tính Toán, Viện Hàn

30

lâm KHCN Việt Nam. Năm 2014, Phạm Hồng Quang và cộng sự Công ty Cổ

phần Phần mềm - Tự động hóa - Điều khiển đã Xây dựng mạng camera với hệ

thống xử lý hình ảnh thông minh phục vụ điều khiển giao thông và giám sát an

ninh thuộc đề tài KC03.DA06/11-15. Năm 2011, nhóm Trần Thanh Việt, Trần

Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Đỗ Năng Toàn, Trần Hành

đã công bố công trình nghiên cứu "Một kỹ thuật bám đối tượng và ứng dụng".

Kỷ yếu hội thảo quốc gia "Những vấn đề nghiên cứu trọng điểm về công nghệ

thông tin", lần thứ XIV, Đại học Cần Thơ.

Hệ thống điều khiển giao thông và giám sát an ninh 1.2.1.

Nhóm nghiên cứu Phạm Hồng Quang (2014), Trung tâm Tin học và Tính

Toán, Viện Hàn lâm KHCN Việt Nam cùng đồng nghiệp chủ trì Đề tài

KC01.14/11-15 “Xây dựng cấu trúc hệ thống giao thông thông minh và các quy

chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống giao

thông thông minh tại Việt Nam” [1] và Dự án SXTN mã số KC03.DA06/11-15

“Hoàn thiện tính năng hệ thống giám sát hình ảnh giao thông thông minh” [2] sử

dụng các quá trình thu nhận dữ liệu từ Camera IP, truyền dẫn dữ liệu và xử lý

ảnh, video thời gian thực áp dụng cho các hệ thống điều khiển giao thông và

giám sát an ninh (Hình 1.10).

Quá trình xử lý ảnh được coi là bộ não xử lý của hệ thống. Yêu cầu của hệ

thống phải xử lý được với dữ liệu hình ảnh có độ phân giải cao và chạy ở thời

gian thực. Do đó quy trình xử lý hình ảnh phải được nghiên cứu và tối ưu hóa tại

các bước để hệ thống cho ra kết quả đạt chất lượng như mục tiêu nhưng vẫn phải

đảm bảo hiệu năng hệ thống theo thời gian thực.

Các nhà khoa học đã thiết kế mạng lưới camera và quy trình xử lý ảnh

chụp được, nhằm nhận dạng biển số và đo tốc độ, phân loại xe, đo chiều dài xe,

phát hiện các hành vi khác của phương tiện như dừng đỗ, đi sai làn đường...

Toàn bộ quy trình được tích hợp trong hệ thống CadProTMS (Hình 1.9). Các

tính năng thông minh của hệ thống được xây dựng dựa trên việc thu thập dữ liệu

tự động nhờ các thuật toán xử lý hình ảnh thu nhận được từ các camera. Hệ

31

thống phần mềm được triển khai cùng với các thiết kế tích hợp thiết bị và lắp đặt

tại hiện trường đã tạo ra nhiều hệ thống được ứng dụng hiệu quả trong thực tiễn

như Trung tâm điều khiển đèn tín hiệu giao thông thành phố Hà Nội, Hệ thống

giám sát và xử lý vi phạm giao thông bằng hình ảnh tại Cục Cảnh sát giao thông

Đường bộ và Đường sắt (C67), Trung tâm Điều hành giao thông đường cao tốc

Cầu Giẽ - Ninh Bình, Hệ thống giám sát số thu phí trạm Bãi Cháy và Hoàng

Mai. CadProTMS là một sản phẩm công nghệ cao có thể thay thế các giải pháp

đầu tư rất đắt tiền từ nước ngoài. Không chỉ tiết kiệm chi phí, hệ thống còn có

những tính năng riêng biệt phù hợp với nhu cầu thực tiễn nghiệp vụ tại Việt

Nam. Các camera IP đã được sử dụng thay thế các công nghệ thiết bị dễ hỏng,

đòi hỏi chi phí bảo dưỡng bảo trì cao như vòng từ, cảm biến hiện trường lắp đặt

trên nền đường để giám sát giao thông.

Hình 1.9. Kiến trúc tổng thể hệ thống CadProTMS

Hệ thống đã được triển khai áp dụng trong tại cao tốc Cầu Giẽ - Ninh

Bình. Có cả tất 22 camera đã được lắp đặt tại 11 vị trí khác nhau dọc tuyến

đường cao tốc từ Km212+480 cho đến Km259+060. Tại mỗi vị trí lắp đặt, có 2

camera để giám sát theo 2 chiều đi khác nhau của đường cao tốc. Các camera

32

được lắp đặt trên các khung giá long môn hoặc trên cột có tay vươn ở độ cao

trên 6m.

Hình 1.10. Trạm nghiệp vụ xử lý phạt nguội vượt đèn đỏ ngã tư

Hệ thống xử lý ảnh đã đưa ra được ngày giờ và vị trí của các lượt đếm xe,

biển số xe nhận dạng, tốc độ xe đo được, phân loại xe theo kích thước, cảnh

báo sự kiện xe đi ngược chiều, xe dừng đỗ, xe đi vào đường cấm…từ nguồn

hình ảnh video ghi được do các camera gửi về từ hiện trường.

Từ đây, các dữ liệu sẽ truyền về các cơ quan chức năng (cảnh sát giao

thông, thanh tra giao thông) để phát hiện các xe đi quá tốc độ, lấn đường...và có

thể in biên bản phạt nguội.

Tuy nhiên, camera mới chỉ hoạt động tốt ở thời điểm ánh sáng mạnh, còn

vào thời điểm ban đêm hoặc chiều tối, độ chính xác nhận dạng biển số và đếm

lượng xe có bị giảm. Khi mức độ dày đặc phương tiện được gia tăng, việc căn

cứ vào một số đặc tính kỹ thuật khác về kích thước khối hỗn hợp phương tiện,

phân tách và nhận dạng vẫn là vấn đề vẫn cần nghiên cứu tiếp tục.

1.2.2. Hệ thống phát hiện và phân loại xe dựa trên video

Năm 2007, nhóm Guohui Zhang, trường đại học Washington [12], đã phát

triển một hệ thống phát hiện và phân loại xe dựa trên video (Video-based

Vehicle Detection and Classification- VVDC). Hệ thống được phát triển nhằm

mục đích thu thập thông tin các xe tải từ camera quan sát tầm rộng. Một vài

thuật toán dựa trên thị giác máy tính được phát triển hoặc áp dụng để tách ra ảnh

nền từ một chuỗi video, phát hiện ra hình dáng xe tải, xác định và loại bỏ bóng

của xe, cuối cùng tính toán chiều dài xe dựa trên điểm ảnh rồi phân loại xe. Sự

33

cẩn thận được yêu cầu nghiêm ngặt để xử lý các tác động tiêu cực do sự tắc

nghẽn theo chiều ngang và độ rung nhẹ của máy ảnh. Những điểm ảnh thể hiện

độ dài xe được mô tả nhằm phân biệt sự khác nhau tương đối giữa loại xe dài và

xe ngắn.

Cấu trúc của hệ thống VVDC bao gồm 6 mô-đun: quay video trực tiếp,

người dùng nhập liệu, xuất ảnh nền, phát hiện xe tải, loại bỏ bóng và phân loại

xe dựa vào độ dài xe. Hình 1.11 thề hiện rõ chu trình của hệ thống. Hệ thống

VVDC lấy những bức ảnh video kỹ thuật số hay những tín hiệu video trực tiếp

làm dữ liệu đầu vào. Phần ảnh nền sẽ được tách ra từ video đầu vào và được cập

nhật thường xuyên sao cho thích hợp với sự thay đổi của môi trường. Một khi hệ

thống bắt đầu thu thập dữ liệu, nó giám sát các vòng lặp ảo để phát hiện xe tải.

Bước loại bỏ bóng được áp dụng với từng chiếc xe đã phát hiện trước khi tính

toán độ dài xe dựa trên những điểm ảnh. Cuối cùng một chiếc xe được xếp vào

loại dài hay ngắn dựa trên độ dài tính toán qua điểm ảnh.

Hình 1.11. Cấu trúc hệ thống phát hiện và phân loại xe dựa trên video

34

Thuật toán thực hiện trong hệ thống VVDC được cài đặt bằng Microsoft

Visual C#, có khả năng xử lý tất cả loạt ảnh được số hóa cũng như những tín

hiệu video trực tiếp trong thời gian thực. Hệ thống được thử nghiệm tại ba địa

điểm với sự khác nhau về giao thông cũng như điều kiện môi trường. Kết quả

thu được là độ chính xác để phát hiện ra xe lên đến trên 97%, và tỷ lệ lỗi khi

đếm xe tải thấp hơn 9% trong cả ba lần thử nghiệm. Điều này chứng tỏ rằng việc

phát triển phương pháp xử lý hình ảnh trên video nhằm phát hiện và phân loại

trong nghiên cứu này là một giải pháp thay thế khả thi cho việc thu thập dữ liệu

các loại xe tải.

Đánh giá hướng tiếp cận theo phương pháp của Guohui Zhang:

- Phát hiện đối tượng chuyển động bằng phương pháp trừ nền (BSM), cụ

thể Guohui Zhang đã sử dụng phương pháp trung bình các khung hình để mô

hình nền.

- Phát hiện biên đối tượng, tính toán độ dài để phân loại xe ô tô tải.

- Kết quả chủ yếu là phát hiện được xe tải, xác định và phân hoạch được sự

khác biệt giữa 2-3 xe con nối tiếp nhau và xe tải dài.

- Chưa tiếp cận và nói đến việc nhận dạng và đếm số lượng xe máy, xe thô

sơ và người đi bộ. Tham số giao thông trong điều kiện riêng có của Việt Nam đa

dạng và đông đúc các phương tiện thì tiếp cận theo phương pháp Guohui Zhang

chưa đáp ứng được yêu cầu nhiều thông tin của phương tiện chuyển động.

1.2.3. Hệ thống giám sát giao thông dựa trên độ dài

Năm 2010, nhóm nghiên cứu của Chung-Cheng Chiu và cộng sự [7], đã

phát triển một hệ thống giám sát giao thông tự động nhận dạng và theo dõi ô tô

dựa trên kích thước. Nghiên cứu của Chung-Cheng Chiu phát triển một hệ thống

giám sát giao thông thời gian thực, bao gồm phát hiện, nhận dạng và theo dõi

các phương tiện từ các ảnh chụp trên đường (Hình 1.12). Các ô tô chuyển động

có thể được tự động tách từ các ảnh chụp liên tiếp bằng phương pháp phân đoạn

đối tượng chuyển động.

Phương pháp phân đoạn và nhận dạng sử dụng chiều dài, chiều rộng và

kích thước mui xe để phân loại các phương tiện như xe tải lớn/nhỏ, xe con hoặc

35

các phương tiện lớn khác. Các đối tượng được phân đoạn có thể được nhận dạng

và đếm tương ứng với các đặc tính khác nhau của chúng, tùy theo các phương

pháp nhận dạng và theo dõi được đề xuất.

Hệ thống đã được thử nghiệm trên các đoạn đường, sử dụng nhiều cảnh

đường phức tạp, dưới ảnh hưởng của nhiều điều kiện thời tiết khác nhau, từ đó

thảo luận và chứng minh độ chính xác, khả năng đáp ứng nhanh của phương

pháp này. Kết quả xác định phát hiện các loại xe, từ xe tải to đến các xe con, xe

chuyên dùng mini,... có độ chính xác từ 90% đến 98%.

Giai đoạn đầu tiên, phân đoạn các ô tô chuyển động, sử dụng BSM. Các đối

tượng chuyển động được phát hiện bằng cách lấy ảnh đầu vào trừ đi ảnh nền.

Giai đoạn thứ hai, các ô tô chuyển động được gán nhãn các thành phần kết

nối để thu được các khung có đường biên. Các ô tô trong khối được phát hiện và

phân đoạn trong các ô biên. Phương pháp này hiệu quả đối với việc phát hiện và

phân đoạn các loại ô tô khác nhau trong khối trên dựa trên đặc điểm hình dạng

của chúng, có thể phân thành hai hoặc nhiều hơn hai khối ô tô ràng buộc nhau.

Hình 1.12. Sơ đồ của hệ thống giám sát giao thông tự động

Cuối cùng, các phương pháp nhận dạng và theo dõi được áp dụng để xử lý

cho mỗi xe. Hệ thống đề xuất có thể phân loại thành 5 loại xe ô tô, phát hiện

luồng giao thông và tốc độ trung bình theo thời gian thực.

Đánh giá hướng tiếp cận của Chung-Cheng Chiu:

- Hệ thống dùng BSM để phát hiện đối tượng chuyển động, sử dụng độ dài

của các đối tượng, bao gồm chiều dài, chiều rộng, độ dài một số thuộc tính của

36

xe ô tô để tiến hành nhận dạng và phân loại. Kết quả đã phân loại được một số

loại xe ô tô như xe con, xe tải, xe bán tải, xe tải.

- Hệ thống đã sử dụng một CSDL kích thước xe (chiều dài, chiều rộng) để

phân biệt một xe ô tô và các ô tô dính khối với nhau, từ đó phân giải các khối

nhiều hơn một ô tô. Trong một số trường hợp như rất nhiều xe dính khối, hoặc

che khuất tầm nhìn một phần thì việc phân giải các khối bị thất bại.

- Tuy vậy, hệ thống mới đề cập đến vấn đề phương tiện giao thông là ô tô,

chưa đề cập đến các phương tiện khác như xe máy, phương tiện thô sơ khác.

Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại

1.2.4.

Trong nghiên cứu của Yigithan Dedeoglu [26], đã đề xuất một hệ thống

tích hợp phát hiện, theo dõi và phân loại (Hình 1.13) cho mục đích giám sát

video thông minh.

Hình 1.13. Cấu trúc hệ thống tích hợp phát hiện, phân loại, theo dõi đối tượng

Hệ thống phát hiện đối tượng chuyển động đề cập đến ba phương pháp cơ

bản đó là: trừ nền, thống kê và chênh lệch thời gian.

Về phân loại đối tượng chuyển động, Yigithan Dedeoglu đề cập đến

phương pháp phân loại dựa trên hình chiếu đối tượng.

Đầu tiên, giai đoạn offline, xây dựng một CSDL hình chiếu mẫu dựa trên

việc vector hóa khoảng cách từ trọng tâm đối tượng tới biên của hình dạng đối

tượng. Bước này được thực hiện theo phương pháp thủ công.

Tiếp theo, giai đoạn online, từ kết quả phát hiện đối tượng chuyển động, rút

trích hình chiếu các đối tượng theo vector hóa khoảng cách từ trọng tâm đối

tượng đến biên của hình dạng đối tượng. So sánh dấu hiệu khoảng cách của tập

37

đối tượng phát hiện được với dấu hiệu khoảng cách có trong tập mẫu, thỏa mãn

một ngưỡng xác định, qua đó kết luận thông tin của đối tượng cần xác định.

Hình 1.14. Cấu trúc hệ thống phát hiện đối tượng chuyển động

Yigithan Dedeoglu sử dụng phương pháp trừ nền, thống kê, chênh lệch tạm

thời để phát hiện tiền cảnh (Hình 1.14). Về phân loại, Yigithan Dedeoglu sử

dụng một cơ sở dữ liệu chứa các dấu hiệu khoảng cách của các đối tượng mẫu

cho việc đối sánh và nhận dạng (Hình 1.15).

Đánh giá hướng tiếp cận của Yigithan Dedeoglu:

- Hệ thống nghiên cứu của Yigithan Dedeoglu đề cập ba chức năng chính

của một hệ thống giám sát tự động từ video: phát hiện, phân loại và theo dõi.

- Về phát hiện đối tượng chuyển động, Yigithan Dedeoglu sử dụng dựa trên

BSM, dựa trên mô hình Gauss hỗn hợp. Tuy nhiên chưa đề cập chi tiết đến sự

tác động của ánh sáng thay đổi, đặc biệt là với các ứng dụng giám sát ngoài trời.

- Về phân loại đối tượng chuyển động, Yigithan Dedeoglu sử dụng dựa trên

độ dài khoảng cách hình chiếu đối tượng. Cách tiếp cận này tỏ ra hiệu quả trong

nhiều trường hợp các đối tượng phát hiện được có hình dạng phức tạp, tức là có

hình dạng không thuộc các hình dạng cơ bản như: hình chữ nhật, hình vuông,

hình tròn... Tuy nhiên Yigithan Dedeoglu chưa đề cập đến các đặc trưng riêng

của các phương tiện giao thông. Nếu phân tích riêng tới các đặc trưng của

phương tiện giao thông như chiều dài, chiều rộng đối tượng, các đặc trưng

38

đường viền, các đặc trưng đường biên ngang trên thân đối tượng,... hoặc chỉ số

hóa các tập đối tượng so sánh, rút ngắn thời gian tính toán của hệ thống.

Hình 1.15. Lược đồ khái quát phân loại đối tượng dựa trên hình chiếu

(O là đối tượng, Dist là khoảng cách)

1.2.5. Phát hiện đối tượng

Bài toán phát hiện chuyển động đã được thế giới nghiên cứu từ rất sớm.

Cho tới thời điểm hiện nay, đã có nhiều thuật toán phát hiện chuyển động được

công bố [17]. Một số thuật toán mới được công bố trong những năm qua đã

được chứng minh có độ chính xác tương đối cao, thời gian tính toán thấp và xử

lý được môi trường biến động, nhiều đối tượng chuyển động. Theo các nghiên

cứu trong [15], [17], [21], [23] bài toán phát hiện đối tượng được khái quát:

 Đầu vào:

o Các khung hình được trích chọn từ video

 Đầu ra:

o Ảnh nhị phân chứa các đối tượng chuyển động

39

o Các thông số khác về ảnh: lưu lượng quang học, đường biên,

đường biên, trọng tâm, khoảng cách.

 Phương pháp tiếp cận:

o Mô hình hóa nền (Background model)

o Trừ nền (Background Subtraction)

o Phương pháp thống kê (Statistical Methods)

o Vi phân ảnh theo thời gian (Temporal Differencing)

o Luồng quang học (Optical Flow)

o Phát hiện bóng và thay đổi ánh sáng

o Và một số phương pháp tiếp cận kết hợp khác

Theo nghiên cứu trong [24], để giải quyết mô hình hóa nền, nhiều phương

pháp đã được phát triển và được phân loại thành các loại sau:

Mô hình nền cơ bản: sử dụng giá trị trung bình hoặc bình quân hoặc phân

tích lược đồ xám cho toàn thời gian.

Mô hình nền thống kê: sử dụng một Gauss đơn hoặc một hỗn hợp Gauss

hoặc một tính toán mật độ lõi. Các biến thống kê được sử dụng để phân loại các

điểm ảnh là điểm tiền cảnh hay là nền.

Mô hình nền mờ: sử dụng một giá trị trung bình mờ hoặc hỗn hợp mờ loại 2

của Gauss. Phát hiện tiền cảnh được sử dụng tích phân Sugeno hoặc tích phân

Choquet.

Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo

thời gian xuất hiện. Các điểm ảnh đang xem xét được xếp loại và ghép vào cụm

theo một tiêu chí đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán K-mean

hoặc sử dụng Codebook.

Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình

của các hệ số của một mạng nơ ron được huấn luyện trên N khung hình không

có nhiễu. Mạng huấn luyện như thế nào để phân loại mỗi điểm ảnh là nền hoặc

tiền cảnh.

40

Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian,

sử dụng hệ số biến đổi wavelet rời rạc.

Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh

của ảnh hiện tại lệch đáng kể so với giá trị dự đoán được khai báo là tiền cảnh.

Bộ lọc này có thể là lọc Wiener, lọc Kalman hoặc lọc Tchebychev [53].

Cũng theo nghiên cứu trong [24], các phương pháp được tổng kết theo

nhóm, năm, tác giả được tổng hợp và thể hiện trong bảng 1.1.

Các phương pháp tiếp cận mô hình nền trên (trong bảng 1.2) đều sử dụng

phép trừ nền: Mô hình hóa nền, khởi tạo nền, duy trì nền, phát hiện tiền cảnh,

chọn kích thước đặc trưng (điểm ảnh, khối hoặc cụm), chọn kiểu đặc trưng (đặc

trưng màu sắc, đường biên, stereo, chuyển động và đường vân). Phát triển BSM

tập trung vào các tình huống quan trọng trong dãy video: nhiễu ảnh làm chất

lượng ảnh nguồn kém, khẩu độ nổi trên nền, các đối tượng chuyển động trên

nền, chèn thêm vào nền, đối tượng đi bộ, đối tượng dừng lại và bóng. Khác nhau

chính đến từ các nền động và sự thay đổi ánh sáng.

- Các nền động thường xuất hiện ở các cảnh ngoài trời. Ví dụ cây cối cử

động, nước gợn sóng và bề mặt nước.

- Ánh sáng thay đổi xuất hiện trong các cảnh trong nhà và ngoài trời. Sự

thay đổi ánh sáng có thể là dần dần hoặc đột ngột.

Bảng 1.1. Phân loại các phương pháp mô hình nền

Loại Phương pháp, Tác giả (Năm xuất bản) [Tài liệu]

Trung bình, Lee (2002); Trung vị, Mac Farlane, (1995)

Mô hình nền cơ bản

Gauss đơn, Wren (1997); Hỗn hợp Gauss, Stauffer và Grimson (1999); Ước tính mật độ lõi, Elgammal (2000).

hình nền

Mô thống kê

Mô hình nền logic mờ Giá trị trung bình chạy mờ, Sigari (2008); Hỗn hợp Gauss mờ loại 2n El Baf (2008).

Sự phân cụm nền K trung bình (2003); CodeBook, Kim (2005).

Mô hình nền Mạng nơ ron hồi quy tổng hợp, Culbrik (2006); Mạng

41

mạng nơ ron nơ ron tự tổ chức, Maddalena (2007).

nền Biến đổi Wavelet rời rạc, Biswas (2011) hình

Mô Wavelet

Tính toán nền

Lọc Wiener, Toyama (1999); Lọc Kalman, Messelodi (2005);

Bảng 1.1 trình bày phân loại các phương pháp mô hình nền [17], [24], chỉ

ra cho thấy, mô hình nền thường sử dụng là phương pháp mô hình thống kê với

ưu điểm giải quyết các tình huống quan trọng, mô hình này có nhiều phát triển

gần đây, xoay quanh mô hình GMM và phát triển của nó.

Đánh giá về phương pháp phát hiện đối tượng:

Phương pháp phát hiện đối tượng sử dụng BSM là chủ yếu. Trong đó sử

dụng phương pháp GMM được nhiều nghiên cứu phát triển và áp dụng. Các

trọng số của các hệ số tham số mô hình được thực hiện qua phép lặp, với sự lựa

chọn hệ số α trong phương trình lặp là rất cần thiết. Khi hệ số α được tham số

hóa thì GMM trở thành GMM thích nghi. Việc lựa chọn α để GMM thích nghi

với ánh sáng thay đổi phù hợp hơn trong các ứng dụng ngoài trời là cần thiết.

1.2.6. Phân loại đối tượng

Có nhiều cách phân loại đối tượng trong ảnh khác nhau. Phương pháp thủ

công là sử dụng so sánh/đối sánh ảnh, tuy nhiên chi phí thời gian lớn và khó

thực hiện. Các phương pháp thường được sử dụng là dựa trên một số đặc trưng

của ảnh, đối tượng trong ảnh như lược đồ xám, màu sắc, hình dạng, đường viền,

kết cấu vân,.... Các đặc trưng thông thường được sử dụng trong việc phân loại

dựa trên hình dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng

đối tượng phát hiện được. Ví dụ nghiên cứu của Guohui Zhang dựa trên trọng

tâm, biên và độ dài đối tượng [12].

Cách tiếp cận của A. J. Lipton (1999) [16] sử dụng độ dài đường biên hình

chiếu của đối tượng và thông tin về diện tích để phân loại các đối tượng phát

hiện được vào ba nhóm: người, xe, và các loại phương tiện khác. Phương pháp

42

xuất phát từ giả thuyết người nhỏ hơn các phương tiện và có các hình dạng phức

tạp.

Bảng 1.2. Kết quả sử dụng độ dài đường biên hình chiếu

Đối tượng phân loại

Tổng số

Không phân loại

% không phân loại được

Độ chính xác

Phương tiện giao thông

319

10.7%

2.5%

86.8%

Người

291

11.00%

6.2%

82.8%

Sai số

4

Theo bảng kết quả 1.2 thì độ chính xác còn khá thấp (86.8% đối với

phương tiện và 82.8% đối với người). [16]

Phương pháp phân loại được phát triển bởi Collins [10] sử dụng các đặc

trưng trực quan phụ thuộc của các đối tượng để huấn luyện một bộ lọc mạng

nơron nhận biết bốn lớp đối tượng: người, nhóm người, xe và các loại khác. Đầu

vào của mạng nơron là độ phân bố, diện tích và tỉ lệ bề ngoài của vùng đối

tượng và độ phóng đại của camera. Giống như phương pháp trước, việc phân

loại được thực hiện tại mỗi khung hình. Các kết quả được giữ trong lược đồ xám

để cải thiện chất lượng phân loại theo sự phân biệt nhất quán thời gian.

Một phương pháp đơn giản hơn dựa trên sự tổng hợp của sự chênh lệch

thời gian và đối sánh ảnh mẫu cho phép đạt hiệu quả cao trong việc theo dõi

trong môi trường nhiễu và cho phép phân loại tốt. Do đó sử dụng bộ lọc Kalman

hoặc các cách tiếp cận xác suất khác để giải quyết nhược điểm này.

Phân loại đối tượng dựa trên so khớp mẫu:

So khớp mẫu là cách phân loại sử dụng trong các phương pháp đo lường

đối tượng tương tự như dựa trên việc so sánh hình dạng của đối tượng (được gán

nhãn và chuẩn bị trước trong CSDL) với các vùng đối tượng được phát hiện

trích chọn từ bản đồ điểm ảnh trên nền được. Quá trình phân loại đối tượng theo

phương pháp này được chia thành hai bước.

43

Bước chuẩn bị (Offline): Tạo CSDL mẫu của hình mẫu đối tượng bằng tay

và gán nhãn đối tượng cho nó.

Bước thực hiện trực tiếp (Online): Trong quá trình giám sát, trích chọn hình

dạng của đối tượng trong mỗi khung hình và nhận dạng kiểu của nó bằng việc so

sánh đặc tính dựa trên hình dạng đó với mẫu trong CSDL mẫu. Sau khi so sánh

đối tượng với hình mẫu trong CSDL, tìm thấy hình dạng mẫu có khoảng cách tối

thiểu so với đối tượng. Kiểu của đối tượng này được xác định là kiểu của đối

tượng mong muốn phân loại. Trong bước này, kết quả của đối tượng theo dõi

được sử dụng để đạt được thống nhất thời gian của kết quả phân loại.

- Kỹ thuật được sử dụng trong phân loại đối tượng.

- Các kỹ thuật so khớp mẫu so sánh các phần của ảnh với nhau.

- Ảnh mẫu được sử dụng để nhận dạng các đối tượng tương tự trong ảnh

nguồn.

- Độ lệch chuẩn của ảnh mẫu so với ảnh gốc là đủ nhỏ, ảnh mẫu được sử

dụng.

- Tập mẫu thường được sử dụng để xác định các ký tự in, số, các đối tượng

nhỏ và đơn lẻ, riêng rẽ khác.

Quá trình phù hợp mẫu chuyển ảnh mẫu tới tất cả các vị trí trong vùng ảnh

rộng lớn và tính toán số chỉ mục được chỉ ra sự phù hợp mẫu tốt như thế nào so

với vị trí đó. So khớp được thực hiện cơ bản là điểm so với điểm.

Hình chiếu của đối tượng trên ảnh là đường biên bao quanh đối tượng.

Phân loại dựa trên hình chiếu chia thành hai bước:

- Bước 1 (offline): Tạo một mẫu CSDL của các hình chiếu đối tượng mẫu

bằng cách thu thập thủ công ảnh các trường hợp, chuyển đổi biểu diễn và lưu trữ

vào CSDL.

- Bước 2 (online): Trích rút hình chiếu của mỗi đối tượng phát hiện được

trong mỗi khung hình và nhận ra loại của nó bằng cách so sánh hình chiếu dựa

trên đặc trưng với các hình chiếu trong CSDL mẫu trong thời gian thực trong khi

theo dõi. Sau khi so sánh đối tượng đó với đối tượng trong CSDL, một hình mẫu

với khoảng cách nhỏ nhất được tìm thấy. Loại của đối tượng này được gán cho

44

loại của đối tượng muốn phân loại. Trong bước này kết quả của bước theo dõi

đối tượng được tận dụng để thu được các kết quả phân loại nhất quán theo thời

gian.

Trích rút hình chiếu của đối tượng: Trong cả hai bước online và offline của

thuật toán phân loại, các hình chiếu của các vùng đối tượng phát hiện được từ

bản đồ điểm ảnh cận cảnh được trích rút bằng cách sử dụng một thuật toán theo

vết đường biên.

CSDL mẫu các hình chiếu: CSDL hình chiếu mẫu được tạo offline bằng

cách trích rút một vài đường biên đối tượng từ các cảnh khác nhau. Do sơ đồ

phân loại sử dụng sự giống nhau (sự tương đồng), các hình dạng của các đối

tượng trong CSDL nên thể hiện các dáng điệu của các loại đối tượng khác nhau.

Xem xét kiểu người, thêm các hình dạng người trong các tư thế khác nhau vào

CSDL mẫu nhằm tăng khả năng của một đối tượng truy vấn của kiểu người

được phân loại đúng. Ví dụ, nếu có tất cả hình người trong tư thế thẳng đứng, có

thể không phân loại được một người đang ngồi trên ghế. Hoặc nếu các hình

chiếu của ô tô được nhìn theo phương ngang từ camera, có thể sẽ phân loại sai

các phương tiện chuyển động theo chiều dọc với góc nhìn của camera.

Trong bước phân loại, phương pháp không sử dụng hình chiếu trong định

dạng thô, đúng hơn là so sánh các dấu hiệu khoảng cách của hình chiếu đã được

chuyển đổi. Vì vậy, trong CSDL khuôn mẫu chỉ lưu trữ dấu hiệu khoảng cách

của hình chiếu và thông tin tương ứng cho cả việc tính toán và lưu trữ sao cho

hiệu quả.

Nhận xét về phương pháp phân loại đối tượng:

Có nhiều cách tiếp cận để phân loại đối tượng như dựa vào mô hình hình

dạng đối tượng, trên vùng ảnh, đường viền, đặc trưng kết cấu, xác suất. Tuy

nhiên phương pháp dựa vào hình dạng và đường viền đối tượng được các nhà

khoa học nghiên cứu và triển khai trên nhiều ứng dụng.

Để áp dụng phương pháp phân loại dựa trên hình dạng và đường viền, các

ứng dụng thường chia thành 2 pha: pha thứ nhất, sưu tập và tạo mẫu so sánh;

pha thứ hai áp dụng phép đối sánh ảnh dựa trên những tập đối tượng cần phân

45

loại kết hợp với tập dữ liệu mẫu dựa trên một tập luật đối sánh tương ứng. Việc

biến đổi hình dạng hình học của biên đối tượng cũng như đường viền thành

vector hóa đại số mang lại khả năng nhận dạng và phân loại đối tượng.

Nói tóm lại, bài toán phân loại phương tiện giao thông thông qua hình

ảnh/video được đặt ra là:

 Đầu vào:

o Khung hình chứa đối tượng chuyển động đã được bước phát hiện xử

lý, thông thường là những bức ảnh nhị phân.

o Các thông số về ảnh: lưu lượng quang học, đường biên, trọng tâm,...

 Đầu ra:

o Các loại đối tượng có trong khung hình

 Phương pháp tiếp cận:

o Phân loại dựa trên hình dạng

o Phân loại dựa trên chuyển động.

o Tổng hợp giữa hình dạng và chuyển động.

o Dựa trên vùng ảnh.

o Dựa trên đặc tính màu sắc

o Dựa trên thao tác đường viền

o Dựa trên đặc trưng kết cấu.

o Dựa trên xác suất.

1.3. Hướng tiếp cận của luận án

1.3.1. Sơ đồ khái quát hướng tiếp cận xử lý bài toán

Hạt nhân của hầu hết các phương pháp tiếp cận trước đây tập trung vào ba

khối chính: Phát hiện, phân loại và theo dõi. Từ kết quả của bài toán phát hiện,

theo dõi và phân loại sẽ thực hiện nhận diện và trích chọn các thông tin cần quan

tâm đưa ra màn hình quan sát hoặc lưu trữ vào CSDL, phục vụ các nhu cầu của

con người (Hình 1.16).

Thu nhận video liên quan đến:

46

- Vị trí đặt camera, bao gồm độ cao so với mặt đường, khoảng cách từ

camera đến vùng cần đếm xe hay còn gọi là ROI.

- Hướng quay, bao gồm việc xác định hướng quay đối tượng tham gia giao

thông từ hướng nào? Trực diện theo hướng đang đến, theo hướng đang di

chuyển ra xa, quay ngang sườn xe theo cả hai hướng di chuyển,...

- Góc quay, luồng ảnh quay tạo góc với phương nằm ngang chứa đối tượng

chuyển động góc bao nhiêu độ. Máy quay đặt cố định hay di động,...

Cách lắp đặt camera ảnh hướng nhiều tới các phương pháp tiếp cận, giải

quyết xử lý ở các bước tiếp theo. Vị trí đặt máy ảnh hưởng tới kích thước đối

tượng thu được trong video. Hướng quay ảnh hưởng đến hình dạng đối tượng

trong video, bởi vì các đối tượng trong video giao thông (chủ yếu là xe) sẽ có

hình dạng phía trước và phía sau khác nhau. Góc quay cũng ảnh hưởng tới hình

dạng đối tượng.

Để phù hợp với các hệ thống giám sát giao thông bằng camera, ta chỉ xét

trường hợp máy quay đặt cố định, hướng quay thẳng hướng với đối tượng

chuyển động. Khoảng cách khu vực quan tâm tới máy quay 40 đến 100 mét, góc quay chếch phương nằm ngang 30o.

Hình 1.16. Cấu trúc khái quát hệ thống nhận dạng đối tượng chuyển động

Trích chọn khung hình. Đặc tính cơ bản của video là cấu thành bằng sự kết

hợp các khung hình liên tiếp. Do vậy, từ dữ liệu video (trực tiếp từ máy quay

camera IP hoặc từ file video), để lấy ảnh vào phân tích, hệ thống phải tách thành

các khung hình (chứa ảnh đối tượng) để tiến hành trừ nền, phát hiện đối tượng,...

47

Mô hình nền: Cách tốt nhất để thu nhận nền là lưu trữ ảnh nền khi không

có bất kỳ đối tượng chuyển động nào, nhưng trong môi trường thực thì khó có

thể như vậy. Hơn nữa, nó cũng luôn luôn thay đổi dưới điều kiện thực tế như

thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh...Nhiều phương pháp

mô hình hóa nền đã được nghiên cứu và triển khai.

Phát hiện đối tượng, Theo dõi đối tượng, Phân loại đối tượng là những

khối xử lý chính của hệ thống. Tuy nhiên trong nhiều phương pháp sự kế thừa

và phối hợp giữa những khối này là liên quan chặt chẽ với nhau. Nội dung và

những nghiên cứu liên quan đến những vấn đề này sẽ được tiếp tục trình bày

trong luận án ở những phần tiếp theo.

Thông tin đối tượng là khâu cuối cùng xử lý đầu ra của bài toán. Kết quả có

thể lưu trữ vào CSDL hoặc ra màn hình phục vụ quan sát.

1.3.2. Xác định vùng quan tâm và nhiệm vụ của luận án

Với phân tích đặc trưng phương tiện giao thông, video giao thông, việc tiếp

cận phát hiện và phân loại dựa trên màu sắc là khó thành công.

Sơ đồ cấu trúc các hướng tiếp cận trong giải quyết bài toán phát hiện và

Video

Khung hình

Phát hiện đối tượng

Đối tượng mẫu

Rút trích đặc trưng

Xây dựng đặc trưng mẫu

So sánh đặc trưng

phân loại phương tiện giao thông từ video được thể hiện (Hình 1.17):

Thông tin đối tượng

Cơ sở dữ liệu

Hình 1.17. Sơ đồ xác định vùng nghiên cứu

Về phân loại phương tiện dựa trên ảnh/video, cơ bản thực hiện trên hai pha:

pha huấn luyện và pha nhận dạng.

48

Pha huấn luyện, tìm ra các đối tượng mẫu có trên thực tế, trích chọn ra và

xây dựng đặc trưng mẫu dùng cho việc nhận dạng và phân loại. Đối tượng mẫu

và đặc trưng mẫu là những thành phần mà tùy theo từng loại đối tượng, từng yêu

cầu bài toán mà có thể lựa chọn theo nhiều cách khác nhau, thường dựa vào

những phân tích và kinh nghiệm.

Đối với bài toán phân loại phương tiện chuyển động từ video, để có được

cơ sở dữ liệu đối sánh cần chọn ảnh các phương tiện mẫu cần phân loại phù hợp

với các điều kiện về độ phân giải, kích thước, từ đó trích chọn các đặc trưng như

độ dài, chiều cao, chu vi, số đỉnh, góc,... để lưu vào kho cơ sở dữ liệu.

Pha nhận dạng và phân loại, ở đây từ dữ liệu video, trích chọn ra các khung

hình, dựa trên các khung hình phát hiện đối tượng chuyển động. Từ các đối

tượng phát hiện được, rút trích ra các đặc trưng (tương tự như pha huấn luyện),

so sánh với các đặc trưng đã huấn luyện từ trước để kết luận về đối tượng.

Đối với bài toán phát hiện và phân loại phương tiện từ Video, thu nhận các

khung hình, thông qua các khung hình sử dụng các thuật toán để phát hiện

phương tiện chuyển động (ô tô, xe máy, xe đạp), tức là kết luận có đối tượng

chuyển động hay không. Rút trích các đặc trưng của đối tượng như các đặc

trưng về hình dạng, kích thước, đường viền. So sánh các đặc trưng với các đặc

trưng mẫu chứa trong kho cơ sở dư liệu để kết luận thông tin về đối tượng.

Trên cơ sở xác định vùng nghiên cứu trên, để giải quyết vấn đề phát hiện

và phân loại phương tiện từ dữ liệu video giao thông cần thực hiện hai nhiệm vụ

chính (Hình 1.18).

Phân loại đối tượng dựa trên đặc trưng hình dạng và độ dài. Trước hết là

trích chọn các đặc trưng hình dạng và độ dài của phương tiện giao thông. Xây

dựng CSDL cho việc nhận dạng và phân loại. Sự kết hợp các phương pháp nhận

dạng theo hình dạng và độ dài tạo ra khả năng phân loại nhanh.

Phân loại đối tượng dựa trên đặc trưng đường viền. Việc biểu diễn đường

viền theo phương pháp nào đó để so sánh, phân tích đường viền dễ dàng và

chính xác, thông qua đó để phân loại đối tượng chính xác hơn.

49

Phát hiện và phân loại phương tiện từ video giao thông

Hình 1.18. Hướng tiếp cận xử lý bài toán

Nhiệm vụ 1. Phát hiện đối tượng chuyển động. Sử dụng phương pháp

GMM, xem xét thêm một số trường hợp sự tác động của ánh sáng để GMM thích

nghi nhanh với sự thay đổi ánh sáng là hoàn toàn có thể, qua đó cải thiện tốc độ

tính toán.

Nhiệm vụ 2. Phân loại đối tượng chuyển động. Sử dụng kích thước và véc

tơ khoảng cách để phân loại. Dựa vào phân tích đường viền thông qua các đặc

trưng như chu vi, số đỉnh để phân loại.

1.4. Kết luận chương 1

Dựa trên cơ sở nghiên cứu kết quả một số nghiên cứu liên quan đã thực

hiện và những hạn chế tương ứng so với điều kiện giao thông Việt Nam và dựa

trên phân tích một số kỹ thuật, phương pháp sử dụng cho mục đích phát hiện,

theo dõi, và phân loại đối tượng chuyển động trong video nói chung và video

giao thông nói riêng, vấn đề tài nghiên cứu “Nghiên cứu phát triển một số

thuật toán phát hiện và phân loại phương tiện từ dữ liệu video giao thông”

là có ý nghĩa về mặt khoa học và thực tiễn, đặc biệt với vấn đề giao thông của

Việt Nam.

Vấn đề đặt ra đối với bài toán phân loại phương tiện chuyển động thông

qua video giao thông là:

 Về phát hiện đối tượng, sử dụng mô hình nền và thuật toán trừ nền, hoặc

kết hợp với phương pháp theo dõi để phát hiện nhanh và chính xác đối

tượng chuyển động. Dựa trên các phân tích, có thể thấy rằng chọn mô

50

hình trừ nền GMM, nghiên cứu và cải tiến cho phù hợp với sự thay đổi

ánh sáng ở môi trường ngoài trời là phù hợp đối với bài toán xác định

mật độ phương tiện giao thông. Tuy nhiên để nâng cao độ chính xác và

cải thiện tốc độ tính toán cần xử lý đối tượng chuyển động trích chọn

được bằng việc loại bỏ nhiễu, gán nhãn cho khối, tách khối, hợp khối.

 Về phân loại, trong điều kiện giao thông đông đúc, đa dạng, kết quả

quan sát các phương tiện có thể bị chồng lấp, khó phân định, cần sử

dụng những phương pháp hợp lý để xác định chính xác đối tượng và số

lượng tương ứng? Qua phân tích, có thể thấy rằng hình dạng đối tượng

chuyển động trong điều kiện đông đúc, đa dạng thì mô hình phân loại

theo hình dạng là phù hợp. Bài toán phân loại thường cấu trúc thành 2

pha. Pha huấn luyện và pha nhận dạng phân loại và đếm. Chu vi đường

viền đối tượng, khối đối tượng hoặc một đặc trưng của khối đối tượng là

một tham số có thể phân loại.

 Vấn đề đặt ra để giải quyết bài toán là cần xác định rõ đặc trưng, trích

chọn đặc trưng của đối tượng chuyển động, mà cụ thể là các phương

tiện chuyển động trên đường. Căn cứ vào các đặc trưng rút trích được,

hướng xử lý bài toán có những phương pháp xác định tương ứng, cho ra

kết quả phù hợp với yêu cầu của bài toán. Những vấn đề này được trình

bày chi tiết trong chương 2, 3.

51

Chương 2. PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG TỪ VIDEO DỰA

TRÊN MÔ HÌNH GAUSS HỖN HỢP THÍCH NGHI VỚI THAY ĐỔI ÁNH

SÁNG

Chương này, trình bày về phương pháp phát hiện đối tượng dựa trên mô

hình thống kê. Đầu tiên, trình bày một số hướng tiếp cận của luận án về phát

hiện đối tượng chuyển động; tiếp theo trình bày một số phương pháp trích chọn

đối tượng chuyển động từ video theo mô hình GMM, bao gồm GMM truyền

thống, GMM thích nghi và cải tiến GMM thích nghi với sự thay đổi ánh sáng;

Cuối cùng là trình bày phương pháp đếm xe ô tô trên đường cao tốc dựa vào sự

kết hợp của mô hình GMM thích nghi thay đổi ánh sáng với luồng quang học.

2.1. Một số thuật toán phát hiện chuyển động

Trừ nền là phương pháp phổ biến để phát hiện đối tượng chuyển động,

Massimo Piccardi, năm 2004, trong công trình [17], đã trình bày một số thuật

toán trừ nền dùng cho việc phát hiện chuyển động: trừ nền cơ bản, trừ nền trung

bình, -,...

2.1.1. Thuật toán trừ nền cơ bản

BSM cơ bản là phương pháp dựa trên sự sai khác giữa hai ảnh (trừ hai ảnh

theo từng điểm ảnh tương ứng) và so sánh sự sai khác này với một giá trị

ngưỡng cho trước. Trường hợp sự sai khác này lớn hơn giá trị ngưỡng đã cho,

có nghĩa đã có sự sai khác về các số các điểm ảnh. Xét 2, 3 khung hình liên tiếp

để phát hiện chuyển động.

Gọi It là dãy các khung hình của đoạn video, lấy ảnh đầu tiên I0 là ảnh nền,

gọi  là giá trị ngưỡng sai lệch cho phép giữa các giá trị điểm ảnh của khung

hình It và ảnh nền. Trong công thức (2.1), Dt(x,y)=0 (độ chênh lệch giữa hai

điểm ảnh nhỏ hơn giá trị ngưỡng ) đưa ra kết luận đây là những điểm ảnh của

nền, ngược lại, Dt(x,y)=1 (độ chênh lệch giữa hai điểm ảnh lớn hơn ngưỡng 

cho trước) đưa ra kết luận đây là những điểm ảnh của đối tượng chuyển động.

Tập hợp các điểm ảnh này ta sẽ có hình ảnh của đối tượng chuyển động.

(2.1) ( ) { ( ) ( ) ( ) ( )

52

Nội dung thuật toán:

Thuật toán trừ nền cơ bản:

Đầu vào: Video

: Giá trị ngưỡng cho trước

NF: Số khung hình cần sử dụng

m,n: kích thước một khung hình (điểm ảnh)

Đầu ra: {Dt(m,n)| t=1..NF}

//Ảnh đã tách ngưỡng đối tượng chuyển động

Các bước thực hiện:

1. Thu nhận khung hình

For t=0 to NF It = FrameCapture(video,t)

//NF là số khung hình thu được trong vùng quan sát.

2. Xác định nền

// B: Giá trị nền cố định

B = I0

3. Phát hiện mặt nạ nhị phân chứa đối tượng chuyển động:

For t=0 to NF

For x=0 to n

For y=1 to m

If |It(x,y)-Bt(x,y)|>  then Dt(x,y)=1

Else Dt(x,y)=0

4. Return {Dt(m,n)|t=0..NF}

Độ phức tạp thuật toán:

Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một

ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Căn cứ vào bước thứ 3

trong thuật toán, dễ dàng ước tính được số lượng các phép toán:

- Số lượng khung hình xét là NF;

- Kích thước mỗi khung hình là nm;

- Số phép toán ước tính là NFmn.

Độ phức tạp của thuật toán là O(NFmn), với NF là số khung hình; mn

là kích thước ảnh của khung hình.

53

Thuật toán trừ nền trung bình 2.1.2.

BSM trung bình là một cải tiến của BSM cơ bản [17]. Thay vì giữ nguyên

giá trị khung hình nền B(x,y) trong phép trừ thì BSM trung bình cải tiến cập

nhật liên tục giá trị khung hình nền nhằm tăng tính chính xác kết quả phát hiện

đối tượng chuyển động. Gọi β là hệ số được chọn trước thuộc (0,1), ảnh nền đầu

tiên B0 gán bằng ảnh I0, ta có ảnh nền được cập nhật trung bình theo phương

trình (2.2),

Bt(x,y) = (1-)Bt-1(x,y)+It(x,y) (2.2)

Gọi  là giá trị ngưỡng sai lệch cho phép giữa các giá trị điểm ảnh của

khung hình It và ảnh nền ta có ảnh tách ngưỡng (chứa đối tượng chuyển động)

được tính theo công thức (2.3).

(2.3) ( ) { ( ) ( ) ( ) ( )

Trong công thức (2.3) ta có Dt(x,y) = 0, kết luận đây là điểm ảnh của nền,

ngược lại, Dt(x,y) = 1, kết luận đây là điểm ảnh của đối tượng chuyển động. Tập

hợp các điểm ảnh này ta sẽ có hình ảnh của đối tượng chuyển động.

Nội dung thuật toán:

Thuật toán trừ nền trung bình:

Đầu vào: Video

: Giá trị ngưỡng cho trước

NF: Số khung hình cần sử dụng

m,n: kích thước một khung hình (điểm ảnh)

: Tham số cập nhật nền cho trước  (0,1)

Đầu ra: {Dt(m,n)| t=1..NF}

//Tập ảnh đã tách ngưỡng đối tượng chuyển động

Các bước thực hiện:

1. Thu nhận khung hình

For t=0 to NF

It = FrameCapture(video,t)

2. Khởi tạo giá trị nền ban đầu

B0 = I0

54

mặt nạ nhị phân

For t=0 to NF

For x=0 to n

For y=1 to m

{

Bt(x,y) = (1-)Bt-1(x,y)+It(x,y)

If |It(x,y)-Bt(x,y)|>  then Dt(x,y)=1

Else Dt(x,y)=0

}

4. Return {Dt(m,n)|t=0..NF}

3. Cập nhật giá trị nền Bt(x,y) theo chỉ số khung hình và tính

Độ phức tạp thuật toán:

Tương tự như trình bày trong thuật toán trừ nền trung hình, số phép toán

ước tính tổng quan chung của thuật toán tập trung ở bước 3.

Độ phức tạp của thuật toán là O(NFmn), với NF là số khung hình; mn

là kích thước ảnh của khung hình.

2.1.3. Thuật toán Σ-Δ

Thuật toán Σ-Δ dựa trên phương pháp đệ quy phi tuyến đơn giản (còn được

gọi là bộ lọc Σ-Δ). Thuật toán Σ-Δ sử dụng hàm sgn(a) để ước lượng giá trị của

(2.4)

nền, công thức (2.4). Hàm sgn() được xây dựng như sau:

( ) {

Theo công thức (2.5), giá trị nền đối với mỗi khung hình tại thời điểm t là

Bt(x,y), tăng hoặc giảm hoặc giữ nguyên tùy thuộc vào giá trị của hàm sgn(a).

t(x,y) là giá trị tuyệt đối hiệu giữa Bt(x,y) và It(x,y) theo công thức (2.6).

Gọi Vt(x,y) là biến ngưỡng xác định cho sự chuyển động theo thời gian t,

nhằm xác định xem mỗi điểm ảnh của một khung hình đang xét sẽ là điểm ảnh

“nền” hay điểm ảnh của “đối tượng chuyển động”, được tính theo công thức

(2.7), với N là tham số cho trước trong khoảng từ 14;

55

Giá trị Dt(x,y) là giá trị lưu trữ nền hoặc đối tượng chuyển động. Nếu

Dt(x,y)=0 thì điểm (x,y) là của nền, ngược lại điểm ảnh của đối tượng chuyển

động, công thức (2.8).

= It(x,y) – Bt-1(x,y)

(2.5) Bt(x,y) = Bt-1( ) ( )

(2.6)

(2.7) ( ) ( ) ( ) ( ) ( ) ( ( ) ( ))

(2.8) ( ) { ( ) ( ) ( ) ( )

Nội dung thuật toán:

Thuật toán Σ-Δ

Đầu vào: Video

: Giá trị ngưỡng cho trước

NF: Số khung hình cần sử dụng

m,n: kích thước một khung hình (điểm ảnh)

α: Tham số cập nhật nền cho trước  [0,1]

Đầu ra: {Dt(m,n)| t=1..NF}

//Ảnh đã tách ngưỡng đối tượng chuyển động

Các bước thực hiện:

1. Thu nhận khung hình

For t=0 to NF It = FrameCapture(video,t)

2. Khởi tạo giá trị nền ban đầu

B0=I0 //Giá trị khởi tạo mô hình nền và khung hình video đến.

0 = 0

V0 = 0

3. Cập nhật giá trị nền Bt theo chỉ số khung hình và tính mặt

nạ nhị phân

For each Image It

For each x,y  [n,m]

{

= It(x,y) – Bt-1(x,y)

Bt(x,y) = Bt-1( ) ( )

( ) ( ) ( ) ( ) ( ) ( ( ) ( ))

If |t(x,y)-Vt(x,y)|> then Dt(x,y)=1

Else Dt(x,y)=0

4. Return {Dt(m,n)| t=1..NF}

56

Độ phức tạp thuật toán:

Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một

ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Căn cứ vào bước thứ 3

trong thuật toán, dễ dàng ước tính được số lượng các phép toán tương đương với

O(NFnm), với NF là số khung hình; n, m là kích thước khung hình.

2.1.4. Thuật toán Σ-Δ cải tiến

Thuật toán Σ-Δ cập nhật mô hình nền theo hằng số thời gian sgn(a). Điều

này tạo ra hạn chế đối với những ảnh chứa nhiều đối tượng chuyển động hoặc

đối tượng có nhiều chuyển động. Thuật toán Σ-Δ cải tiến được đề xuất để giải

quyết bài toán nhiều đối tượng và nhiều chuyển động. Phương pháp này sử dụng

mô hình nền thích nghi để tăng khả năng phát hiện các chuyển động trong một

ảnh phức tạp.

Việc xử lý theo thời gian có thể cho ra kết quả phát hiện chuyển động rất

hiệu quả trong trường hợp đối tượng chuyển động chậm dần, dừng lại hoặc quay

vòng. Tuy nhiên, do thuật toán Σ-Δ đặc trưng bởi khoảng thời gian cố định: cập

nhật theo giai đoạn và độ lớn số lượng mức xám trên một giây. Đây là lý do gây

ra hạn chế của thuật toán Σ-Δ trong việc thích nghi với khung hình phức tạp nhất

định.

}. Công thức tính như sau:

Thuật toán Σ-Δ cải tiến thay vì tính một nền riêng lẻ, chúng ta sẽ tính một

tập các nền: {

( )

( )

( )) (2.9) ( ) (

( ) là giá trị nền tham chiếu thứ i tại thời điểm t,

( ) là giá trị nền tham

( ) Trong đó,

( ) ( ).

là giá trị nền tham chiếu thứ i tại thời điểm (t-1),

chiếu thứ (i-1) tại thời điểm t, giá trị khởi tạo với i=0:

được đặc trưng bởi thời gian cập nhật .

57

Mỗi nền

( )

( ) như sau:

và giá trị Với mỗi khung hình, tính giá trị hiệu tuyệt đối

biến theo thời gian

( )|

( ) | ( )

(2.10)

( )

( (

( )) (2.11) ( ) (

( )

Giá trị mô hình nền thích nghi tổng hợp được tính như sau:

( )

( )

(2.12) ( )

Với là giá trị được định nghĩa trước, i là chỉ số tham chiếu, R là tổng số

chỉ số i. Giá trị thực nghiệm đặt K=3, α1, α2, α3 được đặt 1, 8, 16.

Trên mô hình nền thích nghi Bt(x,y) đã được tạo ra, áp dụng thuật toán Σ-Δ

với mô hình nền Bt(x,y) này để xử lý xác định đối tượng chuyển động.

Nội dung thuật toán:

Thuật toán Σ-Δ cải tiến

Đầu vào: Video

: Giá trị ngưỡng cho trước

NF: Số khung hình cần sử dụng

m,n: kích thước một khung hình (số điểm ảnh theo chiều

ngang, dọc)

K: số lượng tập nền theo dõi cho trước

αi(i=1..K): Tham số cập nhật nền cho trước  [0,1]

Đầu ra: {Dt(m,n)| t=1..NF} //Tập ảnh đã tách ngưỡng đối tượng

1. Thu nhận khung hình

For t=0 to NF

It= FrameCapture(video,t)

2. Khởi tạo giá trị nền và các tham số ban đầu

For i=1 to K

}

{

0 = 0

V0 = 0

For i=1 to K

{αi=const}

3. Cập nhật giá trị nền Bt theo chỉ số khung hình và tính mặt

nạ nhị phân

For t=0 to NF

For x=0 to n

For y=1 to m

{

For i=1 to K {

( ))

( )

( ) ( ( )|

( ))

( ) (

( )

( ) ( ) | ( ) ( )

} //End of for i

For i=1 to K {

( )

TS=TS + (

( )) ( )

MS=MS +

Bt(x,y) = TS/MS

}

t(x,y) = |It(x,y)-Bt(x,y)|

Vt(x,y) = Vt-1(x,y) + sgn(N×t(x,y)-Vt-1(x,y))

If t(x,y)>Vt(x,y) then Dt(x,y)=1

Else Dt(x,y)=0

} //End of for t

4. Return {Dt(m,n)| t=1..NF}

58

Độ phức tạp thuật toán:

Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một

ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Gọi k là số tập nền cần

theo dõi. Căn cứ vào bước thứ 3 trong thuật toán, dễ dàng ước tính được số

lượng các phép toán tương đương với O(NFkmn).

2.1.5. Thuật toán thống kê khác biệt cơ bản

Thuật toán thống kê khác biệt cơ bản tính giá trị trung bình cho từng điểm

ảnh riêng lẻ của khung video trước đó dựa trên việc sử dụng giá trị trung bình,

59

độ lệch tiêu chuẩn cũng như sắp xếp mô hình nền. Mô hình nền thích nghi được

tạo ra thông qua việc xác định giá trị từng điểm ảnh xy của mô hình nền. Giá trị

xy được tính là giá trị trung bình của các điểm ảnh tương ứng từ một tập K

khung hình trước đó trong một khoảng thời gian nhất định từ thời điểm khung

video đầu tiên đến thời điểm khung video thứ K-1 (có thể coi khoảng thời điểm

từ t0 – tK-1).

∑ (2.13) ( )

K: là số lượng khung video đang xét; t: là chỉ số của khung video, t = 1..K;

It(x,y): là giá trị khung video đến hiện thời thứ t.

Với mỗi điểm ảnh, một giá trị ngưỡng biểu diễn bằng độ lệch chuẩn xy

trong cùng một khoảng thời gian (t0 – tK-1), được tính bằng trung bình độ lệch

giữa giá trị của điểm ảnh tương ứng trong các khung video trước và xy, công

thức tính như sau:

)

∑ (2.14) ( ( ( ) )

Để phát hiện được chuyển động, giá trị tuyệt đối của hiệu giữa khung video

đến và mô hình nền được tính toán. Từ đó ta sẽ xác định mặt nạ nhị phân phát

hiện chuyển động Dt(x,y) được tính bởi công thức sau:

(2.15) ( ) { | ( ) | | ( ) |

Ta chọn là tham số thực nghiệm. Phương pháp chọn  được giải thích

như sau: Theo [23], có nhiều cách để thể hiện các đặc tính của một phân phối

xác suất. Cách dễ thấy nhất là thông qua hàm mật độ xác suất, nó cho biết khả

năng xảy ra của mỗi giá trị của biến ngẫu nhiên. Hàm phân phối tích lũy cũng

cho cùng thông tin, nhưng hình ảnh của nó thì thông tin chứa đựng không được

dễ nhận thấy cho lắm. Các cách tương đương khi chỉ định một phân phối chuẩn

là thông qua: mômen, ước lượng, hàm đặc trưng, hàm khởi tạo mômen, và hàm

khởi tạo ước lượng và định lí Maxwell. Một số rất hữu ích về mặt lí thuyết,

60

nhưng không trực quan. Hàm mật độ xác suất của phân phối chuẩn với trung

bình  và phương sai 2 (hay, độ lệch chuẩn ). Hàm mật độ là đối xứng qua giá

trị trung bình (giá trị kì vọng). Giá trị trung bình cũng là mode và trung vị của

nó. Ta có 68.26894921371% của diện tích dưới đường cong là nằm trong

khoảng 1 lần độ lệch chuẩn tính từ trị trung bình (tức là khoảng (-, +));

95.44997361036% của diện tích dưới đường cong là nằm trong khoảng 2 lần độ

lệch chuẩn (-2,+2); 99.73002039367% của diện tích dưới đường cong là

nằm trong khoảng 3 lần độ lệch chuẩn (-3,++). Do đó việc chọn <3.

Nếu thì điểm ảnh này được xác định là điểm ảnh của nền,

ngược lại nếu thì điểm ảnh này là điểm ảnh của đối tượng chuyển

động. Tập hợp những điểm ảnh này, ta sẽ xác định được đối tượng chuyển động.

Nội dung thuật toán:

Thuật toán thống kê khác biệt cơ bản

Đầu vào: Video

: Giá trị ngưỡng cho trước

NF: Số khung hình cần sử dụng

m,n: kích thước một khung hình (điểm ảnh)

K: số lượng tập nền theo dõi cho trước

αi(i=1..K): Tham số cập nhật nền cho trước  [0,1]

: lựa chọn giá trị <3.

Đầu ra: {Dt(m,n)| t=1..NF}

//Ảnh đã tách ngưỡng đối tượng chuyển động

Các bước thực hiện:

1. Thu nhận khung hình

For t=0 to NF

It=FrameCapture(video,t)

2. Xác định mặt nạ đối tượng

For t=0 to NF

For each x,y  [n,m]{

2.1. Tính 

( )

2.2. Tính :

For k=0 to K-1 {

( ( ) )

}

2.3. Xác định mặt nạ:

If |It(x,y)- t(x,y)|>xy then Dt(x,y)=1

Else Dt(x,y)=0

}

3. Return {Dt(m,n)| t=1..NF}

61

Độ phức tạp thuật toán:

Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một

ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Gọi k là số tập nền cần

theo dõi. Căn cứ vào bước thứ 2 trong thuật toán, dễ dàng ước tính được số

lượng các phép toán tương đương với O(NFmnk).

Mô hình Gauss hỗn hợp 2.1.6.

Stauffer [23] đã đưa ra phương pháp trộn các mô hình nền lại để giải quyết

vấn đề ánh sáng thay đổi, các hành động lặp lại, sự lộn xộn từ khung cảnh thực

tế. Mục đích là chứng minh một mô hình nền đơn thì không thể xử lý được các

khung hình liên tục trong một thời gian dài. Sử dụng phương pháp pha trộn phân

tán Gauss để biểu diễn mỗi điểm ảnh trên một mô hình. Theo luận điểm đó, thực

hiện và tích hợp phương pháp này vào trong hệ thống giám sát.

Trong mô hình này, coi các giá trị của điểm ảnh theo thời gian như là một

tiến trình điểm. Tiến trình điểm là một chuỗi giá trị điểm theo thời gian, tức là

giá trị cấp xám hoặc là véc tơ đối với ảnh màu được gán theo thứ tự thời gian.

Trong khung hình quan sát ở thời điểm hiện tại t, thì điểm ảnh (x,y) được quan

sát ký hiệu là Xt, ở thời điểm t-1 được ký hiệu là Xt-1. Như vậy từ trước đó, thời

điểm bắt đầu đến thời điểm t, ta được tập {X1, X2,...,Xt}là một tiến trình điểm.

62

Đây là các yếu tố hướng dẫn cách lựa chọn mô hình và các thủ tục cập

nhật. Dãy {Xt} được mô hình hoá bởi K phân bố Gauss. Hay nói cách khác mỗi

điểm ảnh sẽ được theo dõi bằng K Gauss. Xác suất quan sát của điểm ảnh hiện

tại được tính bởi công thức:

(2.16) ( ) ∑ ( )

Trong đó,

i,t là trọng số tương ứng với Gauss thứ i (iK) của hỗn hợp Gauss tại thời

điểm t;

i,t là giá trị trung bình của các Gauss thứ i (iK) của hỗn hợp Gauss tại

thời điểm t;

i,t là ma trận hiệp phương sai của phân bố Gauss thứ i (iK) của hỗn hợp

Gauss tại thời gian t;

( ) ( )

 là hàm mật độ xác xuất được xác định bởi công thức:

( )

(2.17) ( )

K phụ thuộc vào bộ nhớ và khả năng xử lý của máy tính, thường được chọn

từ 3 đến 5. Để tiện cho tính toán, ma trận hiệp phương sai được giả thiết theo

dạng sau:

(2.18)

Trong đó, I là ma trận đơn vị.

Với giả thiết các giá trị màu R, G, B của các điểm ảnh là các thành phần

độc lập và có cùng một phương sai. Khi biểu diễn ảnh trong không gian màu

RGB, các màu R, G, B được xây dựng trong không gian tọa độ 3 chiều và liên

hệ với nhau trong một hình khối elip. Tuy nhiên để đơn giản có thể giả thiết khối

này là hình cầu, khi đó chúng có cùng một phương sai.

Thủ tục phát hiện các điểm tiền cảnh:

- Trước tiên các phân phối K-Gauss cho một điểm ảnh được khởi tạo với

các giá trị trung bình, có trọng số thấp như các công thức ở trên.

63

- Khi có một điểm ảnh mới trong chuỗi khung hình được quan sát, để xác

định nhãn của nó thuộc nền hay đối tượng chuyển động, vector RGB được kiểm

tra lại với K-Gauss cho đến khi một truờng hợp đúng được tìm ra. Sự phù hợp

được xác định khi giá trị điểm ảnh trong vòng 2.5 độ lệch chuẩn của một phân

phối.

- Tiếp theo, xét K phân phối tại thời điểm t: i,t được cập nhật theo công

thức:

(2.19) ( )

với  là tỉ lệ học, Mk,t=1 đối với phân phối Gauss và Mk,t=0 đối với các phân

phối khác.

- Sau khi bước trên kết thúc, các tham số μ và σ cho các phân phối chưa

phù hợp vẫn như cũ. Các tham số của phân phối mà phù hợp với các quan sát,

trước tiên tính tham số :

(2.20) ( )

Tiếp theo cập nhật các tham số μ và σ như sau:

(2.21) ( ) { ( ) ( ) ( )

- Phân phối K-Gauss được sắp xếp bởi giá trị /. Theo danh sách này các

điểm ảnh thuộc ảnh nền sẽ tương ứng với xác xuất phân phối có trọng số lớn và

ít biến đổi. Trong dãy phân phối K-Gauss được sắp xếp chọn ra Gauss sao cho

tổng các trọng số  là nhỏ hơn một ngưỡng T. Bằng cách chọn T, có thể chọn

phân phối tốt nhất để mô tả nền. Nếu giá trị của T là tương đối nhỏ, mô hình nền

thường là mô hình đơn. Nếu giá trị T là tương đối lớn, các mô hình nền có thể

mô tả các tình huống đã gây ra bởi những thay đổi lặp đi lặp lại của nền. Điều

này sẽ tạo ra hiệu quả rõ ràng về ước tính pixel cùng với hai hoặc nhiều màu sắc

khác nhau trong nền. Các mô hình nền được xây dựng theo sự phân bố Gauss

đầu tiên phù hợp với Xt với mỗi phân phối Gauss riêng rẽ theo thứ tự mức độ ưu

tiên. Nếu không có phân phối bất kỳ Gauss đó thể hiện sự phân bố nền phù hợp

64

với Xt, điểm này được đánh giá là điểm đối tượng chuyển động, nếu không nó là

điểm nền, và sau đó chúng ta có thể hoàn thành việc phát hiện đối tượng theo

mô hình nhiều Gauss thích ứng.

Từ đó phân phối B sẽ được chọn như là một mô hình xác định ảnh nền theo

công thức:

{∑ ∑

(2.22) }

trong đó: T là giá trị nhỏ nhất của các ước tính nền.

Mô hình GMM cải thiện độ chính xác, phù hợp với các nền động, đặc biệt

là các ứng dụng ngoài trời. Độ phức tạp tính toán tăng lên, chi phí tính toán

nhiều hơn so các các phương pháp khác. Phương pháp chọn α và  hoàn toàn có

thể lựa chọn hoặc tính toán theo những mức khác nhau phù hợp hơn với sự thay

đổi của ánh sáng. Việc lựa chọn những giá trị này được phân tích trong mục tiếp

theo và được gọi là mô hình GMM thích nghi với ánh sáng thay đổi.

Bảng 2.1. Ưu điểm và nhược điểm các thuật toán BSM đã trình bày

Ưu điểm

Nhược điểm

Phương pháp

Thuật toán rất đơn giản, thời gian

Độ chính xác của thuật toán này

Trừ nền cơ bản

tính toán nhanh. Thuật toán này

thấp. Đặc biệt, thuật toán này đưa ra

rất hữu dụng trong trường hợp chỉ

kết quả không chính xác đối với

cần xác định những thay đổi bộ

những trường hợp đối tượng trong

phận, mà không phải xác định sự

đoạn video hầu như không di

thay đổi của toàn bộ khung hình.

chuyển, camera thu ảnh có nhiều

nhiễu, không thể phát hiện được sự

thay đổi lớn trong một vùng ảnh nhỏ

và thay đổi nhỏ trong một vùng ảnh

lớn.

Trừ nền

Việc cập nhật liên tục giá trị nền

Phương pháp này chưa giải quyết

trung bình

được những hạn chế của BSM cơ

thông qua việc sử dụng tham số 

bản đó là: kết quả phát hiện không

đã làm tăng độ chính xác cho việc

phát hiện đối tượng chuyển động

chính xác đối với những trường hợp

so với thuật toán trừ nền cơ bản.

đối tượng trong đoạn video hầu như

Cài đặt thuật toán đơn giản, độ

không di chuyển, camera thu ảnh có

phức tạp tính toán đơn giản, tốc

nhiều nhiễu, không thể phát hiện

độ xử lý nhanh.

được sự thay đổi lớn trong một vùng

ảnh nhỏ và thay đổi nhỏ trong một

vùng ảnh lớn.

Thuật toán

Bằng việc sử dụng thuật toán

Hạn chế của phương pháp này là

Σ-Δ

được chuẩn hóa theo thời gian,

khả năng phát hiện kém đối với

thuật toán Σ-Δ cho phép xử lý

những đối tượng chuyển động trong

nhanh, tăng hiệu quả tính toán và

cảnh phức tạp, có chứa nhiều đối

độ chính xác hơn trong phát hiện

tượng chuyển động, đồng thời mức

đối tượng chuyển động so với hai

độ và thời gian chuyển động của các

thuật toán đã trình ở phần trên.

đối tượng là khác nhau.

Thuật toán

Bằng việc sử dụng mô hình nên

Thuật toán này đòi hỏi độ phức tạp

Σ-Δ cải

thích nghi, thuật toán Σ-Δ cải tiến

tính toán lớn. Có thể thấy rằng, so

tiến

cho phép ta xác định được chính

với các thuật toán khác như trừ nền

xác đối tượng trong trường hợp

trung bình, trừ nền cơ bản, Σ-Δ thì

video thu được có nhiều đối tượng

thuật toán Σ-Δ cải tiến có thêm hẳn

chuyển động

vòng lặp K. Như vậy độ số phép

thao tác thực hiện tương đương với

O(NFmnK), trong khi đó thuật

toán trừ nền trung bình hoặc trừ nền

cơ bản chỉ là O(NFmn).

Thuật toán

Thuật toán đơn giản, tốc độ tính

Thuật toán này không phát hiện

thống kê

toán nhanh, phát hiện chính xác

được hết các đối tượng trong trường

khác biệt

đối

tượng chuyển động

trong

hợp video đầu vào phức tạp: có

cơ bản

trường hợp video đầu vào đơn

nhiều đối tượng, có đối tượng không

giản (có một đối tượng chuyển

chuyển động trong một khoảng thời

gian nhất định, hoặc các đối tượng

động).

chuyển động với tốc độ khác nhau.

65

66

Đánh giá các thuật toán trừ nền thông qua thực nghiệm một số phép đo 2.1.7.

Để đánh giá các thuật toán trừ nền thông qua thực nghiệm, các tác giả

Corentin Lallier [32] và Andrews Sobral [33] đã sử dụng tập dữ liệu BMC

(Background Models Challenge) được đề xuất bởi Vacavant [34] gồm cả video

tổng hợp và video thực, biểu diễn cảnh đô thị được quay từ camera tĩnh. Tập dữ

liệu gồm 20 chuỗi video đô thị kết xuất với trình mô phỏng SiVIC [35]. Những

đoạn phim này thể hiện hai cảnh: đường và chỗ quay xe. Bảng 2 tổng hợp các

tình huống khác nhau tạo ra từ hai cảnh này trong tập dữ liệu BMC. Các tập

huấn luyện gồm 10 video tổng hợp biểu diễn cho các trường hợp sử dụng 1. Mỗi

video được đánh số theo các loại sự kiện được trình bày (1-5), số cảnh (1 hoặc

2), và các trường hợp sử dụng (1 hoặc 2) .

Bộ dữ liệu này đã được xây dựng để thử nghiệm độ tin cậy các thuật toán

theo thời gian và trong những tình huống khó khăn như những cảnh ngoài trời.

Các video thực dài (khoảng một giờ và lên đến bốn giờ) đều có sẵn, và chúng có

thể diễn tả sự thay đổi trong thời gian dài với ánh sáng và mật độ nhỏ của các

đối tượng trong thời gian so với những người tổng hợp trước đó. Bộ dữ liệu này

cho phép kiểm tra ảnh hưởng của một số khó khăn gặp phải trong giai đoạn khai

thác đối tượng. Những khó khăn đã được sắp xếp theo:

1. Kiểu nền (nhựa đường, bê tông hoặc đất).

2. Có sự hiển diện của thực vật (cây cối).

3. Bóng.

4. Sự hiện diện của một dòng xe liên tục gần các vùng giám sát.

5. Các điều kiện khí hậu chung (nắng, mưa, tuyết).

6. Sự thay đổi ánh sáng nhanh trong cảnh.

7. Sự hiện diện của các đối tượng lớn.

Trong công trình nghiên cứu [32], tác giả Corentin Lallier và cộng sự đã sử

dụng một bộ thông số đánh giá hệ thống phát hiện xâm nhập dựa trên video.

Theo đó việc đánh giá dẫn đến ba câu hỏi chính: đối tượng có trích chọn đúng

không? hệ thống đã phát hiện ra đối tượng hay không? đối tượng được phát hiện

67

với độ chính xác hợp lý không? Mỗi câu hỏi này liên quan đến cấp độ của của

các phương pháp hiện tại. Việc trích chọn ở mức điểm ảnh. Phát hiện được đánh

giá ở mức độ chuỗi ảnh, và độ chính xác của phát hiện được đo ở mức độ ảnh.

Tỷ lệ cho mỗi cấp được tính toán so sánh kết quả của phân đoạn và phát hiện đối

với nền đúng. Việc đánh giá tất nhiên phải dựa vào các thông số kỹ thuật và đặc

biệt là giá trị các phép đo. Khi lựa chọn một phương pháp BSM, điều quan trọng

là đánh giá mức tiêu thụ bộ nhớ, thời gian thực hiện và chiếm CPU. Trong các

hệ thống nhúng hoặc các ứng dụng thời gian thực, các tính năng này là rất quan

trọng.

Các thông số đo để đánh giá thuật toán BSM được Corentin Lallier [32] sử

dụng là: TP (đúng tích cực), FP (sai tích cực), TN (đúng tiêu cực), FN (sai tiêu

cực), Pr (hệ số chính xác), Re (hệ số chiêu hồi) và F-Measure (hàm đo). Trong

đó:

- TP (True Positive) là số các điểm của tiền cảnh được phân loại là tiền

cảnh;

- FP (False Positive) là số các điểm ảnh của nền được phân loại là tiền

cảnh;

- TN (True Negative) là số các điểm ảnh nền được phân loại nền;

- FN (False Negative) là số các điểm ảnh tiền cảnh được phân loại là nền;

- Hệ số chính xác (Pr)

(2.23)

- Hệ số chiêu hồi (Re)

(2.24)

- Hàm trung bình điều hòa F-Measure

(2.25)

Khi đánh giá hiệu suất, một số tiêu chí đã được xem xét, đại diện cho các

loại khác nhau về chất lượng của thuật toán BS.

68

Năm 2014, Andrews Sobral và Antoine Vacavan [33] đã xây dựng một bộ

phần mềm để đánh giá tổng thể các thuật toán trừ nền, được gọi là BMC Wizard.

Trong đó, các số đo như F-Measure, PSNR, SSIM, D-Score được tính toán để so

sánh các thuật toán trừ nền. Bao gồm 29 thuật toán trừ nền trong thư viện BGS

(Background Subtraction Library) [36] để tính toán bốn phép đo chất lượng F-

Measure, D-Score, SSIM và FSD, thông qua đó để so sánh các phương pháp BS.

Các phép đo được tiến hành tính toán cho hầu hết các thuật toán, thông qua

các tham số mặc định và tham số điều chỉnh để tìm được thuật toán và tham số

tốt nhất trong các điều kiện khác nhau của môi trường (dữ liệu đầu vào).

- Hàm trung bình điều hòa F-Measure được tính như công thức (2.25);

- Tỷ số tín hiệu cực đại trên nhiễu PSNR (Peak Signal-Noise Ratio), được

tính bởi:

∑ ‖ ( ) ( )‖

(2.26) ∑

với Si(j) là điểm ảnh thứ j của ảnh i (kích thước m) trong dãy các khung

hình S (độ dài n).

- Độ đo tương tự cấu trúc SSIM (Structural SIMilarity), được xác định:

) )

( (

)(

)(

∑ ( ) (2.27)

với là giá trị trung bình, là độ lệch chuẩn và là hiệp phương sai của Si và Gi. Trong bộ tiêu chuẩn đánh giá, đặt C1= (k1 x L)2, C2= (k2 x L)2, với L là kích thước của tín hiệu xử lý (ví dụ L=255 đối với ảnh mức xám),

k1 = 0.01; k1 = 0.

Cuối cùng sử dụng D-Score, trong đó bao gồm việc xem xét vị trí các lỗi

theo vị trí thực của đối tượng. Khoảng cách Baddeley là một phép đo tương tự

cho ảnh nhị phân dựa vào biến đổi khoảng cách. Để tính toán giá trị đo này xem

xét những sai lầm trong kết quả BSA. D-Score được tính bằng cách sử dụng:

(2.28) ( ( )) (( ( ( ( ))) ) )

69

với ( ( )) là khoảng cách cực tiểu giữa Si(j) và điểm tham khảo gần nhất

(bằng thuật toán chuyển đổi khoảng cách).

Để thực hiện việc xếp hạng các thuật toán BS, đầu tiên F-Measure, D-Score

và SSIM được chuẩn hóa trong phạm vi [0,...,1]. Hàm đánh giá tổng hợp thuật

(

̅̅̅̅̅̅̅̅̅̅̅̅̅̅( )) ( ̅̅̅̅̅̅̅( )) ( (

toán BS là trung bình của các số đo, ký hiệu FSD(a), xác định bởi:

̅̅̅̅̅̅̅̅̅̅( )))

( ) (2.29)

với a là phương pháp BS, ̅̅̅̅̅̅̅̅̅̅̅̅̅̅( ) ̅̅̅̅̅̅̅( ) ̅̅̅̅̅̅̅̅̅̅( ) là trung

bình F-Measure, SSIM và D-Score của thuật toán BS thông qua tập dữ liệu.

Giá trị đánh giá tổng hợp thuật toán BS trình bày trong Bảng 2.2.

Bảng 2.2. Hệ số đánh giá toàn cục các thuật toán BS trong tập dữ liệu BMC [36].

Phương pháp

PSNR D-

SSIM FSD

Chiêu hồi

Chính xác

F- measure

score

Phương pháp cơ bản, trung bình và phương sai toàn thời gian

StaticFrameDifferenceBGS

0.885 0.660

0.750

32.238 0.011 0.884 0.119

FrameDifferenceBGS

0.702 0.925

0.798

51.626 0.002 0.993 0.799

WeightedMovingMeanBGS

0.723 0.915

0.807

51.454 0.002 0.993 0.818

WeightedMovingVarianceBGS

0.721 0.912

0.805

51.427 0.002 0.993 0.814

AdaptiveBackgroundLearning

0.808 0.884

0.844

50.684 0.002 0.993 0.896

DPMeanBGS

0.597 0.935

0.729

51.881 0.002 0.992 0.642

DPAdaptiveMedianBGS

0.829 0.779

0.795

43.267 0.003 0.967 0.691

DPPratiMediodBGS

0.814 0.871

0.837

49.580 0.001 0.991 0.888

Các phương pháp dựa trên tập mờ

FuzzySugenoIntegral

0.778 0.897

0.832

50.976 0.001 0.993 0.874

FuzzyChoquetIntegral

0.805 0.876

0.837

50.366 0.001 0.992 0.884

LBFuzzyGaussian

0.909 0.740

0.808

42.364 0.003 0.974 0.738

Các phương pháp thống kê sử dụng Gauss

DPWrenGABGS

0.795 0.922

0.853

51.394 0.001 0.993 0.922

LBSimpleGaussian

0.855 0.770

0.805

45.073 0.002 0.982 0.767

Các phương pháp thống kê sử dụng nhiều Gauss

DPGrimsonGMMBGS

0.717 0.913

0.802

51.445 0.002 0.993 0.808

MixtureOfGaussianV1BGS

0.793 0.912

0.847

51.107 0.001 0.993 0.910

MixtureOfGaussianV2BGS

0.893 0.813

0.850

48.383 0.002 0.992 0.899

70

0.665 0.928

0.774

51.717 0.002 0.992 0.746

LBMixtureOfGaussians

0.868 0.834

0.848

48.797 0.001 0.991 0.917

Các phương pháp dựa trên tập mờ loại 2

T2FGMM_UM

0.661 0.935

0.774

51.792 0.002 0.992 0.745

T2FGMM_UV

0.800 0.747

0.762

43.395 0.003 0.971 0.628

T2FMRF_UM

0.852 0.670

0.743

31.732 0.012 0.872 0.030

T2FMRF_UV

0.678 0.888

0.763

50.900 0.002 0.991 0.716

Các phương pháp thống kê sử dụng đặc trưng màu và kết cấu

DPZivkovicAGMMBGS

MultiLayerBGS

0.893 0.863

0.875

49.398 0.001 0.993 0.974

Các phương pháp không tham số

0.923 0.852

0.885

49.412 0.002 0.994 0.985

PixelBasedAdaptiveSegmenter (PBAS)

GMG

0.947 0.703

0.803

41.412 0.003 0.979 0.730

VuMeter

0.722 0.842

0.775

50.296 0.002 0.992 0.735

Các phương pháp dựa trên đặc trưng riêng và vector riêng

DPEigenbackgroundBGS

0.879 0.658

0.747

32.843 0.011 0.891 0.114

Các phương pháp dựa trên nơ ron và tập mờ nơ ron

LBAdaptiveSOM

0.838 0.907

0.867

50.553 0.001 0.992 0.952

LBFuzzyAdaptiveSOM

0.877 0.811

0.836

46.182 0.002 0.982 0.848

Trong Bảng 2.2, các thuật toán, phương pháp BSM tốt nhất được đánh dấu

bằng nền màu. Ngoài ra Andrews Sobral và Antoine Vacavan còn đánh giá các

thuật toán trừ nền thông qua các điều kiện thời tiết phức tạp khác nhau, như đối

tượng đang đi thì dừng lại, ánh sáng thay đổi đột ngột, bóng xuất hiện và nền

thay đổi.

Phân tích hiệu suất qua các tình huống cụ thể phức tạp:

Phân tích hiệu suất của thuật toán BSM tốt nhất trong bốn tình huống cụ

thể: đối tượng chuyển động dừng đột ngột, ánh sáng thay đổi đột ngột, bóng

xuất hiện, cây đung đưa hoặc nền động. Bốn tình huống này rất khó để đối phó

và rất phổ biến trong môi trường trong nhà cũng như ngoài trời. Tất cả các

phương pháp được đánh giá với các tham số mặc định và điều chỉnh tham số.

Mục đích của điều chỉnh tham số để tối đa TP và giảm thiểu FP.

Đối tượng dừng đột ngột:

71

Sử dụng một video chứa một xe lửa dừng trong một khoảng thời gian nhất

định. Một số thuật toán BSM thất bại trong tình huống này bởi vì xe lửa có thể

lẫn trong các mô hình nền trong khi nó đang được cập nhật. Bảng 6 cho thấy số

lượng TP, FN, FP và TN trước và sau khi điều chỉnh tham số.

Số lượng TP đã tăng lên sau khi điều chỉnh tham số. Tuy nhiên, đôi khi số

lượng FP cũng tăng (MultiLayerBGS). Phương pháp tốt nhất phải có ít FP và

nhiều TP. Các thuật toán LBAdaptiveSOM, AdaptiveBackgroundLearning cho

kết quả tốt, vì nó có thể để phát hiện TP tốt mà không làm tăng FP quá nhiều.

Tuy nhiên, không có thuật toán là xử lý hoàn toàn các sự kiện khó khăn này,

ngay cả khi điều chỉnh đầy đủ các tham số.

Ánh sáng thay đổi đột ngột:

Sử dụng một video mà có sự thay đổi ánh sáng đột ngột. Một số thuật toán

BS thất bại trong tình huống này do khả năng chịu nhiễu thấp. Số TP tăng lên

sau khi điều chỉnh tham số và hầu hết FP giảm. Tất cả các thuật toán (trừ các

PBAS và DPEigenback-groundBGS) đạt được những kết quả tốt với các tham

số mặc định. PBAS chỉ đạt được kết quả tốt sau khi điều chỉnh tham số.

LBAdaptiveSOM và MultiLayerBGS cho thấy kết quả tốt, vì có thể tìm thấy

một sự thỏa hiệp tốt giữa tăng TP và giảm FP.

Khi có bóng xuất hiện:

Sự xuất hiện của bóng cứng và mềm cũng là một trong những tình huống

khó khăn đối với nhiều thuật toán BS. Sử dụng một video mà một người đi trong

một môi trường tối và ánh sáng tạo ra một cái bóng lớn. Số lượng FP đã giảm

sau khi điều chỉnh tham số số lượng TP đã giảm nhẹ. Các thuật toán

MultiLayerBGS cho thấy kết quả tốt, như trong các trường hợp phức tạp trước

đây đã đánh giá. Điều quan trọng là phải lưu ý rằng thuật toán MultiLayerBGS

có một tham số gọi là SW (Shadow Rate) đặc tả cho sự xuất hiện của bóng.

Multi-LayerBGS đã loại bỏ thành công bóng trong thí nghiệm này. Các phương

pháp khác đã đạt được kết quả thấp hơn. Đối với tất cả các phương pháp thử

72

nghiệm không thành công để loại bỏ bóng hoàn toàn mà không làm tổn hại đến

sự phát hiện TP.

Nền có cây đung đưa và nền động:

Hình nền động và cây di chuyển vẫn còn là một thách thức mở tại BS. Sử

dụng một video mà cây đung đưa tạo ra một nền động. Số lượng FP đã giảm sau

khi điều chỉnh tham số nhưng số lượng TP đã thay đổi một chút cho một số

phương pháp.

PBAS, DPWrenGABGS, LBAdaptiveSOM và các thuật toán

T2FGMM_UM đã cho thấy kết quả tốt vì có sự thỏa hiệp tốt giữa sự gia tăng TP

và FP. Các phương pháp khác đạt được chỉ là một sự cải thiện về chất lượng vừa

phải.

Từ kết quả Bảng 2.1 và Bảng 2.2 thấy rằng đối với video giám sát giao

thông, môi trường ngoài trời, khi mà có nhiều sự thay đổi đột ngột của ánh sáng,

có sự tác động của bóng hình khi trời nắng, có nền động do sự tác động của gió

lên cây cối, khi đối tượng đang đi thì dừng lại đột ngột,... thì việc áp dụng các

thuật toán hỗn hợp Gauss là phù hợp nhất.

2.2. Mô hình và thuật toán đề nghị

2.2.1. Mô hình GMM đề nghị

Phương pháp tiếp cận trên mô hình điểm ảnh bằng việc xem xét giá trị

điểm ảnh quan sát với vài mô hình Gauss đơn. Trong điều kiện ngoài trời, ánh

sáng thay đổi bất kỳ, cần phải cập nhật tham số của mô hình cho mỗi giá trị

điểm ảnh mới thu được để phù hợp hơn với sự thay đổi ánh sáng. Các bước sửa

đổi của tham số của nó như sau:

Bước 1. Với mỗi điểm ảnh mới, sẽ phát hiện sự phù hợp của nó với mô

hình đầu tiên. Gọi  là biến giá trị phù hợp, ta có:

{ i=1,2,...,K (2.30) | | | |

73

với  là hằng số theo thực nghiệm thu được. Khi đó trích chọn các mẫu từ tất cả

số lượng trong phân bố thường và khoảng 95% các mẫu là rơi vào khoảng (-

2, +2), do vậy, thường đặt  trong khoảng 2 đến 3.

Bước 2. Vì 2 tình huống khác nhau nhận từ bước đầu tiên, có thể phù hợp

các phương pháp thay đổi khác nhau:

Nếu Gauss chắc chắn (số thứ tự k) của sưu tập đa chế độ được phù hợp với

điểm Xt, cần cập nhật giá trị trọng số Gauss:

(2.31) k,t = (1-α)k,t-1 + α(1-α)k,t-2

với α là hằng số tốc độ cập nhật nền – giá trị trọng số cập nhật trong khoảng

[0,1], được đặt theo kinh nghiệm và điều kiện cụ thể, để giảm nhiễu nền, thường

đặt giá trị α nhỏ, ví dụ α=0.05.

Từ phương trình (2.26) mô hình được xác định có thể luôn luôn thực sự mô

phỏng các tình huống phân chia giá trị nền điểm ảnh trong thời điểm mới nhất.

Theo định nghĩa của mô hình, các giá trị trọng số đại diện cho xác suất xuất hiện

của các giá trị điểm ảnh gần nhất. Sau đó, khi giá trị điểm ảnh mới thu được là

phù hợp với một số hoặc một số mô hình đơn trong phân phối này, nó có nghĩa

là mô hình đơn đáp ứng tương đối phân phối các giá trị điểm ảnh của hiện tại và

do đó cần phải tăng giá trị trọng số của nó đúng cách. α tốc độ cập nhật các giá

trị trọng số của số lượng các giá trị trọng số của biến đổi và α lớn nhận ra sự

thay đổi nhanh chóng.

Khi mô hình đơn là phù hợp với một giá trị điểm ảnh mới thu được, cần

phải sửa đổi tham số mô hình µk,t và ρk,t. Vì khi giá trị điểm ảnh mới thu được

kết hợp với chế độ đơn, theo phân bố xác suất, nó phải ảnh hưởng đến sự phân

bố xác suất ước tính ban đầu. Phương trình thay đổi theo công thức sau:

(2.32) i+1(x,y)2 = (1-α) i-1(x,y)2 + αi(x,y)2

(2.33) µi+1(x,y) = (1- α)µi(x,y) + αIi+1(x,y)

với Ii+1(x,y) là mức xám của khung hình video mới nhất thu được tại điểm

(x,y), trong đó µi(x,y) là giá trị trung bình của Gauss mô hình đơn phù hợp.

74

Nếu giá trị điểm ảnh mới Xt là không phù hợp với một số phân phối Gauss,

có thể cho rằng các giá trị điểm ảnh mới không thực hiện bất kỳ đóng góp để

phân phối các mô hình đơn và sau đó không cần phải thay đổi thông số phân

phối Gauss và chỉ thay đổi giá trị trọng của nó theo công thức sau:

(2.34) k,t = (1-α) k,t-1

Điều này cho thấy giá trị trọng số phân phối Gauss phù hợp với Xt có thể

được tăng lên, và các giá trị phân phối khác đều giảm.

Khi không có bất kỳ một phân phối Gauss trong bộ sưu tập phù hợp với các

giá trị điểm ảnh mới Xt, có nghĩa là phân phối mới được tạo ra và phân phối phải

ở trong các bộ sưu tập đa chế độ. Vì vậy, cần thêm một mô hình mới đơn và

trong thời gian trung bình loại bỏ phân phối Gauss từ bộ sưu tập mô hình ban

đầu. Phương pháp cụ thể là để loại bỏ sự phân bố Gauss với trọng lượng tối

thiểu trong bộ sưu tập đa hiện tại và giới thiệu một phân phối Gauss mới trong

bộ sưu tập đa theo Xt và cũng thiết lập một giá trị trọng số tương đối nhỏ và

phương sai tương đối lớn.

Trong phân phối Gauss vừa được giới thiệu theo Xt, giá trị trọng số của nó

là trọng số tối thiểu trong bộ sưu tập đa hiện tại và giá trị trung bình là giá trị

điểm ảnh mới và phương sai là một hằng số tương đối lớn.

Bước 3. Sau khi sửa đổi ở trên, cần phải xử lý các giá trị trọng số của mỗi

mô hình đơn trong các mô hình với phương pháp bình thường. Đối với việc cập

nhật các giá trị ở trên, khi một mô hình là phù hợp với một điểm ảnh mới, bởi vì

(2.35) ∑

(2.36) với ∑ ( ) ∑

Vì vậy, không cần phải thực hiện các xử lý chuẩn hóa.

Nếu mô hình mới được tạo ra, tiến hành xử lý các giá trị trọng số của mỗi

mô hình ban đầu:

(2.37)

75

Đánh giá liệu mỗi giá trị điểm ảnh mới là các điểm ảnh đối tượng hoặc nền

điểm ảnh hoặc không. Mô hình để thể hiện nền điểm ảnh trong một mô hình hỗn

hợp nên có các tính năng: giá trị trọng số tương đối lớn và thay đổi tương đối

nhỏ. Xem xét hai khía cạnh của các yếu tố. Rất khó để đánh giá một tham số nào

quan trọng hơn tham số khác để từ đó đánh giá liệu mô hình đơn là mô hình nền

hay không. Chỉ cần phải xem xét hai thông số kích thước tương đối trong bộ sưu

tập mô hình để có được các giải pháp của các mô hình thuộc nền. Kích thước

của giá trị tương đối / như mức độ ưu tiên của từng phân bố Gauss.

Phương pháp để có được những mô hình điểm ảnh nền được thể hiện:

(1) Tính / mức độ ưu tiên của từng mô hình Gauss.

(2) Sắp xếp thứ tự từng phân phối Gauss từ cao đến thấp lần lượt theo kích

thước của mức độ ưu tiên /.

(3) Chọn phân bố Gauss B đầu tiên từ tập K (số các phân bố) làm mô hình

nền và xác định theo công thức (2.41):

{∑ ∑

}

Ở đây, T được coi là biện pháp giảm thiểu các ước tính nền. Mô hình nền

được xây dựng theo các bản phân phối B Gauss đầu tiên phù hợp với Xt với mỗi

bản phân phối Gauss B riêng theo thứ tự mức độ ưu tiên. Nếu không có bất kỳ

phân phối Gauss đó thể hiện sự phân bố nền là phù hợp với Xt, thời điểm này

được đánh giá như là tiền cảnh, nếu không là nền, và sau đó hoàn thành việc

phát hiện đối tượng theo mô hình đa Gauss thích nghi.

Vì GMM giả thiết rằng mỗi điểm ảnh là độc lập riêng biệt, khi sự thay đổi

chiếu sáng ngoài trời gây ra sự thay đổi cảnh, nó hoàn toàn có thể mang lại đối

tượng giả trong khu vực rộng dẫn đến đánh giá sai. Thông qua việc quan sát sự

biến đổi chiếu sáng trong ứng dụng video thực sự, phân chia sự thay đổi ánh

sáng thành hai loại: đột ngột và dần dần. Bằng cách phân tích trên hai biến thể,

76

sự chiếu sáng thay đổi yếu tố t để loại bỏ ảnh hưởng của sự biến đổi ánh sáng

về phát hiện đối tượng di chuyển:

(2.38)

(2.39)

Et thể hiện thông tin Entropy khung hiện tại và ER, EG, EB đại diện cho

thông tin Entropy khung hiện tại của mỗi thành phần riêng biệt. Màu sắc của

hình ảnh được kết nối chặt chẽ với các đối tượng của chúng và phân phối khác

nhau giá trị điểm ảnh chiếu sáng có thể phản ánh mức độ biến đổi ánh sáng của

môi trường. Thông qua các biểu đồ màu sắc để trích xuất tính năng màu. Khi hai

hình ảnh phát hiện mẫu giá trị đặc trưng không giống nhau nhưng sự khác biệt

của hai giá trị nhỏ hơn giá trị ngưỡng nhất định, điều này cho thấy sự tương

đồng của chúng tương đối cao và hai hình ảnh phân phối thống kê giống nhau.

Theo nguyên tắc này, đề xuất phương pháp phát hiện sự thay đổi ánh sáng đó là

thuật toán phù hợp với lược đồ xám để phân biệt sự thay đổi dần dần hay thay

đổi đột ngột của ánh sáng. Công thức được thể hiện như sau:

(2.40) ( ) ∑ ( ( ) ( ))

với Hi biểu diễn lược đồ xám của ảnh trong thời gian t:

( ( ) ( )) ( ( ))

(2.41) ( )

Gọi i là biến thể hiện sự thay đổi của ánh sáng (i=0 ánh sáng thay đổi

dần dần, i=1 ánh sáng thay đổi đột ngột). Sử dụng D(t, t-1) để phân biệt sự

thay đổi ánh sáng:

(2.42) { ( ) ( )

với Ti là giá trị ngưỡng phù hợp tương tự. Cập nhật tỷ lệ học thích nghi α theo:

77

(2.43) {

Công thức lặp trọng số mô hình là:

(2.44) i,t+1 = (1-α)i,t + αMt – αCT

với cT là một hằng số phản ánh kích thước của các tham số mô hình.

Để thích nghi chọn số lượng phương thức thích hợp là đối tượng của thiết

kế mô hình, không chỉ có thể cải thiện sự ổn định của mô hình, mà còn tiết kiệm

thời gian tính toán hiệu quả và cung cấp giúp đỡ rất nhiều cho việc phát hiện

hiệu suất thời gian thực của hệ thống. Kết hợp các biến thể chiếu sáng yếu tố t

để điều chỉnh tỷ lệ học α trong thời gian thực và khi đó cập nhật tỷ lệ học .

2.2.2. Thuật toán trích chọn khối chuyển động (EMB)

Thuật toán trích chọn khối chuyển động EMB

Đầu vào:

It, t=1..NF: Các khung hình trích từ video,

k: số Gauss

α: Chọn giá trị ban đầu là 0.005

Đầu ra:

FGt(u,v) // Ảnh nhị phân chứa đối tượng chuyển động

Các bước thực hiện:

Bước 1. Tính giá trị nền

1. Khởi tạo các biến

α=0.005

2. For each It

3. Tính Entropy

4. Tính hệ số chiếu sáng

5. Tính hệ số phản ứng ánh sáng

( ) ∑

( ( ) ( ))

( ( ))

if (D(t,t-1)T) then =1 else =0

78

if (=1) then α=2α else α=α+

if (α>1) then α=1

7. Tính toán các tham số của gauss

for i = 1 to k

{

8. Tính độ lệch chuẩn σ2 cho mỗi kênh màu

i+1(u,v)2 = (1-α) i-1(u,v)2 + αi(u,v)2

9. Cập nhật hệ số lặp mô hình

i,t+1 = (1-α)i,t + αMt – αCT

}

10. Sắp xếp mức độ ưu tiên

min (/)  min_var()

11. Cập nhật giá trị nền

}

{∑ ∑

Bước 2. Tách nền và tiền cảnh

12. For each pixel (u,v) in ROI template

if | I(u,v) – B| > TROI  FGt(u,v) = 1 (Tiền cảnh)

else FGt(u,v) = 0 //Nền

13. Return FGt(u,v)

6. Cập nhật hệ số học

Độ phức tạp thuật toán:

Giả sử tại thời điểm t xem xét chuỗi gồm số lượng NF khung hình được

trích chọn từ thời điểm trước tới thời điểm t. Số bước thực hiện duyệt qua toàn

bộ các khung hình là NF (For i=1 to NF).

Giả sử mỗi bức ảnh của khung hình phân tích có kích thước là (n  m), số

điểm ảnh cần duyệt qua mỗi khung hình là n  m ( For j=1 to nm).

Số phép toán ước tính là: NF  n  m.

Độ phức tạp ước tính của thuật toán EMB là O(NF  n  m), với NF là số

khung hình, n và m là kích thước ảnh của mỗi khung hình.

2.3. Phương pháp đếm phương tiện giao thông áp dụng mô hình GMM

thích nghi thay đổi ánh sáng kết hợp luồng quang học

79

Trong tài liệu [3], nhóm Trần Thanh Việt dựa trên luồng quang học để bám

đối tượng chuyển động. Tuy nhiên, đối với vấn đề đếm xe trên đường cao tốc,

để đối phó với sự thay đổi ánh sáng môi trường ngoài trời có thể vận dụng kết

hợp mô hình GMM thích nghi với ánh sáng và luồng quang học để thiết kế hệ

thống. Một số kết quả thực nghiệm cho thấy phương pháp này cho kết quả khá

tốt trong môi trường thực và mức độ dính nhau trong khung hình của các

phương tiện là ít (thưa), mức độ chính xác giảm dần khi mức độ dính nhau tăng.

2.3.1. Sơ đồ khối tổng quát

Mục đích đếm số lượng đối tượng chuyển động, sử dụng phương pháp phát

hiện đối tượng chuyển động dựa trên mô hình GMM thích nghi sự thay đổi ánh

sáng và kết hợp luồng quang học.

Sơ đồ hệ thống của phương pháp chúng tôi đề nghị bao gồm 6 bước cơ bản.

Bắt đầu từ xác định vùng quan tâm trên đường, thu nhận video từ camera,... kết

quả cho ra số lượng đối tượng đang chuyển động trong vùng quan tâm. Sơ đồ

khối của phương pháp xử lý được thể hiện trong Hình 2.1.

(1) Xác định ROI: vùng quan tâm chịu ảnh hưởng của phương pháp đặt

camera để thu nhận dữ liệu video. Có nhiều cách để đặt camera, như đặt bên

hông đường, đặt trực diện ở trên tầm cao, đặt trực diện ở tầm thấp,... Ở đây xác

định đặt camera trên độ cao phù hợp, ngang tầm với các cầu vượt đường cao tốc

(tương tụ như các camera giao thông đang sử dụng hiện nay) để theo dõi trực

diện phương tiện chuyển động. Vùng quan tâm được xác định là cặp vạch ảo

thiết lập trên làn đường theo chiều ngang. Khung hình được thu nhận liên tiếp từ

vạch thứ nhất (ở xa) và được theo dõi, phân tích cho đến khi ra khỏi vạch thứ hai

(ở gần).

(2) Căn cứ vào cấu trúc và cấu hình của camera mà xác định số lượng

khung hình trích chọn cho phù hợp. Theo cấu trúc dữ liệu Video hiện sử dụng

thường có tốc độ 25frames/giây. Dùng thuật toán nắm bắt khung hình kết hợp

với bộ đồng hồ trong ngôn ngữ lập trình có thể thu nhận dữ liệu các khung hình

thành file ảnh màu tương ứng.

Bắt đầu

1. Xác định ROI

2. Trích chọn khung hình trong ROI

3. Trích chọn đối tượng chuyển động (mặt nạ) và tiền xử lý

4. Xác định khối và gán nhãn cho khối đối tượng

5. Xác định và trích chọn luồng quang học trên từng khối

6. Thực hiện đếm số lượng xe

Kết thúc

80

Hình 2.1. Lược đồ khái quát thuật toán CCA-GMMOF

(CCA-GMMOF - Car Counting Alogorithm using GMM and Optical Flow)

(3) Trích chọn đối tượng chuyển động và tiền xử lý. Căn cứ vào dãy các

khung hình thu được, sử dụng BSM, áp dụng mô hình GMM thích nghi ánh

sáng để phát hiện mặt nạ đối tượng chuyển động. Ảnh nhị phân được làm sạch

bằng phương pháp loại bỏ nhiễu. Nhiễu được xác định là các khối có kích thước

nhỏ theo quy ước của một ngưỡng đối tượng tương ứng xác định trước. Áp dụng

phương pháp loại bỏ nhiễu, những đối tượng không phải là phương tiện chuyển

động, kích thước bé,... ra khỏi mặt nạ phương tiện chuyển động, tiếp tục nhị

phân hóa ảnh mặt nạ phương tiện. Nội dung chi tiết được trình bày trong thuật

toán EMB (Extract Moving Block).

(4) Mặt nạ đối tượng chuyển động chứa các khối chuyển động riêng biệt

trong ảnh nhị phân. Cần phải gán nhãn cho các khối này, hoặc chỉ mục hóa các

khối này để chuyển sang giai đoạn sau là phân tích hình dạng và đường viền.

Thuật toán phân đoạn khối và gán nhãn cho khối được trình bày trong thuật toán

SLBBI (Segmentation and Labling to Block for Binary Image).

81

(5) Xác định và trích chọn luồng quang học trên từng khối: Luồng quang

học là đường đi của một điểm ảnh giữa các khung hình được trích ra từ một

video. Gọi p(x0,y0,t0) là điểm ảnh thuộc khung hình I(t0) tại thời điểm t0, điểm

p(xn,yn,tn) là điểm ảnh đó tại khung hình I(tn), với n>=1. Luồng quang học được

xác định khi: p(xn,yn,tn) = p(x0,y0,t0) +d; với d là khoảng cách điểm ảnh giữa thời

điểm t0 và tn; vấn đề đặt ra với luồng quang học là xác định được độ dài d. Nếu

độ dài d=0 thì coi như không có luồng quang học, và đối tượng không chuyển

động. Thuật toán trích chọn luồng quang học được trình bày trong thuật toán

EBOF(Extract Blob from Optical Flow).

(6) Thực hiện đếm xe: Thực hiện chọn 1 điểm trên mỗi block khi xuất hiện

ở vạch xuất phát ở xa hướng quan sát, nếu điểm này sau một khoảng các khung

hình chạm tới vạch đích (gần hướng quan sát) thì xác định đây là một khối đối

tượng chuyển động.

Thuật toán đếm xe CCA-GMMOF:

Đầu vào: Video

Đầu ra: Số lượng xe ô tô

Các bước thực hiện:

1. Xác định ROI và khởi tạo

ROI (x1,y1,x1,y2;x2,y1,x2,y2)

Khởi tạo count = 0;

2. Trích chọn khung hình trong ROI

frames  read_frame(videoSource);

grayFrame  convert_to_gray(frame);

roiFrame region_interest(grayFrame) ;

3. Trích chọn mặt nạ đối tượng chuyển động và tiền xử lý

binaryImage  EMB(roiFrame);

filterBinaryImage  morphology(binaryImage);

4. Phát hiện khối và gán nhãn cho khối

Block[i]  SLBBI(filterBinaryImage)

5. Phát hiện và theo dõi luồng quang

for each(c in blocks)

If (c satisfy as vehicle)  Generate tracking point Pi in object c

82

6. Thực hiện đếm xe

For each(tracking point Pi)

If (Pi + n) reach counting line  Count++;

else delete Pi;

7. Return Count;

Pi +1 = optical_follow(Pi)

2.3.2. Thuật toán phát hiện và gán nhãn cho khối (SLBBI)

Mô tả thuật toán:

Giả sử có ảnh nhị phân như hình dưới (màu đen là nền, màu trắng là đối

tượng). Duyệt qua lần lượt các điểm ảnh theo từng hàng. Từ trái qua phải, từ

trên xuống dưới. Có các trường hợp xảy ra như là: điểm ảnh là nền, điểm ảnh là

đối tượng. Khi điểm ảnh là đối tượng, xét các điểm ảnh lân cận. Căn cứ vào các

điểm ảnh lân cận mà quyết định gán nhãn cho điểm ảnh là nhãn đã gán hoặc mở

nhãn mới. Sơ đồ khối tổng quát của phương pháp thể hiện trong Hình 2.2.

Ý tưởng của phương pháp:

(a) (b)

(c) (d)

(e) (f)

83

(g) (h)

(k) (i)

Hình 2.2. Minh họa thuật toán gán nhãn cho khối

Trong đó: (a) Bắt đầu duyệt ảnh từ trái qua phải, từ trên xuống dưới (b) Xác nhận một vùng mới có các lân cận chưa gán nhãn (c) Thiết lập điểm ảnh hiện tại và tăng nhãn lên 1 (d) Kiểm tra các lân cận tiếp theo (e) Gán nhãn cho lân cận bên cạnh (f) Dịch chuyển đến vùng mới bên phải (k) Kết quả gán nhãn

Thuật toán SLBBI tương tự như thuật toán gán nhãn vùng trong ảnh, đã có

nghiều công trình nghiên cứu cài đặt thử nghiệm. Trong nghiên cứu của luận án

không trình bày lại thuật toán này mà chỉ sử dụng kết quả của các nghiên cứu có

trước.

2.3.3. Thuật toán trích chọn luồng quang học (EBOF)

Mô tả thuật toán:

Xây dựng hàm biểu diễn ảnh theo hình kim tự tháp, trong công trình [14],

[18] đã xây dựng cách biểu diễn ảnh ở các mức khác nhau, theo hình kim tự

tháp. Áp dụng cách biểu diễn này để xây dựng thuật toán Lucas-Kanade, xác

định mối liên quan giữa 2 điểm ảnh trên 2 khung hình khác nhau.

;

Cho ảnh I(nx,ny); Đặt I0=I là ảnh mức 0, với

Biểu diễn truy hồi ảnh mức 1 qua ảnh mức 0, mức 2 qua mức 1,...

84

( ) ( )

(2.45)

( ( ) ( ) ( ) ( )) ( ( ) ( ) ( ) ( )) [

Để đơn giản trong các ký hiệu, chúng ta có thể viết như sau:

) (

) )

) (

)

( ) ( ) ( ) ( ) ( ) ( ) (2.46)

) (

( ( ( [

trong đó:

,

(2.47)

(2.48) ,

Phương pháp luồng quang học, Trần Thanh Việt và cộng sự, năm 2011 [3]

thực hiện bằng cách sử dụng các vector có hướng của các đối tượng chuyển

động theo thời gian để phát hiện các vùng chuyển động trong một ảnh.

Trong [3], đã trình bày nghiên cứu kỹ thuật luồng quang học để ứng dụng

thử nghiệm theo vết đối tượng trong camera và dựa trên các hành vi của đối

tượng để điều khiển thiết bị máy tính như chuột, lướt web, ra các sự kiện bấm

chuột, bấm đúp chuột, phóng to, thu nhỏ.

Ý tưởng quan trọng của phương pháp tính luồng quang học dựa trên giả

định:

Bề ngoài của đối tượng không có nhiều thay đổi (về cường độ sáng) khi xét

từ khung hình thứ n sang khung hình n+1. Nghĩa là:

(2.49) ( ̅ ) ( ̅ ̅ )

85

Trong đó là hàm trả về cường độ sáng của điểm ảnh tại thời điểm t (khung

hình thứ t) là tọa độ của điểm ảnh trên bề mặt (2D), là vector vận tốc, thể hiện sự

thay đổi vị trí của điểm ảnh từ khung hình thứ t sang khung hình t+1).

Gọi xt = {xm,t; m =1,…,M} là tập các đối tượng tại thời điểm t. Trong đó, M

là tập biểu diễn kết quả phát hiện đối tượng của hệ tại thời điểm t

là số đối tượng có trong hệ thống, M có thể thay đổi theo thời gian.

Gọi

tương ứng. Ta có:

}

{

(2.50)

|| } với ngưỡng cho

D là số đối tượng phát hiện được.

{

||

Gọi

trước là tập các kết quả phát hiện “cũ”, được hiểu theo nghĩa, nếu một phát hiện

trong thời điểm t quá gần với một trạng thái đã có tại thời điểm t-1 thì nó sẽ

được xem là trùng với đối tượng đó. Một cách gần đúng, giả định những phát

hiện này xuất phát từ đối tượng đã có từ thời điểm t-1 trước đó.

là tập những phát hiện “mới”, Tương tự, ta định nghĩa

được hiểu là giữa tập các điểm mới và tập các điểm cũ cách nhau một khoảng d.

Trích chọn luồng quang học tức là theo dõi cùng một điểm ảnh giữa các

khung hình, xem nó có chuyển động hay không. Luồng quang học rất cần thiết

cho việc xác định đối tượng chuyển động trong vùng quan sát. Giả sử điểm ảnh

tại thời điểm bắt đầu vùng quan sát, sau 1 thời gian t, tiếp cận đến điểm kết thúc

của vùng quan sát, điều này có thể kết luận có 1 đối tượng chuyển động.

Nội dung thuật toán:

Thuật toán theo dõi xe thông qua luồng quang học EBOF

Đầu vào: Video (online or offline)

Đầu ra: Đặc trưng của véc tơ luồng quang học v

Các bước thực hiện:

1) For each foreground frame at time t

2) If mod(t,Tof)=0 then

2.1. f1  BF

2.2. Top(BF)  f2

2.3. Lucas-Kanade(f1,f2)

2.4. Feature V

86

Function Lucas-Kanade(I,J)

{

1) Image Description

ImageLevelFunction(I)

ImageLevelFunction(J)

]

[ ]

Init [

2) for L=Lm downto 0 with step=-1

2.1. [ ]

2.2. ( )

( ) ( )

2.3. ( )

( ) ( )

2.4. ∑

]

( ) [ ( ) ( )

( ) ( ) ( )

2.5. [ ] 2.6. for k=1 to K with step=1 {

3)

4) v = u + d

5) Return v }

Độ phức tạp tính toán trích chọn luồng quang học: O(n2). Kết quả thực nghiệm.

2.3.4.

Theo kết quả trong nghiên cứu công bố trong công trình công bố số 3, mức

độ hợp khối (dính nhau) của các phương tiện giao thông là số phương tiện trong

vùng quan tâm hoàn toàn độc lập, có dính nhau đôi một, có dính nhau nhiều.

Khi không có sự dính khối, luồng quang học được xác định rõ ràng hơn, nên kết

quả nhận dạng và đếm dễ dàng. Mật độ được gọi là thưa nếu số lượng tại thời

87

điểm xét trong vùng quan tâm chỉ có duy nhất một phương tiện; mật độ được gọi

là tương đối thưa, tại thời điểm xét, số phương tiện nhiều hơn 1, nhưng không có

sự chồng lấp, che khuất nhau; và mật độ được gọi là dày đặc, nếu số lượng

phương tiện lớn hơn 1, nhưng có sự chồng lấp lên nhau và che khuất nhau.

Hệ thống thực nghiệm áp dụng GMM thích nghi sự biến đổi ánh sáng kết

hợp luồng quang học đếm số lượng xe trong vùng quang tâm. Hệ thống được cài

đặt trên môi trường Microsoft Vision Studio 12 và thư viện mã nguồn mở

EMGU.

Dữ liệu đầu vào được thu thập thực tế tại 5 cung đường: Cao tốc Bắc

Thăng Long - Nội bài; Đại lộ Thăng Long; Quốc lộ 1 khu vực cầu Bồ Sơn - Bắc

Ninh; Quốc lộ 5 đoạn đi qua cầu vượt Như Quỳnh. Mỗi cung đường bao gồm 7

đoạn video thu thập dưới các điều kiện thời tiết khác nhau. Các ảnh liên tiếp sử

dụng trong thực nghiệm được ghi lại bởi một camera màu đặt ở chính giữa làn

đường phía trên một cầu vượt. Hướng của camera song song với hướng chuyển

động của đối tượng.

Bảng 2.3. Dữ liệu thực nghiệm

Nắng

Mây

1 phút/ 1500frame

1 phút/ 1500frame

Số lượng video/khung hình thu thập Buổi trưa 1 phút/ 1500frame

Ngày mưa 1 phút/ 1500frame

Lúc mặt trời lặn 1 phút/ 1500frame

Sương mù 1 phút/ 1500frame

Mưa ban đêm 1 phút/ 1500frame

1.5 phút/ 2250frame

1.5 phút/ 2250frame

1.5 2250frame

1.5 phút/ 2250frame

1.5 phút/ 2250frame

1.5 phút/ 2250frame

1.5 phút/ 2250frame

Cung đường Bắc Thăng Long Đại lộ Thăng Long Quốc lộ 1

1 phút/ 1500frame Quốc lộ 5 1.1 phút/ 1650frame

1 phút/ 1500frame 1.1 phút/ 1650frame

1 phút/ 1500frame 1.1 phút/ 1650frame

1 phút/ 1500frame 1.1 phút/ 1650frame

1 phút/ 1500frame 1.1 phút/ 1650frame

1 phút/ 1500frame 1.1 phút/ 1650frame

1 phút/ 1500frame 1.1 phút/ 1650frame

Thực nghiệm so sánh trên 112 đoạn video tại 4 cung đường khác nhau. Thử

nghiệm trên máy tính tốc độ xử lý 2.5GHz. Trước hết so sánh mục tiêu ảnh

hưởng của mức độ dày đặc của luồng phương tiện (số lượng xe di chuyển trong

1 phút), chất lượng video ảnh hưởng đến mức độ chính xác, tiếp theo sau đó

thực hiện thử nghiệm thời gian xử lý của thuật toán.

88

Hình 2.3. Dữ liệu video quay trên đường quốc lộ 5, hướng Hải phòng - Hà Nội

a) Đối tượng chuyển động trên quốc lộ 5, hướng từ Hải phòng về Hà Nội.

- Ký hiệu: V1[i,j,k]

- Buổi sáng, trưa, chiều, tối ứng với i=0,1,2,3

- Trời nắng, trời mưa, ứng với j=0,1

- Số thứ tự video ứng với k=0,1,...,9

b) Đối tượng chuyển động trên đường liên tỉnh, hướng Lương Tài về Quốc lộ 5

- Ký hiệu: V2[i,j,k]

- Buổi sáng, trưa, chiều, tối ứng với i=0,1,2,3

- Trời nắng, trời mưa, ứng với j=0,1

- Số thứ tự video ứng với k=0,1,...,9

c) Đối tượng di chuyển chiều Hà Nội đi Lạng Sơn

- Ký hiệu: V3[i,j,k]

- Buổi sáng, trưa, chiều, tối ứng với i=0,1,2,3

- Trời nắng, trời mưa, ứng với j=0,1

89

- Số thứ tự video ứng với k=0,1,...,9

Hình 2.4 minh họa dữ liệu video đầu vào ở các mức độ mật độ giao thông

khác nhau tại một số cung đường cao tốc ở phụ cận Hà Nội.

b) Xe trên sân bay nội bài Time: 1m06s; Size: 704x480; Frame rate: 7frame/s. Mức độ khối: có dính đôi

c) Xe trên cầu Thanh Trì Time: 1m14s; Size: 640x480; Frame rate: 15 frame/s; Mức độ khối: dính nhiều

a) Xe trên đường đại lộ Thăng Long. Time: 1m14s; Size: 640x480; Frame rate: 15 frame/s; Mức độ khối: đơn xe

Hình 2.4. Một số hình ảnh từ camera đưa vào thực nghiệm

Hình 2.5, minh họa một số giao diện của hệ thống thực nghiệm. Hình bên

trái thể hiện vùng quan sát. Hình bên phải trên thể hiện các đốm sáng phát hiện

đối tượng chuyển động và đánh dấu luồng quang học. Hình bên phải dưới là mặt

nạ nhị phân sau khi thực hiện hiện phép trừ nền.

Hình 2.5. Giao diện kết quả thực nghiệm của hệ thống

Sau khi tiến hành thử nghiệm và so sánh với các kỹ thuật trừ ảnh và trừ nền

về mức độ lỗi trung bình, độ nhiễu và tỷ lệ chính xác khi gặp phải nguồn ảnh

hoặc nguồn video chất lượng thấp, hoặc mức độ dày đặc của dòng phương tiện

thì phương pháp lồng quang học kết hợp tái chọn mẫu đạt được độ ổn định qua

bảng đánh giá sau:

90

Bảng 2.4. Phản ứng với mật độ xe trên các cung đường

Cung đường

Số khung hình theo dõi

Số lượng thực

Số lượng đếm bằng phần mềm

Độ chính xác

Mức độ dính khối

Cầu Như Quỳnh

1450

Tách rời nhau

35

35

100%

Đại lộ Thăng Long

1110

115

120

95.83%

Dính nhau từng đôi

Sân bay nội bài

462

Dính nhau ba

70

80

87.50%

Cầu Thanh Trì

1450

170

185

87.17%

Dính nhau nhiều

Tại Bảng 2.4, thấy rằng hệ thống phản ứng với mật độ rất rõ nét; khi các

xe không chồng lấp lên nhau độ chính xác lên tới 100%; ở mật độ dày tăng lên,

các xe có sự chồng lấp hoặc bóng hình làm chồng chấp, thuật toán tách khối

chưa được áp dụng, dẫn đến sai số. Số lượng xe đếm được của hệ thống có xu

hướng cao hơn số lượng thực, lý do có thể do ngưỡng đặt phân khối ô tô còn bé,

hệ thống có thể đếm nhầm sang xe máy. Các vấn đề này có thể khắc phục khi hệ

thống được phát triển kết hợp bài toán phân loại và theo dõi các loại đối tượng

độc lập (đếm cả đếm xe máy và các phương tiện khác).

Bảng 2.5. So sánh thời gian xử lý của thuật toán với mỗi khung hình

Phương pháp

Tốc độ xử lý ứng với mật độ phương tiện (ms)

Thưa

Trung bình

Dày đặc

GMM truyền thống

17.86

17.67

17.06

Phương pháp đề xuất

6.28

9.56

16.09

Từ Bảng 2.5, có thể thấy rằng, trong cảnh với mật độ thưa và trung bình,

thời gian xử lý trung bình của phương pháp đề nghị được cải thiện đáng kể;

Trong khi mật độ dày đặc, thời gian xử lý trung bình trong kỹ thuật đề nghị đã

được cải thiện ít hơn. Lý do chính do sự thay đổi tỷ lệ học α phù hợp với sự thay

đổi ánh sáng, nên số bước lặp sẽ giảm xuống, tốc độ phát hiện nền nhanh hơn.

91

Nhận xét về phương pháp:

- Lựa chọn mô hình hỗn hợp Gauss, cải tiến việc lựa chọn tham số học để

thích nghi với sự thay đổi ánh sáng.

- Kết hợp với lưu lượng dòng quang học để phát hiện xe và đếm xe.

- Vấn đề chính là lựa chọn ngưỡng để theo dõi đối tượng (độ rộng, độ dài)

của khung bao đối tượng. Nếu chọn mức bé thì ảnh hưởng đến tốc độ tính toán,

nếu chọn lớn thì ảnh hưởng đến độ chính xác. Với ngưỡng lớn thì những đốm

sáng (lưu lượng quang học) của hai phương tiện gần nhau có thể hợp thành một,

tạo ra sự phát hiện sai.

- Một vấn đề đặt ra, thực hiện theo giải pháp này thì chưa có tính phân loại

đối tượng. Giải pháp này mới dừng lại ở việc trả lời cho câu hỏi: có bao nhiêu

đối tượng đang chuyển động trong khung hình quan tâm.

2.4. Kết luận chương 2.

Chương 2 đã trình bày và đề xuất trích chọn đặc trưng đối tượng chuyển

động theo BSM; phân tích đặc điểm từng phương pháp, rút ra để giảm bớt sự

ảnh hưởng của ánh sáng trong môi trường ngoài trời của video giao thông cần sử

dụng mô hình GMM cải tiến; trình bày phương pháp mô hình nền GMM và cải

tiến mô hình nền GMM thích nghi với sự thay đổi ánh sáng. Bao gồm:

1. Trình bày nội dung và đánh giá một số thuật toán phát hiện đối tượng

chuyển động bằng phương pháp trừ nền. Bao gồm 5 thuật toán: Thuật toán trừ

nền cơ bản; Thuật toán trừ nền trung bình; Thuật toán -; Thuật toán - cải

tiến; Thuật toán thống kê khác biệt cơ bản. Cả 5 thuật toán đều có những mặt ưu

điểm và hạn chế, tùy theo điều kiện cụ thể mà có thể áp dụng. Tuy nhiên đối với

bài toán phát hiện phương tiện chuyển động trong video giao thông, với điều

kiện ngoài trời thì cần có sự xem xét đến yếu tố tác động của thay đổi ánh sáng.

2. Đề xuất phương pháp mô hình nền GMM thích nghi với sự thay đổi ánh

sáng.

Sử dụng mô hình GMM thích nghi với tham số ánh sáng để trích chọn khối

đối tượng chuyển động phù hợp với môi trường ngoài trời, trong bài toán xác

92

định mật độ phương tiện giao thông. Việc tính toán tham số α được thực hiện là

một hàm thông qua phân tích chế độ ánh sáng , sẽ mang lại sự phản ứng của

mô hình tốt hơn về thích nghi nhanh với ánh sáng thay đổi.

Hệ số  được tính thông qua công thức (2.33) và (2.34);

Hệ số α được tính theo công thức (2.38);

Trong đó i là hệ số thể hiện sự thay đổi ánh sáng (đột ngột i=1; dần dần

i=0) ở công thức (2.37);

Sự thay đổi dần dần, hay đột ngột được tính toán công thức (2.36).

3. Đề xuất phương pháp áp dụng thuật toán GMM thích nghi thay đổi ánh

sáng kết hợp luồng quang học để đếm số lượng xe chuyển động trên đường cao

tốc. Kết quả thực nghiệm cho thấy hệ thống phản ứng tốt với sự thay đổi ánh

sáng, phù hợp với điều kiện thời tiết ngoài trời.

Các kết quả được công bố tại công trình công bố số 3.

93

Chương 3. PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG TỪ VIDEO DỰA

TRÊN ĐẶC TRƯNG HÌNH DẠNG

Chương này trình bày một số phương pháp phân loại phương tiện: Phân

loại dựa trên hình dạng; Phân loại dựa trên độ dài dựa trên cơ sở lý thuyết mô-

men bất biến; Phân tích và biểu diễn đường viền phương tiện trên trường số

phức; Phương pháp nhận dạng phương tiện dựa trên biểu diễn đường viền trên

trường số phức.

3.1. Phân đoạn khối phương tiện dựa trên kích thước

Phân tích kích thước phương tiện

3.1.1.

Ảnh thu được từ phép trừ nền, trong đó các phương tiện có thể tạo thành

một khối, gây ra việc đếm sai, cần phải theo dõi và phân tách chúng riêng ra.

Một trong những cách giải quyết là theo dõi đối tượng chuyển động dựa trên độ

(a) ô tô con

(b) 2 ô tô dọc

(d) 2 ô tô lệch phải

dài.

(e) 1 xe máy (f) 2 xe máy trước sau (g) 2 xe máy ngang nhau

(c) 2 ô tô lệch phải

Hình 3.1. Phân tích kích thước khối xe ô tô con

Phương pháp phân đoạn và nhận dạng khối ô tô sử dụng chiều dài và chiều

rộng để phát hiện và nhận dạng các loại ô tô khác nhau từ các đối tượng trong

khối, hoặc đối tượng đơn lẻ.

94

Do chiều dài và rộng của xe thay đổi theo kiểu xe, nên phân loại sơ bộ bằng

chiều dài và chiều rộng. Nếu chiều dài của một đối tượng chuyển động là

khoảng 15-17m, chiều rộng vào khoảng 3-4m, thì đối tượng đó được phân loại

là một ô tô to như xe bus hay xe tải. Nếu chiều dài của đối tượng giữa khoảng

4,5-7,5m, chiều rộng giữa khoảng 1,4-3,0m, đối tượng chuyển động đó được xem như xe nhỏ, ví dụ như VAN, chuyên dùng, sedan, hay xe tải nhỏ1. Sau khi

phân loại sơ bộ, phương pháp nhận dạng sẽ phân loại chính xác các xe nhỏ.

Mệnh đề 3.1. Tỷ lệ chiều dài/rộng của xe

Gọi U={ui, i=1..n} và V={vi, i=1..n} là tập chiều dài và tập chiều rộng của

xe (ô tô, xe máy), tương ứng. K={ki=ui/vi, i=1..n} là tập tỷ lệ giữa chiều dài và

chiều rộng của xe. Bộ số liệu Z=KV={zj, j=1..nn} có tính chất zizj, với 

ij, (i,j  [1..nn]).

Bằng thực nghiệm thống kê (Phụ lục 1) hoàn toàn có thể kiểm nghiệm

được mệnh đề trên là đúng.

Tỷ lệ chiều dài xe/rộng kết hợp với xem xét chiều rộng xe mang lại các bộ

số liệu khác nhau, có thể phân loại được loại của phương tiện (O) là xe máy

(XM), xe con (XC), xe tải (XT). Kết quả phân tích thống kê trong phụ lục 1.

Gọi: d1=[1.44  1.55] ; d2 =[0.8  1.00] ; d3=[1.451.55] ;

v1=[0.6750.740] ; v2=[1.4951.910] ; v3=[2.2402.500].

Ta có:

) ( )

(

) ( ) ( ( (3.1)

) ( ) {

Hình 3.11a thể hiện hình ảnh một xe con, hình 3.11g thể hiện hình ảnh của

một cặp xe máy dính khối. Trong một số trường hợp khi mà tỷ lệ cao/rộng và

chiều rộng của khối có thể nhập nhằng giữa một khối là ô tô với một khối là tập

hợp xe máy thì xác định thêm thông số diện tích của đường viền bao quanh khối.

Mệnh đề 3.2. [Diện tích đối tượng ảnh]

1 Xem “Các dạng xe” ở phụ lục 2

95

Gọi A và B là ảnh của xe một ô tô và một khối xe máy có cùng kích thước

hộp bao C(l, w) có chiều dài l và chiều rộng w, gọi DT(A) và DT(B) là diện tích

của A và B trong ảnh, tương ứng, gọi CV(A) và CV(B) là chu vi đường bao của

( )

( )

khối ô tô và khối xe máy tương ứng. Ta có:

( )

( )

(3.2)

Hình chiếu của khối ô tô lên không gian 2D gần với đa giác lồi hơn so với

hình chiếu của khối xe máy, hay nói cách khác khối xe máy trong không gian

2D có hình chiếu gần với đa giác lõm hơn. Do vậy, khi hai khối xe ô tô và xe

máy có cùng kích thước chiều dài, chiều rộng, thì tỷ lệ giữa diện tích và chu vi

của khối ô tô sẽ lớn hơn tỷ lệ của khối xe máy tương ứng (Theo tính chất của đa

giác lồi, đa giác lõm).

Bắt đầu

Khối phương tiện

Tính toán tham số khối

Được

Đúng

Tách khối

Lớn hơn khối đôi

Sai

Không được

1 xe máy

Sai

1 xe con

Khối đôi

Đúng

1 xe tải

3.1.2. Thuật toán phân loại theo kích thước

2 xe máy

2 xe con

2 xe tải

Kết thúc

Không phân loại

Hình 3.2. Sơ đồ tổng quát phân giải theo độ dài

96

Input: Các khối chuyển động (kết quả thuật toán EMB)

Output: Loại phương tiện (ô tô con, ô tô tải, xe máy)

Nội dung thuật toán:

1. Trích chọn các khối chuyển động

//Sử dụng thuật toán EMB => danh sách các khối Block[i]

n=DemSoKhoi(FG)

For i = 1 to n

Block[i] = XacDinhKhoi(FG)

2. Đối với mỗi khối chuyển động Block[i], tính toán tham số

khối

For i = 1 to n {

u= ChieuDai(Block[i])

v= ChieuRong(Block[i])

}

3. Phân giải khối

- Tỷ lệ chiều dài/chiều rộng k=u/v

- Nếu thuộc khối xe máy

if (v v1){

if (k  d1)  XM

if (|k - Max{d1}| ≤  )  2XM

if (|k =Max{d1}/2| ≤  )  2XM

}

- Xử lý khi thuộc khối xe con

if (v v2) {

if (k  d2)  XM

if (|k - Max{d2}| ≤  )  2XC

if (|k - Max{d2}/2| ≤  )  2XC

}

- Xử lý khi thuộc khối xe tải

if (v v3){

if (k  d3)  XT

if (|k - Max{d3}| ≤  )  2XT

Thuật toán phân loại phương tiện dựa trên kích thước (CVIL)

if (|k =Max{d3}/2| ≤  )  2XT

}

- Nếu v không thuộc v1,v2,v3 thì:

If (v

If (v>v3) Phân tách khối

4. Phân tách khối

If (Phantach(Block) = True)  Quay lại bước 3

else  Stop.

97

Độ phức tạp của thuật toán CVIL:

- Độ phức tạp của thuật toán CVIL phụ thuộc chính vào thuật toán EMB,

do đó ta có độ phức tạp của thuật toán CVIL là O(NF  n  m).

- Sai số cho phép  là giá trị sai khác về kích thước cho phép khi tính toán.

Tham số này có thể được chọn qua phương pháp thực nghiệm.

- Kỹ thuật phân tách khối liên quan nhiều đến kỹ thuật ghép biên, chia cắt

biên, nối liền biên,... được xem như là một thách thức cho bài toán nghiên cứu

tiếp tục. Một phương pháp tách khối ô tô được trình bày trong phần 3.3.

- Trong một số trường hợp cụ thể có thể dùng phương pháp máy học để

nhận dạng và phân loại trực tiếp những khối không rõ ràng này. Vấn đề này

được trình bày trong mục 3.4.

Kết quả thực nghiệm:

Hệ thống thực nghiệm được cài đặt trên môi trường Microsoft Vision

Studio 12 và thư viện mã nguồn mở EMGU. Sử dụng kết quả của thực nghiệm ở

chương 2 để xác định các khối phương tiện (ô tô). Tham số chiều rộng, chiều dài

trung bình một số loại xe của nhà sản xuất trong phụ lục 1.

Dữ liệu đầu vào sử dụng bộ dữ liệu như đã sử dụng trong thực nghiệm ở

chương 1, được thu thập thực tế tại 4 cung đường: Cao tốc Bắc Thăng Long -

Nội bài; Đại lộ Thăng Long; Quốc lộ 1 khu vực cầu Bò Sơn - Bắc Ninh. Mỗi

cung đường bao gồm 7 đoạn video thu thập dưới các điều kiện thời tiết khác

nhau.

98

Bảng 3.1. Kết quả thực nghiệm thuật toán CVIL

Thực hiện đếm

Cung đường

TT

Trực tiếp bởi người

Bằng hệ thống

Xe tải lớn

Xe tải nhỏ

Xe con

Xe tải lớn

Xe tải nhỏ

Xe con

Tỷ lệ chính xác TB (%)

Số khung hình theo dõi (Frame) 1500

2

3

10

2

5

12

81.11

2250

1 Bắc Thăng Long 2 Đại lộ

2

5

14

2

6

16

90.27

Thăng Long

1500

4

5

11

4

6

13

89.31

1650

3 Quốc lộ 1 4 Quốc lộ 5

5

8

17

5

10

21

86.98

Bảng 3.1 cho thấy khi giao thông đông đúc (số lượng phương tiện tăng

lên trong cùng một đơn vị thời gian) các ảnh chứa nhiều khối ô tô chồng lấp

nhau liên tiếp, độ chính xác của hệ thống giảm.

Thuật toán CVIL chỉ dựa trên hai tham số của xe đó là chiều dài và chiều

rộng của các xe đơn, xe dính khối, chưa quan tâm đến vấn đề trọng tâm và

vector khoảng cách từ tâm tới đường biên của khối. Một hạn chế nữa CVIL chưa

xét đến phân loại xe máy và tập hợp xe máy, một loại phương tiện khá phổ biến

ở Việt Nam hiện nay.

Trong phần tiếp theo, trình bày thuật toán tương tự nhưng tham khảo thêm

các tập huấn luyện tính thêm cả véc tơ khoảng cách để nhận diện thêm các

phương tiện xe máy.

3.2. Phân loại phương tiện bằng kết hợp kích thước ảnh và hình chiếu hình

dạng khối phương tiện

Năm 2012, nhóm nghiên cứu Wei Zhan, Junkai Yang trong công trình

nghiên cứu "Thiết kế hệ thống nhận dạng loại xe tự động, thời gian thực và ứng

dụng của nó" [25] cũng đã sử dụng kết hợp hình dạng và khoảng cách nhưng các

tác giả đã sử dụng kích thước ảnh và véc tơ hình dạng để phân loại và đếm xe.

Trên thực tế có thể dùng kích thước tính xấp xỉ để phân loại. Cách tiếp cận được

trình bày ở các mục dưới đây.

99

Ý tưởng phương pháp 3.2.1.

Ảnh đối tượng chuyển động thu được từ BSM tồn tại các khối đối tượng

phương tiện chuyển động. Dùng thuật toán loại bỏ nhiễu qua xác định kích

thước khối để loại bỏ những khối nhỏ ra khỏi ảnh đối tượng. Dùng thuật toán

gán nhãn hoàn toàn có thể tách và đánh số các khối đối tượng này.

Với mỗi khối hoàn toàn xác định được độ dài, độ rộng của khối, vector

biểu diễn hình dạng của đối tượng. Gọi l, w là chiều dài, chiều rộng của khối;

gọi tập {d1, d2,...dn} là vector biểu diễn hình dạng đối tượng theo vector khoảng

cách từ tâm khối đến đường biên của khối. Tập thuộc tính của khối được xác

định là: (l, w, d1, d2,...,dn).

Nếu chỉ dựa trên tập vector khoảng cách {d1, d2,...dn} hoàn toàn có thể phân

loại được khối thuộc tập hợp phương tiện gì (xe máy; ô tô; tập hợp xe ô tô, xe

máy,...). Tuy nhiên với dựa trên tính chất độ dài, rộng (l,w) của từng khối

a.Hình mẫu các dạng khối

b.Biểu diễn hình dạng khối

1. Thu nhận Video, Xác định ROI, Trích chọn khung hình, Tìm đối khối, Tìm khối và gán nhãn

2. Tính toán tham số khối

CSDL hình dạng

3. Phân giải hình dạng

4.Phân loại

phương tiện, có thể kết luận nhanh khối đối tượng là khối gì.

Hình 3.3. Sơ đồ tổng quát phân loại theo hình dạng

Phương pháp đề nghị phối hợp phân loại dựa trên hình dạng (hình chiếu,

trọng tâm và khoảng cách) kết hợp với phân tích độ dài, độ rộng khối đối tượng

mang lại sự phân loại nhanh chóng và chính xác, phân loại được đa dạng hơn về

chủng loại phương tiện, đặc biệt là ô tô con, xe tải, xe máy, và tập hợp các đối

tượng dính khối trong trường hợp đông đúc.

- Khối (1), xử lý theo phương pháp đề xuất ở chương 2;

100

- Khối (2), biểu diễn hình dạng theo vector khoảng cách, độ dài, độ rộng.

- Khối (3), so khớp độ dài, độ rộng ảnh và so khớp vector khoảng cách theo

các chỉ số xác định trước trong CSDL.

- Khối (a) và (b), huấn luyện các hình dạng, độ dài, độ rộng đối tượng trước

và lưu trữ vào CSDL trong hệ thống.

3.2.2. Giai đoạn chuẩn bị CSDL

Các bước tiến hành: Sưu tập hình mẫu; Xác định kích thước chiều dài,

chiều rộng; Vector hóa hình chiếu đối tượng; Đánh chỉ số Index cho các

Template trong tập mẫu đối sánh; Đưa ra một tập luật để so sánh nhanh theo

khoảng cách, kích thước khối.

Bước 1. Sưu tập hình mẫu

 1 xe máy độc lập: một số loại xe như xe tay ga, xe nam, vespa,...

 2,3,4,5 xe máy hợp khối theo các hình dạng khác nhau

 1 xe ô tô hợp với 1,2,3,4,5 xe máy

 Số mẫu sưu tập gọi là n.

 Xác định kiểu hình mẫu: BlockStyle (0,1,2,3,4 tương ứng với: chưa phân

loại; 1 xe máy; 1 ô tô con; 1 xe tải; hỗn hợp xe máy và ô tô).

Bước 2. Xác định kích thước chiều dài, chiều rộng của khối

 Xác định chiều rộng, chiều dài của khối (width, length)

 Chuẩn hóa tỉ lệ kích thước tương ứng giữa chiều dài và chiều rộng. Ví

dụ, độ rộng của khối là 2, độ dài là 5, chuẩn hóa tỷ lệ là [0.286, 0.714].

Bước 3. Vector hóa hình chiếu đối tượng (đa giác)

 Xác định số đỉnh của đa giác: m

 Xác định trọng tâm của đa giác (xc, yc)

 Xác định độ dài khoảng cách từ tâm tới các đỉnh của đa giác [s1,s2,...,sm]

 Chuẩn hóa vector khoảng cách [d1,d2,...,dm]

Bước 4. Đánh chỉ số Index cho các Template trong tập mẫu đối sánh

 Gọi tập mẫu là Template, cấu trúc của 1 Template thông qua các chỉ số,

kiểu khối, độ rộng, độ dài khối và giá trị khoảng cách tương ứng.

101

 Template(Index, BlockStyle, width, length, d1,d2,...,dm)

o Index: 0,1,..., n; tương ứng với số lượng mẫu.

o BlockStyle: 0, 1, 2

Bước 5. Đưa ra một tập luật để so sánh nhanh theo khoảng cách, kích thước

khối và loại phương tiện.

Bảng số liệu thống kê một số giá trị thực về độ dài, rộng, cao của phương

tiện do các nhà sản xuất ô tô, xe máy được thu thập và thống kê trong bảng 1

(phần phụ lục).

 Tập luật nhận dạng xe ô tô hay xe máy

o 1 Xe máy: Tỷ lệ cao/rộng  [1.441.55], rộng  [0.6750.740]

o 1 Xe con: Tỷ lệ cao/rộng  [0.801.00], rộng[1.4951.910]

o 1 Xe tải: Tỷ lệ cao/rộng  [1.451.55], rộng [2.2402.500]

3.2.3. Thuật toán phân loại dựa trên độ dài và hình chiếu đối tượng

Thuật toán phân loại xe VCALOS

Đầu vào: Video

Đầu ra: Loại xe/Nhóm loại xe

Các bước thực hiện:

Bước 1. Nhận dữ liệu khối đối tượng chuyển động từ giai đoạn phát hiện.

//Phát hiện khối chuyển động

Frames  Trunc(Video)

Foreground  EMB (Frames)

//Chỉ số hóa/gán nhãn cho các block

Block[i]  Foreground

Bước 2. Đối với mỗi khối, xác định đặc tính tham số từng khối

//Tính toán tham số khối

For each Block[i] {

- Tính chiều dài Length của Block[i]

- Tính chiều rộng Weight của Block

- Tính trọng tâm của Block

- Tính chiều dài khoảng cách từ tâm tới đường biên của Block

d1, d2,..., dm

- Cập nhật thuộc tính của Block

Properties(i, 0, width, length, d1,d2,...,dm)  Block[i]

//BlockStyle, mặc định là 0, vì chưa phân loại

}

// Cập nhật loại khối (BlockStyle)

For each Properties[i] {

- Tính tỷ lệ Height/width;

- Xác định BlockStyle qua tập luật;

Update Properties(i, BlockStyle, width, length, d1,d2,...,dm)}

Bước 3. Phân giải khối phương tiện

For each Properties[i] {

- Nếu width không thuộc v1,v2,v3 thì:

If (v

If (v>v3)  Chuyển bước 4

}

Bước 4. So khớp hình dạng

For each Properties[i] {

For each Template[Index] {

Compare Properties[i] ? Template[Index] Loại xe/Nhóm loại xe

}}

Return Loại xe/Nhóm loại xe

102

Độ phức tạp tính toán:

- Theo thuật toán EMB, thì bước 1 và 2 số phép tính ước tính tương đương

với O(NFnm), với NF là số khung hình; n là chiều dài, m là chiều rộng của

mỗi khung hình.

- Tại bước 3, kích thước tối đa của mỗi Block là một khung hình, số điểm

ảnh thuộc Block cần duyệt qua tối đa là nm ~ O(n2).

- Tại bước 4 và 5, số phép toán < O(n2).

- Tổng số phép tính ước tính: O(NFnm) + O(n2) + O(n2) ~ O(NFnm)

Kết luận, độ phức tạp ước tính của thuật toán VCALOS là O(NFnm), với

NF là số khung hình, n và m là kích thước ảnh từng khung hình.

Kết quả thực nghiệm:

103

Phương pháp thực nghiệm tương tự như đã thực hiện đối với thuật toán

CVIL. Dữ liệu cũng sử dụng lại bộ dữ liệu thu thập được như với thuật toán

CVIL. Tuy nhiên đối với các video ở cung đường Đại lộ Thăng Long, không có

phương tiện xe máy tham gia giao thông, nên không thực hiện trong thực

nghiệm.

Bảng 3.2. Bảng kết quả thực nghiệm thuật toán VCALOS

Thực hiện đếm

TT

Trực tiếp bởi người

Bằng hệ thống

Cung đường

Xe con

Xe máy

Xe con

Xe máy

Tỷ lệ chính xác TB (%)

Xe tải lớn

Xe tải nhỏ

Xe tải lớn

Xe tải nhỏ

Số khung hình theo dõi (Frame) 1500

2

3

10

19

2

5

12

20

84.58

1500

4

5

11

25

4

6

13

27

90.13

1650

1 Bắc Thăng Long 2 Quốc lộ 1 3 Quốc lộ 5

5

8

17

24

5

10

21

26

88.31

Từ kết quả Bảng 3.2 cho thấy độ chính xác trung bình tăng lên so với thuật

toán CVIL. Sự phân loại xe tải lớn về số lượng vẫn chính xác, sự biến động

nhiều vẫn nằm nhiều ở xe tải nhỏ và xe con, và đối với xe máy cũng có nhiều sự

sai số.

3.3. Phân loại phương tiện dựa trên đường viền biểu diễn bằng số phức

Đường viền của đối tượng là một đường khép kín sau khi thực hiện các

phương pháp trích chọn và xấp xỉ đường viền. Mô tả hình dạng đường viền bằng

VC trên trường số phức, đồng thời áp dụng một số tính chất của vector số phức

tương tự như tính chất của mô-men, dẫn đến khả năng so sánh và phân loại

đường viền với nhau. Từ kết quả này có thể áp dụng để tiến hành nhận dạng các

tập đường viền theo phương pháp máy học. Trước tiên huấn luyện và tạo ra 1

tập CSDL đối sánh tạo trước ở giai đoạn offline, sau đó giai đoạn online trích

đường viền ra từ khối chuyển động và so sánh, đưa ra kết luận về số lượng

phương tiện.

104

Sơ đồ khái quát 3.3.1.

Hình 3.4. Sơ đồ khối tổng quát phân loại theo đường viền

Phân loại dựa trên đường viền được chia thành 2 pha: Pha huấn luyện và

Pha phân loại. Sơ đồ khái quát được minh họa trong Hình 3.4. Các khối tăng

cường ảnh, tìm đường viền áp dụng các thuật toán đã có trong xử lý ảnh. Điều

quan trọng ở đây là tính toán đặc trưng của đường viền. Tuy nhiên để chuẩn hóa

đường viền ở cả pha huấn luyện cũng như pha phân loại cần phải thực hiện phép

cân bằng hóa đường viền hay còn gọi là xấp xỉ độ dài đường viền.

 Thuật toán Douglas Peucker

3.3.2. Xấp xỉ độ dài đường viền và thuật toán Douglas Peucker

Ý tưởng cơ bản của thuật toán Douglas-Peucker [29] là xét xem khoảng

cách lớn nhất từ đường cong tới đoạn thẳng nối hai đầu mút đường cong (Hình

3.5) có lớn hơn ngưỡng θ không. Nếu điều này đúng thì điểm xa nhất được giữ

lại làm điểm chia đường cong và thuật toán được thực hiện h > θ tương tự với

hai đường cong vừa tìm được. Trong trường hợp ngược lại, kết quả của thuật

toán đơn giản hoá là hai điểm đầu mút của đường cong.

105

Hình 3.5 Đơn giản hóa đường công theo thuật toán Douglas Peucker

Các bước thực hiện thuật toán Douglas-Peucker:

• Bước 1: Chọn ngưỡng θ.

• Bước 2: Tìm khoảng cách lớn nhất từ đường cong tới đoạn thẳng nối hai

đầu đoạn đường cong h.

• Bước 3: Nếu h ≤ θ thì dừng.

• Bước 4: Nếu h > θ thì giữ lại điểm đạt cực đại này và quay trở lại bước 1.

Thuật toán Douglas-Peucker:

//Hàm tính đường cao từ dinh đến đoạn thẳng nối hai điểm dau, cuoi float

Tinhduongcao (POINT dau, POINT cuoi, POINT dinh) {

floot h; || tính đường cao

returm h ;

}

//Hàm đệ quy nhằm đánh dấu loại bỏ các điểm trong đường cong

void DPSimple(POINT *pLINE,int dau,int cuoi,BOOL *chiso,float θ) {

int i, index = dau;

float h, hmax = 0;

for(i = dau + 1; i < cuoi; i++) {

h= Tinhduongcao(pLINE[dau], pLINE[cuoi]; pLINE[i]);

if(h > hmax) { hmax = h; index = i; }

}

if(hmax ≤ θ)

for(i= dau + 1; i < cuoi, i++)

chiso[i] = FALSE;

else {

DPSimple(PLINE, dau, index, chiso, θ);

DPSimple(PLINE, index, cuoi, chiso, θ) ;

}

106

//Hàm rút gọn số lượng điểm DouglasPeucker

int DouglasPeucker(POINT *pLINE, int n, float θ){

int i, j;

BOOL chiso [MAX_PT];

for(i = 0; i < m; i++) //Tất cả các điểm được giữ lại

chiso[i] = TRUE;

DPSimple(pLINE, 0, n – 1, chiso, θ);

for(i = j = 0; i < n; i ++)

if (chiso [i] ==TRUE)

pLINE[j++] = pLINE[i];

return j;

}

}

Theo [29] thì thuật toán DouglasPeucker có độ phức tạp tính toán là

 Xấp xỉ độ dài đường viền

O(nlog2(n)) với n là số đỉnh của đường cong cần đơn giản hóa.

Hình 3.6. Xấp xỉ hóa đường viền

Như đã trình bày ở trên về phương pháp CA, cần xác định độ dài của

đường viền.Trong một bức ảnh thực, đường viền có độ dài bất kỳ. Do đó việc

tìm kiếm và so sánh đường viền, tất cả chúng cần có số đỉnh đồng nhất. Quá

trình này gọi là quá trình cân bằng. Đầu tiên sẽ cố định số đỉnh của VC chuẩn (ở

pha huấn luyện) sẽ sử dụng trong hệ thống nhận diện, ký hiệu là p. Sau đó với

mỗi đường viền A mới được tạo ra, ta tạo một đường viền vector N với độ dài p.

Và có thể có 2 biến thể, hoặc đường viền ban đầu có số đỉnh lớn hơn số p hoặc

nhỏ hơn số p. Nếu một đường viền ban đầu cần thiết để được sắp xếp bởi EV, ta

sẽ quan tâm tới thành phần N như tổng của các EV.

Quá trình cân bằng hóa, tương tự như quá trình thực hiện đơn giản hóa

đường cong Douglas Peucker [29] (Hình 3.6).

107

Complex[] newPoint = new Complex[newCount];

for (int i = 0; i < newCount; i++) {

double index = 1d * i * Count / newCount;

int j = (int)index;

double p = index - j;

newPoint[i] = this[j] * (1 - p) + this[j + 1] * p;

}

Giảm số đỉnh của đường cong:

Vấn đề là cần chọn giá trị p. Độ dài p lớn có nghĩa là tiêu tốn một lượng phí

lớn vào việc đánh giá. Còn giá trị p nhỏ cần ít thông tin, độ chính xác của việc

nhận dạng cũng giảm và việc nhận dạng nhiễu tăng lên.

3.3.3. Thuật toán CCAVC

CCAVC (Classification based on Contour Analysis Vector Complex)

Thuật toán huấn luyện đặc trưng phương tiện

Input:

Hình ảnh (Image),

Ngưỡng đường viền (ThresoldContour),

Số đỉnh đường viền (d)

Output:

Template(i) //Tập mẫu, số lượng mẫu tùy thuộc vào dữ liệu

thực tế trong quá trình huấn luyện

Nội dung thuật toán:

1. Chuẩn hóa về độ phân giải mong muốn

Image  ChuanHoaDoPhanGiai(Image)

2. Tìm các đường viền

n  SoDuongVien(Image)

Contour(i)  TimDuongVien(Image), i=1..n

3. Chuẩn hóa các đường viền

For i=1 to n {//Áp dụng thuật toán đơn giản hóa

Pha huấn luyện. Chuẩn bị cơ sở dữ liệu Template (Thực hiện thủ công).

Contour(i) DonGianHoa(Contour(i), d)}

For i=1 to n {//Tính chu vi

ChuVi(i)  TinhChuVi(Contour(i))}

For i=1 to n {//Loại đường viền quá nhỏ

ji

if ChuVi(i)> ThresoldContour then { Countour(j) 

Countour(i); j++}}

m=j; //m là số đường viền sau khi loại bỏ đường viền

nhỏ

4. Tìm đặc trưng các đường viền

For i=1 to m {//Tính toán tham số đặc trưng

CV(i)  Chuvi(Contour(i))

DT(i)DienTich(Contour(i))

for j=1 to d {//Tính góc tại các đỉnh

goc(i,j)=TinhGoc(Contour(i),j)

}

5. Cập nhật Template

For i=1 to m {

Template(i)  Template(i) + (i, CV(i), DT(i))

For j=1 to d

Template(i)  Template(i)+ goc(i,j)

}

6. Retrurn Template (i), i=1..m

______________________________________________________________

108

Pha phân loại. Nhận dạng trên các tập ảnh thực tế (Thực hiện online – thời gian

thực):

Thuật toán phân loại phương tiện dựa trên đường viền (CCAVC)

Classification based on Contour Analysis Vector Complex

Input: Video/Ảnh

Output: ImageCountour (Ảnh có chứa đường viền phương tiện)

109

1. Thu nhận và Xử lý sơ bộ ảnh (Làm mịn, lọc nhiễu, tăng

độ tương phản)

Image  Capture(Video)

Image  ChuanHoaAnh(Image)

2. Tìm các đường viền

n  SoDuongVien(Image)

Contour(i)  TimDuongVien(Image), i=1..n

3. Chuẩn hóa các đường viền

For i=1 to n {//Áp dụng thuật toán đơn giản hóa

Contour(i) DonGianHoa(Contour(i), d)}

For i=1 to n {//Tính chu vi

ChuVi(i)  TinhChuVi(Contour(i))}

For i=1 to n {//Loại đường viền quá nhỏ

ji

if ChuVi(i)> ThresoldContour then { Countour(j) 

Countour(i); j++}}

m=j; //m là số đường viền sau khi loại bỏ đường viền

nhỏ

4. Tìm đặc trưng các đường viền

For i=1 to m {//Tính toán tham số đặc trưng

CV(i)  Chuvi(Contour(i))

DT(i)DienTich(Contour(i))

for j=1 to d {//Tính góc tại các đỉnh

goc(i,j)=TinhGoc(Contour(i),j)

}

5. So sánh đường viền với Template.

For each đường viền phát hiện {

Chọn vùng chi vi để đối sánh

Chọn vùng diện tích để đối sánh

Nội dung thuật toán:

So sánh sự đồng dạng giữa 2 đường viền}

6. Return

110

Độ phức tạp thuật toán:

Giả sử bức ảnh đã được nhị phân hóa có kích thước n*n pixels, tìm đường

viền bằng cách duyệt qua toàn bộ ảnh 2 chiều, do đó độ phức tạp tương ứng là O(n2).

Giả sử p là độ dài đường viền, t là số các đường viền có trong ảnh. Đối với

một đường viền, độ dài của nó kiểm tra thông qua phép tích vô hướng chuẩn hóa trong tập huấn luyện và do đó mỗi đường viền chi phí hết p2 phép so sánh.

Thuật toán so sánh đường viền có độ phức tạp ước tính là: O(n2p2t), với n

là kích thước ảnh, t là số đường viền phát hiện được và p là độ dài đường viền.

Hạn chế của phương pháp phân tích đường viền:

- Hạn chế đầu tiên có liên quan tới vấn đề lựa chọn đường viền trên ảnh.

Đường viền được giới hạn với một cấu trúc rời rạc nhất định. Tuy nhiên các đối

tượng này được thể hiện trong môi trường thực có thể xảy ra những trường hợp:

+ Có một số lượng lớn các đường viền liên quan và không liên quan đến

đối tượng nhận dạng.

+ Đối tượng trong ảnh không thể có đường biên rõ ràng, có thể nhận diện

dựa trên độ sáng hoặc màu sắc so với nền, có thể bị nhiễu… Tất cả những nhân

tố trên dẫn tới việc đường viền không thể được lựa chọn hoặc được chọn không

chính xác, không tương đồng với đường bao của đối tượng.

- Hạn chế thứ hai, gây phức tạp cho phương pháp CA có liên quan tới các

quy tắc của phân tích đường viền. Phương pháp CA giả sử rằng đường viền mô

tả khung của các đối tượng và không quan tâm đến các phần phía sau hoặc các

phần nhìn thấy không hoàn toàn của đối tượng. Do đó CA có độ ổn định kém

trong các trường hợp nhiễu, không hỗ trợ sự giao cắt hoặc các phần nhìn thấy

của đối tượng.

111

Kết quả thực nghiệm 3.3.4.

Hình 3.7. Giao diện hệ thống thực nghiệm thuật toán CCAVC

Thực nghiệm được thiết kế trên 2 dự án.

Dự án 1, ContourAnalysis, thực hiện các chức năng cơ bản của phân tích

đường viền, tạo được viền, TVH của đường viền, cân bằng hóa, đánh giá ICF và

ACF, so sánh và tìm kiếm các mẫu.

Dự án 2, ContourAnalysisProcessing , chứa các phương pháp để xử lý sơ

bộ ảnh, chọn đường viền, lọc và nhận dạng. Đồng thời nó cũng chứa các công cụ

để tự động tạo ra các mẫu cho việc nhận dạng các đường viền phương tiện. Dự

án sử dụng thư viện OpenCV (EmguCV.NET wrapper) để xử lý.

Các tham số trong thực nghiệm: Độ dài đường viền nhỏ nhất (Min contour

length) = 30; Diện tích đường viền nhỏ nhất (Min contour area) = 10; Độ phân

giải ảnh đầu vào: 640 x 480 (pixel).

CSDL mẫu: Thực hiện tạo ra một CSDL tập mẫu các đường viền gồm 30

mẫu đường viền khác nhau từ các hình dạng 1 xe máy, 1 xe ô tô, 2 xe máy, 2 ô

tô. Đường viền mẫu của xe máy được tập trung lưu trữ toàn bộ hình dạng đường

viền bao quanh xe máy. Thêm một số mẫu về đường viền phần nửa trên người đi

xe máy. Đối với ô tô, tập mẫu tạo ra bằng cách lưu trữ khung đường viền của

1. Ô tô đứng độc lập

2. Hai ô tô trước sau thẳng

3. Hai ô tô trước sau lệch trái

kính trước ô tô. (Hình 3.9).

4. Hai ô tô trước sau lệch phải

6. Hai ô tô ngang nhau lệch trái

5. Hai ô tô ngang nhau

7. Hai ô tô ngang nhau lệch phải

8. Người đi xe máy chụp thẳng

9. Hai người đi xe máy trước sau thẳng hàng

10. Hai người đi xe máy trước sau lệch trái

11. Hai người đi xe máy trước sau lệch phải

12. Hai người đi xe máy ngang thẳng hàng

13. Ba người đi xe máy ngang nhau

14. Ba người đi xe máy lệch trái

15. Xe máy đi trước ô tô

112

Hình 3.8. Giao diện hệ thống thực nghiệm thuật toán CCAVC

113

Trong quá trình nhận dạng, gán nhãn cho đường viền phát hiện được tương

ứng là 1xm (một xe máy), 1oto (một ô tô), 2xm (hai xe máy), 2oto (hai ô tô),...

Phương pháp đã được thực nghiệm với các ảnh tự nhiên và trong bài toán

xác định mật độ phương tiện giao thông, so sánh và nhận dạng ra nhanh một xe

máy, 1 ô tô, 2 xe máy dính liền nhau, 2 ô tô dính liền nhau, 1 ô tô và 1 xe máy

dính liền nhau trong ảnh (Hình 3.9b).

a) một xe máy;

b) 2 xe máy;

c) một ô tô

Hình 3.9. Ví dụ về tập mẫu để so sánh

Dữ liệu thực nghiệm sử dụng lại bộ dữ liệu quay trực tiếp tại các điểm cầu

vượt đường cao tốc như đã trình bày trong chương 2 (Hình 2.3).

Việc kiểm nghiệm phương pháp CA bằng cách kiểm thử cho ra kết quả

80% hình dạng được nhận diện. Và kết quả này chứa một số lượng các ảnh đọc

xấu của các phương tiện. Do đó CA xử lý 249 ảnh với các kích thước khác nhau

(từ 400*400 tới 1280*960) trong vòng 30 giây.

Bên cạnh việc nhận dạng các ảnh khung hình cố định, thực hiện tốc độ cao

của CA cho phép xử lý video trong chế độ thời gian thực.

Thuật toán hoạt động với tốc độ 10-14Hz trên máy tính Pentium IV,

2.6GHz phù hợp với các ứng dụng thời gian thực. Độ chính xác của thuật toán

đã được kiểm nghiệm thông qua việc đối sánh ảnh giao thông chụp tại một số

cung đường ở Việt Nam.

114

Hướng phát triển tiếp theo là:

1) loại bỏ nhanh một số lỗi bằng cách xem xét kích thước chiều dài, chiều

rộng đối tượng, ngưỡng xấp xỉ hình dạng đường viền mịn hơn, sau đó thử

nghiệm giải thuật đối sánh ảnh trong một hệ thống giám sát giao thông thời gian

thực;

2) xem xét đến trường hợp một đối tượng có nhiều đường viền để tăng độ

chính xác và khả năng nhận dạng đối tượng đa dạng hơn.

a) Nhận dạng được 2 đường viền, gán nhãn cho mỗi xe một nhãn là 1xm.

b) Nhận dạng được 3 xe máy. 2 xe theo đường viền toàn bộ, 1 xe theo phần trên xe.

c) Nhận dạng được một ô tô và 1 xe máy đi gần nhau.

Hình 3.10. Ví dụ kết quả nhận dạng xe ô tô và xe máy

3.4. Kết luận chương 3

Trên cơ sở lý thuyết về mô-men bất biến, trong đó có các tính chất bất

biến tỷ lệ, bất biến dịch chuyển và bất biến quay áp dụng cho xử lý ảnh và nhận

dạng, phân loại đối tượng theo phương pháp hình dạng cho thấy một số đặc

trưng về hình dạng cho phép sử dụng để phân loại phương tiện giao thông như:

- Kích thước các khối đối tượng (phương tiện) trong ảnh;

- Trọng tâm và khoảng cách từ trọng tâm tới đường biên;

- Đường viền và phân tích các đặc trưng của đường viền biểu diễn trên

trường số phức để nhận dạng và phân loại.

Các phương pháp, công thức tính toán trọng tâm đa giác xấp xỉ hình dạng

đối tượng, tính độ dài khoảng cách từ tâm tới cạnh đa giác xấp xỉ; Phương pháp

đã được triển khai thực nghiệm cho kết quả phân loại được các loại xe con, xe

tải (công trình công bố số 1).

115

Đề xuất 3 thuật toán về phân loại phương tiện trong đó có ô tô và xe máy

dựa trên kích thước và hình dạng. Bao gồm:

- Thuật toán phân loại theo kích thước (thuật toán CVIL); (công bố công

trình số 1).

- Thuật toán phân loại dựa trên kết hợp độ dài và hình chiếu đối tượng

(thuật toán VCALOS). (công bố công trình số 4).

- Thuật toán phân loại dựa trên đường viền biểu diễn bằng vector số phức.

(công bố công trình số 2)

Phương pháp phân loại dựa trên CA, có khả năng ứng dụng vào các bài

toán đối sánh ảnh đòi hỏi thời gian thực. Đóng góp chính đưa ra là đề xuất sử

dụng thuật toán CA, tìm kiếm độ dài đường viền để thực hiện tìm kiếm và đối

sánh hai đường viền.

Trong điều kiện giao thông phức tạp, các đối tượng có thể chồng lấp, nối

đuôi nhau hoặc sánh ngang nhau, hoặc so le nhau tạo thành những đường viền

phức tạp, việc áp dụng phương pháp CA gặp phải những khó khăn.

116

KẾT LUẬN

I. Các kết quả chính của luận án

Kết quả nghiên cứu của luận án được trình bày trên 121 trang, cấu trúc chia

thành 3 chương nội dung chính, phần mở đầu, phần kết luận, tài liệu tham khảo

và phụ lục.

Về phát hiện phương tiện chuyển động, luận án đã trình bày về 05 thuật

toán phát hiện đối tượng chuyển động bằng phương pháp trừ nền; phân tích và

đưa ra những ưu khuyết điểm từng phương pháp, phân tích và đưa ra yêu cầu

của mô hình hóa nền đối với video giao thông; đề xuất mô hình GMM thích ứng

với sự thay đổi ánh sáng; áp dụng mô hình đề xuất trong thực nghiệm hệ thống

đếm xe trên đường cao tốc.

Về phân loại phương tiện chuyển động, luận án phân tích và đưa ra các đặc

trưng quan trọng của hình dạng để áp dụng cho việc phân loại phương tiện giao

thông đó là: kích thước đối; các đặc trưng hình dạng như đa giác xấp xỉ phương

tiện, trọng tâm và khoảng cách từ tâm đến cạnh đa giác; chu vi đường viền.

Luận án đã phân tích và xây dựng thuật toán phát hiện đối tượng chuyển

động bằng mô hình GMM thích ứng thay đổi ánh sáng (chương 2); thuật toán

phân loại phương tiện dựa trên kích thước và hình dạng, thuật toán phân tích

đường viền phục vụ cho nhận dạng (chương 3).

Các kết quả phân tích và thực nghiệm một số thuật toán được công bố trong

04 bài báo trên các tạp chí chuyên ngành và hội nghị khoa học về công nghệ

thông tin.

Nội dung của luận án đề cập và các kết quả được công bố phù hợp và đáp

ứng được mục tiêu luận án đề ra.

II. Những đóng góp mới

Luận án với 03 đóng góp chính:

 Cải tiến mô hình GMM thích ứng với sự biến đổi ánh sáng, bằng việc

thêm tham số để ứng phó với việc thay đổi ánh sáng trong môi trường

117

thực. Kết hợp mô hình nền GMM thích ứng thay đổi ánh sáng và

luồng quang học để giải quyết việc xác định mật độ xe ô tô cải thiện

tốc độ tính toán và tăng độ chính xác trong trường hợp giao thông trên

các đường cao tốc ở Việt Nam.

 Đề xuất phương pháp phân loại kết hợp giữa phân tích hình dạng đối

tượng và độ dài của đối tượng. Phương pháp nhận dạng và phân loại

nhanh dựa trên cơ sở phân tích và lập chỉ mục theo các tham số đặc

trưng loại, độ dài, độ rộng.

 Đề xuất phương pháp phân loại dựa trên phân tích đường viền. Trích

chọn đặc trưng đường viền, biểu diễn trên trường số phức, tiến hành

phân loại dựa trên độ dài và hình dáng đường viền.

III. Hướng nghiên cứu tiếp theo

Mặc dù, tất cả các đề xuất trong nghiên cứu này có thể làm việc tốt trong

một số trường hợp, các mô hình vẫn còn dễ bị lỗi và tốn thời gian. Các nghiên

cứu trong tương lai có thể kiểm tra chi tiết cấu trúc không gian của khu vực quan

sát; áp dụng trong học máy, được gọi là học cao cấp; xem xét trường hợp nhiều

đường viền tích hợp trên một đối tượng. Đây có thể là một hướng đi mới để phát

triển các hệ thống giám sát đối tượng chuyển động trên máy tính với độ chính

xác cao và tỷ lệ sai số thấp.

118

1. Nguyễn Văn Căn, Vũ Tuấn (2013), “Giám sát giao thông tự động dựa trên độ

dài thị giác”. Tạp chí Khoa học và Công nghệ quân sự. Số 5/2013, trang 69-81.

2. Nguyễn Văn Căn, Nguyễn Đăng Tiến, Phạm Việt Trung (2014), “Phương pháp biểu diễn đường viền trên trường số phức, áp dụng cho bài toán phân loại phương tiện giao thông”. Tạp chí Khoa học và Công nghệ quân sự. Số 10/2014, trang 58-65.

3. Can Nguyen Van, Huy Huynh Van, Tao Ngo Quoc (2014), “Car counting method using Gaussian Mixture Model and Optical Flow”. The 3rd Solid State Systems Symposium-VLSIs and Semiconductor Related Technologies & The 17th International Conference on Analog VLSI Circuits-Analog Signal and Information Processing Applications. Ho Chi Minh City, 10/2014. Proceeding, pages 192-198.

4. Can Nguyen Van, Cuong Nguyen Ngoc (2014), “Vehicle Classification in Video Based on Shape Analysis”. UKSim-AMS 8th European Modelling Symposium on Mathematical Modeling and Computer simulation Proceeding EMS '14 Proceedings of the 2014 European Modelling Symposium. IEEE Computer Society Washington, DC, USA ©2014. ISBN: 978-1-4799-7412-2, pages 151- 157. (http://dl.acm.org/citation.cfm?id=2706693.2706789).

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

119

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1] Phạm Hồng Quang, Tạ Tuấn Anh (2014), Xây dựng cấu trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống giao thông thông minh tại Việt Nam. Đề tài KC01.14/11-15. Trung tâm Tin học và Tính Toán, Viện Hàn lâm KHCN Việt Nam.

[2] Phạm Hồng Quang (2014), Xây dựng mạng camera với hệ thống xử lý hình ảnh thông minh phục vụ điều khiển giao thông và giám sát an ninh. KC03.DA06/11- 15. Công ty Cổ phần Phần mềm - Tự động hóa - Điều khiển.

[3] Trần Thanh Việt, Trần Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Đỗ Năng Toàn, Trần Hành (2011), Một kỹ thuật bám đối tượng và ứng dụng. Kỷ yếu hội thảo quốc gia lần thứ XIV, Cần Thơ, 10/2011. Nhà Xuất bản Khoa học và Kỹ thuật. Trang 238-247.

Tiếng Anh:

[4] Ahmed Elgammal (2010), Computer Vision 3D Model-based recognition. Dept

of Computer Science, Rutgers University.

[5] Amol A. Ambardekar (2007), Efficient Vehicle Tracking and Classification for an Automated Traffic Surveillance System, A thesis submitted in partial fulfillment of the requirements for the degree of Master of Science in Computer Science.

[6] Chee-Way Chong and at al (2004), Translation and scale invariants of Legender

moments, Pattern Recognition (Vol 37), pp.119-129.

[7] Chung-Cheng Chiu and et al (2010), Automatic Traffic Surveillance System for Vision-Based Vehicle Recognition and Tracking. Department of Electrical and Electronic Engineering, Chung Cheng Institute of Technology National, Defense University Taoyuan, Taiwan.

[8] Clement Chun Cheong Pang and at al (2007), A Method for Vehicle Count in the Presence of Multiple-Vehicle Occlusions in Traffic Images, IEEE transactions on intelligent transportation systems, (Vol. 8, No. 3).

[9] Collins R. T. (2000), A system for video surveillance and monitoring: VSAM final report, Technical report (CMU-RI-TR-00-12), Robotics Institute, Carnegie Mellon University.

[10] Cucchiara R. (2000), Statistic and Knowledge-based Moving Object Detection in

Traffic Scenes. D.S.I. University of Modena.

[11] George S.K. Fung and at al (2001), Vehicle Shape Approximation from Motion for Visual Traffic Surveillance. IEEE Intelligent Transportation Systems Conference Proceedings, USA.

[12] Guohui Zhang and et al (2007), A Video-based Vehicle Detection and Classification System for Real-time Traffic Data Collection Using Uncalibrated

Video Cameras, Department of Civil and Environmental Engineering University of Washington.

[13] Hu M. K. (1962), Moments and Moment Invariants in Pattern Recognition, IRE

Trans. Info. Theory (vol.IT-8), pp.179–187.

[14] Jean-Yves Bouguet (2002), Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm, Intel Corporation, Microprocessor Research Labs.

[15] Lai A. H. S. (2000), An effective methodology for visual traffic surveillance,

Hong Kong University.

[16] Lipton A. J. (1999), Moving target classification and tracking from real-time

video. In Proc. of Workshop Applications of Computer Vision, pages 129-136.

[17] Massimo Piccardi (2004), Background subtraction techniques: a review, Computer Vision Research Group (CVRG), University of Technology, Sydney (UTS).

[18] Nilesh J. Uke (2013), Moving Vehicle Detection for Measuring Traffic Count

Using OpenCV, Journal of Automation and Control Engineering (Vol.1, No.4).

[19] Nikolaos P. (2000), Algorithms for Vehicle Classification, Artificial Intelligence,

Robotics and Vision Laboratory, University of Minnesota.

[20] Sagar Deb (2005), Video data management and information retrieval. University

Southem Queensland, Australia.

[21] Shireen Y. Elhabian (2007), Moving Object Detection in Spatial Domain using Background Removal Techniques - State-of-Art, Cairo University, Egypt.

[22] Sigari M., Fuzzy Running Average and Fuzzy Background Subtraction: Concepts and Application, International Journal of Computer Science and Network Security, 2008, Volume 8, No. 2, pages 138-143.

[23] Stauffer C. (1999), Adaptive background mixture models for real-time tracking,

Technical report (CVPR 1999), pages 246-252.

[24] Thierry Bouwmans (2013), Recent Advanced Statistical Background Modeling for Foreground Detection - A Systematic Survey, Laboratoire MIA, Université de La Rochelle, France.

[25] Wei Zhan, Junkai Yang (2012), Real Time and Automatic Vehicle Type Recognition System Design and Its Application, International Conference on Mechanical Engineering and Automation.

[26] Yigithan Dedeoglu (2004), Moving object detection, tracking and classification

for smart video surveillance, Univeristy of Bilkent.

[27] Xue Mei and at al (2007), Integrated Detection, Tracking and Recognition for IR

Video-based Vehicle Classification, Journal of computers (Vol.2, No.6).

[28] Yu-Kumg Chen, Tung-Yi Cheng, Shuo-Tsung Chiu (2009), Motion Detection with Using Theory of Entropy. IEEE International Symposium on Industrial Electronics (ISlE 2009).

120

121

[30] Jitendra Malik, Serge Belongie, Thomas Leung, Jianbo Shi (2001), Contour and Texture Analysis for Image Segmentation. International Journal of Computer Vision, June 2001, Volume 43, Issue 1, pp 7-27.

[31] Rohit Kolar, Akshay Thakar, Muzaffar Shabad (2014), Image Segmentation for Text Recognition using Boundary Analysis. International Journal of Emerging Technology and Advanced Engineering. ISSN 2250-2459, ISO 9001:2008 Certified Journal, Volume 4, Issue 2, February 2014) 294.

[32] Corentin Lallier, Emanuelle Reynaud, Lionel Robinault, Laure Tougne (2011), A Testing Framework for Background Subtraction Algorithms Comparison in Intrusion Detection Context. 8th IEEE International Conference on Advanced Video and Signal-Based Surveillance.

[33] Andrews Sobral, Antoine Vacavant (2014), A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos. Computer Vision and Image Understanding 122.

foreground/background extraction,

for

[29] Wu, Shin-Ting and Márquez (2004), Mercedes R. G (2004), A non-self- intersection Douglas-Peucker Algorithm, Proceedings of Sibgrapi. © 2004 IEEE.

[34] A. Vacavant, T. Chateau, A. Wilhelm, L. Lequièvre (2012), A benchmark dataset in: Background Models Challenge (BMC). Asian Conference on Computer Vision (ACCV), LNCS, vol. 7728, Springer, 2012, pp. 291–300.

[35] Y. Dhome, N. Tronson, A. Vacavant, T. Chateau, C. Gabard, Y. Goyat, D. Gruyer (2010), A benchmark for background subtraction algorithms in monocular vision: a comparative study. IEEE International Conference on Image Processing Theory, Tools and Applications (IPTA), 2010, pp. 66– 71.

[36] A. Sobral (2013), BGSLibrary: an opencv c++ background subtraction library. IX Workshop de Viso Computacional. Rio de Janeiro, Brazil.

[37] Jean Dieudonné (1960), Foundations of Modern Analysis, Academic Press.

1

PHỤ LỤC

Phụ lục 1. Dữ liệu kích thước các loại xe

Nguồn: Internet, Đơn vị tính: mm

Rộng

Cao/rộng

Xe ô tô

TT 1 Xe con Toyota Camry 2.5Q AT 2 Xe con Chevrolet Spark Van 3 Xe tải Hyundai JAC 1T5 4 Xe tải Hyundai JAC 1T8 5 Xe tải Hyundai JAC 1T95 6 Xe tải HINO - WU422L 7 Xe tải HINO - FC9JJSA 6T2 8 Xe tải HINO - FG8JPSB 9T2 9 Xe tải HINO - FL8JTSL 16T

Dài 4825 3495 5480 5710 5710 7160 8250 9550 11450

Cao 1470 1500 2140 2210 2250 3270 3680 3950 3930

1825 1495 1940 1865 1910 2240 2400 2500 2500

0.805479 1.003344 1.103093 1.184987 1.17801 1.459821 1.533333 1.58 1.572

Rộng

Cao/rộng

Xe máy

TT 1 Honda Future 2 Yamaha Sirius 3 DaeHan Exciter GP 4 Honda SH 150i và SH 125i 5 Honda Lead 125cc Fi Suzuki Hayate 125 6 7 Suzuki Hayate SS 125 FI 8 Honda Wave 110 S Deluxe 9 Honda SH125 Mode 10 Honda Wave Alpha 11 Honda Air Blade Fi 125cc 12 Honda Vision 110cc Fi 13 Suzuki X-Bike 125 14 Honda Lead 110cc 15 SYM Attila Elizabeth EFI 16 Yamaha Nouvo SX RC 17 Yamaha Exciter 18 Honda Wave 110 RSX 19 Suzuki Smash Revo 110 20 Honda SH150i 21 Suzuki X-Bike 125 22 Honda Future 125 FI 23 Yamaha Luvias GTX125 Fi 24 Honda Super Dream 25 Suzuki Smash Revo 26 HONDA SCR 27 Sym Shark 170cc 28 Yamaha Nozza

Dài 1932 1890 1776 2034 1832 1935 1925 1925 1930 1910 1901 1841 1905 1835 1795 1955 1960 1898 1920 2020 1905 1932 1855 1915 1920 1830 2090 1795

Cao 1092 1030 1005 1152 1120 1070 1070 1090 1105 1065 1115 1094 1070 1125 1100 1080 1080 1080 1050 1140 1070 1092 1070 1052 1055 1125 1160 1080

711 675 697 740 680 670 660 710 669 700 670 667 715 670 668 705 695 709 655 700 715 711 700 696 655 681 730 685

1.535865 1.525926 1.441894 1.556757 1.647059 1.597015 1.621212 1.535211 1.651719 1.521429 1.664179 1.64018 1.496503 1.679104 1.646707 1.531915 1.553957 1.523272 1.603053 1.628571 1.496503 1.535865 1.528571 1.511494 1.610687 1.651982 1.589041 1.576642

29 Honda Click Forward 125i 30 Suzuki UA 125T Fi 31 Honda CBR150R 32 Suzuki GZ150–A 150cc 33 Yamaha Luvias GTX 34 Honda Click 125i Idling 35 Yamaha Cuxi 36 Suzuki Axelo 125 37 Suzuki Viva 115 Fi 38 Honda Scoopy FI Club 39 Honda Spacy 125 40 SYM Joyride EFI 41 Piaggio Liberty RST 125 42 Yamaha Mio Classico 43 Honda Mojet 125 44 Honda Taranis 110 TQuốc 45 Honda PCX 46 SYM ElegantSR 47 Suzuki EN150-A 48 Honda Scoopy i S12 49 Kymco Candy 50cc 50 Kymco Candy Hi 110cc 51 Honda Super Cub 110 52 Honda Giorno 50cc Fi 53 Honda PS150i 54 Suzuki SkyDrive 125 55 Honda Diamond Blue 125

1904 1860 1977 2250 1850 1919 1750 1895 1910 1856 1795 1900 1935 1830 1814 1890 1917 1910 2055 1856 1815 1820 1915 1685 1990 1900 1800

689 700 695 900 685 689 635 715 690 694 690 680 760 675 675 680 738 680 730 694 675 680 700 650 700 655 733

1103 1.600871 1095 1.564286 1130 1.625899 1160 1.288889 1060 1.547445 1103 1.600871 1055 1.661417 1075 1.503497 1085 1.572464 1060 1.527378 1070 1.550725 1100 1.617647 1120 1.473684 1040 1.540741 1.62963 1100 1110 1.632353 1094 1.482385 1100 1.617647 1050 1.438356 1060 1.527378 1108 1.641481 1100 1.617647 1050 1.5 1035 1.592308 1150 1.642857 1050 1.603053 1150 1.568895

1685 2250

635 900

Nhỏ nhất Lớn nhất Trung bình

1005 1.288889 1160 1.679104 1897.436 695.0182 1088.182 1.568584

2

3

Phụ lục 2. Một số kiểu xe ô tô

(Nguồn thu thập trên Internet)

1. VAN:

Van là một loại xe tải nhỏ, khoang chở người và trở hàng chung một không

gian kín. Loại xe này có đặc điểm là khi không trở người các hàng ghế sau có

thể gập lại thành khoang chứa hàng. Cửa bên thông thường là cửa lùa tạo điều

kiện hoạt động trong không gian hẹp. Vì là loại xe có tải trọng thường chỉ từ 500

– 1.000 kg nên công suất không lớn. Ở Việt Nam dòng xe VAN (thực chất là

minivan) có khá nhiều, có thể nêu lên một vài loại xe mang tên VAN sau đây:

Xe Daihatsu Citivan – có hình dáng mẫu mã rất bắt mắt, kết hợp hài hoà tính

năng dòng xe du lịch với xe VAN.

Xe Daihatsu Citivan lắp động cơ xăng kiểu HD-C có dung tích công tác 0,6

lít, xi-lanh thẳng hàng, 6 xu- páp bố trí trục cam kiểu SOHC. Mô men xoắn Nm,

5 số tay. Số ghế: 7. Hai cửa lùa bên hông, cửa sau mở lên. Hàng ghế thứ. tháo

lắp dễ dàng để tạo khoang chứa hàng hoá.

Ngoài Daihatsu Citivan ra, loại xe Devan chở hàng thùng kín, cửa lùa bên

hông cũng lắp động cơ HD-C cùng loại với Citivan.

Loại xe Toyota Hiace Glass VAN. Đây là dòng xe VAN cao cấp, hàng ghế

sau gập lại rất dễ tạo khoang hàng rộng rãi. Hai cửa hông là loại cửa lùa, cửa sau

mở bằng khí nén.

Xe Hiace Glass VAN dùng động cơ phun xăng điện tử. Hộp số 5 số tay.

Hai điều hoà nhiệt độ.

Loại xe SUZUKI Super Carry VAN. Đây là loại xe nhỏ nhất hiện đang sử

dụng ở nước ta, xe SUZUKI VAN có hai loại: xe khách 7 chỗ Windowvan và xe

tải cửa lùa Blindvan. Hai loại xe trên đều dùng động cơ xăng F.0A, xi-lanh

thẳng hàng, dung tích công tác 70cm. Mômen xoắn 75Nm. Hộp số 5 số tay. Số

ghế 7. Hai hàng ghế sau có thể gập lại để tạo khoang chứa hành lý.

2. SUV

4

SUV được EuroNCAP xếp vào nhóm xe địa hình loại lớn. SUV khá quen

thuộc hơn với thị trường Việt Nam với các model như Mitsubishi Pajero, Toyota

Land Cruiser, Mercedes-Benz M-Class. SUV là loại xe dẫn động 4 bánh (còn

gọi là xe hai cầu) có thể chạy trên nhiều loại địa hình, có hệ thống treo cao.

Trọng tâm cao là một điểm bất lợi của loại xe này vì làm cho nó dễ bị lăn khi

chẳng may gặp tai nạn. Vì thiết kế lớn hơn nên SUV cũng sử dụng nhiều nhiên

liệu hơn.

3. Sedan

Sedan là một loại xe khách mà thân xe đại thể chia làm ba khoang:

khoang động cơ, khoang hành khách và khoang hành lý. Ở Anh, người ta gọi

loại xe này là xe saloon. Khoang hành khách thường gồm hai dãy ghế. Khoang

động cơ thường ở phía trước. Còn khoang hành lý thường ở phía sau. Cũng có

một số xe sedan mà khoang động cơ lại ở phía sau như Renault Dauphine, Tatra

T613, Volkswagen Type 3 và Chevrolet Corvair. Sedan là loại thân xe khách

phổ biến nhất.