BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN CĂN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN TỪ DỮ LIỆU VIDEO GIAO THÔNG
LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI, NĂM 2015
BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN CĂN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ THUẬT TOÁN PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN TỪ DỮ LIỆU VIDEO GIAO THÔNG
Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC
Mã số: 62 46 01 10
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS. TS. NGUYỄN ĐỨC HIẾU Học viện Kỹ thuật Quân sự
2. TS. PHẠM VIỆT TRUNG Cục Công nghệ thông tin – Bộ Quốc phòng
HÀ NỘI, NĂM 2015
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Những nội dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa có tác giả nào công bố trong bất cứ một công trình nào khác.
Tác giả luận án
Nguyễn Văn Căn
LỜI CẢM ƠN
Trước hết tôi xin bày tỏ lòng biết ơn chân thành của tôi với tập thể giáo viên hướng dẫn của tôi, PGS. TS Nguyễn Đức Hiếu, Giám đốc Trung tâm Công nghệ thông tin, Học viện Kỹ thuật Quân sự Việt Nam; TS. Phạm Việt Trung, Phó cục trưởng Cục Công nghệ thông tin - Bộ Quốc phòng trực tiếp hướng dẫn cho tôi thông qua sự tiến bộ nghiên cứu.
Tôi muốn cảm ơn tất cả các giảng viên mà tôi đã có vinh dự được cùng làm việc hoặc tham gia các khóa học trong quá trình làm nghiên cứu sinh. Cảm ơn các thầy giáo, cô giáo Viện Công nghệ thông tin, phòng Quản lý đào tạo sau đại học thuộc Viện Khoa học và Công nghệ quân sự - Bộ quốc phòng.
Tôi muốn đặc biệt cảm ơn PGS. TS Ngô Quốc Tạo, TS. Nguyễn Đức Dũng, phòng Nhận dạng và Xử lý tri thức, thuộc Viện Công nghệ thông tin, Viện hàn lâm Khoa học Việt Nam; cảm ơn các đồng nghiệp công tác tại Trường Đại học Kỹ thuật – Hậu cần Công an nhân dân đã có những bàn luận, thảo luận hữu ích, cài đặt thử nghiệm trong công việc nghiên cứu của tôi.
Cuối cùng, tôi dành luận án này cho gia đình tôi và bạn bè của tôi. Nếu không có sự hỗ trợ của họ đầy đủ, tôi sẽ không có can đảm để đi qua tất cả những khó khăn trong việc nghiên cứu.
i
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU ................................................................................................... iii
DANH MỤC CHỮ VIẾT TẮT ................................................................................................. iv
DANH MỤC CÁC BẢNG ......................................................................................................... v
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................................... vi
MỞ ĐẦU ............................................................................................................... 1 Chương 1. TỔNG QUAN VỀ PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG TỪ VIDEO ........................................................................ 8
1.1. Cơ sở lý thuyết và những khái niệm cơ bản ........................................... 8
1.1.1. 1.1.2. 1.1.3. 1.1.4. 1.1.5. 1.1.6. 1.1.7.
Dữ liệu video số ............................................................................... 8 Mô-men bất biến ............................................................................ 12 Hình dạng và Khối đối tượng chuyển động ................................... 13 Đường viền đối tượng .................................................................... 13 Nền và đối tượng chuyển động ...................................................... 21 Entropy của khối ............................................................................ 22 Biểu diễn hình dạng đối tượng theo vector khoảng cách .............. 25 1.2. Một số phương pháp và công trình nghiên cứu liên quan .................... 29
1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6.
Hệ thống điều khiển giao thông và giám sát an ninh ..................... 30 Hệ thống phát hiện và phân loại xe dựa trên video ....................... 32 Hệ thống giám sát giao thông dựa trên độ dài ............................... 34 Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại ............ 36 Phát hiện đối tượng ........................................................................ 38 Phân loại đối tượng ........................................................................ 41 1.3. Hướng tiếp cận của luận án .................................................................. 45
1.3.1. 1.3.2.
Sơ đồ khái quát hướng tiếp cận xử lý bài toán .............................. 45 Xác định vùng quan tâm và nhiệm vụ của luận án ........................ 47 1.4. Kết luận chương 1 ................................................................................. 49
Chương 2. PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG TỪ VIDEO DỰA TRÊN MÔ HÌNH GAUSS HỖN HỢP THÍCH NGHI VỚI THAY ĐỔI ÁNH SÁNG ........................................................................................................ 51
2.1. Một số thuật toán phát hiện chuyển động ............................................. 51
2.1.1. 2.1.2. 2.1.3. 2.1.4. Thuật toán trừ nền cơ bản .............................................................. 51 Thuật toán trừ nền trung bình: ....................................................... 53 Thuật toán Σ-Δ: .............................................................................. 54 Thuật toán Σ-Δ cải tiến: ................................................................. 56
ii
2.1.5. 2.1.6. 2.1.7.
Thuật toán thống kê khác biệt cơ bản ............................................ 58 Mô hình Gauss hỗn hợp ................................................................. 61 Đánh giá các thuật toán trừ nền thông qua một số phép đo ........... 66 2.2. Mô hình và thuật toán đề nghị .............................................................. 72
2.2.1. 2.2.2. Mô hình GMM đề nghị .................................................................. 72 Thuật toán trích chọn khối chuyển động (EMB) ........................... 77
2.3. Phương pháp đếm phương tiện giao thông áp dụng mô hình GMM thích nghi thay đổi ánh sáng kết hợp luồng quang học ............................... 78
2.3.1. 2.3.2. 2.3.3. 2.3.4.
Sơ đồ khối tổng quát ...................................................................... 79 Thuật toán phát hiện và gán nhãn cho khối (SLBBI) .................... 82 Thuật toán trích chọn luồng quang học (EBOF) ........................... 83 Kết quả thực nghiệm. ..................................................................... 86 2.4. Kết luận chương 2. ................................................................................ 91
Chương 3. PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG TỪ VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DẠNG ........................................................ 93
3.1. Phân đoạn khối phương tiện dựa trên kích thước ................................. 93
3.1.1. 3.1.2. Phân tích kích thước phương tiện .................................................. 93 Thuật toán phân loại theo kích thước ............................................ 95
3.2. Phân loại phương tiện bằng kết hợp kích thước ảnh và hình chiếu hình dạng khối phương tiện ......................................................................... 98
3.2.1. 3.2.2. 3.2.3.
Ý tưởng phương pháp .................................................................... 99 Giai đoạn chuẩn bị CSDL ............................................................ 100 Thuật toán phân loại dựa trên độ dài và hình chiếu đối tượng .... 101 3.3. Phân loại phương tiện dựa trên đường viền biểu diễn bằng số phức . 103
3.3.1. 3.3.2. 3.3.3. 3.3.4.
Sơ đồ khái quát............................................................................. 104 Xấp xỉ độ dài đường viền và thuật toán Douglas Peucker ........... 104 Thuật toán CCAVC ...................................................................... 107 Kết quả thực nghiệm: ................................................................... 111 3.4. Kết luận chương 3 ............................................................................... 114
PHẦN KẾT LUẬN ........................................................................................... 116 PHỤ LỤC .............................................................................................................. 1 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ........................................ 118 TÀI LIỆU THAM KHẢO ................................................................................. 119
iii
DANH MỤC CÁC KÝ HIỆU
Ý nghĩa
Ký hiệu
Giá trị ngưỡng cho trước trong trừ nền
Giá trị nền cố định tại điểm ảnh (x,y)
B(x,y)
Giá trị điểm ảnh tại điểm ảnh (x,y)
It(x,y)
Mặt nạ nhị phân của đối tượng tiền cảnh
Dt(x,y)
Hằng số tỷ lệ học cho trước
α,,,
t(x,y)
Giá trị tuyệt đối của hiệu giá trị điểm ảnh trừ giá trị nền của điểm ảnh (x,y) tại thời điểm t
Giá trị điểm ảnh (x,y) của khung hình đang xét thời gian t
Vt(x,y)
xy
Giá trị trung bình của các điểm ảnh tương ứng của tập hợp điểm ảnh (x,y) theo các khung hình đang xét
Trung bình độ lệch chuẩn của điểm ảnh (x,y)
Mô hình nền thích nghi biến đổi cosin rời rạc
Khoảng cách Ơclit giữa các mô hình nền thích nghi
Xác suất quan sát của điểm ảnh tại thời điểm t
xy P(Xt)
Hàm mật độ xác suất tại thời điểm t
(Xt, , )
Ma trận hiệp phương sai của phân bố Gauss thứ i tại thời gian t
i,t
Giá trị trung bình của các điểm ảnh tại thời điểm t
i,t
Biến nhận giá trị 1/0 thể hiện sự phù hợp mô hình của điểm ảnh mới
Hệ số cập nhật nền K mô hình tại thời điểm t
k,t
Hệ số biểu thị mức độ ánh sáng thay đổi
t
Giá trị thông tin Entropy của điểm ảnh tại thời điểm t
Et
D(t,t-1)
Hàm biểu diễn cường độ sáng
Hệ số lựa chọn sự thay đổi ánh sáng
Ảnh điểm ảnh (x,y) biểu diễn mức L trong mô hình kim tự tháp
Tập biểu diễn kết quả phát hiện đối tượng tại thời điểm t
Tính chất thứ i của mô-men bất biến
i IL(x,y) i
Hằng số xấp xỉ diện tích hai hình đa giác
Khoảng cách giữa các điểm cơ bản trên biên
Lrounded
Khoảng cách giữa điểm mẫu và trọng tâm đa giác
D(si,c)
SIM(D1,D2) Độ đo tương tự giữa 2 đa giác D1 và D2.
u
Chiều dài đối tượng tính xấp xỉ
v
Chiều rộng đối tượng tính xấp xỉ
Đường viền Vector
Vector cơ sở đường viền
Tích vô hướng giữa 2 đường viền
Hàm tương quan giữa 2 đường viền m đỉnh
(m)
( )
( ) {
iv
v
DANH MỤC CÁC CHỮ VIẾT TẮT
Chữ viết tắt
Ý nghĩa
ACF
Hàm tự tương quan (Auto Correlation Function)
BMC
Thách thức mô hình trừ nền (Background Models Challenge)
BSM
Trừ nền (Background Subtraction Method)
BGS
Thư viện trừ nền (Background Subtraction Library)
CA
Phân tích đường viền (Contour Analys)
CSDL
Cơ sở dữ liệu (Database)
EV
Vector cơ sở (Elementary Vector)
FG
Tiền cảnh (Foreground)
GMM
Mô hình hỗn hợp Gauss (Gauss Mixture Model)
ICF
Hàm tương quan (Intercorrelation Function)
NSP
Tích vô hướng chuẩn hóa (Normalized Scalar Product)
ROI
Vùng quan tâm (Region of Interest)
TVH
Tích vô hướng
VC
đường viền vector (Vector Contour)
VVDC
Phát hiện và phân loại phương tiện dựa trên video (Video-based
Vehicle Detection and Classification)
vi
DANH MỤC CÁC BẢNG Bảng 1.1. Phân loại các phương pháp mô hình nền ...................................................... 40 Bảng 1.2. Kết quả sử dụng độ dài đường biên hình chiếu ........................................... 42 Bảng 2.1. Ưu điểm và nhược điểm các thuật toán BSM đã trình bày .......................... 64 Bảng 2.2. Hệ số đánh giá toàn cục các thuật toán BS trong tập dữ liệu BMC [36]. .... 69 Bảng 2.3. Dữ liệu thực nghiệm ..................................................................................... 87 Bảng 2.4. Phản ứng với mật độ xe trên các cung đường .............................................. 90 Bảng 2.5. So sánh thời gian xử lý của thuật toán với mỗi khung hình ......................... 90 Bảng 3.1. Kết quả thực nghiệm thuật toán CVIL ......................................................... 98 Bảng 3.2. Bảng kết quả thực nghiệm thuật toán VCALOS ....................................... 103
vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Cấu trúc phân đoạn của video ............................................................... 8 Hình 1.2. Các biến đổi hình dáng đối tượng trong không gian 2D. .................... 12 Hình 1.3. Biểu diễn đường viền bằng vector số phức ......................................... 14 Hình 1.4. NSP trên đường viền vector ................................................................ 18 Hình 1.5. Biểu diễn đường viền và lược đồ xám ................................................ 21 Hình 1.6. Mô tả hình dạng hình tròn ................................................................... 26 Hình 1.7. Đa giác xấp xỉ đối tượng có n cạnh ..................................................... 27 Hình 1.8. Điểm mẫu căng đều trên mỗi cạnh biên .............................................. 28 Hình 1.9. Kiến trúc tổng thể hệ thống CadProTMS ........................................... 31 Hình 1.10. Trạm nghiệp vụ xử lý phạt nguội vượt đèn đỏ ngã tư ...................... 32 Hình 1.11. Cấu trúc hệ thống phát hiện và phân loại xe dựa trên video ............. 33 Hình 1.12. Sơ đồ của hệ thống giám sát giao thông tự động .............................. 35 Hình 1.13. Cấu trúc hệ thống tích hợp phát hiện, phân loại, theo dõi đối tượng 36 Hình 1.14. Cấu trúc hệ thống phát hiện đối tượng chuyển động ........................ 37 Hình 1.15. Lược đồ khái quát phân loại đối tượng dựa trên hình chiếu ............. 38 Hình 1.16. Cấu trúc khái quát hệ thống nhận dạng đối tượng chuyển động ...... 46 Hình 1.17. Sơ đồ xác định vùng nghiên cứu ....................................................... 47 Hình 1.18. Hướng tiếp cận xử lý bài toán ........................................................... 49 Hình 2.1. Lược đồ khái quát thuật toán CCA-GMMOF ..................................... 80 Hình 2.2. Minh họa thuật toán gán nhãn cho khối .............................................. 83 Hình 2.3. Dữ liệu video quay trên đường quốc lộ 5, hướng Hải phòng - Hà Nội ............................................................................................................................. 88 Hình 2.4. Một số hình ảnh từ camera đưa vào thực nghiệm ............................... 89 Hình 2.5. Giao diện kết quả thực nghiệm của hệ thống ...................................... 89 Hình 3.1. Phân tích kích thước khối xe ô tô con ................................................. 93 Hình 3.2. Sơ đồ tổng quát phân giải theo độ dài ................................................. 95 Hình 3.3. Sơ đồ tổng quát phân loại theo hình dạng ........................................... 99 Hình 3.4. Sơ đồ khối tổng quát phân loại theo đường viền .............................. 104 Hình 3.5 Đơn giản hóa đường công theo thuật toán Douglas Peucker ............ 105 Hình 3.6. Xấp xỉ hóa đường viền ...................................................................... 106 Hình 3.7. Giao diện hệ thống thực nghiệm thuật toán CCAVC ....................... 111 Hình 3.8. Giao diện hệ thống thực nghiệm thuật toán CCAVC ....................... 112 Hình 3.9. Ví dụ về tập mẫu để so sánh ............................................................. 113 Hình 3.10. Ví dụ kết quả nhận dạng xe ô tô và xe máy .................................... 114
1
MỞ ĐẦU
Phần này giới thiệu bài toán phát hiện và phân loại phương tiện giao thông,
những vấn đề đặt ra cho bài toán để giải quyết vấn đề tăng độ chính xác với điều
kiện giao thông đông đúc và đa dạng ở Việt Nam. Tiếp theo, trình bày mục tiêu,
phạm vi, nội dung và phạm vi nghiên cứu của luận án. Cuối cùng là giới thiệu
cấu trúc của luận án.
1. Tính cấp thiết của vấn đề nghiên cứu
Giám sát và quản lý giao thông đã và đang được các nhà khoa học thế giới
và Việt Nam quan tâm nghiên cứu phát triển. Trong điều kiện giao thông Việt
Nam, từ các tuyến đường quốc lộ, đường cao tốc, đến giao thông đô thị, giao
thông nông thôn mật độ phương tiện rất dày đặc, đa dạng về chủng loại, trong đó
hai thành phần chính đó là ô tô và xe máy. Nếu mật độ xe dày đặc, tức là số
lượng xe trên một vùng quan sát là lớn, khi đó ảnh giao thông thu được tồn tại
các phương tiện trước sau, bên cạnh liên tiếp nhau, các phương tiện tạo thành
khối phương tiện, khi đó các đường viền có thể bị che khuất thì việc phân tích
đường viền các phương tiện để phát hiện, đếm, phân loại gặp rất nhiều khó
khăn.
Nhiều nghiên cứu trên thế giới và Việt Nam đã quan tâm đến vấn đề phát
hiện và phân loại phương tiện giao thông, tuy nhiên chưa có nghiên cứu đầy đủ
nào quan tâm đến mức độ dày đặc của phương tiện trên đường, cũng như quan
tâm đặc biệt đến phương tiện giao thông chủ yếu là xe máy và xe ô tô.
Việc lựa chọn phương pháp, thuật toán, hay phối kết hợp các thuật toán sử
dụng trong hệ thống giám sát tự động, cũng như cải tiến một số thông số kỹ
thuật trong thuật toán mang lại lợi ích cho việc phát hiện và phân loại phương
tiện giao thông trong bối cảnh Việt Nam là điều cần thiết có ý nghĩa cả về lý
thuyết và thực tiễn.
Bài toán phát hiện và phân loại phương tiện giao thông dựa trên video là
xét xem tại một thời điểm, trong vùng quan tâm, có những loại phương tiện gì,
số lượng tương ứng. Về ứng dụng, bài toán thuộc nhóm các ứng dụng liên quan
2
đến giao thông thông minh. Bài toán được ứng dụng nhiều trong lĩnh vực quản
lý giao thông, trong nhiều hoạt động an ninh, quốc phòng, kinh tế xã hội, như
cảnh báo trộm, cảnh báo cháy, giám sát bảo vệ các mục tiêu quan trọng, thu thập
các chứng cứ tại những tình huống nhạy cảm.
Yêu cầu cơ bản của bài toán phát hiện và phân loại giao thông là với dữ
liệu đầu vào là video giao thông, yêu cầu đầu ra là loại phương tiện tham gia
giao thông trong vùng quan sát (ô tô, xe máy và các phương tiện thô sơ khác).
Hướng tiếp cận giải quyết bài toán:
Thứ nhất, cần xem xét cấu trúc và phương pháp xử lý dữ liệu video. Cấu
trúc dữ liệu video được kết cấu từ tập các khung hình, tốc độ hiển thị các khung
hình trong một đơn vị thời gian (giây), mỗi khung hình là một ảnh tĩnh,...
Phương pháp xử lý dữ liệu video là việc xử lý lưu trữ, trích chọn khung hình,
phân đoạn, phân tích, trích chọn đặc trưng dựa trên cơ sở dữ liệu (CSDL) tri
thức có sẵn. Từ những tập dữ liệu video, qua quá trình xử lý, mang lại những
thông tin hữu ích theo mục đích yêu cầu của con người.
Thứ hai, cần xác định tập các đặc trưng riêng có của video giao thông. Các
đặc trưng của phương tiện chuyển động trong video được chia thành 2 mức tiếp
cận: mức cục bộ và mức toàn cục. Mức toàn cục quan tâm đến các đặc trưng
toàn cảnh như nền, đối tượng chuyển động, khối, đốm sáng. Mức cục bộ quan
tâm đến các vấn đề xử lý hình dạng, khoảng cách, đường biên,...
Đặc trưng tiếp cận ở mức toàn cục gồm:
Vùng quan tâm (ROI), hướng quan sát, khoảng cách quan sát;
Video và khung hình;
Đối tượng chuyển động và nền (Moving Object and Background);
Khối chuyển động (Block);
Đốm sáng (Blob).
Đặc trưng ở mức toàn cục ảnh hưởng nhiều đến trích chọn đối tượng
chuyển động. ROI ảnh hưởng đến việc xét điểm bắt đầu và điểm kết thúc thời
điểm quan sát, hướng quay ảnh hưởng đến hình dạng đối tượng; Video ảnh
3
hưởng đến chất lượng hình ảnh, độ phân giải, tốc độ hình; Khung hình được
trích chọn từ video thành ảnh tĩnh để phân tích,...
Đặc trưng tiếp cận ở mức cục bộ gồm:
Đối tượng chuyển động và bóng của nó (Moving Object, Shadow);
Độ dài (Visual Length);
Hình dạng đối tượng (Edge, Contour), hình dạng và đường viền;
Mức xám khu vực đèn trước/sau xe;
Mức xám và đặc điểm khu vực biển số xe, kính trước xe;
Các đường biên ngang trên xe.
Đặc trưng ở mức cục bộ, đặc biệt là độ dài, hình dạng đối tượng, các đường
biên bên ngoài và bên trong phương tiện là những đặc trưng quan trọng trong
việc phân loại phương tiện. Sử dụng một đặc trưng, hoặc kết hợp 2 hay nhiều
đặc trưng và một số kỹ thuật liên quan để phân loại phương tiện là rất hiệu quả.
Yếu tố ảnh hưởng đến phương pháp tiếp cận:
Về màu sắc phương tiện thay đổi liên tục theo thời gian, thêm vào đó có
nhiều loại phương tiện có màu sắc tương đồng nhau, do vậy việc phân loại dựa
trên màu sắc là khó khăn và không mang lại kết quả.
Về hình dạng, các phương tiện có thể đi sát nhau trong khung hình quan
sát, hợp thành các khối và dẫn đến khó xác định được chính xác đó là phương
tiện gì bằng biện pháp thông thường. Đặc biệt trong điều kiện giao thông tại Việt
Nam, mật độ phương tiện di chuyển trên đường dày đặc về mật độ, đa dạng về
chủng loại thì việc phân loại càng khó khăn. Tuy nhiên hình dạng xe ô tô, hình
dạng xe máy, phương tiện thô sơ khác là một tập có thể xác định kể cả khi chúng
hợp khối.
Ngoài việc xác định tập đặc trưng của phương tiện chuyển động trong
video, để có thể nhận dạng, xác định mật độ phương tiện, cần xác định các yếu
tố, tình huống ảnh hưởng đến phương pháp xác định các tập thuộc tính liên quan
đến phương pháp tiếp cận phát hiện và phân loại phương tiện giao thông.
Tình huống liên quan đến chuyển động gồm:
4
Đối tượng bắt đầu vào vùng quan sát;
Đối tượng ra khỏi vùng quan sát;
Đối tượng đang đi rồi dừng lại;
Đối tượng đang dừng thì chuyển động;
Nền động (dao động tự nhiên).
Tình huống liên quan đến khối chuyển động gồm:
Các đối tượng di chuyển cạnh nhau tạo thành một khối đối tượng;
Đối tượng đang di chuyển tách khối;
Đối tượng đang di chuyển thì hợp khối.
Tình huống liên quan đến chất lượng ảnh gồm nhiều yếu tố liên quan,
nhưng chủ yếu là:
Ánh sáng thay đổi;
Điều kiện thời tiết.
2. Mục tiêu nghiên cứu của luận án
- Mục tiêu chung: Từ dữ liệu video thu được từ các đường quốc lộ, tìm một
số thuật toán hợp lý để phân loại và xác định phương tiện chuyển động.
- Mục tiêu cụ thể:
+ Lựa chọn và cải tiến phương pháp phát hiện phương tiện chuyển động
phù hợp với môi trường ngoài trời, chịu tác động nhiều của sự thay đổi ánh
sáng.
+ Trích chọn các đặc trưng của phương tiện chuyển động, phân tích và biểu
diễn đặc trưng phù hợp để đề xuất và áp dụng thuật toán phân loại phương tiện
chuyển động.
+ Trên cơ sở phân tích tập thuật toán, đề xuất sự cải tiến, kết hợp các thuật
toán cho mục đích phát hiện, phân loại phương tiện giao thông trong điều kiện
giao thông đông đúc và đa dạng về chủng loại phương tiện.
3. Đối tượng và phạm vi nghiên cứu
Vấn đề "Nghiên cứu phát triển một số thuật toán phát hiện và phân loại
phương tiện từ dữ liệu video giao thông” được thực hiện chủ yếu trên môi
5
trường ngoài trời. Dữ liệu video giao thông có thể thu được từ những cung
đường khác nhau: từ các cung đường nông thôn (quận, huyện), từ các đường
quốc lộ (cao tốc), từ các đường trong đô thị (thành phố). Trong điều kiện ở Việt
Nam hiện nay, việc gắn các camera giao thông của các cơ quan quản lý và điều
khiển giao thông ở các đường quốc lộ (đường cao tốc) là phổ biến, tập dữ liệu
dùng cho việc thực nghiệm cũng thu được một cách dễ dàng hơn. Dữ liệu video
nghiên cứu trong luận án tập trung vào việc nghiên cứu dữ liệu video thu được
từ các cung đường quốc lộ. Chẳng hạn như quốc lộ 1, quốc lộ 5 và một số đường
cao tốc mới xây dựng như đại lộ Thăng long, Bắc Thăng long - Nội bài.
Luận án tập trung trình bày và giải quyết cốt lõi của hệ thống phát hiện và
phân loại phương tiện giao thông thông qua quá trình xử lý hình ảnh và đưa ra
thông tin. Bản chất của quá trình này là: phân tách video thành các khung hình;
phát hiện đối tượng chuyển động trong cảnh video; dựa vào các đặc trưng hình
học, chuyển động để phân loại và kết hợp với những đặc tính không gian, thời
gian khác để đếm các loại đối tượng chuyển động có trong video. Đối tượng
nghiên cứu của luận án gồm: Bài toán phát hiện, theo dõi và phân loại đối tượng
chuyển động; Các công trình đã và đang nghiên cứu trong và ngoài nước về vấn
đề phát hiện, theo dõi và phân loại đối tượng chuyển động; Các thuật toán,
phương pháp đã áp dụng trong vấn đề này. Các đoạn video quay cảnh giao
thông.
Tổng quát lại, đây là một phạm vi rộng, bao gồm: phát hiện, phân loại và
theo dõi đối tượng chuyển động. Luận án tập trung vào việc nghiên cứu một số
thuật toán phát hiện và phân loại đối tượng chuyển động trong vùng quan tâm;
giải quyết vấn đề ô tô, xe máy trong video giao thông mà lưu lượng giao thông
đông đúc ("dày đặc") có sự và "dính nhau" trong điều kiện Việt Nam.
4. Phương pháp nghiên cứu
Thu thập và nghiên cứu tài liệu về các nghiên cứu đã thực hiện trên thế giới
và Việt nam về vấn đề giám sát thông minh bằng hình ảnh.
6
Phân tích cấu trúc một hệ thống giám sát thông minh bằng hình ảnh; thống
kê, phân tích và đánh giá các phương pháp đã sử dụng; trên cơ sở đó thực hiện
một số công việc giải quyết bài toán:
Lựa chọn phương pháp phù hợp trong từng điều kiện hoàn cảnh khác
nhau của bài toán giám sát tự động.
Phân tích và cải tiến hệ thống về mặt cấu trúc, quy trình, khung làm
việc của hệ thống giám sát tự động.
Lựa chọn và đề xuất cải tiến một số thuật toán áp dụng.
Thử nghiệm và đánh giá kết quả một số phương pháp đề xuất:
Thu thập dữ liệu video trên một số cung đường tại đường quốc lộ.
Viết chương trình thử nghiệm bằng ngôn ngữ lập trình C++ trên môi
trường .NET.
Đánh giá và phân tích kết quả.
5. Ý nghĩa khoa học và thực tiễn của luận án
Ý nghĩa khoa học:
Làm phong phú hơn về lý luận cho phương pháp phát hiện và phân loại đối
tượng chuyển động trong video.
Tổng hợp và xây dựng một tập các phương pháp trích chọn các đặc trưng
phương tiện chuyển động, biểu diễn và xử lý các đặc trưng của phương tiện theo
từng cấp độ phù hợp cho phân loại và đếm đối tượng, bao gồm:
Đặc trưng khối chuyển động.
Đặc trưng hình dạng và kích thước đối tượng.
Đặc trưng luồng quang học.
Đặc trưng đường viền đối tượng.
Đề xuất khung làm việc chung cho bài toán xác định mật độ phương tiện
trong video giao thông.
Ý nghĩa thực tiễn:
Mở ra khả năng tính toán mới để xác định đối tượng trong ảnh nhanh hơn;
có sự phân loại tốt hơn, tránh được những thông tin dư thừa do mật độ đối tượng
7
chuyển động dày đặc, đan xen gây ra... phục vụ cho các ứng dụng thực tế như đo
lưu lượng giao thông, xác định hiện trường tai nạn giao thông, chứng thực xe đã
đi qua đoạn đường trong khoảng thời gian t,... phục vụ trong công tác an ninh.
6. Cấu trúc của luận án
Phần mở đầu. Giới thiệu tổng quát bài toán, phương pháp tiếp cận, phạm vi
nghiên cứu, những thách thức đặt ra cho bài toán, hướng nghiên cứu, ý nghĩa
khoa học, ý nghĩa thực tiễn của bài toán nghiên cứu.
Chương 1. Tổng quan về bài toán phát hiện và phân loại phương tiện trong
video giao thông. Đặt vấn đề về bài toán nghiên cứu; trình bày kết quả của một
số nghiên cứu liên quan. Đề xuất vấn đề nghiên cứu của luận án.
Chương 2. Trình bày phương pháp trích chọn đặc trưng đối tượng chuyển
động từ video. Cải tiến phương pháp GMM thích nghi với ánh sáng thay đổi. Áp
dụng kết hợp GMM thích nghi với phát hiện luồng quang học để đếm số lượng
xe trong vùng quan tâm.
Chương 3. Trình bày cách thức phân loại phương tiện giao thông thông qua
một số phương pháp: tính toán độ dài; biểu diễn hình dạng đối tượng dựa trên
vector khoảng cách từ tâm đến cạnh của đa giác xấp xỉ; kết hợp độ dài và vector
khoảng cách để nhận dạng, phân loại phương tiện trong ảnh; Áp dụng một số
tính chất của đường viền vector để phân loại phương tiện dựa trên độ dài và hình
dáng đường viền dựa trên đối sánh ảnh.
Phần kết luận. Trình bày những đóng góp và hướng nghiên cứu phát triển
tiếp theo của luận án.
8
Chương 1. TỔNG QUAN VỀ PHÁT HIỆN VÀ PHÂN LOẠI PHƯƠNG
TIỆN GIAO THÔNG TỪ VIDEO
Chương này trình bày một số phương pháp, kỹ thuật xử lý, kết quả trong
bài toán xác định mật độ phương tiện giao thông đã sử dụng. Tập trung phân
tích những kỹ thuật, phương pháp liên quan đến hướng tiếp cận của bài toán.
Bao gồm 3 nhóm phương pháp chính: phát hiện, phân loại và theo dõi. Tuy
nhiên những kỹ thuật liên quan đến máy camera, nén dữ liệu, tiền xử lý dữ liệu
không được đề cập đến trong luận án này.
1.1. Cơ sở lý thuyết và những khái niệm cơ bản
1.1.1. Dữ liệu video số
Năm 2005, Sagar Deb, University Southem Queensland, Australia, đã tổng
hợp và biên tập tài liệu Quản lý dữ liệu video và tìm kiếm thông tin [20], trong
đó đã xác định khái niệm, cấu trúc video số, cách tổ chức và xem xét cấu trúc dữ
liệu video.
Định nghĩa 1.1. Video số
Video số là một dãy các khung hình liên tiếp, mỗi khung hình tương ứng
với một hình ảnh tĩnh. Khi video được thực hiện, dãy khung hình được hiển thị
tuần tự với một tốc độ nhất định. Tốc độ hiển thị các khung hình thường là 30
hoặc 25 khung hình/giây [20].
Hình 1.1 thể hiện cấu trúc tổng quát của dữ liệu Video: khung hình, cảnh
quay, cảnh.
Hình 1.1. Cấu trúc phân đoạn của video
9
Trong kỹ thuật xử lý dữ liệu video tác động đến nhiều thành phần và các
đối tượng kéo theo của video như: cảnh, cảnh quay, khung hình, ảnh, điểm ảnh,
ngưỡng, tách ngưỡng, đường viền, nền, phép cộng ảnh, phép nhân ảnh với 1
số... Dữ liệu video và những thành phần liên quan được đặc tả hình thức bằng
scheme Video=
class
type
Video=Scene-list, /*Video là một danh sách các cảnh*/
Scene=Shot-list, /*Cảnh là một danh sách các cảnh quay*/
Shot=Image-list, /*Cảnh quay là một danh sách các ảnh*/
Image=Point-set, /*Ảnh là một tập hợp các điểm ảnh*/
Point=Nat> dòng và tọa độ cột*/ Cycle ={|pl:Point-list:-Check_Cycle(pl)|} /*Một chu trình điểm ảnh khép kín */ value /* tốc độ hiển thị video*/ speed:Video> speed(v,t) is real(len(v))/t, /* thời gian hiển thị*/ displaytime:Video> displaytime(v,t) is real(Shotnumber(v))/t, /* Số cảnh quay trong một video*/ Shotnumber:Video->Nat Shotnumber(v) is if v=<..> then 0 else Shotnumber(hd(v))+Shotnumber(tl(v)) end, /* Số cảnh quay trong một cảnh */ Shotnumber:Scene->Nat Shotnumber(s) is if s=<..> then 0 else Shotnumber(hd(s))+Shotnumber(tl(s)) ngôn ngữ đặc tả hình thức RAISE như sau: end, Shotnumber:Shot->Nat Shotnumber(sh) is if sh=<..> then 0 else 1+Shotnumber(tl(sh)) end, /* Định nghĩa phép tổng hai ảnh */ +: Image> tong:Shot->Image tong(sh) is if len(sh) = 1 then hd(sh) else hd(sh)+tong(tl(sh)) end, /:Image> /* Định nghĩa ảnh nền */ back1:Shot->Image back1(sh) is tong(sh)/Shotnumber(sh), /* Định nghĩa phép nhân ảnh với một số*/ alpha: Real, *:Real> back:Shot->Image /* anh nen*/ back(sh) is if len(sh) = 1 then hd(sh) else alpha*hd(sh)+(1.0-alpha)*back( tl(sh)) end, /* Định nghĩa ảnh biên */ constraint:Image> anhbien:Image->Image anhbien(I) as I1 post constraint(I,I1), /* Tách ngưỡng */ constraint:Image> tachnguong:Image> tachnguong(I, threshold) as I1 post constraint(I,I1,threshold) 10 /* Xác định đường viền */ Check_Cycle :Point-list-> Bool /* Kiểm tra chu trình*/ Check_Cycle(pl) is hd(pl)=ptcuoi(pl), ptcuoi: Point-list-~->Point ptcuoi(pl) is if len(pl)=1 then hd(pl) else ptcuoi(tl(pl)) end pre len(pl)>0, end Đặc trưng của video: Bao gồm màu, kết cấu, hình dạng và chuyển động. 11 - Màu (Color): Màu sắc là một đặc trưng cơ bản của ảnh. Với ảnh thì lược đồ màu là biểu diễn sự phân bố màu trong ảnh. Biểu đồ màu không phụ thuộc vào việc quay ảnh, dịch chuyển ảnh, hướng ảnh mà phụ thuộc vào vào hệ màu và các phương pháp lượng tử hóa ảnh được dùng. - Kết cấu (Texture): là một đặc trưng quan trọng của bề mặt khung hình, nơi xảy ra việc lặp lại mẫu cơ bản. Có hai dạng biểu diễn kết cấu phổ biến: ma trận đồng thời và Tamura. Ma trận đồng thời mô tả hướng và khoảng cách giữa các điểm ảnh, ta có thể trích chọn được các thống kê có ý nghĩa. Biểu diễn Tamura bao gồm các thuộc tính đo tính thô, độ tương phản, hướng, tính trơn, tính cân đối và độ thô ráp. Các đặc tính này rất quan trọng trong việc tìm hiểu nội dung ảnh vì nó biểu diễn rất trực quan. - Hình dạng (Shape): đặc trưng hình dạng có thể được phân chia thành đặc trưng toàn cục và đặc trưng cục bộ. Đặc trưng toàn cục là đặc trưng thu được từ toàn bộ hình dáng đối tượng trong ảnh (Ví dụ: chu vi, tính tròn, hướng trục chính...). Đặc trưng cục bộ là đặc trưng thu được từ việc thao tác với một phần của ảnh, không phụ thuộc vào toàn bộ ảnh. - Chuyển động (Motion): Là thuộc tính quan trọng của video. Các đặc trưng chuyển động như mô-men của trường chuyển động, biểu đồ chuyển động, các tham số chuyển động toàn cục có thể được trích chọn từ vectơ chuyển động. 12 Mô-men bất biến 1.1.2. Mô-men có nhiều ứng dụng trong kỹ thuật phân đoạn ảnh, đối sánh ảnh và nhận dạng ảnh. Năm 2004, Chee-Way Chong and và cộng sự nghiên cứu về lý thuyết môn men và ứng dụng [6]. Từ những năm 1962, tác giả Hu M. K [13] đã đề cập đến vấn đề hệ số tương quan trong kỹ thuật phân đoạn ảnh. Dựa vào tính chất bất biến và hệ số tương quan của mô-men để đối sánh và phân loại đối tượng trong ảnh theo hình chiếu đối tượng trong không gian 2D. Ứng dụng của mô-men bất biến trong nhận dạng ảnh: Mô-men bất biến thường được dùng để trích đặc điểm trong xử lý ảnh, và ghi nhận hình dạng đối tượng và phân lớp. Mô-men có thể cung cấp các đặc điểm của một đối tượng duy nhất mô tả hình dạng của đối tượng. Hình dạng đối tượng không phụ thuộc vào 3 dạng biến đổi: chuyển đổi (thay đổi vị trí), co giãn (thay đổi kích thước) và hướng (biến đổi quay). Hình 1.2 thể hiện sự bất biến đối với phép biến đổi trong không gian 2 chiều. Tính bất biến của chuyển đổi vị trí được xác định bởi mô-men đã được chuẩn hóa là trọng tâm của đối tượng. Tính bất biến của biến đổi kích thước đối tượng là sự bất biến của các giá trị đại số liên quan đã được chuẩn hóa. Một vấn đề thiết yếu trong lĩnh vực phân tích mẫu là việc ghi nhận đối tượng và đặc điểm ký tự cho dù đối tượng đó thay đổi vị trí, thay đổi kích thước hay là biến đổi hướng. Mô-men bất biến được tính toán cơ bản dựa trên các thông tin được cung cấp bởi đường biên và miền bên trong của đối tượng. 13 Hình dạng và Khối đối tượng chuyển động 1.1.3. Định nghĩa 1.2. Khối đối tượng chuyển động Khối đối tượng chuyển động là tập hợp các điểm ảnh của các đối tượng chuyển động được trích ra từ các khung hình sau khi loại bỏ các đối tượng không chuyển động. Khối đối tượng chuyển động có thể gồm một đối tượng độc lập, hoặc có thể là một tập hợp các đối tượng dính nhau, che khuất nhau một phần. Gọi I là khung hình trích ra từ video, B là các đối tượng không chuyển động, X là khối đối tượng chuyển động, là ngưỡng sai số cho phép. Khi đó: X = I – B + Một số các thao tác trên X: - Xác định X trở thành vấn đề xác định B và ngược lại. - Loại bỏ nhiễu, tức là làm sạch X, loại bỏ những thành phần không quan tâm ra khỏi X. Thường là xác định ngưỡng kích thước để loại bỏ những thành phần nhỏ ra khỏi khối X quan tâm. - Phân rã X thành các khối con: X=X1+ ... + Xn, với tiêu chuẩn phân rã là một ngưỡng xác định để các điểm ảnh tạo thành một khối. - Gán nhãn cho các khối con: Xác định đối tượng có trong khối. Định nghĩa 1.3. Hình dạng khối đối tượng Hình dạng khối đối tượng [30] là một đa giác được xấp xỉ lên đường biên của nó. Biên đối tượng trong ảnh là một tập hợp các điểm ảnh phân biệt giữa vùng bên trong và bên ngoài đối tượng. Gọi X là đường biên của đối tượng, DG là đa giác xấp xỉ lên đường biên đối tượng, DT(X) là diện tích khối ảnh đối tượng, DT(DG) là diện tích của đa giác xấp xỉ lên X. Khi đó: DT(X) DT(DG) + , với là ngưỡng xác định cho phép sai số. 1.1.4. Đường viền đối tượng Định nghĩa 1.4. Đường viền Tập hợp tất cả các điểm biên của đối tượng, tạo thành một đường khép kín bao quanh đối tượng gọi là đường viền của đối tượng, hay nói cách khác đường viền của một đối tượng là đường biên khép kín bao quanh đối tượng [30]. 14 Một số đặc tính của đường viền như độ dài, hình dáng, trọng tâm diện tích bên trong, rất có ích để tính toán, nhận diện đối tượng là gì. Biểu diễn đường viền trong ảnh có nhiều cách khác nhau. Trong các hệ thống thị giác máy tính, một vài định dạng mã hóa đường viền được sử dụng như mã hóa Freeman, mã hóa 2 chiều, mã hóa đa giác thường được sử dụng. Phân tích đường viền (CA) [30] cho phép mô tả, lưu trữ, so sánh và tìm ra các đối tượng biểu diễn dưới dạng đường viền. Đường viền chứa thông tin cần thiết về hình dạng đối tượng. Không quan tâm nhiều đến các điểm bên trong của đối tượng. Các trường hợp không quan tâm nhiều đến vùng bên trong đối tượng nhưng quan tâm nhiều về thể hiện đường viền bên ngoài thì cho phép chuyển về không gian 2 chiều của ảnh tức là không gian đường viền, từ đó cho phép giảm thời gian tính toán và độ phức tạp tính toán. CA cho phép giải quyết hiệu quả các bài toán cơ bản của nhận dạng mẫu – biến đổi, quay và tỷ lệ của ảnh đối tượng. Phương pháp CA là bất biến đối với phép biến đổi. Một phương pháp biểu diễn đường viền được đề nghị là biểu diễn bằng một dãy các số phức (Xem Hình 1.3). Trên một đường viền, điểm bắt đầu cần được xác định. Tiếp theo, đường viền sẽ được quét (xoay theo chiều kim đồng hồ), và mỗi vector được biểu diễn bằng một số phức a+ib. Với a, b là điểm tương ứng trên trục x, y. Các điểm được biểu diễn kế tiếp nhau. Do tính chất vật lý của các đối tượng ba chiều, đường viền của chúng luôn khép kín và không tự giao nhau. Nó cho phép xác định rõ ràng việc duyệt qua 15 một đường viền (xuôi/ngược chiều kim đồng hồ). Vector cuối cùng của một đường viền luôn luôn dẫn đến điểm khởi đầu. Định nghĩa 1.5. Đường viền vector Đường viền được biểu diễn dưới dạng một tập các véc tơ số phức được gọi là đường viền vector (VC) [31]. Một vector thành phần của VC được gọi là vector cơ sở (EV). Đường viền vector VC ký hiệu bằng chữ cái Γ và EV ký hiệu là . Khi đó, Γ có độ dài p có thể được xác định là: =(0, 1, ..., p-1) Thao tác trên đường viền như là thao tác trên vector số phức có chứa nhiều đặc tính toán học hơn là các mã biểu diễn khác. Về cơ bản, mã số phức là gần với mã hai chiều khi mà đường viền được định nghĩa phổ biến bằng EV trong tọa độ 2 chiều. Nhưng sự khác biệt giữa thao tác tỷ lệ của các vector đối với số phức là khác nhau. Trường hợp này cũng ưu tiên cho các phương pháp CA. Rohit Kolar và cộng sự, năm 2014, trong công trình [31] đã định nghĩa nhiều khái niệm liên quan đến phương pháp CA như là: tích vô hướng của đường viền vector, tích vô hướng chuẩn hóa, hàm tương quan, hàm tự tương quan,... Định nghĩa 1.6. Tích vô hướng của đường viền vector [31] Hai số phức của 2 đường viền Γ và N, tích vô hướng (TVH) của nó là: (1.1) ( ) ∑ ( ) với p – kích thước của VC, γn là EV của đường viền Γ, νn là EV của đường viền N. (γn, νn) là TVH của hai số phức. Tính chất TVH của đường viền: TVH của các số phức được tính bằng biểu thức liên hợp [37]: (a+ib, c+id) = (a+ib) (c-id) = ac + bd + i(bc-ad) (1.2) Trong CA thì VC có chiều đồng nhất, vì thế số EV là trùng nhau. Nếu ta nhân một EV đơn giản như một vector, TVH của chúng: ((a,b),(c,d))=ac + bd (1.3) 16 So sánh công thức này với công thức (1.2) chú ý rằng: - Kết quả TVH của các vector là một số thực. Và kết quả tích của các số phức là một số phức. - Phần thực của TVH của các số phức trùng với TVH của các vector phù hợp. Tích số phức bao gồm TVH vector. Theo đại số tuyến tính, để xác định được chính xác chiều vật lý và các đặc tính của TVH. TVH bằng với tích của độ dài vector của góc cosin ở giữa trong đại số tuyến tính. Tức là 2 vector vuông góc sẽ luôn có TVH bằng 0. Ngược lại, tích của vector thẳng hàng sẽ cho giá trị TVH tối đa. Những đặc tính của TVH được sử dụng để đo lường độ gần của các vector. Nếu tích càng lớn, góc giữa các vector càng nhỏ, các vector này càng gần nhau. Với những vector vuông góc, tích này bằng 0, và hơn nữa có thể nhận giá trị âm cho những vector có hướng khác nhau. TVH cũng có các đặc tính tương tự. Mệnh đề 1.1. Đặc tính đường viền 1. Tổng các EV của một đường viền kín bằng 0. Nó là tầm thường đối với các vectơ tự trỏ vào điểm khởi đầu, tổng bằng 0 tương ứng với vector 0. 2. VC thì không phụ thuộc vào phép chuyển vị song song của ảnh nguồn. Như vậy các đường viền được mã hóa tương đối so với điểm bắt đầu, chế độ này của mã hóa là bất biến chuyển của một đường viền ban đầu. 3. Quay ảnh theo một góc độ nào đó tương đương với quay mỗi EV của đường viền trên cùng góc độ đó. 4. Việc thay đổi điểm khởi đầu tiến hành theo vòng tròn VC. Vì các EV được mã hóa liên quan đến các điểm trước đó, điều này rõ ràng là thay đổi điểm khởi đầu, trình tự của một EV sẽ là như nhau, nhưng EV đầu tiên sẽ là bắt đầu từ điểm khởi đầu. 5. Thay đổi tỷ lệ ảnh nguồn có thể được coi là phép nhân của mỗi EV của đường viền với một hệ số tỷ lệ. Chứng minh: 17 Gọi tọa độ các điểm biên là z1, z2, z3, z4,…zn, z1. Khi quay zp góc ta được điểm eizp tương tự như vậy các véc tơ hướng biên dp sẽ biến thành ei dp. Do đó từ đầu tiên có dãy d1 d2 d3.. dn thì sau biến đổi sẽ là d’1 d’2 d’3..d’n d’1. Trong đó d’p= e-i dp. Như vậy [d1d2d3..dn d1][d’1d’2d’3....d’n d’1]
= ∑ ̅
=∑ ̅ ̅̅̅
| | |∑ Do đó | | [d1d2..dn d1][d’1d’2..d’n d’1]| = |∑ | Vì {
| là hằng số với các phép quay , |∑ Đây là điều cần chứng minh. Định nghĩa 1.7. Tích vô hướng chuẩn hóa đường viền [31] Tích vô hướng chuẩn hóa (NSP): ( ) (1.4) |Γ| và |N| - Tiêu chuẩn (chiều dài) của đường viền được tính: (1.5) ) (∑ Tính chất của NSP: NSP trong không gian phức cũng là một số phức. Do vậy, tính đồng nhất là giá trị lớn nhất có thể của chuẩn NSP (Theo bất đẳng thức Cauchy-Bunyakovsky Schwarz): |ab| <= |a||b|, và chỉ có thể đạt được giá trị này khi và chỉ khi: (1.6) với μ – Là một số phức tùy chọn. Khi nhân các số phức, độ dài của chúng được nhân, và các góc được cộng lại với nhau. Đường viền μN giống với đường viền N, ngoại trừ xoay và tỉ lệ. Tỉ lệ và hướng xoay được định nghĩa bởi một số phức μ. 18 Do đó dạng chuẩn của NSP đạt giá trị max, chỉ khi đường viền Γ giống với đường viền N, nhưng xoay theo một số góc và tỉ lệ bởi một hệ số xác định. Hình 1.4 thể hiện giá trị NSP, |NSP| trên đường viền vector. Ví dụ, coi một TVH của một đường viền với chính nó, nhưng xoay một góc nhất định: Nếu nhân NSP của một vector với chính nó, ta sẽ nhận giá trị NSP=1. Nếu
xoay đường viền một góc 90o, sẽ nhận giá trị NSP=0+I, xoay một góc 180 độ nhận giá trị NSP=-1. Do vậy, phần thực của một NSP sẽ cho ta cosin của góc giữa các đường viền, và chuẩn của NSP luôn bằng 1. Nếu tăng VC với một hệ số thực nào đó, thì giá trị NSP=1 (công thức 1.9). NSP thì bất biến đối với phép dịch chuyển, xoay và tỷ lệ của đường viền. Do vậy, chuẩn của NSP của đường viền cho giá trị đồng nhất chỉ khi 2 đường viền này bằng nhau cả về độ xoay và tỉ lệ. Mặt khác chuẩn của NSP sẽ bị giới hạn ít đồng nhất hơn. Chuẩn NSP là bất biến trong phép chuyển dịch, xoay và tỉ lệ của đường viền. Nếu 2 đường viền tương đồng nhau, NSP của chúng sẽ luôn cho giá trị đồng nhất, không phụ thuộc vào vị trí của đường viền, hay độ xoay của góc và tỉ lệ của chúng. Tương tự, nếu các đường viền khác nhau, NSP sẽ bị giới hạn nhỏ hơn 1, và độc lập trong không gian, độ xoay và tỉ lệ. 19 Chuẩn của NSP là phép đo độ gần của các đường viền. Chuẩn đưa ra giá trị đo của một đường viền và tham số của một NSP (bằng atan(b/a)) – đưa ra một góc xoay của đường viền. Định nghĩa 1.8. Hàm tương quan của 2 đường viền [31] Hàm tương quan ICF của 2 đường viền: (m) = (,N(m)), m=0,...,p-1 (1.7)
Trong đó N(m): là đường viền nhận từ N bởi vòng dịch chuyển bởi vector cơ sở EV của chính nó trên m phần tử. Ví dụ, nếu N = (n1, n2, n3, n4), N(1) = (n2, n3, n4, n1), N(2) = (n3, n4, n1, n2),… Giá trị của hàm tương quan chỉ ra đường viền Γ và N giống nhau thế nào nếu chuyển điểm bắt đầu N vào vị trí M. ICF được định nghĩa trên một tập số nguyên nhưng vòng tròn chuyển dịch trên tập p dẫn tới đường viền khởi tạo ICF là một chu kỳ, với giai đoạn p. Do đó ta thấy giá trị của hàm này chỉ giới hạn từ 0 cho tới p-1. Độ lớn của chuẩn tối đa giữa các giá trị của ICF: ( ) (1.8) ) ( Từ việc xác định một NSP và một ICF, có thể thấy τmax là giá trị đo lường sự giống nhau của 2 đường viền, bất biến với việc dịch chuyển, xoay, tỉ lệ và sự thay đổi điểm khởi đầu. Chuẩn |τmax| chỉ ra mức độ giống nhau của đường viền và đạt được sự đồng nhất cho đường viền giống nhau, và tham số arg(τmax) cho thấy một góc xoay của một đường viền so với những đường viền khác. Độ lớn tối đa của chuẩn ICF được tính bằng sự giống nhau của 2 đường viền. Độ lớn tối đa của chuẩn ICF là bất biến với phép dịch chuyển, tỉ lệ, xoay và thay đổi điểm khởi đầu. NSP là được sử dụng trong các công thức để tìm đường viền tương tự nhau. Nhưng có một vấn đề, là một trường hợp không cho phép sử dụng trực tiếp. Trường hợp này là việc chọn điểm khởi đầu: 20 Phương trình (1.9) chỉ có thể đạt được khi và chỉ khi điểm khởi đầu của đường viền là trùng nhau. Nếu đường viền là đồng nhất nhưng EV bắt đầu với một điểm khác, chuẩn NSP của đường viền sẽ không bằng với giá trị đồng nhất. Định nghĩa 1.9. Hàm tự tương quan của đường viền [31] Hàm tự tương quan (ACF) là hàm tương quan và có N=Γ. TVH của đường viền trên chính nó tại các dịch chuyển khác nhau của điểm khởi đầu được tính theo công thức: (m) = (, (m)), m=0,...,p-1 (1.9) Một số đặc tính của ACF: 1. ACF không phụ thuộc vào việc chọn điểm khởi đầu của đường viền. Dựa trên việc xác định TVH (1.2), có thể thấy việc thay đổi điểm khởi đầu dẫn tới sự thay đổi thứ tự của phần tử khả tổng và không làm thay đổi tổng. 2. Chuẩn ACF có liên quan đối xứng tới quy chiếu trung tâm p/2. Vì ACF là tổng của tích đôi một EV của một đường viền mà mỗi cặp sẽ giao nhau 2 lần trong một khoảng thời gian từ 0 đến p. Ví dụ, N = (n1, n2, n3, n4), ta có thể viết giá trị của một ACF cho các giá trị m khác nhau. ACF(0)=(n1,n1)+(n2,n2)+(n3,n3)+(n4,n4) ACF(1)=(n1,n2)+(n2,n3)+(n3,n4)+(n4,n1) ACF(2)=(n1,n3)+(n2,n4)+(n3,n1)+(n4,n2) ACF(3)=(n1,n4)+(n2,n1)+(n3,n2)+(n4,n3) ACF(4)=(n1,n1)+(n2,n2)+(n3,n3)+(n4,n4) Chú ý rằng đối tượng trong ACF(1) là giống với trong ACF(3) trong việc hoán đổi hệ số. Một số phức (a,b)=(b,a)* sẽ nhận giá trị ACF(!)=ACF(3)*, với * là một ký hiệu số phức liên hiệp. Và |a*|=|a| cho thấy chuẩn ACF(1) và ACF(3) là tương đồng. Tương tự, chuẩn ACF(0) và ACF(4) là tương đồng. 21 Thêm vào đó, với 1 ACF ta sẽ hiểu chỉ một phần của hàm trong một khoảng thời gian từ 0 đến p/2 như một phần còn lại của hàm là đối xứng với phần đầu tiên. 1. Nếu đường viền có nhiều đối xứng để xoay thì ACF của chúng sẽ có đối xứng tương tự nhau. Ví dụ, xét đồ họa một ACF cho một số đường viền (Hình 1.5) sau: Trong ảnh trên, chuẩn của ACF được thể hiện bằng màu xanh đậm (1 ACF được thể hiện cho một khoảng thời gian từ 0 đến p/2). Tất cả các đường viền, ngoại trừ đường viền cuối cùng có đối xứng xoay cái mà ACF dẫn tới đối xứng. Đường viền cuối cùng không có đối xứng và biểu đồ ACF của nó không có đối xứng. 2. Có thể coi một đường viền ACF là một đặc tính của hình dạng của đường viền. Đường viền gần tròn có các giá trị duy nhất của chuẩn ACF. Hình dạng thon hẳn về một hướng, có độ nghiêng ở phần trung tâm 1 ACF (hình 1.6). Hình dạng này thay đổi theo vòng, lần lượt, có giá trị cực đại ACF ở một vị trí thích hợp. 3. Chuẩn ACF không phụ thuộc vào tỉ lệ, vị trí, xoay và việc chọn điểm bắt đầu của đường viền. 1.1.5. Nền và đối tượng chuyển động Nền hay hình nền [24] là các hình đại diện cho một quang cảnh trong video khi không có đối tượng chuyển động và phải được giữ cập nhật thường xuyên để thích ứng với các điều kiện khác nhau về ánh sáng. Nói cách khác trong video, 22 nền là những đối tượng đứng yên không chuyển động. Trên thực tế khó có một nền có được các đối tượng đứng yên tuyệt đối, mà luôn có những dao động nhỏ như cành lá cây đung đưa, mặt nước có sóng, đối tượng đang đi thì đứng lại, hoặc đang đứng yên lại chuyển động... Trong các kỹ thuật phát hiện đối tượng chuyển động thường sử dụng phép lấy nền là trung bình của các nền theo thời gian bằng các cách khác nhau. Tuy nhiên nền tối ưu là nền có độ lệch so với nền trung bình là bé nhất. Một trong những thao tác cơ bản trong xử lý video là tách đối tượng chuyển động ra khỏi nền. Nhiều phương pháp đã sử dụng trong đó có các phương pháp trừ nền. Thường được thực hiện bằng cách gán nhãn cho các điểm ảnh trong các khung hình. Điểm ảnh thuộc đối tượng chuyển động được gán nhãn là "1" và thuộc nền được gán nhãn là "0". 1.1.6. Entropy của khối Định nghĩa 1.10. Entropy Entropy [28] là một đại lượng toán học dùng để đo lượng tin không chắc chắn (hay lượng ngẫu nhiên) của một sự kiện hay của phân phối ngẫu nhiên cho trước. Yu-Kumg Chen, Tung-Yi Cheng, Shuo-Tsung Chiu (2009), trong công trình [28] đã đề xuất phương pháp phát hiện chuyển động sử dụng lý thuyết Entropy. Entropy của x là giá trị kỳ vọng của biến ngẫu nhiên mà x có thể nhận. Trong trường hợp này, biến x là độ lệch về màu sắc giữa khung hình mới đến và khung hình hiện thời. Nếu độ lệch màu sắc không có biến đổi gì hoặc giá trị độ lệch chỉ nằm trong 1 khoảng duy nhất (Entropy nhỏ hơn một ngưỡng cho trước) thì ta coi như không có sự thay đổi về màu sắc của x. Ngược lại, nếu Entropy lớn hơn ngưỡng trên thì có thể kết luận đã có sự sai khác về màu sắc của x. Trong bài toán phát hiện chuyển động, có thể sử dụng giá trị Entropy để xác định xem những điểm ảnh có phải của đối tượng chuyển động không. Khi giá trị Entropy của điểm ảnh có sự thay đổi ở một ngưỡng nào đó, thì có thể kết 23 luận đây là điểm ảnh của đối tượng chuyển động, ngược lại, giá trị Entropy này không thay đổi hoặc thay đổi trong một khoảng nhỏ nào đó (nhỏ hơn giá trị của ngưỡng) xác định đây không phải là điểm ảnh của đối tượng chuyển động. Tính giá trị Entropy của một phân phối: Xét biến ngẫu nhiên X có phân phối: X x1 x2 x3 … xM P p1 p2 p3 … pM Nếu gọi Ai là sự kiện X = xi, (i=1, 2, 3,..) thì Entropy của Ai là: h(Ai)=h(pi) với pi là phân phối xác suất của X. Gọi Y=h(X) là hàm ngẫu nhiên của X và nhận các giá trị là dãy các Entropy của các sự kiện X=xi, tức là Y=h(X)={h(p1), h(p2), …, h(pn)}. Entropy của X chính là kỳ vọng toán học của Y = h(X) có dạng: H(X) = H(p1, p2, p3, …,pn) = p1h(p1) + p2h(p2) + … + pnh(pn) Tổng quát Entropy của X là: ( ) ∑ ( ) Dạng giải tích của Entropy: (1.10) ( ) ( ) ∑ ( ) trong đó C = const > 0; cơ số logarithm là bất kỳ. Bổ đề: h(p)=-Clog(p) Trường hợp C = 1 và cơ số logarithm = 2 thì đơn vị tính là bit. Khi đó: h(p)=-log(p) (đvt: bit) và Entropy của X là: (1.11) ( ) ( ) ∑ ( ) Sử dụng giá trị Entropy của độ lệch (hiệu tuyệt đối) giữa khung hình hiện thời và nền, hay nói khác đi đó chính là độ lệch về màu sắc của hai khung hình video. Việc xác định giá trị Entropy của độ lệch này là cơ sở để xác định những điểm ảnh của đối tượng chuyển động. 24 Sau khi xây dựng được nền tối ưu Bt(x,y) tương ứng với mỗi khung hình hiện thời It(x,y), tính hiệu tuyệt đối Δt(x,y) giữa mô hình nền tối ưu và khung hình hiện thời: (1.12) ( ) ( ) ( ) Khối ảnh, thường được sử dụng trong xử lý hình ảnh và bao đối tượng chuyển động trong phát hiện chuyển động [22]. Giả sử ký hiệu một khối ảnh có chiều dài và rộng bằng nhau, được ký hiệu là ww, giá trị mức xám điểm ảnh trong khối là ww(i,j) với i,j=1..n, với n là kích thước của khối. Giả sử, với mỗi khối ww(i,j) với hiệu tuyệt đối Δt(x,y) được tạo thành ( ) được định nghĩa như sau: bởi vector xám rời rạc cấp V {L0, L1, …, LV-1}. Hàm mật độ xác suất của những điểm ảnh có mức xám h của khối ww(i,j): ( ) ( ) (1.13) ( ) là số pixel tương ứng với mức Trong đó: h là phần tử tùy ý của {L0, L1, …, LV-1} đại diện cho bất kỳ vector mức xám trong mỗi khối ww(i,j); xám h tùy ý; Coi h0 khi h<, là giá trị ngưỡng chuyển động đối với cấp xám rời rạc. Như vậy, giá trị Entropy của khối theo định nghĩa được tính bởi: ( )) ( ) ( (1.14) ( ) ∑ Sau khi giá trị Entropy E(i,j) của mỗi khối ww được tính, khối chuyển động A(i,j) được xác định như sau: (1.15) ( ) { ( ) Khi tính giá trị Entropy của khối A(i,j) lớn hơn T (T là ngưỡng cho các giá trị Entropy), khối A(i,j) được gán bằng ‘1’, có nghĩa A(i,j) chứa những điểm ảnh của đối tượng chuyển động. Ngược lại, A(i,j) gán bằng ‘0’, có nghĩa khối đó không chứa điểm ảnh của đối tượng chuyển động. 25 Biểu diễn hình dạng đối tượng theo vector khoảng cách 1.1.7. Trong công trình [26] của Yigithan Dedeoglu, đã định nghĩa khái niệm về khoảng cách giữa các điểm ảnh, véc tơ trọng tâm đối tượng. Một số vấn đề đặt ra với việc xấp xỉ đối tượng bằng hình dạng: - Xấp xỉ hình dạng của đối tượng bằng đa giác. - Theo định nghĩa 1.3, tham số càng bé thì mức độ xấp xỉ càng chính xác, tuy nhiên ảnh hưởng đến độ phức tạp tính toán. - Xác định các đỉnh của đa giác. Đỉnh của đa giác được thiết lập khi có sự thay đổi về hướng của đường biên đối tượng. - Xác định điểm trọng tâm của đa giác. Điểm trọng tâm được tính toán theo phương pháp hình học phẳng. - Xác định độ dài khoảng cách từ tâm của đa giác lên cạnh của đa giác xấp xỉ. Cần xác định số lượng các điểm chia trên mỗi cạnh của đa giác để tính độ dài khoảng cách. - Xác định điểm bắt đầu biểu diễn xấp xỉ đa giác. - Đối tượng hoàn toàn có thể biểu diễn bằng một chuỗi độ dài các khoảng cách. Từ đây có thể thay thế thao tác trên hình học bằng thao tác trên đại số và có thể lập trình trên máy tính để xác định, kết luận về đa giác xấp xỉ. Xấp xỉ hình dạng đối tượng bằng đa giác: Biên của đối tượng trong ảnh là đường phân cách giữa đối tượng với nền và các đối tượng khác trong ảnh. Giữa biên và nền giá trị mức xám các điểm ảnh thường có sự thay đổi đột ngột. Trong xử lý ảnh, bài toán tìm biên của đối tượng có nhiều phương pháp khác nhau như kỹ thuật Prewitt, Sobel, Laplace, Canny. Tuy nhiên theo hướng tiếp cận phương pháp trừ nền thì thu được mặt nạ đối tượng và nền là tách nhau, nên không sử dụng các kỹ thuật Prewitt, Sobel, Laplace, Canny. Sau khi có mặt nạ đối tượng chuyển động, trích chọn lấy đường biên, thực hiện xấp hình dạng đối tượng bằng đa giác bằng một số phương pháp chẳng hạn như phương pháp đơn giản hóa đường cong theo thuật toán Douglas Peucker [29]. 26 Về xấp xỉ hình dạng bằng đa giác, năm 2001, George S.K. Fung và cộng sự đã nghiên cứu các phương pháp xấp xỉ hình dạng phương tiện từ chuyển động cho các hệ thống giám sát giao thông bằng hình ảnh [11]. Vector hóa hình dạng đối tượng: Cho một bức hình chứa một đối tượng, với bố cục nền không phức tạp, dễ dàng phát hiện được biên đối tượng, và trích chọn nội dung đối tượng để làm đặc trưng cho bức ảnh. Phương pháp biểu diễn hình ảnh thông qua lược đồ khoảng cách thực hiện dựa trên các hình đa giác và trọng tâm của đa giác (thuộc a) Đường tròn gốc c) 8 điểm cơ bản d) 16 điểm cơ bản tính hình học). b) Với 4 điểm cơ bản Hình 1.6 cho thấy, khi số lượng điểm cơ bản trên biên của hình tròn càng tăng thì hình mô tả sẽ gần giống hơn đối với hình ảnh gốc, và các điểm biên cơ bản này luôn được căng đều trên biên, đồng thời dây cung nối giữa các điểm này sẽ tạo lên đường mô phỏng hình dạng gốc. Hình 1.7 cho thấy, với một hình dạng khối đối tượng bất kỳ, có thể xấp xỉ bằng một đa giác n cạnh. Công việc xác định điểm cơ bản được thực hiện bằng cách, duyệt lần lượt các điểm ảnh biên theo thứ tự ngược chiều kim đồng hồ hoặc xuôi chiều kim đồng hồ. Thu được tổng số điểm ảnh trên biên của đối tượng, sau đó chia đều theo số điểm cơ bản cho trước theo công thức sau: (1.16) với Lrounded là khoảng cách giữa các điểm cơ bản trên biên đã được làm tròn, Lsum là tổng chiều dài của biên ảnh, N là số lượng điểm cơ bản cho trước. 27 Cho hình đa giác bất kỳ, có các đỉnh (xi,yi) với i = 0,1,2,…n, x0=xn,y0=yn. Diện tích của đa giác: (1.17) ) ∑ ( ∑ Xác định tọa độ trọng tâm của đa giác theo công thức (định lý Green): (( )( ))
( )
∑ ∑ ̅ (( )( ))
∑
( ) (1.18) ̅ Điểm mẫu là tập hợp các điểm được chọn trên đường biên của hình dạng để mô tả đầy đủ cho một hình dạng (Hình 1.8). Nếu một đa giác có chiều dài các cạnh là Li(i=1..n), tổng chiều dài của tất cả cạnh là Lsum và số lượng điểm mẫu cần lấy để tính toán là N thì số lượng điểm mẫu sẽ là Ni tương ứng với cạnh thứ i là: N (1.19) Khoảng cách từ điểm mẫu có tọa độ si = (xi,yi) và trung tâm đa giác có tọa độ c=(xc,yc), được tính theo công thức Ơclit: (1.20) ( ) √( ) ( ) 28 Lược đồ là một công cụ miêu tả các thuộc tính của dữ liệu. Các điểm mẫu sẽ được đặt cách đều nhau trên biên của đa giác, đặt khoảng cách giữa hai điểm mẫu kề nhau là D, và tổng độ dài của biên sẽ là Dmax, phân tách D thành nhiều phần thông qua các điểm mẫu. Dãy sau thể hiện phân tách biên thành R thành phần: [ ] [ ] [ ] [( ) ] (1.21) e) Chuẩn hóa Gọi D[i] là tập giá trị khoảng cách từ tâm C đến các điểm mẫu trên biên. Ta [ ]
.
{ } có tập DS (chuẩn hóa) được chuẩn hóa [ ] Sau quá trình chuẩn hóa, tất cả khoảng cách chuẩn hóa thu được sẽ nằm trong khoảng [0,1]. Bởi vì việc gán điểm mẫu dựa trên chiều dài của biên, và căng đều chúng trên biên, hai đa giác có kích thước khác nhau nhưng hình dạng giống nhau sẽ sinh ra giá trị khoảng cách chuẩn hóa. Do đó, phương pháp này là bất biến đối với tỷ lệ sau khi chuẩn hóa. Độ đo tương tự của các đối tượng: Lược đồ khoảng cách của một đa giác có thể được mô tả bằng: (d0,d1,d2,d3,…dn), n là số lượng khoảng cách trong lược đồ và di, i [0, n-1] là số khoảng cách trong vùng khoảng cách này. Theo đó cho hai đa giác D1 và D2 29 với lược đồ khoảng cách tương ứng là D1: (d11,d12,d13,…,D1n) và D2: (d21,d22,d23,…,d2n), có độ tương tự được tính theo khoảng cách Ơclit: (1.22) ( ) √∑ ( ) Đánh giá về vector hóa hình dạng đối tượng: Biểu diễn hình dạng đối tượng theo trọng tâm và khoảng cách từ tâm đến biên đối tượng, áp dụng các tính chất bất biến quay, bất biến tỷ lệ của mô-men mang đến khả năng nhận dạng và phân loại đối tượng theo hình dạng. Điều này có thể áp dụng phân loại phương tiện giao thông trên đường trong trường hợp đông đúc, có sự chồng lấp lên nhau về hình dạng sau khi thực hiện phát hiện khối chuyển động. Trong điều kiện giao thông đô thị đông đúc, các xe ô tô, xe máy, người đi bộ có thể đi sát nhau và tạo thành các khối chuyển động có hình dạng phức tạp và khó có thể phân định được bằng các phương pháp thông thường. Để thực hiện nhận dạng và xác định số lượng đối tượng có thể áp dụng thuật toán máy học. Tạo ra một tập huấn luyện các khả năng có thể, sau đó đối sánh và kết luận về số lượng phương tiện chuyển động. 1.2. Một số phương pháp và công trình nghiên cứu liên quan Trên thế giới, nhiều công trình nghiên cứu về hệ thống giám sát giao thông tự động đã công bố và có những kết quả xác định. Ví dụ như hệ thống đếm xe ô tô của Clement Chun Cheong Pang và cộng sự [8]; hệ thống phát hiện và phân loại xe dựa trên video của nhóm Guohui Zhang, trường đại học Washington [12]; hệ thống tích hợp phát hiện, theo dõi và phân loại cho mục đích giám sát video thông minh của Yigithan Dedeoglu [26], năm 2004. Ở Việt nam gần đây, cũng đã có những công trình nghiên cứu về vấn đề này, một vài nghiên cứu đã triển khai ứng dụng hiệu quả trong công tác quản lý giao thông. Năm 2014 nhóm Phạm Hồng Quang, Tạ Tuấn Anh, xây dựng cấu trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống giao thông thông minh tại Việt Nam thuộc đề tài KC01.14/11-15, Trung tâm Tin học và Tính Toán, Viện Hàn 30 lâm KHCN Việt Nam. Năm 2014, Phạm Hồng Quang và cộng sự Công ty Cổ phần Phần mềm - Tự động hóa - Điều khiển đã Xây dựng mạng camera với hệ thống xử lý hình ảnh thông minh phục vụ điều khiển giao thông và giám sát an ninh thuộc đề tài KC03.DA06/11-15. Năm 2011, nhóm Trần Thanh Việt, Trần Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Đỗ Năng Toàn, Trần Hành đã công bố công trình nghiên cứu "Một kỹ thuật bám đối tượng và ứng dụng". Kỷ yếu hội thảo quốc gia "Những vấn đề nghiên cứu trọng điểm về công nghệ thông tin", lần thứ XIV, Đại học Cần Thơ. Hệ thống điều khiển giao thông và giám sát an ninh 1.2.1. Nhóm nghiên cứu Phạm Hồng Quang (2014), Trung tâm Tin học và Tính Toán, Viện Hàn lâm KHCN Việt Nam cùng đồng nghiệp chủ trì Đề tài KC01.14/11-15 “Xây dựng cấu trúc hệ thống giao thông thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp dụng trong hệ thống giao thông thông minh tại Việt Nam” [1] và Dự án SXTN mã số KC03.DA06/11-15 “Hoàn thiện tính năng hệ thống giám sát hình ảnh giao thông thông minh” [2] sử dụng các quá trình thu nhận dữ liệu từ Camera IP, truyền dẫn dữ liệu và xử lý ảnh, video thời gian thực áp dụng cho các hệ thống điều khiển giao thông và giám sát an ninh (Hình 1.10). Quá trình xử lý ảnh được coi là bộ não xử lý của hệ thống. Yêu cầu của hệ thống phải xử lý được với dữ liệu hình ảnh có độ phân giải cao và chạy ở thời gian thực. Do đó quy trình xử lý hình ảnh phải được nghiên cứu và tối ưu hóa tại các bước để hệ thống cho ra kết quả đạt chất lượng như mục tiêu nhưng vẫn phải đảm bảo hiệu năng hệ thống theo thời gian thực. Các nhà khoa học đã thiết kế mạng lưới camera và quy trình xử lý ảnh chụp được, nhằm nhận dạng biển số và đo tốc độ, phân loại xe, đo chiều dài xe, phát hiện các hành vi khác của phương tiện như dừng đỗ, đi sai làn đường... Toàn bộ quy trình được tích hợp trong hệ thống CadProTMS (Hình 1.9). Các tính năng thông minh của hệ thống được xây dựng dựa trên việc thu thập dữ liệu tự động nhờ các thuật toán xử lý hình ảnh thu nhận được từ các camera. Hệ 31 thống phần mềm được triển khai cùng với các thiết kế tích hợp thiết bị và lắp đặt tại hiện trường đã tạo ra nhiều hệ thống được ứng dụng hiệu quả trong thực tiễn như Trung tâm điều khiển đèn tín hiệu giao thông thành phố Hà Nội, Hệ thống giám sát và xử lý vi phạm giao thông bằng hình ảnh tại Cục Cảnh sát giao thông Đường bộ và Đường sắt (C67), Trung tâm Điều hành giao thông đường cao tốc Cầu Giẽ - Ninh Bình, Hệ thống giám sát số thu phí trạm Bãi Cháy và Hoàng Mai. CadProTMS là một sản phẩm công nghệ cao có thể thay thế các giải pháp đầu tư rất đắt tiền từ nước ngoài. Không chỉ tiết kiệm chi phí, hệ thống còn có những tính năng riêng biệt phù hợp với nhu cầu thực tiễn nghiệp vụ tại Việt Nam. Các camera IP đã được sử dụng thay thế các công nghệ thiết bị dễ hỏng, đòi hỏi chi phí bảo dưỡng bảo trì cao như vòng từ, cảm biến hiện trường lắp đặt trên nền đường để giám sát giao thông. Hệ thống đã được triển khai áp dụng trong tại cao tốc Cầu Giẽ - Ninh Bình. Có cả tất 22 camera đã được lắp đặt tại 11 vị trí khác nhau dọc tuyến đường cao tốc từ Km212+480 cho đến Km259+060. Tại mỗi vị trí lắp đặt, có 2 camera để giám sát theo 2 chiều đi khác nhau của đường cao tốc. Các camera 32 được lắp đặt trên các khung giá long môn hoặc trên cột có tay vươn ở độ cao trên 6m. Hệ thống xử lý ảnh đã đưa ra được ngày giờ và vị trí của các lượt đếm xe, biển số xe nhận dạng, tốc độ xe đo được, phân loại xe theo kích thước, cảnh báo sự kiện xe đi ngược chiều, xe dừng đỗ, xe đi vào đường cấm…từ nguồn hình ảnh video ghi được do các camera gửi về từ hiện trường. Từ đây, các dữ liệu sẽ truyền về các cơ quan chức năng (cảnh sát giao thông, thanh tra giao thông) để phát hiện các xe đi quá tốc độ, lấn đường...và có thể in biên bản phạt nguội. Tuy nhiên, camera mới chỉ hoạt động tốt ở thời điểm ánh sáng mạnh, còn vào thời điểm ban đêm hoặc chiều tối, độ chính xác nhận dạng biển số và đếm lượng xe có bị giảm. Khi mức độ dày đặc phương tiện được gia tăng, việc căn cứ vào một số đặc tính kỹ thuật khác về kích thước khối hỗn hợp phương tiện, phân tách và nhận dạng vẫn là vấn đề vẫn cần nghiên cứu tiếp tục. 1.2.2. Hệ thống phát hiện và phân loại xe dựa trên video Năm 2007, nhóm Guohui Zhang, trường đại học Washington [12], đã phát triển một hệ thống phát hiện và phân loại xe dựa trên video (Video-based Vehicle Detection and Classification- VVDC). Hệ thống được phát triển nhằm mục đích thu thập thông tin các xe tải từ camera quan sát tầm rộng. Một vài thuật toán dựa trên thị giác máy tính được phát triển hoặc áp dụng để tách ra ảnh nền từ một chuỗi video, phát hiện ra hình dáng xe tải, xác định và loại bỏ bóng của xe, cuối cùng tính toán chiều dài xe dựa trên điểm ảnh rồi phân loại xe. Sự 33 cẩn thận được yêu cầu nghiêm ngặt để xử lý các tác động tiêu cực do sự tắc nghẽn theo chiều ngang và độ rung nhẹ của máy ảnh. Những điểm ảnh thể hiện độ dài xe được mô tả nhằm phân biệt sự khác nhau tương đối giữa loại xe dài và xe ngắn. Cấu trúc của hệ thống VVDC bao gồm 6 mô-đun: quay video trực tiếp, người dùng nhập liệu, xuất ảnh nền, phát hiện xe tải, loại bỏ bóng và phân loại xe dựa vào độ dài xe. Hình 1.11 thề hiện rõ chu trình của hệ thống. Hệ thống VVDC lấy những bức ảnh video kỹ thuật số hay những tín hiệu video trực tiếp làm dữ liệu đầu vào. Phần ảnh nền sẽ được tách ra từ video đầu vào và được cập nhật thường xuyên sao cho thích hợp với sự thay đổi của môi trường. Một khi hệ thống bắt đầu thu thập dữ liệu, nó giám sát các vòng lặp ảo để phát hiện xe tải. Bước loại bỏ bóng được áp dụng với từng chiếc xe đã phát hiện trước khi tính toán độ dài xe dựa trên những điểm ảnh. Cuối cùng một chiếc xe được xếp vào loại dài hay ngắn dựa trên độ dài tính toán qua điểm ảnh. 34 Thuật toán thực hiện trong hệ thống VVDC được cài đặt bằng Microsoft Visual C#, có khả năng xử lý tất cả loạt ảnh được số hóa cũng như những tín hiệu video trực tiếp trong thời gian thực. Hệ thống được thử nghiệm tại ba địa điểm với sự khác nhau về giao thông cũng như điều kiện môi trường. Kết quả thu được là độ chính xác để phát hiện ra xe lên đến trên 97%, và tỷ lệ lỗi khi đếm xe tải thấp hơn 9% trong cả ba lần thử nghiệm. Điều này chứng tỏ rằng việc phát triển phương pháp xử lý hình ảnh trên video nhằm phát hiện và phân loại trong nghiên cứu này là một giải pháp thay thế khả thi cho việc thu thập dữ liệu các loại xe tải. Đánh giá hướng tiếp cận theo phương pháp của Guohui Zhang: - Phát hiện đối tượng chuyển động bằng phương pháp trừ nền (BSM), cụ thể Guohui Zhang đã sử dụng phương pháp trung bình các khung hình để mô hình nền. - Phát hiện biên đối tượng, tính toán độ dài để phân loại xe ô tô tải. - Kết quả chủ yếu là phát hiện được xe tải, xác định và phân hoạch được sự khác biệt giữa 2-3 xe con nối tiếp nhau và xe tải dài. - Chưa tiếp cận và nói đến việc nhận dạng và đếm số lượng xe máy, xe thô sơ và người đi bộ. Tham số giao thông trong điều kiện riêng có của Việt Nam đa dạng và đông đúc các phương tiện thì tiếp cận theo phương pháp Guohui Zhang chưa đáp ứng được yêu cầu nhiều thông tin của phương tiện chuyển động. 1.2.3. Hệ thống giám sát giao thông dựa trên độ dài Năm 2010, nhóm nghiên cứu của Chung-Cheng Chiu và cộng sự [7], đã phát triển một hệ thống giám sát giao thông tự động nhận dạng và theo dõi ô tô dựa trên kích thước. Nghiên cứu của Chung-Cheng Chiu phát triển một hệ thống giám sát giao thông thời gian thực, bao gồm phát hiện, nhận dạng và theo dõi các phương tiện từ các ảnh chụp trên đường (Hình 1.12). Các ô tô chuyển động có thể được tự động tách từ các ảnh chụp liên tiếp bằng phương pháp phân đoạn đối tượng chuyển động. Phương pháp phân đoạn và nhận dạng sử dụng chiều dài, chiều rộng và kích thước mui xe để phân loại các phương tiện như xe tải lớn/nhỏ, xe con hoặc 35 các phương tiện lớn khác. Các đối tượng được phân đoạn có thể được nhận dạng và đếm tương ứng với các đặc tính khác nhau của chúng, tùy theo các phương pháp nhận dạng và theo dõi được đề xuất. Hệ thống đã được thử nghiệm trên các đoạn đường, sử dụng nhiều cảnh đường phức tạp, dưới ảnh hưởng của nhiều điều kiện thời tiết khác nhau, từ đó thảo luận và chứng minh độ chính xác, khả năng đáp ứng nhanh của phương pháp này. Kết quả xác định phát hiện các loại xe, từ xe tải to đến các xe con, xe chuyên dùng mini,... có độ chính xác từ 90% đến 98%. Giai đoạn đầu tiên, phân đoạn các ô tô chuyển động, sử dụng BSM. Các đối tượng chuyển động được phát hiện bằng cách lấy ảnh đầu vào trừ đi ảnh nền. Giai đoạn thứ hai, các ô tô chuyển động được gán nhãn các thành phần kết nối để thu được các khung có đường biên. Các ô tô trong khối được phát hiện và phân đoạn trong các ô biên. Phương pháp này hiệu quả đối với việc phát hiện và phân đoạn các loại ô tô khác nhau trong khối trên dựa trên đặc điểm hình dạng của chúng, có thể phân thành hai hoặc nhiều hơn hai khối ô tô ràng buộc nhau. Cuối cùng, các phương pháp nhận dạng và theo dõi được áp dụng để xử lý cho mỗi xe. Hệ thống đề xuất có thể phân loại thành 5 loại xe ô tô, phát hiện luồng giao thông và tốc độ trung bình theo thời gian thực. Đánh giá hướng tiếp cận của Chung-Cheng Chiu: - Hệ thống dùng BSM để phát hiện đối tượng chuyển động, sử dụng độ dài của các đối tượng, bao gồm chiều dài, chiều rộng, độ dài một số thuộc tính của 36 xe ô tô để tiến hành nhận dạng và phân loại. Kết quả đã phân loại được một số loại xe ô tô như xe con, xe tải, xe bán tải, xe tải. - Hệ thống đã sử dụng một CSDL kích thước xe (chiều dài, chiều rộng) để phân biệt một xe ô tô và các ô tô dính khối với nhau, từ đó phân giải các khối nhiều hơn một ô tô. Trong một số trường hợp như rất nhiều xe dính khối, hoặc che khuất tầm nhìn một phần thì việc phân giải các khối bị thất bại. - Tuy vậy, hệ thống mới đề cập đến vấn đề phương tiện giao thông là ô tô, chưa đề cập đến các phương tiện khác như xe máy, phương tiện thô sơ khác. Hệ thống giám sát tích hợp phát hiện, theo dõi, phân loại Trong nghiên cứu của Yigithan Dedeoglu [26], đã đề xuất một hệ thống tích hợp phát hiện, theo dõi và phân loại (Hình 1.13) cho mục đích giám sát video thông minh. Hệ thống phát hiện đối tượng chuyển động đề cập đến ba phương pháp cơ bản đó là: trừ nền, thống kê và chênh lệch thời gian. Về phân loại đối tượng chuyển động, Yigithan Dedeoglu đề cập đến phương pháp phân loại dựa trên hình chiếu đối tượng. Đầu tiên, giai đoạn offline, xây dựng một CSDL hình chiếu mẫu dựa trên việc vector hóa khoảng cách từ trọng tâm đối tượng tới biên của hình dạng đối tượng. Bước này được thực hiện theo phương pháp thủ công. Tiếp theo, giai đoạn online, từ kết quả phát hiện đối tượng chuyển động, rút trích hình chiếu các đối tượng theo vector hóa khoảng cách từ trọng tâm đối tượng đến biên của hình dạng đối tượng. So sánh dấu hiệu khoảng cách của tập 37 đối tượng phát hiện được với dấu hiệu khoảng cách có trong tập mẫu, thỏa mãn một ngưỡng xác định, qua đó kết luận thông tin của đối tượng cần xác định. Yigithan Dedeoglu sử dụng phương pháp trừ nền, thống kê, chênh lệch tạm thời để phát hiện tiền cảnh (Hình 1.14). Về phân loại, Yigithan Dedeoglu sử dụng một cơ sở dữ liệu chứa các dấu hiệu khoảng cách của các đối tượng mẫu cho việc đối sánh và nhận dạng (Hình 1.15). Đánh giá hướng tiếp cận của Yigithan Dedeoglu: - Hệ thống nghiên cứu của Yigithan Dedeoglu đề cập ba chức năng chính của một hệ thống giám sát tự động từ video: phát hiện, phân loại và theo dõi. - Về phát hiện đối tượng chuyển động, Yigithan Dedeoglu sử dụng dựa trên BSM, dựa trên mô hình Gauss hỗn hợp. Tuy nhiên chưa đề cập chi tiết đến sự tác động của ánh sáng thay đổi, đặc biệt là với các ứng dụng giám sát ngoài trời. - Về phân loại đối tượng chuyển động, Yigithan Dedeoglu sử dụng dựa trên độ dài khoảng cách hình chiếu đối tượng. Cách tiếp cận này tỏ ra hiệu quả trong nhiều trường hợp các đối tượng phát hiện được có hình dạng phức tạp, tức là có hình dạng không thuộc các hình dạng cơ bản như: hình chữ nhật, hình vuông, hình tròn... Tuy nhiên Yigithan Dedeoglu chưa đề cập đến các đặc trưng riêng của các phương tiện giao thông. Nếu phân tích riêng tới các đặc trưng của phương tiện giao thông như chiều dài, chiều rộng đối tượng, các đặc trưng 38 đường viền, các đặc trưng đường biên ngang trên thân đối tượng,... hoặc chỉ số hóa các tập đối tượng so sánh, rút ngắn thời gian tính toán của hệ thống. (O là đối tượng, Dist là khoảng cách) 1.2.5. Phát hiện đối tượng Bài toán phát hiện chuyển động đã được thế giới nghiên cứu từ rất sớm. Cho tới thời điểm hiện nay, đã có nhiều thuật toán phát hiện chuyển động được công bố [17]. Một số thuật toán mới được công bố trong những năm qua đã được chứng minh có độ chính xác tương đối cao, thời gian tính toán thấp và xử lý được môi trường biến động, nhiều đối tượng chuyển động. Theo các nghiên cứu trong [15], [17], [21], [23] bài toán phát hiện đối tượng được khái quát: Đầu vào: o Các khung hình được trích chọn từ video Đầu ra: o Ảnh nhị phân chứa các đối tượng chuyển động 39 o Các thông số khác về ảnh: lưu lượng quang học, đường biên, đường biên, trọng tâm, khoảng cách. Phương pháp tiếp cận: o Mô hình hóa nền (Background model) o Trừ nền (Background Subtraction) o Phương pháp thống kê (Statistical Methods) o Vi phân ảnh theo thời gian (Temporal Differencing) o Luồng quang học (Optical Flow) o Phát hiện bóng và thay đổi ánh sáng o Và một số phương pháp tiếp cận kết hợp khác Theo nghiên cứu trong [24], để giải quyết mô hình hóa nền, nhiều phương pháp đã được phát triển và được phân loại thành các loại sau: Mô hình nền cơ bản: sử dụng giá trị trung bình hoặc bình quân hoặc phân tích lược đồ xám cho toàn thời gian. Mô hình nền thống kê: sử dụng một Gauss đơn hoặc một hỗn hợp Gauss hoặc một tính toán mật độ lõi. Các biến thống kê được sử dụng để phân loại các điểm ảnh là điểm tiền cảnh hay là nền. Mô hình nền mờ: sử dụng một giá trị trung bình mờ hoặc hỗn hợp mờ loại 2 của Gauss. Phát hiện tiền cảnh được sử dụng tích phân Sugeno hoặc tích phân Choquet. Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thời gian xuất hiện. Các điểm ảnh đang xem xét được xếp loại và ghép vào cụm theo một tiêu chí đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán K-mean hoặc sử dụng Codebook. Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình của các hệ số của một mạng nơ ron được huấn luyện trên N khung hình không có nhiễu. Mạng huấn luyện như thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh. 40 Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sử dụng hệ số biến đổi wavelet rời rạc. Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh của ảnh hiện tại lệch đáng kể so với giá trị dự đoán được khai báo là tiền cảnh. Bộ lọc này có thể là lọc Wiener, lọc Kalman hoặc lọc Tchebychev [53]. Cũng theo nghiên cứu trong [24], các phương pháp được tổng kết theo nhóm, năm, tác giả được tổng hợp và thể hiện trong bảng 1.1. Các phương pháp tiếp cận mô hình nền trên (trong bảng 1.2) đều sử dụng phép trừ nền: Mô hình hóa nền, khởi tạo nền, duy trì nền, phát hiện tiền cảnh, chọn kích thước đặc trưng (điểm ảnh, khối hoặc cụm), chọn kiểu đặc trưng (đặc trưng màu sắc, đường biên, stereo, chuyển động và đường vân). Phát triển BSM tập trung vào các tình huống quan trọng trong dãy video: nhiễu ảnh làm chất lượng ảnh nguồn kém, khẩu độ nổi trên nền, các đối tượng chuyển động trên nền, chèn thêm vào nền, đối tượng đi bộ, đối tượng dừng lại và bóng. Khác nhau chính đến từ các nền động và sự thay đổi ánh sáng. - Các nền động thường xuất hiện ở các cảnh ngoài trời. Ví dụ cây cối cử động, nước gợn sóng và bề mặt nước. - Ánh sáng thay đổi xuất hiện trong các cảnh trong nhà và ngoài trời. Sự thay đổi ánh sáng có thể là dần dần hoặc đột ngột. Loại Phương pháp, Tác giả (Năm xuất bản) [Tài liệu] Trung bình, Lee (2002); Trung vị, Mac Farlane, (1995) Mô hình nền cơ
bản Gauss đơn, Wren (1997); Hỗn hợp Gauss, Stauffer và
Grimson (1999); Ước tính mật độ lõi, Elgammal (2000). hình nền Mô
thống kê Mô hình nền logic
mờ Giá trị trung bình chạy mờ, Sigari (2008); Hỗn hợp
Gauss mờ loại 2n El Baf (2008). Sự phân cụm nền K trung bình (2003); CodeBook, Kim (2005). Mô hình nền Mạng nơ ron hồi quy tổng hợp, Culbrik (2006); Mạng 41 mạng nơ ron nơ ron tự tổ chức, Maddalena (2007). nền Biến đổi Wavelet rời rạc, Biswas (2011) hình Mô
Wavelet Tính toán nền Lọc Wiener, Toyama (1999); Lọc Kalman, Messelodi
(2005); Bảng 1.1 trình bày phân loại các phương pháp mô hình nền [17], [24], chỉ ra cho thấy, mô hình nền thường sử dụng là phương pháp mô hình thống kê với ưu điểm giải quyết các tình huống quan trọng, mô hình này có nhiều phát triển gần đây, xoay quanh mô hình GMM và phát triển của nó. Đánh giá về phương pháp phát hiện đối tượng: Phương pháp phát hiện đối tượng sử dụng BSM là chủ yếu. Trong đó sử dụng phương pháp GMM được nhiều nghiên cứu phát triển và áp dụng. Các trọng số của các hệ số tham số mô hình được thực hiện qua phép lặp, với sự lựa chọn hệ số α trong phương trình lặp là rất cần thiết. Khi hệ số α được tham số hóa thì GMM trở thành GMM thích nghi. Việc lựa chọn α để GMM thích nghi với ánh sáng thay đổi phù hợp hơn trong các ứng dụng ngoài trời là cần thiết. 1.2.6. Phân loại đối tượng Có nhiều cách phân loại đối tượng trong ảnh khác nhau. Phương pháp thủ công là sử dụng so sánh/đối sánh ảnh, tuy nhiên chi phí thời gian lớn và khó thực hiện. Các phương pháp thường được sử dụng là dựa trên một số đặc trưng của ảnh, đối tượng trong ảnh như lược đồ xám, màu sắc, hình dạng, đường viền, kết cấu vân,.... Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trên hình dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tượng phát hiện được. Ví dụ nghiên cứu của Guohui Zhang dựa trên trọng tâm, biên và độ dài đối tượng [12]. Cách tiếp cận của A. J. Lipton (1999) [16] sử dụng độ dài đường biên hình chiếu của đối tượng và thông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm: người, xe, và các loại phương tiện khác. Phương pháp 42 xuất phát từ giả thuyết người nhỏ hơn các phương tiện và có các hình dạng phức tạp. Đối tượng phân loại Tổng số Không
phân loại % không phân
loại được Độ chính
xác Phương tiện giao thông 319 10.7% 2.5% 86.8% Người 291 11.00% 6.2% 82.8% Sai số 4 Theo bảng kết quả 1.2 thì độ chính xác còn khá thấp (86.8% đối với phương tiện và 82.8% đối với người). [16] Phương pháp phân loại được phát triển bởi Collins [10] sử dụng các đặc trưng trực quan phụ thuộc của các đối tượng để huấn luyện một bộ lọc mạng nơron nhận biết bốn lớp đối tượng: người, nhóm người, xe và các loại khác. Đầu vào của mạng nơron là độ phân bố, diện tích và tỉ lệ bề ngoài của vùng đối tượng và độ phóng đại của camera. Giống như phương pháp trước, việc phân loại được thực hiện tại mỗi khung hình. Các kết quả được giữ trong lược đồ xám để cải thiện chất lượng phân loại theo sự phân biệt nhất quán thời gian. Một phương pháp đơn giản hơn dựa trên sự tổng hợp của sự chênh lệch thời gian và đối sánh ảnh mẫu cho phép đạt hiệu quả cao trong việc theo dõi trong môi trường nhiễu và cho phép phân loại tốt. Do đó sử dụng bộ lọc Kalman hoặc các cách tiếp cận xác suất khác để giải quyết nhược điểm này. Phân loại đối tượng dựa trên so khớp mẫu: So khớp mẫu là cách phân loại sử dụng trong các phương pháp đo lường đối tượng tương tự như dựa trên việc so sánh hình dạng của đối tượng (được gán nhãn và chuẩn bị trước trong CSDL) với các vùng đối tượng được phát hiện trích chọn từ bản đồ điểm ảnh trên nền được. Quá trình phân loại đối tượng theo phương pháp này được chia thành hai bước. 43 Bước chuẩn bị (Offline): Tạo CSDL mẫu của hình mẫu đối tượng bằng tay và gán nhãn đối tượng cho nó. Bước thực hiện trực tiếp (Online): Trong quá trình giám sát, trích chọn hình dạng của đối tượng trong mỗi khung hình và nhận dạng kiểu của nó bằng việc so sánh đặc tính dựa trên hình dạng đó với mẫu trong CSDL mẫu. Sau khi so sánh đối tượng với hình mẫu trong CSDL, tìm thấy hình dạng mẫu có khoảng cách tối thiểu so với đối tượng. Kiểu của đối tượng này được xác định là kiểu của đối tượng mong muốn phân loại. Trong bước này, kết quả của đối tượng theo dõi được sử dụng để đạt được thống nhất thời gian của kết quả phân loại. - Kỹ thuật được sử dụng trong phân loại đối tượng. - Các kỹ thuật so khớp mẫu so sánh các phần của ảnh với nhau. - Ảnh mẫu được sử dụng để nhận dạng các đối tượng tương tự trong ảnh nguồn. - Độ lệch chuẩn của ảnh mẫu so với ảnh gốc là đủ nhỏ, ảnh mẫu được sử dụng. - Tập mẫu thường được sử dụng để xác định các ký tự in, số, các đối tượng nhỏ và đơn lẻ, riêng rẽ khác. Quá trình phù hợp mẫu chuyển ảnh mẫu tới tất cả các vị trí trong vùng ảnh rộng lớn và tính toán số chỉ mục được chỉ ra sự phù hợp mẫu tốt như thế nào so với vị trí đó. So khớp được thực hiện cơ bản là điểm so với điểm. Hình chiếu của đối tượng trên ảnh là đường biên bao quanh đối tượng. Phân loại dựa trên hình chiếu chia thành hai bước: - Bước 1 (offline): Tạo một mẫu CSDL của các hình chiếu đối tượng mẫu bằng cách thu thập thủ công ảnh các trường hợp, chuyển đổi biểu diễn và lưu trữ vào CSDL. - Bước 2 (online): Trích rút hình chiếu của mỗi đối tượng phát hiện được trong mỗi khung hình và nhận ra loại của nó bằng cách so sánh hình chiếu dựa trên đặc trưng với các hình chiếu trong CSDL mẫu trong thời gian thực trong khi theo dõi. Sau khi so sánh đối tượng đó với đối tượng trong CSDL, một hình mẫu với khoảng cách nhỏ nhất được tìm thấy. Loại của đối tượng này được gán cho 44 loại của đối tượng muốn phân loại. Trong bước này kết quả của bước theo dõi đối tượng được tận dụng để thu được các kết quả phân loại nhất quán theo thời gian. Trích rút hình chiếu của đối tượng: Trong cả hai bước online và offline của thuật toán phân loại, các hình chiếu của các vùng đối tượng phát hiện được từ bản đồ điểm ảnh cận cảnh được trích rút bằng cách sử dụng một thuật toán theo vết đường biên. CSDL mẫu các hình chiếu: CSDL hình chiếu mẫu được tạo offline bằng cách trích rút một vài đường biên đối tượng từ các cảnh khác nhau. Do sơ đồ phân loại sử dụng sự giống nhau (sự tương đồng), các hình dạng của các đối tượng trong CSDL nên thể hiện các dáng điệu của các loại đối tượng khác nhau. Xem xét kiểu người, thêm các hình dạng người trong các tư thế khác nhau vào CSDL mẫu nhằm tăng khả năng của một đối tượng truy vấn của kiểu người được phân loại đúng. Ví dụ, nếu có tất cả hình người trong tư thế thẳng đứng, có thể không phân loại được một người đang ngồi trên ghế. Hoặc nếu các hình chiếu của ô tô được nhìn theo phương ngang từ camera, có thể sẽ phân loại sai các phương tiện chuyển động theo chiều dọc với góc nhìn của camera. Trong bước phân loại, phương pháp không sử dụng hình chiếu trong định dạng thô, đúng hơn là so sánh các dấu hiệu khoảng cách của hình chiếu đã được chuyển đổi. Vì vậy, trong CSDL khuôn mẫu chỉ lưu trữ dấu hiệu khoảng cách của hình chiếu và thông tin tương ứng cho cả việc tính toán và lưu trữ sao cho hiệu quả. Nhận xét về phương pháp phân loại đối tượng: Có nhiều cách tiếp cận để phân loại đối tượng như dựa vào mô hình hình dạng đối tượng, trên vùng ảnh, đường viền, đặc trưng kết cấu, xác suất. Tuy nhiên phương pháp dựa vào hình dạng và đường viền đối tượng được các nhà khoa học nghiên cứu và triển khai trên nhiều ứng dụng. Để áp dụng phương pháp phân loại dựa trên hình dạng và đường viền, các ứng dụng thường chia thành 2 pha: pha thứ nhất, sưu tập và tạo mẫu so sánh; pha thứ hai áp dụng phép đối sánh ảnh dựa trên những tập đối tượng cần phân 45 loại kết hợp với tập dữ liệu mẫu dựa trên một tập luật đối sánh tương ứng. Việc biến đổi hình dạng hình học của biên đối tượng cũng như đường viền thành vector hóa đại số mang lại khả năng nhận dạng và phân loại đối tượng. Nói tóm lại, bài toán phân loại phương tiện giao thông thông qua hình ảnh/video được đặt ra là: Đầu vào: o Khung hình chứa đối tượng chuyển động đã được bước phát hiện xử lý, thông thường là những bức ảnh nhị phân. o Các thông số về ảnh: lưu lượng quang học, đường biên, trọng tâm,... Đầu ra: o Các loại đối tượng có trong khung hình Phương pháp tiếp cận: o Phân loại dựa trên hình dạng o Phân loại dựa trên chuyển động. o Tổng hợp giữa hình dạng và chuyển động. o Dựa trên vùng ảnh. o Dựa trên đặc tính màu sắc o Dựa trên thao tác đường viền o Dựa trên đặc trưng kết cấu. o Dựa trên xác suất. 1.3. Hướng tiếp cận của luận án 1.3.1. Sơ đồ khái quát hướng tiếp cận xử lý bài toán Hạt nhân của hầu hết các phương pháp tiếp cận trước đây tập trung vào ba khối chính: Phát hiện, phân loại và theo dõi. Từ kết quả của bài toán phát hiện, theo dõi và phân loại sẽ thực hiện nhận diện và trích chọn các thông tin cần quan tâm đưa ra màn hình quan sát hoặc lưu trữ vào CSDL, phục vụ các nhu cầu của con người (Hình 1.16). Thu nhận video liên quan đến: 46 - Vị trí đặt camera, bao gồm độ cao so với mặt đường, khoảng cách từ camera đến vùng cần đếm xe hay còn gọi là ROI. - Hướng quay, bao gồm việc xác định hướng quay đối tượng tham gia giao thông từ hướng nào? Trực diện theo hướng đang đến, theo hướng đang di chuyển ra xa, quay ngang sườn xe theo cả hai hướng di chuyển,... - Góc quay, luồng ảnh quay tạo góc với phương nằm ngang chứa đối tượng chuyển động góc bao nhiêu độ. Máy quay đặt cố định hay di động,... Cách lắp đặt camera ảnh hướng nhiều tới các phương pháp tiếp cận, giải quyết xử lý ở các bước tiếp theo. Vị trí đặt máy ảnh hưởng tới kích thước đối tượng thu được trong video. Hướng quay ảnh hưởng đến hình dạng đối tượng trong video, bởi vì các đối tượng trong video giao thông (chủ yếu là xe) sẽ có hình dạng phía trước và phía sau khác nhau. Góc quay cũng ảnh hưởng tới hình dạng đối tượng. Để phù hợp với các hệ thống giám sát giao thông bằng camera, ta chỉ xét trường hợp máy quay đặt cố định, hướng quay thẳng hướng với đối tượng chuyển động. Khoảng cách khu vực quan tâm tới máy quay 40 đến 100 mét, góc
quay chếch phương nằm ngang 30o. Trích chọn khung hình. Đặc tính cơ bản của video là cấu thành bằng sự kết hợp các khung hình liên tiếp. Do vậy, từ dữ liệu video (trực tiếp từ máy quay camera IP hoặc từ file video), để lấy ảnh vào phân tích, hệ thống phải tách thành các khung hình (chứa ảnh đối tượng) để tiến hành trừ nền, phát hiện đối tượng,... 47 Mô hình nền: Cách tốt nhất để thu nhận nền là lưu trữ ảnh nền khi không có bất kỳ đối tượng chuyển động nào, nhưng trong môi trường thực thì khó có thể như vậy. Hơn nữa, nó cũng luôn luôn thay đổi dưới điều kiện thực tế như thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh...Nhiều phương pháp mô hình hóa nền đã được nghiên cứu và triển khai. Phát hiện đối tượng, Theo dõi đối tượng, Phân loại đối tượng là những khối xử lý chính của hệ thống. Tuy nhiên trong nhiều phương pháp sự kế thừa và phối hợp giữa những khối này là liên quan chặt chẽ với nhau. Nội dung và những nghiên cứu liên quan đến những vấn đề này sẽ được tiếp tục trình bày trong luận án ở những phần tiếp theo. Thông tin đối tượng là khâu cuối cùng xử lý đầu ra của bài toán. Kết quả có thể lưu trữ vào CSDL hoặc ra màn hình phục vụ quan sát. 1.3.2. Xác định vùng quan tâm và nhiệm vụ của luận án Với phân tích đặc trưng phương tiện giao thông, video giao thông, việc tiếp cận phát hiện và phân loại dựa trên màu sắc là khó thành công. Sơ đồ cấu trúc các hướng tiếp cận trong giải quyết bài toán phát hiện và Video Khung hình Phát hiện đối tượng Đối tượng mẫu Rút trích đặc trưng Xây dựng đặc trưng mẫu So sánh đặc trưng phân loại phương tiện giao thông từ video được thể hiện (Hình 1.17): Thông tin đối tượng Cơ sở dữ liệu Về phân loại phương tiện dựa trên ảnh/video, cơ bản thực hiện trên hai pha: pha huấn luyện và pha nhận dạng. 48 Pha huấn luyện, tìm ra các đối tượng mẫu có trên thực tế, trích chọn ra và xây dựng đặc trưng mẫu dùng cho việc nhận dạng và phân loại. Đối tượng mẫu và đặc trưng mẫu là những thành phần mà tùy theo từng loại đối tượng, từng yêu cầu bài toán mà có thể lựa chọn theo nhiều cách khác nhau, thường dựa vào những phân tích và kinh nghiệm. Đối với bài toán phân loại phương tiện chuyển động từ video, để có được cơ sở dữ liệu đối sánh cần chọn ảnh các phương tiện mẫu cần phân loại phù hợp với các điều kiện về độ phân giải, kích thước, từ đó trích chọn các đặc trưng như độ dài, chiều cao, chu vi, số đỉnh, góc,... để lưu vào kho cơ sở dữ liệu. Pha nhận dạng và phân loại, ở đây từ dữ liệu video, trích chọn ra các khung hình, dựa trên các khung hình phát hiện đối tượng chuyển động. Từ các đối tượng phát hiện được, rút trích ra các đặc trưng (tương tự như pha huấn luyện), so sánh với các đặc trưng đã huấn luyện từ trước để kết luận về đối tượng. Đối với bài toán phát hiện và phân loại phương tiện từ Video, thu nhận các khung hình, thông qua các khung hình sử dụng các thuật toán để phát hiện phương tiện chuyển động (ô tô, xe máy, xe đạp), tức là kết luận có đối tượng chuyển động hay không. Rút trích các đặc trưng của đối tượng như các đặc trưng về hình dạng, kích thước, đường viền. So sánh các đặc trưng với các đặc trưng mẫu chứa trong kho cơ sở dư liệu để kết luận thông tin về đối tượng. Trên cơ sở xác định vùng nghiên cứu trên, để giải quyết vấn đề phát hiện và phân loại phương tiện từ dữ liệu video giao thông cần thực hiện hai nhiệm vụ chính (Hình 1.18). Phân loại đối tượng dựa trên đặc trưng hình dạng và độ dài. Trước hết là trích chọn các đặc trưng hình dạng và độ dài của phương tiện giao thông. Xây dựng CSDL cho việc nhận dạng và phân loại. Sự kết hợp các phương pháp nhận dạng theo hình dạng và độ dài tạo ra khả năng phân loại nhanh. Phân loại đối tượng dựa trên đặc trưng đường viền. Việc biểu diễn đường viền theo phương pháp nào đó để so sánh, phân tích đường viền dễ dàng và chính xác, thông qua đó để phân loại đối tượng chính xác hơn. 49 Phát
hiện và
phân
loại
phương
tiện từ
video
giao
thông Nhiệm vụ 1. Phát hiện đối tượng chuyển động. Sử dụng phương pháp GMM, xem xét thêm một số trường hợp sự tác động của ánh sáng để GMM thích nghi nhanh với sự thay đổi ánh sáng là hoàn toàn có thể, qua đó cải thiện tốc độ tính toán. Nhiệm vụ 2. Phân loại đối tượng chuyển động. Sử dụng kích thước và véc tơ khoảng cách để phân loại. Dựa vào phân tích đường viền thông qua các đặc trưng như chu vi, số đỉnh để phân loại. 1.4. Kết luận chương 1 Dựa trên cơ sở nghiên cứu kết quả một số nghiên cứu liên quan đã thực hiện và những hạn chế tương ứng so với điều kiện giao thông Việt Nam và dựa trên phân tích một số kỹ thuật, phương pháp sử dụng cho mục đích phát hiện, theo dõi, và phân loại đối tượng chuyển động trong video nói chung và video giao thông nói riêng, vấn đề tài nghiên cứu “Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ dữ liệu video giao thông” là có ý nghĩa về mặt khoa học và thực tiễn, đặc biệt với vấn đề giao thông của Việt Nam. Vấn đề đặt ra đối với bài toán phân loại phương tiện chuyển động thông qua video giao thông là: Về phát hiện đối tượng, sử dụng mô hình nền và thuật toán trừ nền, hoặc kết hợp với phương pháp theo dõi để phát hiện nhanh và chính xác đối tượng chuyển động. Dựa trên các phân tích, có thể thấy rằng chọn mô 50 hình trừ nền GMM, nghiên cứu và cải tiến cho phù hợp với sự thay đổi ánh sáng ở môi trường ngoài trời là phù hợp đối với bài toán xác định mật độ phương tiện giao thông. Tuy nhiên để nâng cao độ chính xác và cải thiện tốc độ tính toán cần xử lý đối tượng chuyển động trích chọn được bằng việc loại bỏ nhiễu, gán nhãn cho khối, tách khối, hợp khối. Về phân loại, trong điều kiện giao thông đông đúc, đa dạng, kết quả quan sát các phương tiện có thể bị chồng lấp, khó phân định, cần sử dụng những phương pháp hợp lý để xác định chính xác đối tượng và số lượng tương ứng? Qua phân tích, có thể thấy rằng hình dạng đối tượng chuyển động trong điều kiện đông đúc, đa dạng thì mô hình phân loại theo hình dạng là phù hợp. Bài toán phân loại thường cấu trúc thành 2 pha. Pha huấn luyện và pha nhận dạng phân loại và đếm. Chu vi đường viền đối tượng, khối đối tượng hoặc một đặc trưng của khối đối tượng là một tham số có thể phân loại. Vấn đề đặt ra để giải quyết bài toán là cần xác định rõ đặc trưng, trích chọn đặc trưng của đối tượng chuyển động, mà cụ thể là các phương tiện chuyển động trên đường. Căn cứ vào các đặc trưng rút trích được, hướng xử lý bài toán có những phương pháp xác định tương ứng, cho ra kết quả phù hợp với yêu cầu của bài toán. Những vấn đề này được trình bày chi tiết trong chương 2, 3. 51 Chương 2. PHÁT HIỆN ĐỐI TƯỢNG CHUYỂN ĐỘNG TỪ VIDEO DỰA TRÊN MÔ HÌNH GAUSS HỖN HỢP THÍCH NGHI VỚI THAY ĐỔI ÁNH SÁNG Chương này, trình bày về phương pháp phát hiện đối tượng dựa trên mô hình thống kê. Đầu tiên, trình bày một số hướng tiếp cận của luận án về phát hiện đối tượng chuyển động; tiếp theo trình bày một số phương pháp trích chọn đối tượng chuyển động từ video theo mô hình GMM, bao gồm GMM truyền thống, GMM thích nghi và cải tiến GMM thích nghi với sự thay đổi ánh sáng; Cuối cùng là trình bày phương pháp đếm xe ô tô trên đường cao tốc dựa vào sự kết hợp của mô hình GMM thích nghi thay đổi ánh sáng với luồng quang học. 2.1. Một số thuật toán phát hiện chuyển động Trừ nền là phương pháp phổ biến để phát hiện đối tượng chuyển động, Massimo Piccardi, năm 2004, trong công trình [17], đã trình bày một số thuật toán trừ nền dùng cho việc phát hiện chuyển động: trừ nền cơ bản, trừ nền trung bình, -,... 2.1.1. Thuật toán trừ nền cơ bản BSM cơ bản là phương pháp dựa trên sự sai khác giữa hai ảnh (trừ hai ảnh theo từng điểm ảnh tương ứng) và so sánh sự sai khác này với một giá trị ngưỡng cho trước. Trường hợp sự sai khác này lớn hơn giá trị ngưỡng đã cho, có nghĩa đã có sự sai khác về các số các điểm ảnh. Xét 2, 3 khung hình liên tiếp để phát hiện chuyển động. Gọi It là dãy các khung hình của đoạn video, lấy ảnh đầu tiên I0 là ảnh nền, gọi là giá trị ngưỡng sai lệch cho phép giữa các giá trị điểm ảnh của khung hình It và ảnh nền. Trong công thức (2.1), Dt(x,y)=0 (độ chênh lệch giữa hai điểm ảnh nhỏ hơn giá trị ngưỡng ) đưa ra kết luận đây là những điểm ảnh của nền, ngược lại, Dt(x,y)=1 (độ chênh lệch giữa hai điểm ảnh lớn hơn ngưỡng cho trước) đưa ra kết luận đây là những điểm ảnh của đối tượng chuyển động. Tập hợp các điểm ảnh này ta sẽ có hình ảnh của đối tượng chuyển động. (2.1) ( ) { ( ) ( )
( ) ( ) 52 Nội dung thuật toán: Đầu vào: Video : Giá trị ngưỡng cho trước NF: Số khung hình cần sử dụng m,n: kích thước một khung hình (điểm ảnh) Đầu ra: {Dt(m,n)| t=1..NF} //Ảnh đã tách ngưỡng đối tượng chuyển động Các bước thực hiện: 1. Thu nhận khung hình For t=0 to NF It = FrameCapture(video,t) //NF là số khung hình thu được trong vùng quan sát. 2. Xác định nền // B: Giá trị nền cố định B = I0 3. Phát hiện mặt nạ nhị phân chứa đối tượng chuyển động: For t=0 to NF For x=0 to n For y=1 to m If |It(x,y)-Bt(x,y)|> then Dt(x,y)=1 Else Dt(x,y)=0 4. Return {Dt(m,n)|t=0..NF} Độ phức tạp thuật toán: Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Căn cứ vào bước thứ 3 trong thuật toán, dễ dàng ước tính được số lượng các phép toán: - Số lượng khung hình xét là NF; - Kích thước mỗi khung hình là nm; - Số phép toán ước tính là NFmn. Độ phức tạp của thuật toán là O(NFmn), với NF là số khung hình; mn là kích thước ảnh của khung hình. 53 Thuật toán trừ nền trung bình 2.1.2. BSM trung bình là một cải tiến của BSM cơ bản [17]. Thay vì giữ nguyên giá trị khung hình nền B(x,y) trong phép trừ thì BSM trung bình cải tiến cập nhật liên tục giá trị khung hình nền nhằm tăng tính chính xác kết quả phát hiện đối tượng chuyển động. Gọi β là hệ số được chọn trước thuộc (0,1), ảnh nền đầu tiên B0 gán bằng ảnh I0, ta có ảnh nền được cập nhật trung bình theo phương trình (2.2), Bt(x,y) = (1-)Bt-1(x,y)+It(x,y) (2.2) Gọi là giá trị ngưỡng sai lệch cho phép giữa các giá trị điểm ảnh của khung hình It và ảnh nền ta có ảnh tách ngưỡng (chứa đối tượng chuyển động) được tính theo công thức (2.3). (2.3) ( ) { ( ) ( )
( ) ( ) Trong công thức (2.3) ta có Dt(x,y) = 0, kết luận đây là điểm ảnh của nền, ngược lại, Dt(x,y) = 1, kết luận đây là điểm ảnh của đối tượng chuyển động. Tập hợp các điểm ảnh này ta sẽ có hình ảnh của đối tượng chuyển động. Nội dung thuật toán: Đầu vào: Video : Giá trị ngưỡng cho trước NF: Số khung hình cần sử dụng m,n: kích thước một khung hình (điểm ảnh) : Tham số cập nhật nền cho trước (0,1) Đầu ra: {Dt(m,n)| t=1..NF} //Tập ảnh đã tách ngưỡng đối tượng chuyển động Các bước thực hiện: 1. Thu nhận khung hình For t=0 to NF It = FrameCapture(video,t) 2. Khởi tạo giá trị nền ban đầu B0 = I0 54 mặt nạ nhị phân For t=0 to NF For x=0 to n For y=1 to m { Bt(x,y) = (1-)Bt-1(x,y)+It(x,y) If |It(x,y)-Bt(x,y)|> then Dt(x,y)=1 Else Dt(x,y)=0 } 4. Return {Dt(m,n)|t=0..NF} 3. Cập nhật giá trị nền Bt(x,y) theo chỉ số khung hình và tính Độ phức tạp thuật toán: Tương tự như trình bày trong thuật toán trừ nền trung hình, số phép toán ước tính tổng quan chung của thuật toán tập trung ở bước 3. Độ phức tạp của thuật toán là O(NFmn), với NF là số khung hình; mn là kích thước ảnh của khung hình. 2.1.3. Thuật toán Σ-Δ Thuật toán Σ-Δ dựa trên phương pháp đệ quy phi tuyến đơn giản (còn được gọi là bộ lọc Σ-Δ). Thuật toán Σ-Δ sử dụng hàm sgn(a) để ước lượng giá trị của (2.4) nền, công thức (2.4). Hàm sgn() được xây dựng như sau: ( ) { Theo công thức (2.5), giá trị nền đối với mỗi khung hình tại thời điểm t là Bt(x,y), tăng hoặc giảm hoặc giữ nguyên tùy thuộc vào giá trị của hàm sgn(a). t(x,y) là giá trị tuyệt đối hiệu giữa Bt(x,y) và It(x,y) theo công thức (2.6). Gọi Vt(x,y) là biến ngưỡng xác định cho sự chuyển động theo thời gian t, nhằm xác định xem mỗi điểm ảnh của một khung hình đang xét sẽ là điểm ảnh “nền” hay điểm ảnh của “đối tượng chuyển động”, được tính theo công thức (2.7), với N là tham số cho trước trong khoảng từ 14; 55 Giá trị Dt(x,y) là giá trị lưu trữ nền hoặc đối tượng chuyển động. Nếu Dt(x,y)=0 thì điểm (x,y) là của nền, ngược lại điểm ảnh của đối tượng chuyển động, công thức (2.8). = It(x,y) – Bt-1(x,y) (2.5) Bt(x,y) = Bt-1( ) ( ) (2.6) (2.7) ( ) ( ) ( )
( ) ( ) ( ( ) ( )) (2.8) ( ) { ( ) ( )
( ) ( ) Nội dung thuật toán: Đầu vào: Video : Giá trị ngưỡng cho trước NF: Số khung hình cần sử dụng m,n: kích thước một khung hình (điểm ảnh) α: Tham số cập nhật nền cho trước [0,1] Đầu ra: {Dt(m,n)| t=1..NF} //Ảnh đã tách ngưỡng đối tượng chuyển động Các bước thực hiện: 1. Thu nhận khung hình For t=0 to NF It = FrameCapture(video,t) 2. Khởi tạo giá trị nền ban đầu B0=I0 //Giá trị khởi tạo mô hình nền và khung hình video đến. 0 = 0 V0 = 0 3. Cập nhật giá trị nền Bt theo chỉ số khung hình và tính mặt nạ nhị phân For each Image It For each x,y [n,m] { = It(x,y) – Bt-1(x,y) Bt(x,y) = Bt-1( ) ( ) ( ) ( ) ( )
( ) ( ) ( ( ) ( )) If |t(x,y)-Vt(x,y)|> then Dt(x,y)=1 Else Dt(x,y)=0 4. Return {Dt(m,n)| t=1..NF} 56 Độ phức tạp thuật toán: Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Căn cứ vào bước thứ 3 trong thuật toán, dễ dàng ước tính được số lượng các phép toán tương đương với O(NFnm), với NF là số khung hình; n, m là kích thước khung hình. 2.1.4. Thuật toán Σ-Δ cải tiến Thuật toán Σ-Δ cập nhật mô hình nền theo hằng số thời gian sgn(a). Điều này tạo ra hạn chế đối với những ảnh chứa nhiều đối tượng chuyển động hoặc đối tượng có nhiều chuyển động. Thuật toán Σ-Δ cải tiến được đề xuất để giải quyết bài toán nhiều đối tượng và nhiều chuyển động. Phương pháp này sử dụng mô hình nền thích nghi để tăng khả năng phát hiện các chuyển động trong một ảnh phức tạp. Việc xử lý theo thời gian có thể cho ra kết quả phát hiện chuyển động rất hiệu quả trong trường hợp đối tượng chuyển động chậm dần, dừng lại hoặc quay vòng. Tuy nhiên, do thuật toán Σ-Δ đặc trưng bởi khoảng thời gian cố định: cập nhật theo giai đoạn và độ lớn số lượng mức xám trên một giây. Đây là lý do gây ra hạn chế của thuật toán Σ-Δ trong việc thích nghi với khung hình phức tạp nhất định. }. Công thức tính như sau: Thuật toán Σ-Δ cải tiến thay vì tính một nền riêng lẻ, chúng ta sẽ tính một tập các nền: { ( ) ( ) ( )) (2.9) ( ) ( ( ) là giá trị nền tham chiếu thứ i tại thời điểm t, ( ) là giá trị nền tham ( ) Trong đó, ( ) ( ). là giá trị nền tham chiếu thứ i tại thời điểm (t-1), chiếu thứ (i-1) tại thời điểm t, giá trị khởi tạo với i=0: được đặc trưng bởi thời gian cập nhật . 57 Mỗi nền ( ) ( ) như sau: và giá trị Với mỗi khung hình, tính giá trị hiệu tuyệt đối biến theo thời gian ( )| ( ) | ( ) (2.10) ( ) ( ( ( )) (2.11) ( ) ( ∑ ( ) Giá trị mô hình nền thích nghi tổng hợp được tính như sau: ∑ ( ) ( ) (2.12) ( ) Với là giá trị được định nghĩa trước, i là chỉ số tham chiếu, R là tổng số chỉ số i. Giá trị thực nghiệm đặt K=3, α1, α2, α3 được đặt 1, 8, 16. Trên mô hình nền thích nghi Bt(x,y) đã được tạo ra, áp dụng thuật toán Σ-Δ với mô hình nền Bt(x,y) này để xử lý xác định đối tượng chuyển động. Nội dung thuật toán: Đầu vào: Video : Giá trị ngưỡng cho trước NF: Số khung hình cần sử dụng m,n: kích thước một khung hình (số điểm ảnh theo chiều ngang, dọc) K: số lượng tập nền theo dõi cho trước αi(i=1..K): Tham số cập nhật nền cho trước [0,1] Đầu ra: {Dt(m,n)| t=1..NF} //Tập ảnh đã tách ngưỡng đối tượng 1. Thu nhận khung hình For t=0 to NF It= FrameCapture(video,t) 2. Khởi tạo giá trị nền và các tham số ban đầu For i=1 to K } { 0 = 0 V0 = 0 For i=1 to K {αi=const} 3. Cập nhật giá trị nền Bt theo chỉ số khung hình và tính mặt nạ nhị phân For t=0 to NF For x=0 to n For y=1 to m { For i=1 to K { ( )) ( ) ( ) (
( )| ( )) ( ) ( ( ) ( )
( ) | ( )
( ) } //End of for i For i=1 to K { ( ) TS=TS + ( ( ))
( ) MS=MS + Bt(x,y) = TS/MS } t(x,y) = |It(x,y)-Bt(x,y)| Vt(x,y) = Vt-1(x,y) + sgn(N×t(x,y)-Vt-1(x,y)) If t(x,y)>Vt(x,y) then Dt(x,y)=1 Else Dt(x,y)=0 } //End of for t 4. Return {Dt(m,n)| t=1..NF} 58 Độ phức tạp thuật toán: Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Gọi k là số tập nền cần theo dõi. Căn cứ vào bước thứ 3 trong thuật toán, dễ dàng ước tính được số lượng các phép toán tương đương với O(NFkmn). 2.1.5. Thuật toán thống kê khác biệt cơ bản Thuật toán thống kê khác biệt cơ bản tính giá trị trung bình cho từng điểm ảnh riêng lẻ của khung video trước đó dựa trên việc sử dụng giá trị trung bình, 59 độ lệch tiêu chuẩn cũng như sắp xếp mô hình nền. Mô hình nền thích nghi được tạo ra thông qua việc xác định giá trị từng điểm ảnh xy của mô hình nền. Giá trị xy được tính là giá trị trung bình của các điểm ảnh tương ứng từ một tập K khung hình trước đó trong một khoảng thời gian nhất định từ thời điểm khung video đầu tiên đến thời điểm khung video thứ K-1 (có thể coi khoảng thời điểm từ t0 – tK-1). ∑ (2.13) ( ) K: là số lượng khung video đang xét; t: là chỉ số của khung video, t = 1..K; It(x,y): là giá trị khung video đến hiện thời thứ t. Với mỗi điểm ảnh, một giá trị ngưỡng biểu diễn bằng độ lệch chuẩn xy trong cùng một khoảng thời gian (t0 – tK-1), được tính bằng trung bình độ lệch giữa giá trị của điểm ảnh tương ứng trong các khung video trước và xy, công thức tính như sau: ) ∑ (2.14) ( ( ( ) ) Để phát hiện được chuyển động, giá trị tuyệt đối của hiệu giữa khung video đến và mô hình nền được tính toán. Từ đó ta sẽ xác định mặt nạ nhị phân phát hiện chuyển động Dt(x,y) được tính bởi công thức sau: (2.15) ( ) { | ( ) |
| ( ) | Ta chọn là tham số thực nghiệm. Phương pháp chọn được giải thích như sau: Theo [23], có nhiều cách để thể hiện các đặc tính của một phân phối xác suất. Cách dễ thấy nhất là thông qua hàm mật độ xác suất, nó cho biết khả năng xảy ra của mỗi giá trị của biến ngẫu nhiên. Hàm phân phối tích lũy cũng cho cùng thông tin, nhưng hình ảnh của nó thì thông tin chứa đựng không được dễ nhận thấy cho lắm. Các cách tương đương khi chỉ định một phân phối chuẩn là thông qua: mômen, ước lượng, hàm đặc trưng, hàm khởi tạo mômen, và hàm khởi tạo ước lượng và định lí Maxwell. Một số rất hữu ích về mặt lí thuyết, 60 nhưng không trực quan. Hàm mật độ xác suất của phân phối chuẩn với trung bình và phương sai 2 (hay, độ lệch chuẩn ). Hàm mật độ là đối xứng qua giá trị trung bình (giá trị kì vọng). Giá trị trung bình cũng là mode và trung vị của nó. Ta có 68.26894921371% của diện tích dưới đường cong là nằm trong khoảng 1 lần độ lệch chuẩn tính từ trị trung bình (tức là khoảng (-, +)); 95.44997361036% của diện tích dưới đường cong là nằm trong khoảng 2 lần độ lệch chuẩn (-2,+2); 99.73002039367% của diện tích dưới đường cong là nằm trong khoảng 3 lần độ lệch chuẩn (-3,++). Do đó việc chọn <3. Nếu thì điểm ảnh này được xác định là điểm ảnh của nền, ngược lại nếu thì điểm ảnh này là điểm ảnh của đối tượng chuyển động. Tập hợp những điểm ảnh này, ta sẽ xác định được đối tượng chuyển động. Nội dung thuật toán: Đầu vào: Video : Giá trị ngưỡng cho trước NF: Số khung hình cần sử dụng m,n: kích thước một khung hình (điểm ảnh) K: số lượng tập nền theo dõi cho trước αi(i=1..K): Tham số cập nhật nền cho trước [0,1] : lựa chọn giá trị <3. Đầu ra: {Dt(m,n)| t=1..NF} //Ảnh đã tách ngưỡng đối tượng chuyển động Các bước thực hiện: 1. Thu nhận khung hình For t=0 to NF It=FrameCapture(video,t) 2. Xác định mặt nạ đối tượng For t=0 to NF For each x,y [n,m]{ 2.1. Tính ∑ ( ) 2.2. Tính : For k=0 to K-1 { ( ( ) ) √ } 2.3. Xác định mặt nạ: If |It(x,y)- t(x,y)|>xy then Dt(x,y)=1 Else Dt(x,y)=0 } 3. Return {Dt(m,n)| t=1..NF} 61 Độ phức tạp thuật toán: Gọi NF là số khung hình thu nhận từ dữ liệu video, mỗi khung hình là một ảnh tĩnh. Gọi m, n là kích thước của mỗi khung hình. Gọi k là số tập nền cần theo dõi. Căn cứ vào bước thứ 2 trong thuật toán, dễ dàng ước tính được số lượng các phép toán tương đương với O(NFmnk). Mô hình Gauss hỗn hợp 2.1.6. Stauffer [23] đã đưa ra phương pháp trộn các mô hình nền lại để giải quyết vấn đề ánh sáng thay đổi, các hành động lặp lại, sự lộn xộn từ khung cảnh thực tế. Mục đích là chứng minh một mô hình nền đơn thì không thể xử lý được các khung hình liên tục trong một thời gian dài. Sử dụng phương pháp pha trộn phân tán Gauss để biểu diễn mỗi điểm ảnh trên một mô hình. Theo luận điểm đó, thực hiện và tích hợp phương pháp này vào trong hệ thống giám sát. Trong mô hình này, coi các giá trị của điểm ảnh theo thời gian như là một tiến trình điểm. Tiến trình điểm là một chuỗi giá trị điểm theo thời gian, tức là giá trị cấp xám hoặc là véc tơ đối với ảnh màu được gán theo thứ tự thời gian. Trong khung hình quan sát ở thời điểm hiện tại t, thì điểm ảnh (x,y) được quan sát ký hiệu là Xt, ở thời điểm t-1 được ký hiệu là Xt-1. Như vậy từ trước đó, thời điểm bắt đầu đến thời điểm t, ta được tập {X1, X2,...,Xt}là một tiến trình điểm. 62 Đây là các yếu tố hướng dẫn cách lựa chọn mô hình và các thủ tục cập nhật. Dãy {Xt} được mô hình hoá bởi K phân bố Gauss. Hay nói cách khác mỗi điểm ảnh sẽ được theo dõi bằng K Gauss. Xác suất quan sát của điểm ảnh hiện tại được tính bởi công thức: (2.16) ( ) ∑ ( ) Trong đó, i,t là trọng số tương ứng với Gauss thứ i (iK) của hỗn hợp Gauss tại thời điểm t; i,t là giá trị trung bình của các Gauss thứ i (iK) của hỗn hợp Gauss tại thời điểm t; i,t là ma trận hiệp phương sai của phân bố Gauss thứ i (iK) của hỗn hợp Gauss tại thời gian t; ( ) ( ) là hàm mật độ xác xuất được xác định bởi công thức: ⁄ ⁄ ( ) (2.17) ( ) K phụ thuộc vào bộ nhớ và khả năng xử lý của máy tính, thường được chọn từ 3 đến 5. Để tiện cho tính toán, ma trận hiệp phương sai được giả thiết theo dạng sau: (2.18) Trong đó, I là ma trận đơn vị. Với giả thiết các giá trị màu R, G, B của các điểm ảnh là các thành phần độc lập và có cùng một phương sai. Khi biểu diễn ảnh trong không gian màu RGB, các màu R, G, B được xây dựng trong không gian tọa độ 3 chiều và liên hệ với nhau trong một hình khối elip. Tuy nhiên để đơn giản có thể giả thiết khối này là hình cầu, khi đó chúng có cùng một phương sai. Thủ tục phát hiện các điểm tiền cảnh: - Trước tiên các phân phối K-Gauss cho một điểm ảnh được khởi tạo với các giá trị trung bình, có trọng số thấp như các công thức ở trên. 63 - Khi có một điểm ảnh mới trong chuỗi khung hình được quan sát, để xác định nhãn của nó thuộc nền hay đối tượng chuyển động, vector RGB được kiểm tra lại với K-Gauss cho đến khi một truờng hợp đúng được tìm ra. Sự phù hợp được xác định khi giá trị điểm ảnh trong vòng 2.5 độ lệch chuẩn của một phân phối. - Tiếp theo, xét K phân phối tại thời điểm t: i,t được cập nhật theo công thức: (2.19) ( ) với là tỉ lệ học, Mk,t=1 đối với phân phối Gauss và Mk,t=0 đối với các phân phối khác. - Sau khi bước trên kết thúc, các tham số μ và σ cho các phân phối chưa phù hợp vẫn như cũ. Các tham số của phân phối mà phù hợp với các quan sát, trước tiên tính tham số : (2.20) ( ) Tiếp theo cập nhật các tham số μ và σ như sau: (2.21) ( )
{
( ) ( )
( ) - Phân phối K-Gauss được sắp xếp bởi giá trị /. Theo danh sách này các điểm ảnh thuộc ảnh nền sẽ tương ứng với xác xuất phân phối có trọng số lớn và ít biến đổi. Trong dãy phân phối K-Gauss được sắp xếp chọn ra Gauss sao cho tổng các trọng số là nhỏ hơn một ngưỡng T. Bằng cách chọn T, có thể chọn phân phối tốt nhất để mô tả nền. Nếu giá trị của T là tương đối nhỏ, mô hình nền thường là mô hình đơn. Nếu giá trị T là tương đối lớn, các mô hình nền có thể mô tả các tình huống đã gây ra bởi những thay đổi lặp đi lặp lại của nền. Điều này sẽ tạo ra hiệu quả rõ ràng về ước tính pixel cùng với hai hoặc nhiều màu sắc khác nhau trong nền. Các mô hình nền được xây dựng theo sự phân bố Gauss đầu tiên phù hợp với Xt với mỗi phân phối Gauss riêng rẽ theo thứ tự mức độ ưu tiên. Nếu không có phân phối bất kỳ Gauss đó thể hiện sự phân bố nền phù hợp 64 với Xt, điểm này được đánh giá là điểm đối tượng chuyển động, nếu không nó là điểm nền, và sau đó chúng ta có thể hoàn thành việc phát hiện đối tượng theo mô hình nhiều Gauss thích ứng. Từ đó phân phối B sẽ được chọn như là một mô hình xác định ảnh nền theo công thức: {∑ ∑ (2.22) } trong đó: T là giá trị nhỏ nhất của các ước tính nền. Mô hình GMM cải thiện độ chính xác, phù hợp với các nền động, đặc biệt là các ứng dụng ngoài trời. Độ phức tạp tính toán tăng lên, chi phí tính toán nhiều hơn so các các phương pháp khác. Phương pháp chọn α và hoàn toàn có thể lựa chọn hoặc tính toán theo những mức khác nhau phù hợp hơn với sự thay đổi của ánh sáng. Việc lựa chọn những giá trị này được phân tích trong mục tiếp theo và được gọi là mô hình GMM thích nghi với ánh sáng thay đổi. Thuật toán rất đơn giản, thời gian Độ chính xác của thuật toán này Trừ nền cơ
bản tính toán nhanh. Thuật toán này thấp. Đặc biệt, thuật toán này đưa ra rất hữu dụng trong trường hợp chỉ kết quả không chính xác đối với cần xác định những thay đổi bộ những trường hợp đối tượng trong phận, mà không phải xác định sự đoạn video hầu như không di thay đổi của toàn bộ khung hình. chuyển, camera thu ảnh có nhiều nhiễu, không thể phát hiện được sự thay đổi lớn trong một vùng ảnh nhỏ và thay đổi nhỏ trong một vùng ảnh lớn. Trừ nền Việc cập nhật liên tục giá trị nền Phương pháp này chưa giải quyết trung bình được những hạn chế của BSM cơ thông qua việc sử dụng tham số bản đó là: kết quả phát hiện không đã làm tăng độ chính xác cho việc phát hiện đối tượng chuyển động chính xác đối với những trường hợp so với thuật toán trừ nền cơ bản. đối tượng trong đoạn video hầu như Cài đặt thuật toán đơn giản, độ không di chuyển, camera thu ảnh có phức tạp tính toán đơn giản, tốc nhiều nhiễu, không thể phát hiện độ xử lý nhanh. được sự thay đổi lớn trong một vùng ảnh nhỏ và thay đổi nhỏ trong một vùng ảnh lớn. Thuật toán Bằng việc sử dụng thuật toán Hạn chế của phương pháp này là Σ-Δ được chuẩn hóa theo thời gian, khả năng phát hiện kém đối với thuật toán Σ-Δ cho phép xử lý những đối tượng chuyển động trong nhanh, tăng hiệu quả tính toán và cảnh phức tạp, có chứa nhiều đối độ chính xác hơn trong phát hiện tượng chuyển động, đồng thời mức đối tượng chuyển động so với hai độ và thời gian chuyển động của các thuật toán đã trình ở phần trên. đối tượng là khác nhau. Thuật toán Bằng việc sử dụng mô hình nên Thuật toán này đòi hỏi độ phức tạp Σ-Δ cải thích nghi, thuật toán Σ-Δ cải tiến tính toán lớn. Có thể thấy rằng, so tiến cho phép ta xác định được chính với các thuật toán khác như trừ nền xác đối tượng trong trường hợp trung bình, trừ nền cơ bản, Σ-Δ thì video thu được có nhiều đối tượng thuật toán Σ-Δ cải tiến có thêm hẳn chuyển động vòng lặp K. Như vậy độ số phép thao tác thực hiện tương đương với O(NFmnK), trong khi đó thuật toán trừ nền trung bình hoặc trừ nền cơ bản chỉ là O(NFmn). Thuật toán Thuật toán đơn giản, tốc độ tính Thuật toán này không phát hiện thống kê toán nhanh, phát hiện chính xác được hết các đối tượng trong trường khác biệt đối tượng chuyển động trong hợp video đầu vào phức tạp: có cơ bản trường hợp video đầu vào đơn nhiều đối tượng, có đối tượng không giản (có một đối tượng chuyển chuyển động trong một khoảng thời gian nhất định, hoặc các đối tượng động). chuyển động với tốc độ khác nhau. 65 66 Đánh giá các thuật toán trừ nền thông qua thực nghiệm một số phép đo 2.1.7. Để đánh giá các thuật toán trừ nền thông qua thực nghiệm, các tác giả Corentin Lallier [32] và Andrews Sobral [33] đã sử dụng tập dữ liệu BMC (Background Models Challenge) được đề xuất bởi Vacavant [34] gồm cả video tổng hợp và video thực, biểu diễn cảnh đô thị được quay từ camera tĩnh. Tập dữ liệu gồm 20 chuỗi video đô thị kết xuất với trình mô phỏng SiVIC [35]. Những đoạn phim này thể hiện hai cảnh: đường và chỗ quay xe. Bảng 2 tổng hợp các tình huống khác nhau tạo ra từ hai cảnh này trong tập dữ liệu BMC. Các tập huấn luyện gồm 10 video tổng hợp biểu diễn cho các trường hợp sử dụng 1. Mỗi video được đánh số theo các loại sự kiện được trình bày (1-5), số cảnh (1 hoặc 2), và các trường hợp sử dụng (1 hoặc 2) . Bộ dữ liệu này đã được xây dựng để thử nghiệm độ tin cậy các thuật toán theo thời gian và trong những tình huống khó khăn như những cảnh ngoài trời. Các video thực dài (khoảng một giờ và lên đến bốn giờ) đều có sẵn, và chúng có thể diễn tả sự thay đổi trong thời gian dài với ánh sáng và mật độ nhỏ của các đối tượng trong thời gian so với những người tổng hợp trước đó. Bộ dữ liệu này cho phép kiểm tra ảnh hưởng của một số khó khăn gặp phải trong giai đoạn khai thác đối tượng. Những khó khăn đã được sắp xếp theo: 1. Kiểu nền (nhựa đường, bê tông hoặc đất). 2. Có sự hiển diện của thực vật (cây cối). 3. Bóng. 4. Sự hiện diện của một dòng xe liên tục gần các vùng giám sát. 5. Các điều kiện khí hậu chung (nắng, mưa, tuyết). 6. Sự thay đổi ánh sáng nhanh trong cảnh. 7. Sự hiện diện của các đối tượng lớn. Trong công trình nghiên cứu [32], tác giả Corentin Lallier và cộng sự đã sử dụng một bộ thông số đánh giá hệ thống phát hiện xâm nhập dựa trên video. Theo đó việc đánh giá dẫn đến ba câu hỏi chính: đối tượng có trích chọn đúng không? hệ thống đã phát hiện ra đối tượng hay không? đối tượng được phát hiện 67 với độ chính xác hợp lý không? Mỗi câu hỏi này liên quan đến cấp độ của của các phương pháp hiện tại. Việc trích chọn ở mức điểm ảnh. Phát hiện được đánh giá ở mức độ chuỗi ảnh, và độ chính xác của phát hiện được đo ở mức độ ảnh. Tỷ lệ cho mỗi cấp được tính toán so sánh kết quả của phân đoạn và phát hiện đối với nền đúng. Việc đánh giá tất nhiên phải dựa vào các thông số kỹ thuật và đặc biệt là giá trị các phép đo. Khi lựa chọn một phương pháp BSM, điều quan trọng là đánh giá mức tiêu thụ bộ nhớ, thời gian thực hiện và chiếm CPU. Trong các hệ thống nhúng hoặc các ứng dụng thời gian thực, các tính năng này là rất quan trọng. Các thông số đo để đánh giá thuật toán BSM được Corentin Lallier [32] sử dụng là: TP (đúng tích cực), FP (sai tích cực), TN (đúng tiêu cực), FN (sai tiêu cực), Pr (hệ số chính xác), Re (hệ số chiêu hồi) và F-Measure (hàm đo). Trong đó: - TP (True Positive) là số các điểm của tiền cảnh được phân loại là tiền cảnh; - FP (False Positive) là số các điểm ảnh của nền được phân loại là tiền cảnh; - TN (True Negative) là số các điểm ảnh nền được phân loại nền; - FN (False Negative) là số các điểm ảnh tiền cảnh được phân loại là nền; - Hệ số chính xác (Pr) (2.23) - Hệ số chiêu hồi (Re) (2.24) - Hàm trung bình điều hòa F-Measure (2.25) Khi đánh giá hiệu suất, một số tiêu chí đã được xem xét, đại diện cho các loại khác nhau về chất lượng của thuật toán BS. 68 Năm 2014, Andrews Sobral và Antoine Vacavan [33] đã xây dựng một bộ phần mềm để đánh giá tổng thể các thuật toán trừ nền, được gọi là BMC Wizard. Trong đó, các số đo như F-Measure, PSNR, SSIM, D-Score được tính toán để so sánh các thuật toán trừ nền. Bao gồm 29 thuật toán trừ nền trong thư viện BGS (Background Subtraction Library) [36] để tính toán bốn phép đo chất lượng F- Measure, D-Score, SSIM và FSD, thông qua đó để so sánh các phương pháp BS. Các phép đo được tiến hành tính toán cho hầu hết các thuật toán, thông qua các tham số mặc định và tham số điều chỉnh để tìm được thuật toán và tham số tốt nhất trong các điều kiện khác nhau của môi trường (dữ liệu đầu vào). - Hàm trung bình điều hòa F-Measure được tính như công thức (2.25); - Tỷ số tín hiệu cực đại trên nhiễu PSNR (Peak Signal-Noise Ratio), được tính bởi: ∑ ‖ ( ) ( )‖ (2.26) ∑ với Si(j) là điểm ảnh thứ j của ảnh i (kích thước m) trong dãy các khung hình S (độ dài n). - Độ đo tương tự cấu trúc SSIM (Structural SIMilarity), được xác định: )
) (
( )( )( ∑ ( ) (2.27) với là giá trị trung bình, là độ lệch chuẩn và là hiệp
phương sai của Si và Gi. Trong bộ tiêu chuẩn đánh giá, đặt C1= (k1 x L)2, C2= (k2
x L)2, với L là kích thước của tín hiệu xử lý (ví dụ L=255 đối với ảnh mức xám), k1 = 0.01; k1 = 0. Cuối cùng sử dụng D-Score, trong đó bao gồm việc xem xét vị trí các lỗi theo vị trí thực của đối tượng. Khoảng cách Baddeley là một phép đo tương tự cho ảnh nhị phân dựa vào biến đổi khoảng cách. Để tính toán giá trị đo này xem xét những sai lầm trong kết quả BSA. D-Score được tính bằng cách sử dụng: (2.28) ( ( )) (( ( ( ( ))) ) ) 69 với ( ( )) là khoảng cách cực tiểu giữa Si(j) và điểm tham khảo gần nhất (bằng thuật toán chuyển đổi khoảng cách). Để thực hiện việc xếp hạng các thuật toán BS, đầu tiên F-Measure, D-Score và SSIM được chuẩn hóa trong phạm vi [0,...,1]. Hàm đánh giá tổng hợp thuật ( ̅̅̅̅̅̅̅̅̅̅̅̅̅̅( )) ( ̅̅̅̅̅̅̅( )) ( ( toán BS là trung bình của các số đo, ký hiệu FSD(a), xác định bởi: ̅̅̅̅̅̅̅̅̅̅( ))) ( ) (2.29) với a là phương pháp BS, ̅̅̅̅̅̅̅̅̅̅̅̅̅̅( ) ̅̅̅̅̅̅̅( ) ̅̅̅̅̅̅̅̅̅̅( ) là trung bình F-Measure, SSIM và D-Score của thuật toán BS thông qua tập dữ liệu. Giá trị đánh giá tổng hợp thuật toán BS trình bày trong Bảng 2.2. Phương pháp PSNR D- SSIM FSD Chiêu
hồi Chính
xác F-
measure score Phương pháp cơ bản, trung bình và phương sai toàn thời gian StaticFrameDifferenceBGS 0.885 0.660 0.750 32.238 0.011 0.884 0.119 FrameDifferenceBGS 0.702 0.925 0.798 51.626 0.002 0.993 0.799 WeightedMovingMeanBGS 0.723 0.915 0.807 51.454 0.002 0.993 0.818 WeightedMovingVarianceBGS 0.721 0.912 0.805 51.427 0.002 0.993 0.814 AdaptiveBackgroundLearning 0.808 0.884 0.844 50.684 0.002 0.993 0.896 DPMeanBGS 0.597 0.935 0.729 51.881 0.002 0.992 0.642 DPAdaptiveMedianBGS 0.829 0.779 0.795 43.267 0.003 0.967 0.691 DPPratiMediodBGS 0.814 0.871 0.837 49.580 0.001 0.991 0.888 Các phương pháp dựa trên tập mờ FuzzySugenoIntegral 0.778 0.897 0.832 50.976 0.001 0.993 0.874 FuzzyChoquetIntegral 0.805 0.876 0.837 50.366 0.001 0.992 0.884 LBFuzzyGaussian 0.909 0.740 0.808 42.364 0.003 0.974 0.738 Các phương pháp thống kê sử dụng Gauss LBSimpleGaussian 0.855 0.770 0.805 45.073 0.002 0.982 0.767 Các phương pháp thống kê sử dụng nhiều Gauss DPGrimsonGMMBGS 0.717 0.913 0.802 51.445 0.002 0.993 0.808 MixtureOfGaussianV2BGS 0.893 0.813 0.850 48.383 0.002 0.992 0.899 70 0.665 0.928 0.774 51.717 0.002 0.992 0.746 LBMixtureOfGaussians 0.868 0.834 0.848 48.797 0.001 0.991 0.917 Các phương pháp dựa trên tập mờ loại 2 T2FGMM_UM 0.661 0.935 0.774 51.792 0.002 0.992 0.745 T2FGMM_UV 0.800 0.747 0.762 43.395 0.003 0.971 0.628 T2FMRF_UM 0.852 0.670 0.743 31.732 0.012 0.872 0.030 T2FMRF_UV 0.678 0.888 0.763 50.900 0.002 0.991 0.716 Các phương pháp thống kê sử dụng đặc trưng màu và kết cấu DPZivkovicAGMMBGS Các phương pháp không tham số GMG 0.947 0.703 0.803 41.412 0.003 0.979 0.730 VuMeter 0.722 0.842 0.775 50.296 0.002 0.992 0.735 Các phương pháp dựa trên đặc trưng riêng và vector riêng DPEigenbackgroundBGS 0.879 0.658 0.747 32.843 0.011 0.891 0.114 Các phương pháp dựa trên nơ ron và tập mờ nơ ron LBFuzzyAdaptiveSOM 0.877 0.811 0.836 46.182 0.002 0.982 0.848 Trong Bảng 2.2, các thuật toán, phương pháp BSM tốt nhất được đánh dấu bằng nền màu. Ngoài ra Andrews Sobral và Antoine Vacavan còn đánh giá các thuật toán trừ nền thông qua các điều kiện thời tiết phức tạp khác nhau, như đối tượng đang đi thì dừng lại, ánh sáng thay đổi đột ngột, bóng xuất hiện và nền thay đổi. Phân tích hiệu suất qua các tình huống cụ thể phức tạp: Phân tích hiệu suất của thuật toán BSM tốt nhất trong bốn tình huống cụ thể: đối tượng chuyển động dừng đột ngột, ánh sáng thay đổi đột ngột, bóng xuất hiện, cây đung đưa hoặc nền động. Bốn tình huống này rất khó để đối phó và rất phổ biến trong môi trường trong nhà cũng như ngoài trời. Tất cả các phương pháp được đánh giá với các tham số mặc định và điều chỉnh tham số. Mục đích của điều chỉnh tham số để tối đa TP và giảm thiểu FP. Đối tượng dừng đột ngột: 71 Sử dụng một video chứa một xe lửa dừng trong một khoảng thời gian nhất định. Một số thuật toán BSM thất bại trong tình huống này bởi vì xe lửa có thể lẫn trong các mô hình nền trong khi nó đang được cập nhật. Bảng 6 cho thấy số lượng TP, FN, FP và TN trước và sau khi điều chỉnh tham số. Số lượng TP đã tăng lên sau khi điều chỉnh tham số. Tuy nhiên, đôi khi số lượng FP cũng tăng (MultiLayerBGS). Phương pháp tốt nhất phải có ít FP và nhiều TP. Các thuật toán LBAdaptiveSOM, AdaptiveBackgroundLearning cho kết quả tốt, vì nó có thể để phát hiện TP tốt mà không làm tăng FP quá nhiều. Tuy nhiên, không có thuật toán là xử lý hoàn toàn các sự kiện khó khăn này, ngay cả khi điều chỉnh đầy đủ các tham số. Ánh sáng thay đổi đột ngột: Sử dụng một video mà có sự thay đổi ánh sáng đột ngột. Một số thuật toán BS thất bại trong tình huống này do khả năng chịu nhiễu thấp. Số TP tăng lên sau khi điều chỉnh tham số và hầu hết FP giảm. Tất cả các thuật toán (trừ các PBAS và DPEigenback-groundBGS) đạt được những kết quả tốt với các tham số mặc định. PBAS chỉ đạt được kết quả tốt sau khi điều chỉnh tham số. LBAdaptiveSOM và MultiLayerBGS cho thấy kết quả tốt, vì có thể tìm thấy một sự thỏa hiệp tốt giữa tăng TP và giảm FP. Khi có bóng xuất hiện: Sự xuất hiện của bóng cứng và mềm cũng là một trong những tình huống khó khăn đối với nhiều thuật toán BS. Sử dụng một video mà một người đi trong một môi trường tối và ánh sáng tạo ra một cái bóng lớn. Số lượng FP đã giảm sau khi điều chỉnh tham số số lượng TP đã giảm nhẹ. Các thuật toán MultiLayerBGS cho thấy kết quả tốt, như trong các trường hợp phức tạp trước đây đã đánh giá. Điều quan trọng là phải lưu ý rằng thuật toán MultiLayerBGS có một tham số gọi là SW (Shadow Rate) đặc tả cho sự xuất hiện của bóng. Multi-LayerBGS đã loại bỏ thành công bóng trong thí nghiệm này. Các phương pháp khác đã đạt được kết quả thấp hơn. Đối với tất cả các phương pháp thử 72 nghiệm không thành công để loại bỏ bóng hoàn toàn mà không làm tổn hại đến sự phát hiện TP. Nền có cây đung đưa và nền động: Hình nền động và cây di chuyển vẫn còn là một thách thức mở tại BS. Sử dụng một video mà cây đung đưa tạo ra một nền động. Số lượng FP đã giảm sau khi điều chỉnh tham số nhưng số lượng TP đã thay đổi một chút cho một số phương pháp. PBAS, DPWrenGABGS, LBAdaptiveSOM và các thuật toán T2FGMM_UM đã cho thấy kết quả tốt vì có sự thỏa hiệp tốt giữa sự gia tăng TP và FP. Các phương pháp khác đạt được chỉ là một sự cải thiện về chất lượng vừa phải. Từ kết quả Bảng 2.1 và Bảng 2.2 thấy rằng đối với video giám sát giao thông, môi trường ngoài trời, khi mà có nhiều sự thay đổi đột ngột của ánh sáng, có sự tác động của bóng hình khi trời nắng, có nền động do sự tác động của gió lên cây cối, khi đối tượng đang đi thì dừng lại đột ngột,... thì việc áp dụng các thuật toán hỗn hợp Gauss là phù hợp nhất. 2.2. Mô hình và thuật toán đề nghị 2.2.1. Mô hình GMM đề nghị Phương pháp tiếp cận trên mô hình điểm ảnh bằng việc xem xét giá trị điểm ảnh quan sát với vài mô hình Gauss đơn. Trong điều kiện ngoài trời, ánh sáng thay đổi bất kỳ, cần phải cập nhật tham số của mô hình cho mỗi giá trị điểm ảnh mới thu được để phù hợp hơn với sự thay đổi ánh sáng. Các bước sửa đổi của tham số của nó như sau: Bước 1. Với mỗi điểm ảnh mới, sẽ phát hiện sự phù hợp của nó với mô hình đầu tiên. Gọi là biến giá trị phù hợp, ta có: { i=1,2,...,K (2.30) | |
| | 73 với là hằng số theo thực nghiệm thu được. Khi đó trích chọn các mẫu từ tất cả số lượng trong phân bố thường và khoảng 95% các mẫu là rơi vào khoảng (- 2, +2), do vậy, thường đặt trong khoảng 2 đến 3. Bước 2. Vì 2 tình huống khác nhau nhận từ bước đầu tiên, có thể phù hợp các phương pháp thay đổi khác nhau: Nếu Gauss chắc chắn (số thứ tự k) của sưu tập đa chế độ được phù hợp với điểm Xt, cần cập nhật giá trị trọng số Gauss: (2.31) k,t = (1-α)k,t-1 + α(1-α)k,t-2 với α là hằng số tốc độ cập nhật nền – giá trị trọng số cập nhật trong khoảng [0,1], được đặt theo kinh nghiệm và điều kiện cụ thể, để giảm nhiễu nền, thường đặt giá trị α nhỏ, ví dụ α=0.05. Từ phương trình (2.26) mô hình được xác định có thể luôn luôn thực sự mô phỏng các tình huống phân chia giá trị nền điểm ảnh trong thời điểm mới nhất. Theo định nghĩa của mô hình, các giá trị trọng số đại diện cho xác suất xuất hiện của các giá trị điểm ảnh gần nhất. Sau đó, khi giá trị điểm ảnh mới thu được là phù hợp với một số hoặc một số mô hình đơn trong phân phối này, nó có nghĩa là mô hình đơn đáp ứng tương đối phân phối các giá trị điểm ảnh của hiện tại và do đó cần phải tăng giá trị trọng số của nó đúng cách. α tốc độ cập nhật các giá trị trọng số của số lượng các giá trị trọng số của biến đổi và α lớn nhận ra sự thay đổi nhanh chóng. Khi mô hình đơn là phù hợp với một giá trị điểm ảnh mới thu được, cần phải sửa đổi tham số mô hình µk,t và ρk,t. Vì khi giá trị điểm ảnh mới thu được kết hợp với chế độ đơn, theo phân bố xác suất, nó phải ảnh hưởng đến sự phân bố xác suất ước tính ban đầu. Phương trình thay đổi theo công thức sau: (2.32) i+1(x,y)2 = (1-α) i-1(x,y)2 + αi(x,y)2 (2.33) µi+1(x,y) = (1- α)µi(x,y) + αIi+1(x,y) với Ii+1(x,y) là mức xám của khung hình video mới nhất thu được tại điểm (x,y), trong đó µi(x,y) là giá trị trung bình của Gauss mô hình đơn phù hợp. 74 Nếu giá trị điểm ảnh mới Xt là không phù hợp với một số phân phối Gauss, có thể cho rằng các giá trị điểm ảnh mới không thực hiện bất kỳ đóng góp để phân phối các mô hình đơn và sau đó không cần phải thay đổi thông số phân phối Gauss và chỉ thay đổi giá trị trọng của nó theo công thức sau: (2.34) k,t = (1-α) k,t-1 Điều này cho thấy giá trị trọng số phân phối Gauss phù hợp với Xt có thể được tăng lên, và các giá trị phân phối khác đều giảm. Khi không có bất kỳ một phân phối Gauss trong bộ sưu tập phù hợp với các giá trị điểm ảnh mới Xt, có nghĩa là phân phối mới được tạo ra và phân phối phải ở trong các bộ sưu tập đa chế độ. Vì vậy, cần thêm một mô hình mới đơn và trong thời gian trung bình loại bỏ phân phối Gauss từ bộ sưu tập mô hình ban đầu. Phương pháp cụ thể là để loại bỏ sự phân bố Gauss với trọng lượng tối thiểu trong bộ sưu tập đa hiện tại và giới thiệu một phân phối Gauss mới trong bộ sưu tập đa theo Xt và cũng thiết lập một giá trị trọng số tương đối nhỏ và phương sai tương đối lớn. Trong phân phối Gauss vừa được giới thiệu theo Xt, giá trị trọng số của nó là trọng số tối thiểu trong bộ sưu tập đa hiện tại và giá trị trung bình là giá trị điểm ảnh mới và phương sai là một hằng số tương đối lớn. Bước 3. Sau khi sửa đổi ở trên, cần phải xử lý các giá trị trọng số của mỗi mô hình đơn trong các mô hình với phương pháp bình thường. Đối với việc cập nhật các giá trị ở trên, khi một mô hình là phù hợp với một điểm ảnh mới, bởi vì (2.35) ∑ (2.36) với ∑ ( ) ∑ Vì vậy, không cần phải thực hiện các xử lý chuẩn hóa. Nếu mô hình mới được tạo ra, tiến hành xử lý các giá trị trọng số của mỗi mô hình ban đầu: ∑ (2.37) 75 Đánh giá liệu mỗi giá trị điểm ảnh mới là các điểm ảnh đối tượng hoặc nền điểm ảnh hoặc không. Mô hình để thể hiện nền điểm ảnh trong một mô hình hỗn hợp nên có các tính năng: giá trị trọng số tương đối lớn và thay đổi tương đối nhỏ. Xem xét hai khía cạnh của các yếu tố. Rất khó để đánh giá một tham số nào quan trọng hơn tham số khác để từ đó đánh giá liệu mô hình đơn là mô hình nền hay không. Chỉ cần phải xem xét hai thông số kích thước tương đối trong bộ sưu tập mô hình để có được các giải pháp của các mô hình thuộc nền. Kích thước của giá trị tương đối / như mức độ ưu tiên của từng phân bố Gauss. Phương pháp để có được những mô hình điểm ảnh nền được thể hiện: (1) Tính / mức độ ưu tiên của từng mô hình Gauss. (2) Sắp xếp thứ tự từng phân phối Gauss từ cao đến thấp lần lượt theo kích thước của mức độ ưu tiên /. (3) Chọn phân bố Gauss B đầu tiên từ tập K (số các phân bố) làm mô hình nền và xác định theo công thức (2.41): {∑ ∑ } Ở đây, T được coi là biện pháp giảm thiểu các ước tính nền. Mô hình nền được xây dựng theo các bản phân phối B Gauss đầu tiên phù hợp với Xt với mỗi bản phân phối Gauss B riêng theo thứ tự mức độ ưu tiên. Nếu không có bất kỳ phân phối Gauss đó thể hiện sự phân bố nền là phù hợp với Xt, thời điểm này được đánh giá như là tiền cảnh, nếu không là nền, và sau đó hoàn thành việc phát hiện đối tượng theo mô hình đa Gauss thích nghi. Vì GMM giả thiết rằng mỗi điểm ảnh là độc lập riêng biệt, khi sự thay đổi chiếu sáng ngoài trời gây ra sự thay đổi cảnh, nó hoàn toàn có thể mang lại đối tượng giả trong khu vực rộng dẫn đến đánh giá sai. Thông qua việc quan sát sự biến đổi chiếu sáng trong ứng dụng video thực sự, phân chia sự thay đổi ánh sáng thành hai loại: đột ngột và dần dần. Bằng cách phân tích trên hai biến thể, 76 sự chiếu sáng thay đổi yếu tố t để loại bỏ ảnh hưởng của sự biến đổi ánh sáng về phát hiện đối tượng di chuyển: √ (2.38) √ (2.39) Et thể hiện thông tin Entropy khung hiện tại và ER, EG, EB đại diện cho thông tin Entropy khung hiện tại của mỗi thành phần riêng biệt. Màu sắc của hình ảnh được kết nối chặt chẽ với các đối tượng của chúng và phân phối khác nhau giá trị điểm ảnh chiếu sáng có thể phản ánh mức độ biến đổi ánh sáng của môi trường. Thông qua các biểu đồ màu sắc để trích xuất tính năng màu. Khi hai hình ảnh phát hiện mẫu giá trị đặc trưng không giống nhau nhưng sự khác biệt của hai giá trị nhỏ hơn giá trị ngưỡng nhất định, điều này cho thấy sự tương đồng của chúng tương đối cao và hai hình ảnh phân phối thống kê giống nhau. Theo nguyên tắc này, đề xuất phương pháp phát hiện sự thay đổi ánh sáng đó là thuật toán phù hợp với lược đồ xám để phân biệt sự thay đổi dần dần hay thay đổi đột ngột của ánh sáng. Công thức được thể hiện như sau: (2.40) ( ) ∑ ( ( ) ( )) ∑ với Hi biểu diễn lược đồ xám của ảnh trong thời gian t: ∑ ( ( ) ( ))
( ( )) (2.41) ( ) Gọi i là biến thể hiện sự thay đổi của ánh sáng (i=0 ánh sáng thay đổi dần dần, i=1 ánh sáng thay đổi đột ngột). Sử dụng D(t, t-1) để phân biệt sự thay đổi ánh sáng: (2.42) { ( )
( ) với Ti là giá trị ngưỡng phù hợp tương tự. Cập nhật tỷ lệ học thích nghi α theo: 77 (2.43) { Công thức lặp trọng số mô hình là: (2.44) i,t+1 = (1-α)i,t + αMt – αCT với cT là một hằng số phản ánh kích thước của các tham số mô hình. Để thích nghi chọn số lượng phương thức thích hợp là đối tượng của thiết kế mô hình, không chỉ có thể cải thiện sự ổn định của mô hình, mà còn tiết kiệm thời gian tính toán hiệu quả và cung cấp giúp đỡ rất nhiều cho việc phát hiện hiệu suất thời gian thực của hệ thống. Kết hợp các biến thể chiếu sáng yếu tố t để điều chỉnh tỷ lệ học α trong thời gian thực và khi đó cập nhật tỷ lệ học . 2.2.2. Thuật toán trích chọn khối chuyển động (EMB) Đầu vào: It, t=1..NF: Các khung hình trích từ video, k: số Gauss α: Chọn giá trị ban đầu là 0.005 Đầu ra: FGt(u,v) // Ảnh nhị phân chứa đối tượng chuyển động Các bước thực hiện: Bước 1. Tính giá trị nền 1. Khởi tạo các biến α=0.005 2. For each It 3. Tính Entropy √ √ 4. Tính hệ số chiếu sáng 5. Tính hệ số phản ứng ánh sáng ( ) ∑ ∑ ( ( ) ( )) ( ( )) if (D(t,t-1)T) then =1 else =0 78 if (=1) then α=2α else α=α+ if (α>1) then α=1 7. Tính toán các tham số của gauss for i = 1 to k { 8. Tính độ lệch chuẩn σ2 cho mỗi kênh màu i+1(u,v)2 = (1-α) i-1(u,v)2 + αi(u,v)2 9. Cập nhật hệ số lặp mô hình i,t+1 = (1-α)i,t + αMt – αCT } 10. Sắp xếp mức độ ưu tiên min (/) min_var() 11. Cập nhật giá trị nền } {∑ ∑ Bước 2. Tách nền và tiền cảnh 12. For each pixel (u,v) in ROI template if | I(u,v) – B| > TROI FGt(u,v) = 1 (Tiền cảnh) else FGt(u,v) = 0 //Nền 13. Return FGt(u,v) 6. Cập nhật hệ số học Độ phức tạp thuật toán: Giả sử tại thời điểm t xem xét chuỗi gồm số lượng NF khung hình được trích chọn từ thời điểm trước tới thời điểm t. Số bước thực hiện duyệt qua toàn bộ các khung hình là NF (For i=1 to NF). Giả sử mỗi bức ảnh của khung hình phân tích có kích thước là (n m), số điểm ảnh cần duyệt qua mỗi khung hình là n m ( For j=1 to nm). Số phép toán ước tính là: NF n m. Độ phức tạp ước tính của thuật toán EMB là O(NF n m), với NF là số khung hình, n và m là kích thước ảnh của mỗi khung hình. 2.3. Phương pháp đếm phương tiện giao thông áp dụng mô hình GMM thích nghi thay đổi ánh sáng kết hợp luồng quang học 79 Trong tài liệu [3], nhóm Trần Thanh Việt dựa trên luồng quang học để bám đối tượng chuyển động. Tuy nhiên, đối với vấn đề đếm xe trên đường cao tốc, để đối phó với sự thay đổi ánh sáng môi trường ngoài trời có thể vận dụng kết hợp mô hình GMM thích nghi với ánh sáng và luồng quang học để thiết kế hệ thống. Một số kết quả thực nghiệm cho thấy phương pháp này cho kết quả khá tốt trong môi trường thực và mức độ dính nhau trong khung hình của các phương tiện là ít (thưa), mức độ chính xác giảm dần khi mức độ dính nhau tăng. 2.3.1. Sơ đồ khối tổng quát Mục đích đếm số lượng đối tượng chuyển động, sử dụng phương pháp phát hiện đối tượng chuyển động dựa trên mô hình GMM thích nghi sự thay đổi ánh sáng và kết hợp luồng quang học. Sơ đồ hệ thống của phương pháp chúng tôi đề nghị bao gồm 6 bước cơ bản. Bắt đầu từ xác định vùng quan tâm trên đường, thu nhận video từ camera,... kết quả cho ra số lượng đối tượng đang chuyển động trong vùng quan tâm. Sơ đồ khối của phương pháp xử lý được thể hiện trong Hình 2.1. (1) Xác định ROI: vùng quan tâm chịu ảnh hưởng của phương pháp đặt camera để thu nhận dữ liệu video. Có nhiều cách để đặt camera, như đặt bên hông đường, đặt trực diện ở trên tầm cao, đặt trực diện ở tầm thấp,... Ở đây xác định đặt camera trên độ cao phù hợp, ngang tầm với các cầu vượt đường cao tốc (tương tụ như các camera giao thông đang sử dụng hiện nay) để theo dõi trực diện phương tiện chuyển động. Vùng quan tâm được xác định là cặp vạch ảo thiết lập trên làn đường theo chiều ngang. Khung hình được thu nhận liên tiếp từ vạch thứ nhất (ở xa) và được theo dõi, phân tích cho đến khi ra khỏi vạch thứ hai (ở gần). (2) Căn cứ vào cấu trúc và cấu hình của camera mà xác định số lượng khung hình trích chọn cho phù hợp. Theo cấu trúc dữ liệu Video hiện sử dụng thường có tốc độ 25frames/giây. Dùng thuật toán nắm bắt khung hình kết hợp với bộ đồng hồ trong ngôn ngữ lập trình có thể thu nhận dữ liệu các khung hình thành file ảnh màu tương ứng. Bắt đầu 1. Xác định ROI 2. Trích chọn khung hình trong ROI 3. Trích chọn đối tượng chuyển động (mặt nạ) và tiền xử lý 4. Xác định khối và gán nhãn cho khối đối tượng 5. Xác định và trích chọn luồng quang học trên từng khối 6. Thực hiện đếm số lượng xe Kết thúc 80 (CCA-GMMOF - Car Counting Alogorithm using GMM and Optical Flow) (3) Trích chọn đối tượng chuyển động và tiền xử lý. Căn cứ vào dãy các khung hình thu được, sử dụng BSM, áp dụng mô hình GMM thích nghi ánh sáng để phát hiện mặt nạ đối tượng chuyển động. Ảnh nhị phân được làm sạch bằng phương pháp loại bỏ nhiễu. Nhiễu được xác định là các khối có kích thước nhỏ theo quy ước của một ngưỡng đối tượng tương ứng xác định trước. Áp dụng phương pháp loại bỏ nhiễu, những đối tượng không phải là phương tiện chuyển động, kích thước bé,... ra khỏi mặt nạ phương tiện chuyển động, tiếp tục nhị phân hóa ảnh mặt nạ phương tiện. Nội dung chi tiết được trình bày trong thuật toán EMB (Extract Moving Block). (4) Mặt nạ đối tượng chuyển động chứa các khối chuyển động riêng biệt trong ảnh nhị phân. Cần phải gán nhãn cho các khối này, hoặc chỉ mục hóa các khối này để chuyển sang giai đoạn sau là phân tích hình dạng và đường viền. Thuật toán phân đoạn khối và gán nhãn cho khối được trình bày trong thuật toán SLBBI (Segmentation and Labling to Block for Binary Image). 81 (5) Xác định và trích chọn luồng quang học trên từng khối: Luồng quang học là đường đi của một điểm ảnh giữa các khung hình được trích ra từ một video. Gọi p(x0,y0,t0) là điểm ảnh thuộc khung hình I(t0) tại thời điểm t0, điểm p(xn,yn,tn) là điểm ảnh đó tại khung hình I(tn), với n>=1. Luồng quang học được xác định khi: p(xn,yn,tn) = p(x0,y0,t0) +d; với d là khoảng cách điểm ảnh giữa thời điểm t0 và tn; vấn đề đặt ra với luồng quang học là xác định được độ dài d. Nếu độ dài d=0 thì coi như không có luồng quang học, và đối tượng không chuyển động. Thuật toán trích chọn luồng quang học được trình bày trong thuật toán EBOF(Extract Blob from Optical Flow). (6) Thực hiện đếm xe: Thực hiện chọn 1 điểm trên mỗi block khi xuất hiện ở vạch xuất phát ở xa hướng quan sát, nếu điểm này sau một khoảng các khung hình chạm tới vạch đích (gần hướng quan sát) thì xác định đây là một khối đối tượng chuyển động. Đầu vào: Video Đầu ra: Số lượng xe ô tô Các bước thực hiện: 1. Xác định ROI và khởi tạo ROI (x1,y1,x1,y2;x2,y1,x2,y2) Khởi tạo count = 0; 2. Trích chọn khung hình trong ROI frames read_frame(videoSource); grayFrame convert_to_gray(frame); roiFrame region_interest(grayFrame) ; 3. Trích chọn mặt nạ đối tượng chuyển động và tiền xử lý binaryImage EMB(roiFrame); filterBinaryImage morphology(binaryImage); 4. Phát hiện khối và gán nhãn cho khối Block[i] SLBBI(filterBinaryImage) 5. Phát hiện và theo dõi luồng quang for each(c in blocks) If (c satisfy as vehicle) Generate tracking point Pi in object c 82 6. Thực hiện đếm xe For each(tracking point Pi) If (Pi + n) reach counting line Count++; else delete Pi; 7. Return Count; Pi +1 = optical_follow(Pi) 2.3.2. Thuật toán phát hiện và gán nhãn cho khối (SLBBI) Mô tả thuật toán: Giả sử có ảnh nhị phân như hình dưới (màu đen là nền, màu trắng là đối tượng). Duyệt qua lần lượt các điểm ảnh theo từng hàng. Từ trái qua phải, từ trên xuống dưới. Có các trường hợp xảy ra như là: điểm ảnh là nền, điểm ảnh là đối tượng. Khi điểm ảnh là đối tượng, xét các điểm ảnh lân cận. Căn cứ vào các điểm ảnh lân cận mà quyết định gán nhãn cho điểm ảnh là nhãn đã gán hoặc mở nhãn mới. Sơ đồ khối tổng quát của phương pháp thể hiện trong Hình 2.2. Ý tưởng của phương pháp: (a) (b) (c) (d) (e) (f) 83 (g) (h) (k) (i) Trong đó:
(a) Bắt đầu duyệt ảnh từ trái qua phải, từ trên xuống dưới
(b) Xác nhận một vùng mới có các lân cận chưa gán nhãn
(c) Thiết lập điểm ảnh hiện tại và tăng nhãn lên 1
(d) Kiểm tra các lân cận tiếp theo
(e) Gán nhãn cho lân cận bên cạnh
(f) Dịch chuyển đến vùng mới bên phải
(k) Kết quả gán nhãn Thuật toán SLBBI tương tự như thuật toán gán nhãn vùng trong ảnh, đã có nghiều công trình nghiên cứu cài đặt thử nghiệm. Trong nghiên cứu của luận án không trình bày lại thuật toán này mà chỉ sử dụng kết quả của các nghiên cứu có trước. 2.3.3. Thuật toán trích chọn luồng quang học (EBOF) Mô tả thuật toán: Xây dựng hàm biểu diễn ảnh theo hình kim tự tháp, trong công trình [14], [18] đã xây dựng cách biểu diễn ảnh ở các mức khác nhau, theo hình kim tự tháp. Áp dụng cách biểu diễn này để xây dựng thuật toán Lucas-Kanade, xác định mối liên quan giữa 2 điểm ảnh trên 2 khung hình khác nhau. ; Cho ảnh I(nx,ny);
Đặt I0=I là ảnh mức 0, với Biểu diễn truy hồi ảnh mức 1 qua ảnh mức 0, mức 2 qua mức 1,... 84 ( ) ( ) (2.45) ( ( ) ( )
( ) ( ))
( ( ) ( )
( ) ( )) [ Để đơn giản trong các ký hiệu, chúng ta có thể viết như sau: ) ( )
) ) ( ) ( ) ( )
( ) ( )
( ) ( ) (2.46) ) ( (
( ( [ trong đó: , (2.47) (2.48) , Phương pháp luồng quang học, Trần Thanh Việt và cộng sự, năm 2011 [3] thực hiện bằng cách sử dụng các vector có hướng của các đối tượng chuyển động theo thời gian để phát hiện các vùng chuyển động trong một ảnh. Trong [3], đã trình bày nghiên cứu kỹ thuật luồng quang học để ứng dụng thử nghiệm theo vết đối tượng trong camera và dựa trên các hành vi của đối tượng để điều khiển thiết bị máy tính như chuột, lướt web, ra các sự kiện bấm chuột, bấm đúp chuột, phóng to, thu nhỏ. Ý tưởng quan trọng của phương pháp tính luồng quang học dựa trên giả định: Bề ngoài của đối tượng không có nhiều thay đổi (về cường độ sáng) khi xét từ khung hình thứ n sang khung hình n+1. Nghĩa là: (2.49) ( ̅ ) ( ̅ ̅ ) 85 Trong đó là hàm trả về cường độ sáng của điểm ảnh tại thời điểm t (khung hình thứ t) là tọa độ của điểm ảnh trên bề mặt (2D), là vector vận tốc, thể hiện sự thay đổi vị trí của điểm ảnh từ khung hình thứ t sang khung hình t+1). Gọi xt = {xm,t; m =1,…,M} là tập các đối tượng tại thời điểm t. Trong đó, M là tập biểu diễn kết quả phát hiện đối tượng của hệ tại thời điểm t là số đối tượng có trong hệ thống, M có thể thay đổi theo thời gian. Gọi tương ứng. Ta có: } { (2.50) || } với ngưỡng cho D là số đối tượng phát hiện được. { || Gọi trước là tập các kết quả phát hiện “cũ”, được hiểu theo nghĩa, nếu một phát hiện trong thời điểm t quá gần với một trạng thái đã có tại thời điểm t-1 thì nó sẽ được xem là trùng với đối tượng đó. Một cách gần đúng, giả định những phát hiện này xuất phát từ đối tượng đã có từ thời điểm t-1 trước đó. là tập những phát hiện “mới”, Tương tự, ta định nghĩa được hiểu là giữa tập các điểm mới và tập các điểm cũ cách nhau một khoảng d. Trích chọn luồng quang học tức là theo dõi cùng một điểm ảnh giữa các khung hình, xem nó có chuyển động hay không. Luồng quang học rất cần thiết cho việc xác định đối tượng chuyển động trong vùng quan sát. Giả sử điểm ảnh tại thời điểm bắt đầu vùng quan sát, sau 1 thời gian t, tiếp cận đến điểm kết thúc của vùng quan sát, điều này có thể kết luận có 1 đối tượng chuyển động. Nội dung thuật toán: Đầu vào: Video (online or offline) Đầu ra: Đặc trưng của véc tơ luồng quang học v Các bước thực hiện: 1) For each foreground frame at time t 2) If mod(t,Tof)=0 then 2.1. f1 BF 2.2. Top(BF) f2 2.3. Lucas-Kanade(f1,f2) 2.4. Feature V 86 1) Image Description ImageLevelFunction(I) ImageLevelFunction(J) ] [ ] Init [ 2) for L=Lm downto 0 with step=-1 2.1. [ ] 2.2. ( ) ( ) ( ) 2.3. ( ) ( ) ( ) ∑ 2.4. ∑ ] ( )
[
( ) ( ) ( ) ( )
( ) 2.5. [ ]
2.6. for k=1 to K with step=1 { 3) 4) v = u + d 5) Return v } Độ phức tạp tính toán trích chọn luồng quang học: O(n2).
Kết quả thực nghiệm. Theo kết quả trong nghiên cứu công bố trong công trình công bố số 3, mức độ hợp khối (dính nhau) của các phương tiện giao thông là số phương tiện trong vùng quan tâm hoàn toàn độc lập, có dính nhau đôi một, có dính nhau nhiều. Khi không có sự dính khối, luồng quang học được xác định rõ ràng hơn, nên kết quả nhận dạng và đếm dễ dàng. Mật độ được gọi là thưa nếu số lượng tại thời 87 điểm xét trong vùng quan tâm chỉ có duy nhất một phương tiện; mật độ được gọi là tương đối thưa, tại thời điểm xét, số phương tiện nhiều hơn 1, nhưng không có sự chồng lấp, che khuất nhau; và mật độ được gọi là dày đặc, nếu số lượng phương tiện lớn hơn 1, nhưng có sự chồng lấp lên nhau và che khuất nhau. Hệ thống thực nghiệm áp dụng GMM thích nghi sự biến đổi ánh sáng kết hợp luồng quang học đếm số lượng xe trong vùng quang tâm. Hệ thống được cài đặt trên môi trường Microsoft Vision Studio 12 và thư viện mã nguồn mở EMGU. Dữ liệu đầu vào được thu thập thực tế tại 5 cung đường: Cao tốc Bắc Thăng Long - Nội bài; Đại lộ Thăng Long; Quốc lộ 1 khu vực cầu Bồ Sơn - Bắc Ninh; Quốc lộ 5 đoạn đi qua cầu vượt Như Quỳnh. Mỗi cung đường bao gồm 7 đoạn video thu thập dưới các điều kiện thời tiết khác nhau. Các ảnh liên tiếp sử dụng trong thực nghiệm được ghi lại bởi một camera màu đặt ở chính giữa làn đường phía trên một cầu vượt. Hướng của camera song song với hướng chuyển động của đối tượng. Nắng Mây 1 phút/
1500frame 1 phút/
1500frame Số lượng video/khung hình thu thập
Buổi
trưa
1 phút/
1500frame Ngày
mưa
1 phút/
1500frame Lúc mặt
trời lặn
1 phút/
1500frame Sương
mù
1 phút/
1500frame Mưa ban
đêm
1 phút/
1500frame 1.5 phút/
2250frame 1.5 phút/
2250frame 1.5
2250frame 1.5 phút/
2250frame 1.5 phút/
2250frame 1.5 phút/
2250frame 1.5 phút/
2250frame Cung
đường
Bắc
Thăng
Long
Đại lộ
Thăng
Long
Quốc lộ 1 1 phút/
1500frame
Quốc lộ 5 1.1 phút/
1650frame 1 phút/
1500frame
1.1 phút/
1650frame 1 phút/
1500frame
1.1 phút/
1650frame 1 phút/
1500frame
1.1 phút/
1650frame 1 phút/
1500frame
1.1 phút/
1650frame 1 phút/
1500frame
1.1 phút/
1650frame 1 phút/
1500frame
1.1 phút/
1650frame Thực nghiệm so sánh trên 112 đoạn video tại 4 cung đường khác nhau. Thử nghiệm trên máy tính tốc độ xử lý 2.5GHz. Trước hết so sánh mục tiêu ảnh hưởng của mức độ dày đặc của luồng phương tiện (số lượng xe di chuyển trong 1 phút), chất lượng video ảnh hưởng đến mức độ chính xác, tiếp theo sau đó thực hiện thử nghiệm thời gian xử lý của thuật toán. 88 a) Đối tượng chuyển động trên quốc lộ 5, hướng từ Hải phòng về Hà Nội. - Ký hiệu: V1[i,j,k] - Buổi sáng, trưa, chiều, tối ứng với i=0,1,2,3 - Trời nắng, trời mưa, ứng với j=0,1 - Số thứ tự video ứng với k=0,1,...,9 b) Đối tượng chuyển động trên đường liên tỉnh, hướng Lương Tài về Quốc lộ 5 - Ký hiệu: V2[i,j,k] - Buổi sáng, trưa, chiều, tối ứng với i=0,1,2,3 - Trời nắng, trời mưa, ứng với j=0,1 - Số thứ tự video ứng với k=0,1,...,9 c) Đối tượng di chuyển chiều Hà Nội đi Lạng Sơn - Ký hiệu: V3[i,j,k] - Buổi sáng, trưa, chiều, tối ứng với i=0,1,2,3 - Trời nắng, trời mưa, ứng với j=0,1 89 - Số thứ tự video ứng với k=0,1,...,9 Hình 2.4 minh họa dữ liệu video đầu vào ở các mức độ mật độ giao thông khác nhau tại một số cung đường cao tốc ở phụ cận Hà Nội. b) Xe trên sân bay nội bài
Time: 1m06s;
Size: 704x480;
Frame rate: 7frame/s.
Mức độ khối: có dính đôi c) Xe trên cầu Thanh Trì
Time: 1m14s;
Size: 640x480;
Frame rate: 15 frame/s;
Mức độ khối: dính nhiều a) Xe trên đường đại lộ Thăng
Long. Time: 1m14s;
Size: 640x480;
Frame rate: 15 frame/s;
Mức độ khối: đơn xe Hình 2.5, minh họa một số giao diện của hệ thống thực nghiệm. Hình bên trái thể hiện vùng quan sát. Hình bên phải trên thể hiện các đốm sáng phát hiện đối tượng chuyển động và đánh dấu luồng quang học. Hình bên phải dưới là mặt nạ nhị phân sau khi thực hiện hiện phép trừ nền. Sau khi tiến hành thử nghiệm và so sánh với các kỹ thuật trừ ảnh và trừ nền về mức độ lỗi trung bình, độ nhiễu và tỷ lệ chính xác khi gặp phải nguồn ảnh hoặc nguồn video chất lượng thấp, hoặc mức độ dày đặc của dòng phương tiện thì phương pháp lồng quang học kết hợp tái chọn mẫu đạt được độ ổn định qua bảng đánh giá sau: 90 Cung đường Số khung
hình theo
dõi Số
lượng
thực Số lượng
đếm bằng
phần mềm Độ
chính
xác Mức độ dính
khối Cầu Như Quỳnh 1450 Tách rời nhau 35 35 100% Đại lộ Thăng Long 1110 115 120 95.83% Dính nhau từng
đôi Sân bay nội bài 462 Dính nhau ba 70 80 87.50% Cầu Thanh Trì 1450 170 185 87.17% Dính nhau
nhiều Tại Bảng 2.4, thấy rằng hệ thống phản ứng với mật độ rất rõ nét; khi các xe không chồng lấp lên nhau độ chính xác lên tới 100%; ở mật độ dày tăng lên, các xe có sự chồng lấp hoặc bóng hình làm chồng chấp, thuật toán tách khối chưa được áp dụng, dẫn đến sai số. Số lượng xe đếm được của hệ thống có xu hướng cao hơn số lượng thực, lý do có thể do ngưỡng đặt phân khối ô tô còn bé, hệ thống có thể đếm nhầm sang xe máy. Các vấn đề này có thể khắc phục khi hệ thống được phát triển kết hợp bài toán phân loại và theo dõi các loại đối tượng độc lập (đếm cả đếm xe máy và các phương tiện khác). Phương pháp Tốc độ xử lý ứng với mật độ phương tiện (ms) Thưa Trung bình Dày đặc GMM truyền thống 17.86 17.67 17.06 Phương pháp đề xuất 6.28 9.56 16.09 Từ Bảng 2.5, có thể thấy rằng, trong cảnh với mật độ thưa và trung bình, thời gian xử lý trung bình của phương pháp đề nghị được cải thiện đáng kể; Trong khi mật độ dày đặc, thời gian xử lý trung bình trong kỹ thuật đề nghị đã được cải thiện ít hơn. Lý do chính do sự thay đổi tỷ lệ học α phù hợp với sự thay đổi ánh sáng, nên số bước lặp sẽ giảm xuống, tốc độ phát hiện nền nhanh hơn. 91 Nhận xét về phương pháp: - Lựa chọn mô hình hỗn hợp Gauss, cải tiến việc lựa chọn tham số học để thích nghi với sự thay đổi ánh sáng. - Kết hợp với lưu lượng dòng quang học để phát hiện xe và đếm xe. - Vấn đề chính là lựa chọn ngưỡng để theo dõi đối tượng (độ rộng, độ dài) của khung bao đối tượng. Nếu chọn mức bé thì ảnh hưởng đến tốc độ tính toán, nếu chọn lớn thì ảnh hưởng đến độ chính xác. Với ngưỡng lớn thì những đốm sáng (lưu lượng quang học) của hai phương tiện gần nhau có thể hợp thành một, tạo ra sự phát hiện sai. - Một vấn đề đặt ra, thực hiện theo giải pháp này thì chưa có tính phân loại đối tượng. Giải pháp này mới dừng lại ở việc trả lời cho câu hỏi: có bao nhiêu đối tượng đang chuyển động trong khung hình quan tâm. 2.4. Kết luận chương 2. Chương 2 đã trình bày và đề xuất trích chọn đặc trưng đối tượng chuyển động theo BSM; phân tích đặc điểm từng phương pháp, rút ra để giảm bớt sự ảnh hưởng của ánh sáng trong môi trường ngoài trời của video giao thông cần sử dụng mô hình GMM cải tiến; trình bày phương pháp mô hình nền GMM và cải tiến mô hình nền GMM thích nghi với sự thay đổi ánh sáng. Bao gồm: 1. Trình bày nội dung và đánh giá một số thuật toán phát hiện đối tượng chuyển động bằng phương pháp trừ nền. Bao gồm 5 thuật toán: Thuật toán trừ nền cơ bản; Thuật toán trừ nền trung bình; Thuật toán -; Thuật toán - cải tiến; Thuật toán thống kê khác biệt cơ bản. Cả 5 thuật toán đều có những mặt ưu điểm và hạn chế, tùy theo điều kiện cụ thể mà có thể áp dụng. Tuy nhiên đối với bài toán phát hiện phương tiện chuyển động trong video giao thông, với điều kiện ngoài trời thì cần có sự xem xét đến yếu tố tác động của thay đổi ánh sáng. 2. Đề xuất phương pháp mô hình nền GMM thích nghi với sự thay đổi ánh sáng. Sử dụng mô hình GMM thích nghi với tham số ánh sáng để trích chọn khối đối tượng chuyển động phù hợp với môi trường ngoài trời, trong bài toán xác 92 định mật độ phương tiện giao thông. Việc tính toán tham số α được thực hiện là một hàm thông qua phân tích chế độ ánh sáng , sẽ mang lại sự phản ứng của mô hình tốt hơn về thích nghi nhanh với ánh sáng thay đổi. Hệ số được tính thông qua công thức (2.33) và (2.34); Hệ số α được tính theo công thức (2.38); Trong đó i là hệ số thể hiện sự thay đổi ánh sáng (đột ngột i=1; dần dần i=0) ở công thức (2.37); Sự thay đổi dần dần, hay đột ngột được tính toán công thức (2.36). 3. Đề xuất phương pháp áp dụng thuật toán GMM thích nghi thay đổi ánh sáng kết hợp luồng quang học để đếm số lượng xe chuyển động trên đường cao tốc. Kết quả thực nghiệm cho thấy hệ thống phản ứng tốt với sự thay đổi ánh sáng, phù hợp với điều kiện thời tiết ngoài trời. Các kết quả được công bố tại công trình công bố số 3. 93 Chương 3. PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG TỪ VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DẠNG Chương này trình bày một số phương pháp phân loại phương tiện: Phân loại dựa trên hình dạng; Phân loại dựa trên độ dài dựa trên cơ sở lý thuyết mô- men bất biến; Phân tích và biểu diễn đường viền phương tiện trên trường số phức; Phương pháp nhận dạng phương tiện dựa trên biểu diễn đường viền trên trường số phức. 3.1. Phân đoạn khối phương tiện dựa trên kích thước Phân tích kích thước phương tiện Ảnh thu được từ phép trừ nền, trong đó các phương tiện có thể tạo thành một khối, gây ra việc đếm sai, cần phải theo dõi và phân tách chúng riêng ra. Một trong những cách giải quyết là theo dõi đối tượng chuyển động dựa trên độ (a) ô tô con (b) 2 ô tô dọc (d) 2 ô tô lệch phải dài. (e) 1 xe máy (f) 2 xe máy trước sau (g) 2 xe máy ngang nhau (c) 2 ô tô lệch phải Phương pháp phân đoạn và nhận dạng khối ô tô sử dụng chiều dài và chiều rộng để phát hiện và nhận dạng các loại ô tô khác nhau từ các đối tượng trong khối, hoặc đối tượng đơn lẻ. 94 Do chiều dài và rộng của xe thay đổi theo kiểu xe, nên phân loại sơ bộ bằng chiều dài và chiều rộng. Nếu chiều dài của một đối tượng chuyển động là khoảng 15-17m, chiều rộng vào khoảng 3-4m, thì đối tượng đó được phân loại là một ô tô to như xe bus hay xe tải. Nếu chiều dài của đối tượng giữa khoảng 4,5-7,5m, chiều rộng giữa khoảng 1,4-3,0m, đối tượng chuyển động đó được
xem như xe nhỏ, ví dụ như VAN, chuyên dùng, sedan, hay xe tải nhỏ1. Sau khi phân loại sơ bộ, phương pháp nhận dạng sẽ phân loại chính xác các xe nhỏ. Mệnh đề 3.1. Tỷ lệ chiều dài/rộng của xe Gọi U={ui, i=1..n} và V={vi, i=1..n} là tập chiều dài và tập chiều rộng của xe (ô tô, xe máy), tương ứng. K={ki=ui/vi, i=1..n} là tập tỷ lệ giữa chiều dài và chiều rộng của xe. Bộ số liệu Z=KV={zj, j=1..nn} có tính chất zizj, với ij, (i,j [1..nn]). Bằng thực nghiệm thống kê (Phụ lục 1) hoàn toàn có thể kiểm nghiệm được mệnh đề trên là đúng. Tỷ lệ chiều dài xe/rộng kết hợp với xem xét chiều rộng xe mang lại các bộ số liệu khác nhau, có thể phân loại được loại của phương tiện (O) là xe máy (XM), xe con (XC), xe tải (XT). Kết quả phân tích thống kê trong phụ lục 1. Gọi: d1=[1.44 1.55] ; d2 =[0.8 1.00] ; d3=[1.451.55] ; v1=[0.6750.740] ; v2=[1.4951.910] ; v3=[2.2402.500]. Ta có: ) ( ) ( ) ( ) (
( (3.1) ) ( ) { Hình 3.11a thể hiện hình ảnh một xe con, hình 3.11g thể hiện hình ảnh của một cặp xe máy dính khối. Trong một số trường hợp khi mà tỷ lệ cao/rộng và chiều rộng của khối có thể nhập nhằng giữa một khối là ô tô với một khối là tập hợp xe máy thì xác định thêm thông số diện tích của đường viền bao quanh khối. Mệnh đề 3.2. [Diện tích đối tượng ảnh] 1 Xem “Các dạng xe” ở phụ lục 2 95 Gọi A và B là ảnh của xe một ô tô và một khối xe máy có cùng kích thước hộp bao C(l, w) có chiều dài l và chiều rộng w, gọi DT(A) và DT(B) là diện tích của A và B trong ảnh, tương ứng, gọi CV(A) và CV(B) là chu vi đường bao của ( ) ( ) khối ô tô và khối xe máy tương ứng. Ta có: ( ) ( ) (3.2) Hình chiếu của khối ô tô lên không gian 2D gần với đa giác lồi hơn so với hình chiếu của khối xe máy, hay nói cách khác khối xe máy trong không gian 2D có hình chiếu gần với đa giác lõm hơn. Do vậy, khi hai khối xe ô tô và xe máy có cùng kích thước chiều dài, chiều rộng, thì tỷ lệ giữa diện tích và chu vi của khối ô tô sẽ lớn hơn tỷ lệ của khối xe máy tương ứng (Theo tính chất của đa giác lồi, đa giác lõm). Bắt đầu Khối phương tiện Tính toán tham số khối Được Đúng Tách khối Lớn hơn khối
đôi Sai Không
được 1 xe máy Sai 1 xe con Khối đôi Đúng 1 xe tải 3.1.2. Thuật toán phân loại theo kích thước 2 xe máy 2 xe con 2 xe tải Kết thúc Không phân loại 96 Input: Các khối chuyển động (kết quả thuật toán EMB) Output: Loại phương tiện (ô tô con, ô tô tải, xe máy) Nội dung thuật toán: 1. Trích chọn các khối chuyển động //Sử dụng thuật toán EMB => danh sách các khối Block[i] n=DemSoKhoi(FG) For i = 1 to n Block[i] = XacDinhKhoi(FG) 2. Đối với mỗi khối chuyển động Block[i], tính toán tham số khối For i = 1 to n { u= ChieuDai(Block[i]) v= ChieuRong(Block[i]) } 3. Phân giải khối - Tỷ lệ chiều dài/chiều rộng k=u/v - Nếu thuộc khối xe máy if (v v1){ if (k d1) XM if (|k - Max{d1}| ≤ ) 2XM if (|k =Max{d1}/2| ≤ ) 2XM } - Xử lý khi thuộc khối xe con if (v v2) { if (k d2) XM if (|k - Max{d2}| ≤ ) 2XC if (|k - Max{d2}/2| ≤ ) 2XC } - Xử lý khi thuộc khối xe tải if (v v3){ if (k d3) XT if (|k - Max{d3}| ≤ ) 2XT Thuật toán phân loại phương tiện dựa trên kích thước (CVIL) if (|k =Max{d3}/2| ≤ ) 2XT } - Nếu v không thuộc v1,v2,v3 thì: If (v If (v>v3) Phân tách khối 4. Phân tách khối If (Phantach(Block) = True) Quay lại bước 3 else Stop. 97 Độ phức tạp của thuật toán CVIL: - Độ phức tạp của thuật toán CVIL phụ thuộc chính vào thuật toán EMB, do đó ta có độ phức tạp của thuật toán CVIL là O(NF n m). - Sai số cho phép là giá trị sai khác về kích thước cho phép khi tính toán. Tham số này có thể được chọn qua phương pháp thực nghiệm. - Kỹ thuật phân tách khối liên quan nhiều đến kỹ thuật ghép biên, chia cắt biên, nối liền biên,... được xem như là một thách thức cho bài toán nghiên cứu tiếp tục. Một phương pháp tách khối ô tô được trình bày trong phần 3.3. - Trong một số trường hợp cụ thể có thể dùng phương pháp máy học để nhận dạng và phân loại trực tiếp những khối không rõ ràng này. Vấn đề này được trình bày trong mục 3.4. Kết quả thực nghiệm: Hệ thống thực nghiệm được cài đặt trên môi trường Microsoft Vision Studio 12 và thư viện mã nguồn mở EMGU. Sử dụng kết quả của thực nghiệm ở chương 2 để xác định các khối phương tiện (ô tô). Tham số chiều rộng, chiều dài trung bình một số loại xe của nhà sản xuất trong phụ lục 1. Dữ liệu đầu vào sử dụng bộ dữ liệu như đã sử dụng trong thực nghiệm ở chương 1, được thu thập thực tế tại 4 cung đường: Cao tốc Bắc Thăng Long - Nội bài; Đại lộ Thăng Long; Quốc lộ 1 khu vực cầu Bò Sơn - Bắc Ninh. Mỗi cung đường bao gồm 7 đoạn video thu thập dưới các điều kiện thời tiết khác nhau. 98 Thực hiện đếm Cung đường TT Trực tiếp bởi người Bằng hệ thống Xe tải
lớn Xe tải
nhỏ Xe
con Xe tải
lớn Xe tải
nhỏ Xe
con Tỷ lệ
chính
xác
TB
(%) Số
khung
hình
theo dõi
(Frame)
1500 2 3 10 2 5 12 81.11 2250 1 Bắc Thăng
Long
2 Đại lộ 2 5 14 2 6 16 90.27 Thăng Long 1500 4 5 11 4 6 13 89.31 1650 3 Quốc lộ 1
4 Quốc lộ 5 5 8 17 5 10 21 86.98 Bảng 3.1 cho thấy khi giao thông đông đúc (số lượng phương tiện tăng lên trong cùng một đơn vị thời gian) các ảnh chứa nhiều khối ô tô chồng lấp nhau liên tiếp, độ chính xác của hệ thống giảm. Thuật toán CVIL chỉ dựa trên hai tham số của xe đó là chiều dài và chiều rộng của các xe đơn, xe dính khối, chưa quan tâm đến vấn đề trọng tâm và vector khoảng cách từ tâm tới đường biên của khối. Một hạn chế nữa CVIL chưa xét đến phân loại xe máy và tập hợp xe máy, một loại phương tiện khá phổ biến ở Việt Nam hiện nay. Trong phần tiếp theo, trình bày thuật toán tương tự nhưng tham khảo thêm các tập huấn luyện tính thêm cả véc tơ khoảng cách để nhận diện thêm các phương tiện xe máy. 3.2. Phân loại phương tiện bằng kết hợp kích thước ảnh và hình chiếu hình dạng khối phương tiện Năm 2012, nhóm nghiên cứu Wei Zhan, Junkai Yang trong công trình nghiên cứu "Thiết kế hệ thống nhận dạng loại xe tự động, thời gian thực và ứng dụng của nó" [25] cũng đã sử dụng kết hợp hình dạng và khoảng cách nhưng các tác giả đã sử dụng kích thước ảnh và véc tơ hình dạng để phân loại và đếm xe. Trên thực tế có thể dùng kích thước tính xấp xỉ để phân loại. Cách tiếp cận được trình bày ở các mục dưới đây. 99 Ý tưởng phương pháp 3.2.1. Ảnh đối tượng chuyển động thu được từ BSM tồn tại các khối đối tượng phương tiện chuyển động. Dùng thuật toán loại bỏ nhiễu qua xác định kích thước khối để loại bỏ những khối nhỏ ra khỏi ảnh đối tượng. Dùng thuật toán gán nhãn hoàn toàn có thể tách và đánh số các khối đối tượng này. Với mỗi khối hoàn toàn xác định được độ dài, độ rộng của khối, vector biểu diễn hình dạng của đối tượng. Gọi l, w là chiều dài, chiều rộng của khối; gọi tập {d1, d2,...dn} là vector biểu diễn hình dạng đối tượng theo vector khoảng cách từ tâm khối đến đường biên của khối. Tập thuộc tính của khối được xác định là: (l, w, d1, d2,...,dn). Nếu chỉ dựa trên tập vector khoảng cách {d1, d2,...dn} hoàn toàn có thể phân loại được khối thuộc tập hợp phương tiện gì (xe máy; ô tô; tập hợp xe ô tô, xe máy,...). Tuy nhiên với dựa trên tính chất độ dài, rộng (l,w) của từng khối a.Hình mẫu các dạng khối b.Biểu diễn hình dạng khối 1. Thu nhận Video,
Xác định ROI,
Trích chọn khung hình,
Tìm đối khối,
Tìm khối và gán nhãn 2. Tính toán tham số khối CSDL hình dạng 3. Phân giải hình dạng 4.Phân
loại phương tiện, có thể kết luận nhanh khối đối tượng là khối gì. Phương pháp đề nghị phối hợp phân loại dựa trên hình dạng (hình chiếu, trọng tâm và khoảng cách) kết hợp với phân tích độ dài, độ rộng khối đối tượng mang lại sự phân loại nhanh chóng và chính xác, phân loại được đa dạng hơn về chủng loại phương tiện, đặc biệt là ô tô con, xe tải, xe máy, và tập hợp các đối tượng dính khối trong trường hợp đông đúc. - Khối (1), xử lý theo phương pháp đề xuất ở chương 2; 100 - Khối (2), biểu diễn hình dạng theo vector khoảng cách, độ dài, độ rộng. - Khối (3), so khớp độ dài, độ rộng ảnh và so khớp vector khoảng cách theo các chỉ số xác định trước trong CSDL. - Khối (a) và (b), huấn luyện các hình dạng, độ dài, độ rộng đối tượng trước và lưu trữ vào CSDL trong hệ thống. 3.2.2. Giai đoạn chuẩn bị CSDL Các bước tiến hành: Sưu tập hình mẫu; Xác định kích thước chiều dài, chiều rộng; Vector hóa hình chiếu đối tượng; Đánh chỉ số Index cho các Template trong tập mẫu đối sánh; Đưa ra một tập luật để so sánh nhanh theo khoảng cách, kích thước khối. Bước 1. Sưu tập hình mẫu 1 xe máy độc lập: một số loại xe như xe tay ga, xe nam, vespa,... 2,3,4,5 xe máy hợp khối theo các hình dạng khác nhau 1 xe ô tô hợp với 1,2,3,4,5 xe máy Số mẫu sưu tập gọi là n. Xác định kiểu hình mẫu: BlockStyle (0,1,2,3,4 tương ứng với: chưa phân loại; 1 xe máy; 1 ô tô con; 1 xe tải; hỗn hợp xe máy và ô tô). Bước 2. Xác định kích thước chiều dài, chiều rộng của khối Xác định chiều rộng, chiều dài của khối (width, length) Chuẩn hóa tỉ lệ kích thước tương ứng giữa chiều dài và chiều rộng. Ví dụ, độ rộng của khối là 2, độ dài là 5, chuẩn hóa tỷ lệ là [0.286, 0.714]. Bước 3. Vector hóa hình chiếu đối tượng (đa giác) Xác định số đỉnh của đa giác: m Xác định trọng tâm của đa giác (xc, yc) Xác định độ dài khoảng cách từ tâm tới các đỉnh của đa giác [s1,s2,...,sm] Chuẩn hóa vector khoảng cách [d1,d2,...,dm] Bước 4. Đánh chỉ số Index cho các Template trong tập mẫu đối sánh Gọi tập mẫu là Template, cấu trúc của 1 Template thông qua các chỉ số, kiểu khối, độ rộng, độ dài khối và giá trị khoảng cách tương ứng. 101 Template(Index, BlockStyle, width, length, d1,d2,...,dm) o Index: 0,1,..., n; tương ứng với số lượng mẫu. o BlockStyle: 0, 1, 2 Bước 5. Đưa ra một tập luật để so sánh nhanh theo khoảng cách, kích thước khối và loại phương tiện. Bảng số liệu thống kê một số giá trị thực về độ dài, rộng, cao của phương tiện do các nhà sản xuất ô tô, xe máy được thu thập và thống kê trong bảng 1 (phần phụ lục). Tập luật nhận dạng xe ô tô hay xe máy o 1 Xe máy: Tỷ lệ cao/rộng [1.441.55], rộng [0.6750.740] o 1 Xe con: Tỷ lệ cao/rộng [0.801.00], rộng[1.4951.910] o 1 Xe tải: Tỷ lệ cao/rộng [1.451.55], rộng [2.2402.500] 3.2.3. Thuật toán phân loại dựa trên độ dài và hình chiếu đối tượng Đầu vào: Video Đầu ra: Loại xe/Nhóm loại xe Các bước thực hiện: Bước 1. Nhận dữ liệu khối đối tượng chuyển động từ giai đoạn phát hiện. //Phát hiện khối chuyển động Frames Trunc(Video) Foreground EMB (Frames) //Chỉ số hóa/gán nhãn cho các block Block[i] Foreground Bước 2. Đối với mỗi khối, xác định đặc tính tham số từng khối //Tính toán tham số khối For each Block[i] { - Tính chiều dài Length của Block[i] - Tính chiều rộng Weight của Block - Tính trọng tâm của Block - Tính chiều dài khoảng cách từ tâm tới đường biên của Block d1, d2,..., dm - Cập nhật thuộc tính của Block Properties(i, 0, width, length, d1,d2,...,dm) Block[i] //BlockStyle, mặc định là 0, vì chưa phân loại } // Cập nhật loại khối (BlockStyle) For each Properties[i] { - Tính tỷ lệ Height/width; - Xác định BlockStyle qua tập luật; Update Properties(i, BlockStyle, width, length, d1,d2,...,dm)} Bước 3. Phân giải khối phương tiện For each Properties[i] { - Nếu width không thuộc v1,v2,v3 thì: If (v If (v>v3) Chuyển bước 4 } Bước 4. So khớp hình dạng For each Properties[i] { For each Template[Index] { Compare Properties[i] ? Template[Index] Loại xe/Nhóm loại xe }} Return Loại xe/Nhóm loại xe 102 Độ phức tạp tính toán: - Theo thuật toán EMB, thì bước 1 và 2 số phép tính ước tính tương đương với O(NFnm), với NF là số khung hình; n là chiều dài, m là chiều rộng của mỗi khung hình. - Tại bước 3, kích thước tối đa của mỗi Block là một khung hình, số điểm ảnh thuộc Block cần duyệt qua tối đa là nm ~ O(n2). - Tại bước 4 và 5, số phép toán < O(n2). - Tổng số phép tính ước tính: O(NFnm) + O(n2) + O(n2) ~ O(NFnm) Kết luận, độ phức tạp ước tính của thuật toán VCALOS là O(NFnm), với NF là số khung hình, n và m là kích thước ảnh từng khung hình. Kết quả thực nghiệm: 103 Phương pháp thực nghiệm tương tự như đã thực hiện đối với thuật toán CVIL. Dữ liệu cũng sử dụng lại bộ dữ liệu thu thập được như với thuật toán CVIL. Tuy nhiên đối với các video ở cung đường Đại lộ Thăng Long, không có phương tiện xe máy tham gia giao thông, nên không thực hiện trong thực nghiệm. Thực hiện đếm TT Trực tiếp bởi người Bằng hệ thống Cung
đường Xe
con Xe
máy Xe
con Xe
máy Tỷ lệ
chính
xác
TB
(%) Xe
tải
lớn Xe
tải
nhỏ Xe
tải
lớn Xe
tải
nhỏ Số
khung
hình
theo
dõi
(Frame)
1500 2 3 10 19 2 5 12 20 84.58 1500 4 5 11 25 4 6 13 27 90.13 1650 1 Bắc Thăng
Long
2 Quốc lộ 1
3 Quốc lộ 5 5 8 17 24 5 10 21 26 88.31 Từ kết quả Bảng 3.2 cho thấy độ chính xác trung bình tăng lên so với thuật toán CVIL. Sự phân loại xe tải lớn về số lượng vẫn chính xác, sự biến động nhiều vẫn nằm nhiều ở xe tải nhỏ và xe con, và đối với xe máy cũng có nhiều sự sai số. 3.3. Phân loại phương tiện dựa trên đường viền biểu diễn bằng số phức Đường viền của đối tượng là một đường khép kín sau khi thực hiện các phương pháp trích chọn và xấp xỉ đường viền. Mô tả hình dạng đường viền bằng VC trên trường số phức, đồng thời áp dụng một số tính chất của vector số phức tương tự như tính chất của mô-men, dẫn đến khả năng so sánh và phân loại đường viền với nhau. Từ kết quả này có thể áp dụng để tiến hành nhận dạng các tập đường viền theo phương pháp máy học. Trước tiên huấn luyện và tạo ra 1 tập CSDL đối sánh tạo trước ở giai đoạn offline, sau đó giai đoạn online trích đường viền ra từ khối chuyển động và so sánh, đưa ra kết luận về số lượng phương tiện. 104 Sơ đồ khái quát 3.3.1. Phân loại dựa trên đường viền được chia thành 2 pha: Pha huấn luyện và Pha phân loại. Sơ đồ khái quát được minh họa trong Hình 3.4. Các khối tăng cường ảnh, tìm đường viền áp dụng các thuật toán đã có trong xử lý ảnh. Điều quan trọng ở đây là tính toán đặc trưng của đường viền. Tuy nhiên để chuẩn hóa đường viền ở cả pha huấn luyện cũng như pha phân loại cần phải thực hiện phép cân bằng hóa đường viền hay còn gọi là xấp xỉ độ dài đường viền. Thuật toán Douglas Peucker 3.3.2. Xấp xỉ độ dài đường viền và thuật toán Douglas Peucker Ý tưởng cơ bản của thuật toán Douglas-Peucker [29] là xét xem khoảng cách lớn nhất từ đường cong tới đoạn thẳng nối hai đầu mút đường cong (Hình 3.5) có lớn hơn ngưỡng θ không. Nếu điều này đúng thì điểm xa nhất được giữ lại làm điểm chia đường cong và thuật toán được thực hiện h > θ tương tự với hai đường cong vừa tìm được. Trong trường hợp ngược lại, kết quả của thuật toán đơn giản hoá là hai điểm đầu mút của đường cong. 105 Các bước thực hiện thuật toán Douglas-Peucker: • Bước 1: Chọn ngưỡng θ. • Bước 2: Tìm khoảng cách lớn nhất từ đường cong tới đoạn thẳng nối hai đầu đoạn đường cong h. • Bước 3: Nếu h ≤ θ thì dừng. • Bước 4: Nếu h > θ thì giữ lại điểm đạt cực đại này và quay trở lại bước 1. //Hàm tính đường cao từ dinh đến đoạn thẳng nối hai điểm dau, cuoi float Tinhduongcao (POINT dau, POINT cuoi, POINT dinh) { floot h; || tính đường cao returm h ; } //Hàm đệ quy nhằm đánh dấu loại bỏ các điểm trong đường cong void DPSimple(POINT *pLINE,int dau,int cuoi,BOOL *chiso,float θ) { int i, index = dau; float h, hmax = 0; for(i = dau + 1; i < cuoi; i++) { h= Tinhduongcao(pLINE[dau], pLINE[cuoi]; pLINE[i]); if(h > hmax) { hmax = h; index = i; } } if(hmax ≤ θ) for(i= dau + 1; i < cuoi, i++) chiso[i] = FALSE; else { DPSimple(PLINE, dau, index, chiso, θ); DPSimple(PLINE, index, cuoi, chiso, θ) ; } 106 //Hàm rút gọn số lượng điểm DouglasPeucker int DouglasPeucker(POINT *pLINE, int n, float θ){ int i, j; BOOL chiso [MAX_PT]; for(i = 0; i < m; i++) //Tất cả các điểm được giữ lại chiso[i] = TRUE; DPSimple(pLINE, 0, n – 1, chiso, θ); for(i = j = 0; i < n; i ++) if (chiso [i] ==TRUE) pLINE[j++] = pLINE[i]; return j; } } Theo [29] thì thuật toán DouglasPeucker có độ phức tạp tính toán là Xấp xỉ độ dài đường viền O(nlog2(n)) với n là số đỉnh của đường cong cần đơn giản hóa. Như đã trình bày ở trên về phương pháp CA, cần xác định độ dài của đường viền.Trong một bức ảnh thực, đường viền có độ dài bất kỳ. Do đó việc tìm kiếm và so sánh đường viền, tất cả chúng cần có số đỉnh đồng nhất. Quá trình này gọi là quá trình cân bằng. Đầu tiên sẽ cố định số đỉnh của VC chuẩn (ở pha huấn luyện) sẽ sử dụng trong hệ thống nhận diện, ký hiệu là p. Sau đó với mỗi đường viền A mới được tạo ra, ta tạo một đường viền vector N với độ dài p. Và có thể có 2 biến thể, hoặc đường viền ban đầu có số đỉnh lớn hơn số p hoặc nhỏ hơn số p. Nếu một đường viền ban đầu cần thiết để được sắp xếp bởi EV, ta sẽ quan tâm tới thành phần N như tổng của các EV. Quá trình cân bằng hóa, tương tự như quá trình thực hiện đơn giản hóa đường cong Douglas Peucker [29] (Hình 3.6). 107 Complex[] newPoint = new Complex[newCount]; for (int i = 0; i < newCount; i++) { double index = 1d * i * Count / newCount; int j = (int)index; double p = index - j; newPoint[i] = this[j] * (1 - p) + this[j + 1] * p; } Giảm số đỉnh của đường cong: Vấn đề là cần chọn giá trị p. Độ dài p lớn có nghĩa là tiêu tốn một lượng phí lớn vào việc đánh giá. Còn giá trị p nhỏ cần ít thông tin, độ chính xác của việc nhận dạng cũng giảm và việc nhận dạng nhiễu tăng lên. 3.3.3. Thuật toán CCAVC CCAVC (Classification based on Contour Analysis Vector Complex) Thuật toán huấn luyện đặc trưng phương tiện Input: Hình ảnh (Image), Ngưỡng đường viền (ThresoldContour), Số đỉnh đường viền (d) Output: Template(i) //Tập mẫu, số lượng mẫu tùy thuộc vào dữ liệu thực tế trong quá trình huấn luyện Nội dung thuật toán: 1. Chuẩn hóa về độ phân giải mong muốn Image ChuanHoaDoPhanGiai(Image) 2. Tìm các đường viền n SoDuongVien(Image) Contour(i) TimDuongVien(Image), i=1..n 3. Chuẩn hóa các đường viền For i=1 to n {//Áp dụng thuật toán đơn giản hóa Pha huấn luyện. Chuẩn bị cơ sở dữ liệu Template (Thực hiện thủ công). Contour(i) DonGianHoa(Contour(i), d)} For i=1 to n {//Tính chu vi ChuVi(i) TinhChuVi(Contour(i))} For i=1 to n {//Loại đường viền quá nhỏ ji if ChuVi(i)> ThresoldContour then { Countour(j) Countour(i); j++}} m=j; //m là số đường viền sau khi loại bỏ đường viền nhỏ 4. Tìm đặc trưng các đường viền For i=1 to m {//Tính toán tham số đặc trưng CV(i) Chuvi(Contour(i)) DT(i)DienTich(Contour(i)) for j=1 to d {//Tính góc tại các đỉnh goc(i,j)=TinhGoc(Contour(i),j) } 5. Cập nhật Template For i=1 to m { Template(i) Template(i) + (i, CV(i), DT(i)) For j=1 to d Template(i) Template(i)+ goc(i,j) } 6. Retrurn Template (i), i=1..m ______________________________________________________________ 108 Pha phân loại. Nhận dạng trên các tập ảnh thực tế (Thực hiện online – thời gian thực): Input: Video/Ảnh Output: ImageCountour (Ảnh có chứa đường viền phương tiện) 109 1. Thu nhận và Xử lý sơ bộ ảnh (Làm mịn, lọc nhiễu, tăng độ tương phản) Image Capture(Video) Image ChuanHoaAnh(Image) 2. Tìm các đường viền n SoDuongVien(Image) Contour(i) TimDuongVien(Image), i=1..n 3. Chuẩn hóa các đường viền For i=1 to n {//Áp dụng thuật toán đơn giản hóa Contour(i) DonGianHoa(Contour(i), d)} For i=1 to n {//Tính chu vi ChuVi(i) TinhChuVi(Contour(i))} For i=1 to n {//Loại đường viền quá nhỏ ji if ChuVi(i)> ThresoldContour then { Countour(j) Countour(i); j++}} m=j; //m là số đường viền sau khi loại bỏ đường viền nhỏ 4. Tìm đặc trưng các đường viền For i=1 to m {//Tính toán tham số đặc trưng CV(i) Chuvi(Contour(i)) DT(i)DienTich(Contour(i)) for j=1 to d {//Tính góc tại các đỉnh goc(i,j)=TinhGoc(Contour(i),j) } 5. So sánh đường viền với Template. For each đường viền phát hiện { Chọn vùng chi vi để đối sánh Chọn vùng diện tích để đối sánh Nội dung thuật toán: So sánh sự đồng dạng giữa 2 đường viền} 6. Return 110 Độ phức tạp thuật toán: Giả sử bức ảnh đã được nhị phân hóa có kích thước n*n pixels, tìm đường viền bằng cách duyệt qua toàn bộ ảnh 2 chiều, do đó độ phức tạp tương ứng là
O(n2). Giả sử p là độ dài đường viền, t là số các đường viền có trong ảnh. Đối với một đường viền, độ dài của nó kiểm tra thông qua phép tích vô hướng chuẩn hóa
trong tập huấn luyện và do đó mỗi đường viền chi phí hết p2 phép so sánh. Thuật toán so sánh đường viền có độ phức tạp ước tính là: O(n2p2t), với n là kích thước ảnh, t là số đường viền phát hiện được và p là độ dài đường viền. Hạn chế của phương pháp phân tích đường viền: - Hạn chế đầu tiên có liên quan tới vấn đề lựa chọn đường viền trên ảnh. Đường viền được giới hạn với một cấu trúc rời rạc nhất định. Tuy nhiên các đối tượng này được thể hiện trong môi trường thực có thể xảy ra những trường hợp: + Có một số lượng lớn các đường viền liên quan và không liên quan đến đối tượng nhận dạng. + Đối tượng trong ảnh không thể có đường biên rõ ràng, có thể nhận diện dựa trên độ sáng hoặc màu sắc so với nền, có thể bị nhiễu… Tất cả những nhân tố trên dẫn tới việc đường viền không thể được lựa chọn hoặc được chọn không chính xác, không tương đồng với đường bao của đối tượng. - Hạn chế thứ hai, gây phức tạp cho phương pháp CA có liên quan tới các quy tắc của phân tích đường viền. Phương pháp CA giả sử rằng đường viền mô tả khung của các đối tượng và không quan tâm đến các phần phía sau hoặc các phần nhìn thấy không hoàn toàn của đối tượng. Do đó CA có độ ổn định kém trong các trường hợp nhiễu, không hỗ trợ sự giao cắt hoặc các phần nhìn thấy của đối tượng. 111 Kết quả thực nghiệm 3.3.4. Thực nghiệm được thiết kế trên 2 dự án. Dự án 1, ContourAnalysis, thực hiện các chức năng cơ bản của phân tích đường viền, tạo được viền, TVH của đường viền, cân bằng hóa, đánh giá ICF và ACF, so sánh và tìm kiếm các mẫu. Dự án 2, ContourAnalysisProcessing , chứa các phương pháp để xử lý sơ bộ ảnh, chọn đường viền, lọc và nhận dạng. Đồng thời nó cũng chứa các công cụ để tự động tạo ra các mẫu cho việc nhận dạng các đường viền phương tiện. Dự án sử dụng thư viện OpenCV (EmguCV.NET wrapper) để xử lý. Các tham số trong thực nghiệm: Độ dài đường viền nhỏ nhất (Min contour length) = 30; Diện tích đường viền nhỏ nhất (Min contour area) = 10; Độ phân giải ảnh đầu vào: 640 x 480 (pixel). CSDL mẫu: Thực hiện tạo ra một CSDL tập mẫu các đường viền gồm 30 mẫu đường viền khác nhau từ các hình dạng 1 xe máy, 1 xe ô tô, 2 xe máy, 2 ô tô. Đường viền mẫu của xe máy được tập trung lưu trữ toàn bộ hình dạng đường viền bao quanh xe máy. Thêm một số mẫu về đường viền phần nửa trên người đi xe máy. Đối với ô tô, tập mẫu tạo ra bằng cách lưu trữ khung đường viền của 1. Ô tô đứng độc lập 2. Hai ô tô trước sau thẳng 3. Hai ô tô trước sau lệch trái kính trước ô tô. (Hình 3.9). 4. Hai ô tô trước sau lệch phải 6. Hai ô tô ngang nhau lệch
trái 5. Hai ô tô ngang nhau 7. Hai ô tô ngang nhau lệch phải 8. Người đi xe máy chụp thẳng 9. Hai người đi xe máy trước
sau thẳng hàng 10. Hai người đi xe máy trước sau
lệch trái 11. Hai người đi xe máy trước
sau lệch phải 12. Hai người đi xe máy
ngang thẳng hàng 13. Ba người đi xe máy ngang nhau 14. Ba người đi xe máy lệch trái 15. Xe máy đi trước ô tô 112 113 Trong quá trình nhận dạng, gán nhãn cho đường viền phát hiện được tương ứng là 1xm (một xe máy), 1oto (một ô tô), 2xm (hai xe máy), 2oto (hai ô tô),... Phương pháp đã được thực nghiệm với các ảnh tự nhiên và trong bài toán xác định mật độ phương tiện giao thông, so sánh và nhận dạng ra nhanh một xe máy, 1 ô tô, 2 xe máy dính liền nhau, 2 ô tô dính liền nhau, 1 ô tô và 1 xe máy dính liền nhau trong ảnh (Hình 3.9b). a) một xe máy; b) 2 xe máy; c) một ô tô Dữ liệu thực nghiệm sử dụng lại bộ dữ liệu quay trực tiếp tại các điểm cầu vượt đường cao tốc như đã trình bày trong chương 2 (Hình 2.3). Việc kiểm nghiệm phương pháp CA bằng cách kiểm thử cho ra kết quả 80% hình dạng được nhận diện. Và kết quả này chứa một số lượng các ảnh đọc xấu của các phương tiện. Do đó CA xử lý 249 ảnh với các kích thước khác nhau (từ 400*400 tới 1280*960) trong vòng 30 giây. Bên cạnh việc nhận dạng các ảnh khung hình cố định, thực hiện tốc độ cao của CA cho phép xử lý video trong chế độ thời gian thực. Thuật toán hoạt động với tốc độ 10-14Hz trên máy tính Pentium IV, 2.6GHz phù hợp với các ứng dụng thời gian thực. Độ chính xác của thuật toán đã được kiểm nghiệm thông qua việc đối sánh ảnh giao thông chụp tại một số cung đường ở Việt Nam. 114 Hướng phát triển tiếp theo là: 1) loại bỏ nhanh một số lỗi bằng cách xem xét kích thước chiều dài, chiều rộng đối tượng, ngưỡng xấp xỉ hình dạng đường viền mịn hơn, sau đó thử nghiệm giải thuật đối sánh ảnh trong một hệ thống giám sát giao thông thời gian thực; 2) xem xét đến trường hợp một đối tượng có nhiều đường viền để tăng độ chính xác và khả năng nhận dạng đối tượng đa dạng hơn. a) Nhận dạng được 2 đường
viền, gán nhãn cho mỗi xe
một nhãn là 1xm. b) Nhận dạng được 3 xe máy.
2 xe theo đường viền toàn bộ,
1 xe theo phần trên xe. c) Nhận dạng được một ô tô
và 1 xe máy đi gần nhau. 3.4. Kết luận chương 3 Trên cơ sở lý thuyết về mô-men bất biến, trong đó có các tính chất bất biến tỷ lệ, bất biến dịch chuyển và bất biến quay áp dụng cho xử lý ảnh và nhận dạng, phân loại đối tượng theo phương pháp hình dạng cho thấy một số đặc trưng về hình dạng cho phép sử dụng để phân loại phương tiện giao thông như: - Kích thước các khối đối tượng (phương tiện) trong ảnh; - Trọng tâm và khoảng cách từ trọng tâm tới đường biên; - Đường viền và phân tích các đặc trưng của đường viền biểu diễn trên trường số phức để nhận dạng và phân loại. Các phương pháp, công thức tính toán trọng tâm đa giác xấp xỉ hình dạng đối tượng, tính độ dài khoảng cách từ tâm tới cạnh đa giác xấp xỉ; Phương pháp đã được triển khai thực nghiệm cho kết quả phân loại được các loại xe con, xe tải (công trình công bố số 1). 115 Đề xuất 3 thuật toán về phân loại phương tiện trong đó có ô tô và xe máy dựa trên kích thước và hình dạng. Bao gồm: - Thuật toán phân loại theo kích thước (thuật toán CVIL); (công bố công trình số 1). - Thuật toán phân loại dựa trên kết hợp độ dài và hình chiếu đối tượng (thuật toán VCALOS). (công bố công trình số 4). - Thuật toán phân loại dựa trên đường viền biểu diễn bằng vector số phức. (công bố công trình số 2) Phương pháp phân loại dựa trên CA, có khả năng ứng dụng vào các bài toán đối sánh ảnh đòi hỏi thời gian thực. Đóng góp chính đưa ra là đề xuất sử dụng thuật toán CA, tìm kiếm độ dài đường viền để thực hiện tìm kiếm và đối sánh hai đường viền. Trong điều kiện giao thông phức tạp, các đối tượng có thể chồng lấp, nối đuôi nhau hoặc sánh ngang nhau, hoặc so le nhau tạo thành những đường viền phức tạp, việc áp dụng phương pháp CA gặp phải những khó khăn. 116 KẾT LUẬN I. Các kết quả chính của luận án Kết quả nghiên cứu của luận án được trình bày trên 121 trang, cấu trúc chia thành 3 chương nội dung chính, phần mở đầu, phần kết luận, tài liệu tham khảo và phụ lục. Về phát hiện phương tiện chuyển động, luận án đã trình bày về 05 thuật toán phát hiện đối tượng chuyển động bằng phương pháp trừ nền; phân tích và đưa ra những ưu khuyết điểm từng phương pháp, phân tích và đưa ra yêu cầu của mô hình hóa nền đối với video giao thông; đề xuất mô hình GMM thích ứng với sự thay đổi ánh sáng; áp dụng mô hình đề xuất trong thực nghiệm hệ thống đếm xe trên đường cao tốc. Về phân loại phương tiện chuyển động, luận án phân tích và đưa ra các đặc trưng quan trọng của hình dạng để áp dụng cho việc phân loại phương tiện giao thông đó là: kích thước đối; các đặc trưng hình dạng như đa giác xấp xỉ phương tiện, trọng tâm và khoảng cách từ tâm đến cạnh đa giác; chu vi đường viền. Luận án đã phân tích và xây dựng thuật toán phát hiện đối tượng chuyển động bằng mô hình GMM thích ứng thay đổi ánh sáng (chương 2); thuật toán phân loại phương tiện dựa trên kích thước và hình dạng, thuật toán phân tích đường viền phục vụ cho nhận dạng (chương 3). Các kết quả phân tích và thực nghiệm một số thuật toán được công bố trong 04 bài báo trên các tạp chí chuyên ngành và hội nghị khoa học về công nghệ thông tin. Nội dung của luận án đề cập và các kết quả được công bố phù hợp và đáp ứng được mục tiêu luận án đề ra. II. Những đóng góp mới Luận án với 03 đóng góp chính: Cải tiến mô hình GMM thích ứng với sự biến đổi ánh sáng, bằng việc thêm tham số để ứng phó với việc thay đổi ánh sáng trong môi trường 117 thực. Kết hợp mô hình nền GMM thích ứng thay đổi ánh sáng và luồng quang học để giải quyết việc xác định mật độ xe ô tô cải thiện tốc độ tính toán và tăng độ chính xác trong trường hợp giao thông trên các đường cao tốc ở Việt Nam. Đề xuất phương pháp phân loại kết hợp giữa phân tích hình dạng đối tượng và độ dài của đối tượng. Phương pháp nhận dạng và phân loại nhanh dựa trên cơ sở phân tích và lập chỉ mục theo các tham số đặc trưng loại, độ dài, độ rộng. Đề xuất phương pháp phân loại dựa trên phân tích đường viền. Trích chọn đặc trưng đường viền, biểu diễn trên trường số phức, tiến hành phân loại dựa trên độ dài và hình dáng đường viền. III. Hướng nghiên cứu tiếp theo Mặc dù, tất cả các đề xuất trong nghiên cứu này có thể làm việc tốt trong một số trường hợp, các mô hình vẫn còn dễ bị lỗi và tốn thời gian. Các nghiên cứu trong tương lai có thể kiểm tra chi tiết cấu trúc không gian của khu vực quan sát; áp dụng trong học máy, được gọi là học cao cấp; xem xét trường hợp nhiều đường viền tích hợp trên một đối tượng. Đây có thể là một hướng đi mới để phát triển các hệ thống giám sát đối tượng chuyển động trên máy tính với độ chính xác cao và tỷ lệ sai số thấp. 118 1. Nguyễn Văn Căn, Vũ Tuấn (2013), “Giám sát giao thông tự động dựa trên độ dài thị giác”. Tạp chí Khoa học và Công nghệ quân sự. Số 5/2013, trang 69-81. 2. Nguyễn Văn Căn, Nguyễn Đăng Tiến, Phạm Việt Trung (2014), “Phương pháp
biểu diễn đường viền trên trường số phức, áp dụng cho bài toán phân loại
phương tiện giao thông”. Tạp chí Khoa học và Công nghệ quân sự. Số 10/2014,
trang 58-65. 3. Can Nguyen Van, Huy Huynh Van, Tao Ngo Quoc (2014), “Car counting
method using Gaussian Mixture Model and Optical Flow”. The 3rd Solid State
Systems Symposium-VLSIs and Semiconductor Related Technologies & The
17th International Conference on Analog VLSI Circuits-Analog Signal and
Information Processing Applications. Ho Chi Minh City, 10/2014. Proceeding,
pages 192-198. 4. Can Nguyen Van, Cuong Nguyen Ngoc (2014), “Vehicle Classification in Video
Based on Shape Analysis”. UKSim-AMS 8th European Modelling Symposium on
Mathematical Modeling and Computer simulation Proceeding EMS
'14
Proceedings of the 2014 European Modelling Symposium. IEEE Computer
Society Washington, DC, USA ©2014. ISBN: 978-1-4799-7412-2, pages 151-
157. (http://dl.acm.org/citation.cfm?id=2706693.2706789). DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 119 TÀI LIỆU THAM KHẢO [1] Phạm Hồng Quang, Tạ Tuấn Anh (2014), Xây dựng cấu trúc hệ thống giao thông
thông minh và các quy chuẩn công nghệ thông tin, truyền thông, điều khiển áp
dụng trong hệ thống giao thông thông minh tại Việt Nam. Đề tài KC01.14/11-15.
Trung tâm Tin học và Tính Toán, Viện Hàn lâm KHCN Việt Nam. [2] Phạm Hồng Quang (2014), Xây dựng mạng camera với hệ thống xử lý hình ảnh
thông minh phục vụ điều khiển giao thông và giám sát an ninh. KC03.DA06/11-
15. Công ty Cổ phần Phần mềm - Tự động hóa - Điều khiển. [3] Trần Thanh Việt, Trần Công Chiến, Huỳnh Cao Tuấn, Nguyễn Hữu Nam, Đỗ
Năng Toàn, Trần Hành (2011), Một kỹ thuật bám đối tượng và ứng dụng. Kỷ yếu
hội thảo quốc gia lần thứ XIV, Cần Thơ, 10/2011. Nhà Xuất bản Khoa học và Kỹ
thuật. Trang 238-247. [4] Ahmed Elgammal (2010), Computer Vision 3D Model-based recognition. Dept of Computer Science, Rutgers University. [5] Amol A. Ambardekar (2007), Efficient Vehicle Tracking and Classification for
an Automated Traffic Surveillance System, A thesis submitted in partial
fulfillment of the requirements for the degree of Master of Science in Computer
Science. [6] Chee-Way Chong and at al (2004), Translation and scale invariants of Legender moments, Pattern Recognition (Vol 37), pp.119-129. [7] Chung-Cheng Chiu and et al (2010), Automatic Traffic Surveillance System for
Vision-Based Vehicle Recognition and Tracking. Department of Electrical and
Electronic Engineering, Chung Cheng Institute of Technology National, Defense
University Taoyuan, Taiwan. [8] Clement Chun Cheong Pang and at al (2007), A Method for Vehicle Count in the
Presence of Multiple-Vehicle Occlusions in Traffic Images, IEEE transactions on
intelligent transportation systems, (Vol. 8, No. 3). [9] Collins R. T. (2000), A system for video surveillance and monitoring: VSAM
final report, Technical report (CMU-RI-TR-00-12), Robotics Institute, Carnegie
Mellon University. [10] Cucchiara R. (2000), Statistic and Knowledge-based Moving Object Detection in Traffic Scenes. D.S.I. University of Modena. [11] George S.K. Fung and at al (2001), Vehicle Shape Approximation from Motion
for Visual Traffic Surveillance. IEEE Intelligent Transportation Systems
Conference Proceedings, USA. [12] Guohui Zhang and et al (2007), A Video-based Vehicle Detection and
Classification System for Real-time Traffic Data Collection Using Uncalibrated Video Cameras, Department of Civil and Environmental Engineering University
of Washington. [13] Hu M. K. (1962), Moments and Moment Invariants in Pattern Recognition, IRE Trans. Info. Theory (vol.IT-8), pp.179–187. [14] Jean-Yves Bouguet (2002), Pyramidal Implementation of the Lucas Kanade
Feature Tracker Description of the algorithm, Intel Corporation, Microprocessor
Research Labs. [15] Lai A. H. S. (2000), An effective methodology for visual traffic surveillance, Hong Kong University. [16] Lipton A. J. (1999), Moving target classification and tracking from real-time video. In Proc. of Workshop Applications of Computer Vision, pages 129-136. [17] Massimo Piccardi (2004), Background subtraction techniques: a review,
Computer Vision Research Group (CVRG), University of Technology, Sydney
(UTS). [18] Nilesh J. Uke (2013), Moving Vehicle Detection for Measuring Traffic Count Using OpenCV, Journal of Automation and Control Engineering (Vol.1, No.4). [19] Nikolaos P. (2000), Algorithms for Vehicle Classification, Artificial Intelligence, Robotics and Vision Laboratory, University of Minnesota. [20] Sagar Deb (2005), Video data management and information retrieval. University Southem Queensland, Australia. [21] Shireen Y. Elhabian (2007), Moving Object Detection in Spatial Domain using
Background Removal Techniques - State-of-Art, Cairo University, Egypt. [22] Sigari M., Fuzzy Running Average and Fuzzy Background Subtraction: Concepts
and Application, International Journal of Computer Science and Network
Security, 2008, Volume 8, No. 2, pages 138-143. [23] Stauffer C. (1999), Adaptive background mixture models for real-time tracking, Technical report (CVPR 1999), pages 246-252. [24] Thierry Bouwmans (2013), Recent Advanced Statistical Background Modeling
for Foreground Detection - A Systematic Survey, Laboratoire MIA, Université de
La Rochelle, France. [25] Wei Zhan, Junkai Yang (2012), Real Time and Automatic Vehicle Type
Recognition System Design and Its Application, International Conference on
Mechanical Engineering and Automation. [26] Yigithan Dedeoglu (2004), Moving object detection, tracking and classification for smart video surveillance, Univeristy of Bilkent. [27] Xue Mei and at al (2007), Integrated Detection, Tracking and Recognition for IR Video-based Vehicle Classification, Journal of computers (Vol.2, No.6). [28] Yu-Kumg Chen, Tung-Yi Cheng, Shuo-Tsung Chiu (2009), Motion Detection
with Using Theory of Entropy. IEEE International Symposium on Industrial
Electronics (ISlE 2009). 120 121 [30] Jitendra Malik, Serge Belongie, Thomas Leung, Jianbo Shi (2001), Contour and
Texture Analysis for Image Segmentation. International Journal of Computer
Vision, June 2001, Volume 43, Issue 1, pp 7-27. [31] Rohit Kolar, Akshay Thakar, Muzaffar Shabad (2014), Image Segmentation for
Text Recognition using Boundary Analysis. International Journal of Emerging
Technology and Advanced Engineering. ISSN 2250-2459, ISO 9001:2008
Certified Journal, Volume 4, Issue 2, February 2014) 294. [32] Corentin Lallier, Emanuelle Reynaud, Lionel Robinault, Laure Tougne (2011), A
Testing Framework for Background Subtraction Algorithms Comparison in
Intrusion Detection Context. 8th IEEE International Conference on Advanced
Video and Signal-Based Surveillance. [33] Andrews Sobral, Antoine Vacavant (2014), A comprehensive review of
background subtraction algorithms evaluated with synthetic and real videos.
Computer Vision and Image Understanding 122. foreground/background extraction, for [29] Wu, Shin-Ting and Márquez (2004), Mercedes R. G (2004), A non-self-
intersection Douglas-Peucker Algorithm, Proceedings of Sibgrapi. © 2004 IEEE. [34] A. Vacavant, T. Chateau, A. Wilhelm, L. Lequièvre (2012), A benchmark
dataset
in: Background Models
Challenge (BMC). Asian Conference on Computer Vision (ACCV), LNCS, vol.
7728, Springer, 2012, pp. 291–300. [35] Y. Dhome, N. Tronson, A. Vacavant, T. Chateau, C. Gabard, Y. Goyat, D.
Gruyer (2010), A benchmark for background subtraction algorithms in
monocular vision: a comparative study. IEEE International Conference on
Image Processing Theory, Tools and Applications (IPTA), 2010, pp. 66–
71. [36] A. Sobral (2013), BGSLibrary: an opencv c++ background subtraction
library. IX Workshop de Viso Computacional. Rio de Janeiro, Brazil. [37] Jean Dieudonné (1960), Foundations of Modern Analysis, Academic Press. 1 PHỤ LỤC Nguồn: Internet, Đơn vị tính: mm 1825
1495
1940
1865
1910
2240
2400
2500
2500 0.805479
1.003344
1.103093
1.184987
1.17801
1.459821
1.533333
1.58
1.572 TT
1 Honda Future
2
Yamaha Sirius
3 DaeHan Exciter GP
4 Honda SH 150i và SH 125i
5 Honda Lead 125cc Fi
Suzuki Hayate 125
6
7
Suzuki Hayate SS 125 FI
8 Honda Wave 110 S Deluxe
9 Honda SH125 Mode
10 Honda Wave Alpha
11 Honda Air Blade Fi 125cc
12 Honda Vision 110cc Fi
13 Suzuki X-Bike 125
14 Honda Lead 110cc
15 SYM Attila Elizabeth EFI
16 Yamaha Nouvo SX RC
17 Yamaha Exciter
18 Honda Wave 110 RSX
19 Suzuki Smash Revo 110
20 Honda SH150i
21 Suzuki X-Bike 125
22 Honda Future 125 FI
23 Yamaha Luvias GTX125 Fi
24 Honda Super Dream
25 Suzuki Smash Revo
26 HONDA SCR
27 Sym Shark 170cc
28 Yamaha Nozza 711
675
697
740
680
670
660
710
669
700
670
667
715
670
668
705
695
709
655
700
715
711
700
696
655
681
730
685 1.535865
1.525926
1.441894
1.556757
1.647059
1.597015
1.621212
1.535211
1.651719
1.521429
1.664179
1.64018
1.496503
1.679104
1.646707
1.531915
1.553957
1.523272
1.603053
1.628571
1.496503
1.535865
1.528571
1.511494
1.610687
1.651982
1.589041
1.576642 29 Honda Click Forward 125i
30 Suzuki UA 125T Fi
31 Honda CBR150R
32 Suzuki GZ150–A 150cc
33 Yamaha Luvias GTX
34 Honda Click 125i Idling
35 Yamaha Cuxi
36 Suzuki Axelo 125
37 Suzuki Viva 115 Fi
38 Honda Scoopy FI Club
39 Honda Spacy 125
40 SYM Joyride EFI
41 Piaggio Liberty RST 125
42 Yamaha Mio Classico
43 Honda Mojet 125
44 Honda Taranis 110 TQuốc
45 Honda PCX
46 SYM ElegantSR
47 Suzuki EN150-A
48 Honda Scoopy i S12
49 Kymco Candy 50cc
50 Kymco Candy Hi 110cc
51 Honda Super Cub 110
52 Honda Giorno 50cc Fi
53 Honda PS150i
54 Suzuki SkyDrive 125
55 Honda Diamond Blue 125 1904
1860
1977
2250
1850
1919
1750
1895
1910
1856
1795
1900
1935
1830
1814
1890
1917
1910
2055
1856
1815
1820
1915
1685
1990
1900
1800 689
700
695
900
685
689
635
715
690
694
690
680
760
675
675
680
738
680
730
694
675
680
700
650
700
655
733 1103 1.600871
1095 1.564286
1130 1.625899
1160 1.288889
1060 1.547445
1103 1.600871
1055 1.661417
1075 1.503497
1085 1.572464
1060 1.527378
1070 1.550725
1100 1.617647
1120 1.473684
1040 1.540741
1.62963
1100
1110 1.632353
1094 1.482385
1100 1.617647
1050 1.438356
1060 1.527378
1108 1.641481
1100 1.617647
1050
1.5
1035 1.592308
1150 1.642857
1050 1.603053
1150 1.568895 1685
2250 635
900 Nhỏ nhất
Lớn nhất
Trung bình 1005 1.288889
1160 1.679104
1897.436 695.0182 1088.182 1.568584 2 3 Phụ lục 2. Một số kiểu xe ô tô (Nguồn thu thập trên Internet) 1. VAN: Van là một loại xe tải nhỏ, khoang chở người và trở hàng chung một không gian kín. Loại xe này có đặc điểm là khi không trở người các hàng ghế sau có thể gập lại thành khoang chứa hàng. Cửa bên thông thường là cửa lùa tạo điều kiện hoạt động trong không gian hẹp. Vì là loại xe có tải trọng thường chỉ từ 500 – 1.000 kg nên công suất không lớn. Ở Việt Nam dòng xe VAN (thực chất là minivan) có khá nhiều, có thể nêu lên một vài loại xe mang tên VAN sau đây: Xe Daihatsu Citivan – có hình dáng mẫu mã rất bắt mắt, kết hợp hài hoà tính năng dòng xe du lịch với xe VAN. Xe Daihatsu Citivan lắp động cơ xăng kiểu HD-C có dung tích công tác 0,6 lít, xi-lanh thẳng hàng, 6 xu- páp bố trí trục cam kiểu SOHC. Mô men xoắn Nm, 5 số tay. Số ghế: 7. Hai cửa lùa bên hông, cửa sau mở lên. Hàng ghế thứ. tháo lắp dễ dàng để tạo khoang chứa hàng hoá. Ngoài Daihatsu Citivan ra, loại xe Devan chở hàng thùng kín, cửa lùa bên hông cũng lắp động cơ HD-C cùng loại với Citivan. Loại xe Toyota Hiace Glass VAN. Đây là dòng xe VAN cao cấp, hàng ghế sau gập lại rất dễ tạo khoang hàng rộng rãi. Hai cửa hông là loại cửa lùa, cửa sau mở bằng khí nén. Xe Hiace Glass VAN dùng động cơ phun xăng điện tử. Hộp số 5 số tay. Hai điều hoà nhiệt độ. Loại xe SUZUKI Super Carry VAN. Đây là loại xe nhỏ nhất hiện đang sử dụng ở nước ta, xe SUZUKI VAN có hai loại: xe khách 7 chỗ Windowvan và xe tải cửa lùa Blindvan. Hai loại xe trên đều dùng động cơ xăng F.0A, xi-lanh thẳng hàng, dung tích công tác 70cm. Mômen xoắn 75Nm. Hộp số 5 số tay. Số ghế 7. Hai hàng ghế sau có thể gập lại để tạo khoang chứa hành lý. 2. SUV 4 SUV được EuroNCAP xếp vào nhóm xe địa hình loại lớn. SUV khá quen thuộc hơn với thị trường Việt Nam với các model như Mitsubishi Pajero, Toyota Land Cruiser, Mercedes-Benz M-Class. SUV là loại xe dẫn động 4 bánh (còn gọi là xe hai cầu) có thể chạy trên nhiều loại địa hình, có hệ thống treo cao. Trọng tâm cao là một điểm bất lợi của loại xe này vì làm cho nó dễ bị lăn khi chẳng may gặp tai nạn. Vì thiết kế lớn hơn nên SUV cũng sử dụng nhiều nhiên liệu hơn. 3. Sedan Sedan là một loại xe khách mà thân xe đại thể chia làm ba khoang: khoang động cơ, khoang hành khách và khoang hành lý. Ở Anh, người ta gọi loại xe này là xe saloon. Khoang hành khách thường gồm hai dãy ghế. Khoang động cơ thường ở phía trước. Còn khoang hành lý thường ở phía sau. Cũng có một số xe sedan mà khoang động cơ lại ở phía sau như Renault Dauphine, Tatra T613, Volkswagen Type 3 và Chevrolet Corvair. Sedan là loại thân xe khách phổ biến nhất.Hình 1.2. Các biến đổi hình dáng đối tượng trong không gian 2D.
Hình 1.3. Biểu diễn đường viền bằng vector số phức
Hình 1.4. NSP trên đường viền vector
Hình 1.5. Biểu diễn đường viền và lược đồ xám
Hình 1.6. Mô tả hình dạng hình tròn
Hình 1.7. Đa giác xấp xỉ đối tượng có n cạnh
Hình 1.8. Điểm mẫu căng đều trên mỗi cạnh biên
Hình 1.9. Kiến trúc tổng thể hệ thống CadProTMS
Hình 1.10. Trạm nghiệp vụ xử lý phạt nguội vượt đèn đỏ ngã tư
Hình 1.11. Cấu trúc hệ thống phát hiện và phân loại xe dựa trên video
Hình 1.12. Sơ đồ của hệ thống giám sát giao thông tự động
1.2.4.
Hình 1.13. Cấu trúc hệ thống tích hợp phát hiện, phân loại, theo dõi đối tượng
Hình 1.14. Cấu trúc hệ thống phát hiện đối tượng chuyển động
Hình 1.15. Lược đồ khái quát phân loại đối tượng dựa trên hình chiếu
Bảng 1.1. Phân loại các phương pháp mô hình nền
Bảng 1.2. Kết quả sử dụng độ dài đường biên hình chiếu
Hình 1.16. Cấu trúc khái quát hệ thống nhận dạng đối tượng chuyển động
Hình 1.17. Sơ đồ xác định vùng nghiên cứu
Hình 1.18. Hướng tiếp cận xử lý bài toán
Thuật toán trừ nền cơ bản:
Thuật toán trừ nền trung bình:
Thuật toán Σ-Δ
Thuật toán Σ-Δ cải tiến
Thuật toán thống kê khác biệt cơ bản
Bảng 2.1. Ưu điểm và nhược điểm các thuật toán BSM đã trình bày
Ưu điểm
Nhược điểm
Phương
pháp
Bảng 2.2. Hệ số đánh giá toàn cục các thuật toán BS trong tập dữ liệu BMC [36].
DPWrenGABGS
0.795 0.922
0.853
51.394 0.001 0.993 0.922
MixtureOfGaussianV1BGS
0.793 0.912
0.847
51.107 0.001 0.993 0.910
MultiLayerBGS
0.893 0.863
0.875
49.398 0.001 0.993 0.974
0.923 0.852
0.885
49.412 0.002 0.994 0.985
PixelBasedAdaptiveSegmenter
(PBAS)
LBAdaptiveSOM
0.838 0.907
0.867
50.553 0.001 0.992 0.952
Thuật toán trích chọn khối chuyển động EMB
Hình 2.1. Lược đồ khái quát thuật toán CCA-GMMOF
Thuật toán đếm xe CCA-GMMOF:
Hình 2.2. Minh họa thuật toán gán nhãn cho khối
Thuật toán theo dõi xe thông qua luồng quang học EBOF
Function Lucas-Kanade(I,J)
{
2.3.4.
Bảng 2.3. Dữ liệu thực nghiệm
Hình 2.3. Dữ liệu video quay trên đường quốc lộ 5, hướng Hải phòng - Hà Nội
Hình 2.4. Một số hình ảnh từ camera đưa vào thực nghiệm
Hình 2.5. Giao diện kết quả thực nghiệm của hệ thống
Bảng 2.4. Phản ứng với mật độ xe trên các cung đường
Bảng 2.5. So sánh thời gian xử lý của thuật toán với mỗi khung hình
3.1.1.
Hình 3.1. Phân tích kích thước khối xe ô tô con
Hình 3.2. Sơ đồ tổng quát phân giải theo độ dài
Bảng 3.1. Kết quả thực nghiệm thuật toán CVIL
Hình 3.3. Sơ đồ tổng quát phân loại theo hình dạng
Thuật toán phân loại xe VCALOS
Bảng 3.2. Bảng kết quả thực nghiệm thuật toán VCALOS
Hình 3.4. Sơ đồ khối tổng quát phân loại theo đường viền
Hình 3.5 Đơn giản hóa đường công theo thuật toán Douglas Peucker
Thuật toán Douglas-Peucker:
Hình 3.6. Xấp xỉ hóa đường viền
Thuật toán phân loại phương tiện dựa trên đường viền (CCAVC)
Classification based on Contour Analysis Vector Complex
Hình 3.7. Giao diện hệ thống thực nghiệm thuật toán CCAVC
Hình 3.8. Giao diện hệ thống thực nghiệm thuật toán CCAVC
Hình 3.9. Ví dụ về tập mẫu để so sánh
Hình 3.10. Ví dụ kết quả nhận dạng xe ô tô và xe máy
Tiếng Việt:
Tiếng Anh:
Phụ lục 1. Dữ liệu kích thước các loại xe
Rộng
Cao/rộng
Xe ô tô
TT
1 Xe con Toyota Camry 2.5Q AT
2 Xe con Chevrolet Spark Van
3 Xe tải Hyundai JAC 1T5
4 Xe tải Hyundai JAC 1T8
5 Xe tải Hyundai JAC 1T95
6 Xe tải HINO - WU422L
7 Xe tải HINO - FC9JJSA 6T2
8 Xe tải HINO - FG8JPSB 9T2
9 Xe tải HINO - FL8JTSL 16T
Dài
4825
3495
5480
5710
5710
7160
8250
9550
11450
Cao
1470
1500
2140
2210
2250
3270
3680
3950
3930
Rộng
Cao/rộng
Xe máy
Dài
1932
1890
1776
2034
1832
1935
1925
1925
1930
1910
1901
1841
1905
1835
1795
1955
1960
1898
1920
2020
1905
1932
1855
1915
1920
1830
2090
1795
Cao
1092
1030
1005
1152
1120
1070
1070
1090
1105
1065
1115
1094
1070
1125
1100
1080
1080
1080
1050
1140
1070
1092
1070
1052
1055
1125
1160
1080

