ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lữ Đăng Nhạc

NHẬN DẠNG HÀNH VI CỦA NGƯỜI THAM GIA GIAO THÔNG

DỰA TRÊN CẢM BIẾN ĐIỆN THOẠI

HÀ NỘI – 2019

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lữ Đăng Nhạc

NHẬN DẠNG HÀNH VI CỦA NGƯỜI THAM GIA GIAO THÔNG

DỰA TRÊN CẢM BIẾN ĐIỆN THOẠI

Chuyên ngành: Hệ thống Thông tin

Mã số: 9480401.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS. TS NGUYỄN HÀ NAM

2. PGS. TS PHAN XUÂN HIẾU

Hà Nội – 2019

LỜI CAM ĐOAN

Tôi  xin  cam  đoan  đây  là  công  trình  nghiên  cứu  do  tôi  thực  hiện  dưới  sự

hướng dẫn của PGS.TS. Nguyễn Hà Nam và PGS.TS. Phan Xuân Hiếu tại Bộ môn

các Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ,

Đại học Quốc gia Hà Nội. Các số liệu và kết quả trình bày trong luận án là trung

thực và chưa được công bố trong các công trình khác.

Tác giả

Lữ Đăng Nhạc

LỜI CẢM ƠN

Luận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT-Trường

Đại  học  Công nghệ,  Đại  học  Quốc  gia  Hà  Nội, dưới  sự  hướng  dẫn  của  PGS.TS.

Nguyễn Hà Nam và PGS.TS Phan Xuân Hiếu.

Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam

và PGS.TS Phan Xuân Hiếu. Những người Thầy đã tận tụy chỉ dạy, giúp đỡ tôi giải

quyết những vấn đề khó khăn trong nghiên cứu khoa học và trong cuộc sống.

Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các Nhà khoa học

trong khoa CNTT đã truyền đạt những kiến thức quý báu và đã tạo điều kiện thuận

lợi cho tôi trong quá trình học tập và nghiên cứu. Để có được dữ liệu phục vụ cho

nghiên cứu, tôi xin gửi lời cảm ơn tới Nhóm nghiên cứu của PGS.TS. Nguyễn Hà

Nam đã giúp tôi thu thập dữ liệu cũng như tiến hành một số thực nghiệm liên quan

đến Luận án.

Tôi cũng gửi lời tri ân tới bạn bè, đồng nghiệp, người thân đã giúp đỡ và hỗ

trợ tôi trong suốt quá trình nghiên cứu.

Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ, anh chị em, đặc biệt là vợ và

hai con nhỏ của tôi, những người đã động viên, giành những điều kiện tốt nhất để

tôi có thể hoàn thành chương trình nghiên cứu của mình.

Lữ Đăng Nhạc

ii

Hà Nội,  2019

MỤC LỤC

LỜI CAM ĐOAN .......................................................................................................... I

LỜI CẢM ƠN ............................................................................................................... II

MỤC LỤC .................................................................................................................. III

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ............................................................... V

DANH MỤC HÌNH ẢNH.......................................................................................... VII

DANH MỤC BẢNG BIỂU ......................................................................................... IX

MỞ ĐẦU ........................................................................................................................ 1

Tính cấp thiết của luận án ................................................................................................ 1

Mục tiêu của luận án ....................................................................................................... 3

Đối tượng và phạm vi nghiên cứu .................................................................................... 4

Phương pháp nghiên cứu ................................................................................................. 4

Đóng góp của luận án ...................................................................................................... 5

Bố cục của luận án .......................................................................................................... 6

CHƯƠNG 1.

TỔNG QUAN VỀ NHẬN DẠNG HÀNH VI ................................... 7

1.1 Giới thiệu ............................................................................................................... 7

1.2 Một số khái niệm cơ bản ........................................................................................ 8

1.2.1 Hành động giao thông .................................................................................. 8

1.2.2 Hành vi giao thông ....................................................................................... 9

1.3 Sử dụng dữ liệu cảm biến để phân tích hành vi ..................................................... 10

1.4 Một số nghiên cứu liên quan ................................................................................ 13

1.5 Phương pháp nhận dạng hành vi giao thông dựa trên cảm biến ............................. 20

1.6 Kết luận ............................................................................................................... 24

CHƯƠNG 2.

NHẬN DẠNG HÀNH ĐỘNG GIAO THÔNG .............................. 25

2.1 Giới thiệu ............................................................................................................. 25

2.2 Sử dụng dữ liệu cảm biến để nhận dạng hành động giao thông ............................. 25

2.3 Một số nghiên cứu liên quan ................................................................................ 26

2.4 Hệ thống nhận dạng hành động sử dụng cảm biến gia tốc ..................................... 30

2.4.1 Một số kiến thức cơ sở ............................................................................... 30

2.4.2 Tập thuộc tính đặc trưng ............................................................................. 50

iii

2.4.3 Đề xuất hệ thống nhận dạng hành động ...................................................... 52

2.5 Thực nghiệm và đánh giá ..................................................................................... 57

2.5.1 Môi trường thực nghiệm ............................................................................. 57

2.5.2 Dữ liệu thực nghiệm ................................................................................... 58

2.5.3 Lựa chọn tập thuộc tính .............................................................................. 61

2.5.4 Khảo sát thuật toán phân lớp....................................................................... 64

2.5.5 Xây dựng dữ liệu huấn luyện ...................................................................... 65

2.5.6 Đánh giá hệ thống đề xuất so với một số nghiên cứu hiện tại[CT4]. ............ 70

2.6 Kết luận ............................................................................................................... 72

CHƯƠNG 3.

NHẬN DẠNG HÀNH VI BẤT THƯỜNG ..................................... 73

3.1 Giới thiệu ............................................................................................................. 73

3.2 Bài toán nhận dạng hành vi bất thường ................................................................. 73

3.2.1 Nhận dạng bất thường ................................................................................ 73

3.2.2 Sử dụng cảm biến điện thoại để nhận dạng hành vi bất thường ................... 77

3.3 Một số nghiên cứu liên quan ................................................................................ 78

3.4 Giải pháp nhận dạng hành vi bất thường dựa trên hệ thống nhận dạng hành động . 81

3.4.1 Một số kỹ thuật nhận dạng hành vi bất thường ............................................ 81

3.4.2 Giải pháp đề xuất nhận dạng hành vi bất thường dựa trên hệ thống nhận dạng

hành động ............................................................................................................... 85

3.5 Thực nghiệm và đánh giá ..................................................................................... 89

3.5.1 Môi trường thực nghiệm ............................................................................. 89

3.5.2 Dữ liệu thực nghiệm ................................................................................... 89

3.5.3 Kết quả thực nghiệm với DTW ................................................................... 93

3.5.4 Kết quả thực nghiệm với RF và Dl4jMlpClassifier ..................................... 95

3.5.5 Kết quả thực nghiệm với giải pháp đề xuất ................................................. 97

3.6 Kết luận ............................................................................................................. 101

KẾT LUẬN ................................................................................................................ 103

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN

ÁN ................................................................................................................... 105

TÀI LIỆU THAM KHẢO ......................................................................................... 106

iv

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

DIỄN GIẢI TỪ VIẾT TẮT TIẾNG ANH TIẾNG VIỆT

ACC Accuracy Độ chính xác trong phân lớp dữ liệu

Acc Accelerometer Cảm biến gia tốc

Artificial Neural ANN Mạng nơ - ron Network

AUC Area Under Curve Diện tích dưới đường cong ROC

Cross Validation – 10 Phương pháp đánh giá phân lớp bằng CV10 Fold cách chia dữ liệu thành 10 tập

Dynamic Time Kỹ  thuật  tìm  kiếm  độ  tương  tự  của DTW Wrapping hai chuỗi

FFT Fast Fourier Transform   Biến đổi Fourier nhanh

Âm tính giả (mẫu mang nhãn dương FN False Negative bị phân lớp sai vào lớp âm)

Dương tính  giả  (mẫu mang nhãn  âm FP False Positive bị phân lớp sai vào lớp dương)

Global Positioning GPS Hệ thống định vị toàn cầu System

Gyr Gyroscope Cảm biến con quay hồi chuyển

Là  một  thuật  toán  phân  lớp  thuộc

J48 J48 CART (Classification and

Regression Tree)

Thuật toán phân lớp k láng giềng gần k- NN k Nearest Neighbor nhất

Mag Magnetometer Cảm biến từ trường

v

NB Naïve Bayes Classifier Thuật toán phân lớp Naïve Bayes

RF Random Forest Rừng ngẫu nhiên

Receiver Operator ROC Đặc tính hoạt động của bộ thu nhận Characteristic

Support Vector SVM Véc-tơ tựa Machines

Âm  tính  thật  (mẫu  mang  nhãn  âm TN True Negative được phân lớp đúng vào lớp âm)

Dương  tính  thật  (mẫu  mang  nhãn

TP True Positive dương  được  phân  lớp  đúng  vào  lớp

dương)

ZCR Zero Crossing Rate Tỷ lệ vượt qua điểm cắt không

vi

DT Decision Table Bảng quyết định

DANH MỤC HÌNH ẢNH

Hình  1-1. Hướng nghiên cứu tổng thể của bài toán nhận dạng hành vi ............................ 23

Hình 1-2. Hệ thống phân tích hành vi bất thường ............................................................. 24

Hình 2-1. Một số kỹ thuật chuẩn bị dữ liệu [37] ............................................................... 31

Hình 2-2. Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu ............................................ 34

Hình 2-3. (a) Hướng của điện thoại được xác định bởi hệ tọa độ (X, Y, Z). (b) Hướng di

chuyển của phương tiện theo hệ tọa độ trái đất (X’, Y’, Z’) ...................................... 35

Hình 2-4. Kết hợp biểu diễn thông tin trên miền thời gian và tần số [46] ......................... 36

Hình 2-5. Hệ tọa độ và các trục quay trên điện thoại thông minh[48] ............................... 42

Hình 2-6. Độ đo AUC[50] ............................................................................................... 48

Hình 2-7. Hệ thống nhận dạng hành động giao thông....................................................... 53

Hình 2-8. Thuật toán lựa chọn kích thước cửa sổ và chồng dữ liệu theo AUC .................. 54

Hình 2-9. Nhận dạng hành động với các kích thước cửa sổ lựa chọn. ............................... 56

Hình 2-10. Hành động dừng và hành động đi thẳng ......................................................... 58

Hình 2-11. (a): Hành động rẽ phải; (b): Hành động rẽ trái ................................................ 59

Hình 2-12. Mô tả tín hiệu cảm biến gia tốc của các hành động (a): “Dừng”; (b): “Đi thẳng”;

(c):”Rẽ trái”; (d): “Rẽ phải”. ..................................................................................... 59

Hình 2-13. Tập dữ liệu đặc trưng sử dụng cho nhận dạng hành động giao thông cơ bản ... 60

Hình 2-14. Phân bổ của tập dữ liệu đặc trưng được biến đổi với 59 thuộc tính ................. 60

Hình 2-15. Kết quả phân lớp sử dụng các tập thuộc tính H2, T2, F2, TH2, TF2, TFH2 .... 62

Hình 2-16. Kết quả so sánh dữ liệu thô và dữ liệu biến đổi hệ tọa độ ............................... 63

Hình 2-17. Kết quả độ đo thực nghiệm với các thuật toán phân lớp ................................. 64

vii

Hình 2-18. Chu kỳ thay đổi độ đo AUC tương ứng với hai kích thước cửa sổ liền nhau của

các hành động cơ bản với: (a) Dừng; (b) Đi thẳng; (c) Rẽ trái; (d) Rẽ phải ............... 67

Hình 2-19. Kết quả phân lớp với kích thước cửa sổ lựa chọn trên tập TF2 và TFH2 ........ 70

Hình 3-1. Khái niệm dữ liệu bất thường[58] .................................................................... 74

Hình 3-2. Độ đo DTW ..................................................................................................... 82

Hình 3-3. Sử dụng DTW để phát hiện hành vi bất thường ................................................ 83

Hình 3-4. Nhận dạng hành vi bất thường dựa trên hành động cơ bản ............................... 84

Hình 3-5.Sơ đồ hệ thống phát hiện hành vi bất thường..................................................... 86

Hình 3-6. Phát hiện hành vi bất thường dựa trên hành động giao thông cơ bản ................ 88

Hình 3-7. Mẫu dữ liệu cảm biến gia tốc của hành vi bất thường – “lạng lách” ................. 91

Hình 3-8. Mẫu dữ liệu cảm biến gia tốc của hành vi bình thường (đi thẳng) ..................... 92

Hình 3-9. Kết quả so khớp với các giá trị ngưỡng khác nhau ........................................... 94

Hình 3-10. Kết quả nhận dạng hành vi bình thường và bất thường ................................. 100

viii

DANH MỤC BẢNG BIỂU

Bảng 2-1. Một số nghiên cứu nhận dạng hành động giao thông ....................................... 28

Bảng 2-2.  Các thuộc tính đặc trưng ................................................................................. 47

Bảng 2-3. Ý nghĩa diện tích bên dưới đường cong ROC (AUC) ....................................... 49

Bảng 2-4. Các tập thuộc tính ........................................................................................... 50

Bảng 2-5. Tập thuộc tính trong hệ thống nhận dạng hành động giao thông cơ bản ........... 52

Bảng 2-6. Tham số mặc định của thuật toán phân lớp sử dụng cho thực nghiệm .............. 57

Bảng 2-7. Thông tin đối tượng tham gia thực nghiệm ...................................................... 58

Bảng  2-8. Cảnh huống thu thập dữ liệu của các hành động ............................................. 58

Bảng 2-9. Tập mẫu dữ liệu đặc trưng sử dụng nhận dạng hành động giao thông cơ bản ... 60

Bảng 2-10. Khảo sát tập thuộc tính cho hệ thống phát hiện hành động cơ bản .................. 61

Bảng 2-11, Kết quả phân lớp hành động trên các tập thuộc tính ....................................... 62

Bảng 2-12. Kết quả so sánh dữ liệu thô và dữ liệu đã biến đổi hệ tọa độ .......................... 63

Bảng 2-13. Kết quả độ đo AUC của hành động dừng ....................................................... 66

Bảng 2-14. Kết quả độ đo AUC của hành động đi thẳng .................................................. 66

Bảng 2-15. Kết quả độ đo AUC của hành động rẽ trái ..................................................... 66

Bảng 2-16. Kết quả độ đo AUC của hành động rẽ phải .................................................... 66

Bảng 2-17. Kích thước cửa sổ được lựa chọn theo độ đo AUC ........................................ 68

Bảng 2-18. Kết quả phân lớp với tham số tối ưu trên hai tập TF2 và TFH2 ...................... 69

Bảng 2-19. Kết quả so sánh phương pháp nhận dạng dựa trên tập thuộc tính đề xuất với các

phương pháp khác trên cùng bộ dữ liệu HTC [56] [CT4] .......................................... 72

Bảng 3-1. Thực nghiệm thu dữ liệu nhận dạng hành vi bất thường ................................... 91

Bảng 3-2. Số lượng các mẫu dữ liệu thực nghiệm ............................................................ 92

ix

Bảng 3-3. Tham số mặc định của thuật toán RF ............................................................... 96

Bảng 3-4. Tham số của Dl4jMlpClassifier ....................................................................... 96

Bảng 3-5. Kết quả nhận dạng sử dụng CV10 ................................................................... 96

Bảng 3-6. Kích thước cửa sổ dữ liệu phát hiện hành vi .................................................... 98

Bảng 3-7. Lựa chọn ngưỡng sai khác nhằm phát hiện hành vi bất thường ........................ 99

Bảng 3-8. Kết quả phát hiện hành vi của giải pháp đề xuất trên tập dữ liệu kiểm tra ........ 99

Bảng 3-9. Kết quả phát hiện hành vi của các phương pháp khác nhau ............................ 100

x

MỞ ĐẦU

Tính cấp thiết của luận án

Giao thông luôn là chủ đề được quan tâm ở hầu hết các nước trên thế giới,

đặc  biệt là  các nước  đang phát triển bởi  nó  tác  động/ảnh  hưởng trực tiếp đến đời

sống kinh tế xã hội. Trong đó, nổi lên các vấn đề an toàn giao thông. Có nhiều yếu

tố ảnh hưởng đến an toàn giao thông đô thị bao gồm các yếu tố ngoại cảnh, các yếu

tố liên quan đến con người. Những yếu tố ngoại cảnh đó có thể là điều kiện hạ tầng

giao thông, hệ  thống quản  lý điều  khiển  giao  thông  và  tình  trạng  các phương tiện

tham gia giao thông. Tuy nhiên, một trong những  yếu tố quan trọng tác động trực

tiếp đến vấn đề an toàn giao thông đó là thái độ và hành vi của người tham gia giao

thông. Do đó, việc nhận dạng hành vi của người tham gia giao thông bao gồm cả

nhận dạng các hành động và hành vi bất thường có một ý nghĩa rất lớn trong việc

xây dựng giải pháp, ứng dụng hỗ trợ người tham gia giao thông. Vì vậy, chủ đề này

đã và đang thu hút được sự quan tâm nghiên cứu của nhiều nhà khoa học, các phòng

thí nghiệm trên thế giới. Hơn thế nữa, những thông tin về hành vi của người tham

gia giao thông sẽ rất hữu ích cho những nhà quản lý trong việc quy hoạch hệ thống

và xây dựng chính sách quản lý giao thông và các chính sách an sinh xã hội khác.

Ngoài ra, mô hình nhận dạng hành vi người tham gia giao thông còn trợ giúp đánh

giá mức độ rủi ro trong các lĩnh vực bảo hiểm cũng như có thể ước tính mức độ tiêu

thụ năng lượng và ô nhiễm môi trường của hệ thống giao thông.

Để  xây  dựng  được  mô  hình  nhận  dạng  hành  vi  của  người  tham  gia  giao

thông các thông tin, dữ liệu của người tham gia được thu thập bằng nhiều cách khác

nhau.  Nhờ sự phát triển của công nghệ phần cứng, nhiều loại cảm biến khác nhau

được tích hợp đã cho phép điện thoại thông minh trở thành công cụ hữu ích trong

việc  thu  thập dữ  liệu  từ người dùng.  Chính  vì vậy,  trong thời  gian  gần đây,  nhiều

công trình nghiên cứu về nhận dạng hành vi người dùng bao gồm cả hành vi cử chỉ

và hành vi trong giao thông dựa trên cảm biến điện thoại thông minh được công bố.

Tuy nhiên, để đảm bảo độ chính xác cao trong kết quả của mô hình nhận dạng thì

hầu hết các nghiên cứu được thực hiện với vị trí điện thoại cố định trên phương tiện

giao thông hoặc sử dụng dữ liệu từ nhiều nguồn cảm biến khác nhau của điện thoại.

Điều này làm cho mô hình được xây dựng trở nên quá phức tạp hoặc khó thực hiện

trong thực tế. Việc nghiên cứu về nhận dạng hành vi của người dùng khi vị trí điện

thoại người dùng không cố định trong quá trình tham gia giao thông là  yêu cầu tự

nhiên phù hợp với thực tế.

Ngoài  ra,  những  nghiên  cứu  đã  công  bố  về  nhận  dạng  hành  vi  giao  thông

được thực hiện trong các điều kiện hoàn cảnh khác nhau. Trong đó, có sự khác nhau

về yếu tố khu vực địa lý, hạ tầng giao thông và văn hóa so với các điều kiện và môi

trường giao  thông tại  Việt  Nam.  Do vậy,  những mô  hình  nhận dạng đã  được  xây

dựng gặp nhiều khó khăn khi phát triển và áp dụng trong điều kiện cụ thể của Việt

Nam.  Sự  khác biệt này  xuất  phát  từ một  số  yếu  tố  quan trọng bao  gồm  cả  yếu  tố

khách quan  và  yếu  tố  chủ quan.  Thứ nhất, đó  là  các nghiên  cứu  về bài toán nhận

dạng thường tập trung vào các phương tiện giao thông phổ biến tại các nước phát

triển với đa số phương tiện sử dụng cho thực nghiệm là xe ô tô, xe buýt và tàu điện

ngầm mà ít khi xét đến các phương tiện thô sơ. Trong khi đó, hệ thống giao thông

đô thị tại các nước đang phát triển hoặc chậm phát triển, trong đó có Việt nam, các

phương tiện giao thông được người dân sử dụng chủ yếu vẫn là xe máy và xe đạp

cùng  một số phương tiện  công cộng khác.  Hơn thế nữa, phần  lớn  các nghiên  cứu

trước đây thực hiện trong điều kiện hạ tầng giao thông ổn định hơn so với tính đa

dạng và điều kiện giao thông như ở Việt Nam. Thứ hai, về  yếu tố chủ quan đó là

văn hóa và thói quen di chuyển của người dân khi tham gia giao thông. Với những

phương tiện như ô tô hay xe buýt trong các nghiên cứu, dữ liệu cảm biến được thu

thập  trong  điều  kiện  phương  tiện  di  chuyển  trên  các  làn  đường  riêng,  hoặc  hay

đường chạy xác định trước. Điều kiện này không thể thực hiện được với hiện trạng

giao thông đô thị của Việt Nam. Tất cả những yếu tố cơ bản kể trên là những lý do

giải thích tại sao cần có các nghiên cứu mô hình nhận dạng hành vi giao thông phù

2

hợp với tính chất đặc thù tại Việt Nam.

Để hỗ trợ được người tham gia giao thông, một trong những mục đích quan

trọng, cấp thiết của mô hình phát hiện hành vi đó là khả năng phát hiện được các

hành vi giao thông bất thường. Các nghiên cứu về vấn đề này thường tập trung vào

phương tiện ô tô; các phương tiện có những thiết kế, đặc tính khác nhau nên rất khó

có một mô hình phù hợp với tất cả các loại phương tiện khác nhau. Các nghiên cứu

trước đây cũng thường sử dụng hướng tiếp cận kết hợp nhiều loại cảm biến để thu

thập,  phân  tích  dữ  liệu  cho  quá  trình  nhận  dạng.  Bên  cạnh  các  cảm  biến  chuyển

động  thì  các  cảm  biến  khác  như  GPS,  cảm  biến  hình  ảnh  và  cảm  biến  âm  thanh

cũng có thể được sử dụng nhằm nâng cao độ chính xác trong nhận dạng các hành vi

bất thường khi lái xe. Việc sử dụng đồng thời nhiều dữ liệu cảm biến cùng một thời

điểm dẫn đến tiêu tốn nhiều năng lượng của điện thoại thông minh và khó có thể áp

dụng trong thực tế. Hướng tiếp cận lựa chọn thu thập, phân tích dữ liệu cảm biến

chuyển động như cảm biến gia tốc sẽ có mức tiêu tốn năng lượng thấp nhất nhưng

cần phải xây dựng một mô hình phù hợp để đảm bảo độ chính xác nhận dạng trên

các loại phương tiện giao thông khác nhau. Một trong những giải pháp căn cốt cho

vấn đề này đó là cần xác định, lựa chọn được tập thuộc tính đặc trưng phù hợp cho

các loại phương tiện, thể hiện rõ đặc trưng của hành vi sao cho nhận dạng, phát hiện

không làm  tăng độ phức  tạp  tính  toán  của  mô hình mà  vẫn đảm  bảo  kết quả phát

hiện hành động, hành vi bất thường.

Với  mong  muốn  xây  dựng  mô  hình  phát  hiện  và  đoán  nhận  hành  vi  bất

thường sử dụng cảm biết gia tốc của điện thoại thông minh, chúng tôi chọn đề tài:

“Nhận dạng hành vi của người tham gia giao thông dựa trên cảm biến điện thoại”

làm  đề  tài  nghiên  cứu  trong  khuôn  khổ  luận  án  tiến  sĩ  chuyên  ngành  Hệ  thống

Thông tin nhằm giải quyết một số vấn đề đã đặt ra.

Mục tiêu của luận án

Mục  tiêu  chính  của  Luận  án  tập  trung  vào  phân  tích  dữ  liệu  cảm  biến  thu

được từ điện thoại của người tham gia giao thông nhằm nhận dạng được các hành vi

3

giao thông bất thường.

Để giải quyết được mục tiêu của Luận án, chúng tôi tập trung vào giải quyết

các vấn đề chính sau:

 Khảo sát các kỹ thuật phân tích dữ liệu trong và ngoài nước. Tìm hiểu các kỹ

thuật thu thập và biến đổi dữ liệu áp dụng cho các loại cảm biến khác nhau,

trong  đó  tập  trung  vào  cảm  biến  gia  tốc  có  mức  tiêu  thụ  năng  lượng  thấp

nhằm tìm ra tập thuộc tính đặc trưng phù hợp cho hệ thống nhận dạng hành

động và hành vi.

 Xây dựng hệ thống nhận dạng hành động giao thông cơ bản (đi thẳng, dừng,

rẽ trái, rẽ phải) của người điều khiển phương tiện dựa trên dữ liệu cảm biến

gia tốc được biến đổi từ tập thuộc tính lựa chọn.

 Dựa trên hệ thống nhận dạng hành động, nghiên cứu, đề xuất giải pháp phát

hiện  hành  vi  giao  thông  bất  thường,  chủ  yếu  là  với  phương  tiện  xe  máy.

Trong một thời gian ngắn tương ứng với một hành động cơ bản xảy ra, nếu

phát hiện thấy có các hành động sai khác xảy ra thì xác định là một hành vi

bất thường. Sự bất thường được đánh giá bằng việc phân đoạn cửa sổ hành

động giao thông cơ bản thành các cửa sổ dữ liệu có kích thước nhỏ hơn rồi

so sánh nhãn hành động nhận dạng được của các cửa sổ này so với nhãn của

hành động giao thông cơ bản đó để xác định sự bất thường hay bình thường

dựa trên việc so sánh tỉ lệ sai khác với một tỉ lệ cho trước.

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của Luận án là phân tích, nhận dạng hành vi, hành vi

giao thông bất thường của người điều khiển phương tiện. Dựa trên cảm biến gia tốc

thu được từ điện thoại thông minh của các đối tượng sử dụng phương tiện để đưa ra

giải pháp nhận dạng hành động cơ bản làm cơ sở cho nhận dạng hành vi giao thông

bất thường ở đô thị của Việt Nam.

Phương pháp nghiên cứu

4

Luận  án  sử  dụng  các  phương pháp  khảo  sát,  tổng hợp,  phân  tích  thông  tin  cần thiết; tham khảo, đánh giá các nghiên cứu liên quan để từ đó tìm ra hướng giải

quyết vấn đề. Xác định rõ đối tượng và phạm vi nghiên cứu để từ đó xây dựng mô  hình nhận dạng hành động và hành vi giao thông.

Khảo  sát  các  kỹ  thuật  thu  thập,  xử  lý  dữ  liệu  cảm  biến,  phân  tích  các  đặc  điểm của phương tiện, hành động giao thông để từ đó đề xuất giải pháp nhận dạng  hành động, hành vi giao thông bất thường dựa trên cảm biến thu được. Phương pháp  phân tích sử dụng lý thuyết và chứng minh bằng thực nghiệm được áp dụng để thực  hiện yêu cầu bài toán đặt ra.

Đóng góp của luận án Đóng góp thứ nhất của luận án: là đề xuất tập thuộc tính đặc trưng dựa trên  miền  thời  gian  và  miền  tần  số  nhằm  biến  đổi  dữ  liệu  cảm  biến  thành dữ  liệu  đặc  trưng phục vụ cho nhận dạng hành động và hành vi bất thường. Kết quả độ đo sau  khi phân lớp dữ liệu được sử dụng để đánh giá, lựa chọn tập thuộc tính. Trong đó,  sử dụng tham số Hjorth cho các đại lượng khác nhau nhằm thu được các thuộc tính  phù hợp để biến đổi dữ liệu cảm biến thành dữ liệu đặc trưng. Tập thuộc tính đặc  trưng phù hợp  sẽ sử dụng làm cơ  sở  cho  việc  xây  dựng hệ  thống nhận dạng bằng

phương pháp phân lớp [CT2], [CT4].

Khảo sát, lựa chọn kích thước cửa sổ và tỉ lệ chồng dữ liệu để phân tích tìm  ra các giá trị tương ứng, phù hợp với các hành động. Qua đó, hỗ trợ hệ thống nhận  dạng các hành động giao thông có hiệu quả hơn [CT1], [CT2], [CT4].

Khi sử dụng hệ thống nhận dạng thực nghiệm trên cùng một bộ dữ liệu được  công bố bởi công ty HTC của Đài Loan, kết quả nhận dạng bằng hệ thống đề xuất  cao hơn  so với một  số nghiên  cứu  đã được  công bố  trước đó  với tập dữ  liệu này.

Phương pháp và kết quả thực nghiệm được trình bày trong công bố [CT4].

Đóng góp thứ hai của luận án:  đề  xuất  giải  pháp  phát  hiện  hành  vi  giao  thông bất thường theo một hướng tiếp cận mới, hướng tiếp cận này dựa trên kết quả  nhận dạng hành động cơ bản. Trong thời gian ngắn mà một hành động cơ bản xảy  ra, nếu hệ thống nhận dạng phát hiện có sự bất thường thì xác định đây là hành vi  bất thường. Kỹ thuật xác định bất thường dựa trên phân đoạn dữ liệu của hành động  cơ bản với kích thước cửa sổ nhỏ hơn sau đó tiến hành nhận dạng các đoạn dữ liệu

này nhằm  so  sánh, đánh  giá sự  sai khác  các  nhãn hành động nhận  được  với  hành  động cơ bản để xác định tính bất thường.

Các giải pháp, kết quả thu được của luận án thể hiện trong 4 công trình đã

5

được công bố.  Trong đó có  1 bài báo quốc  tế  có  chỉ  số  SCIE;  3 bài báo hội nghị

quốc  tế  có  phản  biện  và  có  chỉ  số  Scopus  được  thể  hiện  ở  các  công  trình  [CT1],

[CT2], [CT3] và [CT4].

Bố cục của luận án

Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính

của luận án được chia thành 3 chương, cụ thể như sau:

Chương 1: Giới thiệu một số khái niệm cơ bản về hành động, hành vi giao

thông và hành vi giao thông bất thường. Từ đó, giới thiệu bài toán phân tích hành vi

bất thường của người tham gia giao thông dựa trên dữ liệu cảm biến. Khảo sát, tổng

hợp,  phân  tích  một  số  nghiên  cứu  trước  đây  về  phương  pháp,  kỹ  thuật  giải  pháp

phân tích, xử lý dữ liệu cảm biến; phân tích, nhận dạng, phát hiện hành động, hành

vi giao thông nhằm làm rõ các vấn đề của bài toán đặt ra. Từ đó, đề xuất phương

pháp nhận dạng hành vi bất thường dựa trên dữ liệu cảm biến của điện thoại.

Chương  2:  Giới  thiệu  bài  toán  nhận  dạng hành  động  giao  thông.  Hệ  thống

nhận  dạng được  xây  dựng thực  hiện nhận dạng các  hành  động  giao  thông cơ bản

dựa trên hướng tiếp cận sử dụng dữ liệu đặc trưng thu được từ việc biến đổi dữ liệu

cảm biến bằng tập thuộc tính đề xuất. Tập thuộc tính đặc trưng được lựa chọn phù

hợp với yêu cầu bài toán, kết hợp các thuộc tính trên cả miền thời gian và miền tần

số  cũng  như  sự  đóng  góp  của  tham  số  Hjorth  vào  tập  thuộc  tính.  Hệ  thống  nhận

dạng là cơ sở cho hệ thống giải pháp nhận dạng hành vi bất thường ở chương 3.

Chương 3: Dựa trên kết quả của hệ thống nhận dạng hành động, đề xuất giải

pháp  nhận  dạng  hành  vi  giao  thông,  hành  vi  bất  thường.  Thực  nghiệm  được  tiến

hành trên cùng một tập dữ liệu với các phương pháp phổ biến khác như DTW, sử

6

dụng kỹ thuật học sâu. Qua đó, làm rõ được ý nghĩa của giải pháp đề xuất.

Chương 1.

TỔNG QUAN VỀ NHẬN DẠNG HÀNH VI

1.1

Giới thiệu

Ngày nay, an toàn giao thông và hỗ trợ lái xe an toàn là một trong những vấn

đề đang nhận được sự quan tâm rất lớn từ các nhà quản lý cũng như người dân ở

hầu hết các nước trên thế giới. Theo báo cáo toàn cầu về an toàn giao thông đường

bộ của tổ chức WHO, tai nạn giao thông là một trong 10 nguyên nhân làm chết 1.2

triệu người mỗi năm, một số nước có tỉ lệ cao tập trung vào các nước có thu nhập

thấp và trung bình[1]. Trong đó, các tác nhân gây tai nạn thường là do hành động,

hành vi bất thường của người điều khiển phương tiện. Vì vậy, việc hỗ trợ thông tin

cảnh báo cho lái xe trong suốt hành trình của họ là một trong những cách làm hiệu

quả để tránh tai nạn xảy ra.

Có nhiều nghiên cứu đã thực hiện nhằm giải quyết về vấn đề này, các nghiên

cứu tập trung vào hệ thống cảnh báo và hỗ trợ lái xe; có thể chia thành các hướng

chính  như  sau:  nhận  diện  các  loại  phương  tiện  (ô  tô,  xe buýt,  tàu  hỏa,  xe  đạp,  đi

bộ)[2][3]; xác định các kiểu lái xe (lái xe ẩu, lái xe trong tình trạng say rượu, lái xe

trong  tình  trạng  mệt  mỏi,  lái  xe  trong  tình  trạng  buồn  ngủ,  lái  xe  không  tập

trung)[4][5],  phát  hiện  các  sự  kiện  giao  thông  bình  thường  và  bất  thường  (di

chuyển,  dừng,  rẽ  trái,  rẽ  phải,  quay  đầu  với  tốc  độ  nhanh,  dừng  đột  ngột,  đánh

võng)[6], phát hiện tai nạn [7][8]; phát hiện, nhận dạng chất lượng đường đi và điều

kiện,  hiện  trạng  giao  thông  [8][9],  đánh  giá  mức  tiêu  thụ  năng  lượng  và  ô nhiễm

môi trường [9].

Các nghiên cứu trên cho thấy các bài toán phân loại phương tiện, nhận dạng

hành động, hành vi giao thông là những bài toán cơ sở, hữu ích nhằm hỗ trợ người

tham gia cũng như giám sát các hoạt động giao thông. Trong hệ thống giao thông

đường bộ với điều kiện hạ tầng giao thông còn nhiều bất cập, các phương tiện chủ

yếu là  xe  máy,  xe  đạp  và  các phương tiện công cộng phổ biến khác, phân  tích  và

phát  hiện  được  hành  vi  giao  thông  gặp  nhiều  khó  khăn.  Một  số  hệ  thống  chuyên

7

dụng, thiết kế cho môi trường khác sẽ khó triển khai trong điều kiện, môi trường đô

thị đặc thù ở Việt Nam. Do đó, hướng tiếp cận sử dụng dữ liệu thu từ thiết bị điện

thoại thông minh đang được phổ biến rộng rãi ở các đô thị là một trong những giải

pháp khả thi.

Vì  điện  thoại  thông  minh  được  sử  dụng  cho  nhiều  mục  đích  cá  nhân  khác

nhau cũng như có giới hạn về năng lượng, sự đa dạng về chủng loại, chất lượng của

thiết bị phần cứng dẫn đến yêu cầu cần phải xây dựng hệ thống, giải pháp phân tích,

phát hiện hành động, hành vi sao cho phù hợp là một bài toán đặt ra cần được giải

quyết.

Do  vậy,  chương  này  làm  rõ  các  khái  niệm  cơ  bản  về  hành  động,  hành  vi,

hướng tiếp cận bài toán phân tích hành vi giao thông qua việc khảo sát, phân tích

những nghiên cứu trước đây về dữ liệu cảm biến, hệ thống và mô hình nhận dạng,

phát  hiện.  Từ  đó,  xác  định  phương  pháp  phân  tích hành  vi  giao  thông,  phát  hiện

hành vi giao thông bất thường dựa trên cảm biến gia tốc của điện thoại thông minh.

1.2 Một số khái niệm cơ bản

1.2.1 Hành động giao thông

Hành  động  giao  thông  là  việc  người  điều  khiển  thay  đổi  trạng  thái  của

phương tiện trong quá trình tham gia giao thông[10].

Hành động giao thông được các đối tượng tham gia lưu thông sử dụng theo

mục đích,  thói quen  của mình.  Thông thường,  các  hành  động được  phân biệt  dựa

vào  hai  thay  đổi  cơ bản  đó  là  thay  đổi  vận  tốc  và  thay  đổi  hướng  di  chuyển  của

phương tiện. Từ đó, có thể đưa ra một số hành động thường gặp đó là hành động

dừng, di chuyển, chờ, quay đầu, đổi hướng sang trái, sang phải, phanh với các tính

chất và mức độ khác nhau. Trong hệ thống phân tích, giám sát giao thông, việc định

nghĩa  và nhận dạng các  hành động  tùy  thuộc  vào mục đích,  yêu  cầu  của từng bài

toán, dựa trên đánh giá tính chất, mức độ của các hành động đó trong những hoàn

cảnh, điều kiện cụ thể để giải quyết  yêu cầu đặt ra[11]. Với mục đích nghiên cứu

của  mình,  chúng  tôi  chỉ  tập  trung  vào  bốn  hành  động  cơ  bản  liên  quan  đến  đổi

8

hướng  điều  khiển  phương  tiện  và  thay  đổi  tốc  độ  phương  tiện  đó  là:  hành  động

dừng, hành động đi thẳng, rẽ trái và rẽ phải. Từ đó, phân tích, đánh giá tính chất của

mỗi hành động cơ bản này để phân tích, nhận dạng được hành vi bất thường.

1.2.2 Hành vi giao thông

Hành vi giao thông là sự biểu hiện thay đổi trạng thái của phương tiện theo

những  cách  thức,  mức  độ,  tính  chất  khác  nhau  trong  quá  trình  lưu  thông

[10][11][12] [13].

Hành  vi  giao  thông  được  đánh  giá  dựa  trên  các  phương  pháp  khác  nhau.

Trong đó, một trong những phương pháp thường được sử dụng đó là dựa trên tính

chất  cảu  một hành động  giao  thông hoặc  sự  lặp đi  lặp  lại  của  các hành động một

cách liên tục trong điều kiện, tình huống và môi trường cụ thể. Do đó, yếu tố mức

độ, tính chất của một hành động hoặc sự lặp đi lặp lại chuỗi hành động lặp đi lặp lại

là  cơ  sở  quan  trọng  nhằm  đánh  giá  hành  vi  giao  thông  là  bình  thường  hay  bất

thường.

Sự bất thường của một hành vi có thể được hiểu là những phản ứng hay việc

thực hiện điều khiển, sử dụng phương tiện theo những trạng thái không bình thường

khi có các yếu tố khách quan, chủ quan tác động đến đối tượng trong quá trình tham

gia giao thông.

Việc nhận biết, phân biệt được loại hành vi giao thông là điều kiện cơ sở cho

các  hệ  thống,  ứng  dụng  vào  những  dịch  vụ  khác  nhau nhằm  thông  tin,  phản  hồi,

điều  chỉnh  hành  vi  của  cá  nhân  tham  gia  giao  thông  với  các  mục  đích  khác  nhau

như giảm tránh những nguy cơ tiềm ẩn hoặc có thể hỗ trợ xây dựng, phát triển các

hệ thống mô phỏng, giám sát, quản lý hệ thống giao thông đô thị.

Để nhận dạng hành vi giao thông bất thường có các phương pháp khác nhau.

Trong đó,  phương  pháp  thường  được  sử  dụng  là  đánh  giá  sự  bất  thường  dựa  vào

hành vi giao thông bình thường. Do vậy, việc xác định rõ thế nào là hành vi bình

thường và bất thường trong những điều kiện cụ thể là cần thiết nhằm giảm thiểu sự

9

nhầm lẫn khi phân tích, nhận dạng.

1.3

Sử dụng dữ liệu cảm biến để phân tích hành vi

Phân  tích,  nhận  dạng hành  vi  giao  thông được  thực  hiện  ở  nhiều  quốc  gia

trên  thế  giới nhằm  phân  loại  được hành  vi của người  tham  gia  lưu  thông phục  vụ

cho nhiều mục đích trong các  lĩnh  vực  khác nhau  như bảo  hiểm,  y  tế,  giao  thông

cũng như các bài toán quản lý và quy hoạch đô thị.

Trong đó, một trong những yêu cầu quan trọng của việc phân tích hành vi là

tìm ra những hành vi có nguy cơ tiềm ẩn khi tham gia giao thông như hành vi đi quá

tốc độ cho phép hoặc quy định của luật giao thông; hành vi thay đổi tốc độ, hướng

điều  khiển  phương  tiện  một  cách  đột  ngột;  hành  vi  điều  khiển  phương  tiện  trong

trạng thái  không tỉnh  táo hoặc khi  say  rượu, cũng như một  số hành  vi giao  thông

khác trong điều kiện phức tạp của giao thông đô thị.

Do sự đặc thù của các vùng miền và yếu tố văn hóa tác động đến hành vi của

người điều khiển giao thông khác nhau nên các hệ thống phân tích hành vi đa dạng

phụ thuộc vào các yêu cầu cụ thể của từng bài toán nên các cách thức xây dựng hệ

thống  cũng  khác  nhau.  Trong  đó,  thường  sử  dụng  một  trong  ba  cách  thức  thông

dụng xây dựng hệ thống phân tích hành vi: thứ nhất, tín hiệu từ các thiết bị thu được

gửi  lên  xử  lý  thực hiện phân  tích, nhận  dạng trên  máy  chủ  sau  đó  gửi  lại  thiết bị

nhận thông tin thông qua hạ tầng mạng. Thứ hai, là các tín hiệu được thu thập và

phân tích, nhận dạng và hiển thị thông tin về hành vi trên chính các thiết bị cá nhân

đang  sử dụng.  Thứ ba,  đó  là  dữ  liệu  được  thu  thập  trên  thiết bị  sau  đó  tiến  hành

phân tích, nhận dạng, kết quả thu được gửi lên máy chủ để hiển thị, mô phỏng và là

thông tin đầu vào cho những ứng dụng, dịch vụ khác.

Mỗi dạng hệ thống có những ưu điểm, nhược điểm khác nhau tùy thuộc vào

yêu cầu bài toán cũng như sử dụng loại dữ liệu đầu vào để xây dựng và thiết kế hệ

thống. Hiện nay, một số nguồn dữ liệu phổ biến được sử dụng để phân tích hành vi

giao thông như đó là dữ liệu hình ảnh, video, âm thanh và dữ liệu cảm biến. Trong

đó,  các  giải pháp sử dụng dữ  liệu hình  ảnh, video để nhận dạng hành vi  có nhiều

nghiên cứu áp dụng cho bài toán nhận dạng, đặc biệt là nhận dạng các đối tượng của

10

hệ thống giao thông. Ví dụ như đếm số lượng phương tiện, nhận diện phương tiện,

tìm kiếm phương tiện và một số ứng dụng khác trong hệ thống giám sát giao thông.

Đối với những hệ thống này, cần những thiết bị thu và gửi hình ảnh có chất lượng

tốt và các đáp ứng khác về phần cứng thiết bị.

Sự  phát  triển  công nghệ  phần  cứng hiện  nay  đã  giúp  cho  điện  thoại  thông

minh có năng lực xử lý thông tin ngày càng tốt hơn. Chất lượng các cảm biến gắn

kèm ngày càng cao hơn, tuy nhiên vẫn còn giới hạn về, khả năng lưu trữ và năng

lượng của pin điện thoại. Bên cạnh đó, những công cụ phân tích dữ liệu ngày càng

phát triển đa dạng, tối ưu hơn, đáp ứng được các môi trường thực hiện khác nhau,

trong đó có môi trường cung cấp nguồn lực thấp cho hệ thống nên hướng tiếp cận

lựa chọn xây dựng hệ thống phân tích, nhận dạng hành vi giao thông trên điện thoại

thông minh đang được cộng đồng nghiên cứu quan tâm thể hiện qua nhiều kết quả

nghiên cứu được công bố gần đây.

Cảm  biến  điện  thoại  thông  minh  hiện  nay  ngày  càng  đa  dạng.  Một  số  loại

cảm biến thông dụng như cảm biến ánh sáng, cảm biến vân tay, cảm biến nhiệt, cảm

biến tiệm cận, cảm biến định vị, cảm biến hình ảnh, cảm biến gia tốc, cảm biến từ

kế, cảm biến con quay hồi chuyển thường được sử dụng kết hợp với nhau trong các

bài toán phát hiện, nhận dạng hành động, hành vi [12][14][15]. Khi sử dụng kết hợp

nhiều  cảm  biến  sẽ  làm  tiêu hao  năng  lượng  nên  lựa  chọn  cảm  biến  gia  tốc  có  ưu

điểm tốn ít tài nguyên của thiết bị để xây dựng hệ thống là một trong hướng tiếp cận

phù hợp đáp ứng được yêu cầu của bài toán phân tích, nhận dạng hành vi giao thông

dựa  trên  điện  thoại  thông minh.  Cảm  biến  gia  tốc  thường  được dùng để  ghi nhận

chuyển động của thiết bị. Khi có sự thay đổi về phương hướng, cảm biến sẽ chuyển

thông tin đến thiết bị để thiết bị xử lý và đưa ra phản hồi tương ứng. Bên cạnh đó,

cảm biến  con quay  hồi chuyển  cũng liên quan đến  các  chuyển  động.  Thiết bị này

thường dùng  để  đo  đạc  hoặc  duy  trì  phương  hướng,  dựa  trên  các  nguyên  tắc  bảo

toàn mô men động  lượng.  Trong khi  đó  cảm  biến  từ  kế  đảm  nhận  việc  đo đạc  từ

trường trong không gian.

Dữ liệu cảm biến gia tốc thu được là một dạng dữ liệu chuỗi thời gian. Tại

11

một thời điểm, một điểm dữ liệu cảm biến thu được là một véc tơ được xác định bởi

ba số thực tương ứng trên các trục tọa độ X, Y, Z của thiết bị cảm biến; chuỗi dữ

liệu này được sử dụng làm dữ liệu đầu vào cho các bài toán khác nhau. Khi có sự

chuyển động, vị trí thiết bị thay đổi, giá trị trên các trục tọa độ cũng thay đổi theo.

Mức độ thay đổi này phản ánh các tính chất, mức độ của các chuyển động. Do đó,

trong bài toán phân tích, nhận dạng hành vi thường sử dụng hai cách thức phổ biến

đó  là:  Thứ  nhất,  vị  trí  điện  thoại  được  cố  định  so  với  hướng  chuyển  động  của

phương tiện. Thứ hai, vị trí của điện thoại có thể thay đổi trong khi phương tiện di

chuyển. Nếu cố định vị trí của thiết bị so với hướng chuyển động thì dữ liệu cảm

biến sẽ ít nhiễu hơn đồng thời có thể phân tích hành vi dựa trên giá trị thay đổi của

từng trục tọa độ. Ngược lại, khi vị trí điện thoại không cố định sẽ khó xác định được

hướng chuyển động tương ứng với trục thiết bị tại một thời điểm dẫn đến nhiều khó

khăn khi thiết kế hệ thống và phương pháp xử lý dữ liệu. Tuy nhiên, khi hệ thống

thực hiện với trường hợp điện thoại không cố định vị trí sẽ có được tính tự nhiên

hơn, người sử dụng có thể thực hiện các công việc khác cũng như tạo sự thân thiện

với hệ thống.

Hơn nữa, vị trí của thiết bị thay đổi trong quá trình di chuyển dẫn đến dữ liệu

chứa nhiều nhiễu. Do đó, hướng tiếp cận trích xuất đặc trưng dựa trên tập thuộc tính

đặc  trưng được  áp dụng để  có  được  tập dữ  liệu phù hợp  cho  hệ  thống nhận dạng

được các nghiên cứu quan tâm và sử dụng. Trong hướng tiếp cận này, vấn đề được

quan tâm đó là làm sao lựa chọn được các thuộc tính đặc trưng phù hợp để có thể

nhận dạng hiệu quả hành  vi giao  thông từ dữ  liệu  cảm biến  gia tốc thu được trên

điện thoại của người điều khiển phương tiện mang theo. Tiếp đến, đó là xây dựng

được  một  hệ  thống  nhận  dạng  các  hành  động,  hành  vi  giao  thông  phù  hợp  với

những điều kiện, môi trường giao thông cụ thể.

Từ một số vấn đề ở trên cho thấy, sử dụng tín hiệu cảm biến gia tốc để phân

tích,  nhận  dạng  hành  vi  giao  thông  đặc  biệt  là  nhận  dạng  hành  vi  giao  thông  bất

thường có ý nghĩa thực tiễn và có tính khả thi. Kết quả của bài toán có thể hỗ trợ

người  tham  gia  giao  thông hoặc  có  thể  sử  dụng,  tích  hợp  với nhiều  bài  toán  giao

12

thông  khác  nhau,  như  bài  toán  liên  quan  đến  giám  sát  giao  thông,  mật  độ  giao

thông, bài  toán  liên quan đến  tìm đường  trong  một  trạng  thái  giao  thông  xác định

cũng như các bài toán quản lý khác. Dựa trên dữ liệu cảm biến được thu thập các

phương pháp  phân  tích  và  xử  lý được  áp dụng  để  từ  đó  xây  dựng  hệ  thống  nhận

dạng hành vi giao thông trong điều kiện, môi trường giao thông đô thị Việt Nam.

1.4 Một số nghiên cứu liên quan

Trong bài toán nhận dạng hành vi giao thông sử dụng cảm biến thu được từ

điện thoại của người điều khiển phương tiện. Có nhiều yếu tố ảnh hưởng đến hành

vi của người điều khiển phương tiện nên cần xác định, lựa chọn các yếu tố cần thiết

phù hợp với  yêu cầu của bài toán nhằm đưa ra giải pháp hiệu quả trong từng điều

kiện, hoàn cảnh cụ thể.

Vì vậy, một số nghiên cứu về lĩnh vực này đã lựa chọn, thực hiện nhận dạng

hành động, hành vi giao thông với các thông tin, dữ liệu đầu vào khác nhau như: Sử

dụng số lượng các cảm biến khác nhau, vị trí thiết bị cố định hoặc có thể thay đổi.

Sử dụng các kỹ  thuật giảm nhiễu,  tiền  xử  lý dữ  liệu  khác nhau. Các  kỹ  thuật, mô

hình nhận dạng, phát hiện hành vi khác nhau trong điều kiện hoàn cảnh cụ thể.

Sự kết hợp các loại tín hiệu như tín hiệu hình ảnh, GPS với một số tín hiệu

khác  được  tích  hợp  trong  điện  thoại  làm  dữ  liệu  đầu  vào  cho  các  hệ  thống  nhận

dạng đã thu được những kết quả khả quan. Tuy nhiên, chỉ sử dụng cảm biến gia tốc

sẽ  ít  tiêu  tốn năng lượng.  Hơn nữa,  cảm  biến  này  được  gắn  kèm  ở  hầu hết  ở  các

chủng loại điện thoại hoặc các thiết bị cá nhân khác. Hướng tiếp cận này đã và đang

nhận được sự quan tâm của cộng đồng nghiên cứu trong thời kỳ phát triển của cuộc

cách mạng  công nghiệp 4.0.  Các nghiên  cứu liên quan đến nhận dạng hành động,

hành vi giao thông sử dụng cảm biến điện thoại được thể hiện ở một số công bố sau:

Hệ thống phân tích, hỗ trợ giám sát tai nạn giao thông dựa vào ba trục cảm

biến gia tốc và tọa độ GPS kết hợp với cảm biến hình ảnh thu được từ điện thoại

thông minh của tác giả Goregaonkar, Roma [16] và cộng sự đã phân tích, phát hiện

các sự kiện giao thông rồi mô phỏng trên hệ thống bản đồ của đô thị cũng như cung

cấp một số dịch vụ khác qua hệ thống máy chủ. Dữ liệu cảm biến và các loại dữ liệu

13

khác được gửi từ điện thoại về máy chủ để phân tích, tính toán thực hiện  yêu cầu

bài  toán,  sau  đó  cung  cấp  kết  quả,  thông  tin  đến  các  đối  tượng  yêu  cầu  bằng  bởi

dịch vụ của máy chủ.

Trong nghiên  cứu  của mình,  tác  giả  Johnson,  Derick  A  [17]  và  cộng  sự đã

xác định các kiểu lái xe dựa trên các hành vi được xác định từ dữ liệu cảm biến của

điện thoại thông minh; trong đó tọa độ GPS được sử dụng như là một thành phần

kết hợp với các cảm biến của điện thoại nhằm đưa ra những thông tin về các hành vi

của người lái xe. Việc kết hợp sử dụng GPS là một trong những yếu tố gây tiêu hao

năng lượng của thiết bị di động.

Cũng  sử  dụng  cảm  biến  tọa  độ,  hệ  thống  hỗ  trợ  lái  xe  an  toàn  của  Liu,

Zhenyu  [13] đã dựa trên  cảm biến của điện  thoại  kết hợp với GPS,  trong đó  GPS

được sử dụng kết hợp phát hiện trạng thái của hệ thống đồng thời xác định vị trí của

các đối tượng trong bản đồ mô phỏng.

Với trường hợp vị trí điện thoại cố định trên phương tiện hoặc hướng phương

tiện di chuyển,  các hành  vi  có  thể xác định dựa  trên mẫu dữ  liệu  tín hiệu của  các

trục tương ứng. Do đó, có thể sử dụng kỹ thuật so khớp, đánh giá hành vi dựa vào

ngưỡng thay đổi cho trước hoặc sử dụng phương pháp phân lớp để phát hiện, nhận

dạng hành vi giao thông.

Khi điện thoại thay đổi vị trí trong hành trình giao thông dẫn đến các trục tọa

độ của thiết bị không cố định so với hướng chuyển động của phương tiện. Việc lấy

mẫu dữ liệu của các hành vi không thể dựa vào từng trục tọa độ riêng biệt dẫn đến

nhu cầu cần một phương pháp phân tích để làm rõ tính chất, mức độ của hành động,

hành  vi trên  chuỗi dữ  liệu  thu được.  Một  trong  các  phương pháp thường được áp

dụng  cho  trường hợp này  là  sử  dụng các  thuộc  tính đặc  trưng.  Trên mỗi đoạn dữ

liệu  tín hiệu,  sử dụng tập  thuộc  tính đặc  trưng  này  để  biến đổi,  trích  xuất dữ  liệu

cảm biến thành dữ liệu đặc trưng với mong muốn áp dụng các kỹ thuật khác nhau

trên dữ liệu mới - dữ liệu đặc trưng nhằm nhận dạng hành động, hành vi giao thông.

Dựa trên các mẫu dữ liệu tín hiệu của hành vi đã được thu thập và tiền xử lý,

hai phương pháp phổ biến thường được sử dụng nhận dạng hành động, hành vi giao

14

thông đó là so khớp với dữ liệu mẫu và phương pháp phân lớp dữ liệu để tìm ra các

hành động, hành vi theo yêu cầu của bài toán. Tùy vào từng yêu cầu, điều kiện cụ

thể sẽ lựa chọn, áp dụng những phương pháp hợp lý để thu được kết quả khả quan

bởi các phương pháp đánh giá kết quả khác nhau.

Phương  pháp  nhận  dạng  hành  vi  bất  thường  sử  dụng  cảm  biến  điện  thoại

thông minh được đề xuất trong nghiên cứu [18] của tác giả Ali, Aya Hamdy và các

cộng sự thu thập 8 mẫu hành động là rẽ trái, rẽ phải, sang làn bên trái, sang làn bên

phải và rẽ trái bất thường, rẽ phải bất thường, sang làn bên trái bất thường, sang làn

bên phải bất thường làm dữ liệu mẫu hành vi cho hệ thống nhận dạng. Tác giả sử

dụng hai kỹ thuật để phát hiện hành vi đó là kỹ thuật phân lớp bởi thuật toán k-NN

và kỹ thuật so khớp sử dụng DTW. Thực nghiệm được tiến hành trên phương tiện ô

tô, thu thập dữ liệu trong thành phố. Thiết bị thu cảm biến gắn cố định vào phương

tiện trong quá trình thực nghiệm. Kỹ thuật lọc thông thấp được áp dụng khi tiền xử

lý dữ liệu giúp hệ thống có dữ liệu giảm nhiễu, ổn định, hiệu quả trong việc đoán

nhận. Kết quả nhận dạng đối với k-NN đánh giá trên độ đo chính xác là 98.67%; với

kỹ thuật DTW, độ chính xác là 96.75%. Kết quả nghiên cứu cho thấy, kỹ thuật phân

lớp trong trường hợp này cho thấy kết quả tốt hơn kỹ thuật DTW. Nghiên cứu đã

cho thấy, nhận dạng hành vi sử dụng cảm biến dựa trên phương pháp phân lớp cho

kết quả cao hơn.

Trong nghiên cứu [19] của tác giả Li Liu và các cộng sự dùng cảm biến gia

tốc sử dụng kỹ thuật trích xuất dữ liệu đặc trưng từ dữ liệu cảm biến thu được trong

trường hợp vị trí điện thoại thu dữ liệu được xác định trước. Tác giả đã xây dựng kỹ

thuật  nhận  dạng  18  hành  động  dựa  trên  từ  điển  các  mẫu  tín  hiệu  “shapelet

dictionary”; đồng thời so sánh với các thuật toán phân lớp khác nhau như: J48, LR,

ANN, NB, k-NN, DT và SVM. Thực nghiệm sử dụng công cụ Weka, áp dụng đánh

giá kết quả bởi kỹ thuật kiểm chứng chéo - CV10 trên tập dữ liệu huấn luyện thu

được.  Kết  quả  độ  chính  xác  trung  bình  của  các  hành  động  cao  nhất  của  phương

pháp đề xuất là 96.54%; thuật toán phân lớp cho kết quả độ chính xác cao nhất đối

với ANN là 96.44%; thấp nhất đối với DT 62.46%. Tuy nhiên, giới hạn của nghiên

15

cứu là vấn đề thời gian phát hiện khi số lượng mẫu lớn, tăng nhanh cũng như thực

hiện với vị trí điện thoại cố định sẽ không được thân thiện khi ứng dụng vào thực

tiễn. Nghiên cứu cũng cho thấy, độ chính xác được đánh giá bởi phương pháp kiểm

chứng chéo 10 – fold dựa trên các bộ phân lớp thực hiện bởi Weka là khả thi và tin

cậy được.

Nhận  dạng, phát hiện  các  hành  vi  an toàn hay  không  an  toàn  sử dụng cảm

biến gia tốc của điện thoại trong nghiên cứu [20] được Vavouranakis và các cộng sự

thực hiện. Tác giả kết hợp cảm biến gia tốc, con quay hồi chuyển và từ kế để xác

định giá trị thay đổi trên các trục và các góc xoay của dữ liệu cảm biến gia tốc. Kỹ

thuật cửa sổ phân đoạn dữ liệu cảm biến thành các cửa sổ dữ liệu có kích thước 2

giây được sử dụng để tính toán sự thay đổi của đại lượng cần được tính toán. Qua

đó, đánh giá, xác định các hành vi bằng phương pháp so các giá trị này với ngưỡng

giá trị được chọn trước nhằm đánh giá các hành vi đó an toàn hay không an toàn.

Thực nghiệm nhận dạng 12 hành vi là: tăng tốc nhanh, tăng tốc an toàn, giảm tốc

đột ngột,  giảm  tốc an  toàn;  rẽ  trái,  rẽ phải  an toàn, rẽ  trái,  rẽ phải  không an  toàn,

sang đường bên trái, bên phải an toàn và không an toàn.

Phương pháp sử dụng ngưỡng giá trị thay đổi của các góc xoay phù hợp với

thực tiễn. Tuy nhiên, xác định được các ngưỡng giá trị thay đổi của các hành vi xảy

ra  trong  một  thời  gian  ngắn  là một  sự  khó  khăn, bởi mỗi  cá  nhân,  mỗi điều  kiện,

hoàn cảnh thực nghiệm có sự khác nhau và dữ liệu cảm biến gia tốc của điện thoại

thường  có  nhiều  nhiễu,  khó  xác  định  chính  xác.  Việc  lựa  chọn  ngưỡng  phù  hợp

cũng phụ thuộc vào các  yếu tố các biệt, gây  nhiễu, cần được khảo sát chi tiết, lựa

chọn chính xác trong từng điều kiện cụ thể.

Các  hành  vi  lái  xe  không  bình  thường  được  nhận  dạng  bằng  tín  hiệu  cảm

biến của điện thoại gắn cố định trên phương tiện được tác giả Yu, Jiadi cùng cộng

sự nghiên  cứu trong  nghiên  cứu  [15] nhằm phát hiện 6 hành  vi  lái  xe bất  thường.

Phương pháp thu  thập và  trích  xuất dữ  liệu  bởi  152  thuộc  tính  gồm 16  thuộc tính

gốc và 136 thuộc tính dẫn xuất. Các hành vi bất thường sử dụng trong thực nghiệm

là  rẽ  trái  và  rẽ  phải  liên  tục  (weaving),  chuyển  hướng  đột  ngột  (swerving),  trượt

16

võng (slidelipping), quay đầu đột ngột (Fast U- turn), rẽ với góc rộng, và phanh đột

ngột. Tập dữ liệu trích xuất được sử dụng để xây dựng mô hình đoán nhận các hành

vi bất thường dựa trên hai thuật toán là véc tơ tựa và mạng nơ ron. Kết quả độ chính

xác  trung bình  phát  hiện  các hành  vi bất  thường  với  véc  tơ  tựa  là  95.36%  và  với

mạng nơ ron là 96.88%.

Các  hành  động  rẽ  trái,  rẽ  phải,  quay  đầu;  rẽ  trái  bất  ngờ,  rẽ  phải  bất  ngờ,

quay  đầu bất  ngờ,  sang  làn đường bên  trái,  sang làn đường bên phải dựa vào  các

cảm biến gia tốc, con quay hồi chuyển và từ kế cùng GPS đã được tác giả Derick A.

Johnson và cộng sự với nghiên cứu thực hiện trong nghiên cứu [5]. Hệ thống nhận

dạng các kiểu lái xe này có tên là “MIROAD” sử dụng điện thoại thông minh gắn

cố định ở chính giữa của ô tô để nhận dạng các kiểu hành động. Dữ liệu cảm biến

được  thu  với  tần  số  25Hz  và  GPS  được  sử  dụng  cho  việc  tính  toán  tốc  độ  của

phương tiện. Nghiên cứu khảo sát dựa trên các tập dữ liệu với các dữ liệu cảm biến

khác nhau đó là tập dữ liệu biến gia tốc thô; tập dữ liệu có giá trị cảm biến gia tốc

đã được xử lý chuyển hướng được tính từ ma trận chuyển bởi sự kết hợp với dữ liệu

con quay hồi chuyển và từ kế; tập mẫu dữ liệu của các hành động được thu thập làm

cơ sở đoán nhận các hành động bằng kỹ thuật so khớp (DTW). Kết quả của nghiên

cứu cho thấy, nếu chỉ sử dụng một mình dữ liệu cảm biên gia tốc sẽ thấp hơn (độ

chính xác 23% với cảm biến gia tốc, 46% với con quay hồi chuyển khi nhận dạng

hành vi quay đầu) so với kết hợp với kết hợp cả ba loại dữ liệu cảm biến với nhau

(độ  chính  xác  77%  khi  nhận  dạng hành  vi  quay  đầu).  Tác  giả đã  đưa  ra  các  khái

niệm về các hành động cơ bản của người lái xe trên mỗi phương tiện để từ đó xây

dựng nên cách đánh giá kiểu dạng lái xe; và cho thấy kỹ thuật so khớp DTW có kết

quả khả quan trong nhận dạng các hành động. Tuy nhiên, nghiên cứu vẫn cần phải

cố định điện thoại thông minh.

Một  số nghiên  cứu  nhận  dạng  các  hành  vi  lái  xe  nguy  hiểm  dựa  trên  điện

thoại có thể thay đổi vị trí khi phương tiện đang di chuyển như nghiên cứu [21] của

tác giả Li, Fu và các cộng sự. Tuy nhiên, điện thoại vẫn đặt nằm ngang ở các vị trí

khác nhau trên xe taxi ở Bắc Kinh, Trung Quốc khi thu thập dữ liệu cảm biến gia

17

tốc và con quan hồi chuyển nhằm phát hiện 4 mẫu dạng hành vi lái xe nguy hiểm.

Phương pháp tính các góc xoay của hệ tọa độ phương tiện so với hệ tọa độ của trái

đất được áp dụng, từ đó có thể xác định độ lớn của góc xoay khi phương tiện rẽ trái

và rẽ phải, kết hợp với tốc độ của phương tiện để xác định hành vi nguy hiểm. Kết

quả  của  nghiên  cứu  khi  phát  hiện  các  hành  vi  bất  thường  chính  xác  đến  90%.

Nghiên cứu chỉ thực hiện trên phương tiện ô tô trong môi trường cụ thể có độ ổn

định nhất định khi thực nghiệm.

Qua một số nghiên cứu trên cho thấy, các bài toán phát hiện, nhận dạng hành

động, hành vi giao thông phụ thuộc và chịu tác động lớn từ việc xác định, thu thập

các mẫu dữ liệu tín hiệu cảm biến, sự thay đổi vị trí gây nhiễu dẫn đến sự sai lệch

khi lấy dữ liệu mẫu. Kỹ thuật giảm nhiễu của dữ liệu tín hiệu thô thường được tiến

hành theo hai phương pháp cơ bản là sử dụng một đại lượng được biến đổi từ giá trị

trên cả ba trục tọa độ, giá trị này ít chịu ảnh hưởng do các trục tọa độ thay đổi khi

phương tiện di chuyển. Phương pháp tiếp theo là sử dụng các kỹ thuật chuyển trục

nhằm giảm nhiễu dữ liệu như trong nghiên cứu [14] của tác giả Jing Chen và các

cộng  sự đã  sử  dụng  các  cảm  biến  của  điện  thoại  thông minh  để  xác  định  một  số

hành vi khi người tham gia giao thông điều khiển phương tiện có hành vi nguy hiểm

như đi nhanh, thay đổi hướng lái xe bất thường và thay đổi tốc độ bất thường với

kết  quả  trung bình  về  độ  đo  chính  xác  (Precision)  là  93.95%  và  độ  đo hồi  tưởng

(Recall) là 90.54%. Tác giả cố định điện thoại trên mặt phẳng nằm ngang với tần số

1Hz và dữ liệu được biến đổi hệ tọa độ theo hệ tọa độ của trái đất và sử dụng lọc dữ

liệu sử dụng hàm lọc trước khi sử dụng nhằm giảm nhiễu dữ liệu.

Trong phương pháp biến  đổi dữ  liệu  cảm  biến  thô  thành  dữ  liệu  đặc  trưng

dựa trên kỹ thuật phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu được đề cập ở

một số nghiên cứu nhận dạng các hành động, hành vi cả khi vị trí điện thoại cố định

hoặc không cố định. Dựa trên dữ liệu đặc trưng thu được làm cơ sở phân tích, đánh

giá,  xây  dựng  hệ  thống  nhận  dạng  hành  vi,  từ  đó  đưa  ra  các  kết  luận  về  các  loại

hành động, hành vi giao thông.

Vấn đề gặp phải của hướng tiếp cận này đó là lựa chọn được kích thước cửa

18

sổ và chồng dữ liệu phù hợp, chứa đầy đủ thông tin về một hành động, hành vi. Dựa

vào các tập thuộc tính để biến đổi thành các giá trị đặc trưng đại diện cho tính chất

của các hành động, hành vi đó. Một số nghiên cứu đã khảo sát và đưa ra tập thuộc

tính  dựa  trên  các  miền  khác  nhau  đó  là  miền  thời  gian,  miền  tần  số.    Như  trong

nghiên  cứu  [22]  của  tác  giả Pham  Cuong  và cộng sự phát hiện  các  hoạt động  của

người điều khiển phương tiện dựa theo hướng tiếp cận sử dụng trích xuất đặc trưng

trên các cửa sổ dữ liệu cảm biến điện thoại thông minh. Thực nghiệm tiến hành trên

12 đối tượng để điện thoại thông minh trong túi, phát hiện 07 hoạt động đi bộ, chạy,

đi xe đạp, dừng, đi ô tô, lái xe và hành động khác. Vị trí của điện thoại được xác

định nên tập thuộc tính đề xuất là các giá trị về thống kê, năng lượng và có 2 tham

số  Hjorth –  Mobility  và  Hjorth Complexity  tham  gia  vào  trích  xuất các  đặc  trưng

qua đó xây dựng tập dữ liệu huấn luyện cho hệ thống nhận dạng bởi phương pháp

phân lớp.

Một số nghiên cứu cũng áp dụng phương pháp sử dụng thuật toán ANN như

trong nghiên cứu [23] của tác giả Ronao, Charissa Ann và cộng sự. Tác giả cho thấy

một hướng tiếp cận mới khi nhận dạng 6 hành vi của người từ cảm biến gia tốc và

con quay hồi chuyển của điện thoại thông minh được đặt trong túi của các đối tượng

thực nghiệm.  Kỹ  thuật học  sâu 4 lớp,  véc tơ dữ  liệu đầu  vào được  xây  dựng gồm

128 giá trị dữ liệu cảm biến của điện thoại tương ứng với 2.56 giây, tần số 50Hz và

cửa sổ  trượt  chồng 50%.  Kết quả  trung bình độ  chính xác  khi  thực  hiện hệ  thống

cao nhất là 94.79% với dữ liệu thô và 95.75% với dữ liệu tín hiệu được xử lý bởi

các kỹ thuật áp dụng trong miền tần số.

Từ một số nghiên cứu trên cho thấy, các khái niệm về hành động, hành vi,

hành  vi  giao  thông  bất  thường.  Dữ  liệu  đầu  vào  cho  hệ  thống nhận  dạng hành  vi

cũng như các điều kiện thu thập, phân tích dữ liệu và phương pháp nhận dạng tùy

thuộc vào yêu cầu của bài toán. Do đó, vấn đề xây dựng dữ liệu mẫu làm cơ sở cho

phát hiện, đoán nhận các hành động, hành vi là một  yêu cầu quan trọng nhằm xác

địch hướng tiếp cận xây dựng hệ thống nhận dạng.

Các nghiên cứu cũng cho thấy hiệu quả của việc kết hợp nhiều loại cảm biến

19

khác nhau trong bài toán phân tích hành vi. Tuy nhiên, việc chỉ sử dụng dữ liệu cảm

biến gia tốc sẽ phù hợp với các điện thoại phổ biến và ít tiêu hao năng lượng. Đồng

thời, xác định các lựa chọn thuộc tính đặc trưng sao cho phù hợp với  yêu cầu bài

toán là  cần  thiết  tác động  trực  tiếp  đến  kết  quả thực  hiện hệ  thống.  Bên  cạnh đó,

phương pháp phân lớp là một trong những phương pháp phổ biến được sử dụng cho

bài toán nhận dạng hành vi giao thông sử dụng cảm biến điện thoại.

1.5

Phương pháp nhận dạng hành vi giao thông dựa trên cảm

biến

Dữ liệu tín hiệu cảm biến mang theo trong khi điều khiển phương tiện tham

gia giao thông chịu ảnh hưởng bởi nhiều yếu tố nên việc lựa chọn số lượng, chủng

loại  cảm  biến  sẽ  ảnh  hưởng  tới  phương  pháp  nhận  dạng  hành  vi.  Trong  bài  toán

nhận dạng hành vi bất thường, cảm biến hình ảnh, cảm biến khoảng cách, cảm biến

gia tốc, GSP và một số cảm biến chuyên dụng khác thường được sử dụng kết hợp

với nhau để thực hiện hệ thống nhận dạng trên các loại phương tiện, thiết bị khác

nhau đặc biệt là những phương tiện hiện đại [24][25]. Lựa chọn sử dụng chỉ mình

cảm biến gia tốc để phân tích, nhận dạng hành vi bất thường có ý nghĩa thực tiễn

bởi  tính  phổ  biến  của  điện  thoại  có  gắn  cảm  biến  này  cũng  như  ít  tiêu  hao  năng

lượng phù hợp với điều kiện, môi trường giao thông đô thị ở Việt Nam.

Ở từng loại phương tiện khác nhau, do kết cấu, đặc thù cũng như quy định

riêng về cách thức vận hành cũng là một thành tố có thể sử dụng làm điều kiện để

đánh giá các hành vi giao thông. Dựa vào các thông tin, trạng thái của phương tiện

nhận dạng được bởi dữ liệu cảm biến có thể xác định, đánh giá hành vi giao thông

[11][26].

Trong khuôn khổ của Luận án, chúng tôi tập trung vào phân tích dữ liệu cảm

biến của điện thoại thông minh mang theo khi tham gia lưu thông nhằm nhận dạng

hành  vi  giao  thông,  trong  đó  tập  trung  vào  các  hành  vi  bất  thường.  Thông  tin  về

hành vi chứa trong dữ liệu tín hiệu cảm biến được xử lý, phân tích với các phương

pháp nhận dạng nhằm tìm ra những hành vi có tính bất thường. Một số nghiên cứu

đề cập đến vấn đề này trong công bố [27][28][29]. Các nghiên cứu theo hướng tiếp

20

cận này cho thấy một số vấn đề nổi lên đó là:

- Việc  lựa  chọn  cảm  biến  tham  gia  vào nhận dạng hành  vi được quan  tâm ở

các  nghiên  cứu.  Nếu  kết  hợp  nhiều  loại dữ  liệu  với nhau  sẽ có  kết quả  khả quan.

Tuy  nhiên,  hệ  thống  sẽ  tiêu  hao  năng  lượng  nhiều  hơn  và  cũng  cần  nguồn  tài

nguyên phần cứng nhiều hơn. Hơn thế nữa, vị trí của thiết bị cảm biến là một điều

kiện quan trọng liên quan tới cách thức xây dựng và thực hiện hệ thống. Xác định

trước vị trí có thể xây dựng tập dữ liệu mẫu của hành động, hoạt động, hành vi dựa

trên  các  trục  tọa  độ  tương  ứng  với  hướng  chuyển  động  chính  xác  hơn  [15].  Nếu

thiết bị cảm biến thay đổi vị trí tùy ý, hệ trục tọa độ thay đổi dẫn đến việc xác định

mẫu gặp khó khăn cần được hỗ trợ bởi các kỹ thuật tiền xử lý[12][30]. Tuy nhiên,

lựa  chọn này  lại  tạo  được  sự  thuận  tiện  cho  người  sử  dụng  khi  có  thể  dùng  điện

thoại với các mục đích khác nhau. Trong trường hợp này, hướng tiếp cận biến đổi

dữ liệu cảm biến thành dữ liệu đặc trưng cho hệ thống nhận dạng thường được sử

dụng.

- Hướng  tiếp  cập  trích  xuất  đặc  trưng  dựa  trên  phân  đoạn  dữ  liệu  cảm  biến

được nhiều nghiên cứu quan tâm. Tuy nhiên, lựa chọn kích thước của đoạn dữ liệu

tương ứng với các hành vi cũng như xác định tập thuộc tính phù hợp với yêu cầu bài

toán gặp nhiều khó khăn, tác động đến kết quả nhận dạng.

- Hành động, hành vi bất thường xảy ra nhanh và khó phát hiện. Việc thu mẫu

dữ liệu của các hành vi này gặp nhiều khó khăn. Ngoài ra, do những đặc trưng của

hành  vi bất  thường  trên từng đối  tượng, phương tiện  và môi  trường tạo  ra sự  khó

khăn cho việc lựa chọn phương pháp đánh giá đâu là hành vi bất thường và ngược

lại  [15][29]  nên  cần  có  những  hướng  tiếp  cận  phù  hợp  để  đưa  ra  giải  pháp  nhận

dạng hành vi bất thường một cách hợp lý và hiệu quả. Đặc biệt là ở môi trường giao

thông  đô  thị  đa  dạng  các  phương  tiện,  phổ  biến  như  xe  máy,  xe  đạp  và  một  số

phương  tiện  công  cộng  khác.  Vì  vậy,  xây  dựng hệ  thống nhận  dạng hành  vi  giao

thông bất thường hiệu quả là nhiệm vụ cần thiết đặt ra khi xây dựng các hệ thống

liên quan.

Từ những vấn đề trên cho thấy, phân tích hành vi bất thường của người tham

21

gia giao thông sử dụng cảm biến điện thoại thông minh đang là vấn đề nhận được

nhiều sự quan tâm của cộng đồng nghiên cứu, thể hiện qua các công bố và đã chỉ ra

một số vấn đề tồn tại trong việc nhận dạng hành vi bất thường.

Để  nhận  dạng  được  hành  vi  giao  thông,  một  trong  những  phương  pháp

thường được sử dụng đó là nhận dạng các hành động cơ bản của các đối tượng trên

các phương tiện để lấy làm cơ sở cho nhận dạng hành vi – hành vi giao thông bất

thường của người điều khiển phương tiện tham gia giao thông. Tác giả đưa ra các

bước nghiên cứu tổng thể để thực hiện yêu cầu bài toán đặt ra như Hình  1-1 dưới

22

đây:

NHẬN DẠNG PHƯƠNG TIỆN

Loại phương tiện

NHẬN DẠNG HÀNH ĐỘNG (Chương 2)

Hành động

NHẬN DẠNG HÀNH VI (Chương 3)

Hành vi

Hành vi Hành vi bất thường

Hình  1-1. Hướng nghiên cứu tổng thể của bài toán nhận dạng hành vi

CẢM BIẾN   ĐIỆN THOẠI

Việc  nhận  dạng  hành  vi  thường  gắn  đến  một  phương  tiện  nhất  định,  nhận

dạng  được  phương  tiện  sẽ  dễ  dàng  xác  định  được  các  hành  động,  hành  vi  tương

ứng, có tính chất đặc thù với phương tiện đó. Do vậy, tác giả đã nghiên cứu và nhận

dạng các loại phương tiện và được công bố trong công trình [CT4] của mình – phần

được vẽ nét đứt trong Hình  1-1. Tuy nhiên, để làm rõ hơn các kỹ thuật nhận dạng

hành động, hành vi, tác giả chỉ và tập trung vào phân tích dữ liệu cảm biến, nhận

dạng hành động được trình bày trong chương 2 và nhận dạng hành vi – hành vi bất

thường được trình bày trong chương 3.

Từ  đó,  chúng  tôi  đề  xuất  phương  pháp  nhận  dạng  hành  vi  giao  thông  bất

23

thường dựa trên cảm biến gia tốc như Hình 1-2 dưới đây:

NHẬN DẠNG HÀNH ĐỘNG Chương 2

Hành động

THU THẬP, TIỀN XỬ LÝ DỮ LIỆU

Hành vi bất thường

NHẬN DẠNG HÀNH VI Chương 3

LOẠI HÀNH VI BẤT THƯỜNG

Hình 1-2. Hệ thống phân tích hành vi bất thường

Hệ  thống  được  chia  thành  các  mô  đun  gồm  thực  hiện  thu  thập  dữ  liệu  cảm  biến. Sau đó áp dụng các kỹ thuật tiền xử lý dữ liệu để xây dựng dữ liệu đầu vào  cho mô đun nhận dạng hành động giao thông và nhận dạng hành vi bất thường. Dựa  trên  hành  động  giao  thông đã  nhận  dạng được  làm  cơ  sở  sẽ  tiến  hành  nhận  dạng

hành vi bất thường.

Với phương pháp này, việc thu thập, phân tích dữ liệu cảm biến và nhận dạng  hành  vi giao  thông được  thực hiện trên điện thoại  cá nhân.  Kết quả nhận dạng sẽ  được  gửi  lên  hệ  thống máy  chủ  nhằm  kết  hợp,  thực  hiện  những dịch  vụ,  tiện  ích  khác  nhau.  Các  kết  quả  của  hệ  thống  được  trình  bày  trong  các  công  bố  [CT1],  [CT2], [CT3], [CT4].

1.6

Kết luận

Trong chương này, chúng tôi đã tìm hiểu, khảo sát các nghiên cứu liên quan

đến  bài  toán nhận  dạng hành  vi.  Làm  rõ một  số  khái  niệm  cơ  bản  về  hành  động,

hành vi, hành vi bất thường trong lĩnh vực giao thông. Tìm hiểu phương pháp, kỹ

thuật phân tích, nhận dạng hành vi, đặc biệt là hướng tiếp cận sử dụng dữ liệu cảm

biến điện thoại thông minh thu được của người điều khiển phương tiện. Từ đó, xây

dựng giải pháp nhận dạng hành động, hành vi bất thường dựa trên cảm biến gia tốc.

Các kỹ thuật thu thập dữ liệu cảm biến, tiền xử lý dữ liệu, nhận dạng bằng phương

pháp phân lớp được áp dụng để thực yêu cầu của hệ thống nhận dạng. Qua đó, dựa

trên hành động nhận dạng được để đề xuất giải pháp nhận dạng hành vi giao thông

24

bất thường [CT1], [CT2], [CT3], [CT4].

Chương 2. NHẬN DẠNG HÀNH ĐỘNG GIAO THÔNG

2.1

Giới thiệu

Trong bài  toán  phân  tích,  nhận  dạng  hành  vi giao  thông,  nhận  dạng  và  phát

hiện cử  chỉ,  hành động của người điều  khiển  phương tiện là một  trong  những bài

toán cơ sở. Do các cử chỉ, hành động cấu thành nên hành vi của đối tượng đó.

Trong chương này, Luận án tập trung vào việc nhận dạng hành động cơ bản

của các đối tượng điều khiển phương tiện giao thông dựa trên tín hiệu cảm biến thu

được từ điện  thoại mang theo. Hướng tiếp  cận  sử dụng biến đổi dữ liệu cảm biến

thô thành dữ liệu đặc trưng áp dụng kỹ thuật cửa sổ dữ liệu với tập thuộc tính đặc

trưng được khảo sát và lựa chọn.

Với dữ liệu đặc trưng đã được biến đổi, phương pháp phân lớp được áp dụng

để nhận dạng các hành động cơ bản dựa trên sự khảo sát, phân tích kích thước của

các  cửa  sổ  tương  ứng.  Các  hành động  cơ  bản  này  là:  rẽ  trái,  rẽ  phải,  đi  thẳng  và

dừng của đối tượng  tham  gia  giao  thông.  Kết  quả  hệ  thống nhận dạng hành động

được sử dụng làm cơ sở để đánh giá, nhận dạng hành vi bất thường xảy ra.

2.2

Sử dụng dữ liệu cảm biến để nhận dạng hành động giao

thông

Sử dụng tín hiệu cảm biến của điện thoại mang theo để phân tích, nhận dạng

ngày  càng  được  phổ  biến  và  sử  dụng  với  các  yêu  cầu  khác  nhau  trong  nhiều  hệ

thống  thông  minh.  Một  số  hướng  nghiên  cứu  đã  sử  dụng  cảm  biến  hình  ảnh  thu

được từ camera hoặc kết hợp nhiều cảm biến khác nhau để nhận dạng hành động.

Tuy nhiên, hướng tới sự thuận lợi và tiết kiệm năng lượng của thiết bị. Chúng tôi

chỉ  sử dụng thông  tin, dữ  liệu đầu  vào  là  cảm biến gia tốc  thu được từ điện  thoại

thông minh mang theo của người tham gia giao thông, vị trí của điện thoại có thể

thay đổi trong hành trình. Hệ thống thực hiện thu thập, xử lý dữ liệu để áp dụng các

phương pháp  phân  lớp  nhằm  nhận dạng  các  hành  động  giao  thông cơ bản  [CT2],

25

[CT4].

Xây dựng hệ thống nhận dạng khi vị trí của thiết bị có thể thay đổi trong quá

trình  di  chuyển  gặp  nhiều  đề  khó  khăn  bởi  hệ  trục  tọa  độ  thay  đổi  so  với  hướng

chuyển động cũng như yêu cầu cần thu thập xây dựng tập dữ liệu mẫu có độ chính

xác và ổn định. Hơn thế nữa, hệ thống chỉ sử dụng mình dữ liệu cảm biến để nhận

dạng nên cần phải đưa ra các giải pháp xử lý dữ liệu phù hợp đối với yêu cầu đặt ra.

Dữ  liệu  cảm  biến  được  thu  thập,  tiền  xử  lý,  biến  đổi  dựa  trên  tập  thuộc  tính  đặc

trưng đề xuất dựa trên kỹ thuật cửa sổ dữ liệu. Kích thước của cửa sổ dữ liệu là một

trong những yếu tố tác động trực tiếp đến kết quả nhận dạng. Do đó, cần phải khảo

sát, đánh giá kích thước cửa sổ cũng như các phương pháp làm giảm khả năng mất

mát  thông  tin  khi  phân  đoạn  dữ  liệu.  Đồng  thời,  lựa  chọn phương  pháp  phân  lớp

dựa trên tập dữ liệu đặc trưng biến đổi từ cửa sổ dữ liệu đã có nhằm nhận dạng ra

các hành động giao thông cơ bản. Cũng như cần có sự khảo sát, đánh giá lựa chọn

thuật  toán  phân  lớp  phù  hợp  với  yêu  cầu  bài  toán  và  dữ  liệu  thu  được  nhằm  thu

được kết quả nhận dạng tốt hơn.

2.3 Một số nghiên cứu liên quan

Để có được những thông tin hữu ích về các phương pháp, kỹ thuật đã thực

hiện đối với bài toán nhận dạng hành động giao thông ở các nghiên cứu trước đây.

Chúng tôi thống kê một số công bố liên quan được trình bày trong Bảng 2-1. Qua

đó cho thấy, bài toán nhận dạng hành động giao thông sử dụng các phương pháp, kỹ

thuật khác nhau dựa trên cảm biến điện thoại đã đạt được kết quả nhất định. Các đối

tượng nhận dạng, phát hiện được xác định tùy vào yêu cầu của từng hệ thống. Trong

đó, đề cập đến một số đối tượng nhận dạng thường được đề cập đến đó là hành động

giao thông, sự kiện giao thông, hoạt động giao thông xảy ra bình thường và cả bất

thường.

Dữ liệu trong các nghiên cứu thường kết hợp từ nhiều tín hiệu cảm biến với

nhau như ở nghiên cứu [31][32][2][33][34]. Một số nghiên cứu sử dụng dữ liệu cảm

biến gia tốc để nhận dạng phương tiện và hành động như nghiên cứu [32] của tác

giả  Guvesan  đề  xuất  thuật  toán  Healing  để  nhận  dạng  các  loại  phương  tiện  khác

26

nhau dựa trên cảm biến gia tốc, con quay hồi chuyển và cảm biến từ; sử dụng các

mô hình phân lớp RF, J48, k-NN, NB để đánh giá và so sánh với kết quả của thuật

toán được đề xuất.

Khi sử dụng chỉ mình cảm biến gia tốc, vấn đề khó khăn đó là lựa chọn được

kích thước của đoạn dữ liệu tương ứng với đối tượng nhận dạng. Tiếp đến là khảo

sát một tập thuộc tính phù hợp để tính toán, biến đổi ra các giá trị đặc trưng trên một

cửa sổ dữ liệu. Hơn nữa, mỗi loại hành động có những đặc điểm khác nhau nên cần

khảo sát các kích thước cửa sổ dữ liệu khác nhau để tìm ra kích thước cửa sổ phù

hợp.

Đối  với  bài  toán  nhận  dạng  hành  động  giao  thông,  một  số  sự  kiện,  hành

động,  hành  vi  cơ  bản  của  người  điều  khiển  được  thể  hiện  ở  công  bố  của  một  số

Lái xe

Đặc trưng

Nghiên  cứu

Sử dụng dữ  liệu

Vị trí điện  thoại

Kết quả  đánh giá

Phươn g  pháp

Gia tốc, Con  quay hồi

Cảm biến gia  tốc trên trục:

DTW

TP: 91%

Cố định vị  trí

Johnson  và  Trivedi  [5]

Lái xe bình thường  /bất thường (rẽ  trái/phải, quay đầu,  rẽ trái/phải đột ngột)

chuyển, Từ  trường, gps,  video

x,y,z, con quay  hồi chuyển,  góc xoay

Tăng tốc, phanh và

Cảm biến tốc  độ, vận tốc,

Giá trị lớn

Accyracy:

Cố định

rẽ trái/phải

nhất, bé nhất,

65%

SVM,  k-  Mean

Minh Van Ly[4]

góc xoay,  gps, hình ảnh

Castignan

Tăng tốc bất thường,

Gia tốc, Từ

TP > 90%

Lôgic  mờ

Vị trí thay  đổi

i   et al. [35]

phanh đột ngột, đi  quá tốc độ, lái xe ẩu

trường, trọng  trường, gps

thời gian thay  đổi độ lớn của  cảm biến gia  tốc, biến tốc,  thay đổi  hướng, trung  bình tần xuất đi  lạng lách, độ  lệch chuẩn của  thay đổi bất  ngờ

Góc xoay

TP > 90%

Li et al.  [21]

vị trí thay  đổi

Cảm biến gia  tốc, Con quay  hồi chuyển

Thay đổi tốc độ bất  thường, lái xe bình  thường, đánh võng,  sử dụng điện thoại  khi lái xe

Phát  hiện  theo  ngưỡn g

27

nghiên cứu liên quan trong Bảng 2-1 dưới đây.

Đánh võng, rẽ lạc  tay lái, rê trượt,

Yu et al.

Cảm biến gia  tốc, Cảm biến

SVM,

vị trí thay

Accuracy:

152 thuộc tính  miền thời gian

[15]

KNN

đổi

96.88%

chuyển  hướng

quay đầu nhanh, rẽ  vòng rộng, phanh  đột ngột

Ma et al.  [14]

Thay đổi tốc độ,  chuyển hướng bất  thường, điều chỉnh

Cảm biến gia  tốc, Con quay  hồi chuyển,

vị trí thay  đổi

Precision:  93.95%  Recall:

tốc độ bất thường

gps, âm thanh

90.54%

Phát  hiện  theo  ngưỡn g

Tính tốc đột từ  gps và trục gia  tốc, phát hiện  hướng thay đổi  dựa trên thay  đổi của trục z  của cảm biến  từ, bật tín hiệu  âm thanh

Júnior et  al.[11]

cố định vị  trí

AUC:  0.980– 0.999

ANN,  SVM,  RF,  BN

Phanh bất ngờ, tăng  tốc bất ngờ, rẽ  trái/phải bất ngờ,  chuyển làn trái/phải  bất ngờ, lái xe bình  thường

Cảm biến gia  tốc, Cảm biến  từ, Con quay  hồi chuyển,  Cảm biến gia  tốc tuyến tính

Miền thời gian:  trung bình,  trung vị, độ  lệch chuẩn, xu  hướng tăng/  giảm

Cảm biến gia  tốc, con quay  hồi chuyển,

k-NN,  DTW

Cố định vị  trí

Rẽ trái/phải, sang  làn trái/phải; rẽ trái/  phải bất thường;  sang làn trái/phải bất

Cảm biến gia  tốc trên các  trục: X,Y,Z

Accuracy  với DTW:  96,75%.  Với k-NN:

Aya Hamdy [18]

gps

thường; đường xấu

78,06%

Bảng 2-1. Một số nghiên cứu nhận dạng hành động giao thông

Qua các nghiên cứu trong Bảng 2-1 cho thấy đối tượng nhận dạng của mỗi

bài toán là khác nhau được khảo sát theo thời gian công bố trong khoảng thời gian

từ năm 2011 đến năm 2017. Các nghiên cứu cũng dựa vào các nguồn cảm biến của

điện  thoại,  với  vị  trí  điện  thoại  có  thể  cố định hoặc  thay  đổi.  Sử dụng  các  độ  đo

đánh giá các giải thuật phân lớp khác nhau cho nhiều nhãn lớp hành vi. Tuy nhiên,

chúng có một số điểm chung đó là các hành động được lựa chọn dựa trên hai yếu tố

cơ bản: yếu tố thay đổi tốc độ và yếu tố điều khiển phương tiện chuyển hướng theo

các  hướng  khác  nhau  khi  tham  gia  giao  thông.  Tùy  thuộc  vào  mục  đích  đặt  ra  sẽ

thực hiện nhận dạng, phát hiện tập các hành động theo tính chất, mức độ khác nhau.

Hướng tiếp  cận  kết  hợp  dữ liệu  cảm  biến  gia  tốc  với các  cảm  biến khác  như  con

28

quay hồi chuyển, GPS, cảm biến từ trường, cảm biến hình ảnh được các nghiên cứu

tập trung. Bởi khi đó, có thêm những nguồn dữ liệu khác nhau sẽ làm giàu thông tin

cho hệ thống, giúp hệ thống cải thiện hiệu quả thực hiện nhận dạng hành động.

Vị trí của các thiết bị thu dữ liệu cũng thường được đặt cố định [5] hoặc nếu

có thay đổi thì góc đặt ban đầu của thiết bị so với hướng chuyển động cũng được

biết trước[15] từ đó có thể kết hợp các phương pháp chuyển hệ trục tọa độ để tính

được  sự  thay  đổi  của  góc  xoay.  Trong  trường  hợp  vị  trí  thay  đổi  và  không  biết

trước. Phương pháp  sử dụng kỹ  thuật  cửa  sổ dữ liệu với các  thuộc  tính đặc trưng

thường được áp dụng trong nghiên cứu [11][15]. Dẫn đến việc cần có một tập thuộc

tính phù hợp với yêu cầu, điều kiện cụ thể và kỹ thuật sử dụng cho từng bài toán.

Một  số  phương  pháp,  kỹ  thuật  thông  dụng  được  dùng  để  nhận  dạng,  phát

hiện  hành  động  như  kỹ  thuật  so  khớp  DTW,  với  tập  dữ  liệu  mẫu  hành  động  thu

được sử dụng các giá trị ngưỡng của các góc xoay, vận tốc, gia tốc hoặc những giá

trị trích xuất từ các đại lượng khác nhau làm cơ sở so sánh, đánh giá và quyết định

loại hành động và hành vi giao thông.

Để đánh giá, nhận dạng một hành động hay một hành vi cũng có thể dựa theo

giá  trị  ngưỡng  đặc  trưng  nào  đó  của  từng  loại  để  nhận  dạng  khi  hành  động  xảy

ra[14][21].  Phương  pháp  này  thực  hiện  đánh  giá  hành  động  phù  hợp  với  các  hệ

thống  yêu  cầu  tính  toán  nhanh.  Tuy  nhiên,  điểm  mấu  chốt đó  là  lựa  chọn  và  tính

toán được giá trị nào được dùng để đánh giá và cách lựa chọn ngưỡng giá trị đủ tốt

để phân loại, nhận dạng ra các hành động, hành vi.

Tùy thuộc vào yêu cầu và tiêu chí đặt ra của từng bài toán, các hệ thống được

thiết kế cho các mục đích khác nhau. Trong đó, một trong những tiêu chí quan trọng

khi sử dụng điện thoại là việc tiêu hao năng lượng của thiết bị khi thực thi hệ thống.

Các giải pháp thiết kế, xây dựng hệ thống hướng đến việc sử dụng ít cảm biến, giảm

nhiễu, tiêu hao ít năng lượng mà vẫn đảm bảo kết quả yêu cầu đề ra.

Vì vậy, hướng nghiên cứu sử dụng tập thuộc tính đặc trưng được áp dụng để

trích xuất, biến đổi dữ liệu cảm biến thô thành dữ liệu đặc trưng, tạo thành nguồn dữ

liệu  mới  hoặc  lấy  làm  tập  dữ  liệu huấn  luyện  cho  các  mô  hình  phân  lớp  để  nhận

29

dạng, phát hiện hành động. Một số nghiên cứu đã sử dụng các giải thuật phân lớp

thông dụng để xây dựng hệ thống nhận dạng như trong nghiên cứu [11], tác giả sử

dụng  các  thuật  toán  NB,  RF,  ANN,  SVM,  để  phân  lớp  nhận  dạng  các  hành  động

thay đổi bất thường khi cố định điện thoại di động và sử dụng các thuộc tính trên

miền thời gian và đánh giá mô hình phân lớp dựa trên độ đo AUC.

2.4

Hệ thống nhận dạng hành động sử dụng cảm biến gia tốc

2.4.1 Một số kiến thức cơ sở

2.4.1.1 Tiền xử lý dữ liệu

Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được

chuẩn  bị  tốt  sẽ  giúp  hệ  thống  thực  hiện  hiệu  quả hơn  [36][37].  Chuẩn  bị  dữ  liệu

thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu ban đầu thành dữ liệu

mới  phù  hợp  với  tiến  trình  khai  phá  dữ  liệu.  Trước  hết,  nếu  dữ  liệu  không  được

chuẩn bị, các thuật toán khai phá có thể không nhận dạng được dữ liệu để hoạt động

hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật toán sẽ

làm việc, nhưng kết quả thu được sẽ không có ý nghĩa hoặc không có tính chính xác

[37].

Một  số  kỹ  thuật  phổ  biến  được  dùng  để  chuẩn  bị  đó  là:  làm  sạch  dữ  liệu

(Data Cleaning), chuẩn hóa dữ liệu (Data Normalization), chuyển đổi dữ liệu (Data

Transformation),  tích  hợp  dữ  liệu  (Data  Integretion),  phát  hiện  nhiễu  (Noise

Indentification),  tính  giá  trị  thiếu  (Missing  Values  Imputation)  [37].  Các  kỹ  thuật

30

này được minh họa như hình dưới đây:

Làm sạch dữ liệu

Chuẩn hóa dữ liệu

Chuyển đổi dữ liệu

Bổ sung dữ liệu thiếu

Tích hợp dữ liệu

Xác định nhiễu

Hình 2-1. Một số kỹ thuật chuẩn bị dữ liệu [37]

- Làm sạch dữ liệu (Data cleaning) bao gồm các hoạt động sửa dữ liệu xấu, lọc

một số dữ liệu không chính xác ra khỏi tập dữ liệu và giảm bớt các chi tiết không

cần thiết của dữ liệu. Đây là một khái niệm tổng quát bao gồm các kỹ thuật chuẩn bị

dữ liệu khác như việc xử lý thiếu dữ liệu, nhiễu dữ liệu.

- Xác  định  nhiễu  (Noise  Identification)  là  một  bước  trong  việc  làm  sạch  dữ

liệu, mục tiêu chính là để phát hiện ngẫu nhiên các lỗi hoặc chênh lệch độ đo. Khi

một mẫu dữ liệu nhiễu được phát hiện chúng ta có thể tiến hành xử lý nhiễu bằng

một số dạng tính toán khác nhau thay vì loại bỏ nhiễu.

- Bổ sung dữ liệu thiếu (Missing Data Imputation) là một hình thức làm sạch

dữ  liệu  với  mục  đích  lấp  đầy  các  biến  chứa  dữ  liệu  bị  thiếu.  Trong  hầu  hết  các

trường hợp, thêm một giá trí ước tính hợp lý cho dữ liệu bị thiếu sẽ tốt hơn là để

trống.

- Biến đổi dữ liệu (Data Transformation), dữ liệu được chuyển đổi, hợp nhất

nhằm làm tăng kết quả trong bài toán khai phá dữ liệu. Nhiệm vụ của chuyển đổi dữ

liệu là làm mịn, xây dựng các thuộc tính, tập hợp hoặc tổng hợp dữ liệu, chuẩn hóa,

rời rạc và tổng quát dữ liệu.

- Tích hợp dữ liệu (Data Integration) bao gồm sự kết hợp dữ liệu từ nhiều kho

31

dữ liệu. Quá trình này được thực hiện một cách chặt chẽ để tránh dư thừa và không

nhất quán trong bộ dữ liệu thu được. Thực hiện tích hợp dữ liệu là định danh và hợp

nhất các biến và các miền, phân tích các thuộc tính tương quan, sự trùng lặp và phát

hiện các xung đột giá trị của dữ liệu từ các nguồn khác nhau.

- Chuẩn hóa dữ liệu (Data Normalization) sử dụng các đơn vị đo lường có thể

ảnh  hưởng  đến  việc  phân  tích  dữ  liệu.  Tất  cả  các  thuộc  tính  phải  được  biểu  diễn

cùng độ đo, tỉ lệ và vùng giá trị dữ liệu thông dụng.

- Giảm  chiều  dữ  liệu  (Data  Reduction)  bao  gồm  tập  hợp  các  kỹ  thuật  bằng

cách này hay cách khác để có thể đạt được một biểu diễn khác của dữ liệu gốc; dữ

liệu mới thường được duy trì các cấu trúc cần thiết và tính toàn vẹn của dữ liệu gốc,

nhưng số lượng dữ liệu được cắt giảm.

Sự khác biệt của các kỹ thuật chuẩn bị dữ liệu tạo nên những dữ liệu phù hợp

với mục tiêu nhận dạng các đối tượng. Nếu chuẩn bị dữ liệu không được thực hiện

tốt, các thuật toán nhận dạng sẽ không được chạy hoặc có kết quả sai do một số biến

có thể bị ảnh hưởng trực tiếp từ kích cỡ dữ liệu đầu vào. Nếu kích thước vượt quá

giới  hạn  hoặc  không rõ  định dạng thì  thuật  toán  có  thể  bị dừng hoặc  cho  kết  quả

thiếu chính xác.

Tuy có nhiều kỹ thuật tiền xử lý dữ liệu khác nhau, với từng bài toán cụ thể,

khi áp dụng sẽ ảnh hưởng đến thông tin ban đầu của dữ liệu. Với bài toán nhận dạng

hành động giao thông cơ bản này, chúng tôi chỉ sử dụng phương pháp biến đổi dữ

liệu, từ dữ liệu cảm biến gia tốc thô có hệ tọa độ theo thiết bị sẽ được biến đổi thành

dữ  liệu  cảm biến  gia  tốc  theo hệ  tọa độ  trái  đất nhằm  tạo  ra sự ổn định, hiệu quả

trong nhận  dạng hành động và  nhận dạng hành vi  bất  thường –  vốn  có  tính phức

hợp khó đoán nhận trong thực tế.

Trong bài toán nhận dạng hành động giao thông sử dụng dữ liệu cảm biến từ

điện thoại dựa trên phương pháp phân lớp. Biến đổi dữ liệu cảm biến gia tốc bằng

các thuộc tính đặc trưng để có dữ liệu mới, phù hợp với  yêu cầu bài toán và thuật

toán phân lớp, mang lại hiệu quả nhận dạng hành động và hành vi mà yêu cầu bài

32

toán đặt ra.

2.4.1.2 Cửa sổ dữ liệu

Dữ  liệu  cảm  biến  gia  tốc  thu  được  từ  điện  thoại  gồm  các  điểm  dữ  liệu  là

những véc tơ gồm ba số thực tương ứng trên ba trục X, Y, Z của hệ trục tọa độ thiết

bị. Chuỗi tín hiện cảm biến gia tốc với các điểm được thêm vào theo thời gian có

tính chất của dữ liệu chuỗi thời gian. Vì một chuỗi thời gian dạng luồng bao gồm

một số lớn các giá trị. Do đó, để phân tích một hành động trong một khoảng thời

gian cụ thể được xác định trong một đoạn hay một chuỗi dữ liệu tín hiệu tương ứng.

Sự tính toán hay so sánh độ tương tự nhằm tìm ra sự giống, khác nhau giữa

hai chuỗi thường được thực hiện bởi tính chất và kích thước của các của chuỗi (số

điểm dữ liệu cuối cùng của chuỗi) được gọi là kích thước cửa sổ của chuỗi tín hiệu,

thường ký hiện là W. Nếu W = 256 thì mỗi chuỗi này có 256 giá trị hay kích thước

của cửa sổ là 256.

Do các nhân tố chủ quan, khách quan cũng như sự khác nhau về chủng loại

thiết bị,  tần  số  lấy  mẫu  khi  thu dữ  liệu  sẽ  cho  các  chuỗi dữ  liệu  sẽ  khác nhau. Vì

vậy, cần sử dụng những kỹ thuật tiền xử lý cũng như phân đoạn cửa sổ tín hiệu có

kích thước phù hợp sao cho thông tin về đối tượng nhận dạng nhiều nhất trên cửa sổ

dữ liệu đó.

Kỹ thuật cắt và chồng dữ liệu được sử dụng để phân đoạn một chuỗi dữ liệu

cảm biến liên tục thành các cửa sổ có kích thước là W với mong muốn là nhận dạng

được các đối tượng dựa vào thông tin của từng của sổ này như Hình 2-2. Cắt chồng

dữ liệu là cách lấy lại một số điểm dữ liệu của cửa sổ trước đó làm một thành phần

cho cửa sổ hiện tại. Kỹ thuật này được sử dụng trong nhiều nghiên cứu đã công bố

về nhận dạng hành động, hành vi thông qua dữ liệu cảm biến như [11][38][39][40].

Trong hệ thống nhận dạng đề xuất, cửa sổ dữ liệu được khảo sát nhằm chọn

ra kích thước phù hợp với từng loại hành động với mục đích nâng cao kết quả nhận

33

dạng được trình bày như Hình 2-2 dưới đây:

Cửa sổ i-1

Cửa sổ  i+1

Cửa sổ i w =Độ dài của cửa sổ

1 2 … k-1 k k+1 … N-1 N

Chồng dữ liệu

Hình 2-2. Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu

Ở  trong Hình 2-2 biểu diễn phân đoạn  chuỗi dữ liệu thành  các  cửa  sổ  i  -1,

cửa sổ i và cửa sổ i +1 có kích thước là N và chồng dữ liệu là k, cửa sổ tiếp theo sử

dụng k điểm dữ liệu của cửa sổ trước đó.

Dựa vào các cửa sổ dữ liệu, những phương pháp trích xuất, biến đổi dữ liệu

được áp dụng để đưa ra những giá trị đặc trưng của các đối tượng cần nhận dạng.

Tiếp đến là áp dụng những thuật toán nhận dạng phù hợp để thu được kết quả mong

muốn. Để có được những giá trị đặc trưng này cần có những thuộc tính phù hợp với

yêu cầu bài toán đặt ra thông qua việc khảo sát, phân tích các tính chất của dữ liệu

cảm biến trên các miền khác nhau.

2.4.1.3 Biến đổi hệ tọa độ

Khi thiết bị điện thoại không cố định theo hướng di chuyển của phương tiện.

Điều này dẫn đến hệ trục tọa độ của thiết bị sẽ thay đổi so với thời điểm ban đầu khi

di chuyển. Nhằm giảm ảnh hưởng của việc thay đổi này, có hai phương pháp thông

dụng đó là: thứ nhất là biến đổi giá trị trên các trục của một điểm dữ liệu thành một

đại lượng mới; thứ hai là sử dụng phương pháp biến đổi hệ tọa độ của thiết bị.

Một  trong  những  cách  thực  hiện  lựa  chọn  biến  đổi  điểm  dữ  liệu  đó  là  sử

dụng một thuộc tính độc lập được tính từ các trục tọa độ của cảm biến gia tốc bởi

a

a

a

a

công thức:

với ax, ay, az là các giá trị trên trục X,Y,Z

(2.1)

mag

2 x

2 y

2 , z

Phương  pháp  biến  đổi  hệ  tọa  độ  của  thiết  bị  sang  hệ  tọa  độ  trái  đất  cũng

thường được áp dụng trong phân tích dữ liệu cảm biến gia tốc[41][42] khi thiết bị

34

cảm  biến  không  cố  định  theo  hướng  chuyển  động  của  phương  tiện.Phương  pháp

biến đổi hệ tọa độ của thiết bị cảm biến về hệ trục tọa độ của trái đất được thể hiện

(b)

(a)

như

Hình 2-3. (a) Hướng của điện thoại được xác định bởi hệ tọa độ (X, Y, Z). (b) Hướng di chuyển của phương tiện theo hệ tọa độ trái đất (X’, Y’, Z’)

Dữ liệu gia tốc của người điều khiển phương tiện được tính bởi công thức chuyển trục sau:

X

X

a a

R

a a

Y

Y

(2.2)

a

a

Z

Z

    

    

    

    

Trong đó  ma  trận  chuyển  R  =  Rx*  Ry  *  Rz  và  Rx,  Ry,  Rz  là  các  ma  trận

1

0

0

chuyển các trục tương ứng

xR

(2.3)

0 0

cos sin

 

 sin cos

 

    

    

cos

0

sin

yR

(2.4)

0  sin

1 0

0 cos

     

    

 

 

zR

(2.5)

cos sin 0

sin cos 0

0 0 1

     

    

Với β, α, và ϕ là góc xoay theo các trục X’, Y’ và Z’.

Đối với phương pháp biến đổi điểm dữ liệu thứ nhất, các thành phần X,Y,Z

được  tổng  hợp  thành  một  thuộc  tính  đặc  trưng  nên  khả  năng  phát  hiện  theo  các

hướng  gặp  khó  khăn hơn  chuyển  trục  theo  công thức (2.2).  Cách  chuyển  trục  thứ

35

hai thường được các nghiên cứu áp dụng như trong các công bố[11][14][43].

2.4.1.4 Biến đổi dữ liệu đặc trưng

Các  kỹ  thuật phân  tích, nhận dạng  khác nhau  cần dữ  liệu đầu  vào phù hợp

với  mục  tiêu  cụ  thể  của  từng  hệ  thống.  Biến  đổi  dữ  liệu  là  một  trong  những  giải

pháp tạo ra dữ liệu đầu vào phù hợp với hệ thống đó, nhằm giúp cho hệ thống thực

hiện chính xác và hiệu quả hơn. Một số mô hình nhận dạng gặp khó khăn khi thực

hiện  với  dữ  liệu  cảm  biến gia  tốc  thô  trong những điều  kiện dữ  liệu  có nhiễu nên

giải  pháp  biến  đổi  dữ  liệu  này  thành  dữ  liệu  đặc  trưng  là  hướng  tiếp  cận  thường

được các nghiên cứu lựa chọn để có được một hệ thống phù hợp với yêu cầu đặt ra.

Dựa vào tính chất của dữ liệu cảm biến gia tốc thu được, việc xây dựng tập

thuộc tính đặc trưng là yếu tố quyết định đến kết quả đoán nhận. Trong kỹ thuật xử

lý tín hiệu cảm biến, các thuộc tính đặc trưng thường được lựa chọn dựa trên tính

chất thời gian và tần số [44][45]. Tùy thuộc vào đặc điểm của dữ liệu thu được, có

thể đánh giá sự đóng góp của thuộc tính trên miền thời gian và miền tần số trong

việc nâng cao hiệu quả nhận dạng. Một trong những phương pháp thường dùng đó

là kết hợp các thuộc tính trên miền thời gian và miền tần số lại với nhau để làm rõ

được tính đặc trưng của từng đối tượng cần phân lớp như trong Hình 2-4 được trình

bày trong nghiên cứu [46].

Hình 2-4. Kết hợp biểu diễn thông tin trên miền thời gian và tần số [46]

36

Trong Hình 2-4 cho thấy, khi kết hợp các đặc trưng trong miền thời gian và

đặc trưng trong miền tần số để biểu diễn, thể hiện các đối tượng sẽ làm rõ nét và nổi

bật những tính chất, đặc trưng của đối tượng đó.

Khi các hành động, hành vi giao thông xảy ra, ngoài đặc điểm có thể nhận

dạng các hành động theo tính chất thay đổi theo thời gian còn có những đặc điểm

lặp đi lặp lại nên cần kết hợp, làm rõ những đặc điểm này nhằm hỗ trợ việc nhận

dạng hành động, hành vi. Đây cũng là phương pháp thường được sử dụng trong lĩnh

vực xử lý tín hiệu số[46].

2.4.1.5 Thuộc tính trên miền thời gian

Trong miền thời gian, một số đặc trưng cơ bản thường được sử dụng để phân

tích tín hiệu [47] như là :

- Độ hiệu dụng, là một trong những đại lượng đại diện cho tính chất của một

chuỗi giá trị. Do vậy, đại lượng này được sử dụng để phân loại các mẫu hành động

,

x  được tính theo công thức (2.6)

và hành vi. Giá trị hiệu dụng hay căn trung bình bình phương của một tín hiệu xi đặc

x x ,   1 2

, n

x

2 x 1

2 x 2

2 n

x

trưng cho một chuỗi n giá trị rời rạc 

(2.6)

RMS

 n

- Một số đại lượng thống kê cơ bản cũng được sử dụng như giá trị trung bình,

phương sai và độ lệch chuẩn cũng được lựa chọn làm các thuộc tính đặc trưng.

Giá trị trung bình trên một cửa sổ mẫu dữ liệu là một đại lượng có ý nghĩa

chung cho toàn bộ các giá trị trong cửa sổ, được sử dụng cho hầu hết các loại cảm

biến bởi chi phí tính toán nhỏ. Áp dụng giá trị này để tiền xử lý dữ liệu có thể loại

bỏ các đỉnh nhọn ngẫu nhiên và nhiễu từ các tín hiệu cảm biến để làm trơn toàn bộ

tập dữ liệu hoặc trên một cửa sổ có N mẫu. Đồng thời, giá trị này có thể sử dụng

như là một thuộc tính hoặc để tính đối với các thuộc tính khác. Với dữ liệu cảm biến

gia tốc, giá trị trung bình có thể được tính trên từng trục một cách độc lập hoặc trên

từng thành phần dọc và ngang hoặc giá trị hiệu dụng. Giá trị trung bình tính trên N

37

mẫu theo công thức (2.7) sau:

x

(2.7)

1 N     x i N  1 i

Đại lượng phương sai và độ lệch chuẩn cũng thường được lựa chọn để phân tích

dữ liệu cảm biến bởi đặc trưng của cả phương sai và độ lệch chuẩn bởi chúng thể

hiện cho phân bố xác suất của dữ liệu. Độ lệch chuẩn có thể sử dụng để đánh giá độ

ổn định của tín hiệu. Tương tự như giá trị trung bình, độ lệch chuẩn, phương sai có

thể được tính độc lập trên mỗi trục hoặc mỗi thành phần. Nó cũng thường hay được

sử dụng để tính đối với các thuộc tính khác. Giá trị phương sai tính trên cửa sổ có N

N

N

a i [ ]

a

a

2 

a i [ ]

a

mẫu như công thức (2.8) sau:

(2.8)

 ; var

2

1 N

1 N

i

 1

i

 1

N

a

a i [ ],

trong đó  là giá trị trung bình được tính bởi công thức (2.9) sau:

(2.9)

1   N  1 i

- Các đại lượng đường bao như độ lệch mẫu, tỉ lệ đỉnh trên trung bình cũng là

những thuộc tính được lựa chọn.

Độ lệch mẫu là độ lệch giữa các giá trị mẫu cực đại và cực tiểu cũng được sử

dụng cùng với các chỉ dấu khác để phân biệt giữa một số hoạt động khác nhau về

  a

 max( ) min( ) a

a

mức độ tín hiệu được tính như công thức (2.10) sau:

(2.10)

Tỉ lệ đỉnh trên trung bình (Peak to Average Ratio), là đặc trưng được dẫn xuất

nhằm hỗ trợ nhận dạng các hoạt động bất thường được tính theo công thức (2.11)

  max a

PAR

sau:

(2.11)

a

-  Tương quan  tín hiệu  và hệ  số tương quan được  sử dụng để  đo  cường độ  và

chiều hướng của mối quan hệ tuyến tính giữa hai tín hiệu. Trong bài toán nhận dạng

38

hành động, hành vi, độ tương quan đặc biệt hữu ích trong việc phân biệt giữa các

hoạt động liên quan đến sự dịch chuyển theo một chiều. Để tính độ tương quan cần

phải tính các hệ số tương quan giữa các tín hiệu trên các trục tọa độ khác nhau. Một

trong  những  hệ  số  thường  được  sử  dụng đó  là  hệ  số  tích  mô  men  Pearson  (x,  y)

cũng  được  biết  như  là  hệ  số  tương  quan  mẫu  và  được  tính  như  là  tỉ  lệ  của  hiệp

phương sai của các tín hiệu ( Ví dụ trên trục X và trục Y) với tích các độ lệch chuẩn

cov

x y ,

x y ,

của chúng được tính theo công thức (2.12) sau:

(2.12)

  x y

- Tương quan chéo là một phép đo tính tương tự giữa hai dạng song và thường

được sử dụng để tìm kiếm một mẫu đã biết trong một tín hiệu dài. Các hệ số tương

quan  chéo được  tính  toán bằng việc  tính  tích  vô hướng  giữa  các tín hiệu đã  được

chuẩn  hóa  trên  kích  thước  cửa  sổ  có  n  mẫu.  Các  hệ  số  khác  nhau  thu được  bằng

cách tính tương quan cho các phiên bản dịch thời gian của một tín hiệu tương ứng

n

R

x y ,

x y . i

 i d

với tín hiệu khác được tính như công thức sau:

(2.13)

 1 n max  1 d

i

 1

  

  

Độ tương quan có thể được tính theo các cặp trục tọa độ (X, Y), (X, Z) hay (Y,

N

N

N

N

N

a i a i [ ] [ ]

a

a

a

a

y

x

a i [ ] y

i x

x

i y

y



  [ ] a i x

i

 1

i

 1

i

 1

i

 1

R

2

N

N

2

Z) hoặc giữa hai thành phần gia tốc dọc và ngang như sau:

(2.14)

N

N

N

N

2

2

a

a

a

a

i x

x

i y

y

N

N

2 a i [ ] x

a i [ ] x

2 a i [ ] y

a i [ ] y

i

 1

i

 1

i

 1

i

 1

i

 1

i

 1

  

  

  

  

Trong đó các giá trị gia tốc trung bình được tính theo công thức (2.9).

- Điểm cắt không (Zero - crossing):

Điểm cắt không có thể được coi như là các điểm mà một tín hiệu đi qua một

giá trị xác định tương ứng với một nửa khoảng giá trị tín hiệu. Giá trị phân cách có

thể là giá trị trung bình của khoảng giá trị cảm biến hoặc một giá trị trung bình được

trích xuất. Số lần tín hiệu đi qua giá trị tham chiếu là số lượng điểm cắt không. Số

39

lượng điểm cắt không có thể được ước tính gần đúng như sau:

N

D

(2.15)

    d i [ ]

i

 1

sgn

sgn

1]

a i [ ] p

a i [ p

d i [ ]

trong đó

(2.16)

2

a

 

a a

,

p

thr

với a có thể là dữ liệu gia tốc mỗi trục hoặc thành phần ngang

hoặc dọc hoặc giá trị hiệu dụng, athr là mức ngưỡng để phân cách hay giá trị tham

chiếu được lựa chọn phù hợp, n = 2,…, N và sgn là hàm dấu. Khi số lượng điểm cắt

không được xác định thì số lượng đỉnh (peaks) trên cửa sổ thời gian có thể ước tính

n

round

gần đúng bởi công thức sau:

(2.17)

p

D 2

  

  

- Diện tích độ lớn tín hiệu (SMA):

Diện tích độ lớn tín hiệu là tổng diện tích được bao bởi độ lớn của mỗi tín hiệu

gia  tốc ở 3 trục để  tính  chi phí năng lượng trong các hành động.  Đại  lượng  SMA

t

t

t

SMA

a t dt ( )

a t dt ( )

a t dt ( )

x

y

z

được tính theo tín hiệu gia tốc như sau:

(2.18)

1 t

0

0

0

  

  

Trong đó ax(t), ay(t) và az(t) là các tín hiệu gia tốc theo mỗi trục. Đại lượng

SMA có thể được sử dụng để phân biệt giữa trạng thái nghỉ và hoạt động của các

N

SMA

[ 1]

 

[ 1]

 

[ 1]

 

   t i [ 1]

a i x

a i [ ] x

a i y

a i [ ] y

a i z

a i z

đối tượng. Trên một cửa sổ N mẫu dữ liệu đại lượng SMA được tính như sau:

  t i [ ] * [ ]

(2.19)

1   T  2 2 i

với T là độ rộng cửa sổ tính T = t[N]-t[1]. Một số dạng thuộc tính tương tự

SMA phản ánh năng lượng của trạng thái hoạt động theo hai thành phần gia tốc dọc

40

và ngang như sau:

N

[ 1]

 

  [ 1] t i

E k

a i k

a i k

  t i [ ] * [ ]

1 2

i

2

(2.20)

với k đại diện cho chiều dọc hoặc chiều ngang

Có thể thấy các thuộc tính phản ánh năng lượng ở công thức (2.13) này giống

với  đại  lượng  tốc  độ  biến  thiên  ở  trên,  hai  thành  phần  năng  lượng  dọc  và  ngang

được sử dụng để phân biệt các hoạt động có sự khác biệt giữa hai thành phần này.

- Độ lớn véc tơ tín hiệu (SVMS): Đại lượng SVMS và độ lớn véc tơ tín hiệu vi

t

SVMS

sai (DSVM) tương tự kiểu chuẩn hóa được định nghĩa như sau:

DSVM

SVMS

'

dt

2 x i

2 y i

2 z i

;

(2.21)

 

1 n  n  1 i

0

 1   t 

  

Có  thể  thấy  đại  lượng  SVMS  cũng  là  một  dạng đại  lượng hiệu dụng và  được

N

N

SVMS

i [ ]

tính cụ thể như sau:

(2.22)

2 a i [ ] x

2 a i [ ] y

2 a i [ ] z

2 a rms

1 N

1 N

i

 1

i

 1

N

DSVM

i [ 1]

 

t i [

1]

(2.23)

 a rms

 a rms

  t i [ ] * [ ] i

1  T  2 i

2

[ 1]

 

  a rms

a i rms

a i [ ] rms

với .

N

DSVM

[ 1]

 

  1]

 [ 1]

Hoặc giá trị DSVM theo công thức sau:

(2.24)

a i [ ] x

a i x

a i [ ] y

a i [ y

a i [ ] z

a i z

1  N  i

2

Các thay đổi về đổi hướng của điện thoại được mô tả theo các góc quay: góc

xoay (), góc nghiêng () và góc đảo ( ) tương ứng với các trục x, y và z của điện

thoại như Hình 2-5. Con quay hồi chuyển thường được sử dụng để tính góc xoay.

Tuy nhiên, trong trường hợp này các góc định hướng có thể được ước tính gần đúng

41

dựa trên dữ liệu cảm biến gia tốc ở 3 trục tọa độ.

Hình 2-5. Hệ tọa độ và các trục quay trên điện thoại thông minh[48]

Dựa trên các giá trị cảm biến đo được trên 3 trục tọa độ, hai góc xoay ( )

a

i x

i y

1

góc nghiêng () có thể được xác định bằng hàm tan nghịch đảo hay atan như sau:

i [ ]

tan

i [ ]

tan

(2.25)

2

2

 a i a z

  1  

  

a

a

i x

i z

    

    

a

1

a

1

i x

i [ ]

tan

hoặc

i [ ]

tan

(2.26)

2

2

i y i a z

    

   

a

a

i y

i z

 

    

    

Trong đó, dữ liệu cảm biến trên trục Z là dữ liệu không loại bỏ trọng lực(g).

Tuy nhiên trong trường hợp các thành phần của cảm biến gia tốc không chuyển trục

(sử dụng dữ liệu gốc), điện thoại có thể ở vị trí bất kỳ do đó có thể tính thêm thành

1

i z

   

i [ ]

    với

z i [ ]

  i [ ]

tan

phần góc:

(2.27)

a 2

2

a

a

i x

i y

    

    

Sau  khi  tính  được  các  thành  phần  góc  quay,  các  thuộc  tính  sẽ  được  tính

tương tự như tính cho dữ liệu gia tốc.

-  Sử  dụng độ  tích  lũy  của  các  giá  trị  thay  đổi  theo  thời gian  của  các  thành

42

phần góc quay theo hàm sau:

N

 1

Ig

I i [ ],

 

i

 1

với

(2.28)

x

,{

f q

}

I i [

1]

I i [ ]

x i [

  1]

1]

  t i [ ] * [ x i

 t i [ ] ,

1 2

trong đó .

Các thuộc tính trong miền thời gian có đặc điểm tính toán nhanh, thực hiện

được với các giá trị thống kê, so sánh sự khác biệt của các mẫu dữ liệu. Tính chất

dữ liệu cảm biến của các hành động, hành vi thay đổi theo thời gian. Do vậy, các

đại lượng thống kê trên miền thời gian có ý nghĩa quan trọng trong việc làm nổi bật

những đặc  trưng của  hành  động, hành  vi  đó,  hỗ  trợ  cho hệ  thống nhận  dạng thực

hiện hiệu quả.

Với dữ liệu chuỗi thời gian như tín hiệu cảm biến gia tốc điện thoại là một

dạng tín hiệu số nên có thể biểu diễn và biến đổi dựa vào các đặc trưng trong miền

tần số nhằm tìm ra những đặc điểm hỗ trợ hệ thống nhận dạng được các hành động,

hành vi dựa trên những đại lượng này.

2.4.1.6 Thuộc tính trên miền tần số

Các kỹ thuật miền tần số thường được sử dụng để xác định bản chất lặp lại của

tín hiệu cảm biến. Tính lặp lại này thường tương quan với bản chất tuần hoàn của

một hành động, hành vi nào đó. Kỹ thuật khai triển tín hiệu thường được sử dụng là

biến đổi  Fourier,  cách biến  đổ  này  cho phép biểu diễn những đặc  tính quan  trọng

của miền tần số (phổ) của một tín hiệu dựa trên thời gian như thành phần trung bình

(hoặc thành phần một chiều DC) và thành phần tần số trọng yếu [46]. Trong miền

đặc trưng phổ này, các chu kỳ hoặc các khoảng lặp lại chính của tín hiệu được đặc

trưng  bởi  các  giá  trị hoặc  các  hệ  số  khác  không  tại  giá  trị trục  tần  số  tương ứng.

Phép phân tích tần số này thường được tính cho một tín hiệu thời gian có độ dài hay

cửa sổ thời gian xác định sử dụng kỹ thuật khai triển Fourier rời rạc bằng các giải

thuật khai triển Fourier nhanh (FFT) và khai triển tần số thời gian nhanh[46]. Phép

N

 1

X k [ ]

x m w m [ ]. [

].exp

j

 2

 N k m . .

khai triển Fourier rời rạc trên tập N mẫu dữ liệu được biểu diễn theo công thức sau:

(2.29)

m

0

43

trong đó w[m] là hàm cửa sổ. Việc chọn hàm cửa sổ cho phép phân tích tập

trung vào các thành phần tần số chính của tín hiệu. Trường hợp không sử dụng hàm

cửa sổ có thể coi w[m] = 1, còn khi sử dụng w[m] có nhiều hàm mô tả khác nhau, ví

w m [

 ] 0.54 0.46cos 

dụ cửa sổ Hamming:

(2.30)

 m 2   N 1 

  

Sau  khi  khai  triển  Fourier,  thành  phần  X[k]  thường  là  số  phức  nên  có  thể

được biểu diễn thành X[k] = XR[k] +jXI[k] trong đó j là số ảo, XR là thành phần

thực (real) và XI là thành phần ảo (img).

Thành phần DC, là hệ số đầu tiên trong đặc trưng phổ của một tín hiệu và giá trị

của nó thường lớn hơn nhiều các hệ số phổ còn lại.

Năng lượng phổ: Năng lượng của một tín hiệu có thể được tính như tổng bình

phương các hệ số phổ được chuẩn hóa theo chiều dài cửa sổ mẫu. Đại lượng này có

M

M

2

X k [ ]

thể được tính chỉ trong một dải phổ xác định:

(2.31)

E s

2 X k [ ] R

 2 X k [ ] I

k

 1

k

 1

Tùy thuộc vào tốc độ lấy mẫu, M sẽ được chọn cho phù hợp. Đại lượng năng

N

2

2

X k [ ]

 2

lượng phổ trung bình cũng có thể được tính như sau:

(2.32)

k

2

E

N

Entropy  thông tin:  Đại  lượng Entropy có  thể  được tính  bằng  việc  sử  dụng

Entropy thông tin chuẩn hóa của độ lớn các hệ số Fourier rời rạc loại bỏ thành phần

DC. Entropy trợ giúp phân biệt giữa các tín hiệu có các giá trị năng lượng tương tự

nhưng tương ứng với các mẫu hoạt động khác nhau. Tính Entropy được thực hiện

N

H

log

theo công thức sau:

(2.33)

p k

2

p k

 

k

 1

44

2.4.1.7 Tham số Hjorth

Tham số Hjorth [49] là đại lượng thường được sử dụng trong phân tích các

tín hiệu y sinh. Đại lượng này chỉ ra tính chất thống kê của một tín hiệu trong miền

thời  gian  gồm  ba  giá  trị  đại  diện  cho  tính  hành  động  (Activity),  tính  di  động

(Mobility)  và độ phức  tạp  (Complexity).  Giá  trị  Activity  được  tính  bởi  công thức

(2.34) là phương sai của hàm thời gian, có thể chỉ bề mặt phổ công suất trong miền

thời gian. Tức là giá trị Activity trả về một giá trị lớn hay nhỏ nếu các thành phần

tần số cao của tín hiệu tồn tại nhiều hay ít. Giá trị Mobility được định nghĩa như căn

bậc hai tỉ lệ của phương sai đạo hàm bậc một tín hiệu và phương sai của tín hiệu đó

theo  công  thức  (2.35),  giá  trị  này  tỉ  lệ  với  độ  lệch  chuẩn  phổ  công  suất.  Giá  trị

Complexity  (2.36)  chỉ  ra hình dạng  của một  tín hiệu  tương  tự  với  dạng  sóng hình

sin tới mức nào được tính theo công thức (2.36). Giá trị Complexity sẽ hội tụ về 1

khi dạng  tín hiệu tương  tự như một sóng hình  sin.  Như  vậy  ba  tham  số trên được

tính trong miền thời gian nhưng chứa thông tin về phổ tần của một tín hiệu. Cụ thể

cách tính 3 giá trị của tham số này như sau:

N

 1

- Tham số Hjorth hành động ( Hjorth Activity):

(2.34)

A

 2 d 0 i  1 i N

1

[ 1]

 

d trong đó  0 i

a i rms

a i [ ] rms

với i = 1,.., N-1.

N

2

2 d 1 i

- Tham số Hjorth chuyển động ( Hjorth Mobility):

(2.35)

M

m 1

1m A

  1 i N

2

 

trong đó

id với  1

d i [ 1] 0

d i [ ] 0

với i = 1,.., N-2.

45

- Tham số Hjorth phức hợp (Hjorth Complexity):

N

 3

d

2 i 2

(2.36)

C

m 2

  1 i N

3

m 2 m 1

 

trong đó

id với  2

d i [ 1] 1

d i [ ] 1

với i = 1,.., N-3.

Với  mỗi  thuộc  tính  được  lựa  chọn  có  thể  áp  dụng  với  các  đại  lượng  khác

nhau nhằm biến đổi dữ liệu cảm biến gia tốc thành các dữ liệu đặc trưng sử dụng

cho hệ thống nhận dạng phương tiện và hành động. Tổng hợp các thuộc tính và các

46

thành phần áp dụng trên các thuộc tính đó được thể hiện như bảng dưới đây:

Kiểu

Công thức (2.6)  (2.7)  (2.8)  (2.8)

Tên đặc trưng SVMS    2  

Diff = max(x)-min(x)

(2.10)

Thời gian

Tham số Hjorth

Tần số

R  ZC  PAR  SMA  DSVM  I  A  M  C  EFFT  En

(2.14)  (2.15)  (2.11)  (2.19)  (2.24)  (2.28)  (2.34)  (2.35)  (2.36)  (2.32)  (2.33)

Bảng 2-2. Các thuộc tính đặc trưng

2.4.1.8 Phương pháp đánh giá phân lớp bằng AUC

Các phương pháp đánh giá mô hình thường được sử dụng khi đánh giá với

mô hình phân lớp dữ liệu đó là dựa trên ma trận nhầm lẫn. Giả sử khi phân lớp với

tập dữ liệu có các nhãn là: {Dừng, Đi thẳng, Rẽ trái, Rẽ phải}. Mô hình phân lớp dữ

liệu vào các nhãn lớp với kết quả được thể hiện bởi thông tin như sau:

Giả sử kết quả phân lớp đối với nhãn là hành động rẽ trái:

- TP: là hành động rẽ trái trên thực tế được hệ thống nhận dạng phân loại đúng

là rẽ trái.

- TN: là hành động không phải là rẽ trái trên thực tế được hệ thống nhận dạng,

phân loại không phải nhãn lớp rẽ trái.

- FN: là hành động rẽ trái trên thực tế nhưng hệ thống phân loại, nhận dạng là

hành động không phải là rẽ trái.

- FP: là hành động trên thực tế không phải là rẽ trái nhưng được hệ thống phân

loại nhận dạng là hành động rẽ trái.

Có hai độ đo thường được sử dụng để đánh giá mô hình phân lớp đó là độ chính xác

47

(Accuracy) và độ đo AUC. Độ đo accuracy được tính theo công thức sau:

Accuracy

(2.37)

TP TN   TP TN FP FN

Trong khi đó, độ đo AUC (Area Under Curve) được tính bởi công thức (2.38) là độ

lớn của diện tích hình cong ROC[50]. Phương pháp này cho phép dễ dàng so sánh

các đường ROC với nhau trong khi phân tích, đánh giá các mô hình.

Công thức tính độ đo AUC của nhãn lớp âm khi phân lớp hai dạng mẫu âm

và dương được tính như sau:

 1

R 0

(2.38)

 n n 0 0 2

AUC 0

n n 0 1

Trong đó n0 là kích cỡ của mẫu âm, n1 là kích cỡ của mẫu dương, và R0 là

tổng của các xếp hạng của các mẫu âm. Khi đó hiệu suất của các bộ phân lớp được

so sánh như ví dụ ở Hình 2-6 bên dưới:

Hình 2-6. Độ đo AUC[50]

Giá trị của AUC thường được sử dụng để đánh giá độ tốt của mô hình phân

lớp,  một mô  hình đủ  tốt  là mô  hình  có  diện  tích  AUC  trên  0.5. Các ngưỡng và ý

48

nghĩa của AUC được thể hiện trong Bảng 2-3 bên dưới:

AUC Ý nghĩa

>0.9 Rất tốt

0.8 đến 0.9 Tốt

0.7 đến 0.8 Trung bình

0.6 đến 0.7 Không tốt

0.5 đến 0.6 Vô dụng

Bảng 2-3. Ý nghĩa diện tích bên dưới đường cong ROC (AUC)

Trong quá trình thực nghiệm của một số nghiên cứu, AUC thường được sử

dụng để so sánh, đánh giá hiệu năng của các mô hình, giá trị AUC càng cao thì mô

hình có độ chính xác và có tính ổn định hơn [51].

Khi đánh giá mô hình phân lớp dựa trên một tập dữ liệu, phương pháp kiểm

chứng  chéo  (CV10)  cũng  thường  được  áp  dụng  nhằm  chia  dữ  liệu  thành  n  phần

bằng nhau. Trong đó sử dụng (n – 1) phần để huấn luyện và phần còn lại để kiểm

tra.  Thực  hiện  n  lần  phân  lớp  và  kiểm  tra  với  các  tập  huấn  luyện  và  kiểm  tra  đó

nhằm thu được kết quả đánh giá mô hình phân lớp. Kết quả các giá trị độ đo được

tính từ trung bình của n lần thực hiện đánh giá. Ví dụ như độ chính xác Accuracy

sau n lần thực hiện kiểm chứng chéo được tính bởi công thức sau:

(2.39)

Acc T

Accuracy i

1 n   n  i 1

Với trường hợp dữ liệu có N lớp, sau khi thực hiện phương pháp kiểm chứng chéo

jAUC . Theo đó, giá trị độ đo AUC sử dụng

để thu được độ đo AUC của lớp thứ j là

AUC

AUC

j

để đánh giá mô hình được tính bằng công thức sau:

(2.40)

1 N   N  1 j

Thực  nghiệm  tiến  hành  đánh  giá  mô  hình  phân  lớp  trên  một  số  tập  dữ  liệu  khác

nhau sử dụng cả hai độ đo, độ chính xác Accuracy và AUC. Trong đó, độ đo AUC

49

được sử dụng để lựa chọn kích thước cửa sổ dữ liệu của từng hành động khác nhau.

2.4.2 Tập thuộc tính đặc trưng

Sự di chuyển của phương tiện giao thông làm thay đổi gia tốc nên các thuộc

tính trong miền thời gian có ý nghĩa và hàm chứa những thông tin hữu ích khi phân

tích các hành động, hành vi. Ngoài ra, cũng cần phân tích những thuộc tính hỗ trợ từ

các miền thông tin khác. Để lựa chọn được tập thuộc tính đặc trưng phù hợp, cần

kết hợp các thuộc tính trên miền thời gian, miền tần số và các tham số Hjorth. Tuy

nhiên, để đánh giá được sự hỗ trợ của các tập thuộc tính. Chúng tôi lần lượt đánh

giá và kết hợp với nhau nhằm làm rõ sự ảnh hưởng của các tham số.

Do các thuộc tính trên miền thời gian có yếu tố ảnh hướng lớn đến các hành

động, hành vi. Sau khi đánh giá chỉ riêng các tập thuộc tính bằng kết quả phân lớp,

tiếp đến là kết hợp các thuộc tính trong miền thời gian và tần số; thuộc tính miền

thời gian với tham số Hjorth và cuối cùng là kết hợp các thuộc tính đề xuất trên cả

miền thời gian, miền tần số và tham số Hjorth để đánh giá sự tác động của từng tập

thuộc tính thể hiện ở Bảng 2-4. Kết quả cho thấy, khi kết hợp cả ba dạng thuộc tính

sẽ thu được tập thuộc tính phù hợp hơn dựa trên độ đo AUC và độ chính xác khi

phân lớp. Kết quả này được biểu diễn, chứng minh bằng kết quả thực nghiệm.

Miền, tham số Hjorth Thời gian Tần số Hjorth Thời gian + Tần số Thời gian + Hjorth Thời gian + Tần số + Hojrth

Tên tập thuộc tính T2 F2 H2 TF2 TH2 TFH2

Bảng 2-4. Các tập thuộc tính

- Tập  thuộc  tính  (T2):  tập  thuộc  tính  này  bao  gồm  các  thuộc  tính  trên  miền

thời gian đó là giá trị trung bình, thuộc tính phương sai, thuộc tính hiệp phương sai,

thuộc  tính độ  lệch  chuẩn,  thuộc  tính độ  tương  quan,  giá  trị điểm  cắt  không,  thuộc

tính độ đo hiệu dụng trên từng cửa sổ dữ liệu. Cùng với các thuộc tính tỉ lệ đỉnh trên

50

trung bình  (Pick  Average Ratio)  trên  các  trục  X,  Y,  Z  của  cảm biến  gia  tốc nhằm

tăng thêm hiệu quả nhận dạng các hành động giao thông. Kết hợp với 4 thuộc tính

diện tích độ lớn tín hiệu (SMA) như công thức (2.19) cùng với thuộc tính độ lớn véc

tơ tín  hiệu  vi sai  DSVM  bởi  công thức  (2.24)  và  thuộc  tính  về  giá  trị  trung bình,

phương sai và giá trị ước tính cho tốc độ biến thiên góc quay. Tổng số thuộc tính

trong miền thời gian ở tập T2 là 34 thuộc tính.

- Tập thuộc tính (F2): Tập thuộc tính này bao gồm các thuộc tính trên miền tần

số. Do tính chất của tín hiệu cảm biến gia tốc thu được khi có hành động giao thông

xảy ra có thể biểu diễn dưới dạng tần số. Bên cạnh đó, sự thay đổi về tín hiệu đẫn

đến thay đổi về giá trị năng lượng, nên các đại lượng liên quan đến năng lượng tín

hiệu  cũng  như  độ  đo  Entropy  được  lựa  chọn  nhằm  trợ  giúp  nhận  dạng  các  hành

động, hành vi khác nhau. Số lượng các thuộc tính trong tập F2 này là 7 thuộc tính.

- Tham số Hjorth (H2): được đề xuất sử dụng chủ yếu trong lĩnh vực phân tích

tín hiệu tin sinh học [49][52]. Đặc trưng của tham số này có tính chất thống kê của

tín hiệu trong miền thời gian gồm tính hoạt động, tính di động và tính phức hợp của

tín hiệu. Để nhận dạng hành động và hành vi, chúng tôi đề xuất sử dụng các tham số

này đối với các đại lượng góc xoay cũng như đại lượng trên các trục khác nhau của

dữ liệu cảm biến gia tốc. Tập thuộc tính từ tham số Hjorth ký hiệu là H2 bao gồm

18 thuộc tính được sử dụng cho thực nghiệm.

Việc kết hợp các tập thuộc tính với nhau nhằm khảo sát, đánh giá ảnh hưởng

của các tập thuộc tính để đưa ra tập thuộc tính phù hợp nhất trong hoạt động nhận

dạng  các  hành  động,  hành  vi  giao  thông.  Số  lượng  các  thuộc  tính  được  lựa  chọn

gồm 59 thuộc tính trên cả miền thời gian, tần số và đối với tham số Hjorth được mô

51

tả ở bảng sau:

Kiểu

Miền thời  gian

Tham số  Hjorth

Miền tần số

Tên đặc trưng SVM    2    Diff = max(x)-min(x)  R  ZC  PAR  SMA  DSVM  I  A  M  C  EFFT  En

Công thức (2.6)  (2.7)  (2.8)  (2.8)  (2.10)  (2.14)  (2.15)  (2.11)  (2.19)  (2.24)  (2.28)  (2.34)  (2.35)  (2.36)  (2.32)  (2.33)

Thuộc tính arms  ax, ay, az, arms, ,     ax, ay, az, ,   ax, ay, az  ax, ay, az  (ax, ay), (ax, az), (az, ay)  ax, ay, az  ax, ay, az  ax, ay, az, arms  arms  ,   ax, ay, az, arms, ,   ax, ay, az, arms, ,   ax, ay, az, arms, ,   ax, ay, az, arms  ax, ay, az

Bảng 2-5. Tập thuộc tính trong hệ thống nhận dạng hành động giao thông cơ bản

2.4.3 Đề xuất hệ thống nhận dạng hành động

Với đặc thù giao thông đô thị ở Việt Nam, các loại phương tiện phổ biến là

xe máy, xe đạp, ô tô và xe buýt. Tình trạng giao thông xảy ra còn nhiều vấn đề tồn

tại. Trong đó nổi lên các hành động, hành vi giao thông phức tạp do các yếu tố cá

nhân, điều kiện, môi trường cũng như văn hóa giao thông của người dân. Việc nhận

dạng hành động, hành vi cần có những giải pháp, kỹ thuật phù hợp với thực tiễn. Do

vậy, chúng tôi xây dựng hệ thống nhận dạng như Hình 2-7 nhằm nhận dạng hành

động giao thông cơ bản (Dừng, Đi thẳng, Rẽ trái, Rẽ phải) để lấy đó làm cơ sở cho

nhận dạng hành vi giao thông bất thường.

Hệ  thống  thực hiện  việc  thu  thập,  tiền  xử  lý dữ  liệu, biến đổi để  có  tập dữ

liệu đặc trưng dựa trên tập thuộc tính được đề xuất. Từ một số nghiên cứu đã có cho

thấy, kích thước cửa sổ dữ liệu sử dụng trong nhận dạng được cố định đối với tất cả

các đối tượng. Điều này gặp phải nhiều khó khăn khi các hành động, hành vi cần

nhận dạng có những đặc điểm, tính chất khác nhau. Do đó, hệ thống nhận dạng dựa

vào dữ liệu đặc trưng được biến đổi bằng tập thuộc tính đề xuất với cửa sổ dữ liệu

khác nhau theo từng loại hành động. Các kích thước cửa sổ được lựa chọn dựa trên

52

đánh giá độ đo AUC khi phân lớp dữ liệu.

Hệ  thống  nhận  dạng  phương  tiện  giao  thông,  hành  động  giao  thông  được

xây dựng và biểu diễn như Hình 2-7 dưới đây:

TIỀN XỬ LÝ DỮ LIỆU

Mô hình Nhận dạng

Dữ liệu gia tốc (gán nhãn)

- Kỹ thuật cửa sổ - Biến đổi dữ liệu

Tham số mô hình

Pha huấn luyện

Pha pha phát hiện

`

TIỀN XỬ LÝ DỮ LIỆU

The parameters

PHÂN LỚP

Dữ liệu gia tốc (phát hiện)

- Kỹ thuật cửa sổ - Biến đổi dữ liệu

Hành động

LOẠI HÀNH ĐỘNG

Hình 2-7. Hệ thống nhận dạng hành động giao thông

Hệ thống nhận dạng bao gồm 2 pha: pha thứ nhất, sử dụng dữ liệu gia tốc có

gán  nhãn  các  loại  hành  động  cơ  bản  đã  được  thu  thập  và  xác  định  trước.  Các  kỹ

thuật tiền xử lý dữ liệu được sử dụng kết hợp với tập thuộc tính đặc trưng được đề

xuất để xây dựng tập dữ liệu đặc trưng qua đó xây dựng mô hình phát hiện cho hệ

thống bằng phương pháp nhận dạng.

Pha thứ hai: nhận dạng các hành động dựa trên dữ liệu cảm biến thu được từ

điện thoại của đối tượng đang tham gia giao thông. Các kỹ thuật biến đổi dữ liệu,

trích xuất đặc trưng được áp dụng để tạo mẫu dữ liệu phát hiện, phát hiện nhãn của

mẫu dữ liệu này bằng bộ phân lớp.

Mỗi  loại  hành  động,  hành  vi  có  tính  chất,  đặc  trưng  khác  nhau  nên  kích

thước cửa sổ dữ liệu tương ứng cũng khác nhau. Việc tìm một kích thước cửa sổ có

kích thước phù hợp  chứa đủ  các  thông tin  của  tất  cả các đối  tượng cần phân  loại,

nhận dạng sẽ gặp nhiều khó khăn dẫn đến cần phải khảo sát và lựa chọn các kích

thước phù hợp với từng nhãn lớp. Trong kỹ thuật cửa sổ dữ liệu, kết quả khảo sát,

tối  ưu  nhận  được  là  các  giá  trị  kích  thước  cửa  sổ  và  chồng dữ  liệu  phù  hợp  theo

từng nhãn lớp hành động. Các kích thước này sẽ được áp dụng vào việc xây dựng

dữ liệu huấn luyện cũng xử lý dữ liệu phát hiện các đối tượng tương ứng. Giải pháp

53

lựa chọn kích thước cửa sổ được trình bày trong hình sau đây:

MÔ HÌNH PHÂN LỚP - Bộ phân lớp

Dữ liệu đặc trưng (Huấn luyện)

Dữ liệu cảm biến (Có nhãn)

TIỀN XỬ LÝ DỮ LIỆU - Kích thước cửa sổ - Chồng dữ liệu - Biến đổi dữ liệu

Đúng

Giá trị AUC > Delta

Sai

Các kích thước cửa sổ và chồng dữ liệu tương ứng với giá trị AUC lớn nhất

Hình 2-8. Thuật toán lựa chọn kích thước cửa sổ và chồng dữ liệu theo AUC

Thuật toán lựa chọn tham số mô hình được thực hiện như sau: Từ tập dữ liệu

cảm biến gán nhãn, thực hiện lọc nhiễu và cắt dữ liệu cảm biến gia tốc thành cửa sổ

dữ liệu. Sử dụng tập thuộc tính đặc trưng để biến đổi dữ liệu gia tốc từ cửa sổ vừa

có được để có dữ liệu đặc trưng tương ứng. Tập dữ liệu đặc trưng thu được sử dụng

cho việc xây dựng mô hình phân lớp và đánh giá kết quả dựa trên độ đo AUC. Kết

quả tối ưu thu được là các kích thước cửa sổ và chồng dữ liệu được lựa chọn sao

cho độ đo AUC khi phân lớp tương ứng tăng so với giá trị của cửa sổ trước nó nhỏ

hơn một giá trị Delta cho trước thì lựa chọn kích thước của cửa sổ đó. Trong hoạt

động nhận dạng hành động, cửa sổ nhỏ nhất được lựa chọn là 1 giây và kích thước

tăng thêm mỗi lần là 1. Qua quá trình thực nghiệm, giá trị chênh lệch độ đo AUC

của hai cửa sổ liền nhau (Delta) sử dụng để lựa chọn cửa sổ phù hợp nhất là 0.001.

Thuật toán lựa chọn kích thước cửa sổ dựa trên độ đo phân lớp AUC sử dụng

các giải thuật phân lớp với dữ liệu được cắt bởi các kích thước cửa sổ thể hiện trong

54

thuật toán sau:

=1)

Thuật toán: Lựa chọn kích thước cửa sổ

(Δ    =0.001,v t

gán kích thước cửa sổ khởi tạo là 1 giây

1.

w 

1; / /

ComputeAUC(w)

// Tính giá trị AUC tương ứng với W

2.

wAUC

3. While true do

AUC

ComputeAUC(w + v)

4.

w+v



AUC

5.

AUC w

w+v

6. if

   then t

AUC

7.

AUC w

w + v

8. w w v 

9. else

10. Break

11. EndWhile 12. Return w

Thuật toán 2.1. Thuật toán lựa chọn kích thước cửa sổ [CT4]

Sau khi thực hiện thuật toán, kích thước cửa sổ phù hợp được lựa chọn để sử

dụng cho nhận dạng các nhãn lớp hành động khác nhau dựa trên các thuật toán phân

lớp với tập dữ liệu được xây dựng bởi kích thước của sổ này.

Trong đó, pha phát hiện với N nhãn lớp hành động, sử dụng giải pháp tối ưu

cửa sổ  sẽ có  N  kích  thước cửa  sổ khác nhau,  đồng thời  cần  phải thực hiện  N  lần

phân lớp để xác định kết quả nhãn lớp để đưa ra nhãn lớp phù hợp theo Hình 2-9

như sau:

MÔ HÌNH PHÂN LỚP M1

Xử lý với kích thước Wi

ĐÁNH GIÁ XÁC ĐỊNH NHÃN LỚP NHÃN LỚP

MÔ HÌNH PHÂN LỚP Mi

NHÃN LỚP

DỮ LIỆU PHÁT HIỆN

MÔ HÌNH PHÂN LỚP MN

55

Hình 2-9. Nhận dạng hành động với các kích thước cửa sổ lựa chọn.

Tại một thời điểm, dữ liệu được tiền xử lý với N kích thước cửa sổ tối ưu và  được nhận dạng nhãn lớp tương ứng. Việc xác định nhãn lớp được quyết định bởi  Thuật toán 2-2 dựa trên giá trị AUC dưới đây. Các bước thực hiện giải thuật được  đặc tả dưới dạng giả mã như sau:

Thuật toán: Nhận dạng nhãn lớp hành động (Wi)với i = 1,...,N

1. L ← Rỗng// tập nhãn lớp tương ứng với cửa sổ Wi với i =

1,...,N

2. U ← Rỗng // tập độ đo AUC (Wi), với i = 1,...,N

3. bi← 0 // tổng số nhãn trùng với nhãn Li, i = 1,...,N

4. BL ← “S”//nhãn lớp được lựa chọn, khởi đầu bằng nhãn “S”-

“Dừng”

5. Si ← 0 // tổng giá trị AUC của các nhãn trùng với Li

6. For i:=1 to N do //thực hiện N lần

7. For j:=1 to N do // thực hiện N lần

L

ComputeL

8.

( )//Lj thu được khi nhận dạng với Wj W

j

j

8. If Lj = Li Then

9. bi = bi + 1 // tăng giá trị khi nhãn phân lớp bằng Li

10. EndIf

11. EndFor

11. Si = bi * Ui;với i = 1,...,N// tính Si

12. EndFor

13. BL = Lm khi Sm == Max(Si) với i = 1,...,N

14. Return BL

Thuật toán 2-2. Nhận dạng nhãn lớp với N kích thước cửa sổ

Tại  một  thời  điểm,  kết  quả  nhận  dạng  thu  được  là  tập  nhãn  lớp  Li  với  i  =

1,..,N  tương ứng  với  N  cửa  sổ  đầu  vào  (tương  ứng  với  các  nhãn  hành  động  khác

nhau); Ui là giá trị độ đo AUC tương ứng; bi là số lượng các nhãn trùng với nhãn

của cửa sổ Li, dựa vào bi ta tính được Si là tổng các giá trị độ đo AUC của các cửa

sổ có nhãn lớp trùng với Li. Nhãn lớp BL được chọn tương ứng với nhãn lớp thứ m

56

là Lm mà Sm là giá trị lớn nhất trong các Si với i = 1,...,N.

2.5

Thực nghiệm và đánh giá

2.5.1 Môi trường thực nghiệm

Hệ  thống  thu  thập  và  phân  tích  dữ  liệu  cảm  biến  của  điện  thoại  được  xây

dựng dựa trên hệ điều hành Android phiên bản 4.5 đến 6.0 sử dụng ngôn ngữ Java.

Các  mô  hình  phân  tích  dữ  liệu,  phát  hiện  phương  tiện,  hành  động  giao  thông  sử

dụng bộ công cụ WEKA [53].

Thực  nghiệm  tiến  hành  với  các  đối  tượng  mang  điện  thoại  khi  điều  khiển

phương  tiện  hoặc  ngồi  sau  các  phương  tiện  do  người  khác  điều  khiển  trong  quá

trình tham gia giao thông trên đường phố. Vị trí điện thoại có thể thay đổi tùy ý khi

tiến hành thực nghiệm. Do tính chất đặc thù ở các thành phố của Việt Nam và trong

khuôn khổ luận án, chúng tôi tiến hành thực nghiệm nhận dạng các hành động cơ

bản của phương tiện thông dụng nhất là xe máy.

Qua quá trình khảo sát các công trình nghiên cứu về nhận dạng hành động,

hành  vi  sử  dụng  phương  pháp  phân  lớp.  Chúng  tôi  lựa  chọn  một  số  thuật  toán

thường được sử dụng cho nhận dạng hành động, hành vi giao thông như RF, k –NN,

NB, SVM và J48. Các tham số của thuật toán phân lớp được lựa chọn mặc định trên

công cụ WEKA phiên bản 3. 8 thực hiện đánh giá bằng phương pháp kiểm chứng

chéo chia dữ liệu thành 10 tập như bảng dưới đây:

Thuật toán

TT

Tham số

1

RF

P = 100; I =100; num-slots =  1; K =10; M = 1.0; V = 0.001; S = 1

2

J48

C = 0.25; M = 2

3

k- NN  K=1;  W

=

0;

A:

"weka.core.neighboursearch.LinearNNSearch

-A

\"weka.core.EuclideanDistance -R first-last

4

NB

5

SVM

S= 0;  K= 2; D = 3; G = 0.0; R = 0.0; N = 0.5; M = 40.0; C = 1.0; E = 0.001; P = 0.1

Bảng 2-6. Tham số mặc định của thuật toán phân lớp sử dụng cho thực nghiệm

57

2.5.2 Dữ liệu thực nghiệm

Hệ  thống  nhận  dạng  hành  động  giao  thông  được  thực  hiện  trên  từng  loại

phương  tiện.  Với  mục  đích  làm  cơ  sở  phát  hiện  hành  vi  bất  thường,  luận  án  tập

trung nhận dạng 4 hành động cơ bản là đi thẳng, dừng, rẽ trái và rẽ phải. Dữ liệu

cảm biến gia tốc được chuyển trục dựa vào cảm biến con quan hồi chuyển và cảm

biến  từ;  sau  đó  thực  hiện  các  bước  tiền  xử  lý dữ  liệu  khác  để  thực  hiện  các  thực

nghiệm về: lựa chọn tập thuộc tính; khảo sát thuật toán phân lớp; và xây dựng tập

dữ liệu huấn luyện dựa trên tối ưu kích thước cửa sổ dữ liệu.

Số lượng

Giới tính

Độ tuổi

Nghề nghiệp

Địa điểm, thời gian thu dữ liệu

11 người

7 nam, 4 nữ

22 đến 40

Sinh  viên,  giảng  viên,  nhân

Khi đi học, đi làm và trở về trên

viên văn phòng.

đường phố Hà Nội

Bảng 2-7. Thông tin đối tượng tham gia thực nghiệm

Thực  nghiệm  tiến  hành  thu  dữ  liệu  khi  các  đối  tượng  ngồi  sau  hoặc  điều

khiển phương tiện trong hành trình lưu thông. Tần số thu dữ liệu là 50Hz. Các hành

động cần được nhận dạng là: {Dừng (S), Đi thẳng (G), Rẽ trái (L), Rẽ phải (R)}.

Hành động Số lượng Thời gian 11 11 3 3

Dừng Đi thẳng Rẽ trái Rẽ phải

6 phút 20 phút 10 phút 10 phút

Vị trí của điện thoại Cầm tay khi lái xe, cầm tay ngồi sau Cầm tay khi lái xe, cầm tay ngồi sau, bỏ túi Cầm tay khi lái xe, cầm tay ngồi sau Cầm tay khi lái xe, cầm tay ngồi sau

Bảng 2-8. Cảnh huống thu thập dữ liệu của các hành động

Các cảnh huống thực hiện thu thập dữ liệu đối với từng hành động được bố

trí như sau: Dữ liệu hành động dừng được thu thập khi phương tiện chuẩn bị dừng

cho đến khi phương tiện dừng hẳn. Hành động đi thẳng được thực hiện khi phương

tiện di chuyển không thay đổi hướng trong lộ trình.

Di chuyển

Dừng chờ

Đi thẳng

Hình 2-10. Hành động dừng và hành động đi thẳng

58

- Hành động rẽ trái được thực hiện khi phương tiện chuẩn bị rẽ trái đến khi kết

045  được mô

thúc rẽ trái, tương tự là hành động rẽ phải với góc chuyển hướng

phỏng như Hình 2-11.

Dữ liệu phát hiện được thu thập và phân tích nhằm phát hiện ra loại phương

tiện  mà  người  dùng điện  thoại  đang  sử  dụng,  từ  kết  quả  này  hệ  thống  sẽ  chuyển

sang phát hiện các hành động cơ bản. Đây là cơ sở để phát hiện các hành động khác

α

(b)

(a)

phức tạp hơn dựa trên tổ hợp từ 4 hành động cơ bản này.

Hình 2-11. (a): Hành động rẽ phải; (b): Hành động rẽ trái

15

20

10

10

5

0

0

1

1

1 6

1 7

1 8

1 5

1 1

1 2

1 3

1 4

1 9

1 6

1 7

1 1

1 2

1 3

1 4

1 5

1 8

1 9

1 0 1

1 1 1

1 2 1

1 3 1

1 4 1

1 0 1

1 1 1

1 2 1

1 3 1

1 4 1

-5

-10

X

X

Z

Z

Dừng Y (a)

Đi thẳng Y (b)

20

20

10

0

1

0

1 6

1 7

1 8

1 1

1 2

1 3

1 4

1 5

1 9

1

1 0 1

1 1 1

1 2 1

1 3 1

1 4 1

1 5 1

1 6

3 7

5 8

3 1

5 2

7 3

9 4

7 9

Rẽ trái (c)

Rẽ phải (d)

9 0 1

1 2 1

3 3 1

5 4 1

7 5 1

-10

-20

X

Y

Z

X

Y

Z

Khi thu thập dữ liệu cảm biến gia tốc, dữ liệu được thể hiện như hình sau:

Hình 2-12. Mô tả tín hiệu cảm biến gia tốc của các hành động (a): “Dừng”; (b): “Đi thẳng”; (c):”Rẽ trái”; (d): “Rẽ phải”.

59

Khi  thực  hiện  phân  tích  dữ  liệu  với  các  kích  thước  cửa  sổ  khác  nhau,  số

lượng các bản ghi tương ứng trong tập dữ liệu huấn luyện sử dụng để khảo sát các

hành động được biểu diễn như hình sau:

Hành động Dừng Đi thẳng Rẽ trái Rẽ phải

Bảng 2-9. Tập mẫu dữ liệu đặc trưng sử dụng nhận dạng hành động giao thông cơ bản

Số lượng mẫu 361 3797 1750 1656

Thông tin về tập dữ liệu đặc trưng trong Bảng 2-9 được minh họa bằng Hình

2-13 dưới đây:

361

1656

3797

1750

Dừng

Đi thẳng

Rẽ trái

Rẽ phải

Số lượng mẫu của các hành động

Hình 2-13. Tập dữ liệu đặc trưng sử dụng cho nhận dạng hành động giao thông cơ bản

Cũng có thể thấy được phân bổ của dữ liệu đặc trưng đã được biến đổi với 59

thuộc tính từ dữ liệu cảm biến gia tốc thể hiện bởi Hình 2-14 sau:

Hình 2-14. Phân bổ của tập dữ liệu đặc trưng được biến đổi với 59 thuộc tính

60

Với các tập dữ liệu đặc trưng được biến đổi với các tập thuộc tính khác nhau,  áp  dụng  các  phương  pháp  phân  lớp  và  đánh  giá  kết  quả  bằng  phương pháp  kiểm  chứng chéo để tiến hành các thực nghiệm trên.

2.5.3 Lựa chọn tập thuộc tính

Để đánh giá, lựa chọn tập thuộc tính phù hợp bằng cách đánh giá tên từng tập

thuộc tính, sau đó tiến hành kết hợp các tập thuộc tính với nhau. Thực nghiệm tiến

hành với tập thuộc tính: H2, T2, F2, TF2, TH2, TFH2. Dữ liệu cảm biến gia tốc thô

chưa chuyển trục được thu khi người tham gia giao thông điều khiển phương tiện xe

máy với tần số thu dữ liệu là 50Hz.

Cửa  sổ  dữ  liệu  là  một  tham  số  quan  trọng  trong  phương  pháp  trích  xuất  các

thông tin bởi các thuộc tính đặc trưng với mong muốn tìm được nhiều thông tin hữu

ích có trong cửa sổ đó. Tuy nhiên, tùy từng nghiên cứu khác nhau, các cửa sổ được

lựa  chọn với  kích  thước  khác nhau –  thường là  từ thực nghiệm  như  kích  thước  3

giây  trong  nghiên  cứu  [21];  hay  60  giây  trong  nghiên  cứu  [32].  Thông  qua  thực

nghiệm, với mong muốn  lựa  chọn  một  cửa  sổ đồng  nhất nhằm đánh  giá  tính  chất

của  các  thuộc tính phù hợp,  cửa  sổ dữ liệu được  lựa chọn  là 5  giây  đối  với  tất  cả

hành động, cùng với tỉ lệ chồng dữ liệu là 50%. Một số thuật toán phân lớp thông

dụng như rừng ngẫu nhiên,  J48,  Naïve Bayes, k-  láng giềng gần nhất, máy  véc tơ

tựa  với  các  tham  số  mặc  định  được  lựa  chọn  để  tiến  hành  thực  nghiệm  được  lựa

chọn như trong Bảng 2-6. Số lượng các thuộc tính trên mỗi tập được biểu diễn như

Kiểu  T  F  T+F  H  T+H  T+F+H

Tập đặc trưng  T2   F2  TF2   H2   TH2  TFH2

Số lượng thuộc tính  34  7  41  18  52  59

Áp dụng nhận dạng  Hành động  Hành động  Hành động  Hành động  Hành động  Hành động

Bảng 2-10. Phương pháp đánh giá sử dụng kiểm tra chéo – 10 tập.

Bảng 2-10. Khảo sát tập thuộc tính cho hệ thống phát hiện hành động cơ bản

61

Trong Bảng 2-10, kiểu thuộc tính T: là dựa trên thời gian, F: dựa trên tần số;  Áp dụng cho hệ thống nhận dạng hành động. Thực nghiệm với các tập thuộc tính  trên thu được các kết quả về độ chính xác Accuracy (ACC) và AUC như sau:

Random Forest

J48

Naïve Bayes

KNN

SVM

ACC

AUC

ACC

AUC

ACC

AUC

ACC

AUC

ACC

AUC

H2

82,39%

0,9531

65,57%

0,8881

65,57%

0,8326

66,89%

0,8153

65,41%

0,7273

F2

82,85%

0,9530

79,16%

0,8690

54,29%

0,7970

75,99%

0,8120

51,12%

0,6551

T2

88,79%

0,9730

69,90%

0,9213

69,90%

0,8546

73,91%

0,8596

70,86%

0,7506

TH2

88,39%

0,975

82,06%

0,8620

38,19%

0,8440

78,56%

0,8400

76,45%

0,8090

TF2

88,85%

0,9752

70,60%

0,9134

70,60%

0,8462

74,08%

0,8481

70,99%

0,7384

TFH2

88,32%

0,9768

70,36%

0,9104

70,36%

0,8479

72,39%

0,8406

69,64%

0,7384

Bảng 2-11, Kết quả phân lớp hành động trên các tập thuộc tính

Để  có  sự đánh giá  sự  kết hợp  các  thuộc  tính ở  các tập  khác nhau  giữa  các

miền tần số và thời gian, thực nghiệm phân lớp được khảo sát trên H2, T2, F2, TH2,

TF2 và TFH2 với dữ liệu đặc trưng đã lựa chọn ở trên thu được kết quả như sau:

C U A o đ ộ Đ

y c a r u c c A o đ ộ Đ

95% 90% 85% 80% 75% 70% 65% 60% 55% 50%

1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50

RF

J48

NB

KNN

SVM

RF

J48

NB

KNN

SVM

Thuật toán

Thuật toán

H2

F2

T2

TH2

TF2

TFH2

H2

F2

T2

TH2

TF2

TFH2

Hình 2-15. Kết quả phân lớp sử dụng các tập thuộc tính H2, T2, F2, TH2, TF2, TFH2

Kết quả ở Hình 2-15 cho thấy, kết quả phân lớp trên tập T2 cho kết quả cao

hơn tập H2 và F2 nên các thuộc tính ở tập T2 được lấy làm thành phần chính khi

62

khảo  sát  kết  hợp  thành  ba  tập  thuộc  tính  để  đánh  giá  đó  là:  TH2,  TF2  và  TFH2

nhằm thu được một tập thuộc tính kết hợp tốt nhất cho nhận dạng hành động. Kết

quả lựa chọn dựa trên AUC thu được tập thuộc tính TFH2 với kết quả cao nhất.

Đồng  thời,  thực  nghiệm  cũng  tiến  hành  đánh  giá  phương  pháp  biến  đổi hệ

tọa độ của thiết bị thu dữ liệu sang hệ tọa độ của trái đất nhằm tăng kết quả chính

xác khi nhận dạng các hành động giao thông.

- Thực nghiệm với dữ liệu đã biến đổi hệ tọa độ: Việc biến đổi hệ tọa độ của

thiết bị thu dữ liệu theo hệ tọa độ trái đất sử dụng kết hợp các cảm biến con quay

hồi chuyển và từ kế nhằm thu được dữ liệu cảm biến gia tốc mới ổn định hơn so với

dữ liệu cảm biến thô.  Do đó, việc tiến hành thực nghiệm sử dụng dữ liệu cảm biến

đã biến đổi hệ tọa độ cùng với dữ liệu gia tốc thô để đánh giá, so sánh dựa trên cùng

một kích thước cửa sổ và cùng tập thuộc tính TFH2 cho kết quả như sau:

RF

J48

NB

KNN

SVM

AUC

ACC

AUC

ACC

AUC

ACC

AUC

ACC

AUC

ACC

DL thô

0,97676

88,32%

0,910449

85,55%

0,84794

70,36%

0,84058

72,39%

0,73837

69,64%

DL- CT

0,98541

90,97%

0,95921

89,94%

0,94450

86,05%

0,93778

86,40%

0,81313

74,87%

Bảng 2-12. Kết quả so sánh dữ liệu thô và dữ liệu đã biến đổi hệ tọa độ

Thực nghiệm nhằm so sánh kết quả phân lớp dựa trên hai tập dữ liệu thô và

1

0.95

0.9

0.85

0.8

dữ liệu đã biến đổi hệ trục tọa độ được mô tả như hình dưới đây:

C C A o đ ộ Đ

y c a r u c c A o đ ộ Đ

0.75

95% 90% 85% 80% 75% 70% 65% 60%

0.7

RF

J48

KNN

SVM

RF

J48

NB

KNN

SVM

NB Thuật toán

Thuật toán

Dữ liệu thô

Dữ liệu chuyển trục

Dữ liệu thô

Dữ liệu chuyển trục

Hình 2-16. Kết quả so sánh dữ liệu thô và dữ liệu biến đổi hệ tọa độ

Kết quả thực nghiệm thể hiện trong Hình 2-16 cho thấy, sau khi biến đổi hệ

tọa độ, kết quả nhận dạng hành động thu được cao hơn so với kết quả sử dụng dữ

63

liệu thô ở trên cả 5 thuật toán. Một số hành động như rẽ trái, rẽ phải cũng như sự

thay đổi vị trí điện thoại dẫn đến dữ liệu cảm biến gia tốc thay đổi do độ nghiêng

hoặc các góc xoay của điện thoại trong suốt hành trình giao thông. Do vậy, chúng

tôi lựa chọn dữ liệu chuyển trục để thực hiện nhận dạng hành động và hành vi giao

thông bất thường.

2.5.4 Khảo sát thuật toán phân lớp

Đối với bài toán nhận dạng sử dụng phương pháp phân lớp, cần lựa chọn một

thuật toán phân lớp phù hợp với yêu cầu cụ thể cũng như tính chất của dữ liệu. Dựa

trên  những  nghiên  cứu  đã  được  công  bố.  Chúng  tôi  lựa  chọn  một  số  thuật  toán

thường sử dụng để khảo sát và lựa chọn ra một thuật toán để nhận dạng hành động,

hành vi giao thông sử dụng dữ liệu cảm biến gia tốc.

Tương tự như thực nghiệm trên, dữ liệu sử dụng cho thực nghiệm là dữ liệu

cảm biến gia tốc thô chưa chuyển trục được thu ở tần số 50Hz, được cắt bởi cửa sổ

5  giây,  chồng  dữ  liệu  50%  áp  dụng  tập  thuộc  tính  TFH2  với  4  nhãn  lớp  là

{S,G,L,R},  các  giá  trị  kích  thước  cửa  sổ  này  cũng  thường  được  sử  dụng  trong

[38][54][55]. Thực nghiệm cũng được tiến hành trên các thuật toán thường được sử

dụng trong phân tích hành động người là Random Forest, Naïve Bayes, J48, KNN

và SVM với các giá trị mặc định thường dùng cho mỗi thuật toán.

Phương  pháp  kiểm  chứng  chéo  10-fold  được  sử  dụng  để  đánh  giá  thực

nghiệm phân lớp và cho kết quả trên từng tập thuộc tính đặc trưng với từng thuật

1.0

100%

0.9

90%

0.8

80%

0.7

70%

toán phân lớp như trong Hình 2-17 dưới đây:

C U A o đ ộ Đ

0.6

60%

y c a r u c c A o đ ộ Đ

0.5

50%

RF

J48

NB

KNN

SVM

RF

J48

NB

KNN SVM

Thuật toán

Thuật toán

H2

F2

T2

TH2

TF2

TFH2

H2

F2

T2

TH2

TF2

TFH2

Hình 2-17. Kết quả độ đo thực nghiệm với các thuật toán phân lớp

64

Từ Hình 2-17 thể hiện kết quả thực nghiệm nhận dạng hành động với cùng

một  bộ  dữ  liệu  được  phân  tích  trên  tất  cả  các  tập  thuộc  tính  thu  được  độ  đo

Accuracy và AUC của thuật toán RF cao nhất trên tất cả các tập dữ liệu, tiếp đó là

thuật toán J48. Do vậy, thuật toán RF được sử dụng cho hệ thống nhận dạng hành

động, hành vi giao thông.

2.5.5 Xây dựng dữ liệu huấn luyện

Mỗi hành động giao thông của đối tượng khác nhau trong những hoàn cảnh

khác nhau thì có những đặc điểm, chu kỳ khác nhau. Trong một số nghiên cứu đã sử

dụng kích thước cửa sổ cố định để nhận dạng các loại hành động bằng cửa sổ đó.

Từ đó, dẫn đến sự khó khăn khi phải lựa chọn một kích thước cửa sổ phù hợp cho

tất cả các loại hành động. Để giải quyết vấn đề này, chúng tôi đã lựa chọn hướng

tiếp cận khảo sát đánh giá, lựa chọn kích thước cửa sổ trên từng hành động dựa vào

độ đo AUC nhằm chọn được các kích thước cửa sổ phù hợp, nâng cao độ chính xác

phân lớp.

Với sự tiện dụng và phổ biến ở các thành phố của Việt Nam, phương tiện sử

dụng chủ  yếu là xe máy nên chúng tôi chọn loại phương tiện này để khảo sát, thu

tập dữ liệu, phân tích và nhận dạng hành động giao thông của người điều khiển.

Dữ  liệu  cảm  biến gia  tốc được  thu  thập  với  tần  số 50Hz sau đó được biến

đổi hệ tọa độ theo hệ tọa độ trái đất. Khoảng kích thước cửa sổ lựa chọn để khảo sát

là: từ 1 giây đến 10 giây; tỉ lệ chồng dữ liệu 75%, 50% và 25% với mục đích tìm ra

một kích thước phù hợp cho từng hành động. Thực nghiệm tiến hành trên tập thuộc

tính TFH2 cùng với và kết quả phân lớp sử dụng thuật toán rừng ngẫu nhiên được

thể hiện ở bảng dưới đây:

- Kết quả độ đo AUC khi phân lớp với hành động “Dừng“ như Bảng 2-13 dưới

đây  với  ký  hiệu:  OVL/W  là  cột  chồng  dữ  liệu  (%)và  kích  thước  cửa  sổ  tính  theo

giây.

OVL/W

1

2

3

4

5

6

7

8

9

10

75%

0,943934

0,961622

0,999082

0,999159

0,998182

0,998727

0,996545

0,999030

0,999152

0,999422

65

50%

0,922594

0,940615

0,963330

0,963095

0,963982

0,998994

0,999700

0,999829

0,999786

0,999401

25%

0,918458

0,943671

0,998806

0,997954

0,999049

0,991879

0,996485

0,994788

0,995152

0,994485

Bảng 2-13. Kết quả độ đo AUC của hành động dừng

- Kết quả độ đo  AUC  khi phân  lớp đối  với  hành động “Đi  thẳng” như  Bảng

2-14 dưới đây:

1

2

3

4

5

6

7

8

9

10

0,955943

0,965958

0,967215

0,966412

0,987950

0,988012

0,989448

0,987304

0,988699

75%

0,928616

0,913065

0,935925

0,963095

0,961592

0,959618

0,969978

0,967364

0,971009

0,969060

0,968582

50%

0,907150

0,934270

0,957993

0,957276

0,957637

0,987429

0,986971

0,988387

0,984058

0,985077

25%

Bảng 2-14. Kết quả độ đo AUC của hành động đi thẳng

- Kết quả độ đo AUC khi phân lớp đối với hành động “Rẽ trái” nhận được như

1

2

3

4

5

6

7

8

9

10

0,982481

0,974725

0,974483

0,971390

0,987466

0,990798

0,992596

0,993971

0,993601

75%

0,968710

50%

0,960661

0,971513

0,985186

0,983805

0,973741

0,966488

0,971506

0,966671

0,971334

bảng Bảng 2-15 dưới đây:

0,996841

25%

0,956457

0,969392

0,963152

0,961873

0,961388

0,990533

0,992754

0,991591

0,991432

0,992014

Bảng 2-15. Kết quả độ đo AUC của hành động rẽ trái

- Kết quả đo AUC khi phân lớp đối với hành động “Rẽ phải” nhận được như

1

2

3

4

5

6

7

8

9

10

75%

0,958724

0,972968

0,982021

0,982473

0,981457

0,986584

0,986836

0,986990

0,988919

0,984220

50%

0,947849

0,960313

0,977571

0,976844

0,976765

0,979471

0,982263

0,980554

0,981414

bảng Bảng 2-16 dưới đây:

0,987251

25%

0,942924

0,959554

0,975552

0,974838

0,974842

0,985534

0,986797

0,986021

0,985256

0,985872

Bảng 2-16. Kết quả độ đo AUC của hành động rẽ phải

Để  đánh  giá  sự  thay  đổi  giá  trị  AUC  của  hai  kích  thước  cửa  sổ  liền  nhau

66

cũng như thể hiện được sự thay đổi chung của kết quả nhận dạng. Giá trị tuyệt đối

của hai kích thước cửa sổ liền nhau trên từng hành động được biểu diễn như Hình

0.004

0.0025

0.0035

0.002

0.003

0.0025

0.0015

0.002

0.001

0.0015

2-18:

ổ s a ử c i a h a ủ c C U A h c ệ l

0.001

0.0005

0.0005

h n ê h c ộ Đ

ổ s a ử c i a h a ủ c C U A h c ệ l h n ê h c ộ Đ

0

0

1 2 3 4 5 6 7 8 9 10 111213 1415 Kích thước cửa sổ

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Kích thước cửa sổ

75%

50%

25%

75%

50%

25%

(a)

(b)

0.002

0.007

0.0018

0.006

0.0016

0.0014

0.005

0.0012

0.004

0.001

0.003

0.0008

0.0006

0.002

0.0004

ổ s a ử c i a h a ủ c C U A h c ệ l h n ê h c

ổ s a ử c i a h a ủ c C U A h c ệ l h n ê h c

0.001

ộ Đ

ộ Đ

0.0002

0

0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Kích thước cửa sổ

Kích thước cửa sổ

75%

50%

25%

75%

50%

25%

(c)

(d)

Hình 2-18. Chu kỳ thay đổi độ đo AUC tương ứng với hai kích thước cửa sổ liền nhau của các hành động cơ bản với: (a) Dừng; (b) Đi thẳng; (c) Rẽ trái; (d) Rẽ phải

Từ các hình biểu diễn trên ta thấy, sự thay đổi của độ đo AUC hội tụ dần ở

kích thước 4 giây.  Đề phòng trường hợp mất mát thông tin khi các hành động, hành

vi xảy ra nhanh, đa dạng, chúng tôi chọn 2 cửa sổ liên tiếp và chồng dữ liệu 50%

67

(tương ứng với 6 giây) để làm giá trị lớn nhất trong khoảng khảo sát kích thước cửa

sổ. Do vậy, khoảng khảo sát kích thước cửa sổ là từ 1 giây, đến 6 giây được sử dụng

với mục đích tìm ra kích thước cửa sổ phù hợp nhất đối trên từng nhãn lớp.

- Kết quả thu được là bộ tham số kích thước cửa sổ và chồng dữ liệu được thể

Hành động

hiện ở Bảng 2-17 dưới đây:

Của sổ (giây)

S G L R

Chồng dữ liệu

4 6 5 6

AUC

75% 75% 50% 50%

0,999422 0,992828 0,996841 0,987251

Bảng 2-17. Kích thước cửa sổ được lựa chọn theo độ đo AUC

Các giá trị của kích thước cửa sổ tối ưu được sử dụng để xây dựng dữ liệu

huấn  luyện  cho  hệ  thống  nhận  dạng  hành  động.  Từ  dữ  liệu  cảm  biến  gia  tốc  có

được, các kích thước cửa sổ tương ứng với từng hành động được sử dụng để biến

đổi  dữ  liệu  cảm  biến  gia  tốc  này  thành  dữ  liệu đặc  trưng  dựa  trên  tập  thuộc  tính

TFH2.

Để đánh giá kết quả nhận dạng với tập dữ liệu đã chuyển trục và hai tập đặc

trưng  TF2  và  TFH2,  sử  dụng  phương pháp  kiểm  chứng  chéo  CV10  với  các  thuật

toán phân lớp. Đồng thời, khẳng định tham số trên miền thời gian có ý nghĩa quan

trọng và sự bổ sung của tham số Hjorth trong bài toán nhận dạng hành động giao

thông.

Thực nghiệm tiến hành đánh giá trên hai tập TF2 và TFH2 và thu được kết

quả ở Bảng 2-18 dưới đây:

RF

J48

NB

KNN

SVM

ACC

AUC

ACC

AUC

ACC

AUC

ACC

AUC

ACC

AUC

95,78%

0,998550

0,978238

90,44%

0,967257

92,04%

0,965410

80,40%

0,836312

94,78%

TF2

0,995950

95,25%

0,989185

95,73%

0,982722

83,35%

0,850271

98.38%

TFH2 98,95%

0,999852

68

Bảng 2-18. Kết quả phân lớp với tham số tối ưu trên hai tập TF2 và TFH2

69

Kết quả thực nghiệm với kích thước đã được lựa chọn sử dụng hai tập thuộc

100%

1

95%

0.95

90%

0.9

85%

0.85

80%

C U A o đ ộ Đ

0.8

75%

y c a r u c c A o đ ộ Đ

0.75

70%

RF

J48

NB

KNN

SVM

RF

J48

NB

KNN

SVM

Thuật toán

Thuật toán

TF2

TFH2

TF2

TFH2

tính TF2 và TFH2 được minh họa như hình dưới đây:

Hình 2-19. Kết quả phân lớp với kích thước cửa sổ lựa chọn trên tập TF2 và TFH2

Từ kết quả trên cho thấy, khi bổ sung tham số Hjorth vào tập thuộc tính TF2

ta  thu được  tập  thuộc  tính  TFH2  mới  cho  kết  quả  độ đo  Accuracy  lớn  hơn độ  đo

trên tập TF2 cùng một thuật toán phân lớp RF được lựa chọn là 3,17% và giá trị độ

đo AUC lớn hơn là 0,0013.

Tuy không sử dụng cố định vị trí điện thoại để thực nghiệm, việc xử lý dữ

liệu gặp nhiều khó khăn nhưng kết quả nhận dạng các hành động cơ bản thu được

kết quả khả quan đánh giá. So với các kết quả của các hệ thống nhận dạng đã trình

bày trong Bảng 2-1 tổng hợp với một số nghiên cứu có liên quan tham khảo ở Bảng

2-1, kết quả phương pháp đề xuất nhận dạng hành động giao thông cơ bản cao hơn

so với một số nghiên cứu này.

2.5.6 Đánh giá hệ thống đề xuất so với một số nghiên cứu hiện tại[CT4].

Phương pháp nhận dạng  các đối  tượng trong hệ  thống giao  thông bằng  các

thuật toán phân lớp là một phương pháp phổ biến được nhiều nghiên cứu sử dụng.

Tùy theo dữ liệu, yêu cầu của bài toán sẽ có những hệ thống nhận dạng được thiết

kế khác nhau. Hơn nữa, các dữ liệu phục vụ cho nhận dạng thường có bản quyền và

ít được công bố rộng rãi. Do vậy, để đánh giá hệ thống nhận dạng trên cùng một bộ

70

dữ liệu đủ lớn được công bố gặp nhiều khó khăn.

Để đánh giá hệ thống nhận dạng được đề xuất, qua tìm hiểu thu thập, chúng

tôi tiến hành thực nghiệm đánh giá hệ thống dựa trên tập dữ liệu được thu thập bởi

công ty HTC của Đài Loan được công bố trong [56]. Hiện tại, tập dữ liệu được công

bố  với  25,6GB  gồm  các  cảm  biến  gia  tốc,  con  quay  hồi  chuyển,  cảm  biến  từ  và

GPS. Dữ liệu được thu thập với các nhãn lớp là: dừng, đi bộ, chạy, xe đạp, xe buýt,

ô tô, tàu điện ngầm, tàu hỏa, xe điện, tàu nhanh.

Một  số  nghiên  cứu  khác  cũng  đã  thực hiện  đánh  giá  kiểm  thử  các  phương

pháp, thuật toán đề xuất để so sánh kết quả dựa trên tập dữ liệu này [31][32][56].

Tác giả trong nghiên cứu [57] tập trung phân biệt các dạng không phải động cơ đó

là  dừng chờ, đi bộ,  chạy  và  đạp  xe  (still,  walk,  run, và bike) và  các dạng phương

tiện  cơ  giới  khác.  Hai  hệ  thống  phát  hiện  cho  hai  dạng  đối  tượng  không  phải

phương tiện cơ giới là dừng chờ và đi bộ (Still, walk) và phương tiện cơ giới là xe

buýt, ô tô, xe điện ngầm, xe điện và tàu nhanh (bus, car, metro, train, tram, và HSR)

từ cảm biến gia tốc, cảm biến từ và con quay hồi chuyển.

Trên thực tế, tiết kiệm số lượng các cảm biến sử dụng cho hệ thống sẽ tiêu

hao ít năng lượng của thiết bị hơn. Bởi vậy, phương pháp nhận dạng của chúng tôi

chỉ sử dụng cảm biến gia tốc nên về thực tế sẽ sử dụng năng lượng ít hơn. Hơn nữa,

hệ thống của các công bố này sử dụng kích thước cửa sổ dữ liệu dài hơn với kích

thước 17,06  giây và  60  giây,  điều này  cần  nhiều  thời gian để  trả  lại  kết quả  cũng

như  sử  dụng tài  nguyên  tính  toán  của thiết bị  hơn  so  với hệ  thống của  chúng  tôi.

Đồng thời, hướng đề xuất của [32] cần sử dụng 348 thuộc tính đặc trưng sẽ gặp phải

khó  khăn  khi  hướng  đến  mục  tiêu  của  các  ứng  dụng  dự  đoán  tức  thời  so  với  hệ

thống của chúng tôi chỉ sử dụng 27 thuộc tính đặc trưng [CT4]. Thêm vào đó, kết

quả của phương pháp nhận dạng được chúng tôi đề xuất so với các hệ thống khác

trên cùng một bộ dữ liệu của công ty HTC là 97,33% như trong Bảng 2-19, cao hơn

so với hai nghiên cứu hiện tại [31][32].

Với  tập  thuộc  tính  được  đề  xuất  như  trong  công  bố  [CT4],  chúng  tôi  thực

nghiệm trên bộ dữ liệu HTC[56] được thu thập bởi công ty HTC Đài Loan; kết quả

71

thực nghiệm của chúng tôi cao hơn so với các phương pháp của một số nghiên cứu

trên cùng bộ dữ liệu này như trong Bảng 2-19 dưới đây. Qua những kết quả đánh

giá này cho thấy, hệ thống nhận dạng là phù hợp và có kết quả khả quan trong việc

nhận dạng các đối tượng trong hệ thống giao thông.

Nghiên cứu Fang et al, [31] (Sử dụng KNN) Guvensan et al [32], (Sử dụng RF)

Phương pháp đề xuất (sử dụng RF)

Kết quả phân lớp accuracy 83,57% 91,63% 97,33%

Bảng 2-19. Kết quả so sánh phương pháp nhận dạng dựa trên tập thuộc tính đề xuất với các phương pháp khác trên cùng bộ dữ liệu HTC [56] [CT4]

2.6

Kết luận

Trong chương này chúng tôi đề xuất hệ thống nhận dạng để thực hiện nhận

dạng hành động giao thông cơ bản là {Dừng, Đi thẳng, Rẽ trái, Rẽ phải } dựa trên

cảm biến gia tốc thu được từ điện thoại thông minh của người sử dụng phương tiện

khi vị trí điện thoại không cố định.

Đồng thời sử dụng phương pháp biến đổi hệ tọa độ thiết bị theo hệ tọa độ của

trái đất nhằm thu được dữ liệu hữu ích cho hệ thống nhận dạng hành động. Dựa trên

dữ  liệu  thu được, đề  xuất một  tập  thuộc  tính đặc trưng phù  hợp   –  TFH2 gồm 59

thuộc tính để trích xuất, biến đổi dữ liệu cảm biến gia tốc thành dữ liệu đặc trưng.

Trong đó, tập thuộc tính Hjorth đã góp phần nâng cao kết quả phân lớp khi kết hợp

cùng các thuộc tính miền thời gian và tần số.

Phương pháp tối ưu kích thước cửa sổ và con trượt dựa vào độ đo AUC được

sử dụng để lựa chọn ra các kích thước cửa sổ phù hợp với từng nhãn lớp hành động.

Qua đó, xây dựng được tập dữ liệu đặc trưng phụ vụ cho hệ thống nhận dạng. Từ

thực nghiệm khảo sát, đánh giá các thuật toán thông dụng cho bài toán nhận dạng.

Thuật toán RF cho kết quả độ đo Accuracy và độ đo AUC cao hơn các thuật toán

khác nên hệ thống chọn RF làm thuật toán nhận dạng hành động giao thông.

Dựa trên tập dữ liệu đã được công bố bởi công ty HTC của Đài Loan, thực

nghiệm đánh giá hệ thống đề xuất trên cùng tập dữ liệu này cho kết quả chính xác

72

hơn so với một số công bố tương tự [31], [32] cũng sử dụng tập dữ liệu này [CT4].

Chương 3. NHẬN DẠNG HÀNH VI BẤT THƯỜNG

3.1

Giới thiệu

Trong bài toán phân tích hành vi, có nhiều mục đích hướng đến sau khi nhận

biết  được hành  vi  của  con  người  ở  các  lĩnh  vực  khác  nhau như  y  tế,  giáo  dục  và

trong lĩnh vực giao thông. Việc tìm ra hành vi bất thường nhằm nhận dạng những

hành  vi  khác  với  những  tiêu  chuẩn,  quy  định  hoặc  chuẩn  mực  thông  thường  để

giảm, tránh các tác động xấu do các hành vi này gây ra. Đây cũng như là cơ sở áp

dụng cho những bài toán khác. Hành vi giao thông bất thường tiềm ẩn những nguy

cơ  với  chính  đối  tượng điều  khiển  phương  tiện  cũng  như  các  đối  tượng  và  thành

phần khác trong hệ thống gia thông. Tuy nhiên, xác định được thế nào là hành vi bất

thường phụ  thuộc vào  các điều kiện, bối  cảnh  khác nhau nên  gặp nhiều  khó  khăn

trong việc xác định, lựa chọn dữ liệu phân tích và đưa ra các phương pháp phát hiện

bất thường. Sử dụng dữ liệu cảm biến của điện thoại thông minh mà các đối tượng

mang theo khi tham gia giao thông. Luận án đã tìm hiểu, khảo sát đề xuất giải pháp

nhận dạng ra hành vi bất thường dựa trên hệ thống nhận dạng hành động đã được

trình bày trong chương 2,

3.2

Bài toán nhận dạng hành vi bất thường

3.2.1 Nhận dạng bất thường

3.2.1.1 Dữ liệu bình thường và bất thường

Một dữ liệu bất thường là dạng mẫu mà nó khác với định nghĩa của mẫu dữ

liệu bình thường. Ví dụ như trong Hình 3-1 cho thấy, với các mẫu ở hai tập N1 và

N2  là hành vi bình  thường thì  các mẫu o1,  o2 tập O3  là  các mẫu bất  thường.  Các

mẫu dữ liệu bất thường có thể thu được bởi nhiều lý do khác nhau trong quá trình

hệ thống thực hiện. Vấn đề thường được quan tâm đó là các đặc trưng điển hình của

73

các mẫu bất thường có hình dạng như thế nào.

Hình 3-1. Khái niệm dữ liệu bất thường[58]

Tuy  nhiên,  trong  thực  tế  việc  định  nghĩa  một  mẫu  bất  thường  khó  hơn  rất

nhiều so với việc định nghĩa mẫu bình thường. Do đó, một trong những hướng tiếp

cận và định nghĩa một mẫu bất thường phổ biến đó là dựa vào định nghĩa của mẫu

bình thường. Khi định nghĩa được tập các mẫu bình thường, nếu biểu diễn hoặc phát

hiện được một số mẫu không thuộc về tập mẫu bình thường này thì ta coi đó là một

mẫu  bất  thường.  Tuy  nhiên,  cách  thực  hiện  này  gặp  phải  một  số  khó  khăn  như

sau[58]:

- Thứ  nhất,  việc  tìm  một  vùng chứa  toàn bộ  các  mẫu bình  thường là  rất  khó

khăn do đường phân cách giữa vùng mẫu bình thường và mẫu bất thường là không

chính xác, dẫn đến sự nhầm lẫn giữa hai loại mẫu.

- Thứ hai, dữ liệu bất thường được sinh ra bởi các tác nhân chủ động luôn cố

gắng  làm  cho  mẫu bất  thường đó  giống như  mẫu  bình  thường,  nên  việc  xác  định

chính xác mẫu bình thường trở nên rất khó khăn.

- Thứ ba, định nghĩa về mẫu bất thường khác nhau đối với các ứng dụng khác

nhau. Do vậy, hướng nghiên cứu phát triển hệ thống chung cho các bài toán khác

trên các miền khác nhau là không khả thi.

- Thứ tư, việc thu thập, xử lý, gán nhãn cho dữ liệu bất thường để huấn luyện

gặp rất nhiều khó khăn do số loại hành vi bất thường là khó xác định và số lượng

74

mẫu thu thập được cũng rất hạn chế.

- Cuối cùng là dữ liệu thường chứa các thông tin nhiễu và những mẫu dữ liệu

nhiễu  này  thường  giống  với  các  mẫu  bất  thường  trong  thực  tế  nên  các  mẫu  bất

thường khó phân biệt và loại bỏ.

Từ những khó khăn của bài toán phát hiện bất thường nêu trên. Các kỹ thuật

phát hiện bất  thường hướng tới  việc  xác định,  xây  dựng  các  hệ  thống đặc  thù  với

phương  pháp  riêng  biệt  phù  hợp  cho  từng  bài  toán.  Dựa  trên  việc  phân  tích  sâu

những đặc điểm riêng biệt của từng yêu cầu bài toán và đặc tính của dữ liệu tương

ứng để nhận dạng, phát hiện ra các mẫu dữ liệu bất thường.

Sử  dụng  đặc  tính  của  dữ  liệu:  Khi  sử  dụng  đặc  tính  của  dữ  liệu  trong  hệ

thống nhận dạng hành vi bất thường, đầu vào của bài toán đó là đặc tính của dữ liệu

thường là các đối tượng, bản ghi, điểm, véc tơ, mẫu, sự kiện, trường hợp, thực thể

nên cần làm rõ đặc tính của từng dữ liệu khác nhau.

Dựa  trên  đặc  tính  của  dữ  liệu  có  thể  chia  các  dạng  bất  thường  thành  hai

nhóm chính, thứ nhất là sự bất thường của mẫu so với tập mẫu còn lại, thứ hai là do

trạng  thái  của  mẫu  dữ  liệu.  Với  một  điểm hoặc  một  mẫu  dữ  liệu được  cho  là  bất

thường đối với tập mẫu dữ liệu còn lại thì điểm hay mẫu bất thường đó được coi là

dạng điểm hoặc mẫu bất thường. Đây là một phương pháp được nhiều nghiên cứu

sử  dụng  trong  bài  toán  tìm  mẫu  bất  thường  bên  cạnh  phương  pháp  tìm  mẫu  bất

thường dựa vào trạng thái. Nếu một mẫu dữ liệu xác định một trạng thái bất thường

thì đó là một mẫu dữ liệu bất thường.

3.2.1.2 Một số kỹ thuật gán nhãn bất thường

Trong các kỹ thuật nhận dạng hành vi bất thường, các phương pháp gán nhãn

bất  thường  sẽ  giúp  hệ  thống  nhận  dạng  ra  hành  vi  bình  thường  và  hành  vi  bất

thường.

Xác  định dữ liệu bất  thường bằng việc  gán nhãn dữ  liệu, nhãn  kết  hợp với

mẫu dữ liệu để xác định mẫu dữ liệu đó là bình thường hay bất thường. Nhãn của

dữ liệu thường được gán bởi các chuyên gia trong lĩnh vực đó. Gán nhãn bất thường

khó hơn rất nhiều so với việc gán nhãn bình thường. Do nhãn bất thường luôn thay

75

đổi và phát sinh nên rất khó gán nhãn từ tập dữ liệu huấn luyện. Vì vậy, kỹ  thuật

phát hiện bất thường sử dụng phương pháp gán nhãn được chia thành 3 dạng chính

sau[58][59]:

- Dạng 1: Phát hiện bởi phương pháp có giám sát, kỹ thuật huấn luyện trong

mô hình học có giám sát được sử dụng để huấn luyện tập dữ liệu có hai nhãn lớp là

bình thường và bất thường. Từ đó, có thể gán nhãn cho một mẫu dữ liệu mới từ mô

hình được xây dựng. Phát hiện bất thường sử dụng phương pháp có giám sát gặp

phải hai vấn đề đó là: thứ nhất, các mẫu bất thường nhỏ hơn rất nhiều so với mẫu

bình thường trong cơ sở dữ liệu, làm mất tính cân bằng của dữ liệu; thứ hai, đó là

việc gán nhãn cho các dữ liệu bất thường luôn gặp nhiều khó khăn.

- Dạng 2:  Phát hiện  bất  thường  sử  dụng phương pháp bán  giám  sát,  phương

pháp này sử dụng mô hình học bán giám sát, từ tập nhãn bình thường sử dụng các

kỹ thuật học khác nhau để gán nhãn bất thường cho tập dữ liệu kiểm tra. Kỹ thuật

này ít được sử dụng vì rất khó để xây dựng tập dữ liệu huấn luyện có thể bao quát

hết các dữ liệu bất thường trong tập dữ liệu.

- Dạng 3: Sử dụng phương pháp phát hiện bất thường không giám sát, kỹ thuật

này không cần tập dữ liệu huấn luyện bởi vậy thường được sử dụng rộng rãi. Tuy

nhiên, kỹ thuật này cũng gặp phải vấn đề đó là mẫu dữ liệu bình thường nhiều hơn

so với mẫu dữ liệu bất thường và có khả năng chịu tỉ lệ lỗi lớn.

3.2.1.3 Phương pháp đánh giá nhận dạng bất thường

Do  sự  khó  khăn về  xác định  tính chất  bất  thường và  tính  chất bình thường

cũng như áp dụng các phương pháp gán nhãn bất thường cho dữ liệu. Việc đánh giá

hệ thống phát hiện bất thường được thiết kế cho từng miền, lĩnh vực khác nhau và

phổ biến ở hai dạng sau[58]:

- Đánh giá dựa vào kỹ thuật cho điểm: kỹ thuật cho điểm gán một giá trị vào

mỗi mẫu bất thường của dữ liệu kiểm tra tùy thuộc vào các mẫu được coi là có độ

bất  thường  khác  nhau  sẽ  có  giá  trị  khác  nhau.  Sau  khi  thực  hiện  phát  hiện  bất

thường, mẫu dữ  liệu bất thường được  liệt  kê  theo danh  sách  cùng với  các  giá  trị

76

điểm tương ứng. Một số các mẫu được lựa chọn dựa vào ngưỡng nhất định.

- Đánh giá dựa vào kỹ thuật gán nhãn: kỹ thuật này gán các mẫu dữ liệu thành

hai nhãn lớp đó là phát hiện bình thường và bất thường.

Trong hai kỹ thuật thông dụng trên, kỹ thuật gán nhãn thường được kết hợp

với các mô hình nhận dạng để phát hiện, nhận dạng ra các loại hành vi trong đó tập

trung vào nhận dạng hành vi bất thường của người tham gia giao thông.

3.2.2 Sử dụng cảm biến điện thoại để nhận dạng hành vi bất thường

Các đối tượng tham gia giao thông chịu nhiều tác động từ chính yếu tố tâm

lý  cá  nhân  cũng  như  các  yếu  tố  bên  ngoài  như  hạ  tầng  giao  thông,  yếu  tố  môi

trường, đặc tính của phương tiện và cả hiện trạng giao thông trong từng thời điểm.

Trong đó, các yếu tố gây ra những hành vi bất thường theo thống kê là do yếu tố tốc

độ, lái xe trong lúc say rượu, do đường xấu, thời tiết không thuận lợi cũng như yếu

tố hiện trạng giao thông bất ngờ khác dẫn đến các hành vi giao thông bất thường và

tai  nạn  trong giao  thông  đường bộ  ở nhiều nơi  trên  thế  giới [1].  Một  số hệ  thống

giám sát giao phát hiện, nhận dạng những hành vi thông bất thường qua hình ảnh

thu  được  camera  từ  hệ  thống  giao  thông hoặc  sử  dụng  các  thông  tin  thu  được  từ

thiết bị cảm biến hoặc điện thoại thông minh gắn trên phương tiện hoặc do người

tham gia giao thông mang theo. Tính chất bất thường của mỗi hành vi giao thông

thường dựa trên yếu tố vận tốc hoặc sự chuyển hướng nên các cảm biến GPS, cảm

biến gia  tốc, con quay  hồi  chuyển  cũng như một số cảm biến  gia  tốc  khác  có thể

được sử dụng  cho  các  hệ  thống  phân  tích, nhận dạng hành  vi.  Hướng tiếp  cận  sử

dụng một loại cảm biến gia tốc để phát hiện hành vi bất thường có thể đáp ứng được

yêu cầu tiêu hao ít năng lượng nhưng gặp nhiều khó khăn khi xác định các tính chất,

dữ liệu mẫu hành vi bất thường. Do đó, cần có những kỹ thuật phù hợp để đáp ứng

được hiệu quả của bài toán.

Tính bình thường hay bất thường của hành vi giao thông được xác định với

các điều kiện, tiêu chí khác nhau nên cần làm rõ các tính chất này nhằm thu thập dữ

liệu  được  chính  xác  cũng  như  đưa  ra  các  phương  pháp  phù  hợp  nhằm  phát  hiện

hành vi bất thường. Có hai phương pháp thường được sử dụng cho phát hiện hành

77

vi bất thường sau khi thu thập và tiền xử lý đó là so sánh với tập mẫu hành vi đã thu

thập để đánh giá độ tương tự và phương pháp còn lại là sử dụng các kỹ thuật phân

lớp dữ liệu dựa trên tập các mẫu gán nhãn đã có.

Tùy vào phương pháp xác định hành vi bất thường, các mẫu dữ liệu có thể

tương ứng với một hành động mà trong đó chứa những tính chất bất thường. Ngoài

ra,  có  thể xác định hành vi bất  thường là  chuỗi hành  động  lặp đi  lặp lại một  cách

không bình thường. Một số nghiên cứu về hành vi bất thường đã phát hiện các mẫu

hành vi dựa trên những mẫu hành động có tính chất bất thường được xác định trực

tiếp bằng các tính chất như rê trượt, quay đầu nhanh, rẽ trái, phải đột ngột [20]. Các

nghiên cứu này có những ưu/ nhược điểm khác nhau, đặc biệt là sự phụ thuộc vào

mẫu dữ liệu bất thường.

Do đó, chúng tôi xác định hành vi bất thường theo hướng tiếp cận như sau:

Hành vi bất thường là một hành vi được xác định dựa trên một hành động gốc mà

tập hợp một số hành động cơ bản xảy ra trong một khoảng thời gian ngắn có tỷ lệ

sai  khác  nhất  định  so  với  hành  động  gốc  đó.  Việc  xác  định  tỷ  lệ  sai  khác  này  sẽ

quyết định mức độ hiệu quả của việc phân biệt hành vi bất thường so với hành vi

bình thường. Dựa vào tỉ lệ sai khác về các nhãn hành động sẽ xác định được tính

chất bất thường của hành vi đó. Với hướng tiếp cận này, khi xác định được ngưỡng

tỉ lệ đủ tốt sẽ đánh giá được các hành vi bất thường một cách hiệu quả.

Dữ liệu cảm biến gia tốc sau khi thu thập, biến đổi hệ tọa độ, thực hiện các

bước  tiền  xử  lý  khác  nhằm nhận  dạng hành  vi  giao  thông bất  thường  dựa  vào hệ

thống nhận dạng hành động và hành vi bất thường như trên.

3.3 Một số nghiên cứu liên quan

Nghiên cứu về hành vi giao thông là một trong những đề tài được cộng đồng

các nhà nghiên cứu quan tâm, thực hiện với các mục đích, cách thức, phương pháp

khác  nhau.  Trong  đó,  thường  đề  cập  đến  việc  phát  hiện  hành  vi  giao  thông  bất

thường. Tuy nhiên, dữ liệu cảm biến thường có nhiễu do vị trí, chất lượng của thiết

bị cũng như các tác nhân bên ngoài. Việc thu thập và phân tích dữ liệu cảm biến gia

tốc cho bài toán phát hiện hành vi giao thông bất thường còn gặp nhiều vấn đề cần

78

phải xử lý. Trước hết, là khái niệm hành vi giao thông bất thường, bình thường cũng

như cách xác định các hành vi đó. Một số nghiên cứu thường xác định trực tiếp dựa

trên các hành động đột ngột, khác với những quy định, thói quen thông thường được

xem nó là một hành vi bất thường [15][21]. Đây có thể coi là những hành động đơn

có tính chất khác biệt so với những quy định thông thường. Tiếp đến là những khó

khăn gặp phải khi thiết kế, xây dựng các hệ thống phù hợp để phát hiện các hành vi

bất thường vốn khó xác định và có tính chất phức tạp.

Trong nghiên  cứu  [21]  của  tác  giả  Li,  Fu  cùng  cộng  sự  đã  nghiên  cứu  các

hành vi lái xe nguy hiểm dựa trên đánh giá về các hành động tăng, giảm tốc độ một

cách bất thường, chuyển hướng với vòng cua rộng và đổi hướng phương tiện một

cách liên tục dựa trên cảm biến gia tốc của điện thoại thông minh. Nghiên cứu thực

nghiệm với phương tiện là các lái xe taxi ở Bắc Kinh, Trung Quốc khi vị trí đặt điện

thoại nằm ngang ở các vị trí khác nhau trong xe. Điểm đáng lưu ý đó là nghiên cứu

vẫn phải dựa vào sự xác định góc của thiết bị và phương tiện trước khi thực nghiệm.

Khi biết trước góc này, dựa vào phương pháp chuyển trục sẽ đồng nhất được trục

cảm biến và hướng chuyển động để từ đó dựa vào các ngưỡng giá trị thay đổi trên

các trục và các góc xoay để phát hiện các hành động bất thường từ đó xác định hành

vi lái xe nguy hiểm.

Trong nghiên cứu [15] của Yu, Jiadi và các cộng sự đã sử dụng cảm biến gia

tốc của điện thoại để xác định sáu hành vi giao thông bất thường đó là rẽ trái và rẽ

phải  liên  tục  (weaving),  chuyển  hướng  đột  ngột  (swerving), trượt  võng

(slidelipping),  chuyển  hướng  ngược  chiều  đột  ngột  (Fast  U-  turn),  chuyển  hướng

với góc cua rộng (turning with a wide radius), và phanh đột ngột (sudden break) với

điện thoại được gắn cố định trên các xe với 20 lái xe khác nhau. Tác giả thực hiện

lấy các mẫu hành vi bất thường khi điện thoại đặt ở phía trước của xe với độ chính

xác  của  mẫu  gần  tới  100%.  Tuy  nhiên,  điều  này  không  thực  sự  dễ  dàng  do  chất

lượng của  thiết  bị,  ảnh hưởng từ phương tiện  cũng như  hạ  tầng giao  thông sẽ tác

động, gây nhiễu đối với dữ liệu cảm biến.

Trong nghiên  cứu  của mình,  tác  giả  Dai,  Jiangpeng  [60]  cùng  các  cộng  sự

79

cũng thực hiện phát hiện hành vi giao thông của người điều khiển phương tiện trong

khi say rượu bằng dữ liệu cảm biến của điện thoại. Hành vi của các đối tượng này

cũng được xác định chủ yếu dựa theo hành động chuyển hướng và thay đổi tốc độ

một cách đột ngột.

Nghiên cứu của  Singh,  Gurdit [12]  và  các cộng sự đã  sử  dụng DTW để  so

sánh phát hiện ra hành động thay đổi tốc độ của người điều khiển phương tiện xe

máy khi đối tượng thực hiện phanh xe với các mức khác nhau. Tín hiệu cảm biến

gia  tốc  mẫu  được  thu  từ  điện  thoại  gắn  cố  định  dọc  theo  hướng  di  chuyển  của

phương tiện.  Tác  giả  Engelbrecht, J  [61] và  cộng  sự đã  thực hiện  việc  nhận  dạng

hành vi lái xe từ dữ liệu cảm biến gia tốc của điện thoại thông minh được gắn cố

định trên phương tiện dựa trên việc so sánh các mẫu dữ liệu cảm biến thô bằng thuật

toán DTW  với  bộ  phân  lớp dữ  liệu  Maximum  Likehood  (ML).  Trong nghiên  cứu

này cũng đã chỉ ra ML có hiệu quả tốt hơn so với DTW, Cùng với các nghiên cứu

[17][62][61] cho thấy DTW là một kỹ thuật có ưu điểm tính toán nhanh có thể áp

dụng  cho  bài  toán  phát  hiện  hành  vi  bất  thường.  Qua  đó  cho  thấy,  kỹ  thuật  nhận

dạng hành động hành vi của một số nghiên cứu thường dùng đó là DTW và phương

pháp phân lớp nhằm tìm ra những yêu cầu của bài toán, trong đó có những hành vi

bất thường.

Mạng nơ - ron nhân tạo (ANN) được các nghiên cứu [11] [15] [24] [63] [64]

[65]  [66]  sử dụng trong việc phát hiện  các hành động, hành vi giao thông.  Đây  là

mô hình xử lý thông tin mô phỏng theo cách thức của các hệ nơ - ron sinh học, bao

gồm nhiều phần tử xử lý (nơ-ron) kết nối với nhau thông qua các liên kết (trọng số

liên kết) để giải quyết yêu cầu của bài toán đặt ra.

Các  phương  pháp,  kỹ  thuật  phát hiện  hành  vi bất  thường  trong  các  nghiên

cứu trên gặp phải vấn đề khó khăn đó là làm thế nào để xác định, thu thập các mẫu

dữ liệu bất thường, trong khi dữ liệu cảm biến gia tốc có nhiều nhiễu. Nếu cố định

hệ tọa độ của thiết bị chứa cảm biến với phương tiện, ta có thể xác định các mẫu bất

thường dựa vào các trục tọa độ theo hướng chuyển động đã biết trước. Tuy nhiên,

khi trục tọa độ cảm biến thay đổi và không cố định trong di chuyển sẽ đối diện với

80

vấn đề khó khăn trong việc lấy mẫu dữ liệu một cách chính xác dựa trên từng trục

dữ  liệu.  Do  vậy,  để  vượt  qua  được  việc  phụ  thuộc  vào  mẫu  dữ  liệu  bất  thường,

chúng  tôi đề  xuất  hướng  tiếp  cận  mới  để  có  thể  xác  định  hành  vi  giao  thông  bất

thường dựa trên sự lặp lại các hành động trong khoảng thời gian ngắn khi một hành

động cơ bản diễn ra.

3.4

Giải pháp nhận dạng hành vi bất thường dựa trên hệ thống

nhận dạng hành động

3.4.1 Một số kỹ thuật nhận dạng hành vi bất thường

3.4.1.1 Kỹ thuật so khớp DTW

Một trong những phương pháp được nhiều nghiên cứu sử dụng để phát hiện

hành vi bất thường đó là sử dụng kỹ thuật so khớp thời gian động (DTW).  Kỹ thuật

DTW  được biết  đến nhiều  trong các  ứng dụng  xử  lý, phân  tích dữ liệu video,  âm

thanh, dữ liệu đồ họa sau khi chuyển dữ liệu về dạng chuỗi [67]. Kỹ thuật này sử

dụng phương pháp tính toán khoảng cách nhằm đo độ tương tự của hai chuỗi, nếu

kết quả khoảng cách càng nhỏ tức là hai chuỗi có độ tương tự càng cao. Dựa trên so

khớp  2  đường  biểu  diễn  dữ  liệu  bằng  cách  tính  khoảng  cách  từng  cặp  điểm  1-1

(điểm thứ i của đường thứ I so với điểm thứ i của đường thứ II) là không phù hợp

trong trường hợp hai đường này không hoàn toàn giống nhau nhưng hình dạng biến

đổi lại rất giống nhau.

Hai đường biểu diễn rất  giống nhau  về hình dạng nhưng  lệch  nhau  về thời

gian như  trong Hình 3-2.  Trong trường hợp  này,  nếu  tính  khoảng cách  bằng cách

ánh  xạ  1-1  giữa  2  đường  thì  kết  quả  rất  khác  nhau  từ  đó  cho  kết  quả  cuối  cùng

không mong muốn. Để khắc phục nhược điểm này, thì một điểm có thể ánh xạ với

nhiều điểm và ánh xạ này không thẳng hàng. Phương pháp này gọi là xoắn thời gian

81

dộng (Dynamic Time Warpping - DTW) được đề xuất bởi Bernt và Clifford [68].

Hình 3-2. Độ đo DTW

Gần  đây,  kỹ  thuật  DTW  cũng  thường  được  sử  dụng  cho  các  bài  toán  liên

quan  đến  so  khớp  các  chuỗi  dữ  liệu  cảm  biến  nhằm  tìm  ra  các  hành  vi  giao

thông[62][69].  Kỹ  thuật  này  có  ưu  điểm  tính  toán  nhanh  dựa  trên  so  khớp  độ  đo

khoảng  cách  của  hai  chuỗi,  từ đó  tính  độ  tương  tự  của  một  chuỗi  với  tập  dữ  liệu

mẫu  nhằm  đánh  giá,  nhận  dạng  một  chuỗi  dữ  liệu  bất  kỳ.  Tập  các  mẫu  tín  hiệu

chuỗi thời gian chuẩn tương ứng với các hành vi của người lái xe được thu thập làm

cơ sở so khớp, tìm ra các hành vi tương tự. Phương pháp này  yêu cầu tập mẫu so

khớp  thu  thập  phải  chính  xác,  hoặc  các  thiết  bị  thu  cảm  biến  được  cố  định  vào

phương tiện nhằm xác định chính xác hệ trục tọa độ với hướng di chuyển.

Với  bài  toán  hệ  trục  tọa độ của  thiết bị  thay  đổi  trong quá trình di chuyển,

việc  xác  định  thu  thập mẫu dữ  liệu  tín  hiệu  cảm biến  tương ứng  với  các  trục  gặp

nhiều khó khăn. Hơn nữa, các hành vi bất thường xảy ra trong một thời gian ngắn

và phức hợp so với các hành động khác sẽ tác động đến kết quả so khớp. Chúng tôi

sử dụng phương pháp này  để  phát  hiện hành vi bất  thường dựa  trên độ  hiệu dụng

của cảm biến gia tốc được mô tả như Hình 3-3 dưới đây:

Chuyển đổi dữ liệu

Đúng

Độ tương tự dst

Hành vi bất thường

DTW

dst > εDTW ?

Cảm biến gia Cảm biến gia tốc tốc   (Mẫu bất (Mẫu dữ liệu thường) bất thường)

Sai

Chuyển đổi dữ liệu

Hành vi bình thường

Dữ liệu phát hiện hành vi

82

Hình 3-3. Sử dụng DTW để phát hiện hành vi bất thường

Dữ liệu sử dụng cho phương pháp này là cảm biến gia tốc thô để phân tích,

so  sánh  với  từng  điểm  trị trong các chuỗi  dữ  liệu nhằm  tìm  ra  độ tương  tự để dự

đoán các hành vi bất thường của người tham gia giao thông sử dụng điện thoại khi

tham gia giao thông.

Dữ liệu sau khi được biến đổi, sử dụng DTW tính độ tương tự giữa hai chuỗi

thu được giá trị dst. Việc nhận dạng hành vi phụ thuộc vào sự so sánh giữa dst với

dst 

một giá trị ngưỡng  DTW  lựa chọn trước. Đối với việc nhận dạng mẫu bất thường,

DTW

nếu thì xác định đây là hành vi bất thường và ngược lại. Cách xác định

này cũng tương tự với mẫu bình thường.

3.4.1.2 Phân lớp dữ liệu với RF và kỹ thuật học sâu

Ngày nay, cùng với sự tăng nhanh về dung lượng và chủng loại dữ liệu. Các

kỹ thuật, mô hình cũng được nghiên cứu cải tiến để đáp ứng được những  yêu cầu

trong bối cảnh mới đặt ra. Mô hình phân lớp là một trong những mô hình phổ biến,

được áp dụng trong nhiều bài toán khác nhau. Với yêu cầu nhận dạng hành vi giao

thông. Chúng tôi sử dụng thuật toán RF và kỹ thuật học sâu để nhận dạng ra hai loại

hành vi bình thường và bất thường.

Kỹ  thuật học  sâu  được  phát  triển  từ mạng nơ  -  ron  nhân  tạo  (ANN)  đã  và

đang được sử dụng hiệu quả nhằm khai phá những thông tin hữu ích từ dữ liệu thu

được  trong  nhiều  lĩnh  vực đặc biệt  là  lĩnh  vực  nhận dạng  các hành động, hành  vi

của con người thông qua dữ liệu cảm biến mang theo[15][24][63][64][70].

Đối với bài toán nhận dạng hành vi dựa trên cảm biến, sử dụng kỹ thuật học

sâu được phát triển từ ANN để nhận dạng là một xu hướng đang nhận được sự quan

tâm của các nhà nghiên cứu và ứng dụng để giải quyết các yêu cầu bài toán đặt ra.

Trong đó có bài toán nhận dạng hành vi từ dữ liệu cảm biến gia tốc của điện thoại

[70][71][CT3].

Bởi  vậy,  Luận  án đã  sử  dụng kỹ  thuật học sâu  để nhận  dạng hành  vi  bằng

83

phương pháp phân lớp bởi bộ phân lớp Dl4jMlpClassifier được tích hợp trong gói

học  sâu  WekaDeeplearning4J.  Tập dữ  liệu huấn  luyện  được thu  thập  và  xây  dựng

bởi các mẫu dữ liệu cảm biến được gán nhãn hành vi giao thông bình thường/ bất

thường.  Với  tập dữ  liệu  đặc trưng đã được trích  xuất,  chúng  tôi  sử dụng kỹ  thuật

Dữ liệu cảm biến

học sâu này để đoán nhận hành vi được mô tả ở hình dưới đây:

Mô hình Nhận dạng

Dữ liệu đặc trưng (Huấn luyện)

TIỀN XỬ LÝ DỮ LIỆU - Cửa sổ dữ liệu - Biến đổi dữ liệu

(Được gán nhãn hành vi)

Pha huấn luyện

Tham số mô hình

Pha nhận dạng

Dữ liệu đặc trưng

Dữ liệu cảm biến

PHÁT HIỆN HÀNH VI

TIỀN XỬ LÝ DỮ LIỆU - Cửa sổ dữ liệu - Biến đổi dữ liệu

(Phát hiện hành vi)

Loại hành vi

Hình 3-4. Nhận dạng hành vi bất thường dựa trên hành động cơ bản

- Pha huấn luyện: Dữ liệu cảm biến gán nhãn hành vi bình thường, bất thường

được  thu  thập  với  cửa  sổ  tương  ứng  với  một  kích  thước  của  một  hành  động  giao

thông cơ bản là W. Các kỹ thuật tiền xử lý dữ liệu sẽ thực hiện lọc và chuyển trục

dữ liệu gia tốc. Để biến đổi dữ liệu gia tốc thành tập dữ liệu đặc trưng mới, hệ thống

sử dụng tập thuộc tính đặc trưng TFH2 để thu được bộ giá trị đặc trưng, dữ liệu sử

dụng làm dữ liệu huấn luyện cho mô hình phân lớp sử dụng kỹ thuật học sâu

- Pha nhận dạng: Dữ liệu cảm biến gia tốc sử dụng cho phát hiện hành vi được

jW có độ lớn  W  và chồng

thu thập, biến đổi theo hệ trục tọa độ trái đất. Các cửa sổ

jW , áp dụng

dữ liệu được cắt liên tục theo chuỗi thời gian. Với mỗi cửa sổ dữ liệu

các kỹ thuật tiền xử lý, biến đổi thành véc tơ giá trị đặc trưng tương ứng với cửa sổ

jW . Sau đó, sử dụng bộ phân lớp để gán nhãn cho véc tơ này. Kết quả nhãn

dữ liệu

84

lớp là hành vi bất thường/ bình thường mà hệ thống nhận dạng được.

3.4.2 Giải pháp đề xuất nhận dạng hành vi bất thường dựa trên hệ

thống nhận dạng hành động

Hai phương pháp sử dụng DTW và phân lớp dữ liệu với RF, kỹ thuật học sâu

để phát hiện hành vi bất thường có các ưu/ nhược điểm khác nhau. Tuy nhiên, khó

khăn chung gặp phải, đó là sự phụ thuộc vào cách xác định và thu thập mẫu dữ liệu

hành vi bất thường. Đối với hầu hết các phương tiện giao thông trong đô thị, hành

vi  giao  thông  gây  nguy  hiểm  như  “lạng  lách”,  “phóng  nhanh,  phanh  gấp”,  “điều

khiển phương tiện khi sau rượu”, “rê trượt” và “quay đầu đột ngột” cũng như các

hành  vi  nguy  hiểm  khác  thường  xảy  ra  nhanh,  trong  khoảng  thời  gian

ngắn[14][15][24][60]. Do đó, trong một khoảng thời gian ngắn, người điều khiển có

nhiều hành động thay đổi hướng liên tục cũng là biểu hiện của một dạng hành vi bất

thường, chúng tôi thực hiện phát hiện hành vi giao thông bất thường như sau:

- Giả sử một chuỗi dữ liệu cảm biến gia tốc có chứa hành vi bất thường cần

nhận dạng, phân đoạn chuỗi dữ liệu này bằng cửa sổ có kích thước W thu được n

A

n 1,..., }

cửa  sổ  Wi  với  i  =  1,...,  n.  Kết  quả nhận dạng  cửa  sổ  Wi  thu  được  tập  n  nhãn  lớp

A i { ; i

,

tương  ứng  với  các  hành  động  cơ  bản tương  ứng,  trong  đó

S G L R có các phần tử là nhãn của 4 hành động dừng (S),

, }

,

iA S G L R { , , }

với tập { ,

đi thẳng (G), rẽ trái (L), rẽ phải (R).

iA ), thực hiện phân đoạn dữ liệu

'

- Với mỗi cửa sổ dữ liệu Wi (tương ứng với

jW , j = 1,... ,k có kích thước W’. Sử dụng hệ thống

'

của cửa sổ này thành k cửa sổ

jW  này

'

' A

k 1,..., }

S G L R { , , } ,

nhận dạng để nhận dạng hành động tương ứng với k cửa sổ có kích thước

'{ ; A j j

jA

thu  được  tập  nhãn hành  động ,  trong đó sao  cho

thỏa mãn công thức (3.1) sau:

(3.1)

|

' |A

k

B

{x: x

' A

, x

'A

A }i

- Gọi  tập là  tập  các  phần  tử  có  nhãn  lớp  thuộc  tập

85

nhưng khác với nhãn lớp iA .

- Gọi  ir là tỉ lệ sai khác giữa số các nhãn lớp không giống iA  trong k nhãn lớp

r i

nhận được tính bởi công thức (3.2) sau :

(3.2)

| |

B ' A

| |

iA là một hành

- Với một giá trị ngưỡng  cho trước, nếu  ir   thì ta nói rằng

iA  là một hành vi bình thường.

vi bất thường và ngược lại, nếu  ir   thì

- Với  giải  pháp  xác  định  hành  vi bất  thường này,  có  thể  biểu  diễn  hệ  thống

phân tích và phát hiện hành vi đề xuất bởi Hình 3-5 dưới đây:

W

Tập tham số {W, W’, ε}

NHẬN DẠNG HÀNH ĐỘNG

Dữ liệu huấn luyện (Hành vi giao thông)

W’

r

r > ε

Đúng

`

Đánh giá, lựa chọn bộ tham số với hàm y = f(W, W’, ε )

Sai

NHẬN DẠNG HÀNH ĐỘNG

PHA HUẤN LUYỆN

PHA PHÁT HIỆN

Tham số tối ưu: (Wb,Wb’, εb )

W

NHẬN DẠNG HÀNH ĐỘNG

Dữ liệu phát hiện

Đúng

Hành vi bất thường

W’

Hành vi được phát hiện

r > ε

r

Sai

Hành vi bình thường

NHẬN DẠNG HÀNH ĐỘNG

Hình 3-5.Sơ đồ hệ thống phát hiện hành vi bất thường

Trong  hệ  thống  nhận  dạng  hành  vi  này  gồm  hai  pha:  pha  thứ  nhất  là  pha

86

huấn luyện, pha thứ hai là pha nhận dạng hành vi bất thường. Trong pha huấn luyện,

dữ liệu huấn luyện được xử lý, biến đổi dựa trên thuộc tính đặc trưng để có được tập

dữ đặc trưng cho hệ thống nhận dạng.

- Từ tập dữ liệu huấn luyện có được sẽ xây dựng bộ phân lớp, nhận dạng các

hành động cơ bản từ cửa sổ dữ liệu có kích thước là W.

'W W

1,...,

k

- Với  mỗi  cửa  sổ  dữ  liệu  có  kích  thước  W,  cắt  thành  k  cửa  sổ  dữ  liệu

', jW j

có kích thước .

'

jW  thu được k

- Trong bước thực hiện  tiếp  theo đó  là  sử dụng bộ phân  lớp đã  xây  dựng để

nhận dạng cửa sổ Wi thu được nhãn lớp của hành động iA ; k cửa sổ

jA  tương ứng. Sau khi đánh giá tỉ lệ sai khác với ngưỡng đã có

nhãn lớp hành động '

thu được nhãn của hành vi là bình thường hay bất thường.

- Dựa  vào nhãn hành  vi của  các mẫu dữ  liệu huấn luyện,  độ chính xác được

đánh giá bởi hàm:

(3.3)

y i

f t ( ) i

'

của mô đun đánh giá với các tham số:

(3.4)

(

,

)

t W W  , i t t i i

t i

'

- Tham số tối ưu:

(3.5)

(

,

)

t W W  , b b b

b

được lựa chọn khi:

(3.6)

max(

)

y b

y t i

'

, )

W W   tham gia trong pha huấn luyện.   ( ,

i

1, ...,

n

)

,

,

với ; n là số các bộ giá trị

W W  đã được tối ưu từ Pha  (

b

b

' b

- Trong Pha nhận dạng, sử dụng các tham số

huấn luyện, hệ thống nhận dạng hành vi giao thông từ dữ liệu cảm biến gia tốc của

điện thoại thông minh thu được để nhận dạng; các bước thực hiện nhận dạng hành

Wi

vi được mô tả như trong Hình 3-6 sau đây:

PHÁT HIỆN HÀNH ĐỘNG

TIỀN XỬ LÝDỮ LIỆU TRÍCH XUẤT ĐẶC TRƯNG - W1,W2,W3,...,Wi,...Wn - F1,F2,F3,...,Fi,...,Fn

Đúng

Dữ liệu cảm biến gia tốc Phát hiện

W’i

87

Hành vi bất thường

Pha 1

ri > ε

Pha 2

Tính rd

Sai

k - W’ i

PHÁT HIỆN

Hành vi

TIỀN XỬ LÝDỮ LIỆU TRÍCH XUẤT ĐẶC TRƯNG

Hình 3-6. Phát hiện hành vi bất thường dựa trên hành động giao thông cơ bản

Giải pháp phát hiện hành vi bất thường được thực hiện đồng thời bởi hai pha

như trong Hình 3-6  nhằm thực hiện nhận dạng hành vi bất thường:

Pha  1:  pha  này  sẽ  thực  hiện  nhận  dạng  một  hành  động  giao  thông  cơ  bản

iW . Kết quả nhận dạng thu được ký hiệu là

iA ;

'

tương ứng với cửa sổ dữ liệu

iW phân đoạn thành k cửa sổ có kích thước

jW  . Thực

Pha 2: Với mỗi cửa sổ

'A  với

'

1,...,

k

hiện nhận dạng k cửa sổ hành động này thu được k nhãn lớp ký hiệu là tập

';  jA A j

các phần tử .

- Sau  khi  nhận  dạng  các  nhãn  lớp  hành  động,  hệ  thống  tiến  hành  thực  hiện

đánh giá, nhận dạng hành vi dựa vào giá trị tính tỉ lệ sự khác biệt  ir được tính theo

công thức (3.2) rồi so sánh với giá trị ngưỡng ε nhằm phát hiện hành vi bất thường

và  hành vi bình  thường.  Giải  pháp xác  định  hành  vi  bất thường được mô  tả  bằng

thuật toán mã giả như sau:

Thuật toán: Nhận dạng hành vi bất thường ARAL(Wi,)

Đầu vào: Cửa sổ dữ liệu Wi, giá trị ngưỡng  Đầu ra: Nhãn hành vi (bình thường/ bất thường) KQ tương ứng với cửa sổ

dữ liệu Wi

Chương trình:

1. iA ← nhận dạng hành động cửa với sổ

iW

'

2.

jW ← k cửa sổ dữ liệu cắt từ Wi ;j = 1,... ,k

'

'

'

3.

jA A ← nhận dạng hành động với các cửa sổ

jW ; j = 1,... ,k

88

4.

với

B

{x: x

' A

, x

A }i

r i

| |

B ' A

| |

5. Nếu ir  thì KQ ← hành vi bất thường Ngược lại KQ ← hành vi bình thường

7. Trả về nhãn KQ

8. Kết thúc

Thuật toán 3-1. Nhận dạng hành vi bất thường

Các  mẫu  hành  vi  bình  thường,  bất  thường  được  phân  tích,  nhận  dạng  dựa

trên kết quả của nhận dạng hành động. Do vậy, thực nghiệm cần phải khảo sát, đánh

giá cụ thể để lựa chọn được kích thước cửa sổ dữ liệu W, W’ và giá trị ngưỡng ε

phù hợp với từng dạng hành vi giao thông bất thường khác nhau.

3.5

Thực nghiệm và đánh giá

3.5.1 Môi trường thực nghiệm

Chương trình thu dữ liệu cảm biến được xây dựng và thực hiện trên hệ điều

hành Android phiên bản 4.5 đến 6.0. Ngôn ngữ Java được sử dụng để xây dựng hệ

thống, thực hiện quy trình tiền xử lý dữ liệu, các mô hình phân lớp trong Bộ công

cụ WEKA được sử dụng để phát hiện, nhận dạng phương tiện, hành động hành vi.

Hệ thống nhận dạng hành vi tiến hành các bước tiền xử lý dữ liệu, sử dụng

tập thuộc tính TFH2 để biến đổi dữ liệu cảm biến thành dữ liệu đặc trưng sau khi đã

biến đổi hệ tọa độ theo hệ tọa độ của trái đất. Tham số của thuật toán RF áp dụng

cho nhận dạng hành động được lựa chọn như trong Bảng 2-6 của Chương 2.

3.5.2 Dữ liệu thực nghiệm

Do  tính  đặc  thù  của  các  đô  thị  Việt  Nam,  chúng  tôi  tập  trung  nghiên  cứu

hành  vi  bất  thường  trên  phương  tiện  xe  máy.  Hành  vi  bất  thường  được  xác  định

nhận dạng trong thực nghiệm đó là “hành vi lạng lách”. Hành vi này liên quan đến

thay  đổi  hướng  điều  khiển  phương  tiện  trong  một  khoảng  thời  gian  ngắn.  Do đó,

89

hành  động  phương  tiện  di  chuyển  thẳng  được  chọn  là  nhãn  hành  vi  bình  thường

trong các thực nghiệm sử dụng dữ liệu huấn luyện để xây dựng mô hình nhận dạng

hành bi bất thường sử dụng phương pháp phân lớp.

Thực nghiệm được tiến hành trên 8 đối tượng là các cán bộ, nhân viên văn

phòng và sinh viên. Dữ liệu mẫu về hành vi bất thường thực hiện ở các cung đường

vắng, theo cảnh huống giả định của hành vi bất thường đặt ra cùng với các hành vi

90

bình thường. Vị trí của điện thoại khi thu dữ liệu thể hiện ở Bảng 3-1 sau:

Hành động Số lượng Thời gian 15  Bình thường  10  Bất thường

phút   phút

Vị trí của điện thoại Cầm tay khi lái xe, cầm tay ngồi sau    Cầm tay khi lái xe, cầm tay ngồi sau, bỏ túi

Bảng 3-1. Thực nghiệm thu dữ liệu nhận dạng hành vi bất thường

Hành vi lạng lách xảy ra khi người điều khiển phương tiện rẽ trái và rẽ phải

liên tục theo dạng mẫu biểu diễn ở Hình 3-7 sau:

L

R

R

L

L

R

Hình 3-7. Mẫu dữ liệu cảm biến gia tốc của hành vi bất thường – “lạng lách”

Đối tượng tham gia thực nghiệm có thể đặt điện thoại ở các vị trí tùy ý và có

thể thay đổi vị trí trong hành trình của họ. Tần số lấy mẫu dữ liệu cảm biến với tần

số 50Hz.

Trong mẫu dữ liệu cảm biến gia tốc về “hành vi lạng lách”, người điều khiển

phương tiện thực hiện đồng thời chuỗi sáu hành động rẽ trái ký hiệu là “L” và hành

động rẽ phải “R” lần lượt là: “L, R, R, L, L, R” như Hình 3-7. Đây là một dạng mẫu

được chúng tôi thu thập và sử dụng. Đối với các dạng mẫu hành vi bất thường khác

cũng có thể bổ sung và thực hiện nhận dạng theo phương pháp, cách thức này.

Bên cạnh đó, chúng tôi giả định một “hành vi bình thường” gồm 6 hành động

di chuyển thẳng. Dữ liệu mẫu cảm biến gia tốc của hành vi này có dạng như Hình

3-8. Trong đó, các ký hiệu “G” mô tả một hành động phương tiện di chuyển thẳng

91

theo hướng chuyển động.

G

G

G

G

G

G

Hình 3-8. Mẫu dữ liệu cảm biến gia tốc của hành vi bình thường (đi thẳng)

Dữ liệu cảm biến gia tốc của các hành vi thu thập được sử dụng với các kỹ

thuật nhận dạng (DTW, kỹ thuật học sâu, Kỹ thuật đề xuất) nhằm khảo sát, đánh giá

tìm ra phương pháp nhận dạng hành vi giao thông phù hợp.

Với mục đích nhận dạng trên cùng một kích thước dữ liệu cho các kỹ thuật

khác  nhau.  Chúng  tôi  khảo  sát  các  kích  thước  cửa  sổ  dữ  liệu nhằm  đánh  giá một

hành vi trong khoảng 4 giây đến 6 giây (do kế thừa kết quả khảo sát ở chương 2,

một hành động cơ bản được nhận dạng tốt nhất trong khoảng kích thước cửa sổ 4

giây, 5 giây và 6 giây).

Dữ  liệu  cảm  biến  gia  tốc  về  các  hành  vi  thu  thập  được  chia  thành  hai  tập

'

(

,

)

khác nhau. Tập mẫu dữ liệu huấn luyện sử dụng để khảo sát, lựa chọn ra bộ tham số

t W W  , b b b

b

nhằm nhận dạng tốt hành vi bất thường.

'

(

,

)

Tập  dữ  liệu  kiểm  tra  sử  dụng  nhận  dạng  hành  vi  bất  thường  với  tham  số

t W W  , b b b

b

đã được lựa chọn và một lần nữa đánh giá lại ý nghĩa của bộ tham

số này.

Tập  mẫu  dữ  liệu  cảm  biến  gia  tốc  về  hai  loại  hành  vi  bình  thường  và  bất

thường thu được sử dụng cho thực nghiệm theo từng kích thước cửa sổ dữ liệu được

biểu diễn như ở trong Bảng 3-2 dưới đây:

Mẫu DL bất thường Mẫu DL bình thường

Tổng số mẫu 1263  986  806

433  326  260

830  660  546

4 giây  5 giây  6 giây

Bảng 3-2. Số lượng các mẫu dữ liệu thực nghiệm

92

Với dữ liệu cảm biến gia tốc thô này, tùy vào các kỹ thuật nhận dạng hành vi

khác nhau, thực nghiệm sẽ sử dụng các định dạng dữ liệu cảm biến gia tốc thô hoặc

đã biến đổi để phù hợp với đặc điểm và yêu cầu đặt ra.

3.5.3 Kết quả thực nghiệm với DTW

3.5.3.1 Dữ liệu thực nghiệm

Kỹ thuật so khớp DTW dựa trên độ đo khoảng cách để đánh giá sự tương tự

giữa hai chuỗi dữ liệu. Do vậy, dữ liệu cảm biến gia tốc thô thường được sử dụng

để nhận dạng các hành động,  hành  vi.  Trong thực nghiệm  này, chúng tôi  cũng sử

dụng gia tốc thô để nhận dạng các hành vi bất thường dựa vào tập mẫu dữ liệu hành

vi đã thu thập được.

Một  trong  những  cách  yếu  tố  quan  trọng  để  đánh  giá  đâu  là  hành  vi  bình

thường hay bất thường đó là dựa trên một giá trị ngưỡng  DTW để phân biện được sự

tương tự hoặc giống nhau hay khác nhau.  Do vậy, cần khảo sát để chọn được  DTW

phù hợp sao cho phân loại được các hành vi bình thường và bất thường một cách tốt

nhất. Các bước thực nghiệm để lựa chọn giá trị ngưỡng  DTW cho nhận dạng hành vi

giao thông bất thường được thực hiện với các bước như sau:

B1: Xây dựng tập dữ liệu mẫu hành vi giao thông để huấn luyện và tập dữ

liệu kiểm tra là tập các chuỗi dữ liệu cảm biến gia tốc thô từ các mẫu hành vi, bình

thường  và  bất  thường  thu  thập  được.  Dữ  liệu  huấn  luyện  là  70%  tập  dữ  liệu  thu

được. Phần còn lại dược dùng làm dữ liệu sử dụng để kiểm tra.

B2: Sử dụng kỹ thuật DTW để so khớp, đánh giá khoảng cách giữa cửa sổ

thứ i của tập huấn luyện với cửa sổ thứ j của tập kiểm tra bằng hàm đo độ tương tự

i

j

dst

SIM

i T , T 2 1

theo từng trục tọa độ X, Y và Z:

(3.7)

Giá trị khoảng cách so sánh của cửa sổ thứ i được tính dựa trên giá trị trung

93

bình khoảng cách được so khớp bởi các trục X,Y,Z:

i

(

,

,

)

(3.8)

i dst Avg dst dst dst Z

i X

i Y

B3:  Dựa  vào  các  nhãn  của  dữ  liệu  ở  tập  kiểm  tra  để  khảo  sát,  đánh  giá

idst

ngưỡng giá trị  d nào là phù hợp nhất cho việc phát hiện các hành vi bất thường.

i dst 

Hành  vi  bất  thường  i  được  đoán  đúng  khi  độ  tương  tự nhỏ  hơn  ngưỡng  (

idst

DT

W

). Hành vi bình thường j được đoán đúng khi độ đo tương tự lớn

j dst    DT

W

hơn giá trị ngưỡng ( ).

3.5.3.2 Kết quả thực nghiệm

Kết quả thực nghiệm với tập dữ liệu huấn luyện sử dụng kích thước của sổ

lần lượt là 5 giây, 6 giây và 7 giây. Bên cạnh đó, qua khảo sát tính chất dữ liệu đã

{j| j=1,...,10}

thu  thập.  Các  giá  trị  ngưỡng  được  khảo  sát  và  lựa  chọn  từ  việc  đánh  giá  kết  quả

DTW 

tương ứng với các giá trị ngưỡng

j

  (ví  dụ  ký  hiệu  S4-7  có  ý

Kết quả thực nghiệm được thể hiện trong Hình 3-9. Các ký hiệu Si-j tương

7

ứng  với  kích  thước  cửa  sổ  i  giây,  giá  trị  ngưỡng  DTW

DTW   ):

1.0

nghĩa là tỉ lệ nhận dạng đúng với cửa sổ 4 giây và giá trị ngưỡng

)

0.8

%

0.6

0.4

0.2

0.0

( ệ l ỉ t   c á c ị r t

1 - 4 S

3 - 4 S

4 - 4 S

5 - 4 S

6 - 4 S

7 - 4 S

8 - 4 S

9 - 4 S

1 - 5 S

2 - 5 S

3 - 5 S

4 - 5 S

5 - 5 S

6 - 5 S

7 - 5 S

8 - 5 S

9 - 5 S

1 - 6 S

2 - 6 S

3 - 6 S

4 - 6 S

5 - 6 S

6 - 6 S

7 - 6 S

8 - 6 S

9 - 6 S

2 - 4 S

0 1 - 4 S

0 1 - 5 S

0 1 - 6 S

Ngưỡng giá trị so khớp với từng kích thước cửa sổ

Phát hiện hành vi bất thường

Phát hiện hành vi bình thường

Tỉ lệ trung bình

á   i G

Hình 3-9. Kết quả so khớp với các giá trị ngưỡng khác nhau

Từ kết quả trong Hình 3-9 cho thấy, để lựa chọn ngưỡng phân biện hai dạng

94

mẫu  hành  vi  bình  thường  và bất  thường  gặp  nhiều  khó  khăn,  phụ  thuộc  vào  tính

DTW ,  tỉ  lệ  nhận  dạng  đúng  các  hành  vi  thay  đổi  khác  nhau.  Đường biểu  diễn  sự

chất của dữ liệu cũng như cách thức thực nghiệm. Khi thay đổi các giá trị ngưỡng

thay đổi tỉ lệ nhận dạng đúng hành vi bình thường và hành vi bất thường dần hội tụ

về hai giá trị là S6-1 và S6-5. Tuy nhiên, kết quả tỉ lệ nhận dạng đúng hành vi bất

5

thường  của  giá  trị S6-5 lớn hơn  của  S6-1 nên  giá trị tham  số  S6-5 tương  ứng  với

DTW   được lựa chọn là tham số để phát

kích thước cửa sổ 6 giây, giá trị ngưỡng

hiện  hành  vi  giao  thông bất  thường.  Sử dụng  giá  trị này  để  phát  hiện hành  vi  bất

thường trên tập dữ liệu kiểm tra thu được kết quả tỉ lệ phát hiện chính xác là 59,6%.

Từ  kết quả nhận dạng hành  vi hành  vi  giao  thông bất  thường sử dụng  cảm

biến gia tốc sử dụng DTW thu được cho thấy: tỉ lệ nhận dạng đúng phụ thuộc vào

dữ liệu mẫu về các hành vi. Tỉ lệ nhận dạng đúng cao hơn khi thu thập được một tập

đầy đủ các mẫu dữ liệu về hành vi ở nhiều cảnh huống trên nhiều đối tượng khác

nhau. Dây cũng là một trong những khó khăn khi sử dụng phương pháp này bởi đối

với hành vi bất thường, việc xác định dữ liệu mẫu rất khó khăn và đa dạng, dẫn đến

lựa chọn tham số phù hợp cho hệ thống nhận dạng hành vi.

3.5.4 Kết quả thực nghiệm với RF và Dl4jMlpClassifier

3.5.4.1 Dữ liệu thực nghiệm

Dữ liệu huấn luyện sử dụng xây dựng mô hình phân lớp được thu thập là dữ

liệu  cảm biến  gia  tốc  với hai nhãn  lớp bất  thường “lạng  lách”  và bình  thường “đi

thẳng” trên tần số 50Hz. Sau khi tiền xử lý, biến đổi thu được dữ liệu đặc trưng dựa

trên  tập  thuộc  tính  đặc  trưng  TFH2  được  lựa  chọn  để  nhận  dạng  hành  động  như

trong Chương 2. Dữ liệu cảm biến gia tốc sử dụng cho thực nghiệm với kích thước

cửa sổ 4 giây, 5 giây  và 6 giây để thu được các tập dữ liệu dữ liệu đặc trưng. Dữ

liệu  đặc  trưng  này  sử  dụng  cho  việc  huấn  luyện,  xây  dựng  mô  hình  và  kiểm  tra,

đánh giá nhận dạng hành vi sử dụng phương pháp phân lớp bằng thuật toán RF và

95

kỹ thuật học sâu.

3.5.4.2 Kết quả thực nghiệm

- Thực nghiệm phân lớp dữ liệu với thuật toán RF trên tập dữ liệu kiểm tra đã

thu được với tham số mặc định của thuật toán RF bằng công cụ Weka phiên bản 3.8

như sau:

P

I

num-slots K M

V

S

Tham số mặc định của RF

100

100

1

0

1

0.001

1

Bảng 3-3. Tham số mặc định của thuật toán RF

Với các tham số này, kết quả độ chính xác phân lớp của các tập dữ liệu huấn

luyện tương ứng với các kích thước cửa sổ 4 giây, 5 giây và 6 giây sử dụng phương

pháp kiểm chứng chéo CV10 nhận được kết quả như trong Bảng 3-5.

- Thực  nghiệm  phân lớp  với  kỹ thuật  học  sâu sử  dụng  gói

WekaDeeplearning4J  trên  bộ  phân  lớp  Dl4jMlpClassifier.  Các  tham  số  mặc  định

cho bộ phân lớp này được trình bày trong Bảng 3-5 dưới đây:

Tham số

Stt

1

number of epochs = 10

optimization algorithm = STOCHASTIC_GRADIENT_DESCENT

2

3

batch size = 100

4

number decimal = 2

5

seed = 1

Bảng 3-4. Tham số của Dl4jMlpClassifier

Bộ  phân  lớp  này  được  tích  hợp  vào  WEKA  phiên  bản  3.8;  phương  pháp

kiểm  chứng  chéo  CV10  được  áp  dụng  cho  thực  nghiệm  đối  với  tập  dữ  liệu  huấn

luyện thu được kết quả phân lớp với độ đo Accuracy như Bảng 3-5 dưới đây:

RF 81,19% 81,12%  80,97%

Kích thước cửa sổ 4 giây  5 giây  6 giây

Dl4jMlpClassifier 89,33% 86,57%  89,13%

Bảng 3-5. Kết quả nhận dạng sử dụng CV10

96

Từ kết quả thu nhận dạng hành vi của các thực nghiệm sử dụng phương pháp

phân lớp khác nhau trên tập dữ liệu kiểm tra cho thấy: Kết quả phân lớp tốt nhất ở

kích  thước  cửa  sổ  4  giây  và  với  tập  dữ  liệu  hành  vi  có  nhãn  bình  thường/  bất

thường, kỹ thuật học sâu cho kết quả cao hơn so với RF là 8,14%.

3.5.5 Kết quả thực nghiệm với giải pháp đề xuất

3.5.5.1 Dữ liệu thực nghiệm

Phương pháp nhận dạng hành vi bất thường đề xuất với hướng tiếp cận đánh

giá hành vi bất thường dựa trên hệ thống nhận dạng hành động cơ bản được trình

bày  ở  Chương  2.  Tập  dữ  liệu  cảm  biến  gia  tốc  thu  được  chia  thành  hai  phần  với

70% là dữ liệu huấn luyện, phần còn lại sử dụng làm dữ liệu để kiểm tra.

Để nhận dạng các cửa sổ dữ liệu đã được chia nhỏ nhằm để đánh giá tính bất

thường, cần xây dựng tập dữ liệu huấn luyện phù hợp cho hệ thống nhận dạng các

hành động xảy ra trong thời gian ngắn với kích thước cửa sổ W’ nhỏ hơn. Các bước

xây dựng tập dữ liệu huấn luyện này được thực hiện theo các bước sau:

- Thu dữ liệu cảm biến gia tốc của hành vi bất thường (lạng lách) và hành vi

bình thường (đi thẳng và dừng). Mẫu hành vi bất thường (“Lạng lách”) được thu khi

phương  tiện  liên  tục  đổi  hướng  như  Hình  3-7.  Mẫu  hành  vi  bình  thường  (“Đi

thẳng”) được thu khi phương tiện liên tục đổi hướng như Hình 3-8.

- Với mục đích nhận dạng ra một hành vi bất thường trong khoảng thời gian

của một hành động cơ bản xảy ra. Do đó, chuỗi dữ liệu hành vi bình thường được

cắt theo kích thước cửa sổ W. Mỗi mẫu dữ liệu có kích thước W này được cắt thành

6 cửa sổ có kích thước W’ với tỉ lệ chồng dữ liệu và gán nhãn theo chuỗi 6 hành

động thay đổi hướng tương ứng có mẫu dạng là:  “L, R, R, L, L, R” được mô tả ở

Hình 3-7. Từ đó nhận được các nhãn hành động “L”, “R” xảy ra trong hành vi bất

thường.

- Với phương pháp tương tự như trên, nhãn hành động “G” được gán từ mẫu

97

hành vi bình thường.

Do  các  hành  vi  “lạng  lách”  ảnh  hưởng  từ  người  điều  khiển  phương  tiện,

chủng loại phương tiện và cả hiện trạng giao thông nên vận tốc, tính chất khác nhau.

Vì  vậy,  cần  phải  khảo  sát để lựa  chọn được kích  thước  cửa  sổ  W  và  W’ phù hợp

nhằm  xây  dựng được dữ  liệu huấn  luyện đủ  tốt cho  hệ thống nhận dạng các  hành

động.

Với tập dữ liệu huấn luyện thu được, đồng thời sử dụng để đánh giá các giá

trị ngưỡng dựa vào tỉ lệ phát hiện đúng các hành vi đã được gán nhãn bởi hàm (3.9)

'

y

f

 (W,W, )

sau:

(3.9)

'W  là giá trị nhận được y thông qua

Với  mỗi  giá  trị  ngưỡng   được  lựa  chọn  khác  nhau  sẽ  cho  tỉ  lệ  phát  hiện

'

(

,

)

đúng hành vi khác nhau trên cùng cửa sổ  W và

t W W  , b b b

b

công thức  (3.9).  Do  đó,  cần  khảo  sát và  lựa  chọn được bột giá  trị

phù hợp để có tỉ lệ nhận dạng hành vi bất thường tốt nhất.

3.5.5.2 Kết quả thực nghiệm

'W dựa

Thực nghiệm tiến hành khảo sát, đánh giá để tìm ra kích thước cửa sổ

trên tập dữ liệu đặc trưng sử dụng cho huấn luyện thu được. Các hành động xảy ra

'W được lựa chọn

trong một hành vi bất thường diễn ra nhanh nên kích thước cửa sổ

khảo sát là 1 giây và 2 giây. Kết quả phân lớp bằng RF tương ứng với tập dữ liệu

cắt bởi kích thước cửa sổ khác nhau, đánh giá bằng phương pháp kiểm chứng chéo

10 – fold thu được kết quả như Bảng 3-6 dưới đây:

1 giây

2 giây

Chồng DL

75%

50%

25%

75%

25%

50%

Accuracy

67,58%

59,79%

64,40%

84,40%

83,42%

84,93%

AUC

0,883858  0,831517  0,857771

0,91217

0,90945

0,91909

Bảng 3-6. Kích thước cửa sổ dữ liệu phát hiện hành vi

98

Qua kết quả thu được từ Bảng 3-6, kích thước cửa sổ W’ = 2 giây và chồng  dữ liệu 50% được chọn nhằm phát hiện hành vi bất thường. Ngoài ra, để khảo sát

khoảng thời  gian một hành  vi bất  thường diễn  ra,  chúng  tôi  lựa  chọn  các  tham  số  W’ là 4 giây, 5 giây và 6 giây.

 

{0,5; 0,6; 0,7; 0,8; 0,9}

Các giá trị ngưỡng được lựa chọn là nhằm đánh giá

0,5

0,6

0,8

0,9

0,5

0,6

0,8

0,9

tỉ lệ nhận dạng đúng các hành vi dựa trên tập dữ liệu huấn luyện thu được. Kết quả  của thực nghiệm được biểu diễn trong Bảng 3-7 như sau:

0,5

0,6

0,8

0,9

5 giây 0,7

6 giây 0,7

4 giây 0,7

347

218

122

95

48

258

190

116

75

27

666

666

623

487

256

884

884

884

884

884

666

666

666

666

666

666

666

666

666

666

0,393

0,247

0,138

0,107

0,054

0,387

0,285

0,174

0,113

0,041

1

1

0,935

0,731

0,384

W ε  Hành vi  phát hiện  đúng  Tổng hành  vi  Tỉ lệ đúng    (%)

Bảng 3-7. Lựa chọn ngưỡng sai khác nhằm phát hiện hành vi bất thường

Kết quả thu được thể hiện trong Bảng 3-7 cho thấy việc lựa chọn các giá trị

ngưỡng tác động lớn đến kết quả nhận dạng. Để có được giá trị phù hợp, chúng tôi

lựa  chọn  tham  số  kích  thước  cửa  sổ  W  =  6  giây,  W’  =  2  giây  và  ngưỡng  giá  trị

 

{0, 5; 0, 6 ; 0, 7}

tương ứng với tỉ lệ nhận dạng đúng là {100%; 100%; 93,5%} để

khảo sát, đánh giá trên tập dữ liệu kiểm tra. Kết quả thực nghiệm trên tập kiểm tra

có  kết  quả  thu được  tệ  lệ nhận dạng hành  vi bất  thường như  trong  Bảng 3-8 dưới

đây:

S(W, ε)

Trung bình

Hành vi bất thường

Hành vi bình thường

S(6, 5)

90,86%

90,00%

90.43%

S(6, 6)

80,00%

90,81%

85.41%

S(6, 7)

66,28%

95,90%

81.09%

Bảng 3-8. Kết quả phát hiện hành vi của giải pháp đề xuất trên tập dữ liệu kiểm tra

99

Kết quả tỉ lệ phát hiện hành vi cũng được biểu diễn bởi Hình 3-10  dưới đây:

Kết quả nhận dạng hành vi

100%

)

%

80%

60%

40%

20%

( g n ú đ g n ạ d n ậ h n ệ

l ỉ

T

0%

S(6-5)

S(6-7)

S(6-6) Các ngưỡng giá trị xác định hành vi

Hành vi bất thường

Hành vi bình thường

Hình 3-10. Kết quả nhận dạng hành vi bình thường và bất thường

Từ kết quả trong Bảng 3-8 và Hình 3-10 ta thấy, với kích thước 6 giây và giá

 

0, 5

trị ngưỡng cho kết quả là 90,43%; kết quả này cũng cao hơn phương pháp sử

dụng  DTW  và   phương pháp  phân  lớp  sử  dụng  Dl4jMlpClassifier  được  trình  bày  trong Bảng 3-9 dưới đây:

RF 81.19%

DTW Dl4jMlpClassifier 59,6%

89,33%

Phương pháp Tỉ lệ phát hiện

Phương pháp đề xuất 90,43%

Bảng 3-9. Kết quả phát hiện hành vi của các phương pháp khác nhau

Từ kết quả thực nghiệm thu được cho thấy, phương pháp sử dụng kỹ thuật so

khớp với DTW dựa trên dữ liệu cảm biến gia tốc bởi sự so khớp khoảng cách giữa

hai chuỗi dữ liệu được thực hiện đơn giản hơn nhưng đồng thời nhạy cảm với dữ

liệu mẫu hành vi thu thập được. Nếu thu mẫu thiếu chính xác, hoặc nhiễu từ thiết bị

cảm biến sẽ ảnh hưởng tới lựa chọn ngưỡng để đánh giá hành vi dẫn đến sai lệch

làm giảm kết quả của hệ thống.

Do  vậy,  phương pháp này  thường được  áp dụng với  thực nghiệm mà  vị  trí

điện thoại được cố định theo hướng di chuyển của phương tiện. Khi phương tiện di

100

chuyển sẽ làm thay đổi giá trị trên trục tọa độ cố định, biết trước nên việc so sánh có

kết quả khả quan hơn trường hợp điện thoại thay đổi vị trí trong khi tham gia giao

thông.

Khi sử dụng phương pháp phân lớp để nhận dạng hành vi bằng các bộ phân

lớp  RF  và    Dl4jMlpClassifier,  việc  xác  định  hành  vi  bất  thường  và  bình  thường

cũng như thu dữ liệu mẫu đối với các hành vi này cũng gặp khó khăn, các hành vi

bất thường khó xác định, đa dạng với các đối tượng khác nhau, phương tiện khác

nhau  và  cảnh  huống  thu  dữ  liệu  khác  nhau  sẽ  ảnh  hưởng  tới  kết  quả  nhận  dạng.

Thuật toán  RF  nhận dạng  tốt đối  với các hành động cơ bản,  xong đối  với dữ  liệu

hành vi thì có kết quả nhận dạng thấp hơn so với cả bộ phân lớp Dl4jMlpClassifier.

Khác với một số nghiên cứu trước đây, việc đánh giá hành vi bất thường dựa

trên hành động, các phương pháp này phụ thuộc rất nhiều vào sự chính xác khi thu

mẫu dữ liệu hành vi. Giải pháp đề xuất nhận dạng hành vi bất thường dựa vào đánh

giá một số hành động thay đổi bất thường trong khoảng thời gian ngắn bởi hệ thống

nhận dạng hành động sẽ ít lệ thuộc vào việc xác định mẫu hành vi bất thường khi

nhận dạng.

3.6

Kết luận

Trong  chương  này,  luận  án  tập  trung  nghiên  cứu,  khảo  sát  các  kỹ  thuật,

phương pháp xác định tính bình thường và bất thường của hành vi giao thông. Từ

đó  đề  xuất  giải  pháp nhận dạng  hành  vi giao thông bất  thường dựa  trên hệ  thống

nhận  dạng.  Đồng  thời,  một  số  kỹ  thuật  thường được  sử  dụng  trong bài  toán  phát

hiện, nhận dạng hành vi bất thường như sử dụng kỹ thuật DTW, phương pháp phân

lớp với RF và Dl4jMlpClassifier. Thông qua các thực nghiệm bằng các kỹ thuật này

để kiểm chứng, làm rõ thêm ý nghĩa của giải pháp đề xuất. Thực nghiệm phát hiện

hành vi bất thường với giải phát đề xuất cho thấy kết quả thu được cao hơn phương

101

pháp  sử  dụng  Dl4jMlpClassifier  là  1.1%  và  so  với  DTW  là  30,83%.Với  một  số

hành  vi bất  thường  khác, việc  xây  dựng thực nghiệm phát hiện  hành  vi thực hiện

102

tương tự như giải pháp đối với hành vi đã được hệ thống thực hiện[CT3]; [CT4].

KẾT LUẬN

Luận án đã tiến hành tìm hiểu, thu thập, khảo sát tính chất của dữ liệu cảm

biến, các kỹ thuật phân tích dữ liệu áp dụng cho loại dữ liệu đặc thù này. Sau đó,

luận án nghiên cứu xây dựng tập thuộc tính đặc trưng nhằm nâng cao hiệu quả của

hệ thống nhận dạng phương tiện và hành động giao thông. Phương pháp đề xuất đã

được thử nghiệm và đánh giá kết quả dựa trên dữ liệu do chúng tôi tự thu thập và

một số bộ dữ liệu đã được công bố.

Dựa vào kết quả nhận dạng của các hành động giao thông, chúng tôi đề xuất

kỹ thuật phát hiện hành vi bất thường bằng cách phân đoạn cửa sổ dữ liệu của một

hành  động  giao  thông  thành  các  đoạn  với  kích  thước  cửa  sổ  đủ  nhỏ  và  áp  dụng

phương pháp nhận dạng hành động với các cửa sổ dữ liệu này. Sự sai khác của kết

quả nhận dạng có được với nhãn lớp của hành động giao thông cơ bản là cơ sở để

phân loại hành vi giao thông dựa trên kỹ thuật so khớp chuỗi.

Phương pháp đề  xuất  được so  sánh,  đánh  giá trên  dữ  liệu thu thập  và phân

tích  với một  số  kỹ  thuật  phát hiện  thường dùng trong bài  toán nhận dạng hành  vi

giao thông khác.

Luận án đã thu được một số kết quả như sau:

- Xây dựng được tập thuộc tính đặc trưng phù hợp gồm 59 thuộc tính trên các

miền thời gian, tần số cũng như thuộc tính Hjorth.

- Đề xuất giải pháp nhận dạng hành động giao thông cơ bản.

- Đề xuất giải pháp nhận dạng hành vi bất thường dựa trên các hành động cơ

bản đã được xây dựng ở chương 2.

Bên cạnh một số kết quả đã thu được, vẫn còn một số nội dung mà Luận án

chưa thực hiện được, bao gồm:

- Xây dựng hệ thống hiển thị và giám sát giao thông. Từ đó, có thể nghiên cứu

phân tích các tình huống giao thông khác nhau.

- Đối với hành vi bất thường, Luận án mới chỉ dừng ở việc xây dựng mô hình

103

nhận  dạng hành  vi  bất  thường,  thực hiện  khảo  sát  với  loại  hành  vi  lạng  lách  của

phương tiện xe máy mà chưa có điều kiện thu thập, phân tích nhiều dạng hành vi

bất thường khác nhau, đối với các loại phương tiện khác nhau trong hệ thống giao

thông.

- Số lượng các mẫu hành vi cũng chưa được thu thập đa dạng, đủ lớn từ nhiều

đối tượng thực nghiệm, phủ hết các cảnh huống, điều kiện và trên các loại phương

tiện khác nhau.

Trong  thời  gian  tới,  chúng  tôi  sẽ  tiếp  tục  hoàn  thiện  nghiên  cứu  của  mình

theo một số cách tiếp cận khác nhau như:

- Áp dụng các phương pháp lọc, đánh giá tập thuộc tính đặc trưng với mong

muốn nâng cao hiệu quả của mô hình phát hiện, nhận dạng, phát hiện hành động và

hành vi bất thường.

- Tiến hành thực nghiệm, đánh giá trên các loại phương tiện khác như ô tô, xe

buýt, xe đạp cũng như một số phương tiện phổ thông khác ở đô thị của Việt nam

- Mở rộng tập các hành động cơ bản khác liên quan đến thay đổi tốc độ, thay

đổi hướng khi điều khiển phương tiện. Dựa trên những hành động này mở rộng tập

các hành vi bất thường cho bài toán nhận dạng, ví dụ như: thay đổi vận tốc đột ngột

hoặc một số hành vi bất thường khác.

- Xây dựng ứng dụng với dữ liệu theo thời gian thực.

- Mở rộng nghiên cứu xây dựng hệ thống mô phỏng, giám sát giao thông trực

tuyến. Đây cũng là cơ sở để xây dựng các giải pháp quản trị giao thông thông minh

104

cũng như hỗ trợ người dân đô thị khi tham gia giao thông.

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

[CT1]. Lu DN., Nguyen TT., Ngo TTT., Nguyen TH., Nguyen HN. (2016) Mobile

Online  Activity  Recognition  System  Based  on  Smartphone  Sensors.  In:

Advances  in  Information  and  Communication  Technology.  ICTA  2016.

Advances  in  Intelligent  Systems  and  Computing,  vol  538.  Springer,  Cham.

(SCOPUS)

[CT2]. Lu DN., Ngo TTT., Nguyen DN., Nguyen TH., Nguyen HN. (2017) A Novel

Mobile  Online  Vehicle  Status  Awareness  Method  Using  Smartphone

Sensors.  In:  Information  Science  and  Applications  2017.  ICISA  2017.

Lecture  Notes  in  Electrical  Engineering,  vol  424.  Springer,  Singapore.

(SCOPUS)

[CT3].    Lu  DN.,  Tran  TB.,  Nguyen  DN.,  Nguyen  TH.,  Nguyen  HN.  (2018)

Abnormal  Behavior  Detection  Based  on  Smartphone  Sensors.  In:  Context-

Aware  Systems  and  Applications,  and  Nature  of  Computation  and

Communication. ICCASA 2017, ICTCC 2017. Lecture Notes of the Institute

for  Computer  Sciences,  Social  Informatics  and  Telecommunications

Engineering, vol 217. Springer, Cham.(SCOPUS).

[CT4].Lu, D.-N.; Nguyen, D.-N.; Nguyen, T.-H.; Nguyen, H.-N. Vehicle Mode and

Driving  Activity  Detection  Based  on  Analyzing  Sensor  Data  of

105

Smartphones. Sensors 2018, 18, 1036. (SCIE).

TÀI LIỆU THAM KHẢO

[1]

[2]

T.  Toroyan,  “Global  status  report  on  road  safety,”  World Heal. Orgainisation,  p.  318, 2015.  L. Bedogni, M. Di Felice, and L. Bononi, “By train or by car? Detecting the user’s  motion type through smartphone sensors data,” IFIP Wirel. Days, 2012.

[3]  A. C. Prelipcean, G. Gidófalvi, and Y. O. Susilo, “Transportation mode detection– an in-depth review of applicability and reliability,” Transp. Rev., vol. 37, no. 4, pp.  442–464, 2017.

[4]  M. Van  Ly, S. Martin,  and M.  M.  Trivedi, “Driver  classification and driving style  recognition using inertial sensors,” IEEE Intell. Veh. Symp. Proc., no. Iv, pp. 1040– 1045, 2013.

[5]  D. A. Johnson and M. M. Trivedi, “Driving style recognition using a smartphone as  a sensor platform,” IEEE Conf. Intell. Transp. Syst. Proceedings, ITSC, pp. 1609– 1615, 2011.

[6]  M. Fazeen, B. Gozick, R. Dantu, M. Bhukhiya, and M. C. González, “Short Papers

Safe Driving Using Mobile Phones,” pp. 1–7, 2012.

[8]

[7]  C.  Lee,  F.  Saccomanno,  and  B.  Hellinga,  “Analysis  of  Crash  Precursors  on  Instrumented Freeways,” Transp. Res. Rec., vol. 1784, no. 1, pp. 1–8, 2002.  J.  Zaldivar,  C.  T.  Calafate,  J.  C.  Cano,  and  P.  Manzoni,  “Providing  accident  detection  in  vehicular  networks  through  OBD-II  devices  and  android-based  smartphones,” Proc. - Conf. Local Comput. Networks, LCN, pp. 813–819, 2011.  [9]  B.  Anbaroğlu,  T.  Cheng,  and  B.  Heydecker,  “Non-recurrent  traffic  congestion  detection on  heterogeneous urban road networks,” Transp. A Transp. Sci., vol. 11,  no. 9, pp. 754–771, 2015.

[10]  Hoàng  Phê  (Chủ  biên),  Từ điển Tiếng Việt - GS. Hoàng Phê.  Nhà  xuất  bản  Hồng

Đức, 2016.

[11]  E.  Carvalho,  B.  V  Ferreira,  C.  De  Souza,  Y.  Suhara,  A.  Pentland,  and  G.  Pessin,  “Driver behavior profiling : An investigation with different smartphone sensors and  machine learning,” pp. 1–16, 2017.

[12]  G.  Singh,  D.  Bansal,  and  S.  Sofat,  “A  Smartphone  Based  Technique  to  Monitor

Driving Behavior using DTW and Crowdsensing,” Pervasive Mob. Comput., 2017.

[13]  Z.  Liu,  M.  Wu,  K.  Zhu,  and  L.  Zhang,  “SenSafe :  A  Smartphone-Based  Traffic

Safety Framework by Sensing Vehicle and Pedestrian Behaviors,” vol. 2016, 2016.

[14]  C.  Ma,  X.  Dai,  J.  Zhu,  N.  Liu,  H.  Sun,  and  M.  Liu,  “DrivingSense:  Dangerous  Driving  Behavior  Identification  Based  on  Smartphone  Autocalibration,”  Mob. Inf. Syst., vol. 2017, 2017.

[15]  J.  Yu,  Z.  Chen,  Y.  Zhu,  Y.  Chen,  L.  Kong,  and  M.  Li,  “Fine-grained  Abnormal  Driving Behaviors Detection and Identification with Smartphones,” vol. 1, no. c, pp.  1–14, 2016.

[16]  R.  Goregaonkar  and  S.  Bhosale,  “Driving  Assistance  and  Accident  Monitoring  Using Three Axis Accelerometer and GPS System,” Int. J. Sci. Res., vol. 3, no. 6,  pp. 393–398, 2014.

[17]  D. A. Johnson and M. M. Trivedi, “Driving Style Recognition Using a Smartphone

as a Sensor Platform,” pp. 1609–1615, 2011.

[18]  A. H. Ali, A. Atia, and M.-S. M. Mostafa, “Recognizing Driving Behavior and Road

106

Anomaly Using Smartphone Sensors,” Int. J. Ambient Comput. Intell., vol. 8, no. 3,  pp. 22–37, Jul. 2017.

[19]  L.  Liu,  Y.  Peng,  S.  Wang,  M.  Liu,  and  Z.  Huang,  “Complex  activity  recognition  using time series pattern dictionary learned from ubiquitous sensors,” Inf. Sci. (Ny).,  vol. 340–341, pp. 41–57, 2016.

[20]  P. Vavouranakis, S. Panagiotakis, G. Mastorakis, C. X. Mavromoustakis, and J. M.  Batalla,  “Recognizing  Driving  Behaviour  Using  Smartphones,”  in  Beyond the Internet of Things, Springer, 2017, pp. 269–299.

[21]  F. Li, H. Zhang, H. Che, and X. Qiu, “Dangerous Driving Behavior Detection Using

Smartphone Sensors,” pp. 1902–1907, 2016.

[22]  C.  Pham  and  N.  T. T. Thuy,  “Real-Time  Traffic  Activity  Detection  Using  Mobile  Devices,” Proc. 10th Int. Conf. Ubiquitous Inf. Manag. Commun. - IMCOM ’16, pp.  1–7, 2016.

[23]  C. A. Ronao and S. Cho, “PT US CR,” Expert Syst. Appl., 2016.  [24]  “Analyzing  Driver  Behavior  using  Smartphone  Sensors :  A  Survey  Analyzing

Driver Behavior using Smartphone Sensors : A,” no. January 2014, 2015.

[25]  A.  Campilho  and  M.  Kamel,  “Image  Analysis  and  Recognition:  11th  International  Conference,  ICIAR  2014  Vilamoura,  Portugal,  October  22-24,  2014  Proceedings,  Part  I,”  Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 8814, pp. 256–265, 2014.

[26]  H.  J.  Walnum  and  M.  Simonsen,  “Does  driving  behavior  matter ?  An  analysis  of  fuel  consumption  data  from  heavy-duty  trucks,”  Transp. Res. Part D,  vol.  36,  pp.  107–120, 2015.

[27]  Y. Lee and S. Cho, “Neurocomputing Activity recognition with android phone using  mixture-of-experts  co-trained  with  labeled  and  unlabeled  data,”  Neurocomputing,  vol. 126, pp. 106–115, 2014.

[28]  Y.  Mirsky,  A.  Shabtai,  and  B.  Shapira,  “Anomaly  detection  for  smartphone  data  streams  Anomaly  Detection  for  Smartphone  Data  Streams,”  Pervasive Mob. Comput., 2016.

[29]  P.  Handel  et al.,  “Insurance  telematics:  Opportunities  and  challenges  with  the  smartphone  solution,”  IEEE Intell. Transp. Syst. Mag.,  vol.  6,  no.  4,  pp.  57–70,  2014.

[30]  E. I. Vlahogianni and E. N. Barmpounakis, “Driving analytics using smartphones :  Algorithms  ,  comparisons  and  challenges,”  Transp. Res. Part C,  vol. 79, pp. 196– 206, 2017.

[31]  S.  H.  Fang  et al.,  “Transportation  modes  classification  using  sensors  on

smartphones,” Sensors (Switzerland), vol. 16, no. 8, pp. 1–15, 2016.

[32]  M.  Guvensan,  B.  Dusun,  B.  Can,  and  H.  Turkmen,  “A  Novel  Segment-Based  Approach for Improving Classification Performance of Transport Mode Detection,”  Sensors, vol. 18, no. 2, p. 87, 2017.

[33]  P. I. of T. Widhalm, P. I. of T. Nitsche, and N. I. of T. Brändle, “Transport Mode  Detection  with  Realistic  Smartphone  Sensor  Data,”  Icpr,  no.  Icpr,  pp.  573–576,  2012.

[34]  M. A. Shafique and E. Hato, “Travel mode detection with varying smartphone data

collection frequencies,” Sensors (Switzerland), vol. 16, no. 5, 2016.

[35]  G.  Castignani,  T.  Derrmann,  R.  Frank,  and  T.  Engel,  “Driver  behavior  profiling  using smartphones: A low-cost platform for driver monitoring,” IEEE Intell. Transp.

107

Syst. Mag., vol. 7, no. 1, pp. 91–102, 2015.

[36]  D.  Pyle,  S.  Editor,  and  D.  D.  Cerra,  Data Preparation for Data Mining,  vol.  17.

1999.

[37]  S.  García,  Intelligent Systems Reference Library 72 Data Preprocessing in Data

Mining. 2015.

[38]  C.  Torres-huitzil  and  A.  Alvarez-landero,  “Recognition  in  Smartphones  for

Healthcare Services.”

[39]  A.  S.  B,  B.  J.  Woodford,  and  H.  Lin,  “Trends  and  Applications  in  Knowledge

Discovery and Data Mining,” vol. 10526, pp. 26–38, 2017.

[40]  W.  Astuti,  W.  Sediono,  A.  M.  Aibinu,  R.  Akmeliawati,  and  M.  J.  E.  Salami,  “Adaptive Short Time Fourier Transform (STFT) Analysis of seismic electric signal  (SES):  A  comparison  of  Hamming  and  rectangular  window,”  ISIEA 2012 - 2012 IEEE Symp. Ind. Electron. Appl., pp. 372–377, 2012.

[41]  L.  M.  S.  Morillo,  L.  Gonzalez-Abril,  J.  A.  O.  Ramirez,  and  M.  A.  A.  De  La  Concepcion,  “Low  energy  physical  activity  recognition  systemon  smartphones,”  Sensors (Switzerland), vol. 15, no. 3, pp. 5163–5196, 2015.

[42]  K.  Katevas,  H.  Haddadi,  and  L.  Tokarchuk,  “Sensing  Kit:  Evaluating  the  sensor  power consumption in iOS devices,” Proc. - 12th Int. Conf. Intell. Environ. IE 2016,  pp. 222–225, 2016.

[43]  Y.  E.  Ustev,  O.  Durmaz  Incel,  and  C.  Ersoy,  “User,  device  and  orientation  independent human activity recognition on mobile phones,” Proc. 2013 ACM Conf. Pervasive ubiquitous Comput. Adjun. Publ. - UbiComp ’13 Adjun., pp. 1427–1436,  2013.

[44]  M. Shoaib, S. Bosch, O. Incel,  H. Scholten, and P. Havinga, “A Survey of Online  Activity Recognition Using Mobile Phones,” Sensors, vol. 15, no. 1, pp. 2059–2085,  2015.

[45]  D. Figo, P. C. Diniz, D. R. Ferreira, and M. P. Cardoso, “Preprocessing techniques

for context recognition from accelerometer data,” pp. 645–662, 2010.

[46]  B.  Boashash,  Time-Frequency Signal Analysis and Processing: A Comprehensive

Review. 2015.

[47]  A. Antoniou, Digital Signal Processing: Signals, Systems, and Filters. 2006.  [48]  M.  Pedley,  “Tilt  Sensing  Using  a  Three-Axis  Accelerometer,”  Free. Semicond.

Appl. notes, pp. 1–22, 2013.

[49]  B.  O.  Hjorth,  “Technical  contributions  eeg  analysis  based  on  time  domain

properties,” pp. 306–310, 1970.

[50]  T. Fawcett, “An introduction to ROC analysis,” Pattern Recognit. Lett., vol. 27, no.

8, pp. 861–874, 2006.

[51]  J.  Huang  and  C.  X.  Ling,  “Using  AUC  and  Accuracy  in  Evaluating  Learning

Algorithms,” vol. 17, no. 3, pp. 299–310, 2005.

[52]  S. Oh, Y. Lee, and H. Kim, “A Novel EEG Feature Extraction Method Using Hjorth

Parameter,” vol. 2, no. 2, pp. 106–110, 2014.

[53]  M.  A.  Hall,  E.  Frank,  G.  Holmes,  B.  Pfahringer,  P.  Reutemann,  and  I.  H.  Witten,  “The WEKA data mining software: an update,” SIGKDD Explor., vol. 11, no. 1, pp.  10–18, 2009.

[54]  Y.  Kwon,  K.  Kang,  and  C.  Bae,  “Expert  Systems  with  Applications  Unsupervised  learning  for  human  activity  recognition  using  smartphone  sensors,”  Expert Syst. Appl., no. May, 2014.

108

[55]  L.  Bao  and  S.  S.  Intille,  “Activity  Recognition  from  User-Annotated  Acceleration

Data,” pp. 1–17, 2004.

[56]  M.-C.  Yu,  T.  Yu,  S.-C.  Wang,  C.-J.  Lin,  and  E.  Y.  Chang,  “Big  data  small

footprint,” Proc. VLDB Endow., vol. 7, no. 13, pp. 1429–1440, 2014.

[57]  T.  H.  Vu  and  J.-C.  Wang,  “Transportation  Mode  Detection  on  Mobile  Devices  Using Recurrent Nets,” Proc. 2016 ACM Multimed. Conf. - MM ’16, pp. 392–396,  2016.

[58]  V.  Chandola,  A.  Banerjee,  and  V.  Kumar,  “Anomaly  detection:  A  survey,”  ACM

Comput. Surv., vol. 41, no. September, pp. 1–58, 2009.

[59]  S.  Agrawal  and  J.  Agrawal,  “Survey  on  anomaly  detection  using  data  mining

techniques,” Procedia Comput. Sci., vol. 60, no. 1, pp. 708–713, 2015.

[60]  J. Dai, J. Teng, X. Bai, Z. Shen, and D. Xuan, “Mobile Phone Based Drunk Driving

Detection.”

[61]  J. Engelbrecht, M. J. T. Booysen, G. Van Rooyen, and F. J. Bruwer, “Performance  comparison of dynamic time warping ( DTW ) and a maximum likelihood ( ML )  classifier  in  measuring  driver  behavior  with  smartphones,”  no.  Ml,  pp.  427–433,  2015.

[62]  H. Eren, “Estimating driving behavior by a smartphone,” no. June 2012, 2016.  [63]  M.  Zhang,  C.  Chen,  T.  Wo,  T.  Xie,  and  S.  Member,  “SafeDrive :  Online  Driving

Anomaly Detection from Large-Scale Vehicle Data,” pp. 1–10.

[64]  V.  Ngoc,  T.  Sang,  N.  D.  Thang,  V.  Van  Toi,  and  N.  D.  Hoang,  “Human  Activity

Recognition and Monitoring Using Smartphones,” pp. 481–485, 2015.

[65]  S. Ferrer and T. Ruiz, “Travel Behavior Characterization Using Raw Accelerometer  Data Collected  from  Smartphones,”  Procedia - Soc. Behav. Sci., vol. 160, no.  Cit,  pp. 140–149, 2014.

[66]  Y.  Watanabe,  “Toward  application  of  immunity-based  model  to  gait  recognition  using  smart  phone  sensors:  A study  of  various  walking  states,”  Procedia Comput. Sci., vol. 60, no. 1, pp. 1856–1864, 2015.

[67]  W.  H.  Abdulla,  D.  Chow,  G.  Sin,  and  N.  Zealand,  “Cross-words  Reference  Tempiate for DTW-based Speech Recognition Systems,” October, vol. 4, pp. 1576– 1579, 2003.

[68]  D.  J.  Berndt  and  J.  Clifford,  “Using  Dynamic  Time  Warping  to  Find  Patterns  in

Time Series,” in KDD workshop, 1994, vol. 10, no. 16, pp. 359–370.

[69]  N. Kalra and D. Bansal, “Analyzing Driver Behavior using Smartphone Sensors : A

Survey,” Int. J. Electron. Electr. Eng., vol. 7, no. 7, pp. 697–702, 2014.

[70]  N. D. Lane and P. Georgiev, “Can Deep Learning Revolutionize Mobile Sensing?,”  Proc. 16th Int. Work. Mob. Comput. Syst. Appl. - HotMobile ’15,  pp.  117–122,  2015.

[71]  S. Yan, Y. Teng, J. S. Smith, and B. Zhang, “Driver behavior recognition based on  deep convolutional neural networks,” 2016 12th Int. Conf. Nat. Comput. Fuzzy Syst. Knowl. Discov., no. 1, pp. 636–641, 2016.

109