
Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT
1
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỂN THÔNG
──────── * ───────
ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
NGÀNH CÔNG NGHỆ THÔNG TIN
NHẬN DẠNG CỬ CHỈ TAY ĐỘNG SỬ DỤNG
MẠNG NEURON TÍCH CHẬP
Sinh viên thực hiện : Đặng Mạnh Trường
Lớp KSCLC HTTT&TT – K58
Giáo viên hướng dẫn: PGS.TS. Trần Thị Thanh Hải
HÀ NỘI 6-2018

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT
2
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thông tin về sinh viên
Họ và tên sinh viên: Đặng Mạnh Trường
Điện thoại liên lạc 0962387593 Email: dangmanhtruong@gmail.com
Lớp: KSCLC Hệ thống thông tin và truyền thông K58 Hệ đào tạo: KSCLC-TN-TT
Đồ án tốt nghiệp được thực hiện tại:
Viện nghiên cứu quốc tế MICA – Trường Đại học Bách Khoa Hà Nội
Thời gian làm ĐATN: Từ ngày 19/1/2018 đến 02/06/2018
2. Mục đích nội dung của ĐATN
Nghiên cứu và thử nghiệm một kỹ thuật học sâu cho bài toán nhận dạng cử chỉ động của
bàn tay người đa góc nhìn
3. Các nhiệm vụ cụ thể của ĐATN
- Tìm hiểu bài toán nhận dạng cử chỉ động của bàn tay người từ video và các hướng giải
quyết.
- Tìm hiểu và thử nghiệm kỹ thuật mạng neuron tích chập 3 chiều.
- Thử nghiệm kết hợp nhiều nguồn thông tin để nâng cao độ chính xác cho kỹ thuật.
- Đánh giá độ chính xác, ưu nhược điểm của kỹ thuật nghiên cứu trên CSDL đa góc nhìn
4. Lời cam đoan của sinh viên:
Tôi – Đặng Mạnh Trường - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới
sự hướng dẫn của PGS. TS. Trần Thị Thanh Hải.
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ
công trình nào khác.
Hà Nội, ngày tháng năm
Tác giả ĐATN
Đặng Mạnh Trường
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo
vệ:
Hà Nội, ngày tháng năm
Giáo viên hướng dẫn
PGS.TS. Trần Thị Thanh Hải

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT
3
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP
ĐATN này tập trung giải quyết bài toán nhận dạng các cử chỉ động của tay người dưới các
góc nhìn khác nhau. Đây là một bài toán có tính ứng dụng thực tiễn cao trong các hệ thống
điều khiển thông minh. Có hai hướng tiếp cận chính để biểu diễn một hoạt động nói chung
và cử chỉ tay động nói riêng. Hướng tiếp cận thứ nhất biểu diễn cử chỉ dựa trên các đặc
trưng được thiết kế bằng tay. Hướng tiếp cận này thường phù hợp với các bài toán có tập
dữ liệu nhỏ và đặc thù. Hướng tiếp cận thứ hai sử dụng kỹ thuật học sâu tiên tiến để tính
toán tự động các đặc trưng từ dữ liệu thô. Hướng tiếp cận này đã đạt được nhiều kết quả ấn
tượng trên hầu hết các bài toán về thị giác máy tính như nhận dạng ảnh và video. Vì vậy,
trong ĐATN này, em tiếp cận bài toán nhận dạng cử chỉ động của tay theo kỹ thuật học
sâu. Có nhiều kiến trúc học sâu đã đạt kết quả tốt cho việc giải bài toán nhận dạng hoạt
động trong thời gian gần đây. Trong số các kỹ thuật đó, em tìm hiểu mạng neuron tích
chập 3 chiều (C3D – 3D convolutional neural network) được trình bày trong tài liệu tham
khảo [1]. Đây là một kỹ thuật cho phép trích chọn các đặc trưng một cách cô đọng phù hợp
với dữ liệu là luồng video (có tính đến yếu tố thời gian). Các đánh giá thực nghiệm cho
thấy kỹ thuật này cho kết quả tốt trên một số CSDL dùng chung về hoạt động của cộng
đồng nghiên cứu như UCF101, HMDB51. Trong ĐATN này, em sẽ nghiên cứu kỹ thuật
này và đánh giá tính hiệu quả của nó trên một loại dữ liệu về cử chỉ động của bàn tay
người. ĐATN của em sẽ trả lời hai câu hỏi đặt ra: (1) Kỹ thuật C3D vốn được thử nghiệm
trên các dữ liệu về hoạt động nói chung. Liệu C3D có phù hợp cho việc nhận dạng các cử
chỉ tay người trong đó đối tượng động duy nhất trong cảnh là bàn tay người có độ phân
giải không gian tương đối nhỏ trong ảnh? (2) Kỹ thuật C3D đã được đánh giá trên các
CSDL các hoạt động hỗn tạp. Chưa có một nghiên cứu chuyên sâu liệu C3D có hiệu quả
khi các góc nhìn thay đổi ? Ngoài ra để nâng cao hiệu năng của C3D, em cũng đã nghiên
cứu và thực hiện một số cải tiến trong cách lấy mẫu các frames và đánh giá hiệu quả của
C3D khi có thêm luồng dữ liệu quang học (optical flow). Các thực nghiệm được thực hiện
trên bộ dữ liệu gồm các video của 5 đối tượng thực hiện 5 loại cử chỉ dưới 3 góc nhìn khác
nhau tại Viện MICA. Kết quả cho thấy phương pháp đề xuất khá ổn định khi sự thay đổi
góc nhìn là nhỏ. Kết quả này có thể cải tiến thêm nếu tích hợp những đặc trưng bất biến
với góc nhìn vào quá trình học.

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT
4
ABSTRACT OF THESIS
In this report, I focus on solving the hand gesture recognition problem under
different viewpoints. This problem plays an important role in intelligent control
systems . There are two main approaches to modelling an action and particularly a
hand gesture. The first approach represents gestures using hand-crafted features. This
is usually preferred on small datasets with some specific characteristics. The second
approach applies deep learning methods to automaticlly extract relevant features
directly from raw data. Recently this line of research has achieved very impressive
results on most computer vision problems on images and video. Therefore, in this
thesis, the problem of hand gesture recognition is approached from a deep learning
perspective. In recent years there has been many sucessful deep architectures in
action recognition. Amongst them, I focus on 3D convolutional neural network – C3D,
as described in [1]. This method extracts compact and simple video descriptors,
which are suitable for video streams. Experimental results show that this architecture
gives good results on a number of public datasets on action recognition such as
UCF101 and HMDB51. In this thesis, I focus on applying this method and evaluate its
effectiveness on a type of dataset on hand gesture. This thesis answers two questions:
(1) Would C3D, a deep architecture tested on general action recogntion dataset, also
be suitable for hand gesture recognition on datasets in which the only moving object is
the hand, with a relatively low spatial resolution? (2) The original C3D network was
trained on varying viewpoints. What are the effects of different viewpoints on hand
gesture recognition using C3D? In order to further increase C3D recognition results,
I have also researched and applied some novel methods on frame sampling in video
and evaluated C3D results when RGB frames are used in conjuction with optical flow
features. The tests were carried out on a dataset performed by 5 subjects doing 5
different actions under 3 different viewpoints at MICA institute. The results show that
the proposed method is relatively stable under small changes in viewpoint. This can be
further improved if view-invariant features are incorporated into the learning process.
.

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT
5

