Trang chủ » Luận Văn - Báo Cáo » Công nghệ thông tin

68 trang

192 lượt xem

Đồ án tốt nghiệp: Nhận dạng cử chỉ tay động sử dụng mạng neuron tích chập

Đồ án nghiên cứu về nhận dạng cử chỉ tay động sử dụng mạng neuron tích chập (C3D) dưới nhiều góc nhìn. Nghiên cứu cải tiến phương pháp, thử nghiệm trên dữ liệu MICA.

Chủ đề:

vispacex_27

Đồ án công nghệ thông tin

Đồ án mạng máy tính

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỂN THÔNG

──────── * ───────

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

NGÀNH CÔNG NGHỆ THÔNG TIN

NHẬN DẠNG CỬ CHỈ TAY ĐỘNG SỬ DỤNG

MẠNG NEURON TÍCH CHẬP

Sinh viên thực hiện : Đặng Mạnh Trường

Lớp KSCLC HTTT&TT – K58

Giáo viên hướng dẫn: PGS.TS. Trần Thị Thanh Hải

HÀ NỘI 6-2018

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1. Thông tin về sinh viên

Họ và tên sinh viên: Đặng Mạnh Trường

Điện thoại liên lạc 0962387593 Email: dangmanhtruong@gmail.com

Lớp: KSCLC Hệ thống thông tin và truyền thông K58 Hệ đào tạo: KSCLC-TN-TT

Đồ án tốt nghiệp được thực hiện tại:

Viện nghiên cứu quốc tế MICA – Trường Đại học Bách Khoa Hà Nội

Thời gian làm ĐATN: Từ ngày 19/1/2018 đến 02/06/2018

2. Mục đích nội dung của ĐATN

Nghiên cứu và thử nghiệm một kỹ thuật học sâu cho bài toán nhận dạng cử chỉ động của

bàn tay người đa góc nhìn

3. Các nhiệm vụ cụ thể của ĐATN

- Tìm hiểu bài toán nhận dạng cử chỉ động của bàn tay người từ video và các hướng giải

quyết.

- Tìm hiểu và thử nghiệm kỹ thuật mạng neuron tích chập 3 chiều.

- Thử nghiệm kết hợp nhiều nguồn thông tin để nâng cao độ chính xác cho kỹ thuật.

- Đánh giá độ chính xác, ưu nhược điểm của kỹ thuật nghiên cứu trên CSDL đa góc nhìn

4. Lời cam đoan của sinh viên:

Tôi – Đặng Mạnh Trường - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới

sự hướng dẫn của PGS. TS. Trần Thị Thanh Hải.

Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ

công trình nào khác.

Hà Nội, ngày tháng năm

Tác giả ĐATN

Đặng Mạnh Trường

5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo

vệ:

Hà Nội, ngày tháng năm

Giáo viên hướng dẫn

PGS.TS. Trần Thị Thanh Hải

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

ĐATN này tập trung giải quyết bài toán nhận dạng các cử chỉ động của tay người dưới các

góc nhìn khác nhau. Đây là một bài toán có tính ứng dụng thực tiễn cao trong các hệ thống

điều khiển thông minh. Có hai hướng tiếp cận chính để biểu diễn một hoạt động nói chung

và cử chỉ tay động nói riêng. Hướng tiếp cận thứ nhất biểu diễn cử chỉ dựa trên các đặc

trưng được thiết kế bằng tay. Hướng tiếp cận này thường phù hợp với các bài toán có tập

dữ liệu nhỏ và đặc thù. Hướng tiếp cận thứ hai sử dụng kỹ thuật học sâu tiên tiến để tính

toán tự động các đặc trưng từ dữ liệu thô. Hướng tiếp cận này đã đạt được nhiều kết quả ấn

tượng trên hầu hết các bài toán về thị giác máy tính như nhận dạng ảnh và video. Vì vậy,

trong ĐATN này, em tiếp cận bài toán nhận dạng cử chỉ động của tay theo kỹ thuật học

sâu. Có nhiều kiến trúc học sâu đã đạt kết quả tốt cho việc giải bài toán nhận dạng hoạt

động trong thời gian gần đây. Trong số các kỹ thuật đó, em tìm hiểu mạng neuron tích

chập 3 chiều (C3D – 3D convolutional neural network) được trình bày trong tài liệu tham

khảo [1]. Đây là một kỹ thuật cho phép trích chọn các đặc trưng một cách cô đọng phù hợp

với dữ liệu là luồng video (có tính đến yếu tố thời gian). Các đánh giá thực nghiệm cho

thấy kỹ thuật này cho kết quả tốt trên một số CSDL dùng chung về hoạt động của cộng

đồng nghiên cứu như UCF101, HMDB51. Trong ĐATN này, em sẽ nghiên cứu kỹ thuật

này và đánh giá tính hiệu quả của nó trên một loại dữ liệu về cử chỉ động của bàn tay

người. ĐATN của em sẽ trả lời hai câu hỏi đặt ra: (1) Kỹ thuật C3D vốn được thử nghiệm

trên các dữ liệu về hoạt động nói chung. Liệu C3D có phù hợp cho việc nhận dạng các cử

chỉ tay người trong đó đối tượng động duy nhất trong cảnh là bàn tay người có độ phân

giải không gian tương đối nhỏ trong ảnh? (2) Kỹ thuật C3D đã được đánh giá trên các

CSDL các hoạt động hỗn tạp. Chưa có một nghiên cứu chuyên sâu liệu C3D có hiệu quả

khi các góc nhìn thay đổi ? Ngoài ra để nâng cao hiệu năng của C3D, em cũng đã nghiên

cứu và thực hiện một số cải tiến trong cách lấy mẫu các frames và đánh giá hiệu quả của

C3D khi có thêm luồng dữ liệu quang học (optical flow). Các thực nghiệm được thực hiện

trên bộ dữ liệu gồm các video của 5 đối tượng thực hiện 5 loại cử chỉ dưới 3 góc nhìn khác

nhau tại Viện MICA. Kết quả cho thấy phương pháp đề xuất khá ổn định khi sự thay đổi

góc nhìn là nhỏ. Kết quả này có thể cải tiến thêm nếu tích hợp những đặc trưng bất biến

với góc nhìn vào quá trình học.

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT

ABSTRACT OF THESIS

In this report, I focus on solving the hand gesture recognition problem under

different viewpoints. This problem plays an important role in intelligent control

systems . There are two main approaches to modelling an action and particularly a

hand gesture. The first approach represents gestures using hand-crafted features. This

is usually preferred on small datasets with some specific characteristics. The second

approach applies deep learning methods to automaticlly extract relevant features

directly from raw data. Recently this line of research has achieved very impressive

results on most computer vision problems on images and video. Therefore, in this

thesis, the problem of hand gesture recognition is approached from a deep learning

perspective. In recent years there has been many sucessful deep architectures in

action recognition. Amongst them, I focus on 3D convolutional neural network – C3D,

as described in [1]. This method extracts compact and simple video descriptors,

which are suitable for video streams. Experimental results show that this architecture

gives good results on a number of public datasets on action recognition such as

UCF101 and HMDB51. In this thesis, I focus on applying this method and evaluate its

effectiveness on a type of dataset on hand gesture. This thesis answers two questions:

(1) Would C3D, a deep architecture tested on general action recogntion dataset, also

be suitable for hand gesture recognition on datasets in which the only moving object is

the hand, with a relatively low spatial resolution? (2) The original C3D network was

trained on varying viewpoints. What are the effects of different viewpoints on hand

gesture recognition using C3D? In order to further increase C3D recognition results,

I have also researched and applied some novel methods on frame sampling in video

and evaluated C3D results when RGB frames are used in conjuction with optical flow

features. The tests were carried out on a dataset performed by 5 subjects doing 5

different actions under 3 different viewpoints at MICA institute. The results show that

the proposed method is relatively stable under small changes in viewpoint. This can be

further improved if view-invariant features are incorporated into the learning process.

Sinh viên thực hiện: Đặng Mạnh Trường 20134209 Khóa 58 Lớp KSCLC HTTT&TT

Tài liệu liên quan

Đồ án tốt nghiệp: Xây dựng hệ thống mạng cho doanh nghiệp vừa và nhỏ

Xây dựng hệ thống mạng công ty Global Netra: Bài tập lớn và hướng dẫn

Bài tập lớn: Xây dựng hệ thống mạng công ty Global Netra

Tìm hiểu và triển khai hệ thống giám sát mạng bằng phần mềm ELK: Đồ án môn học

Đồ án môn học: Tìm hiểu và triển khai hệ thống giám sát mạng bằng phần mềm ELK

Cẩm Nang Sử Dụng Điện An Toàn và Tiết Kiệm EVNHCMC: Hướng Dẫn Chi Tiết

Cẩm nang Sử dụng điện an toàn, tiết kiệm

Thiết kế mạng cho doanh nghiệp: Báo cáo đồ án chi tiết

Báo cáo đồ án: Thiết kế mạng cho doanh nghiệp

Đồ án Quản trị mạng máy tính: Xây dựng hệ thống mạng doanh nghiệp vừa và nhỏ

Đồ án Quản trị mạng máy tính: Xây dựng hệ thống mạng doanh nghiệp vừa hoặc nhỏ

Giải pháp truyền tải IP trên quang tốt nghiệp Điện tử Viễn thông cho mạng viễn thông tỉnh Nghệ An

Đồ án tốt nghiệp Điện tử Viễn thông: Giải pháp truyền tải IP trên quang cho mạng viễn thông tỉnh Nghệ An

Bài tập lớn: Xây dựng hệ thống mạng phòng A8-301, 302 và chia subnet IP 177.259.111.92, tạo tài khoản người dùng

Bài tập lớn: Xây dựng hệ thống mạng phòng A8-301,302. Cho địa chỉ IP 177.259.111.92 chia thành 5 subnet để cấp phát cho hệ thống mạng. Tạo tài khoản người dùng, nhóm người dùng trong hệ thống

Đồ án tốt nghiệp: Nhận dạng cử chỉ tay động sử dụng mạng neuron tích chập

Đồ án nghiên cứu về nhận dạng cử chỉ tay động sử dụng mạng neuron tích chập (C3D) dưới nhiều góc nhìn. Nghiên cứu cải tiến phương pháp, thử nghiệm trên dữ liệu MICA.

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi