Nghiên cứu phát triển phần mềm thông dịch ngôn ngữ ký hiệu thời gian thực hỗ trợ giao tiếp với người khiếm thính

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 7

NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM THÔNG DỊCH NGÔN NGỮ KÝ HIỆU

TRONG THỜI GIAN THỰC HỖ TRỢ GIAO TIẾP VỚI NGƯỜI KHIẾM THÍNH

RESEARCH AND DEVELOPMENT OF REAL-TIME SIGN LANGUAGE

INTERPRETATION SOFTWARE TO SUPPORT COMMUNICATION WITH

HEARING-IMPAIRED PEOPLE

Bùi Trường Giang1,*, Phan Văn Thức1,

Đào Trọng Hoàn2, Mai Thanh Hồng3

1Lớp KHMT 01 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

2Lớp KHMT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội

*Email: buigiang479@gmail.com

TÓM TẮT

Trong những năm gần đây, công nghệ dịch máy và nhận diện giọng nói đã phát triển mạnh mẽ, giúp xây dựng công cụ

dịch thuật thời gian thực và xóa bỏ rào cản ngôn ngữ giữa các nền văn hóa. Tuy nhiên, cộng đồng không sử dụng tiếng

nói(Non-Speaking Individual) chưa được hưởng lợi từ sự tiến bộ này. Họ chỉ có thể giao tiếp với người bình thường thông

qua ngôn ngữ ký hiệu hoặc văn bản, trong khi văn bản thì chậm chạp và ngôn ngữ ký hiệu thì phức tạp và đòi hỏi thời gian

để học. Để giải quyết vấn đề này, chúng tôi quyết định nghiên cứu xây dựng một trình thông dịch ngôn ngữ ký hiệu thời

gian thực nhận đầu vào là một video cử chỉ thời gian thực và xuất đầu ra là một nhãn ký hiệu tương ứng. Trình thông dịch

này sẽ giúp người bình thường hiểu được ngôn ngữ ký hiệu qua việc chuyển đổi chúng thành văn bản hoặc tiếng nói, từ

đó đơn giản hóa việc giao tiếp và giảm bớt rào cản ngôn ngữ giữa người bình thường và người thuộc nhóm NSI.

Từ khóa: Nhận diện ngôn ngữ ký hiệu, Trình thông dịch ngôn ngữ ký hiệu thời gian thực.

ABSTRACT

In recent years, machine translation and voice recognition technology has developed strongly, helping to build real-

time translation tools and eliminate language barriers between cultures. However, the Non-Speaking Individual community

has not benefited from this progress. They can only communicate through sign language or text, while text is slow and

sign language is complex and requires time to learn. To solve this problem, we decided to build a real-time sign language

interpreter. This interpreter will help ordinary people understand sign languages by converting them into text or speech,

thereby simplifying communication and reducing language barriers.

Keywords: Sign Language Recognition, Real-time Sign Language Interpreter.

1. GIỚI THIỆU

Hai bài toán dịch máy và nhận diện giọng nói đã có

nhiều lời giải tốt và mang tính tin cậy cao. Nhờ đó, chúng

ta có thể module hóa chúng và xây dựng một công cụ dịch

thuật thời gian thực. Điều này phần nào giúp xóa bỏ rào cản

ngôn ngữ trong giao tiếp giữa các nền văn hóa.

Song tuy nhiên ở đâu đó vẫn còn những cá nhân chưa

được hưởng lợi ích của sự tiến bộ này. Đó chính là những

người thuộc cộng đồng không sử dụng tiếng nói (NSI).

Trong khi một người bình thường có thể giao tiếp qua văn

bản và tiếng nói thì một người thuộc nhóm NSI chỉ có thể

giao tiếp qua ngôn ngữ ký hiệu hoặc văn bản. Bởi vậy khi

một người bình thường muốn giao tiếp với một người thuộc

nhóm NSI, họ buộc phải sử dụng văn bản hoặc ngôn ngữ ký

hiệu. Nhưng văn bản thì là một công cụ quá chậm chạp để

trao đổi thông tin, còn ngôn ngữ ký hiệu thì phức tạp và cần

thời gian để thành thạo. Câu hỏi đặt ra là liệu chúng ta có

thể áp dụng mô hình thông dịch ngôn ngữ trên đối với ngôn

ngữ ký hiệu được hay không? Câu trả lời là có, nhưng vẫn

còn thiếu một thứ.

Đó là một trình thông dịch từ ngôn ngữ ký hiệu sang văn

bản giúp người bình thường có thể hiểu được ngôn ngữ ký

hiệu. Từ đó đơn giản hóa việc giao tiếp và làm mờ đi được

rào cản ngôn ngữ giữa người bình thường và những người

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 8thuộc nhóm NSI. Vậy nên nhóm tác giả tiến hành nghiên

cứu xây dựng trình thông dịch ngôn ngữ ký hiệu thời gian

thực hỗ trợ giao tiếp với người khiếm thính nhằm lấp đầy

khoảng trống trên.

Hình 1. Cuộc trò chuyện giữa hai người nói khác ngôn ngữ được

hỗ trợ bởi dịch máy và hệ thống nhận diện giọng nói

Hình 2. Cuộc trò chuyện giữa người thuộc nhóm NSI và người

bình thường khi chưa có trình thông dịch ngôn ngữ ký hiệu

Hình 3. Cuộc trò chuyện giữa người thuộc nhóm NSI và người

bình thường khi có sự hỗ trợ của trình thông dịch ngôn ngữ ký hiệu

2. CÁC PHƯƠNG PHÁP TRƯỚC ĐÂY

Đây không phải bài toán mới mà đã được giải nhiều lần

trước đây, có sự khác biệt nhất định giữa các lời giải nhưng

nhìn chung chúng đều gồm hai pha đó là thu thập dữ liệu cử

chỉ và pha nhận dạng dựa trên dữ liệu thu thập được.

2.1. Các phương pháp thu thập dữ liệu cử chỉ

Là pha đầu tiên trong một module nhận diện ngôn ngữ

ký hiệu, thu thập dữ liệu cần phải đảm bảo thông tin thu

được phải chứa đầy đủ các mô tả liên quan đến ký hiệu. Một

số phương pháp phổ biến có thể kể đến được liệt kê dưới

đây.

- Điện cơ đồ

Điện cơ đồ một hệ thống tương tác trực tiếp giữa người

và máy tính thông qua các tín hiệu của cơ thể hay suy nghĩ.

Phương pháp này đã trở thành một phần quan trọng trong

các nghiên cứu về phát hiện chuyển động của cơ thể con

người. Hệ thống giúp cho máy tính hiểu được các cử động

của cơ thể con người. Từ đó xây dựng những cách thức mới

để con người có thể tương tác với máy tính, ví dụ như điều

khiển robot, trò chơi ảo, điều khiển chi giả dành cho người

khuyết tật. Máy tính sẽ thu nhận được các tín hiệu sinh học

nhờ các điện cực gắn trực tiếp bên trong cơ thể và phân loại,

sau khi tổng hợp thông tin dữ liệu và thống kê máy tính sẽ

quyết định cử chỉ gì đang được thực hiện.

- Găng tay dữ liệu

Găng tay dữ liệu là găng tay đặc biệt dùng để theo dõi

sự thay đổi hình dạng và chuyển động của tay. Thiết bị này

có các cảm biến được bố trí trên tất cả các ngón tay và bàn

tay để phát hiện sự di chuyển và uốn cong của các ngón tay.

Thông tin về tọa độ, theo thời gian của các vị trí trên ngón

tay sẽ được đưa vào hệ thống máy tính từ đó quyết định cử

chỉ gì đang được thực hiện dựa trên thống kê.

- Máy ảnh

Đây là phương pháp thu thập dữ liệu dựa trên thị giác

máy tính và được sử dụng phổ biến trong nhận dạng ngôn

ngữ ký hiệu. Trong phương pháp này, cử chỉ ký hiệu được

thu thập bằng máy ảnh cố định đặt trước người thực hiện

thao tác. Những hình ảnh về hình dạng bàn tay, vị trí các

ngón tay, lòng bàn tay so với cơ thể đều có thể được ghi lại.

Phương pháp này có ưu điểm về chi phí cũng như khả năng

trích xuất được nhiều thông tin hơn. Song đi kèm với lợi ích

đó cũng có không ít những bất cập và thách thức. Trong số

đó có thể kể đến như nhiễu hình ảnh, độ phân giải ảnh thấp,

thiếu ánh sáng...

2.2. Các phương pháp nhận dạng cử chỉ dựa trên dữ liệu

thu thập được

Sau khi các dữ liệu được thu thập, cần có một mô hình

thống kê để ánh xạ từ mẫu dữ liệu ra nhãn ký hiệu tương

ứng. Một số mô hình phổ biến được liệt kê ở dưới đây.

2.2.1. Học máy cổ điển

Là một lĩnh vực con của trí tuệ nhân tạo. Học máy liên

quan đến việc nghiên cứu làm sao cho máy tính có thể tự

xử lý dữ liệu mới mà không cần đến can thiệp của con

người. Dù có tính đơn giản cao chưa đủ tốt để mô tả những

bộ dữ liệu mang thông tin phức tạp nhưng nhiều mô hình

học máy cổ điển vẫn được áp dụng trong bài toán nhận dạng

ngôn ngữ ký hiệu. Trong số đó có thể kể đến như SVM,

KNN...

- Mạng nơ ron nhân tạo

Được lấy cảm hứng từ mạng nơ ron trong tự nhiên, mạng

nơ ron tự nhiên là một mô hình bao gồm các nút được kết

nối với nhau. Thông tin được truyền đi từ nút này qua nút

khác dưới hình thức xung điện. Nếu xung điện vào của một

nút vượt một ngưỡng cụ thể, nó sẽ tiếp tục phóng xung điện

và lan tỏa tới các nút được kết nối khác. Biểu diễn toán học

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 9của của mạng nơ ron nhân tạo cũng có cơ chế tương tự khi

đầu vào của một nút là các giá trị x được nhân vô hướng với

tham số của mạng. Kết quả sẽ được đưa qua một hàm kích

hoạt để quyết định tín hiệu được truyền đến nút tiếp theo.

- Mô hình Markov ẩn

Mô hình Markov ẩn là mô hình thống kê trong đó hệ

thống được mô hình hóa được cho là một quá trình Markov

với các tham số không biết trước và nhiệm vụ là xác định

các tham số ẩn từ các tham số quan được.

- So khớp thời gian động

Thuật toán so khớp thời gian động được giới thiệu lần

đầu vào những năm 1960. Thuật toán hoạt động bằng cách

so sánh hai mẫu dữ liệu chuỗi thời gian không hoàn toàn

khớp nhau và đưa ra quyết định chúng có phải cùng một

nhãn hay không.

3. BÀI TOÁN DỰ ĐOÁN CHUỖI THỜI GIAN

Chuỗi thời gian là một tập hợp các điểm dữ liệu có cấu

trúc tương tự nhau và được sắp xếp theo một thứ tự cụ thể.

Đó có thể là chuỗi các từ hình thành lên một câu trong văn

bản tiếng Việt, chuỗi các khung hình trong video… Đặc

điểm chung của cấu trúc dữ liệu này là xác định thứ tự và

các điểm dữ liệu có mối liên hệ với nhau theo thứ tự của

chúng.

Dự báo chuỗi thời gian cũng là một bài toán quan trọng

của học máy và có thể được coi là một phương pháp học có

giám sát. Đã có nhiều giải pháp tiếp cận vấn đề này, nhìn

chung các giải pháp đều hướng đến việc làm sao cho mô

hình hiểu được về mối liên hệ giữa các điểm dữ liệu.

Dễ dàng nhận thấy bài toán mà nhóm đang giải quyết

trong đề tài cũng là một bài toán dự đoán dựa trên chuỗi

thời gian. Thật vậy, dữ liệu đầu vào của bài toán là một tập

hợp các khung hình có cấu trúc tương tự theo thời gian và

đầu ra là một nhãn cho biết ký hiệu tương ứng. Để giải quyết

bài toán này ta cũng xem xét một số hướng tiếp cận sau.

4. MẠNG LSTM

Bài toán dự đoán chuỗi thời gian có thể được giải quyết

bởi mạng LSTM, mạng LSTM cho phép ghi nhớ thông tin

quan trọng từ các điểm dữ liệu trong chuỗi thời gian đồng

thời mạng cũng khắc phục được vấn đề gradient vanishing

giúp mô hình học được các thông tin quan trọng nhưng ở

xa. Mạng LSTM được cấu tạo từ những thành phần chính

dưới đây:

Cell State: Lớp lưu trữ chính, duy trì thông tin qua thời

gian

Hidden State: Đầu ra tại mỗi thời điểm, ảnh hưởng đến

cả đầu ra cuối cùng và các tính toán bên trong LSTM

Forget Gate: Quyết định thông tin nào từ trạng thái ô

(cell state) trước đó sẽ bị quên

Input Gate: Quyết định thông tin mới nào sẽ được lưu

trữ trong trạng thái ô

Output Gate: Quyết định phần nào của trạng thái ô sẽ

được sử dụng để tính toán đầu ra tại thời điểm hiện tại.

Cơ chế hoạt động của các cổng được biểu diễn dưới toán

học như sau:

Forget Gate

=(⋅[ℎ−1,]+)

Input Gate

=(⋅[ℎ−1,]+)

Trạng thái mới của Cell State

=tanh(⋅[ℎ−1,]+)

Output Gate

=(⋅[ℎ−1,]+)

Các ký hiệu được giải thích như sau

xt : Đầu vào tại thời điểm . Đây là một vector chứa

thông tin tại thời điểm hiện tại

ℎ−1: Trạng thái ẩn (hidden state) từ thời điểm trước đó

(t-1). Trạng thái này mang thông tin từ các bước trước đó

và được cập nhật tại mỗi bước thời gian

−1: Trạng thái ô (cell state) từ thời điểm trước đó (t-1).

Trạng thái ô này giữ thông tin lâu dài và được cập nhật tại

mỗi bước thời gian

,,,: Ma trận trọng số tương ứng với các cổng

forget gate (), input gate (), cell candidate (), và output

gate (). Các ma trận này được học trong quá trình huấn

luyện mạng LSTM

,,: Vector bias (độ lệch) tương ứng với các cổng

forget gate (), input gate (), cell candidate (), và output

gate (). Các vector này cũng được học trong quá trình huấn

luyện mạng LSTM

: Hàm sigmoid, thường được dùng để chuẩn hóa đầu

ra của một cổng về khoảng giá trị từ 0 đến 1. Hàm sigmoid

được định nghĩa như sau:

()=



tanh: Hàm tang hyperbol (hyperbolic tangent function),

được dùng để chuẩn hóa đầu ra của cell candidate về khoảng

giá trị từ -1 đến 1. Hàm tang hyperbol được định nghĩa như

tanh() =  



: Đầu ra của forget gate tại thời điểm , đây là một giá

trị giữa 0 và 1, quyết định thông tin nào từ trạng thái ô trước

đó sẽ bị quên

: Đầu ra của input gate tại thời điểm . Đây là một giá

trị giữa 0 và 1, quyết định thông tin mới nào sẽ được lưu trữ

trong trạng thái ô

: Trạng thái ô tạm thời (cell candidate) tại thời điểm .

Đây là một trạng thái mới có thể được thêm vào trạng thái

ô hiện tại

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 10: Đầu ra của output gate tại thời điểm . Đây là một giá

trị giữa 0 và 1, quyết định phần nào của trạng thái ô sẽ được

sử dụng để tính toán đầu ra tại thời điểm hiện tại

: Trạng thái ô tại thời điểm , được cập nhật bằng cách

kết hợp thông tin cũ và thông tin mới. Công thức cập nhật

trạng thái ô là: =∗−1+∗

Trong đó, quyết định phần nào của −1sẽ được giữ lại,

và  cùng với  quyết định thông tin mới nào sẽ được thêm

vào

ℎt: Trạng thái ẩn tại thời điểm , được tính toán bằng

cách sử dụng trạng thái ô mới t và output gate :

ℎ=∗tanh()

Trong đó,  quyết định phần nào của trạng thái ô  sẽ

được dùng để tính toán đầu ra

5. GIẢI PHÁP CHO BÀI TOÁN

Mô đun nhận diện ngôn ngữ ký hiệu nhận đầu vào là

chuỗi các hình ảnh liên tục và cho ra đầu ra là nhãn ký ký

hiệu tương ứng. Để xây dựng nhóm nghiên cứu đề xuất mô

hình hình 4.

Hình 4. Sơ đồ mô hình giải pháp bài toán

Quy trình diễn ra như sau, video đầu vào được rời rạc

hóa thành các khung hình. Sau đó chúng được đi qua một

bộ đánh dấu cử chỉ để lấy ra tọa độ các đốt khớp. Tọa độ

các đốt khớp sẽ được đưa vào mô hình mạng LSTM và sau

đó cho ra kết quả.

Trong mô hình này có hai thành phần chính. Đó là bộ

nhận diện đánh dấu cử chỉ các khớp tay và mạng LSTM.

Bộ nhận diện đánh dấu cử chỉ các khớp tay có chức năng

loại bỏ những thông tin dư thừa ra khỏi ảnh đầu vào và để

giảm bớt độ phức tạp cho bài toán. Bộ nhận diện đánh dấu

cử chỉ giúp trích xuất tọa độ các khớp tay. Nhờ đó thay vì

phải làm việc với ảnh gốc, mô hình có thể làm việc với tọa

độ các khớp tay thứ mà vẫn mang thông tin về ký hiệu.

Mạng nơ ron làm việc trên chuỗi thời gian, cụ thể là

mạng LSTM sẽ được sử dụng. Mạng nhận đầu vào là một

tập các điểm dữ liệu chứa tọa độ khớp bộ phận cơ thể theo

thời gian và cho đầu ra là nhãn ký hiệu tương ứng.

Kiến trúc mạng được xây dựng theo cấu trúc tuần tự, dữ

liệu đi từ lớp này qua lớp khác. Dữ liệu đầu vào là ma trận

có kích thước (30, 1530) đại diện cho 30 vector đặc trưng

được trích ra từ mỗi frame ảnh, mỗi vector có độ dài 1530.

Dữ liệu được đưa qua 3 lớp LSTM để học các đặc trưng

tuần tự cấp thấp sau đó tiếp tục đi qua 2 lớp fully connected

để xây dựng lên đặc trưng cấp cao hơn. Lớp fully connected

cuối cùng sử dụng hàm softmax để trả ra vector xác suất,

nhãn văn bản đầu ra tương ứng là nhãn văn bản có xác suất

cao nhất.

Hình 5. Kiến trúc mạng cho bài toán

Trong nghiên cứu này, bộ dữ liệu được nhóm sử dụng

có tên là WLASL (Word-Level American Sign Language)

WLASL là một tập dữ liệu video lớn cho bài toán nhận diện

ngôn ngữ ký hiệu. Mỗi mẫu trong bộ dữ liệu là một video

thực hiện cử chỉ với nhãn từ tương ứng đi kèm. Bộ dữ liệu

chứa 2000 từ phổ biến trong ngôn ngữ ký hiệu, tuy nhiên

như đã nói nhóm không hướng tới xây dựng một mô hình

tổng quát có thể dự đoán tốt trên cả 2000 từ trên mà chỉ xây

dựng nhận diện đối với 5 loại nhãn đầu ra: “Hello”, “How

are you”, “I am fine”, “Thank you”, “I love you”. Để làm

việc được với mô hình, những video đầu vào sẽ cần phải

được biến đổi thành các vector đặc trưng, cụ thể quá trình

diễn ra như sau.

Đầu tiên video đầu vào sẽ được rời rạc hóa thành các

khung hình. Thời lượng mỗi video khác nhau nên số lượng

các khung hình đối với mỗi video khác nhau. Tuy nhiên

kích thước của vector đặc trưng vào mô hình cần cố định.

Nên để làm được điều đó mỗi video sẽ được trích ra một số

lượng khung hình nhất định và cần đảm bảo các khung hình

đó cách đều nhau, phủ khắp video. Số khung hình được

chọn ở đây là 30.

Tiếp theo sau đó các khung hình sẽ được đi qua một bộ

tách cử chỉ, bộ tách cử chỉ có nhiệm vụ phát hiện vị trí các

đốt khớp và ghi lại tọa độ tương đối của chúng so với

camera. Các thông tin mà bộ tách cử chỉ thu thập bao gồm:

- Tọa độ các khớp tay (Chứa thông tin cử chỉ tay)

- Tọa các khớp mặt (Chứa thông tin biểu cảm khuôn

mặt)

- Tọa độ dáng người (Chứa thông tin về dáng người)

Sau khi có được các thông tin trên, các thông tin về tọa

độ sẽ được làm phẳng thành 30 vector đặc trưng tương ứng

với mỗi khung hình, mỗi vector đặc trưng có số vô hướng

là 1530. Kết thúc quá trình ta được một ma trận có kích

thước (30, 1530). Một câu hỏi đặt ra là tại sao không làm

phẳng ma trận, do ở bước kế tiếp ta sử dụng mạng LSTM.

Mạng LSTM xử lý trên đầu vào là chuỗi thời gian, với đầu

vào được biểu diễn bởi các vector đặc trưng có cấu trúc

giống nhau, biểu thị giá trị thay đổi theo thời gian của đối

tượng quan sát. Do đó để dễ hình dung ta dữ nguyên định

dạng ma trận (30, 1530), ma trận này có thể hiểu là đang

biểu thị thông tin cho 30 khung hình liên tiếp trong video

cử chỉ với mỗi vector hàng là một vector đặc trưng tương

ứng với một khung hình.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 116. ĐÁNH GIÁ SAU HUẤN LUYỆN VÀ THỬ NGHIỆM

VỚI VIDEO THỜI GIAN THỰC

Độ chính xác trên tập thử nghiệm cho ra kết quả lên tới

99,3%, đây là một con số ấn tượng điều này cho thấy mô

hình thực sự đã học được quy luật trong bộ dữ liệu huấn

luyện.

Hình 6. Confusion matrix thể hiện kết quả dự đoán trên tập huấn

luyện

Bên trên là confusion matrix nhằm thống kê chi tiết việc

phân lớp, ở đây ta có thể thấy chỉ có duy nhất một mẫu trong

tập kiểm tra bị dự đoán sai. Đó là một mẫu mang nhãn

“hello” bị dự đoán nhầm thành “I love you”.

Về mặt số liệu có vẻ như mô hình đã cho một kết quả

tốt, vậy đối với đầu vào thực tế có đạt được kết quả tương

đương. Để trả lời câu hỏi này nhóm đã trích xuất bộ tham

số sau huấn luyện và cài đặt thành chương trình hoàn chỉnh,

sử dụng chúng cho việc dự đoán các cử chỉ được ghi trực

tiếp từ camera.

Mô hình vẫn cho ra kết quả phân lớp ấn tượng, song

hiếm vẫn có một số dự đoán sai lệch với cử chỉ thực tế và

đôi lúc việc thay đổi khoảng cách cũng ảnh hưởng tới kết

quả dự đoán. Điều này có thể dễ dàng được lý giải bởi hai

nguyên nhân. Thứ nhất mô hình liên tục nhận vào các frame

hình ảnh kể cả khi không có cử chỉ nào được thực hiện dẫn

đến tọa độ các đốt khớp được trích ra không mang ý nghĩa

liên quan. Thứ hai có một số cử chỉ có cách thức thực hiện

gần tương tự nhau về chuyển động như “hello” và “I love

you” đều huơ tay gần chán, vấn đề này có thể cải thiện bằng

việc đa dạng hóa bộ dữ liệu để cho mô hình có thể học được

các chi tiết khác nhau nhỏ giữa các cử chỉ.

Hình 7. Thử nghiệm với video thời gian thực

7. KẾT LUẬN

Sau thời gian nghiên cứu, nhóm tác giả đã xây dựng

thành công mô hình thông dịch ngôn ngữ ký hiệu. Tuy có

một chút khác biệt nhỏ với mục tiêu ban đầu sau khi thu hẹp

phạm vi bài toán nhưng kết quả nghiên cứu cho ra vẫn rất

ấn tượng. Dù có một chút sai sót nhỏ trong quá trình dự

đoán các nhãn đầu ra đối với dữ liệu thực tế nhưng nhìn

chung tính tin cậy của mô hình vẫn ổn định. Nghiên cứu đã

chứng minh tính hiệu quả của mạng LSTM đối với bài toán

đưa ra, từ hiểu biết này nhóm tác giả dự định sẽ mở rộng

nghiên cứu cho bài toán với số lượng cử chỉ nhiều hơn nữa.

Khi mô đun thông dịch ngôn ngữ ký hiệu được hoàn thiện

tới ngưỡng có thể sử dụng, nhóm tác giả mong muốn có thể

ứng dụng nó vào thực tiễn giúp cải thiện phần nào cuộc sống

của những người thuộc cộng đồng NSI.

TÀI LIỆU THAM KHẢO

[1]. Đỗ Minh Hải, 2017. RNN, LSTM là gì

[2]. Phạm Đình Khánh, 2019. Lý thuyết mạng LSTM

[3]. Ashok K Sahoo, Gouri Sankar Mishra and Kiran Kumar Ravulakollu 2014, Sign Language Recognition: State Of

The Art

[4]. Helen Cooper, Brian Holt and Richard Bowden, 2011. Sign Language Recognition

[5]. Kamilya Smagulova1, Alex Pappachen James, 2019. A survey on LSTM memristive neural network architectures

and applications

[6]. Nuo Chen, 2024. Exploring the development and application of LSTM variants

[7]. Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, 2021. Sign Language Recognition: A Deep Survey

[8]. Sakib Ashraf Zargar, 2021. Introduction to Sequence Learning Models: RNN, LSTM, GRU

[9]. Yong Yu, Xiaosheng Si, Changhua Hu, Jianxun Zhang, 2019. A Review of Recurrent Neural Networks: LSTM

Cells and Network Architectures.

Nghiên cứu phát triển phần mềm thông dịch ngôn ngữ ký hiệu trong thời gian thực hỗ trợ giao tiếp với người khiếm thính

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi