TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 7
NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM THÔNG DỊCH NGÔN NGỮ KÝ HIỆU
TRONG THỜI GIAN THỰC HỖ TRỢ GIAO TIẾP VỚI NGƯỜI KHIẾM THÍNH
RESEARCH AND DEVELOPMENT OF REAL-TIME SIGN LANGUAGE
INTERPRETATION SOFTWARE TO SUPPORT COMMUNICATION WITH
HEARING-IMPAIRED PEOPLE
Bùi Trường Giang1,*, Phan Văn Thức1,
Đào Trọng Hoàn2, Mai Thanh Hồng3
1Lớp KHMT 01 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
2Lớp KHMT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
*Email: buigiang479@gmail.com
TÓM TẮT
Trong những năm gần đây, công nghệ dịch máy và nhận diện giọng nói đã phát triển mạnh mẽ, giúp xây dựng công cụ
dịch thuật thời gian thực xóa bỏ rào cản ngôn ngữ giữa các nền văn hóa. Tuy nhiên, cộng đồng không sdụng tiếng
nói(Non-Speaking Individual) chưa được hưởng lợi từ sự tiến bộ này. Họ chỉ có thể giao tiếp với người bình thường thông
qua ngôn ngữ ký hiệu hoặc văn bản, trong khi văn bản thì chậm chạp ngôn ngữ hiệu thì phức tạp và đòi hỏi thời gian
để học. Để giải quyết vấn đề này, chúng tôi quyết định nghiên cứu xây dựng một trình thông dịch ngôn ngữ ký hiệu thời
gian thực nhận đầu vào là một video cử chỉ thời gian thực và xuất đầu ra là một nhãn ký hiệu tương ứng. Trình thông dịch
này sẽ giúp người bình thường hiểu được ngôn ngữ ký hiệu qua việc chuyển đổi chúng thành văn bản hoặc tiếng nói, từ
đó đơn giản hóa việc giao tiếp và giảm bớt rào cản ngôn ngữ giữa người bình thường và người thuộc nhóm NSI.
Từ khóa: Nhận diện ngôn ngữ ký hiệu, Trình thông dịch ngôn ngữ ký hiệu thời gian thực.
ABSTRACT
In recent years, machine translation and voice recognition technology has developed strongly, helping to build real-
time translation tools and eliminate language barriers between cultures. However, the Non-Speaking Individual community
has not benefited from this progress. They can only communicate through sign language or text, while text is slow and
sign language is complex and requires time to learn. To solve this problem, we decided to build a real-time sign language
interpreter. This interpreter will help ordinary people understand sign languages by converting them into text or speech,
thereby simplifying communication and reducing language barriers.
Keywords: Sign Language Recognition, Real-time Sign Language Interpreter.
1. GIỚI THIỆU
Hai bài toán dịch máy nhận diện giọng nói đã
nhiều lời giải tốt mang tính tin cậy cao. Nhờ đó, chúng
ta có thể module hóa chúng và xây dựng một công cụ dịch
thuật thời gian thực. Điều này phần nào giúp xóa bỏ rào cản
ngôn ngữ trong giao tiếp giữa các nền văn hóa.
Song tuy nhiên đâu đó vẫn còn những nhân chưa
được hưởng lợi ích của sự tiến bộ này. Đó chính những
người thuộc cộng đồng không sử dụng tiếng nói (NSI).
Trong khi một người bình thường có thể giao tiếp qua văn
bản tiếng nói thì một người thuộc nhóm NSI chỉ thể
giao tiếp qua ngôn ngữ ký hiệu hoặc văn bản. Bởi vậy khi
một người bình thường muốn giao tiếp với một người thuộc
nhóm NSI, họ buộc phải sử dụng n bản hoặc ngôn ngữ
hiệu. Nhưng văn bản thì là một công cụ quá chậm chạp để
trao đổi thông tin, còn ngôn ngữhiệu thì phức tạp và cần
thời gian để thành thạo. Câu hỏi đặt ra liệu chúng ta
thể áp dụng hình thông dịch ngôn ngữ trên đối với ngôn
ngữ ký hiệu được hay không? Câu trả lời là có, nhưng vẫn
còn thiếu một thứ.
Đó một trình thông dịch từ ngôn ngữ ký hiệu sang văn
bản giúp người bình thường có thể hiểu được ngôn ng
hiệu. Từ đó đơn giản hóa việc giao tiếp và làm mờ đi được
rào cản ngôn ngữ giữa người bình thường và những người
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 8thuộc nhóm NSI. Vậy nên nhóm tác giả tiến hành nghiên
cứu xây dựng trình thông dịch ngôn ngữ ký hiệu thời gian
thực hỗ trợ giao tiếp với người khiếm thính nhằm lấp đầy
khoảng trống trên.
Hình 1. Cuộc trò chuyện giữa hai người nói khác ngôn ngữ được
hỗ trợ bởi dịch máy và hệ thống nhận diện giọng nói
Hình 2. Cuộc trò chuyện giữa người thuộc nhóm NSI người
bình thường khi chưa có trình thông dịch ngôn ngữ ký hiệu
Hình 3. Cuộc trò chuyện giữa người thuộc nhóm NSI người
bình thường khi có sự hỗ trợ của trình thông dịch ngôn ngữ hiệu
2. CÁC PHƯƠNG PHÁP TRƯỚC ĐÂY
Đây không phải bài toán mới mà đã được giải nhiều lần
trước đây,sự khác biệt nhất định giữa các lời giải nhưng
nhìn chung chúng đều gồm hai pha đó thu thập dữ liệu cử
chỉ và pha nhận dạng dựa trên dữ liệu thu thập được.
2.1. Các phương pháp thu thập dữ liệu cử chỉ
pha đầu tiên trong một module nhận diện ngôn ngữ
hiệu, thu thập dữ liệu cần phải đảm bảo thông tin thu
được phải chứa đầy đủ các tả liên quan đến hiệu. Một
số phương pháp phổ biến thể kể đến được liệt dưới
đây.
- Điện cơ đồ
Điện cơ đồ một hệ thống tương tác trực tiếp giữa người
và máy tính thông qua các tín hiệu của cơ thể hay suy nghĩ.
Phương pháp này đã trở thành một phần quan trọng trong
các nghiên cứu về phát hiện chuyển động của thể con
người. Hệ thống giúp cho máy tính hiểu được các cử động
của thể con người. Từ đó xây dựng những cách thức mới
để con người có thể tương tác với máy tính, ví dụ như điều
khiển robot, trò chơi ảo, điều khiển chi giả dành cho người
khuyết tật. Máy tính sẽ thu nhận được các tín hiệu sinh học
nhờ các điện cực gắn trực tiếp bên trong cơ thể phân loại,
sau khi tổng hợp thông tin dữ liệu và thống kê máy tính sẽ
quyết định cử chỉ gì đang được thực hiện.
- Găng tay dữ liệu
Găng tay dữ liệu găng tay đặc biệt dùng để theo dõi
sự thay đổi hình dạng và chuyển động của tay. Thiết bị này
có các cảm biến được bố trí trên tất cả các ngón tay và bàn
tay để phát hiện sdi chuyển uốn cong của các ngón tay.
Thông tin về tọa độ, theo thời gian của các vị trí trên ngón
tay sẽ được đưa vào hệ thống máy tính từ đó quyết định cử
chỉ gì đang được thực hiện dựa trên thống kê.
- Máy ảnh
Đây phương pháp thu thập dữ liệu dựa trên thị giác
máy tính được sử dụng phổ biến trong nhận dạng ngôn
ngữ ký hiệu. Trong phương pháp này, cử chỉ ký hiệu được
thu thập bằng máy ảnh cố định đặt trước người thực hiện
thao tác. Những hình ảnh về hình dạng bàn tay, vị trí các
ngón tay, lòng bàn tay so với cơ thđều thể được ghi lại.
Phương pháp này có ưu điểm về chi phí cũng như khảng
trích xuất được nhiều thông tin hơn. Song đi kèm với lợi ích
đó cũng có không ít những bất cập và thách thức. Trong số
đó có thể kể đến như nhiễu hình ảnh, độ phân giải ảnh thấp,
thiếu ánh sáng...
2.2. Các phương pháp nhận dạng cử chỉ dựa trên dữ liệu
thu thập được
Sau khi các dữ liệu được thu thập, cần có một hình
thống để ánh xạ từ mẫu dữ liệu ra nhãn hiệu tương
ứng. Một số mô hình phổ biến được liệt kê ở dưới đây.
2.2.1. Học máy cổ điển
một lĩnh vực con của trí tuệ nhân tạo. Học máy liên
quan đến việc nghiên cứu làm sao cho máy tính thể tự
xử dữ liệu mới không cần đến can thiệp của con
người. Dù có tính đơn giản cao chưa đủ tốt để mô tả những
bộ dữ liệu mang thông tin phức tạp nhưng nhiều hình
học máy cổ điển vẫn được áp dụng trong bài toán nhận dạng
ngôn ngữ hiệu. Trong số đó thể kể đến như SVM,
KNN...
- Mạng nơ ron nhân tạo
Được lấy cảm hứng từ mạng ron trong tự nhiên, mạng
ron tự nhiên một mô hình bao gồm các nút được kết
nối với nhau. Thông tin được truyền đi từ nút này qua nút
khác dưới hình thức xung điện. Nếu xung điện vào của một
nút vượt một ngưỡng cụ thể, nó sẽ tiếp tục phóng xung điện
và lan tỏa tới các nút được kết nối khác. Biểu diễn toán học
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 9của của mạng nơ ron nhân tạo cũng có cơ chế tương tự khi
đầu vào của một nút là các giá trị x được nhân hướng với
tham số của mạng. Kết quả sẽ được đưa qua một hàm kích
hoạt để quyết định tín hiệu được truyền đến nút tiếp theo.
- Mô hình Markov ẩn
hình Markov ẩn hình thống trong đó hệ
thống được mô hình hóa được cho là một quá trình Markov
với các tham số không biết trước nhiệm vụ xác định
các tham số ẩn từ các tham số quan được.
- So khớp thời gian động
Thuật toán so khớp thời gian động được giới thiệu lần
đầu vào những năm 1960. Thuật toán hoạt động bằng cách
so sánh hai mẫu dữ liệu chuỗi thời gian không hoàn toàn
khớp nhau đưa ra quyết định chúng phải cùng một
nhãn hay không.
3. BÀI TOÁN DỰ ĐOÁN CHUỖI THỜI GIAN
Chuỗi thời gian là một tập hợp các điểm dữ liệu có cấu
trúc tương tự nhau và được sắp xếp theo một thứ tự cụ thể.
Đó có thể là chuỗi các từ hình thành lên một câu trong văn
bản tiếng Việt, chuỗi các khung hình trong video… Đặc
điểm chung của cấu trúc dữ liệu này xác định thứ tự
các điểm dữ liệu mối liên hệ với nhau theo thứ tự của
chúng.
Dự báo chuỗi thời gian cũng là một bài toán quan trọng
của học máy và có thể được coi là một phương pháp học
giám sát. Đã nhiều giải pháp tiếp cận vấn đề này, nhìn
chung các giải pháp đều hướng đến việc làm sao cho
hình hiểu được về mối liên hệ giữa các điểm dữ liệu.
Dễ dàng nhận thấy bài toán nhóm đang giải quyết
trong đề tài cũng một bài toán dự đoán dựa trên chuỗi
thời gian. Thật vậy, dữ liệu đầu vào của bài toán là một tập
hợp các khung hình cấu trúc tương tự theo thời gian và
đầu ra một nhãn cho biết hiệu tương ứng. Để giải quyết
bài toán này ta cũng xem xét một số hướng tiếp cận sau.
4. MẠNG LSTM
Bài toán dự đoán chuỗi thời gian có thể được giải quyết
bởi mạng LSTM, mạng LSTM cho phép ghi nhớ thông tin
quan trọng từ các điểm dữ liệu trong chuỗi thời gian đồng
thời mạng cũng khắc phục được vấn đề gradient vanishing
giúp hình học được các thông tin quan trọng nhưng
xa. Mạng LSTM được cấu tạo từ những thành phần chính
dưới đây:
Cell State: Lớp lưu trữ chính, duy trì thông tin qua thời
gian
Hidden State: Đầu ra tại mỗi thời điểm, ảnh hưởng đến
cả đầu ra cuối cùng và các tính toán bên trong LSTM
Forget Gate: Quyết định thông tin nào từ trạng thái ô
(cell state) trước đó sẽ bị quên
Input Gate: Quyết định thông tin mới nào sẽ được lưu
trữ trong trạng thái ô
Output Gate: Quyết định phần nào của trạng thái ô sẽ
được sử dụng để tính toán đầu ra tại thời điểm hiện tại.
chế hoạt động của các cổng được biểu diễn ới toán
học như sau:
Forget Gate
=(⋅[−1,]+)
Input Gate
=([ℎ−1,]+)
Trạng thái mới của Cell State
=tanh([ℎ−1,]+)
Output Gate
=([−1,]+)
Các ký hiệu được giải thích như sau
xt : Đu vào tại thời điểm . Đây một vector chứa
thông tin tại thời điểm hiện tại
−1: Trạng thái ẩn (hidden state) từ thời điểm trước đó
(t-1). Trạng thái này mang thông tin từ các bước trước đó
và được cập nhật tại mỗi bước thời gian
−1: Trạng thái ô (cell state) từ thời điểm trước đó (t-1).
Trạng thái ô này giữ thông tin lâu dài và được cập nhật tại
mỗi bước thời gian
,,,: Ma trận trọng số tương ứng với các cổng
forget gate (), input gate (), cell candidate (), và output
gate (). Các ma trận này được học trong quá trình huấn
luyện mạng LSTM
,,: Vector bias (độ lệch) tương ứng với các cổng
forget gate (), input gate (), cell candidate (), và output
gate (). Các vector này cũng được học trong quá trình huấn
luyện mạng LSTM
: Hàm sigmoid, thường được dùng để chuẩn hóa đầu
ra của một cổng về khoảng giá trị từ 0 đến 1. Hàm sigmoid
được định nghĩa như sau:
()=

tanh: Hàm tang hyperbol (hyperbolic tangent function),
được dùng để chuẩn hóa đầu ra của cell candidate về khoảng
giá trị từ -1 đến 1. Hàm tang hyperbol được định nghĩa như
sau:
tanh() = 

: Đầu ra của forget gate tại thời điểm , đây là một giá
trị giữa 0 và 1, quyết định thông tin nào ttrạng thái ô trước
đó sẽ bị quên
: Đầu ra của input gate tại thời điểm . Đây là một giá
trị giữa 0 và 1, quyết định thông tin mới nào sẽ được lưu trữ
trong trạng thái ô
: Trạng thái ô tạm thời (cell candidate) tại thời điểm .
Đây là một trạng thái mới có thể được thêm vào trạng thái
ô hiện tại
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 10: Đu ra của output gate tại thời điểm . Đây là một giá
trị giữa 0 1, quyết định phần nào của trạng thái ô sẽ được
sử dụng để tính toán đầu ra tại thời điểm hiện tại
: Trạng thái ô tại thời điểm , được cập nhật bằng cách
kết hợp thông tin cũ thông tin mới. Công thức cập nhật
trạng thái ô là: =∗−1+∗
Trong đó, quyết định phần nào của −1sẽ được giữ lại,
cùng với quyết định thông tin mới nào sẽ được thêm
vào
t: Trạng thái ẩn tại thời điểm , được tính toán bằng
cách sử dụng trạng thái ô mới t output gate :
=tanh()
Trong đó, quyết định phần nào của trạng thái ô sẽ
được dùng để tính toán đầu ra
5. GIẢI PHÁP CHO BÀI TOÁN
đun nhận diện ngôn ngữ hiệu nhận đầu vào
chuỗi các hình ảnh liên tục và cho ra đầu ra nhãn
hiệu tương ứng. Để xây dựng nhóm nghiên cứu đề xuất mô
hình hình 4.
Hình 4. Sơ đồ mô hình giải pháp bài toán
Quy trình diễn ra như sau, video đầu vào được rời rạc
hóa thành các khung hình. Sau đó chúng được đi qua một
bộ đánh dấu cử chỉ để lấy ra tọa độ các đốt khớp. Tọa độ
các đốt khớp sẽ được đưa vào mô hình mạng LSTM và sau
đó cho ra kết quả.
Trong hình này hai thành phần chính. Đó bộ
nhận diện đánh dấu cử chỉ các khớp tay và mạng LSTM.
Bộ nhận diện đánh dấu cử chỉ các khớp tay chức năng
loại bỏ những thông tin dư thừa ra khỏi ảnh đầu vào và để
giảm bớt độ phức tạp cho i toán. Bộ nhận diện đánh dấu
cử chỉ giúp trích xuất tọa độ các khớp tay. Nhờ đó thay vì
phải làm việc với ảnh gốc, mô hình có thể làm việc với tọa
độ các khớp tay thứ mà vẫn mang thông tin về ký hiệu.
Mạng ron làm việc trên chuỗi thời gian, cụ thể
mạng LSTM sẽ được sử dụng. Mạng nhận đầu vào một
tập các điểm dữ liệu chứa tọa độ khớp bộ phận cơ thể theo
thời gian và cho đầu ra là nhãn ký hiệu tương ứng.
Kiến trúc mạng được xây dựng theo cấu trúc tuần tự, dữ
liệu đi từ lớp này qua lớp khác. Dữ liệu đầu vào là ma trận
kích thước (30, 1530) đại diện cho 30 vector đặc trưng
được trích ra từ mỗi frame ảnh, mỗi vector có độ dài 1530.
Dữ liệu được đưa qua 3 lớp LSTM để học các đặc trưng
tuần tự cấp thấp sau đó tiếp tục đi qua 2 lớp fully connected
để xây dựng lên đặc trưng cấp cao hơn. Lớp fully connected
cuối cùng sử dụng hàm softmax để trả ra vector xác suất,
nhãn văn bản đầu ra tương ứng là nhãn văn bản có xác suất
cao nhất.
Hình 5. Kiến trúc mạng cho bài toán
Trong nghiên cứu này, bộ dữ liệu được nhóm sử dụng
tên là WLASL (Word-Level American Sign Language)
WLASL một tập dữ liệu video lớn cho bài toán nhận diện
ngôn ngữ hiệu. Mỗi mẫu trong bộ dữ liệu một video
thực hiện cử chỉ với nhãn từ tương ứng đi kèm. Bộ dữ liệu
chứa 2000 từ phổ biến trong ngôn ngữ hiệu, tuy nhiên
như đã nói nhóm không hướng tới xây dựng một hình
tổng quát có thể dự đoán tốt trên cả 2000 ttrên chỉ xây
dựng nhận diện đối với 5 loại nhãn đầu ra: “Hello”, “How
are you”, “I am fine”, “Thank you”, “I love you”. Để làm
việc được với hình, những video đầu vào sẽ cần phải
được biến đổi thành các vector đặc trưng, cụ thể quá trình
diễn ra như sau.
Đầu tiên video đầu vào sẽ được rời rạc hóa thành các
khung hình. Thời lượng mỗi video khác nhau nên số lượng
các khung hình đối với mỗi video khác nhau. Tuy nhiên
kích thước của vector đặc trưng vào hình cần cố định.
Nên để làm được điều đó mỗi video sẽ được trích ra một s
lượng khung hình nhất định cần đảm bảo các khung hình
đó cách đều nhau, phủ khắp video. Số khung hình được
chọn ở đây là 30.
Tiếp theo sau đó các khung hình sẽ được đi qua một bộ
tách cử chỉ, btách cử chỉ có nhiệm vụ phát hiện vị trí các
đốt khớp ghi lại tọa độ tương đối của chúng so với
camera. Các thông tin mà bộ tách cử chỉ thu thập bao gồm:
- Tọa độ các khớp tay (Chứa thông tin cử chỉ tay)
- Tọa các khớp mặt (Chứa thông tin biểu cảm khuôn
mặt)
- Tọa độ dáng người (Chứa thông tin về dáng người)
Sau khi có được các thông tin trên, các thông tin vtọa
độ sẽ được làm phẳng thành 30 vector đặc trưng tương ứng
với mỗi khung hình, mỗi vector đặc trưng số hướng
1530. Kết thúc quá trình ta được một ma trận kích
thước (30, 1530). Một câu hỏi đặt ra tại sao không làm
phẳng ma trận, do ở bước kế tiếp ta sử dụng mạng LSTM.
Mạng LSTM xử lý trên đầu vào là chuỗi thời gian, với đầu
vào được biểu diễn bởi các vector đặc trưng cấu trúc
giống nhau, biểu thị giá trị thay đổi theo thời gian của đối
tượng quan sát. Do đó để dễ hình dung ta dữ nguyên định
dạng ma trận (30, 1530), ma trận này thể hiểu đang
biểu thị thông tin cho 30 khung hình liên tiếp trong video
cử chỉ với mỗi vector hàng một vector đặc trưng tương
ứng với một khung hình.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 2024 116. ĐÁNH GIÁ SAU HUẤN LUYỆN THỬ NGHIỆM
VỚI VIDEO THỜI GIAN THỰC
Độ chính xác trên tập thử nghiệm cho ra kết quả lên tới
99,3%, đây một con số ấn tượng điều này cho thấy
hình thực sự đã học được quy luật trong bộ dữ liệu huấn
luyện.
Hình 6. Confusion matrix thể hiện kết quả dự đoán trên tập huấn
luyện
Bên trên confusion matrix nhằm thống chi tiết việc
phân lớp, đây ta thể thấy chỉ duy nhất một mẫu trong
tập kiểm tra bị dự đoán sai. Đó một mẫu mang nhãn
“hello” bị dự đoán nhầm thành “I love you”.
Về mặt số liệu vẻ như hình đã cho một kết quả
tốt, vậy đối với đầu vào thực tế có đạt được kết quả tương
đương. Để trả lời câu hỏi này nhóm đã trích xuất bộ tham
số sau huấn luyện cài đặt thành chương trình hoàn chỉnh,
sử dụng chúng cho việc dự đoán các cử chỉ được ghi trực
tiếp từ camera.
hình vẫn cho ra kết quả phân lớp ấn tượng, song
hiếm vẫn một số dự đoán sai lệch với cử chỉ thực tế và
đôi lúc việc thay đổi khoảng cách cũng ảnh hưởng tới kết
quả dự đoán. Điều này có thể dễ ng được lý giải bởi hai
nguyên nhân. Thứ nhất hình liên tục nhận vào các frame
hình ảnh kể cả khi không có cử chỉ nào được thực hiện dẫn
đến tọa độ các đốt khớp được trích ra không mang ý nghĩa
liên quan. Thứ hai có một số cử chỉ có cách thức thực hiện
gần tương tự nhau về chuyển động như “hello” “I love
you” đều huơ tay gần chán, vấn đề này thể cải thiện bằng
việc đa dạng hóa bộ dữ liệu để cho mô hình thhọc được
các chi tiết khác nhau nhỏ giữa các cử chỉ.
Hình 7. Thử nghiệm với video thời gian thực
7. KẾT LUẬN
Sau thời gian nghiên cứu, nhóm tác giả đã xây dựng
thành công hình thông dịch ngôn ngữ hiệu. Tuy
một chút khác biệt nhỏ với mục tiêu ban đầu sau khi thu hẹp
phạm vi bài toán nhưng kết quả nghiên cứu cho ra vẫn rất
ấn tượng. một chút sai sót nhỏ trong quá trình dự
đoán các nhãn đầu ra đối với dữ liệu thực tế nhưng nhìn
chung tính tin cậy của mô hình vẫn ổn định. Nghiên cứu đã
chứng minh tính hiệu quả của mạng LSTM đối với bài toán
đưa ra, từ hiểu biết này nhóm tác giả dự định sẽ mở rộng
nghiên cứu cho bài toán với số lượng cử chỉ nhiều hơn nữa.
Khi mô đun thông dịch ngôn ngữ ký hiệu được hoàn thiện
tới ngưỡng thể sử dụng, nhóm tác giả mong muốn thể
ứng dụng vào thực tiễn giúp cải thiện phần nào cuộc sống
của những người thuộc cộng đồng NSI.
TÀI LIỆU THAM KHẢO
[1]. Đỗ Minh Hải, 2017. RNN, LSTM là gì
[2]. Phạm Đình Khánh, 2019. Lý thuyết mạng LSTM
[3]. Ashok K Sahoo, Gouri Sankar Mishra and Kiran Kumar Ravulakollu 2014, Sign Language Recognition: State Of
The Art
[4]. Helen Cooper, Brian Holt and Richard Bowden, 2011. Sign Language Recognition
[5]. Kamilya Smagulova1, Alex Pappachen James, 2019. A survey on LSTM memristive neural network architectures
and applications
[6]. Nuo Chen, 2024. Exploring the development and application of LSTM variants
[7]. Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, 2021. Sign Language Recognition: A Deep Survey
[8]. Sakib Ashraf Zargar, 2021. Introduction to Sequence Learning Models: RNN, LSTM, GRU
[9]. Yong Yu, Xiaosheng Si, Changhua Hu, Jianxun Zhang, 2019. A Review of Recurrent Neural Networks: LSTM
Cells and Network Architectures.