
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 7
NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM THÔNG DỊCH NGÔN NGỮ KÝ HIỆU
TRONG THỜI GIAN THỰC HỖ TRỢ GIAO TIẾP VỚI NGƯỜI KHIẾM THÍNH
RESEARCH AND DEVELOPMENT OF REAL-TIME SIGN LANGUAGE
INTERPRETATION SOFTWARE TO SUPPORT COMMUNICATION WITH
HEARING-IMPAIRED PEOPLE
Bùi Trường Giang1,*, Phan Văn Thức1,
Đào Trọng Hoàn2, Mai Thanh Hồng3
1Lớp KHMT 01 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
2Lớp KHMT 02 - K16, Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
3Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội
*Email: buigiang479@gmail.com
TÓM TẮT
Trong những năm gần đây, công nghệ dịch máy và nhận diện giọng nói đã phát triển mạnh mẽ, giúp xây dựng công cụ
dịch thuật thời gian thực và xóa bỏ rào cản ngôn ngữ giữa các nền văn hóa. Tuy nhiên, cộng đồng không sử dụng tiếng
nói(Non-Speaking Individual) chưa được hưởng lợi từ sự tiến bộ này. Họ chỉ có thể giao tiếp với người bình thường thông
qua ngôn ngữ ký hiệu hoặc văn bản, trong khi văn bản thì chậm chạp và ngôn ngữ ký hiệu thì phức tạp và đòi hỏi thời gian
để học. Để giải quyết vấn đề này, chúng tôi quyết định nghiên cứu xây dựng một trình thông dịch ngôn ngữ ký hiệu thời
gian thực nhận đầu vào là một video cử chỉ thời gian thực và xuất đầu ra là một nhãn ký hiệu tương ứng. Trình thông dịch
này sẽ giúp người bình thường hiểu được ngôn ngữ ký hiệu qua việc chuyển đổi chúng thành văn bản hoặc tiếng nói, từ
đó đơn giản hóa việc giao tiếp và giảm bớt rào cản ngôn ngữ giữa người bình thường và người thuộc nhóm NSI.
Từ khóa: Nhận diện ngôn ngữ ký hiệu, Trình thông dịch ngôn ngữ ký hiệu thời gian thực.
ABSTRACT
In recent years, machine translation and voice recognition technology has developed strongly, helping to build real-
time translation tools and eliminate language barriers between cultures. However, the Non-Speaking Individual community
has not benefited from this progress. They can only communicate through sign language or text, while text is slow and
sign language is complex and requires time to learn. To solve this problem, we decided to build a real-time sign language
interpreter. This interpreter will help ordinary people understand sign languages by converting them into text or speech,
thereby simplifying communication and reducing language barriers.
Keywords: Sign Language Recognition, Real-time Sign Language Interpreter.
1. GIỚI THIỆU
Hai bài toán dịch máy và nhận diện giọng nói đã có
nhiều lời giải tốt và mang tính tin cậy cao. Nhờ đó, chúng
ta có thể module hóa chúng và xây dựng một công cụ dịch
thuật thời gian thực. Điều này phần nào giúp xóa bỏ rào cản
ngôn ngữ trong giao tiếp giữa các nền văn hóa.
Song tuy nhiên ở đâu đó vẫn còn những cá nhân chưa
được hưởng lợi ích của sự tiến bộ này. Đó chính là những
người thuộc cộng đồng không sử dụng tiếng nói (NSI).
Trong khi một người bình thường có thể giao tiếp qua văn
bản và tiếng nói thì một người thuộc nhóm NSI chỉ có thể
giao tiếp qua ngôn ngữ ký hiệu hoặc văn bản. Bởi vậy khi
một người bình thường muốn giao tiếp với một người thuộc
nhóm NSI, họ buộc phải sử dụng văn bản hoặc ngôn ngữ ký
hiệu. Nhưng văn bản thì là một công cụ quá chậm chạp để
trao đổi thông tin, còn ngôn ngữ ký hiệu thì phức tạp và cần
thời gian để thành thạo. Câu hỏi đặt ra là liệu chúng ta có
thể áp dụng mô hình thông dịch ngôn ngữ trên đối với ngôn
ngữ ký hiệu được hay không? Câu trả lời là có, nhưng vẫn
còn thiếu một thứ.
Đó là một trình thông dịch từ ngôn ngữ ký hiệu sang văn
bản giúp người bình thường có thể hiểu được ngôn ngữ ký
hiệu. Từ đó đơn giản hóa việc giao tiếp và làm mờ đi được
rào cản ngôn ngữ giữa người bình thường và những người

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 8thuộc nhóm NSI. Vậy nên nhóm tác giả tiến hành nghiên
cứu xây dựng trình thông dịch ngôn ngữ ký hiệu thời gian
thực hỗ trợ giao tiếp với người khiếm thính nhằm lấp đầy
khoảng trống trên.
Hình 1. Cuộc trò chuyện giữa hai người nói khác ngôn ngữ được
hỗ trợ bởi dịch máy và hệ thống nhận diện giọng nói
Hình 2. Cuộc trò chuyện giữa người thuộc nhóm NSI và người
bình thường khi chưa có trình thông dịch ngôn ngữ ký hiệu
Hình 3. Cuộc trò chuyện giữa người thuộc nhóm NSI và người
bình thường khi có sự hỗ trợ của trình thông dịch ngôn ngữ ký hiệu
2. CÁC PHƯƠNG PHÁP TRƯỚC ĐÂY
Đây không phải bài toán mới mà đã được giải nhiều lần
trước đây, có sự khác biệt nhất định giữa các lời giải nhưng
nhìn chung chúng đều gồm hai pha đó là thu thập dữ liệu cử
chỉ và pha nhận dạng dựa trên dữ liệu thu thập được.
2.1. Các phương pháp thu thập dữ liệu cử chỉ
Là pha đầu tiên trong một module nhận diện ngôn ngữ
ký hiệu, thu thập dữ liệu cần phải đảm bảo thông tin thu
được phải chứa đầy đủ các mô tả liên quan đến ký hiệu. Một
số phương pháp phổ biến có thể kể đến được liệt kê dưới
đây.
- Điện cơ đồ
Điện cơ đồ một hệ thống tương tác trực tiếp giữa người
và máy tính thông qua các tín hiệu của cơ thể hay suy nghĩ.
Phương pháp này đã trở thành một phần quan trọng trong
các nghiên cứu về phát hiện chuyển động của cơ thể con
người. Hệ thống giúp cho máy tính hiểu được các cử động
của cơ thể con người. Từ đó xây dựng những cách thức mới
để con người có thể tương tác với máy tính, ví dụ như điều
khiển robot, trò chơi ảo, điều khiển chi giả dành cho người
khuyết tật. Máy tính sẽ thu nhận được các tín hiệu sinh học
nhờ các điện cực gắn trực tiếp bên trong cơ thể và phân loại,
sau khi tổng hợp thông tin dữ liệu và thống kê máy tính sẽ
quyết định cử chỉ gì đang được thực hiện.
- Găng tay dữ liệu
Găng tay dữ liệu là găng tay đặc biệt dùng để theo dõi
sự thay đổi hình dạng và chuyển động của tay. Thiết bị này
có các cảm biến được bố trí trên tất cả các ngón tay và bàn
tay để phát hiện sự di chuyển và uốn cong của các ngón tay.
Thông tin về tọa độ, theo thời gian của các vị trí trên ngón
tay sẽ được đưa vào hệ thống máy tính từ đó quyết định cử
chỉ gì đang được thực hiện dựa trên thống kê.
- Máy ảnh
Đây là phương pháp thu thập dữ liệu dựa trên thị giác
máy tính và được sử dụng phổ biến trong nhận dạng ngôn
ngữ ký hiệu. Trong phương pháp này, cử chỉ ký hiệu được
thu thập bằng máy ảnh cố định đặt trước người thực hiện
thao tác. Những hình ảnh về hình dạng bàn tay, vị trí các
ngón tay, lòng bàn tay so với cơ thể đều có thể được ghi lại.
Phương pháp này có ưu điểm về chi phí cũng như khả năng
trích xuất được nhiều thông tin hơn. Song đi kèm với lợi ích
đó cũng có không ít những bất cập và thách thức. Trong số
đó có thể kể đến như nhiễu hình ảnh, độ phân giải ảnh thấp,
thiếu ánh sáng...
2.2. Các phương pháp nhận dạng cử chỉ dựa trên dữ liệu
thu thập được
Sau khi các dữ liệu được thu thập, cần có một mô hình
thống kê để ánh xạ từ mẫu dữ liệu ra nhãn ký hiệu tương
ứng. Một số mô hình phổ biến được liệt kê ở dưới đây.
2.2.1. Học máy cổ điển
Là một lĩnh vực con của trí tuệ nhân tạo. Học máy liên
quan đến việc nghiên cứu làm sao cho máy tính có thể tự
xử lý dữ liệu mới mà không cần đến can thiệp của con
người. Dù có tính đơn giản cao chưa đủ tốt để mô tả những
bộ dữ liệu mang thông tin phức tạp nhưng nhiều mô hình
học máy cổ điển vẫn được áp dụng trong bài toán nhận dạng
ngôn ngữ ký hiệu. Trong số đó có thể kể đến như SVM,
KNN...
- Mạng nơ ron nhân tạo
Được lấy cảm hứng từ mạng nơ ron trong tự nhiên, mạng
nơ ron tự nhiên là một mô hình bao gồm các nút được kết
nối với nhau. Thông tin được truyền đi từ nút này qua nút
khác dưới hình thức xung điện. Nếu xung điện vào của một
nút vượt một ngưỡng cụ thể, nó sẽ tiếp tục phóng xung điện
và lan tỏa tới các nút được kết nối khác. Biểu diễn toán học

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 9của của mạng nơ ron nhân tạo cũng có cơ chế tương tự khi
đầu vào của một nút là các giá trị x được nhân vô hướng với
tham số của mạng. Kết quả sẽ được đưa qua một hàm kích
hoạt để quyết định tín hiệu được truyền đến nút tiếp theo.
- Mô hình Markov ẩn
Mô hình Markov ẩn là mô hình thống kê trong đó hệ
thống được mô hình hóa được cho là một quá trình Markov
với các tham số không biết trước và nhiệm vụ là xác định
các tham số ẩn từ các tham số quan được.
- So khớp thời gian động
Thuật toán so khớp thời gian động được giới thiệu lần
đầu vào những năm 1960. Thuật toán hoạt động bằng cách
so sánh hai mẫu dữ liệu chuỗi thời gian không hoàn toàn
khớp nhau và đưa ra quyết định chúng có phải cùng một
nhãn hay không.
3. BÀI TOÁN DỰ ĐOÁN CHUỖI THỜI GIAN
Chuỗi thời gian là một tập hợp các điểm dữ liệu có cấu
trúc tương tự nhau và được sắp xếp theo một thứ tự cụ thể.
Đó có thể là chuỗi các từ hình thành lên một câu trong văn
bản tiếng Việt, chuỗi các khung hình trong video… Đặc
điểm chung của cấu trúc dữ liệu này là xác định thứ tự và
các điểm dữ liệu có mối liên hệ với nhau theo thứ tự của
chúng.
Dự báo chuỗi thời gian cũng là một bài toán quan trọng
của học máy và có thể được coi là một phương pháp học có
giám sát. Đã có nhiều giải pháp tiếp cận vấn đề này, nhìn
chung các giải pháp đều hướng đến việc làm sao cho mô
hình hiểu được về mối liên hệ giữa các điểm dữ liệu.
Dễ dàng nhận thấy bài toán mà nhóm đang giải quyết
trong đề tài cũng là một bài toán dự đoán dựa trên chuỗi
thời gian. Thật vậy, dữ liệu đầu vào của bài toán là một tập
hợp các khung hình có cấu trúc tương tự theo thời gian và
đầu ra là một nhãn cho biết ký hiệu tương ứng. Để giải quyết
bài toán này ta cũng xem xét một số hướng tiếp cận sau.
4. MẠNG LSTM
Bài toán dự đoán chuỗi thời gian có thể được giải quyết
bởi mạng LSTM, mạng LSTM cho phép ghi nhớ thông tin
quan trọng từ các điểm dữ liệu trong chuỗi thời gian đồng
thời mạng cũng khắc phục được vấn đề gradient vanishing
giúp mô hình học được các thông tin quan trọng nhưng ở
xa. Mạng LSTM được cấu tạo từ những thành phần chính
dưới đây:
Cell State: Lớp lưu trữ chính, duy trì thông tin qua thời
gian
Hidden State: Đầu ra tại mỗi thời điểm, ảnh hưởng đến
cả đầu ra cuối cùng và các tính toán bên trong LSTM
Forget Gate: Quyết định thông tin nào từ trạng thái ô
(cell state) trước đó sẽ bị quên
Input Gate: Quyết định thông tin mới nào sẽ được lưu
trữ trong trạng thái ô
Output Gate: Quyết định phần nào của trạng thái ô sẽ
được sử dụng để tính toán đầu ra tại thời điểm hiện tại.
Cơ chế hoạt động của các cổng được biểu diễn dưới toán
học như sau:
Forget Gate
=(⋅[ℎ−1,]+)
Input Gate
=(⋅[ℎ−1,]+)
Trạng thái mới của Cell State
=tanh(⋅[ℎ−1,]+)
Output Gate
=(⋅[ℎ−1,]+)
Các ký hiệu được giải thích như sau
xt : Đầu vào tại thời điểm . Đây là một vector chứa
thông tin tại thời điểm hiện tại
ℎ−1: Trạng thái ẩn (hidden state) từ thời điểm trước đó
(t-1). Trạng thái này mang thông tin từ các bước trước đó
và được cập nhật tại mỗi bước thời gian
−1: Trạng thái ô (cell state) từ thời điểm trước đó (t-1).
Trạng thái ô này giữ thông tin lâu dài và được cập nhật tại
mỗi bước thời gian
,,,: Ma trận trọng số tương ứng với các cổng
forget gate (), input gate (), cell candidate (), và output
gate (). Các ma trận này được học trong quá trình huấn
luyện mạng LSTM
,,: Vector bias (độ lệch) tương ứng với các cổng
forget gate (), input gate (), cell candidate (), và output
gate (). Các vector này cũng được học trong quá trình huấn
luyện mạng LSTM
: Hàm sigmoid, thường được dùng để chuẩn hóa đầu
ra của một cổng về khoảng giá trị từ 0 đến 1. Hàm sigmoid
được định nghĩa như sau:
()=
tanh: Hàm tang hyperbol (hyperbolic tangent function),
được dùng để chuẩn hóa đầu ra của cell candidate về khoảng
giá trị từ -1 đến 1. Hàm tang hyperbol được định nghĩa như
sau:
tanh() =
: Đầu ra của forget gate tại thời điểm , đây là một giá
trị giữa 0 và 1, quyết định thông tin nào từ trạng thái ô trước
đó sẽ bị quên
: Đầu ra của input gate tại thời điểm . Đây là một giá
trị giữa 0 và 1, quyết định thông tin mới nào sẽ được lưu trữ
trong trạng thái ô
: Trạng thái ô tạm thời (cell candidate) tại thời điểm .
Đây là một trạng thái mới có thể được thêm vào trạng thái
ô hiện tại

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 10: Đầu ra của output gate tại thời điểm . Đây là một giá
trị giữa 0 và 1, quyết định phần nào của trạng thái ô sẽ được
sử dụng để tính toán đầu ra tại thời điểm hiện tại
: Trạng thái ô tại thời điểm , được cập nhật bằng cách
kết hợp thông tin cũ và thông tin mới. Công thức cập nhật
trạng thái ô là: =∗−1+∗
Trong đó, quyết định phần nào của −1sẽ được giữ lại,
và cùng với quyết định thông tin mới nào sẽ được thêm
vào
ℎt: Trạng thái ẩn tại thời điểm , được tính toán bằng
cách sử dụng trạng thái ô mới t và output gate :
ℎ=∗tanh()
Trong đó, quyết định phần nào của trạng thái ô sẽ
được dùng để tính toán đầu ra
5. GIẢI PHÁP CHO BÀI TOÁN
Mô đun nhận diện ngôn ngữ ký hiệu nhận đầu vào là
chuỗi các hình ảnh liên tục và cho ra đầu ra là nhãn ký ký
hiệu tương ứng. Để xây dựng nhóm nghiên cứu đề xuất mô
hình hình 4.
Hình 4. Sơ đồ mô hình giải pháp bài toán
Quy trình diễn ra như sau, video đầu vào được rời rạc
hóa thành các khung hình. Sau đó chúng được đi qua một
bộ đánh dấu cử chỉ để lấy ra tọa độ các đốt khớp. Tọa độ
các đốt khớp sẽ được đưa vào mô hình mạng LSTM và sau
đó cho ra kết quả.
Trong mô hình này có hai thành phần chính. Đó là bộ
nhận diện đánh dấu cử chỉ các khớp tay và mạng LSTM.
Bộ nhận diện đánh dấu cử chỉ các khớp tay có chức năng
loại bỏ những thông tin dư thừa ra khỏi ảnh đầu vào và để
giảm bớt độ phức tạp cho bài toán. Bộ nhận diện đánh dấu
cử chỉ giúp trích xuất tọa độ các khớp tay. Nhờ đó thay vì
phải làm việc với ảnh gốc, mô hình có thể làm việc với tọa
độ các khớp tay thứ mà vẫn mang thông tin về ký hiệu.
Mạng nơ ron làm việc trên chuỗi thời gian, cụ thể là
mạng LSTM sẽ được sử dụng. Mạng nhận đầu vào là một
tập các điểm dữ liệu chứa tọa độ khớp bộ phận cơ thể theo
thời gian và cho đầu ra là nhãn ký hiệu tương ứng.
Kiến trúc mạng được xây dựng theo cấu trúc tuần tự, dữ
liệu đi từ lớp này qua lớp khác. Dữ liệu đầu vào là ma trận
có kích thước (30, 1530) đại diện cho 30 vector đặc trưng
được trích ra từ mỗi frame ảnh, mỗi vector có độ dài 1530.
Dữ liệu được đưa qua 3 lớp LSTM để học các đặc trưng
tuần tự cấp thấp sau đó tiếp tục đi qua 2 lớp fully connected
để xây dựng lên đặc trưng cấp cao hơn. Lớp fully connected
cuối cùng sử dụng hàm softmax để trả ra vector xác suất,
nhãn văn bản đầu ra tương ứng là nhãn văn bản có xác suất
cao nhất.
Hình 5. Kiến trúc mạng cho bài toán
Trong nghiên cứu này, bộ dữ liệu được nhóm sử dụng
có tên là WLASL (Word-Level American Sign Language)
WLASL là một tập dữ liệu video lớn cho bài toán nhận diện
ngôn ngữ ký hiệu. Mỗi mẫu trong bộ dữ liệu là một video
thực hiện cử chỉ với nhãn từ tương ứng đi kèm. Bộ dữ liệu
chứa 2000 từ phổ biến trong ngôn ngữ ký hiệu, tuy nhiên
như đã nói nhóm không hướng tới xây dựng một mô hình
tổng quát có thể dự đoán tốt trên cả 2000 từ trên mà chỉ xây
dựng nhận diện đối với 5 loại nhãn đầu ra: “Hello”, “How
are you”, “I am fine”, “Thank you”, “I love you”. Để làm
việc được với mô hình, những video đầu vào sẽ cần phải
được biến đổi thành các vector đặc trưng, cụ thể quá trình
diễn ra như sau.
Đầu tiên video đầu vào sẽ được rời rạc hóa thành các
khung hình. Thời lượng mỗi video khác nhau nên số lượng
các khung hình đối với mỗi video khác nhau. Tuy nhiên
kích thước của vector đặc trưng vào mô hình cần cố định.
Nên để làm được điều đó mỗi video sẽ được trích ra một số
lượng khung hình nhất định và cần đảm bảo các khung hình
đó cách đều nhau, phủ khắp video. Số khung hình được
chọn ở đây là 30.
Tiếp theo sau đó các khung hình sẽ được đi qua một bộ
tách cử chỉ, bộ tách cử chỉ có nhiệm vụ phát hiện vị trí các
đốt khớp và ghi lại tọa độ tương đối của chúng so với
camera. Các thông tin mà bộ tách cử chỉ thu thập bao gồm:
- Tọa độ các khớp tay (Chứa thông tin cử chỉ tay)
- Tọa các khớp mặt (Chứa thông tin biểu cảm khuôn
mặt)
- Tọa độ dáng người (Chứa thông tin về dáng người)
Sau khi có được các thông tin trên, các thông tin về tọa
độ sẽ được làm phẳng thành 30 vector đặc trưng tương ứng
với mỗi khung hình, mỗi vector đặc trưng có số vô hướng
là 1530. Kết thúc quá trình ta được một ma trận có kích
thước (30, 1530). Một câu hỏi đặt ra là tại sao không làm
phẳng ma trận, do ở bước kế tiếp ta sử dụng mạng LSTM.
Mạng LSTM xử lý trên đầu vào là chuỗi thời gian, với đầu
vào được biểu diễn bởi các vector đặc trưng có cấu trúc
giống nhau, biểu thị giá trị thay đổi theo thời gian của đối
tượng quan sát. Do đó để dễ hình dung ta dữ nguyên định
dạng ma trận (30, 1530), ma trận này có thể hiểu là đang
biểu thị thông tin cho 30 khung hình liên tiếp trong video
cử chỉ với mỗi vector hàng là một vector đặc trưng tương
ứng với một khung hình.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI HANOI UNIVERSITY OF INDUSTRY Tập san SINH VIÊN NGHIÊN CỨU KHOA HỌC Số 14 ● 2024 116. ĐÁNH GIÁ SAU HUẤN LUYỆN VÀ THỬ NGHIỆM
VỚI VIDEO THỜI GIAN THỰC
Độ chính xác trên tập thử nghiệm cho ra kết quả lên tới
99,3%, đây là một con số ấn tượng điều này cho thấy mô
hình thực sự đã học được quy luật trong bộ dữ liệu huấn
luyện.
Hình 6. Confusion matrix thể hiện kết quả dự đoán trên tập huấn
luyện
Bên trên là confusion matrix nhằm thống kê chi tiết việc
phân lớp, ở đây ta có thể thấy chỉ có duy nhất một mẫu trong
tập kiểm tra bị dự đoán sai. Đó là một mẫu mang nhãn
“hello” bị dự đoán nhầm thành “I love you”.
Về mặt số liệu có vẻ như mô hình đã cho một kết quả
tốt, vậy đối với đầu vào thực tế có đạt được kết quả tương
đương. Để trả lời câu hỏi này nhóm đã trích xuất bộ tham
số sau huấn luyện và cài đặt thành chương trình hoàn chỉnh,
sử dụng chúng cho việc dự đoán các cử chỉ được ghi trực
tiếp từ camera.
Mô hình vẫn cho ra kết quả phân lớp ấn tượng, song
hiếm vẫn có một số dự đoán sai lệch với cử chỉ thực tế và
đôi lúc việc thay đổi khoảng cách cũng ảnh hưởng tới kết
quả dự đoán. Điều này có thể dễ dàng được lý giải bởi hai
nguyên nhân. Thứ nhất mô hình liên tục nhận vào các frame
hình ảnh kể cả khi không có cử chỉ nào được thực hiện dẫn
đến tọa độ các đốt khớp được trích ra không mang ý nghĩa
liên quan. Thứ hai có một số cử chỉ có cách thức thực hiện
gần tương tự nhau về chuyển động như “hello” và “I love
you” đều huơ tay gần chán, vấn đề này có thể cải thiện bằng
việc đa dạng hóa bộ dữ liệu để cho mô hình có thể học được
các chi tiết khác nhau nhỏ giữa các cử chỉ.
Hình 7. Thử nghiệm với video thời gian thực
7. KẾT LUẬN
Sau thời gian nghiên cứu, nhóm tác giả đã xây dựng
thành công mô hình thông dịch ngôn ngữ ký hiệu. Tuy có
một chút khác biệt nhỏ với mục tiêu ban đầu sau khi thu hẹp
phạm vi bài toán nhưng kết quả nghiên cứu cho ra vẫn rất
ấn tượng. Dù có một chút sai sót nhỏ trong quá trình dự
đoán các nhãn đầu ra đối với dữ liệu thực tế nhưng nhìn
chung tính tin cậy của mô hình vẫn ổn định. Nghiên cứu đã
chứng minh tính hiệu quả của mạng LSTM đối với bài toán
đưa ra, từ hiểu biết này nhóm tác giả dự định sẽ mở rộng
nghiên cứu cho bài toán với số lượng cử chỉ nhiều hơn nữa.
Khi mô đun thông dịch ngôn ngữ ký hiệu được hoàn thiện
tới ngưỡng có thể sử dụng, nhóm tác giả mong muốn có thể
ứng dụng nó vào thực tiễn giúp cải thiện phần nào cuộc sống
của những người thuộc cộng đồng NSI.
TÀI LIỆU THAM KHẢO
[1]. Đỗ Minh Hải, 2017. RNN, LSTM là gì
[2]. Phạm Đình Khánh, 2019. Lý thuyết mạng LSTM
[3]. Ashok K Sahoo, Gouri Sankar Mishra and Kiran Kumar Ravulakollu 2014, Sign Language Recognition: State Of
The Art
[4]. Helen Cooper, Brian Holt and Richard Bowden, 2011. Sign Language Recognition
[5]. Kamilya Smagulova1, Alex Pappachen James, 2019. A survey on LSTM memristive neural network architectures
and applications
[6]. Nuo Chen, 2024. Exploring the development and application of LSTM variants
[7]. Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, 2021. Sign Language Recognition: A Deep Survey
[8]. Sakib Ashraf Zargar, 2021. Introduction to Sequence Learning Models: RNN, LSTM, GRU
[9]. Yong Yu, Xiaosheng Si, Changhua Hu, Jianxun Zhang, 2019. A Review of Recurrent Neural Networks: LSTM
Cells and Network Architectures.

