NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 267
...................................................................................................................................................................................
NG DNG CÔNG NGH CHUYN GING NÓI
THÀNH VĂN BẢN TRONG VIC DY VÀ HC NGOI NG
CHÂU NGC HUY*
Tóm tắt: Bài viết nghiên cứu ứng dụng của công nghệ chuyển đổi giọng nói thành văn
bản trong giảng dạy học ngoại ngữ. Công nghệ này đã trở thành một công cụ quan trọng
trong giáo dục, đặc biệt trong việc hỗ trợ việc học ngôn ngữ. Bài viết phân tích ưu điểm của
công nghệ như việc ghi chú tốt hơn nội dung trong lớp, giúp họ luyện kỹ năng nghe và nói tốt
hơn cũng như cách công nghệ y có thể giúp giáo viên tiết kiệm thời gian nâng cao hiệu
quả giảng dạy. Đồng thời, bài viết cũng thảo luận về những hạn chế các yếu tố cần cân nhắc
khi triển khai công nghệ này trong lớp học ngoại ngữ. Cuối cùng, bài viết đưa ra các khuyến
nghị và hướng nghiên cứu tiếp theo trong lĩnh vực này.
Từ khóa: Ứng dụng, công nghệ chuyển đổi giọng nói thành văn bản, dạyhọc ngoại
ngữ, kỹ năng, hỗ trợ học ngôn ngữ.
1. Đặt vấn đề
Giảng dạy ngoại ngữ luôn đối mặt với nhiều thách thức, bao gồm việc làm sao để người
học phát triển toàn diện các knăng ngôn ngữ như nghe, nói, đọc viết. Với sự phát triển
của công nghệ như hiện nay, công nghệ chuyển đổi giọng nói thành văn bản (Speech-to-Text,
viết tắt STT) đã nổi n như một công cụ tiềm năng để hỗ trợ giảng dạy học tập ngoại
ngữ. Công nghệ này không chỉ giúp giảm bớt gánh nặng ghi chép cho người học còn hỗ
trợ giáo viên trong việc theo dõi và đánh giá sự tiến bộ của người học. Tuy nhiên, để tận dụng
tối đa công nghệ này, cần phải hiểu rõ các lợi ích và thách thức mà nó mang lại.
Bài viết đã tiến hành bài khảo sát nhỏ đối với hơn 80 sinh viên của 2 lớp năm 3 ngành
ngôn ngữ Trung Quốc trường Đại học Ngoại ngữ- Tin học TP.HCM về mục đích, tần số sử
dụng, các chương trình phần mềm mà sinh viên thường xuyên sử dụng cũng như những nhận
xét của sinh viên về tính chính xác, độ tin cậy của phần mềm họ đang sử dụng. Kết quả thu
được phản ánh phần nào thực trạng sử dụng công nghệ STT của sinh viên trong việc học ngoại
ngữ, cụ thể là ngôn ngữ Trung Quốc tại trường.
2. Nội dung
2.1. Giới thiệu về công nghệ chuyển đổi giọng nói thành văn bản
2.1.1 Định nghĩa và nguyên lý hoạt động
Công nghệ chuyển đổi âm thanh giọng nói thành văn bản (STT) thông qua các thuật
toán nhận diện giọng nói và xử lý ngôn ngữ tự nhiên. Các hệ thống STT hiện đại sử dụng các
* TS, ĐH Huflit TP. H Chí Minh; Email: huycn@huflit.edu.vn
268 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
hình học sâu để cải thiện độ chính xác khả năng nhận diện ngữ điệu và ngữ nghĩa của
lời nói.
Quá trình chuyển đổi này giúp thu thập thông tin từ các bản ghi âm, cuộc gọi thoại, bài
diễn thuyết hoặc các nội dung tiếng nói khác biến chúng thành dạng văn bản thể đọc,
lưu trữ và xử lý dễ dàng.
2.1.2 Sự pht triển của công nghệ STT
Công nghệ STT đã trải qua sự phát triển đáng kể theo thời gian, chuyển đổi từ các thí
nghiệm thô sang các công nghệ tinh vi tác động đến cuộc sống hàng ngày của chúng ta.
Dưới đây là tổng quan về lịch sử phát triển cũng như các cột mốc chính:
Giai Đoạn Khởi Đầu (1950 - 1970)
Những năm 1950: Công nghệ chuyển đổi giọng nói thành văn bản (STT) bắt đầu từ
những nghiên cứu bản về nhận diện giọng nói, hệ thống nhận dạng chsố đơn giản, sử
dụng các kỹ thuật khớp mẫu và vốn từ vựng hạn chế. Một trong những ớc đột phá sớm nhất
là công trình của Alan Turing, người đã đặt nền móng cho các lý thuyết về khả năng máy tính
nhận diện và hiểu ngôn ngữ con người (Turing, 1950).
Những năm 1960: IBM phát triển hệ thống nhận diện giọng nói đầu tiên, nhưng chỉ có
khả năng nhận diện một số từ đơn giản. Hệ thống y chỉ thể nhận diện các từ được lập
trình sẵn trong một kho dữ liệu hạn chế và yêu cầu một môi trường rất tĩnh lặng (IBM, 1960).
Giai Đoạn Cải Tiến Đầu (1970 - 1990)
Những năm 1970-1980: Sự ra đời của hình Markov ẩn (HMM) vào những năm
1970 đã cách mạng hóa nhận dạng giọng nói. HMM cho phép mô hình hóa ngữ âm chính xác
hơn và tăng vốn từ vựng nhận dạng.
Cũng trong thời kỳ này, Bell Labs đã phát triển một hệ thống nhận diện giọng nói
thể nhận diện các từ trong các câu đơn giản. Hệ thống này sử dụng các kỹ thuật phân tích âm
thanh để phân loại các từ dựa trên âm thanh của chúng (Bell Labs, 1971).
Những năm 1980- 1990: Dragon Systems đã phát triển hệ thống nhận diện giọng nói
“DragonDictate”, một trong những hệ thống STT thương mại đầu tiên có thể nhận diện nhiều
từ hơn và được sử dụng rộng rãi trong văn phòng và các ứng dụng cá nhân (Dragon Systems,
1982). Các công nghệ trong giai đoạn này bắt đầu sử dụng hình Hidden Markov Model
(HMM) để cải thiện độ chính xác trong nhận diện giọng nói (Rabiner & Juang, 1986)
Giai Đoạn Đột Ph (1990 - 2010)
Những năm 1990: Sự phát triển của các thuật toán học máy và khả năng xử lý dữ liệu
lớn đã giúp cải thiện độ chính xác của các hệ thống STT. Nuance Communications phát triển
"Dragon NaturallySpeaking", một hệ thống STT sử dụng công nghệ họcy để cải thiện khả
năng nhận diện giọng nói trở thành một trong những sản phẩm tiêu biểu trong thị trường
(Nuance Communications, 1997).
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 269
...................................................................................................................................................................................
Những năm 2000: Google và Microsoft bắt đầu đầu tư mạnh mẽ vào nghiên cứu STT.
Google Voice (2009) và Microsoft Speech Platform (2008) cung cấp các dịch vụ STT trên nền
tảng đám y, cho phép tích hợp dễ dàng vào các ứng dụng dịch vụ trực tuyến (Google,
2009; Microsoft, 2008). Công nghệ STT bắt đầu tích hợp với các dịch vụ tìm kiếm trợ
ảo như Siri của Apple (2011), giúp nâng cao khả năng sử dụng trong đời sống hàng ngày
(Apple, 2011).
Giai Đoạn Hiện Tại và Tương Lai (2010 - Nay)
Công nghệ STT tiếp tục phát triển với việc ứng dụng các hình học sâu như mạng
-ron tích chập (CNN) mạng -ron hồi tiếp (RNN), đặc biệt hình Transformer
được Google công bố trong bài báo Attention is All You Need (Vaswani & others, 2017).
Các hệ thống STT hiện đại khả năng nhận diện chuyển đổi giọng nói trong nhiều ngữ
cảnh khác nhau, hỗ trợ hàng trăm ngôn ngữ và phương ngữ (Vaswani & others, 2017).
Hiện tại: Các dịch vụ STT đã trở thành phần không thể thiếu trong các ứng dụng di
động, trợ lýo, và các nền tảng học trực tuyến. Công nghệ tiếp tục phát triển với việc cải thiện
khả năng nhận diện ngữ nghĩa và ngữ điệu, cũng như ch hợp vào các thiết bị IoT và hệ thống
giao tiếp đa phương tiện (OpenAI, 2023).
2.2. Lợi ích của công nghệ STT trong dạy và học ngoại ngữ
2.2.1 Cải thiện kỹ năng nghe và nói
Knăng nghe và nói nghe đóng vai trò quan trọng trong việc học ngoại ngữ. Đối với
người học có knăng nghe hạn chế hoặc tốc độ đọc chậm, sử dụng công nghệ STT có thể giúp
các bạn hiểu và tiếp thu nội dung học tập tốt hơn. Đồng thời, công nghệ STT cũng có thể cung
cấp cho người học những phương pháp học linh hoạt hơn, chẳng hạn như m kiếm thông tin
liên quan thông qua việc tìm kiếm bằng giọng nói, sử dụng trong luyện nghe, v.v.
Công ngh STT có thể cải thiện hiệu quả giao tiếp. Đôi khi, thông tin giọng nói có th
khó hiểu do giọng nói, tốc độ nói, v.v. Tuy nhiên, bằng cách chuyển nó thành văn bản, bạn
thhiểu ý của bên kia chính xác n, từ đó có phn hi chính c và nhanh chóng.
Ngoài ra, tính năng chuyển giọng nói tnh n bản ng d dàng ghi lại và xem
lại, đồng thời dng lưu tr xem lại ni dung cuộc t chuyện
2.2.2 Hỗ trợ trong việc học từ vựng và ngữ php
Bằng cách ghi lại và phân tích ngữ pháp và từ vựng trong các bài nói, công nghệ STT
giúp người học nhận diện lỗi cung cấp các dụ về cách sử dụng từ cấu trúc ngữ pháp
đúng.
2.2.3 Tăng cường khả năng viết và ghi chp
Công nghệ STT thể nâng cao hiệu quả của việc ghi chú trong lớp. Trong hình
dạy học truyền thống, người học cần dành nhiều thời gian cho việc ghi chép, sắp xếp, tóm tắt.
Sử dụng công nghệ STT, người học chỉ cần ghi lại những gì giáo viên giải thích, sau đó dùng
270 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
phần mềm chuyển đoạn ghi âm thành văn bản. Điều này không chỉ tiết kiệm thời gian và năng
lượng mà còn đảm bảo tính chính xác của việc viết và ghi chú trên lớp.
2.2.4 Nâng cao việc ơng tc
Trong quá trình học ngoaị ngữ, sự tương tác giữa giáo viên và người học là rất quan
trọng. Với strgiúp ca công nghSTT, chúng ta thhọc tương tác trong thời gian
thực. Cho đó là ka học trực tuyến hay nhóm trao đổi ngôn ngữ, bn thdng
chuyển lời nói thành văn bản, giúp bạn ddàng chia snhanh chóng suy nghĩ và câu hỏi
của mình cũng như thảo luận và giao tiếp với người khác.
2.2.5 Gip gio viên đnh gi người học tốt hơn
Trong lớp học, giáo viên thể sử dụng công nghệ STT để ghi lại kỹ năng diễn đạt
bằng lời nói của người học nhằm đánh giá và hướng dẫn việc học của họ tốt hơn.
Ngoài ra, giáo viên thể sử dụng công nghệ STT để tự động hóa việc ghi chép
phân tích phản hồi của học sinh, giúp tiết kiệm thời gian và nâng cao hiệu quả giảng dạy.
2.2.6 Thc đy đổi mới trong giảng dạy
Tiến bộ khoa học và công nghệ thúc đẩy cải cách giáo dục, ngày càng nhiều cơ sở giáo
dục đang dần chú ý đến vai trò của công nghệ trong giảng dạy. Ví dụ: việc sử dụng công nghệ
tiên tiến như công nghệ STT có thể phục vụ chính xác hơn các nhu cầu học tập được cá nhân
hóa khác nhau của người học. điều y còn thể rèn luyện cho người học khả năng sử
dụng công nghệ hiện đại và tư duy đổi mới.
2.3. Thách thức và hạn chế của công nghệ STT trong dạy và học ngoại ngữ
Độ chính xc và ngữ nghĩa
Mặc dù công nghệ STT đã tiến bộ nhiều, nhưng vẫn những thách thức liên quan đến
độ chính xác trong việc nhận diện các ngữ nghĩa ngữ điệu phức tạp. dụ: trong môi trường
ồn ào, độ chính xác của việc chuyển đổi giọng nói thành văn bản có thể bị ảnh hưởng
Đa dạng ngôn ngữ và phương ngữ
Công nghệ STT đôi khi gặp khó khăn trong việc nhận diện các phương ngữ tiếng
địa phương hoặc tin nhắn thoại có giọng nặng, điều này có thể ảnh hưởng đến chất lượng của
các bài học
Cc vấn đề về quyền riêng tư và bảo mật
Chuyển giọng nói thành văn bản liên quan đến dliệu giọng i của nời dùng,
đây là một yếu tquan trọng cần cân nhắc đối với quyền riêng tư bảo mật dliệu ca
người dùng. Khi s dụng chc năng chuyển ging nói thành văn bản, d liệu giọng nói của
người dùng có th đưc lưu trữ, truyền ti phân ch. vậy, tăng ng c bin pháp
bảo v dữ liệu và bảo mật quyền riêng tư là một ớng cải tiến cần thiết.
Yêu cầu về cơ sở hạ tầng
Các hệ thống STT thường yêu cầu kết nối Internet ổn định thiết bị phần cứng đủ
mạnh, điều này có thể là một hạn chế đối với một số người học và giáo viên
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 271
...................................................................................................................................................................................
2.4. Kết quả nghiên cứu và phân tích
2.4.1 Tỷ lệ sử dụng công nghệ STT của sinh viên
Các nghiên cứu đã chỉ ra rằng công nghệ STT có thể cải thiện khả năng ngôn ngữ của
người học, tuy nhiên, hiệu quả của nó còn phụ thuộc vào cách triển khai và mục đích của việc
sử dụng
Trong 82 bài khảo sát dành cho sinh viên 2 lớp năm 3 ngành ngôn ngữ Trung Quốc,
55 bạn sử dụng phần mềm ứng dụng STT, chiếm 67,9%, trong đó 84% các bạn cho rằng
các chương trình mình đang sử dụng tạm ổn, chỉ 6,2% các bạn cho rằng kết quả sau khi
chuyển đổi từ giọng nói sang văn bản là chính xác.
2.4.2 Phương thức và mục đích sử dụng công nghệ STT của sinh viên
Phần mềm các bạn sinh viên hiện đang sử dụng theo thứ tự như sau: Google Translate
13,6% ; Hanzi, Juzi 5,1%, ngoài ra còn có Microsoft teams, voice recoder; Chế độ đọc có sẵn
trên điện thoại y tính; MS Word, Baidu translate; Trên thiết bị sẵn, cụ thể ipad;
Zalo, instagram, chat GPT, ..., Voice changer; Capcut, Gboard; Những app từ điển, Chrome,
Tflat,…, 搜狗, Pleco, baidufayin, easychinese, , 金山词霸, Otter , trên các app dịch thuật
dụ như Notta, Turboscribe,…