178 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
S DNG TRÍ TU NHÂN TO TEXT-TO-SPEECH
H TR THIT K ÂM THANH TRONG PHÁT TRIN
TÀI LIU GING DY K NĂNG NGHE TING ANH
ĐOÀN NGỌC ĐIỆP*
Tóm tắt: Trong thời đại số hóa hiện nay, sự phát triển của Trí tuệ nhân tạo (AI) đã và
đang thay đổi sâu sắc nhiều lĩnh vực, bao gồm cả giáo dục. Với bối cảnh nhu cầu học ngoại
ngữ ngày càng cao tại Việt Nam, song, việc thiếu hụt tài liệu nghe chất lượng cao và phù hợp
với nhu cầu của người học là một rào cản đáng kể. Do đó, bài nghiên cứu này tập trung khám
phá tính ứng dụng công nghệ trí tuệ nhân tạo chuyển văn bản thành giọng nói (TTS) để phục
vụ thiết kế tài liệu nghe trong giảng dạy k năng nghe tiếng Anh. Đồng thời, bài viết này cũng
đưa ra các phương pháp quy trình thực hiện với một vài công cụ TTS tiêu biểu. Qua vic
sử dụng công cụ TTS, người dạy có thtự do tạo ra các tài liệu nghe đa dạng, phong phú
dễ tiếp cận, cải thiện đáng kể chất lượng học liệu và tiết kiệm thời gian trong việc thiết kế giáo
trình.
Từ khóa: Ttuệ nhân tạo (AI), Text-to-Speech, ứng dụng, thiết kế audio, kỹ ng
nghe.
1. MỞ ĐẦU
ớc vào thời đại số hóa, sự phát triển vượt bậc của công nghệ đã đang tác động
sâu sắc đến mọi mặt trong đời sống hội. Vài năm trở lại đây, xu hướng phát triển nổi bật
nhất không thể không nhắc đến Trí tuệ nhân tạo (AI). Khởi nguồn từ màn “chào sâncủa Chat
GPT vào cuối năm 2022, các công cụ Ttuệ Nhân tạo ngày càng trở nên phổ biến, thúc đẩy
cạnh tranh và sự phát triển không ngừng giữa các công ty công nghệ. Theo Makridakis (2017),
công nghệ AI đã có những tác động lớn thay đổi các ngành công nghiệp, cải thiện hiệu quả
mở ra những con đường mới cho sự đổi mới. Việc ứng dụng AI vào lĩnh vực giáo dục gần đây
đã trở thành chủ đề thảo luận nhận được nhiều sự quan tâm từ các bài báo nghiên cứu tại
nhiều quốc gia (S. B. Vinay, 2023). Sự tích hợp của công nghệ AI đã đang đóng vai trò quan
trọng trong việc cải tiến các phương pháp giáo dục, mang lại những trải nghiệm nâng cao mới
cho cả người học và người dạy (Holmes et al., 2019). Cụ thể, PGS. TS. Hoàng Minh Sơn từng
chia sẻ quan điểm trong buổi Tọa đàm “ChatGPT, Trí tuệ nhân tạo - Lợi ích và thách thức đối
với giáo dụcvề sự tác động của AI tới mọi mặt trong ngành Giáo dục, ông cho rằng những
công cụ y sẽ dẫn đến nhiều sự thay đổi; từ chương trình giáo dục cho đến phương pháp tiếp
cận học liệu.
* TS, Trường Đi hc Ngoi ng - Tin hc TP. H Chí Minh; Email: diepdn@huflit.edu.vn
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 179
...................................................................................................................................................................................
Trong bối cảnh Việt Nam - một đất nước đã và đang “bắt nhịp” với thời kỳ kỷ nguyên
số, việc áp dụng các công nghệ tiên tiến như AI vào giáo dục càng được khuyến khích bởi
Chính phủ. Hiện nay, trong lĩnh vực học ngôn ngữ, phần lớn các bài nghiên cứu người dùng
Việt Nam tập trung sự quan tâm ưu ái đến các nền tảng AI hỗ trnâng cao k năng
viết, dụ như Quillbot Grammarly hai công cụ nổi bật cải thiện phong cách viết của
người dùng. Ngoài ra, knăng nghe cũng đóng vai trò quan trọng trong việc phát triển năng
lực ngôn ngữ tổng thể. Rost (2011) lập luận rằng nghe là kênh chính mà chúng ta tiếp thu ngôn
ngữ, và nó là nền tảng cho các k năng ngôn ngữ khác. Khả năng nghe hiểu hiệu quả là yếu tố
quan trọng cho giao tiếp thành công trong cả bối cảnh học thuật và chuyên nghiệp. Tuy nhiên,
một trong những rào cản đáng kể trong quá trình phát triển nâng cao knăng nghe đó
việc thiếu hụt tài liệu nghe chất lượng cao, phù hợp với nhu cầu khả năng của mỗi người.
Đặc biệt, đối với người dạy, phần lớn tài liệu nghe dùng trong dạy học được lấy tnhững
nguồn cung cấp từ các nhà xuất bản sách hoặc từ các nguồn sẵn trên Internet. Điều này thực
tế lại dẫn đến shạn chế về mặt kiểm soát chất ợng độ phù hợp của học liệu. Nói cách
khác, người dạy phải mất rất nhiều thời gian chọn lọc để tìm ra được tài liệu nghe phù hợp với
trình độ tương ứng của người học.
Nhận thấy những thách thức trên, bài viết này được thúc đẩy để giới thiệu và tìm hiểu
sâu hơn vcông cụ trí tuệ nhân tạo “Text-to-speech(TTS), tập trung nghiên cứu tính ứng
dụng của chúng trong việc phục vụ người dạy tạo ra học liệu phù hợp với nhu cầu. Cụ thể, bài
nghiên cứu này scung cấp một cái nhìn tổng quan vcông cụ trí tuệ nhân tạo chuyển văn bản
thành giọng nói (TTS) để thiết kế tài liệu nghe cho việc giảng dạy kỹ năng nghe tiếng Anh, từ
đó khám phá tiềm năng của các công cụ y trong việc tạo ra các tài liệu nghe đa dạng, cht
ợng và dễ tiếp cận cho người học và giáo viên (GV) tiếng Anh tại Việt Nam.
2. TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO
2.1. Trí tuệ nhân tạo là gì?
Ttuệ nhân tạo hay AI (Artificial Intelligence) đề cập đến sự phát triển của hệ thống
máy tính khả năng thực hiện các nhiệm vđòi hỏi trí thông minh của con người như học
tập, giải quyết vấn đề, nhận thức và hiểu ngôn ngữ. Theo Simplilearn (2024) “Trí tuệ nhân tạo
là quá trình xây dựng các máy móc thông minh từ khối lượng dữ liệu khổng lồ. Các hthống
học hỏi từ quá trình học tập kinh nghiệm trong quá khứ thực hiện các nhiệm vụ giống
con người. AI sử dụng các thuật toán và phương pháp phức tạp đểy dựng các máy móc
thtự đưa ra quyết định. Học y và Học sâu tạo thành cốt lõi của Ttunhân tạo.Thạch
(2024) cho rằng “trí tuệ nhân tạo là một nhánh của khoa học máy tính. Công nghệ AI Trí tuệ
do con người lập trình tạo nên nhằm mục đích giúp y móc thực hiện các nhiệm vụ mà trước
đây chỉ con người mới khnăng làm được. Trí tuệ nhân tạo công nghệ cho phép máy
móc, đặc biệt là máy tính, có khả năng học hỏi và suy nghĩ giống như con người như biết suy
nghĩ lập luận để giải quyết vấn đề, biết nói, biết học tự thích nghi”. Đại học Stanford
180 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
(2023) định nghĩa Trí tuệ nhân tạo lĩnh vực nghiên cứu và phát triển các hệ thống y tính
khả năng thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người như học hỏi,
lập luận, xngôn ngữ tự nhiên, nhận diện giọng nói”. Theo CareerViet (2024) “Ttuệ nhân
tạo khả năng của y tính, robot hay y móc khác học hỏi thực hiện các nhiệm vụ phức
tạp mà trước đây chỉ con người mới làm được. AI giúp con người giải quyết nhiều vấn đề
trong đời sống, từ y tế, giáo dục, kinh doanh cho đến giải trí…” Trong lĩnh vực giáo dục, AI
được dùng để thực hiện các nhiệm vụ như lên kế hoạch bài giảng, giám sát tiến trình học tập
của người học, tạo ra nội dung bài học, tạo ra giọng nói và tạo ra file âm thanh mp3.
2.2. Các loại trí tuệ nhân tạo
Theo Simplilearn (2024), AI được phân thành nhiều loại dựa trên năng lực, chức năng
và công nghệ. Dựa trên năng lực gồm có AI hẹp và AI tổng quát. AI hẹp được thiết kế để thc
hiện các nhiệm vụ như tìm kiếm trên internet, nhận dạng khuôn mặt hoặc lái xe. AI tổng quát
được trang bị khnăng nhận thức rộng giống con người, khnăng sử dụng trí thông
minh củađể giải quyết mọi thách thức mà không cần sự ớng dẫn của con người. Hầu hết
các ứng dụng AI hiện nay, từ chatbot và trợ lý ảo đến xe tự lái, đều thuộc loại này. AI dựa trên
công nghệ gồm có Học máy (Machine learning), Xử lý ngôn ngữ tự nhiên (Natural Language
Processing-NLP) và Kỹ thuật Robot.
Theo George Lawton “AI tạo sinh là một dạng công nghệ trí tuệ nhân tạo có khả năng
tạo ra nhiều loại nội dung khác nhau, bao gồm văn bản, hình ảnh, âm thanh dữ liệu tổng
hợp”. Cách mạng công nghệ mới mở rộng ranh giới sáng tạo cho trí tuệ nhân tạo. Các tính
năng tuyệt vời của AI đã mang lại nhiều kết quả tích cực cho con người trong nhiều lãnh vực,
từ vận tải, y tế, nông nghiệp, công nghiệp, khoa học tự nhiên, giải trí, và giáo dục.
2.3. Ứng dụng AI trong giảng dạy
Theo bản tin Thị trường - Công nghệ (2024) cho biết, hiện nay, thị trường giáo dục kỹ
thuật số đang tăng trưởng mạnh mẽ nhờ các ứng dụng dịch vụ AI. Hiện nay, hơn 50% trường
tiểu học, trung học và trường đại học trên thế giới sử dụng các công cụ AI để hỗ trgiảng dạy
vì họ nhận thấy các ứng dụng trí tuệ nhân tạo đem lại nhiều hiệu quả hơn cho người học cũng
như hỗ trợ người dạy rất nhiều trong việc soạn giáo án và giờ thực hành trên lớp. Thật vậy, xu
hướng ứng dụng AI thúc đẩy ngành giáo dục bằng cách cải thiện mức độ tương tác của người
học thông qua các khóa học tùy chỉnh hoặc bài giảng trực tuyến. AI trong giáo dục có thể t
động hóa việc chấm điểm, giúp các GV giảm tải công việc, thêm thời gian tổ chức hoc
tham gia các hoạt động khác của trường.
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 181
...................................................................................................................................................................................
3. SỬ DỤNG CÔNG CỤ AI TEXT-TO-SPEECH CHUYỂN VĂN BẢN THÀNH
GIỌNG NÓI ĐỂ THIẾT KẾ FILE ÂM THANH
3.1. Công cụ AI Tari Text-2-Speech
3.1.1. Giới thiệu công cụ Tari Text-2-Speech
Công cụ Tari Text-2-Speech là một trong 15 công cụ AI do Viện TARI-Viện Đào Tạo
Nghiên Cứu Ứng Dụng (Training & Applied Research Institition) thuộc Trường Đại học
Ngoại ngữ Tin học TP. Hồ Chí Minh (Huflit) phát triển nhằm mục đích phục vụ cho việc giảng
dạy và học tập các môn học về ngôn ngữ học.
3.1.2. Các tnh năng ca Tari Text-2-Speech
Công cụ Tari Text-2-Speech hỗ trngười dùng tạo ra giọng nói file âm thanh dựa
vào văn bản người dùng cung cấp. Công cụ AI này cho phép người dùng nhập độ dài văn bản
lên đến 4.000 ký tự. Tari Text-2-Speech hỗ trngười dùng tạo ra nguồn audio dồi dào, đa dạng
về thloại văn bản với nhiều giọng nói khác nhau, người dùng y chọn giọng nói theo mc
đích của họ. Trong giáo dục, công cụ Tari Text-2-Speech htrcả nời học người dạy
trong quá trình giảng dạy và học tập, đặc biệt là hỗ trợ kỹ năng Nghe và Nói.
3.1.3. Các bước thực hiện để to ra file âm thanh t Tari Text-2-Speech
ớc 1. Truy cập vào trang https://tari.huflit.edu.vn, sau đó chọn TARI AI, tiếp theo
chọn công cụ Tari Text-2-Speech (Hình 1).
Hình 1
ớc 2. Click vào công cụ Tari Text-2-Speech, người dùng sẽ thấy một khung textbox
để nhập văn bản vào (Hình 2).
182 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Hình 2
ớc 3. Người dùng nhập văn bản vào khung textbox. Tari Text2Speech cho phép to
ra file âm thanh 4.000 ký tự. Nếu người dùng cung cấp dữ liệu vượt quá quy định 4.000 ký tự
việc chuyển sang giọng nói hoặc file âm thanh sẽ không được thực hiện. Khi đó, người dùng
cần điều chỉnh lại số ký tự theo đúng hướng dẫn để Tari Text2Speech thực hiện lệnh.
ớc 4. Người dùng tùy chọn giọng nói theo các lựa chọn tên có sẵn (Hình 3).
Hình 3
ớc 5. Sau khi chọn giọng nói theo nhu cầu của mỗi người, người dùng chọn “Convert
to Speech” (1) chờ vài giây để Tari Text2Speech tạo file âm thanh. Sau khi Tari Text2Speech
đã tạo file âm thanh, người dùng bấm vào “playđể nghe (2). Cuối cùng, người dùng chọn
download (3) để tải file âm thanh về máy (Hình 4). File âm thanh sẽ có đuôi MP3.