
178 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
SỬ DỤNG TRÍ TUỆ NHÂN TẠO TEXT-TO-SPEECH
HỖ TRỢ THIẾT KẾ ÂM THANH TRONG PHÁT TRIỂN
TÀI LIỆU GIẢNG DẠY KỸ NĂNG NGHE TIẾNG ANH
ĐOÀN NGỌC ĐIỆP*
Tóm tắt: Trong thời đại số hóa hiện nay, sự phát triển của Trí tuệ nhân tạo (AI) đã và
đang thay đổi sâu sắc nhiều lĩnh vực, bao gồm cả giáo dục. Với bối cảnh nhu cầu học ngoại
ngữ ngày càng cao tại Việt Nam, song, việc thiếu hụt tài liệu nghe chất lượng cao và phù hợp
với nhu cầu của người học là một rào cản đáng kể. Do đó, bài nghiên cứu này tập trung khám
phá tính ứng dụng công nghệ trí tuệ nhân tạo chuyển văn bản thành giọng nói (TTS) để phục
vụ thiết kế tài liệu nghe trong giảng dạy kỹ năng nghe tiếng Anh. Đồng thời, bài viết này cũng
đưa ra các phương pháp và quy trình thực hiện với một vài công cụ TTS tiêu biểu. Qua việc
sử dụng công cụ TTS, người dạy có thể tự do tạo ra các tài liệu nghe đa dạng, phong phú và
dễ tiếp cận, cải thiện đáng kể chất lượng học liệu và tiết kiệm thời gian trong việc thiết kế giáo
trình.
Từ khóa: Trí tuệ nhân tạo (AI), Text-to-Speech, ứng dụng, thiết kế audio, kỹ năng
nghe.
1. MỞ ĐẦU
Bước vào thời đại số hóa, sự phát triển vượt bậc của công nghệ đã và đang tác động
sâu sắc đến mọi mặt trong đời sống xã hội. Vài năm trở lại đây, xu hướng phát triển nổi bật
nhất không thể không nhắc đến Trí tuệ nhân tạo (AI). Khởi nguồn từ màn “chào sân” của Chat
GPT vào cuối năm 2022, các công cụ Trí tuệ Nhân tạo ngày càng trở nên phổ biến, thúc đẩy
cạnh tranh và sự phát triển không ngừng giữa các công ty công nghệ. Theo Makridakis (2017),
công nghệ AI đã có những tác động lớn thay đổi các ngành công nghiệp, cải thiện hiệu quả và
mở ra những con đường mới cho sự đổi mới. Việc ứng dụng AI vào lĩnh vực giáo dục gần đây
đã trở thành chủ đề thảo luận nhận được nhiều sự quan tâm từ các bài báo và nghiên cứu tại
nhiều quốc gia (S. B. Vinay, 2023). Sự tích hợp của công nghệ AI đã và đang đóng vai trò quan
trọng trong việc cải tiến các phương pháp giáo dục, mang lại những trải nghiệm nâng cao mới
cho cả người học và người dạy (Holmes et al., 2019). Cụ thể, PGS. TS. Hoàng Minh Sơn từng
chia sẻ quan điểm trong buổi Tọa đàm “ChatGPT, Trí tuệ nhân tạo - Lợi ích và thách thức đối
với giáo dục” về sự tác động của AI tới mọi mặt trong ngành Giáo dục, ông cho rằng những
công cụ này sẽ dẫn đến nhiều sự thay đổi; từ chương trình giáo dục cho đến phương pháp tiếp
cận học liệu.
* TS, Trường Đại học Ngoại ngữ - Tin học TP. Hồ Chí Minh; Email: diepdn@huflit.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 179
...................................................................................................................................................................................
Trong bối cảnh Việt Nam - một đất nước đã và đang “bắt nhịp” với thời kỳ kỷ nguyên
số, việc áp dụng các công nghệ tiên tiến như AI vào giáo dục càng được khuyến khích bởi
Chính phủ. Hiện nay, trong lĩnh vực học ngôn ngữ, phần lớn các bài nghiên cứu và người dùng
ở Việt Nam tập trung sự quan tâm và ưu ái đến các nền tảng AI hỗ trợ và nâng cao kỹ năng
viết, ví dụ như Quillbot và Grammarly là hai công cụ nổi bật cải thiện phong cách viết của
người dùng. Ngoài ra, kỹ năng nghe cũng đóng vai trò quan trọng trong việc phát triển năng
lực ngôn ngữ tổng thể. Rost (2011) lập luận rằng nghe là kênh chính mà chúng ta tiếp thu ngôn
ngữ, và nó là nền tảng cho các kỹ năng ngôn ngữ khác. Khả năng nghe hiểu hiệu quả là yếu tố
quan trọng cho giao tiếp thành công trong cả bối cảnh học thuật và chuyên nghiệp. Tuy nhiên,
một trong những rào cản đáng kể trong quá trình phát triển và nâng cao kỹ năng nghe đó là
việc thiếu hụt tài liệu nghe chất lượng cao, phù hợp với nhu cầu và khả năng của mỗi người.
Đặc biệt, đối với người dạy, phần lớn tài liệu nghe dùng trong dạy học được lấy từ những
nguồn cung cấp từ các nhà xuất bản sách hoặc từ các nguồn có sẵn trên Internet. Điều này thực
tế lại dẫn đến sự hạn chế về mặt kiểm soát chất lượng và độ phù hợp của học liệu. Nói cách
khác, người dạy phải mất rất nhiều thời gian chọn lọc để tìm ra được tài liệu nghe phù hợp với
trình độ tương ứng của người học.
Nhận thấy những thách thức trên, bài viết này được thúc đẩy để giới thiệu và tìm hiểu
sâu hơn về công cụ trí tuệ nhân tạo “Text-to-speech” (TTS), tập trung nghiên cứu tính ứng
dụng của chúng trong việc phục vụ người dạy tạo ra học liệu phù hợp với nhu cầu. Cụ thể, bài
nghiên cứu này sẽ cung cấp một cái nhìn tổng quan về công cụ trí tuệ nhân tạo chuyển văn bản
thành giọng nói (TTS) để thiết kế tài liệu nghe cho việc giảng dạy kỹ năng nghe tiếng Anh, từ
đó khám phá tiềm năng của các công cụ này trong việc tạo ra các tài liệu nghe đa dạng, chất
lượng và dễ tiếp cận cho người học và giáo viên (GV) tiếng Anh tại Việt Nam.
2. TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO
2.1. Trí tuệ nhân tạo là gì?
Trí tuệ nhân tạo hay AI (Artificial Intelligence) đề cập đến sự phát triển của hệ thống
máy tính có khả năng thực hiện các nhiệm vụ đòi hỏi trí thông minh của con người như học
tập, giải quyết vấn đề, nhận thức và hiểu ngôn ngữ. Theo Simplilearn (2024) “Trí tuệ nhân tạo
là quá trình xây dựng các máy móc thông minh từ khối lượng dữ liệu khổng lồ. Các hệ thống
học hỏi từ quá trình học tập và kinh nghiệm trong quá khứ và thực hiện các nhiệm vụ giống
con người. AI sử dụng các thuật toán và phương pháp phức tạp để xây dựng các máy móc có
thể tự đưa ra quyết định. Học máy và Học sâu tạo thành cốt lõi của Trí tuệ nhân tạo.” Thạch
(2024) cho rằng “trí tuệ nhân tạo là một nhánh của khoa học máy tính. Công nghệ AI là Trí tuệ
do con người lập trình tạo nên nhằm mục đích giúp máy móc thực hiện các nhiệm vụ mà trước
đây chỉ con người mới có khả năng làm được. Trí tuệ nhân tạo là công nghệ cho phép máy
móc, đặc biệt là máy tính, có khả năng học hỏi và suy nghĩ giống như con người như biết suy
nghĩ và lập luận để giải quyết vấn đề, biết nói, biết học và tự thích nghi”. Đại học Stanford

180 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
(2023) định nghĩa “Trí tuệ nhân tạo là lĩnh vực nghiên cứu và phát triển các hệ thống máy tính
có khả năng thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người như học hỏi,
lập luận, xử lý ngôn ngữ tự nhiên, nhận diện giọng nói”. Theo CareerViet (2024) “Trí tuệ nhân
tạo là khả năng của máy tính, robot hay máy móc khác học hỏi và thực hiện các nhiệm vụ phức
tạp mà trước đây chỉ có con người mới làm được. AI giúp con người giải quyết nhiều vấn đề
trong đời sống, từ y tế, giáo dục, kinh doanh cho đến giải trí…” Trong lĩnh vực giáo dục, AI
được dùng để thực hiện các nhiệm vụ như lên kế hoạch bài giảng, giám sát tiến trình học tập
của người học, tạo ra nội dung bài học, tạo ra giọng nói và tạo ra file âm thanh mp3.
2.2. Các loại trí tuệ nhân tạo
Theo Simplilearn (2024), AI được phân thành nhiều loại dựa trên năng lực, chức năng
và công nghệ. Dựa trên năng lực gồm có AI hẹp và AI tổng quát. AI hẹp được thiết kế để thực
hiện các nhiệm vụ như tìm kiếm trên internet, nhận dạng khuôn mặt hoặc lái xe. AI tổng quát
được trang bị khả năng nhận thức rộng giống con người, nó có khả năng sử dụng trí thông
minh của nó để giải quyết mọi thách thức mà không cần sự hướng dẫn của con người. Hầu hết
các ứng dụng AI hiện nay, từ chatbot và trợ lý ảo đến xe tự lái, đều thuộc loại này. AI dựa trên
công nghệ gồm có Học máy (Machine learning), Xử lý ngôn ngữ tự nhiên (Natural Language
Processing-NLP) và Kỹ thuật Robot.
Theo George Lawton “AI tạo sinh là một dạng công nghệ trí tuệ nhân tạo có khả năng
tạo ra nhiều loại nội dung khác nhau, bao gồm văn bản, hình ảnh, âm thanh và dữ liệu tổng
hợp”. Cách mạng công nghệ mới mở rộng ranh giới sáng tạo cho trí tuệ nhân tạo. Các tính
năng tuyệt vời của AI đã mang lại nhiều kết quả tích cực cho con người trong nhiều lãnh vực,
từ vận tải, y tế, nông nghiệp, công nghiệp, khoa học tự nhiên, giải trí, và giáo dục.
2.3. Ứng dụng AI trong giảng dạy
Theo bản tin Thị trường - Công nghệ (2024) cho biết, hiện nay, thị trường giáo dục kỹ
thuật số đang tăng trưởng mạnh mẽ nhờ các ứng dụng dịch vụ AI. Hiện nay, hơn 50% trường
tiểu học, trung học và trường đại học trên thế giới sử dụng các công cụ AI để hỗ trợ giảng dạy
vì họ nhận thấy các ứng dụng trí tuệ nhân tạo đem lại nhiều hiệu quả hơn cho người học cũng
như hỗ trợ người dạy rất nhiều trong việc soạn giáo án và giờ thực hành trên lớp. Thật vậy, xu
hướng ứng dụng AI thúc đẩy ngành giáo dục bằng cách cải thiện mức độ tương tác của người
học thông qua các khóa học tùy chỉnh hoặc bài giảng trực tuyến. AI trong giáo dục có thể tự
động hóa việc chấm điểm, giúp các GV giảm tải công việc, có thêm thời gian tổ chức hoặc
tham gia các hoạt động khác của trường.

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 181
...................................................................................................................................................................................
3. SỬ DỤNG CÔNG CỤ AI TEXT-TO-SPEECH CHUYỂN VĂN BẢN THÀNH
GIỌNG NÓI ĐỂ THIẾT KẾ FILE ÂM THANH
3.1. Công cụ AI Tari Text-2-Speech
3.1.1. Giới thiệu công cụ Tari Text-2-Speech
Công cụ Tari Text-2-Speech là một trong 15 công cụ AI do Viện TARI-Viện Đào Tạo
và Nghiên Cứu Ứng Dụng (Training & Applied Research Institition) thuộc Trường Đại học
Ngoại ngữ Tin học TP. Hồ Chí Minh (Huflit) phát triển nhằm mục đích phục vụ cho việc giảng
dạy và học tập các môn học về ngôn ngữ học.
3.1.2. Các tnh năng ca Tari Text-2-Speech
Công cụ Tari Text-2-Speech hỗ trợ người dùng tạo ra giọng nói và file âm thanh dựa
vào văn bản người dùng cung cấp. Công cụ AI này cho phép người dùng nhập độ dài văn bản
lên đến 4.000 ký tự. Tari Text-2-Speech hỗ trợ người dùng tạo ra nguồn audio dồi dào, đa dạng
về thể loại văn bản với nhiều giọng nói khác nhau, người dùng tùy chọn giọng nói theo mục
đích của họ. Trong giáo dục, công cụ Tari Text-2-Speech hỗ trợ cả người học và người dạy
trong quá trình giảng dạy và học tập, đặc biệt là hỗ trợ kỹ năng Nghe và Nói.
3.1.3. Các bước thực hiện để to ra file âm thanh t Tari Text-2-Speech
Bước 1. Truy cập vào trang https://tari.huflit.edu.vn, sau đó chọn TARI AI, tiếp theo
chọn công cụ Tari Text-2-Speech (Hình 1).
Hình 1
Bước 2. Click vào công cụ Tari Text-2-Speech, người dùng sẽ thấy một khung textbox
để nhập văn bản vào (Hình 2).

182 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
Hình 2
Bước 3. Người dùng nhập văn bản vào khung textbox. Tari Text2Speech cho phép tạo
ra file âm thanh 4.000 ký tự. Nếu người dùng cung cấp dữ liệu vượt quá quy định 4.000 ký tự
việc chuyển sang giọng nói hoặc file âm thanh sẽ không được thực hiện. Khi đó, người dùng
cần điều chỉnh lại số ký tự theo đúng hướng dẫn để Tari Text2Speech thực hiện lệnh.
Bước 4. Người dùng tùy chọn giọng nói theo các lựa chọn tên có sẵn (Hình 3).
Hình 3
Bước 5. Sau khi chọn giọng nói theo nhu cầu của mỗi người, người dùng chọn “Convert
to Speech” (1) và chờ vài giây để Tari Text2Speech tạo file âm thanh. Sau khi Tari Text2Speech
đã tạo file âm thanh, người dùng bấm vào “play” để nghe (2). Cuối cùng, người dùng chọn
download (3) để tải file âm thanh về máy (Hình 4). File âm thanh sẽ có đuôi MP3.