
192 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
DỊCH CHÍNH TẢ TƯƠNG TÁC:
TÍCH HỢP NHẬN DẠNG GIỌNG NÓI VÀO VIỆC GIẢNG DẠY
VÀ THỰC HÀNH DỊCH THUẬT CHUYÊN NGHIỆP
NGUYỄN VĂN ĐỒNG*
Tóm tắt: Thời đại toàn cầu hóa và công nghệ thông tin và truyền thông (ICT), với nhu
cầu dịch thuật ngày càng tăng, một số biên dịch viên và giảng viên đào tạo dịch thuật trên thế
giới đang xem xét việc tích hợp các ứng dụng công nghệ mới vào thực hành dịch thuật và đào
tạo dịch giả. Đặt vấn đề Dịch chính tả tương tc: tích hợp nhận dạng giọng nói vào việc giảng
dạy và thực hành dịch thuật chuyên nghiệp, bài viết làm rõ các vấn đề sau: 1/ Lịch sử công
nghệ nhận dạng giọng nói trong lĩnh vực dịch thuật; 2/ Giới thiệu một số phần mềm nhận dạng
giọng nói thông dụng là Dragon NataturalSpeaking và Microsoft; và 3/ Công nghệ VR trong
đào tạo biên dịch.
Từ khóa: Dịch chính tả; Nhận dạng giọng nói; Dịch thuật; Giáo dục; Dịch giả.
1. Đặt vấn đề
Hội nhập và phát triển, cùng với sự bùng nổ của công nghệ thông tin và truyền thông
(ICT) hiện nay, cũng như để đáp ứng nhu cầu dịch thuật ngày càng tăng, một số dịch giả và
giảng viên làm công tác đào tạo dịch thuật ở Việt Nam cũng như trên toàn thế giới đang tìm
cách tích hợp việc đọc chính tả vào công việc dịch thuật. Nếu như trong khoảng hai thập kỷ
trước, khi việc phiên âm các văn bản dịch thường được thực hiện bởi những người đánh máy
(kỹ thuật viên máy tính), ngành dịch thuật hiện đang chuyển sang công nghệ nhận dạng giọng
nói (VR) - tức là các công cụ máy tính dùng để chép lại chính tả một cách tự động. Mặc dù
các hệ thống VR có sẵn không được thiết kế đặc biệt cho mục đích dịch thuật chuyên nghiệp,
nhưng chúng dường như đã cung cấp một cách tiếp cận tiện dụng và hiệu quả hơn cho những
dịch giả đang sử dụng chúng so với phương pháp thông thường, tức là gõ trên máy tính.
Dịch chính tả tương tác (DTI) như một kỹ thuật dịch thuật trong tương tác với hệ thống
VR. Khi xem xét tài liệu liên quan, chúng tôi nhận thấy việc tích hợp VR vào dịch thuật chuyên
nghiệp không phải là mới, nhưng những nỗ lực trước đó vẫn chưa đạt được thành công rõ ràng.
Ngoài ra, phân tích về nhu cầu của một số dịch giả sử dụng hệ thống VR đã làm sáng tỏ bản
chất, động lực của những dịch giả khi sử dụng công cụ này, cũng như ý kiến của họ về tương
lại và những khó khăn mà hệ thống VR đặt ra cho nhiệm vụ dịch thuật.
Bài viết của chúng tôi nhằm mục đích là bước đầu tiên hướng tới việc ứng dụng các
công cụ hỗ trợ dịch thuật vừa tiện dụng, vừa hiệu quả, có thể đáp ứng nhu cầu hiện tại của thị
trường dịch thuật, đồng thời như một đề xuất đổi mới các chương trình đào tạo dịch thuật trong
giáo dục đại học hiện nay.
* TS, Trường Đại học Sài Gòn; Gmail: nvdong@sgu.edu.vn

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 193
...................................................................................................................................................................................
2. Nội dung
2.1. Lịch sử công nghệ nhận dạng giọng nói trong lĩnh vực dịch thuật
Công nghệ nhận dạng giọng nói (VR) được định nghĩa là khả năng tự động hiểu tín
hiệu giọng nói do một nguồn cụ thể phát ra. Hệ thống VR một mặt được phân biệt với các hệ
thống nhận dạng giọng nói khác, tập trung vào việc hiểu tín hiệu giọng nói (không phụ thuộc
vào người nói) và mặt khác, với các hệ thống nhận dạng giọng nói, tập trung vào việc xác định
người nói từ giọng nói của họ. Do đó, VR (trong nhận dạng giọng nói bằng tiếng Anh) bao
gồm nhận dạng giọng nói và nhận dạng người nói.
VR và các công nghệ cơ bản của nó nằm trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP),
có lịch sử hàng thập kỷ. NLP bao gồm mọi công cụ liên quan đến cả ngôn ngữ của con người
và máy tính, gồm công nghệ giọng nói (TP) mà mục đích của bài viết tập trung vào, cũng như
phân tích văn bản, dịch máy (MT), lập chỉ mục, phân tích cú pháp, tự động trích xuất thuật
ngữ và bổ ngữ.
Ý tưởng sáng tạo công nghệ máy tính có khả năng xử lý ngôn ngữ tự nhiên cũng lâu
đời như ý tưởng về chính máy tính. Một trong những người tiên phong về máy tính, là Alan
Turing, cho rằng “tốt nhất là cung cấp cho cỗ máy những cơ quan cảm giác tốt nhất, sau đó
dạy nó hiểu và nói tiếng Anh” (Alan Turing, 1950, tr.460). Theo ông, kiến thức ngôn ngữ
trước đây sẽ cho phép máy tính chuyển sang các giai đoạn học tập tiếp theo, giống như cách
con người được giáo dục từ thời thơ ấu. Nói cách khác, ý tưởng của ông là một khi máy tính
được trang bị khả năng xử lý ngôn ngữ của con người thì sẽ có thể đạt được trí tuệ nhân tạo.
Nhờ những ý tưởng do Turing đưa ra, một số thử nghiệm đã được tiến hành để xử lý
ngôn ngữ tự nhiên và tự động hóa một số tác vụ ngôn ngữ nhất định. Những phát triển này bao
gồm xử lý và lưu trữ văn bản, MT và thiết kế chatbot (hệ thống mà người dùng có thể thiết lập
cuộc trò chuyện).
Một ví dụ về tác nhân đàm thoại là chương trình ELIZA (Weizenbaum, 1966). Khi sử
dụng chương trình này, người dùng nhập một câu hoặc một chuỗi câu bằng ngôn ngữ tự nhiên,
có dấu câu và cú pháp phù hợp. Sau đó, chương trình sẽ phân tích các từ khóa trong câu hoặc
các câu và hiển thị phản hồi trên màn hình dựa trên những từ khóa đó. Người dùng có thể tiếp
tục cuộc trò chuyện dựa trên phản hồi được cung cấp, v.v. (Weizenbaum, 2009, tr.36).
Cũng như Weizenbaum, Jurafsky và Martin khẳng định, đặc điểm đàm thoại này chắc
chắn là điều đã thu hút sự quan tâm nghiên cứu trong lĩnh vực này, vì công chúng có khuynh
hướng chấp nhận máy tính như một thực thể xã hội:
Giờ đây rõ ràng là bất kể mọi người tin hay biết gì về hoạt động bên trong của máy
tính, họ vẫn nói về chúng và tương tác với chúng như những thực thể xã hội. Mọi người hành
động với máy tính như thể họ là con người; họ lịch sự với nó, coi nó như thành viên trong
nhóm và mong đợi những công hiến, trong số những điều khác, máy tính có thể hiểu được nhu
cầu của họ và có khả năng tương tác với họ một cách tự nhiên […] Với những khuynh hướng

194 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
này, lời nói và ngôn ngữ - các hệ thống có thể cung cấp cho nhiều người dùng giao diện tự
nhiên nhất cho nhiều ứng dụng. Thực tế này đã dẫn đến sự tập trung lâu dài trong lĩnh vực này
vào việc thiết kế các tác nhân đàm thoại, các thực thể nhân tạo giao tiếp đàm thoại (Jurafsky
và Martin, 2009, tr.8).
Từ đầu những năm 1990, các nhà nghiên cứu bắt đầu hình dung và thiết kế các tác
nhân đàm thoại cũng có khả năng dịch thuật (tức là được trang bị hệ thống MT), nói cách khác
nó là thông dịch viên nhân tạo. Một số phòng thí nghiệm đã phát triển nguyên mẫu của các hệ
thống này. Chúng ta đã nói về sự vượt trội nhất định của những tiến bộ trong VR: trong khi hệ
thống nhận dạng chỉ có thể xử lý các từ riêng biệt được phát âm bởi một người nói, thì các hệ
thống tổng hợp đã đi đầu trong giai đoạn tinh chỉnh, tìm cách đạt được độ xác thực của ngữ
điệu (De Schaetzen, 1995, tr.685).
Những thách thức lớn của VR khi đó là phân tích lời nói liên tục, do tính biến đổi lớn
mà lời nói có thể thể hiện tùy thuộc vào cách nói (hát, thì thầm, giọng khan, v.v.) và loại người
nói (trẻ em, phụ nữ, đàn ông, v.v.), các giọng vùng miền và nhiều âm sắc, v.v.
Một số phòng thí nghiệm, như SpeechSystem, IBM, Kurzweil Application
Intelligence, Hewlett Packard, AT&T và British Telecom Research, đã đầu tư rất nhiều vào
việc phát triển hệ thống VR đồng thời bổ sung khả năng điều khiển máy tính bằng lệnh thoại.
Tuy nhiên, dù có những phát triển vượt bậc, nhưng các hệ thống được phát triển chỉ hoạt động
được trong các lĩnh vực chuyên môn cụ thể có vốn từ vựng hạn chế và trong môi trường không
có tiếng ồn.
Trong thực tế, nếu hệ thống nhận dạng giọng nói và dịch máy kết hợp phải chọn giữa
hai từ có âm thanh tương tự nhau, thì sự hiện diện của các từ đó trong văn bản tiếng Anh gốc
sẽ hướng dẫn hệ thống tạo ra một phiên âm chính xác (Brousseau et al, 1995, tr.193).
Mặc dù những tiến bộ của nhận dạng dọng nói nói chung làm hài lòng một số nhà
nghiên cứu, đặc biệt là trong lĩnh vực viễn thông (Rabiner, 1997), nhưng những người khác
vẫn thấy thời điểm đạt được, sự giống nhau hoàn toàn giữa cách con người và máy tính xử lý
lời nói là rát xa (Lippmann, 1997).
Hơn nữa, những nỗ lực tích hợp hệ thống VR vào hộp công cụ của người dịch chưa
thu hút được sự quan tâm của các nhà nghiên cứu, giảng viên và chuyên gia dịch thuật như các
ứng dụng khác của NLP. Nghiên cứu đã bị đình trệ về phía VR đối với dịch thuật, nhưng vẫn
tiếp tục thiết kế các công cụ có khả năng hỗ trợ các tác vụ ngôn ngữ ngoại vi khác cho phép
người dịch đạt được mức hiệu quả cao hơn. Nói tóm lại, VR vẫn chưa đủ hiệu quả để tự động
hóa một số tác vụ nhất định, bao gồm cả việc chép lại chính tả.
Vào đầu thế kỷ này, trọng tâm nghiên cứu NLP trong lĩnh vực dịch thuật chuyên nghiệp
không phải là thiết kế các hệ thống có khả năng tạo ra các bản dịch máy hoàn hảo để thay thế
người dịch, mà là thiết kế các công cụ để giúp những dịch giả này (công cụ hỗ trợ dịch thuật).

NGÔN NGỮ HỌC TÍNH TOÁN: NHỮNG XU HƯỚNG MỚI, TRIỂN VỌNG VÀ THÁCH THỨC | 195
...................................................................................................................................................................................
Từ năm 2002, hệ thống VR thương mại đã được coi là một phần trong hộp công cụ của
dịch giả (Bowker, 2002, tr.42; Gouadec, 2002, tr.123). Tuy nhiên, những hệ thống như phần
mềm xử lý văn bản, trình hiệu đính tự động, từ điển và tài liệu điện tử, được sử dụng rộng rãi
trong công việc dịch thuật, nhưng nó không được phát triển riêng cho dịch thuật chuyên nghiệp
(Gouadec, 2002, tr.133). Các công cụ khác như trình quản lý bộ nhớ dịch, hệ thống quản lý
thuật ngữ đa ngôn ngữ và phần mềm bản địa hóa đã coi dịch thuật là một lĩnh vực sử dụng cụ
thể (Bowker, 2002, tr. 6-7). Chúng tôi nhận thấy rằng các công cụ hỗ trợ dịch thuật khác nhau
được phân thành hai loại: những công cụ được thiết kế cho mục đích dịch thuật và những công
cụ thực hiện các nhiệm vụ ngôn ngữ chung.
Trong một thập kỷ vừa qua, các công cụ dịch thuật đã phát triển cả về số lượng và hiệu
suất. Trong đó, sự vượt bậc được thực hiện trong việc tối ưu hóa phần mềm VR thương mại:
giảm tỷ lệ lỗi phiên âm, nhận dạng đặc điểm giọng nói dành riêng cho một diễn giả cụ thể,
thích ứng với một số lĩnh vực chuyên môn nhất định, mở rộng phạm vi đặt lệnh bằng giọng
nói, v.v. Tuy nhiên, những cải tiến này vẫn chưa thuyết phục được các nhà nghiên cứu khám
phá lợi ích của việc đọc chính tả bằng phần mềm VR.
Như vậy, lịch sử của VR trong dịch thuật chuyên nghiệp trải dài sáu thập kỷ nghiên
cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nhưng, phải đến những thập niên
đầu thế kỷ 21, mối quan tâm đến nghiên cứu dịch thuật tập trung vào công nghệ VR mới bắt
đầu được đánh thức mạnh mẽ, việc sử dụng thành công các hệ thống này trong nhiều lĩnh vực
khác cũng như nhu cầu không thể chối cãi là thiết kế các công cụ dịch thuật hiệu quả và tiện
dụng hơn, tạo động lực mới cho việc nghiên cứu khả năng thích ứng của VR với lĩnh vực dịch
thuật và giáo dục.
2.2. Một số phần mềm nhận dạng giọng nói thông dụng
2.2.1. Nhận dng giọng nói bằng Dragon NataturalSpeaking
Được phát triển bởi một trong những công ty hàng đầu thế giới trong lĩnh vực này là
Nuance Communications, có trụ sở tại Burlington, Hoa Kỳ, Dragon NataturalSpeaking có lẽ
là phần mềm VR nổi tiếng nhất trên thế giới. Phiên bản đầu tiên được phát hành vào năm 1997
(Phiên bản cá nhân). Phiên bản gần đây nhất, được phát hành vào tháng 8 năm 2012 được sử
dụng cho nhiều cấp khác nhau. Dragon NataturalSpeaking phiên bản tiếng Anh được dùng để
chép lại văn bản, chỉ cần khởi động phần mềm và đặt con trỏ vào nơi bạn muốn chép lại chính
tả. Trong số những nội dung cần thực hiện, đây có thể là một biểu mẫu trực tuyến, công cụ tìm
kiếm hoặc phần mềm xử lý văn bản như MS Word hoặc WordPad. Có thể sửa lỗi nhận dạng
bằng cách sử dụng các lệnh thoại như “sửa cái đó” hoặc “sửa” + các từ cần thay thế hoặc “đánh
vần cái đó”.
Để giảm lỗi nhận dạng, người dùng có thể lập trình phần mềm, sau khi cài đặt, để phân
tích các tài liệu đã có trên máy tính cũng như hộp thư điện tử của họ. Người dùng cũng có thể
điều chỉnh phần mềm để phù hợp với phong cách và từ vựng thường dùng. Phần mềm bao

196 | KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2024
...................................................................................................................................................................................
gồm một từ điển chứa tất cả các từ vựng. Từ điển trở nên phong phú hơn khi các tài liệu và
email gửi tới nó được phân tích. Bằng cách sử dụng chương trình chỉnh sửa từ vựng, chúng ta
cũng có thể thêm các từ thường khó nhận dạng hoặc không được nhận dạng vào từ điển, bao
gồm cả danh từ riêng hoặc tên địa lý. Người dùng cũng có thể ghi lại thông tin âm thanh tương
ứng với đầu vào mới.
Ngoài ra, có thể thực hiện các lệnh thoại khác như nhấp hoặc nhấp đúp vào một mục
trên màn hình (máy tính), chuyển từ ứng dụng này sang ứng dụng khác, di chuyển chuột, thay
đổi đoạn văn, chọn một từ, xóa một từ, hiển thị bảng ghi lệnh, v.v.
Nhà phát triển công bố độ chính xác đạt 99% cho phiên bản mới nhất, phiên bản này
cũng cung cấp các lệnh cụ thể để hỗ trợ gửi email, quản lý nhật ký điện tử và tùy chỉnh từ
vựng, cũng như khả năng tạo macro có thể giảm bớt một số tác vụ lặp đi lặp lại. Ngoài ra, hệ
thống còn cung cấp một loạt lệnh cụ thể cho các mạng xã hội như Twitter và Facebook.
Dragon NataturalSpeaking có sẵn bằng tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha,
tiếng Đức, tiếng Hà Lan và tiếng Ý. Trong trường hợp một số ngôn ngữ như tiếng Anh, tiếng
Pháp và tiếng Tây Ban Nha, khi tiến hành cài đặt, có thể chỉ ra biến thể của ngôn ngữ được sử
dụng, để không chỉ tăng độ chính xác của nhận dạng mà còn để điều chỉnh từ vựng. Ví dụ: bạn
có thể cho phần mềm biết rằng bạn đang sử dụng tiếng Anh của người Anh hoặc tiếng Anh
của người Mỹ.
Ngoài ra, các phiên bản tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Hà Lan và
tiếng Ý đều bao gồm phiên bản tiếng Anh. Điều đó có nghĩa là, người dùng mua phiên bản
tiếng Anh đơn ngữ rõ ràng không thể tạo hồ sơ bằng các ngôn ngữ khác.
Nhà phát triển đã thiết kế các phiên bản tương thích với các hệ điều hành khác nhau
dành cho máy tính bàn hoặc máy tính xách tay hoặc với điện thoại di động như Android và
iPhone, đồng thời thích ứng với các lĩnh vực chuyên môn khác nhau, bao gồm lĩnh vực y tế,
tài chính, chính phủ, pháp lý và du lịch. Sau khi cài đặt, người dùng sẽ tạo một hồ sơ cá nhân
hóa bằng cách “huấn luyện” phần mềm về giọng nói và lời nói của họ. Đối với phiên bản mới
nhất, thời gian huấn luyện này chỉ là bốn phút, so với mười lăm phút ở phiên bản trước. Nói
cách khác, chỉ cần đọc một văn bản do hệ thống xác định trước trong bốn phút là đủ để hệ
thống thu thập tất cả thông tin âm thanh cần thiết để thích ứng với người dung.
2.2.2. Nhận dng giọng nói ca Microsoft
Các hệ điều hành của Microsoft (Windows 8, Windows 7, Windows Vista, Windows
XP) được trang bị hệ thống VR, giống như Dragon NataturalSpeaking, dùng để đọc chính tả
văn bản và ra lệnh cho hệ thống VR khai thác. Một hướng dẫn dài khoảng 30 phút được cung
cấp cho người dùng để khám phá các tùy chọn khác nhau được cung cấp.
Vì vậy, bằng cách sử dụng hệ thống nhận dạng giọng nói của Microsoft, người dùng
có thể phiên âm các câu chính tả sang một ứng dụng xử lý văn bản, khởi động ứng dụng,