192 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
DCH CHÍNH T TƯƠNG TÁC:
TÍCH HP NHN DNG GING NÓI VÀO VIC GING DY
VÀ THC HÀNH DCH THUT CHUYÊN NGHIP
NGUYỄN VĂN ĐỒNG*
Tóm tt: Thời đại toàn cu hóa và công ngh thông tin và truyn thông (ICT), vi nhu
cu dch thuật ngày càng tăng, một s biên dch viên và giảng viên đào tạo dch thut trên thế
giới đang xem xét việc tích hp các ng dng công ngh mi vào thc hành dch thut và đào
to dch giả. Đặt vấn đề Dch chính t tương tc: tích hợp nhn dng ging nói vào vic ging
dy thc hành dch thut chuyên nghip, bài viết làm các vấn đề sau: 1/ Lch s công
ngh nhn dng giọng nói trong lĩnh vực dch thut; 2/ Gii thiu mt s phn mm nhn dng
ging nói thông dng là Dragon NataturalSpeaking Microsoft; và 3/ Công ngh VR trong
đào tạo biên dch.
T khóa: Dch chính t; Nhn dng ging nói; Dch thut; Giáo dc; Dch gi.
1. Đặt vấn đề
Hi nhp phát trin, cùng vi s bùng n ca công ngh thông tin và truyn thông
(ICT) hiện nay, cũng như để đáp ng nhu cu dch thuật ngày càng tăng, một s dch gi
giảng viên làm công tác đào to dch thut Việt Nam cũng như trên toàn thế giới đang tìm
cách tích hp việc đọc chính t vào công vic dch thut. Nếu như trong khong hai thp k
trước, khi việc phiên âm các văn bn dịch thường được thc hin bi những người đánh máy
(k thut viên máy tính), ngành dch thut hiện đang chuyển sang công ngh nhn dng ging
nói (VR) - tc các công c máy tính dùng đ chép li chính t mt cách t động. Mc
các h thng VR có sẵn không được thiết kế đặc bit cho mục đích dịch thut chuyên nghip,
nhưng chúng dường như đã cung cấp mt cách tiếp cn tin dng và hiu qu hơn cho nhng
dch gi đang sử dng chúng so với phương pháp thông thường, tc là gõ trên máy tính.
Dch chính t tương tác (DTI) như một k thut dch thuật trong tương tác với h thng
VR. Khi xem xét tài liu liên quan, chúng tôi nhn thy vic tích hp VR vào dch thut chuyên
nghip không phi mới, nhưng những n lực trước đó vẫn chưa đạt được thành công ràng.
Ngoài ra, phân tích v nhu cu ca mt s dch gi s dng h thống VR đã làm sáng tỏ bn
chất, động lc ca nhng dch gi khi s dng công c này, cũng như ý kiến ca h v tương
li và những khó khăn mà hệ thống VR đặt ra cho nhim v dch thut.
Bài viết ca chúng tôi nhm mục đích bước đầu tiên hướng ti vic ng dng các
công c h tr dch thut va tin dng, va hiu qu, có th đáp ứng nhu cu hin ti ca th
trường dch thuật, đồng thời như một đề xuất đổi mới các chương trình đào to dch thut trong
giáo dục đại hc hin nay.
* TS, Trường Đi hc Sài Gòn; Gmail: nvdong@sgu.edu.vn
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 193
...................................................................................................................................................................................
2. Ni dung
2.1. Lch s công ngh nhn dng giọng nói trong lĩnh vực dch thut
Công ngh nhn dng ging nói (VR) được định nghĩa khả năng tự động hiu tín
hiu ging nói do mt ngun c th phát ra. H thng VR mt mặt được phân bit vi các h
thng nhn dng ging nói khác, tp trung vào vic hiu tín hiu ging nói (không ph thuc
vào người nói) mt khác, vi các h thng nhn dng ging nói, tp trung vào việc xác định
người nói t ging nói ca họ. Do đó, VR (trong nhận dng ging nói bng tiếng Anh) bao
gm nhn dng ging nói và nhn dạng người nói.
VR các công ngh cơ bản ca nm trong lĩnh vc x ngôn ng t nhiên (NLP),
có lch s hàng thp k. NLP bao gm mi công c liên quan đến c ngôn ng của con người
và máy tính, gm công ngh ging nói (TP) mà mục đích ca bài viết tp trung vào, cũng như
phân tích n bản, dch máy (MT), lp ch mc, phân ch pháp, t động trích xut thut
ng và b ng.
Ý tưởng sáng to công ngh y tính kh năng x ngôn ng t nhiên cũng lâu
đời như ý tưởng v chính y tính. Mt trong những người tiên phong v y tính, Alan
Turing, cho rng “tt nht cung cp cho c máy những cơ quan cm giác tt nht, sau đó
dy hiu nói tiếng Anh” (Alan Turing, 1950, tr.460). Theo ông, kiến thc ngôn ng
trước đây sẽ cho phép máy tính chuyển sang các giai đoạn hc tp tiếp theo, giống như cách
con người được giáo dc t thời thơ ấu. Nói cách khác, ý tưng ca ông là mt khi máy tính
được trang b kh năng xử lý ngôn ng của con người thì s có th đạt được trí tu nhân to.
Nh những ý tưởng do Turing đưa ra, một s th nghiệm đã được tiến hành để x
ngôn ng t nhiên và t động hóa mt s tác v ngôn ng nhất định. Nhng phát trin này bao
gm x lưu trữ văn bản, MT thiết kế chatbot (h thốngngười dùng có th thiết lp
cuc trò chuyn).
Mt ví d v tác nhân đàm thoại là chương trình ELIZA (Weizenbaum, 1966). Khi s
dụng chương trình này, người dùng nhp mt câu hoc mt chui câu bng ngôn ng t nhiên,
có du câu và cú pháp phù hợp. Sau đó, chương trình sẽ phân tích các t khóa trong câu hoc
các câu và hin th phn hi trên màn hình da trên nhng t khóa đó. Người dùng có th tiếp
tc cuc trò chuyn da trên phn hồi được cung cp, v.v. (Weizenbaum, 2009, tr.36).
Cũng như Weizenbaum, Jurafsky và Martin khẳng định, đặc điểm đàm thoi này chc
chắn là điều đã thu hút sự quan tâm nghiên cứu trong lĩnh vc này, vì công chúng có khuynh
hướng chp nhận máy tính như một thc th xã hi:
Gi đây ng bất k mọi người tin hay biết v hoạt động bên trong ca y
tính, h vn nói v chúng và tương tác với chúng như những thc th xã hi. Mọi người hành
động với máy tính như thể h con người; h lch s với nó, coi như thành viên trong
nhóm mong đợi nhng công hiến, trong s những điều khác, y tính có th hiểu được nhu
cu ca h và có kh năng tương tác với h mt cách t nhiên […] Với những khuynh hướng
194 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
này, li nói ngôn ng - các h thng có th cung cp cho nhiều người dùng giao din t
nhiên nht cho nhiu ng dng. Thc tế y đã dẫn đến s tập trung lâu dài trong lĩnh vực này
vào vic thiết kế các tác nhân đàm thoi, các thc th nhân to giao tiếp đàm thoi (Jurafsky
và Martin, 2009, tr.8).
T đầu những năm 1990, các nhà nghiên cu bắt đầu hình dung thiết kế các c
nhân đàm thoại cũng khả năng dịch thut (tức được trang b h thng MT), nói cách khác
nó là thông dch viên nhân to. Mt s phòng thí nghiệm đã phát triển nguyên mu ca các h
thống này. Chúng ta đã nói về s vượt tri nht định ca nhng tiến b trong VR: trong khi h
thng nhn dng ch có th x lý các t riêng biệt được phát âm bi mt người nói, thì các h
thng tng hp đã đi đầu trong giai đon tinh chỉnh, tìm cách đạt được độ xác thc ca ng
điệu (De Schaetzen, 1995, tr.685).
Nhng thách thc ln của VR khi đó là phân tích lời nói liên tc, do tính biến đổi ln
li nói th th hin tùy thuc vào cách nói (hát, thì thm, ging khan, v.v.) loại người
nói (tr em, ph nữ, đàn ông, v.v.), các giọng vùng min và nhiu âm sc, v.v.
Mt s phòng thí nghiệm, như SpeechSystem, IBM, Kurzweil Application
Intelligence, Hewlett Packard, AT&T British Telecom Research, đã đầu rất nhiu vào
vic phát trin h thống VR đồng thi b sung kh năng điều khin máy tính bng lnh thoi.
Tuy nhiên, dù có nhng phát triển vượt bậc, nhưng các hệ thống được phát trin ch hoạt động
được trong các nh vực chuyên môn c th có vn t vng hn chế trong môi trường không
có tiếng n.
Trong thc tế, nếu h thng nhn dng ging nói và dch máy kết hp phi chn gia
hai t có âm thanh tương tự nhau, thì s hin din ca các t đó trong văn bn tiếng Anh gc
s hướng dn h thng to ra mt phiên âm chính xác (Brousseau et al, 1995, tr.193).
Mc nhng tiến b ca nhn dng dng nói nói chung làm hài lòng mt s nhà
nghiên cứu, đặc biệt trong lĩnh vực viễn thông (Rabiner, 1997), nhưng nhng người khác
vn thy thời điểm đạt được, s ging nhau hoàn toàn giữa cách con người và máy tính x lý
li nói là rát xa (Lippmann, 1997).
Hơn nữa, nhng n lc tích hp h thng VR vào hp công c của người dịch chưa
thu hút được s quan tâm ca các nhà nghiên cu, ging viên và chuyên gia dch thuật như các
ng dng khác ca NLP. Nghiên cứu đã bị đình tr v phía VR đối vi dch thuật, nhưng vẫn
tiếp tc thiết kế các công ckh năng hỗ tr các tác v ngôn ng ngoi vi khác cho phép
người dịch đạt được mc hiu qu cao hơn. Nói tóm lại, VR vẫn chưa đủ hiu qu để t động
hóa mt s tác v nhất định, bao gm c vic chép li chính t.
Vào đầu thế k y, trng tâm nghiên cu NLP trong lĩnh vực dch thut chuyên nghip
không phi là thiết kế các h thng có kh năng tạo ra các bn dch máy hoàn hảo để thay thế
người dch, mà là thiết kế các công c để giúp nhng dch gi này (công c h tr dch thut).
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 195
...................................................................................................................................................................................
T năm 2002, hệ thống VR thương mại đã được coi mt phn trong hp công c ca
dch gi (Bowker, 2002, tr.42; Gouadec, 2002, tr.123). Tuy nhiên, nhng h thống như phần
mm x lý văn bản, trình hiệu đính tự động, t điển và tài liệu điện tử, được s dng rng rãi
trong công vic dch thuật, nhưng không được phát trin riêng cho dch thut chuyên nghip
(Gouadec, 2002, tr.133). Các công c khác như trình qun lý b nh dch, h thng qun lý
thut ng đa ngôn ngữ và phn mm bản địa hóa đã coi dịch thut là một lĩnh vực s dng c
th (Bowker, 2002, tr. 6-7). Chúng tôi nhn thy rng các công c h tr dch thut khác nhau
được phân thành hai loi: nhng công c được thiết kế cho mục đích dịch thut nhng công
c thc hin các nhim v ngôn ng chung.
Trong mt thp k va qua, các công c dch thuật đã phát triển c v s nghiu
suất. Trong đó, sự vượt bậc được thc hin trong vic tối ưu hóa phần mềm VR thương mi:
gim t l li phiên âm, nhn dạng đặc điểm ging nói dành riêng cho mt din gi c th,
thích ng vi mt s lĩnh vực chuyên môn nhất định, m rng phạm vi đt lnh bng ging
nói, v.v. Tuy nhiên, nhng ci tiến y vẫn chưa thuyết phục được các nhà nghiên cu khám
phá li ích ca việc đọc chính t bng phn mm VR.
Như vậy, lch s ca VR trong dch thut chun nghip tri dài u thp k nghiên
cu phát triển trong nh vực x ngôn ng t nhiên. Nhưng, phải đến nhng thp niên
đầu thế k 21, mối quan tâm đến nghiên cu dch thut tp trung vào công ngh VR mi bt
đầu được đánh thức mnh m, vic s dng thành công các h thng này trong nhiều lĩnh vực
khác cũng như nhu cầu không th chi cãi thiết kế các công c dch thut hiu qu tin
dụng hơn, tạo động lc mi cho vic nghiên cu kh ng thích ng ca VR với lĩnh vực dch
thut và giáo dc.
2.2. Mt s phn mm nhn dng ging nói thông dng
2.2.1. Nhn dng ging nói bng Dragon NataturalSpeaking
Đưc phát trin bi mt trong những công ty hàng đu thế giới trong lĩnh vực này
Nuance Communications, tr s ti Burlington, Hoa K, Dragon NataturalSpeaking l
phn mm VR ni tiếng nht trên thế gii. Phiên bản đầu tiên được phát hành vào năm 1997
(Phiên bn cá nhân). Phiên bn gần đây nhất, được phát hành vào tháng 8 năm 2012 đưc s
dng cho nhiu cp khác nhau. Dragon NataturalSpeaking phiên bn tiếng Anh được dùng để
chép lại văn bản, ch cn khởi động phn mềm và đặt con tr o nơi bạn mun chép li chính
t. Trong s nhng ni dung cn thc hiện, đâythểmt biu mu trc tuyến, công c tìm
kiếm hoc phn mm x lý văn bản như MS Word hoc WordPad. Có th sa li nhn dng
bng ch s dng các lnh thoại như “sửa cái đó” hoặc “sửa” + các từ cn thay thế hoặc “đánh
vần cái đó”.
Để gim li nhn dạng, người dùng th lp trình phn mềm, sau khi cài đặt, để phân
tích các tài liệu đã có trên máy tính cũng như hộp thư điện t ca họ. Người dùng cũng có th
điều chnh phn mềm để phù hp vi phong cách t vựng thường dùng. Phn mm bao
196 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
gm mt t điển cha tt c các t vng. T điển tr nên phong phú hơn khi các tài liu
email gi tới nó được phân tích. Bng cách s dụng chương trình chỉnh sa t vng, chúng ta
cũng có thể thêm các t thường khó nhn dng hoặc không được nhn dng vào t điển, bao
gm c danh t riêng hoặc tên địa lý. Người dùng cũng thể ghi lại thông tin âm thanh tương
ng với đầu vào mi.
Ngoài ra, th thc hin c lnh thoại khác như nhp hoc nhấp đúp vào một mc
trên màn hình (máy tính), chuyn t ng dng này sang ng dng khác, di chuyn chut, thay
đổi đoạn văn, chọn mt t, xóa mt t, hin th bng ghi lnh, v.v.
Nhà phát trin công b đ chính xác đạt 99% cho phiên bn mi nht, phiên bn y
cũng cung cấp các lnh c th để h tr gi email, qun lý nhật ký điện t y chnh t
vựng, cũng như khả năng tạo macro có th gim bt mt s tác v lặp đi lặp li. Ngoài ra, h
thng còn cung cp mt lot lnh c th cho các mng xã hội như Twitter và Facebook.
Dragon NataturalSpeaking sn bng tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha,
tiếng Đức, tiếng Hà Lan và tiếng Ý. Trong trường hp mt s ngôn ng như tiếng Anh, tiếng
Pháp và tiếng Tây Ban Nha, khi tiến hành cài đặt, có th ch ra biến th ca ngôn ng được s
dụng, để không ch tăng độ chính xác ca nhn dạng còn để điều chnh t vng. d: bn
th cho phn mm biết rng bạn đang s dng tiếng Anh của người Anh hoc tiếng Anh
của người M.
Ngoài ra, các phiên bn tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Lan
tiếng Ý đều bao gm phiên bn tiếng Anh. Điều đó nghĩa là, người dùng mua phiên bn
tiếng Anh đơn ngữ rõ ràng không th to h sơ bằng các ngôn ng khác.
Nhà phát triển đã thiết kế các phiên bản tương thích với các h điều hành khác nhau
dành cho máy tính bàn hoc y tính xách tay hoc với điện thoại di động như Android
iPhone, đồng thi thích ng với các lĩnh vực chuyên môn khác nhau, bao gồm lĩnh vực y tế,
tài chính, chính ph, pháp lý và du lịch. Sau khi cài đặt, người dùng s to mt h sơ cá nhân
hóa bằng cách “huấn luyện” phần mm v ging nói và li nói ca họ. Đối vi phiên bn mi
nht, thi gian hun luyn này ch bn phút, so với mười lăm phút phiên bản trước. Nói
cách khác, ch cần đọc một văn bản do h thống xác định trước trong bốn phút đ để h
thng thu thp tt c thông tin âm thanh cn thiết để thích ng với người dung.
2.2.2. Nhn dng ging nói ca Microsoft
Các h điều hành ca Microsoft (Windows 8, Windows 7, Windows Vista, Windows
XP) được trang b h thng VR, giống như Dragon NataturalSpeaking, dùng đ đọc chính t
văn bản và ra lnh cho h thng VR khai thác. Một hướng dn dài khoảng 30 phút được cung
cấp cho người dùng để khám phá các tùy chn khác nhau được cung cp.
vy, bng cách s dng h thng nhn dng ging nói của Microsoft, người dùng
th phiên âm các câu chính t sang mt ng dng x văn bản, khởi động ng dng,