NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 225
...................................................................................................................................................................................
SO SÁNH CÁC KT QU DCH T ĐỘNG
DCH TRUYN THNG VIT - HÀN
HOÀNG NGUYÊN PHƯƠNG*
Tóm tt: Bài viết này đã áp dụng hệ thống dịch tự động Google Translate Chat
GPT để dịch cho nội dung quảng của trường đại học Ngoại ngữ - Tin học TP.HCM. Bài
viết dùng kết quả dịch tự động để phân tích từng câu và chỉ ra các các loại câu có kết quả dịch
tiếng Hàn khó hiểu, sau đó trình y lại theo dạng câu tiếng Hàn chuẩn xác bằng cách dịch
truyền thống, cuối cùng đưa ra ưu khuyết điểm qua các cách dịch. Kết quả nghiên cứu
này có thể góp phần nhận diện các lỗi dịch cơ bản và cải thiện hiệu suất của hệ thống dịch tự
động Việt - Hàn, tạo thêm nguồn tư liệu cho việc dịch thuật.
T khóa: Google Translate, Chat GPT, dch t động, dch truyn thng, li dch t
động
1. GII THIU
Google đã phát trin ra mt Google dch (hay còn gi tên tiếng Anh Google
Translate, viết tt: GT) lần đầu tiên vào tháng 4 năm 2006 như một công c dch trc tuyến
miễn phí và luôn được ci tiến đến ngày nay.
Vào thi k đầu Google Translate s dng “dịch y thống kê” nên không thể dch
trc tiếp t ngôn ng ngun sang ngôn ng đích phải chuyn ngôn ng ngun sang tiếng
Anh trong những trường hp ngôn ng cn chuyn dch không phi là tiếng Anh. Sau 10 năm,
vào tháng 11 năm 2016, Google thông báo đã cải tiến Google Translate sang dạng “dịch máy
mô phng dây thần kinh” (GNMT - Google Neural Machine Translation) nên có th dch trc
tiếp gia ngôn ng ngun ngôn ng đích không cần s dng ngôn ng trung gian
tiếng Anh.
Hiện tại, từ tháng 7 năm 2024 trở đi, Google Translate đã có tổng cộng 243 ngôn ngữ
dịch trên trang web https://translate.google.com vi s tr giúp ca hình ngôn ng ln
PaLM 2 (Pathways Language Model). Google tiết l rng PaLM 2 đã được đào to bằng hơn
20 ngôn ng lập trình và hơn 100 ngôn ngữ để giúp nó hiểu sâu hơn về toán hc, logic, khoa
học, tăng khả năng dịch thut và tng hợp văn bản.
Ngoài dịch tự động bằng Google Translate, ChatGPT cũng một công cụ dịch tự động
được nhiều người biết đến. ChatGPT cũng được đào tạo đa ngôn ngữ với hàng trăm tỷ từ nên
khả năng tạo ra các bản dịch trong vòng vài giây nhiều ngôn ngữ khác nhau mà không bị
giới hạn chỉ ở một cặp ngôn ngữ. Vì ChatGPT là một AI có thể tự học qua các cuộc trò truyện
với con người nên khả năng lựa chọn từ vựng và phong cách dịch có thể mạch lạc và tự nhiên
* TS, Trường Đi hc Ngoi ng - Tin hc TP. HCM; Email: phuongnh@huflit.edu.vn
226 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
hơn Google Translate. Bản dịch cũng có thể được cải thiện nhiều hơn nếu người cần dịch trò
chuyện qua lại với ChatGPT để xác định nghĩa bản dịch mà ChatGPT đưa ra, đây cũng chính
là điều mà Google Translate không thực hiện được.
Mc không th đánh giá thấp nhng li ích thiết thc ca Google Translate,
ChatGPT các công ngh tương tự mang lại nhưng t l dch chính xác ca Google Translate,
ChatGPT đối vi ngôn ng ngun ngôn ng đích, đặc bit nhng cp ngôn ng h
ch pháp khác nhau như tiếng Vit tiếng Hàn vn cn phi tìm hiu thêm. Nhng
trường hp bn dch cn kiến thc v văn hóa, cấu trúc ng pháp, đòi hỏi kinh nghim
các yếu t v ng cnh tth gây khó khăn cho việc to ra mt sn phm hoàn thin. S
có những trường hp Google Translate hoc ChatGPT dch không chính xác các loi thì (quá
khứ, tương lai, hiện ti), dùng sai tr t, hiểu sai đại t nhân xưng, hoặc ch x các t
dòng ch, x nhanh các đoạn ch cái không hiểu ý nghĩa bản ca chúng. vy,
ngay c nhng h thng dch thut da trên công ngh AI tiên tiến cũng thể không chính
xác hoc sai sót do máy tính không th hiểu được nghĩa tiềm n (n giu) ca t ng.
Nghiên cu y s dng ni dung quảng trường đi hc Ngoi ng - Tin hc
TP.HCM (HUFLIT) th nghim phân tích h thng dch t động Vit - Hàn để kho sát
nhng thiếu sót và đưa ra câu dịch chun xác nhm ci thin kết qu dch thut ca bn dch
t động. Bn dch t động b tối nghĩa, hoặc ý nghĩa của câu gc b thay đổi gây hiu lm
hiu sai ý s đưc dch gi (con người) tinh chnh và nâng cao chất lượng các bn dịch, đồng
thi b sung thêm vào phần “gửi ý kiến phn hồi” trên GT để các ni dung dịch sau này được
hoàn thiện hơn.
2. CƠ SỞ LÝ LUẬN
1) Nghiên cu v dch t động s dng Google Translate dch trên các phn mm
tuy đã được quan tâm t những năm 2010 đến nay nhưng các bài nghiên cứu về đề tài này
không nhiều. thể điểm qua một vài bài viết liên quan đến ngôn ngữ dịch tự động trong
ngoài nước như sau:
- “Những li ngôn ng phn mm Google Translate khi dch t động Anh - Vit các
hợp đồng kinh tế” [1] là luận án dùng 3.387 cp câu song ng Anh Việt có trong các văn bn
hợp đồng kinh tế để kho sát dch t động ra ngôn ng đích tiếng Vit. Luận án đã đối chiếu
phân loi các loi li ph biến sau khi s dụng chương trình dịch t động Google
Translate và công c BLAST (công c phân tích và x lý li), nêu bt vai trò quan trng ca
người quan sát trong vic phân loi và x lý các loi li trong dch t động. Luận án cũng đã
nhn mnh những ưu đim nhng mt hn chế của chương trình dịch t động để nhng
chuyên gia v ngôn ng hc công ngh y nh hướng ci tiến cho h thống được tt
hơn. - Gookhyung Jho Aesun Yoon đã thực hin vic phân loi các biu hin không t
nhiên các câu dch không chính xác trong bn dch tiếng Hàn, bng cách áp dng khong
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 227
...................................................................................................................................................................................
50.000 câu tiếng Pháp được trích xut t nhiều phương tiện truyn thông khác nhau ca Pháp
vào h thng dch t động hin ti. Sau đó nhóm tác giả đã nghiên cứu đặc điểm xây dng
mu ca h thng dch t động Pháp-Hàn bằng cách xem xét các đặc điểm pháp ng
nghĩa của câu tiếng Pháp, đề xut các mu dch t động cho các câu động t gián tiếp,
các câu động t đại danh, các câu ch ng phi nhân xưng, v.v., dựa trên đặc điểm ca
động t tiếng Pháp [2].
- Nhóm tác giả Phạm Thị Thúy Hồng Hoàng Thu đã dùng dữ liệu danh từ chỉ
người trong lĩnh vực báo chí với 25 từ tiếng Việt và 42 từ tiếng Anh có trong từ điển làm đối
tượng nghiên cứu tính chính xác của Google Translate khi chuyển dịch Anh - Việt, Việt - Anh.
Bài viết đã chỉ ra được những lỗi sai về nghĩa của từ lỗi sai về cấu trúc khi dùng Google
Translate chuyển dịch 67 từ vựng chuyên ngành báo chí có sẵn trong từ điển [3]. Kết quả của
bài viết “Khảo sát cách dịch máy danh từ chỉ người thuộc lĩnh vực báo chí” đã bổ sung thêm
vào nguồn học liệu tiếng Anh nói chung chuyên ngành báo chí nói riêng các từ chun
ngành về báo chí - truyền thông.
2) Những nét cơ bản trong tiếng Vit và tiếng Hàn
- Tiếng Vit thuc loi hình ngôn ng đơn lập, t không biến đổi hình thái, tiếng
đơn vị cơ sở ca ng pháp nên trt t thay đổi thì ý nghĩa câu có th thay đổi, có loi t/danh
t đơn vị, h thng t xưng phong phú, cú pháp câu bn theo th t “ch ng -
động/tính t - tân ngữ” C-V-O, cách biu th ý nghĩa ngữ pháp là sp đt t theo th t trước
sau s dụng các t (nhóm từ tình thái cui câu phong phú). Thì trong tiếng Vit
không nht thiết phi th hin rõ ràng bng nhng t “đã, đang, sẽ”.
- Tiếng Hàn: thuc loi hình ngôn ng chấp dính, cú pháp câu cơ bản theo th t “ch
ng - tân ng - động/tính từ” C-O-V. Cu trúc câu trong tiếng Hàn được chia c th như bảng
sau:
Bng 1. Cấu trc câu cơ bản trong tiếng Hàn
Cu trúc
Câu ví d
Ch ngữ + v ng (danh t + “là”)
이다”: là
- 이것 연필입니다. (Cái này là bút chì)
- 학생입니다. (Tôi là hc sinh)
Chủ ngữ + v ngữ (nh t)
- 뻐요. (Hoa đẹp.)
- 사람 많아요. (Người đông.)
Chủ ngữ + v ngữ (động t tĩnh)
- 와요. (Trời mưa.)
- 동생 앉아요. (Đứa em đang ngồi.)
Chủ ngữ + Tân ngữ + v ngữ (động t động)
- 아빠 아침을 드십니다. (Ba ăn sáng.)
- 엄마 드라마를 보십니. (Mẹ xem phim truyền hình.)
Chủ ngữ + Tân ngữ (có bổ ngữ) + Vị ng
- 착한 친구를 좋아합니다. (Tôi thích bạn hiền.)
228 | K YU HI THO KHOA HC QUC GIA 2024
...................................................................................................................................................................................
Ch ngữ (có định ngữ) + v ngữ (danh t +
“là”) 이다”: là
- 치마를 입는 여자 우리 담임 선생님이십니다.
(Cô gái mặc váy trắng là giáo viên chủ nhiệm của tôi.)
Chủ ngữ + vị ngữ (trạng từ + động từ)
- 비가 많이 와요. (Trời mưa to.)
- 학생들이 열심히 부해요. (Các học sinh chăm học.)
Chủ ngữ + vị ngữ (phó từ + tính từ)
- 꽃이 아주 예뻐요. (Hoa rất đẹp.)
Chủ ngữ + Trạng ngữ chỉ nơi chốn + Tân ngữ
+ v ng (động t động)
- 엄마가 안방에서 드라마를 보십니다. (Mẹ xem phim
truyền hình trong phòng.)
Chủ ngữ + Trạng ngữ chỉ thời gian + Tân ngữ
+ v ng (động t động)
- 아빠가 7시에 아침을 드십니다. (Ba ăn sáng lúc 7 giờ.)
Trạng ngữ chỉ thời gian + Chủ ngữ + Trạng
ngữ chỉ thời gian + Tân ngữ + v ng (động
t động)
- 매일 아빠가 7 시에 아침을 드십니다. (Mỗi ngày ba ăn
sáng lúc 7 giờ.)
Một số điểm khác biệt chung trong cấu trúc câu tiếng Hàn so với tiếng Việt.
- Cuối câu tiếng Hàn luôn là động từ hoặc tính từ được chia đuôi từ.
- Đuôi từ kết thúc câu trong tiếng Hàn thể hiện được thì của câu, ý đồ của người nói,
dạng kính ngữ/ngang hàng/trung lập, thể bị động/thể truyền khiến.
- Tiếng Hàn có các trợ từ nằm sau các từ loại như đại từ, danh từ, trạng từ, số từ để chỉ
từ đó đóng vai trò gì trong câu (Vd: trợ từ /” đứng sau danh từ để chỉ danh từ đó
chủ ngữ; trợ từ “/” đứng sau danh từ để chỉ danh từ đó là tân ngữ).
- Trạng ngữ chỉ thời gian và nơi chốn có thể đặt ở đầu câu, giữa câu nhưng không được
đặt ở cuối câu.
- Câu thể không chủ ngữ không các trường hợp viết hoa đầu câu hay tên
riêng.
3. PHƯƠNG PHÁP NGHIÊN CỨU
Đối tượng nghiên cu: bn dch tiếng Hàn bài quảng bá trường ĐH Ngoại ng - Tin
hc TP. HCM
Phm vi nghiên cu: các li t vng, li tr t, li ng pháp (cấu trúc câu, đuôi từ liên
kết câu, đuôi từ kết thúc câu) phát sinh khi dùng Google Translate ChatGPT đ dch bài
qung bá.
Phương pháp so sánh đối chiếu: dùng kết qu ca bn dch (dch t động và dch truyn
thng) thc hin trên bình din cú pháp, bình din ng nghĩa. Kết hp với phương pháp miêu
t để xác định v trí ca li trong câu tiếng Hàn khi dch t động t Vit sang Hàn.
Ngun d liệu cơ sở: ni dung qung bá bng video clip ca HUFLIT.
Ý nghĩa khoa học - thc tin: 1. V mt ngôn ng: to thêm ngun tài liu tham kho
liên quan đến các li t vng/ng pháp trong dch t động dch truyn thống (người dch
NGÔN NG HC TÍNH TOÁN: NHỮNG XU HƯỚNG MI, TRIN VNG VÀ THÁCH THC | 229
...................................................................................................................................................................................
trc tiếp). 2. V mt thc tin: h tr ci thin các li nâng cao chất lượng trong dch t
động, là ví d thc tế cho hc phn dch thut.
4. ĐỐI CHIU NI DUNG DCH
Quá trình dịch đi chiếu diễn ra qua 4 bước, thi gian thc hin dch t động t
ngày 8 đến 15/7/2024.
c 1: cho ngôn ng ngun (ni dung qung bá bng tiếng Vit) vào GT.
c 2: cho ngôn ng ngun (ni dung qung bá bng tiếng Vit) vào ChatGPT
c 3: dch truyn thống (người viết t dch và nh người Hàn biết tiếng Vit kim
tra)
c 4: ly ni dung dch truyn thng làm chuẩn để so sánh, rà soát, truy vn li sai
hoặc cách dùng từ chưa chính xác của ngôn ngữ đích được dịch tự động.
Ngôn ng
nguồn (1)
Con người sinh ra vi nhiu s la chọn, có người chn thành thị, có người chn
nông thôn. người chọn văn hóa truyền thống, người chn cuc sng hin
đại. Có người chn sng mt cuộc đời rc rỡ, có người chn s tĩnh lặng.
Google
Translate
사람들은 많은 선택권을 갖고 태어나며, 어떤 사람은 도시 지역 택하고,
어떤 사람은 시골 지역 선택합니다. 어떤 사람은 전통 문화를 선택하,
어떤 사람은 현대 생활을 선택합니다. 어떤 사람은 화려한 삶을 선택하고,
어떤 사람은 침묵 택합니다.
Lỗi về logic: Con người sinh ra vi nhiu s la chnthì chuyển sang tiếng Hàn
thành Con người nhiều sự lựa chọn rồi sinh ra” 사람들은 많은 선택권을
갖고 태어나며
Lỗi thừa từ vựng: Sau từ “thành thị/thành phố” (도시) từ nông thôn (시골)
không cần thêm từ khu vực (지역)
Lỗi từ vựng: từ “침묵nghĩa là “sự im lặng (không nói)”
ChatGPT
사람은 많은 선택지를 가지고 태어납니다. 어떤 사람은 도시를 선택하고,
어떤 사람은 시골 선택합니다. 어떤 사람은 전통 문화를 선택하고, 어떤
사람은 현대 활을 선택합니다. 어떤 사람은 화려한 인생 선택하고, 어떤
사람은 고요함을 선택합니다.
Lỗi về logic: tương tự như Google Translate
Dịch truyền
thống
모든 사람들은 태어날 때부터 선택 자유가 있습니다. 어떤 사람은 도시를
선택하고, 어떤 사람은 시골을 택합니다. 어떤 사람은 전통 문화를