Phần mềm dịch thuật trực tuyến: Cần quan

tâm đến

Đánh vào ô Translate text câu hỏi “Automated language translation – is it an idea

whose time has come?” (Dịch thuật tự động – Nó có là một ý tưởng mà thời của

nó đã đến không ?) và cho chương trình dịch câu hỏi đó sang tiếng Pháp. Tiếp

theo, dịch kết quả từ tiếng Pháp sang tiếng Đức. Và cuối cùng, dịch câu tiếng Đức

có được trở lại tiếng Anh. Bạn sẽ có kết quả là “Did language translation

automate – is it an idea, from which the time came?” (Dịch thuật tự động hóa – Nó

có là một ý tưởng mà thời gian đến từ đó?).

Làm lại giống như vậy với câu “Reboot your computer and try again.” (Khởi động

lại máy tính của bạn và thử lại lần nữa) bạn sẽ có kết quả cuối cùng là “Their

computer and attempt still again load.” (Máy tính của họ và nỗ lực vẫn còn nhập

vào lần nữa.) Ôi trời ! Đúng là “tam sao thất bản”!!! Có lẽ bạn sẽ thật sự ngán

ngẫm nếu như những sách hướng dẫn sử dụng thiết bị có nhiều ngôn ngữ được

dịch theo kiểu như thế này.

Tuy vậy, công bằng mà nói thì các công cụ dịch thuật cũng có những hỗ trợ tích

cực ở một số mặt nào đó. Và các nhà nghiên cứu cho biết những cách tiếp cận mới

sẽ mang lại nhiều cải thiện về cách thực hiện cho những công cụ dịch thuật.

Cập nhật cơ sở dữ liệu

Hãng xe hơi Ford đã bắt đầu sử dụng phần mềm dịch thuật (machine translation)

từ năm 1998, và đến nay hãng này đã dịch được năm triệu câu hướng dẫn lắp ráp

từ tiếng Anh sang tiếng Tây Ban Nha, Đức, Bồ Đào Nha và tiếng Tây Ban Nha

của người Mexico. Các sách hướng dẫn lắp ráp bằng tiếng Anh được cập nhật mỗi

ngày, và những bản dịch của chúng – khoảng 5.000 trang một ngày – được nhanh

chóng chuyển đến các nhà máy của Ford trên khắp thế giới.

Nestor Rychtyckyj, chuyên gia về trí tuệ nhân tạo (Artificial Intelligence – AI) của

hãng Ford, nói: “Bạn không thể làm toàn bộ công việc này một cách thủ công

được.”

Hãng xe hơi này sử dụng phần mềm Enterprise Global Server của Systran

Software, một công ty chuyên cung cấp các phần mềm dịch thuật có trụ sở ở San

Diego, bang California. Bên cạnh đó, các kỹ sư của Ford cũng tự viết một chương

trình AI để chuyển ngữ những câu hướng dẫn thuộc về chuyên môn ở cấp độ cao

một cách chính xác và rõ ràng. Mỗi một câu hướng dẫn đều được lưu trữ vào cơ sở

dữ liệu để dùng cho việc dịch thuật.

Hãng Ford cũng phải phát triển những từ điển thuật ngữ chuyên ngành xe hơi.

Theo Rychtyckyj, duy trì những từ điển như thế dễ dàng hơn việc tìm kiếm một

chuyên gia dịch thuật thông thạo các thuật ngữ. Ông nói: “Hầu hết những nỗ lực

của chúng tôi là xây dựng các bảng thuật ngữ, và thường xuyên thay đổi chúng.

Kết quả dịch thuật của bạn sẽ tốt hơn nhiều nếu bạn có sự chuẩn bị trước.”

Phần mềm của công ty Systran sử dụng một kỹ thuật đáng tin cậy gọi là dịch theo

quy tắc (rules-based translation). Những hệ thống như thế sử dụng những từ điển

song ngữ kết hợp với cơ sở dữ liệu về cách dùng từ và các quy tắc văn phạm. Các

trình dịch thuật thương mại thường được bổ sung bằng các bảng thuật ngữ, hoặc

những cơ sở dữ liệu lưu trữ những câu hoặc đoạn văn mẫu đã được dịch sẵn

(translation memory). Những phần bổ sung này thường do người sử dụng lập ra

trong quá trình dịch thuật. Nhờ vậy, phần mềm dịch thuật có thể đưa ra những từ

hoặc câu dịch chính xác hoặc gần đúng nhất so với từ hoặc câu gốc để người dịch

dễ dàng xem lại.

Huấn luyện phần mềm

Dịch thuật theo kiểu thống kê (statistical machine translation) là một kỹ thuật mới

nhưng chưa được sử dụng rộng rãi. Kỹ thuật này sử dụng những văn bản gốc và

bản dịch của chúng để “huấn luyện” phần mềm. Theo thời gian, những hệ thống

này sẽ “học” được cách tạo ra một bản dịch tốt, rồi dùng phép tính xác suất và

thống kê để chọn ra một từ hoặc cụm từ gần đúng nhất dựa trên ngữ cảnh.

Các hệ thống thống kê đòi hỏi phải có rất nhiều văn bản để huấn luyện các thuật

toán, nhưng chúng không cần các quy tắc văn phạm, từ điển song ngữ hoặc

translation memory. Chúng tự phát triển những quy tắc và tiếp tục tự điều chỉnh

các quy tắc đó theo thời gian.

Hãng Google sử dụng phần mềm dịch theo quy tắc của công ty Systran, nhưng họ

cũng phát triển những hệ thống dựa trên thống kê của chính họ để dịch từ tiếng

Anh sang tiếng Ả-Rập, Nga, Hoa, Hàn, Nhật, và ngược lại. Theo chuyên gia

nghiên cứu Franz Josef Och của Google, những ngôn ngữ này rất khó cho các

phần mềm dịch thuật vì chúng khác với các ngôn ngữ Tây phương có gốc là tiếng

Latin bình dân (Vulgar Latin).