MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM

Chia sẻ: Thanh Nga | Ngày: | Loại File: PDF | Số trang:14

0
181
lượt xem
44
download

MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM

Mô tả tài liệu
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Việc phát triển quan hệ kinh tế với TQ, Đài Loan, Hồng Kông, Singapore đã thúc đẩy phong trào học tiếng Hoa trong nước, đặc biệt từ cuối những năm 1990. Việc chế bản vi tính chữ Hán du nhập vào nước ta từ khoảng đầu những năm 1990 với các phần mềm tiếng Hoa như Windows 3.1 tiếng Hoa, TwinBrigde (Song Kiều), Chinese Star hay ET .v.v. Xu hướng chung là khai thác khả năng của Song Kiều cho phép đăng ký thâu nhập pháp tự biên soạn để đánh chữ Hán theo âm Hán Việt, và nhờ khả...

Chủ đề:
Lưu

Nội dung Text: MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM

  1. BÁO CÁO THAM DỰ HỘI NGHỊ QUỐC TẾ VỀ CHỮ NÔM (Hà Nội 11/2004) MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM Người viết báo cáo: Phan Anh Dũng, Chuyên viên Công ty Sách-TBTH TT-Huế, Cộng tác viên của Trung tâm Công nghệ phần mềm Huế (Huesoft). I. Giới thiệu: Việc phát triển quan hệ kinh tế với TQ, Đài Loan, Hồng Kông, Singapor đã thúc đẩy phong trào học tiếng Hoa trong nước, đặc biệt từ cuối những năm 1990. Việc chế bản vi tính chữ Hán du nhập vào nước ta từ khoảng đầu những năm 1990 với các phần mềm tiếng Hoa như Windows 3.1 tiếng Hoa, TwinBrigde (Song Kiều), Chinese Star hay ET .v.v. Xu hướng chung là khai thác khả năng của Song Kiều cho phép đăng ký thâu nhập pháp tự biên soạn để đánh chữ Hán theo âm Hán Việt, và nhờ khả năng của Song Kiều cho phép vẽ bổ sung nhiều chữ mới, nên có thể vẽ và chế bản cả chữ Nôm. Nhóm chúng tôi đã tận dụng các khả năng này của Song Kiều để chế bản được một số tác phẩm chữ Nôm kinh điển. Đồng thời trong những năm đó Viện nghiên cứu Hán Nôm ở Hà Nội phối hợp với Hội bảo tồn di sản chữ Nôm (NômFoundation) đã đi trước một bước cơ bản là xúc tiến việc đưa chữ Nôm vào chuẩn Unicode quốc tế. Hiện tại đã đưa được 9299 chữ Nôm căn bản nhất vào chuẩn Unicode 3.1 và sẽ còn tiếp tục bổ sung. NômFoundation cũng đang xúc tiến việc vẽ font chữ, làm các công cụ tra cứu trên mạng Internet và bắt tay xây dựng phần mềm xử lý chữ Nôm có bài bản... Nhóm chúng tôi ở Huế cụ thể là Phan Anh Dũng, Nguyễn Thế với sự cố vấn của Nhà giáo ưu tú Nguyễn Đình Thảng, cũng quan tâm tới lĩnh vực ứng dụng CNTT vào nghiên cứu chữ Nôm, chúng tôi chọn con đường thực nghiệm, bắt đầu từ việc vẽ font chữ Nôm để biên khảo và chế bản in một số sách chữ Nôm, làm các tự điển tra cứu chữ Hán và chữ Nôm, đặc biệt đi sâu nghiên cứu về tuồng chữ Nôm cổ... dần dà đã có một căn bản Hán Nôm tương đối và thu nhập được nhiều kinh nghiệm thực tế rất bổ ích trong lĩnh vực ứng dụng vi tính vào Hán Nôm. Và cũng từ đó chúng tôi nảy sinh ý tưởng xây dựng một phần mềm Hán Nôm độc lập hoàn chỉnh. Phần mềm đó phải có khả năng chạy trực tiếp trên hệ điều hành Windows tiếng Anh cũng như Hoa hay Việt, không cần tới các chương trình hỗ trợ tiếng Hoa, với những chức năng cơ bản là: có một hệ thống font chữ Nôm Unicode tương đối đầy đủ, có thâu nhập pháp (IME, gọi nôm na là bộ gõ) để có thể đánh được chữ Nôm (tất nhiên là cả chữ Hán) vào văn bản, có khả năng tra cứu ý nghĩa cả chữ Hán và Nôm dưới dạng tự điển vi tính, và một số chức năng phụ trợ khác như phiên âm, vẽ chữ bổ sung, hiệu chỉnh IME... Nhóm chúng tôi đã mạnh dạn đặt vấn đề với địa phương (tỉnh Thừa Thiên Huế) về đề án xây dựng một phần mềm Hán Nôm hoàn chỉnh và độc lập, lại được nhiều tổ chức và cá nhân hỗ trợ hay khuyến khích, như TS Đỗ Nam GĐ sở KH-CN-MT Thừa Thiên Huế, ông 1
  2. Nguyễn Xuân Hoa GĐ sở Thông tin Văn Hoá TT-Huế, Trung tâm phần mềm Huế, TS Ngô Trung Việt ở viện Công nghệ TT .v.v. Báo cáo này giới thiệu một số kết quả nghiên cứu của đề tài trên. II. Vấn đề mã hoá Unicode chữ Nôm, hiển thị chữ Nôm trên máy tính cá nhân và đưa chữ Nôm lên internet. Việc chuẩn hóa chữ Nôm và đưa vào chuẩn mã Unicode quốc tế là một công trình lớn và hết sức giá trị, việc phát triển các phần mềm Hán Nôm sắp tới sẽ dựa hoàn toàn vào đó. Các vấn đề kỹ thuật liên quan đã có các báo cáo của các chuyên gia cao cấp. Ở đây chúng tôi chỉ tập trung thảo luận các kinh nghiệm thực tiễn mà chúng tôi nắm được. Sau khi mở rộng tới 21bits hệ thống mã Unicode hiện nay gồm 17 mặt phẳng mã hoá, mỗi mặt phẳng có kích thước 256*256, tính ra có hơn một triệu vị trí mã. Quan trọng nhất chính là mặt phẳng đa ngữ cơ sở chứa các kí tự ASCII và các kí tự 2byte “cũ”, xin xem sơ đồ kiến trúc Unicode ở phụ lục. Không kể các chữ Hán mượn làm chữ Nôm, thì phần lớn các “thuần Nôm” nằm ở mặt phẳng mã hóa bổ sung 2, có mã số lớn hơn 2bytes, chúng được biểu diễn bởi 2 ký tự trong khu vực surrogate của mặt phẳng đa ngữ cơ sở, đó gọi là cơ chế surrogate (thay thế), công thức mã hoá surrogate xin xem ở phụ lục. Việc sử dụng các chữ thuần Nôm đó cần có các phần mềm hỗ trợ kỹ thuật surrogate. Theo tài liệu của các chuyên gia như TS Ngô Trung Việt, Đỗ Bá Phước thì số lượng các phần mềm hiện hỗ trợ kỹ thuật surrogate hiện còn khá hạn chế: - Windows XP, Office XP, và các phầnn mềm khác dựa trên công nghệ UniScribe của Microsoft. - Mac OS X, và các phần mềm khác dựa trên công nghệ ATSUI của Apple. Như vậy việc dùng các chữ Nôm ở mặt phẳng 2 trong điều kiện ở nước ta hiện nay có nhiều cái khó khăn. Nhất là vấn đề đưa chữ Nôm lên mạng internet, nếu theo đúng chuẩn unicode thì vấp phải một số vấn đề kĩ thuật khá rắc rối. Thử nghiệm ngay với OfficeXP và WinXP tuy nói là hỗ trợ surrogate, nhưng thực tế vẫn còn có chỗ chưa được suôn sẻ ... Chúng ta có thể chọn giải pháp tạm thời là ánh xạ các chữ thuần Nôm vào khu vực người dùng tự do định nghĩa trong mặt phẳng cơ sở. Khu vực này từ E000 tới F8B0 có 6320 mã đủ cho các chữ thuần Nôm Unicode 3.1. Tuy nhiên vì nhiều lý do, trong phiên bản chương trình đầu tiên chúng tôi đã áp mã vào khu vực CJK cơ sở. Tuy chiếm dụng mã CJK cơ sở, nhưng không chiếm dụng mã các chữ Hán trong BIG5 và GB, chỉ chiếm các mã bổ sung mới của CJK. Do đó khi dùng bộ font TTF chữ Nôm có cả chữ Hán trong chương trình để xem các trang WEB của TQ cũng như Đài Loan thấy vẫn hiển thị đầy đủ, hầu như không có lỗi. Do mã chữ Nôm được xếp ở các „khe hở“ trong khu vực CJK nên IE bị đánh lừa, coi nó hoàn toàn như chữ Hán, việc đưa các chữ Nôm này lên mạng Internet, hay sao chép giữa các chương trình Windows rất dễ dàng, thông suốt, không có trục trặc gì cả. Tuy nhiên về lâu dài thì tất yếu phải theo chuẩn Unicode, muốn thế phải giải quyết vấn đề hiển thị surogate. Ban đầu chúng tôi chỉ biết OfficeXP có hỗ trợ cơ chế surrogate, nhưng qua nhiều thử nghiệm thực tế thì phát hiện thấy ngay notepad của WIN2000 cũng có thể 2
  3. hiển thị các chữ Unicode surrogate, còn IE6.0 có thể hiển thị nếu có các thiết đặt thích hợp. Phiên bản phần mềm giới thiệu ở hội nghị này là phiên bản đã chuẩn hóa đúng theo Unicode3.1. III. Vấn đề làm Font cho chữ Nôm Đồng thời với việc tuyển chọn chữ và đăng ký mã Unicode cho chữ Nôm là vấn đề tạo font TTF cho chữ Nôm, đã có nhiều tổ chức và các nhân thực hiện vấn đề này, ví dụ: - Hội Văn tự kính ở Tokyo, Nhật, có vẽ giúp cho VN một bộ font chữ Nôm. - Công ty DynaLab ở Đài loan cũng có vẽ cho VN một bộ font chữ Nôm TTF lấy cơ sở trên 9299 chữ Unicode3.1 đã có. Tiếc là bộ font này không những không theo chuẩn Unicode mà còn để chữ Nôm xâm phạm mã các chữ Hán quan trọng trong khu vực chữ Hán CJK căn bản, nên khó khăn khi ứng dụng vào thực tiễn. - Nhóm Đỗ Quốc Bảo cùng với các ni cô ở Thiền Viện Viên Chiếu (Vũng tàu) có vẽ một bộ font chữ Unicode3.1 lớn, có đủ cả 9299 chữ Nôm, và đã có sử dụng ở nhiều chùa tại Tp HCM. Thế mạnh của nó là có tới hơn 6 vạn chữ, trong đó có nhiều chữ trong sách Phật, nhưng vẫn còn nhược điểm đó là: bộ font này quá lớn, các chương trình vẽ font chúng tôi hiện có không xử lý được, do quá lớn không tạo được “Hint” nên hiển thị với co chữ nhỏ bị mất nét, cũng do quá lớn phải cắt ra thành 3 file font nhỏ nên sẽ khó khăn khi soạn thảo và trao đổi văn bản. - Nhóm Nôm Na của TS Ngô Trung Việt ở Hà Nội đang thực hiện việc vẽ font chữ Nôm rất có bài bản, bắt đầu từ khâu chọn kiểu chữ (đó là kiểu chữ khắc trong "Thiền Tông bản hạnh") tới khâu phân tích chiết tự các thành phần chữ tạo thành cơ sở dữ liệu về cấu tạo chữ, rồi chuẩn bị vẽ trước font chứa các nhóm nét bút cơ bản để tổng hợp thành chữ phức tạp .v.v. - Nhóm chúng tôi cũng đã thực hiện việc vẽ font TTF với hai dạng chữ Khải và chữ Minh, và đã có liên hệ với Viện NC Hán Nôm và tổ chức Nomfoundation để thống nhất mã chữ Nôm trong đề án của chúng tôi theo chuẩn Unicode, chúng tôi đã tích cực giải quyết các khía cạnh kỹ thuật để xây dựng phiên bản phần mềm 2.0 tuân thủ đúng chuẩn unicode3.1, để giới thiệu ở hội nghị này.. IV. Những yêu cầu căn bản của một phần mềm chữ Nôm: Khi đã xây dựng được bộ font chữ Nôm Unicode thì công việc quan trọng tiếp theo là làm phần mềm chữ Nôm có khả năng đánh được các chữ Nôm đó vào văn bản, và tra cứu được ý nghĩa của chúng. Nhưng trước khi bắt tay làm chúng ta cần phân tích và tìm hiểu các yêu cầu của một phần mềm chữ Nôm. 1. Yêu cầu về phía người sử dụng: - Trước hết phải xác định đối tượng phục vụ của phần mềm là quảng đại quần chúng hay một số ít nhà nghiên cứu Hán Nôm ? Chúng tôi nhắm tới quảng đại quần chúng trước. 3
  4. - Còn với đối tượng là các nhà chuyên môn Hán Nôm thì cần có những phần mềm chuyên nghiệp hơn. Chúng tôi nghĩ là phải bổ sung những công cụ tiện ích hay làm hẳn một phần mềm có những tính chất “chuyên dụng” và “đặc thù” để phục vụ riêng cho đối tượng này. - Với quảng đại quần chúng thì yêu cầu đối với phần mềm đầu tiên là các khả năng tra cứu, phiên dịch và học tập tức là các tự điển và bảng tra vi tính cùng với các bộ văn tuyển chọn lọc đi kèm. - Chức năng đánh chữ Nôm và soạn văn bản Hán Nôm là mức cao hơn chủ yếu dành cho chuyên gia và những người đã có quá trình nghiên cứu học tập Hán Nôm tương đối lâu. - Khả năng vẽ thêm chữ Nôm mới và đưa nó vào văn bản (để chế bản sách Nôm) là ở mức cao hơn nữa, mức chuyên gia. Phần mềm hiện tại chưa cung cấp tiện ích vẽ font TTF, do chúng tôi phải tôn trọng vấn đề bản quyền. - Phần mềm chữ Nôm phải gắn bó với phần mềm chữ Hán, trên lý thuyết thì có thể học ngay chữ Nôm mà không cần học trước chữ Hán, nhưng ai cũng thừa nhận chúng có quan hệ rất gắn bó, và thực tế nếu có căn bản chữ Hán trước thì học chữ Nôm mới dễ. Các văn bản chữ Nôm của ta thường chen rất nhiều chữ Hán, hầu như không có văn bản nào là thuần Nôm cả, cho nên thâu nhập pháp để đánh chữ Nôm cũng phải đánh được những chữ Hán phổ thông thường dùng. Ngoài ra nó phải có các thâu nhập pháp đánh chữ Hán theo âm Hán Việt và âm phổ thông TQ (PinYin), phục vụ Hoa Kiều và những người học tiếng Hoa hiện đại. - Phần mềm phải chạy được trên WIN98 là hệ điều hành chưa hỗ trợ Unicode, với những nhà chuyên môn về CNTT thì đây là một bước thụt lùi có vẻ vô lí, tại sao không đặt cơ sở trên Win2000 hay XP là các hệ điều hành hiện đại hơn có hỗ trợ Unicode ? Để hiểu được yêu cầu này phải đứng ở vị trí các nhà nghiên cứu Hán Nôm trong nước. Có hai lý do, thứ nhất hệ điều hành Win98 vẫn còn dùng khá phổ biến trong các máy tính để bàn ở Việt Nam, nhưng quan trọng hơn là do trong một thời gian dài phần mềm Song Kiều (bản 4.0, 4.5 và 4.98) và Chinese Star được các nhà nghiên cứu Hán Nôm trong nước dùng phổ biến, (chúng dùng font dạng FNT và không chạy trên các hệ điều hành Win200/XP), các văn bản làm trên Song Kiều rất nhiều, không dễ một sớm chiều chuyển đổi và dùng Unicode ngay được. Hơn nữa, nếu chúng tôi không lầm thì mã nguồn các trang Web của TQ, Đài Loan đa số vẫn dùng các hệ mã GB, BIG5 cũ chứ không phải đã chuyển qua Unicode toàn diện. 2. Yêu cầu về mặt kĩ thuật (với người lập trình): - Phải tuân thủ đúng chuẩn Unicode cho chữ Nôm. - Chương trình phải chạy ổn định, tránh xung đột với các chương trình tiếng Việt như ViệKey, Unikey. - Giao diện đơn giản, thân thiện. - Phần mềm nên có tính mở, dễ tu sửa bảo trì 4
  5. - Phải xây dựng cơ sở dữ liệu cho chữ Hán, Nôm có thể dễ dàng sử dụng và bổ sung về sau - Phải tận dụng các khả năng multimedia (âm thanh, hình ảnh) của thế giới CNTT hiện đại. - Yêu cầu phần mềm vẫn chạy được trên Win98 nên cần một số giải pháp kỹ thuật đặc biệt trong khâu hiển thị và đánh chữ Hán, Nôm Unicode vào văn bản vì Win98 là hệ điều hành chưa hỗ trợ Unicode. - Giải quyết được vấn đề sử dụng các chữ Nôm ở mặt phẳng bổ sung 2 theo cơ chế surrogate, đây là vấn đề khó khăn nhất... 3. Yêu cầu đối với thâu nhập pháp đánh chữ Nôm. - Nhiều nhà chuyên môn nhấn mạnh yêu cầu là thâu nhập pháp (IME, hay gọi nôm na là bộ gõ) cần có phần hiển thị ý nghĩa ngữ cảnh của từng chữ Nôm để người mới học có thể đánh được chữ Nôm. Nhưng trong phần trên chúng tôi đã phân tích đối tượng sử dụng thì những người cần đánh chữ Nôm vào văn bản thuộc mức trung bình (đã có học ít nhiều Hán Nôm) và cao (chuyên gia Hán Nôm), chứ chưa phải quảng đại quần chúng. Bộ gõ chúng tôi làm cũng đã tính tới trường hợp này nên tích hợp gắn bó với phần tự điển tra cứu chứ không phải bắt trước giống y như IME của người TQ là IME chỉ có mỗi việc đánh chữ, thực tế tự điển gắn với IME đã là một dạng hiển thị ngữ cảnh. - Thực ra có thể đoán được nghĩa của nhiều chữ Nôm chỉ qua tự hình vì đặc trưng quan trọng nhất của họ chữ chữ biểu ý là có sẵn cái hình dạng biểu ý trong chữ ! Lại còn một đặc điểm nữa tiếng Việt là thứ tiếng đơn âm, thường mỗi chữ mỗi âm đều có nghĩa, nhiều khi không cần ghép thêm một chữ nào đi cùng làm ngữ cảnh vẫn có thể hiểu chữ, ví dụ chữ người chẳng hạn. - IME trong các chương trình tiếng Hoa thường có chức năng “gợi ý” và tự động hoàn thành từ tổ theo một từ điển có sẵn, đó cũng là một hình thức hiển thị ngữ cảnh. Để làm điều đó quan trọng là phải làm một từ điển chữ Nôm thông dụng, (từ chứ không phải tự), việc này khá tốn thì giờ cần có thêm các chuyên gia Hán Nôm tham gia. - Về vấn đề bộ gõ theo tự dạng, chúng tôi quyết định làm thâu nhập pháp Thương Hiệt giản cho cả chữ Hán và chữ Nôm. Nhân đây nên bàn kĩ thêm về kiểu gõ Thương Hiệt (CangJie), nó rất lợi hại khi dùng để tra tự điển, tra nghĩa chữ chưa biết, vì nó là kiểu gõ theo phân tích tự dạng, dùng lúc không biết biết âm đọc và ý nghĩa. Nhằm giúp người dùng tìm và phân tích mã Thương Hiệt, nên các tự điển trong phần mềm của chúng tôi có cung cấp mã Thương Hiệt giản cho cả chữ Hán và Nôm. Về kỹ thuật quản lý bàn phím trong IME, phải quản lý ở mức hệ thống nên vấn đề lớn là tính ổn định, tránh xung đột với các bộ gõ tiếng Việt như Viêtkey, Unikey ... 3. Phác thảo cơ bản của phần mềm: Từ các yêu cầu phân tích ở trên chúng tôi phác họa cho phần mềm một mô hình “ba chân” như sau: 5
  6. Ba chân đó là: 1. Font chữ Nôm 2. Thâu nhập pháp (IME) 3. Các tiện ích bổ trợ Trong đó mục 2 “Thâu nhập pháp” là trung tâm, quyết định tính chất độc lập của phần mềm và hai mục đầu là quyết định cho việc hình thành một phần mềm Hán Nôm có tính hoàn chỉnh và độc lập. 4. Giải pháp kỹ thuật quan trọng nhất: sử dụng IE để hiển thị chữ Hán, Nôm Win98 chưa hỗ trợ Unicode. Nhưng một số chương trình chạy trên Win98 vẫn có thể hiển thị và soạn thảo với font TTF Unicode, do chúng tự quản lý lấy việc truy cập và hiển thị bằng các DLL của chúng, điển hình là Internet Explorer từ 4.0 trở lên và Office từ 97 trở lên. Qua hàng loạt thử nghiệm thực tế, đánh vật với vấn đề hiển thị chữ Nôm trong MS Word và các phần mềm khác, chúng tôi đã đi đến giải pháp sử dụng IE (Internet Explorer của Microsoft) để hiển thị được chữ Hán và Nôm trên nền Win98, chuyển cơ sở dữ liệu chữ Hán, chữ Nôm (tức là các tự điển và bảng tra) sang dạng văn bản HTML để browse bằng IE, đây là định hướng “chiến lược” của phần mềm. Sử dụng HTML hợp với xu thế thời đại đó là sự phổ biến của các văn bản và chương trình dùng mạng Internet, nó cũng gần với XML trong kế hoạch làm phần mềm của Nomfoundation. Khi dùng HTML với các bộ browser để hiển thị chữ Hán, Nôm sẽ rất đẹp mắt và tha hồ đưa các hiệu ứng âm thanh hình ảnh mà 6
  7. chúng ta vẫn thấy trên internet vào phần mềm…khi cần chuyển về dạng “DOC” phổ thông cũng không có gì khó khăn. Như đã nói trên, với IE6.0 trở lên và với những cài đặt thích hợp, nó có khả năng hiển thị các chữ Nôm “surrogate” ở mặt phẳng mã hóa 2. Như vậy giải quyết luôn được nhiệm vụ quan trọng là đưa chữ Nôm lên mạng internet, một đòi hỏi bức thiết trong thời buổi bùng nổ CNTT trên mạng hiện nay. V. Giới thiệu cụ thể một số kết quả đã làm được: Kết quả nghiên cứu của chúng tôi là phần mềm “Việt Hán Nôm” phiên bản 1.0 đã cho phổ biến miễn phí trên mạng, và đã có một số bài giới thiệu trên các tạp chí PCWorld VN và Echip, nên trong báo cáo này chúng tôi thấy không cần giới thiệu chi tiết về các chức năng hoạt động của nó, mà chỉ đề cập sơ qua các chức năng chính yếu. a./ Vài số liệu kỹ thuật cơ bản : - Độ lớn file cài đặt: 24,4 MB. Độ lớn sau khi bung ra 38,4 MB, dung lượng chiếm đĩa khoảng 30Mb tuỳ hệ điều hành. - Yêu cầu cấu hình máy tối thiểu là Pentium 220MHZ, dung lượng đĩa trống 50MB, chạy hệ điều hành Win98, Win2000, WinXP. - Gồm có hai font TTF chữ Hán-Nôm dạng Khải thể và Minh thể, độ lớn mỗi file font khoảng 2,2 vạn chữ (khoảng 10-11MB), tổ chức như sau: o 13.200 chữ Hán phồn thể BIG5. o 3.000 chữ Hán giản thể GB, không trùng dạng chữ phồn thể. o 4.500 chữ Nôm không trùng với BIG5 và GB. Không kể hơn 5000 chữ vốn mượn chữ Hán. o Còn lại là các ký tự La tinh, Nga, Nhật, Arập, Thái, Việt (quốc ngữ), dấu chấm câu và các kí hiệu toán như ở các font chữ Unicode thông thường.... - Chương trình chứa 5 thâu nhập pháp cơ bản là: đánh telex âm Hán Việt, đánh telex âm chữ Nôm, đánh âm PinYin Hán, đánh mã Thương Hiệt giản chữ Hán, đánh mã Thương Hiệt giản chữ Nôm. b. Giao diện chính của chương trình Việt Hán Nôm: Do dùng IE làm cơ sở hiển thị nên bản chất cũng như hình thức của chương trình chính là một bộ browser, kế thừa tất cả các thiết định trong Internet Explorer của người dùng, ứng với hệ điều hành Windows đang chạy. Xem hình ở trang sau: 7
  8. Ô hiển thị chữ đồng mã để chọn Ô nhập Cửa sổ phiên âm Cửa sổ Browser c. Các chức năng chính của phần mềm Hán Nôm 2002 1.Tra nghĩa chữ Hán, Nôm: Có nhiều cách tra: Tra theo mã nhập: Với chữ Hán có thể tra theo mã Pinyin (tiếng Quan thoại) , mã telex phiên âm Hán Việt hay mã Thương Hiệt giản (Simpe Cangjie, là kiểu gõ theo tự hình chữ) với chữ Nôm có hai cách tra là gõ telex theo âm quốc ngữ hay gõ mã Thương Hiệt giản chữ Nôm... Các chữ đồng mã sẽ hiển thị trong một khung nhỏ có đánh số để người dùng chọn, chọn từng chữ bằng cách nhấn con số tương ứng trên bàn phím. Tuỳ lúc đó nút chọn Hán hay Nôm trên thanh công cụ đang nhấn xuống mà nghĩa Hán hay nghĩa Nôm của chữ sẽ hiển thị trong cửa sổ Browser ở dưới. 8
  9. Hình trên minh hoạ quá trình browse giải nghĩa chữ “quy”, chú ý có hiển thị cả chữ giản thể, và có thể tra chữ trong cửa sổ browser qua cửa sổ popup “ quick view”. Tra chữ trong ứng dụng khác: Nếu người dùng có sẵn văn bản dạng *.DOC mở trong MS Word, chỉ việc tô đen chữ rồi nhấn vào biểu tượng kính lúp ở khay hệ thống, chương trình mở một cửa sổ QuickView nhỏ hiển thị nghĩa chữ. Cái hay của chương trình là có khả năng tự động nhận diện mã phồn thể BIG5, mã giản thể BG hay mã Unicode trong văn bản và hiển thị đúng chữ cần tra. Tra theo bộ thủ (dàn trang theo bộ thủ): Toàn bộ các chữ Hán trong bộ font BIG5 được dàn trang theo từng bộ thủ, chỉ việc nhấn các liên kết lần tìm theo số nét bộ thủ tới từng bộ rồi tìm tới khu vực số nét cần tra và nhấn vào con chữ cần tra. Chú ý: phần tra chữ Hán đặt cơ sở trên Tự Điển Hán Việt Thiều Chửu (1942) có tăng bổ, thêm vào tất cả các chữ trong bộ mã phồn thể BIG5 và cung cấp nhiều dữ liệu vi tính của từng chữ; phần tra chữ Nôm lấy cơ sở là cuốn Bảng tra chữ Nôm của UBKHXH (1976). 2. Hỗ trợ phiên âm chữ Hán: Phần mềm có một chức năng khá độc đáo là hỗ trợ phiên âm Hán Việt cho chữ Hán, nhận diện được cả văn bản mã giản thể GB lẫn phồn thể BIG5 và mã unicode, giúp người sử dụng có thể thưởng thức các tác phẩm văn thơ chữ Hán và ngao du trong các trang WEB tiếng Hoa trên mạng mà không cần có nhiều vốn chữ Hán lắm. Chỉ cần tô đen đoạn văn bản cần phiên âm, với văn bản hiển thị trong Browser của chương trình thì nhấn chuột vào ô hiển thị phiên âm, kết quả hiện thị ngay trong ô đó. Còn với văn bản mở trong MS WORD 9
  10. thì nhấn nút phải biểu tượng kính lúp trên khay hệ thống, kết quả sẽ hiển thị popup trong cửa sổ QuickView nhỏ. Hình minh hoạ cửa sổ popup đang hiển thị phiên âm bài Tam tự kinh: Tiện ích này còn khá thô sơ, dự kiến sẽ bổ sung thêm chức năng hiệu chỉnh phiên âm tinh tế hơn theo các từ điển và tác phẩm văn học kinh điển. 3. Browse mạng và xem, sửa văn bản trên đĩa: Bộ Browser trong chương trình vốn thiết kế với mục tiêu chính là để giải quyết vấn đề hiển thị font Unicode cho chữ Hán và Nôm. Nhưng vì là Browser nên tự nhiên nó cũng có thể dùng để lướt trên mạng hay mở xem các văn bản DOC, TXT, HTML trên đĩa. Khi mở văn bản DOC và TXT nó cũng có khả năng sửa chữa đơn giản như trong IE5.0/6.0. 4. Ðánh chữ Hán, Nôm bằng “Việt Hán Nôm thâu nhập pháp”: Đây là chức năng quan trọng giúp phần mềm Việt Hán Nôm có tính độc lập cao, không bị phụ thuộc vào các phần mềm tiếng Hoa hay tiếng Việt nào cả. Giao diện của thâu nhập pháp như hình dưới: 10
  11. Đánh chữ: Phương thức hoạt động gần như thanh thâu nhập pháp của Song Kiều, đánh mã để hiển thị từng dãy chữ đồng mã, rồi nhấn dãy phím số 1,2…9,0 để đưa chữ tương ứng vào văn bản Xem nghĩa chữ trước khi đánh: nhờ kết hợp IME với các tự điển tra cứu, có thể xem nghĩa chữ tương ứng bằng cách nhấn chuột vào các con số 1,2…9,0 tương ứng chữ, giải nghĩa Hán hay Nôm sẽ hiển thị trong cửa sổ popup nhỏ. Nhập chữ Việt vào văn bản: Chữ Việt chính là là mã nhập đang hiển thị trong ô nhập mã cũng có thể đánh thẳng vào văn bản bằng cách nhấn thanh space. Mã của tiếng Việt nhập vào văn bản có thể chọn trong menu popup, phần mềm hiện chỉ hỗ trợ 4 mã là Unicode dựng sẵn, VNI, TCVN3 và VietWareX 5. Các tiện ích bổ trợ * Tiện ích biên tập lại thâu nhập pháp: Chức năng này để tu sửa lại các thâu nhập pháp theo ý người dùng, ví dụ đưa vào một chữ mới hay định nghĩa tốc ký cho một chữ thường dùng. Giao diện của nó như sau: 11
  12. * Tiện ích đổi mã văn bản ra mã Unicode: Tiện ích này chỉ đổi văn bản dạng HTML nhưng còn chưa hoàn chỉnh lắm. * Tiện ích hiệu chỉnh phiên âm: Do một số chữ có nhiều âm đọc, mà chương trình chỉ chọn sẵn một âm, nên phải dùng tiện ích này để hiệu chỉnh một số từ thông dụng, dưới dạng một tự điển đối chiếu từ sai/đúng. Dự kiến sẽ bổ sung các thuật toán và từ điển hiệu chỉnh tinh vi hơn. * Bản đồ font (Unicode Character Map): Để xem mã font và copy các ký tự đặc biệt không có sẵn trong thâu nhập pháp. Tiện ích này tương tự Character Map của Windows. Hình sau là giao diện của nó. 12
  13. *Trang Văn tuyển: Trong chương trình có một bộ văn tuyển các tác phẩm Hán Nôm kinh điển của Việt Nam và Trung quốc có dạng thức như một trang WEB trên mạng, nhằm giúp người dùng "thích mà đọc, vui mà học", vừa học chữ vừa học văn phạm, vừa thưởng thức văn chương... VI. Việc đưa phần mềm lên mạng, và hướng phát triển: Chức năng tra cứu và nhiều dữ liệu của phần mềm Việt Hán Nôm đã được đưa lên mạng dưới dạng trang Tự điển Trực tuyến tại: http://sager-pc.cs.nyu.edu/~huesoft http://www.huesoft.com.vn/hannom Có thể tải bản phần mềm miễn phí tại: http://www.pcworld.com.vn http://www.echip.com.vn Về hướng phát triển: - Nâng phần mềm lên mức chuyên nghiệp. Phát triển đồng thời phần mềm và trang WEB để phổ biến trên mạng - Bổ sung các Từ điển Việt Hán và Hán Việt (loại lớn hơn Tự điển Thiều chửu), từ điển chữ nôm thông dụng. Bổ sung các tư liệu văn bản Hán Nôm kinh điển. - Dựa vào các dữ liệu từ điển đó để thêm các thuật toán hiệu chỉnh phiên âm chính xác và tinh vi hơn. Đề xuất với các chuyên gia vi tính và chuyên gia Hán Nôm nghiên cứu phát triển phần mềm có khả năng dịch tự động văn bản Hán Nôm. - Xây dựng tiện ích hỗ trợ các nhà chuyên môn trong việc vẽ bổ sung chữ mới và quản lý các chữ đã vẽ để có thể dễ dàng lấy ra đưa chúng vào văn bản khi cần. Có thể sẽ quản lý dưới dạng các hình vẽ vertor lưu trong một cơ sở dữ liệu chứ không nhất thiết phải dưới dạng font chữ TTF, vì chất lượng hình vertor có thể dùng để chế bản và in ấn không thua kém font TTF. - Ứng dụng vào thực tiễn để biên khảo, chế bản và xuất bản các tác phẩm chữ Nôm và thông qua thực tiễn để hiệu chỉnh và phát triển phần mềm. HUẾ tháng 8/2004 (Hiệu chỉnh lần cuối) Phan Anh Dũng 13
  14. PHỤ LỤC: CÔNG THỨC SURROGATE và SƠ ĐỒ KIẾN TRÚC UNICODE (Trích từ tài liệu của TS Ngô Trung Việt) Công thức surrogate như sau: High-surrogate: H, from U+D800 to U+DBFF Low-surrogate: L, from U+DC00 to U+DFFF Surrogate pair: Unicode scalar value: N, between 0 -- 10FFFF16 (21 bits maximum; 17 Planes; > 1million characters) N = (H - D80016) * 40016 + (L - DC0016) + 1000016 H = (N - 1000016)/40016 + D80016 L = (N - 1000016)/40016 + DC0016 Ví dụ chữ Nôm "ba" mã số N = 2002716 = 0 0010 0000 0000 0010 01112 = 13111110 N - 1000016 = 0001 0000 0000 0010 01112 H = 00 0100 00002 + D80016 = D84016 = 5536010 L = 00 0010 01112 + DC0016 = DC2716 = 5635910 Trong văn bản HTML nó có thể ghi bằng "𠀧" hay cặp "��" - Sơ đồ sau mô tả kiến trúc của Unicode: Mặt phẳng chuyên dụng bổ sung SSP Byte mặt phẳng 16 Mặt phẳng chữ biểu ý bổ sung SIP Byte mặt phẳng 02 Mặt phẳng đa ngữ bổ sung SMP Byte mặt phẳng 01 Mặt phẳng đa ngữ cõ sở BMP Byte mặt phẳng 00 00 80 FF Điểm mã 80 D8..DFVùng thay thế (Surrogate) E0..F8Vùng sử dụng riêng 14
Đồng bộ tài khoản