Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ Hán-Nôm
lượt xem 4
download
Mục tiêu nghiên cứu của đề tài là đưa ra một phương pháp nhận dạng tốt, góp phần xây dựng một công cụ có thể nhận dạng, chuyển đổi các văn bản chữ Hán-Nôm thành chữ Quốc ngữ nhằm làm sáng tỏ những giá trị văn hóa lưu trữ trong nó.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ Hán-Nôm
- ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢƠNG THỊ HƢƠNG TRƢƠNG THỊ HƢƠNG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG CHỮ HÁN-NÔM NHẬN DẠNG CHỮ HÁN-NÔM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 Hà Nội – 2014
- ĐẠI HỌC ĐẠI HỌC QUỐC QUỐC GIA GIA HÀ HÀ NỘI NỘI TRƢỜNG ĐẠI TRƢỜNG ĐẠI HỌC HỌC CÔNG CÔNG NGHỆ NGHỆ TRƢƠNG THỊ HƢƠNG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG NHẬN DẠNG CHỮ CHỮ HÁN-NÔM HÁN-NÔM Ngành: Ngành: Công Công nghệ nghệthông thông tin tin Chuyên Chuyên ngành: ngành:Kỹ Kỹthuật thuật phần phần mềm mềm Mã Mãsố: số: 60480103 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG NGƢỜI DẪN HƢỚNGKHOA DẪN HỌC: KHOAPGS.TS. HỌC:NGUYỄN NGỌC BÌNH PGS.TS. NGUYỄN NGỌC BÌNH Hà Nội – 2014 Hà Nội – 2014
- LỜI CAM ĐOAN Tên tôi là Trƣơng Thị Hƣơng, học viên cao học K18, chuyên ngành Công nghệ phần mềm, khoá 2011-2013. Tôi xin cam đoan luận văn thạc sĩ “Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ Hán-Nôm” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc. Học viên thực hiện Luận văn Trƣơng Thị Hƣơng
- LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới Phó giáo sƣ - Tiến sĩ Nguyễn Ngọc Bình, ngƣời thầy kính mến đã hết lòng giúp đỡ tạo mọi điều iện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới Tiến sĩ Nguyễn Tuấn Cƣờng, Tiến sĩ Nguyễn Đức D ng đã giúp giới thiệu cho tôi về chữ Nôm, lịch sử hình thành và phát triển, các thành phần cấu tạo của chữ Nôm, chia s cho tôi những inh nghiệm nghiên cứu và các công nghệ nhận dạng. Tôi xin gửi lời cảm ơn đến NCS. Phạm Văn Hƣởng, ngƣời đã có nhiều kinh nghiệm làm việc trong vấn đề nhận dạng chữ Nôm, và đã chia s với tôi nhiều kiến thức và kinh nghiệm quý báu để tôi hoàn thành luận văn này. Tôi c ng xin đƣợc gửi lời cảm ơn đến các bạn trong nhóm nghiên cứu nhận dạng chữ Nôm của trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội, những ngƣời đã cùng tôi chia s kết quả nghiên cứu, đóng góp cho tôi những ý kiến quý báu và chia s những kinh nghiệm hay cho tôi trong mỗi muổi semina hàng tuần. Tôi xin đƣợc gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo để hoàn thiện luận văn này. Tác giả
- DANH MỤC BẢNG BIỂU Bảng 2.1 Một số hàm truyền thông dụng ............................................................ 15 Bảng 4.1 Kết quả khảo sát sự hội tụ của mạng nơ-ron ....................................... 47 Bảng 4.2 Kết quả thực nghiệm với mạng GANN ............................................... 54 Bảng 4.3 Kết quả thực nghiệm với mạng ANN .................................................. 55
- DANH MỤC HÌNH VẼ Hình 1.1 Mô hình nhận dạng chữ Hán - Nôm .................................................... 10 Hình 2.1 Cấu tạo của tế bào nơ-ron sinh học ...................................................... 13 Hình 2.2 Nơ-ron nhân tạo ................................................................................... 14 Hình 2.3 Mạng tự kết hợp ................................................................................... 17 Hình 2.4 Mạng kết hợp khác kiểu ....................................................................... 17 Hình 2.5 Mạng truyền thẳng ............................................................................... 18 Hình 2.6 Mạng hồi quy ....................................................................................... 18 Hình 2.7 Mối liên hệ giữa sai số và ích thƣớc mẫu .......................................... 21 Hình 2.8 Cấu trúc của SAINT ............................................................................. 31 Hình 4.1 Sơ đồ thuật toán GANN ....................................................................... 48 Hình 4.2 Quy trình tiến hành thực nghiệm ..................................................... 49 Hình 4.3 một số mẫu chữ Nôm trong bộ dữ liệu thực nghiệm ................... 50 Hình 4.4 Giao diện cấu hình mạng...................................................................... 52 Hình 4.5 Giao diện lựa chọn tham số cho GA .................................................... 52 Hình 4.6 Giao diện huấn luyện mạng và nhận dạng ........................................... 53
- MỤC LỤC MỞ ĐẦU ............................................................................................................... 1 Chƣơng 1. TỔNG QUAN ..................................................................................... 3 1.1. Lịch sử ra đời chữ Nôm [1, 3] .................................................................... 3 1.2. Cấu tạo của chữ Nôm ................................................................................. 5 1.2.1 Mƣợn cả âm và nghĩa của chữ Hán...................................................... 5 1.2.2 Mƣợn nghĩa chữ Hán, hông mƣợn âm. .............................................. 5 1.2.3 Mƣợn âm chữ Hán, không nhất thiết mƣợn nghĩa ............................... 6 1.2.4 Ghép hai chữ Hán với nhau.................................................................. 6 1.2.5 Thêm, bớt các nét ................................................................................. 7 1.3. Các nghiên cứu về chữ Nôm ...................................................................... 8 1.4 Mô hình nhận dạng tổng thể và phạm vi nghiên cứu .................................. 9 Chƣơng 2. MẠNG NƠ-RON .............................................................................. 12 2.1 Nơ-ron sinh học ......................................................................................... 12 2.2 Mạng nơ-ron nhân tạo ............................................................................... 13 2.3 Các kiểu mô hình mạng Nơ-ron ................................................................ 16 2.4 Huấn luyện và xây dựng mạng Nơ-ron ..................................................... 18 2.4.1 Các phƣơng pháp học ......................................................................... 18 2.4.2 Các vấn đề trong xây dựng mạng nơ-ron ........................................... 20 2.5 Đánh giá các nhân tố của quá trình học .................................................... 25 2.5.1 Khởi tạo các trọng số ......................................................................... 25 2.5.2 Bƣớc học α ......................................................................................... 25 2.5.3 Hằng số quán tính............................................................................... 26 2.6 Một số ứng dụng của mạng Nơ-ron trong nhận dạng chữ tƣợng hình ..... 26 2.6.1 Back-Propagated Neural Network [5, 6, 9] ....................................... 26 2.6.2 Mạng nơ-ron xác suất (ProbabilisticNeural Networks – PNN). [8] .. 28 2.6.3 Mạng nơ-ron thông minh tự thích nghi (structurally adaptive intelligent neural tree - SAINT) [12] .......................................................... 31 Chƣơng 3: GIẢI THUẬT DI TRUYỀN ............................................................. 34
- 3.1 Cơ sở thực tiễn của giải thuật di truyền .................................................... 34 3.2 Cơ chế thực hiện giải thuật di truyền ........................................................ 35 3.3 Các thành phần trong giải thuật di truyền ................................................. 37 3.4 Các toán tử di truyền ................................................................................. 39 3.4.1 Toán tử chọn lọc ................................................................................. 39 3.4.2 Toán tử lai ghép.................................................................................. 40 3.4.3 Toán tử đột biến ................................................................................. 43 3.5 Các tham số trong giải thuật di truyền ...................................................... 44 Chƣơng 4. NHẬN DẠNG CHỮ HÁN-NÔM DỰA TRÊN MẠNG NƠ-RON KẾT HỢP GA ..................................................................................................... 46 4.1 Khảo sát sự hội tụ của mạng nơ-ron ......................................................... 46 4.2 Thuật toán GANN ..................................................................................... 47 4.3 Thực nghiệm ............................................................................................. 49 4.3.1 Quy trình thực nghiệm ....................................................................... 49 4.3.2 Xây dựng bộ dữ liệu thực nghiệm...................................................... 50 4.3.3 Tiến hành thực nghiệm....................................................................... 51 4.4 Đánh giá ết quả........................................................................................ 53 KẾT LUẬN ......................................................................................................... 57
- 1 MỞ ĐẦU Chữ Nôm đƣợc hình thành và phát triển từ thế kỷ X tới thế kỷ XX. Là một di sản văn hóa, có vai trò đặc biệt quan trọng trong việc tạo nên một nền văn học rực rỡ xuyên suốt nhiều thế kỷ. Viện Nghiên cứu Hán Nôm Việt Nam hiện đang lƣu giữ hàng trăm ngàn đơn vị tƣ liệu chữ Nôm rất có giá trị trong việc nghiên cứu đời sống của ngƣời Việt thời xa xƣa ở nhiều mảng lĩnh vực: văn học, tƣ tƣởng, triết học, ngôn ngữ, luật pháp, đạo đức… Tuy nhiên số ngƣời có thể đọc và viết chữ Nôm ở nƣớc ta hiện nay còn không nhiều, do đó việc đƣa chữ Nôm vào máy tính, xây dựng từ điển chữ Nôm, nhận dạng, đoán nhận và khôi phục chữ Nôm lỗi, thiếu là lĩnh vực nghiên cứu có ý nghĩa thực tiễn quan trọng. Mạng nơ-ron là một trong những công cụ nhận dạng tốt nhất vì các đặc trƣng sau: Khả năng học từ kinh nghiệm (khả năng đƣợc huấn luyện), khả năng xử lý song song với tốc độ xử lý nhanh, khả năng học thích nghi, khả năng hái quát hoá cho các đầu vào không đƣợc huấn luyện, ví dụ dựa vào cách học mạng có thể sẽ tiên đoán đầu ra từ đầu vào không biết trƣớc [15, 16]. Tuy nhiên một nhƣợc điểm khi dùng mạng nơ-ron là chƣa có phƣơng pháp luận chung khi thiết kế cấu trúc mạng cho các bài toán nhận dạng và điều khiển mà phải cần tới kiến thức của chuyên gia. Mặt khác khi xấp xỉ mạng nơ- ron với một hệ phi tuyến sẽ hó hăn hi luyện mạng vì có thể không tìm đƣợc điểm tối ƣu toàn cục... Vì vậy tồn tại lớn nhất gặp phải là tìm nghiệm tối ƣu toàn cục, đặc biệt áp dụng cho các bài toán lớn, các hệ thống điều khiển quá trình. Trong luận văn tôi trình bày hoàn chỉnh một phƣơng pháp ứng dụng mạng nơ-ron trong nhận dạng chữ Hán-Nôm với mong muốn đƣa ra một phƣơng pháp nhận dạng tốt, góp phần xây dựng một công cụ có thể nhận dạng, chuyển đổi các văn bản chữ Hán-Nôm thành chữ Quốc ngữ nhằm làm sáng tỏ những giá trị văn hóa lƣu trữ trong nó. Cấu trúc luận văn gồm các phần nhƣ sau: Chương 1. Tổng quan: Nội dung chƣơng 1 trình bày tổng quan về chữ Nôm, lịch sử hình thành và phát triển chữ Nôm, mô hình tổng quan của hệ thống nhận dạng chữ Nôm. Chương 2. Mạng Nơ-ron: Nội dung chƣơng này trình bày tổng quan về mạng Nơ-ron, cách xây dựng mạng, đánh giá các yếu tố trong
- 2 quá trình huấn luyện mạng và tổng hợp một số phƣơng pháp nhận dạng chữ tƣợng hình dựa trên mạng Nơ-ron. Chương 3. Giải thuật di truyền: Chƣơng này giới thiệu về giải thuật di truyền, các thành phần của giải thuật di truyền. Chương 4. Nhận dạng chữ Hán-Nôm dựa trên mạng nơ-ron kết hơn GA: Chƣơng này đề xuất một phƣơng pháp ết hợp giải thuật di truyền trong quá trình huấn luyện mạng Nơ-ron nhằm tìm ra bộ trong số tối ƣu cho mạng. Trình bày kết quả thực nghiệm nhận dạng 2970 chữ Hán-Nôm. Phần kết luận: Phần này trình bày những đóng góp của luận văn, những tồn tại, hạn chế chƣa đƣợc giải quyết và hƣớng giải quyết tiếp theo.
- 3 Chƣơng 1. TỔNG QUAN 1.1. Lịch sử ra đời chữ Nôm [1, 3] Cách cấu tạo chữ Nôm "có thể" đã manh nha ló dạng từ những năm đầu khi ngƣời Trung Hoa chinh phục đất Giao Chỉ(Miền Bắc Việt Nam) và đặt nền đô hộ trên các bộ lạc ngƣời Việt vào đầu Công nguyên. Vì ngôn ngữ khác biệt, những "chữ Nôm" đầu tiên xuất hiện vì nhu cầu ghi địa danh, tên ngƣời hoặc những khái niệm hông có trong Hán văn. Song chứng cứ còn lƣu lại hết sức ít ỏi, khó kiểm chứng đƣợc một cách chính xác. Phạm Huy Hổ trong "Việt Nam ta biết chữ Hán từ đời nào?" thì cho rằng chữ Nôm có từ thời Hùng Vƣơng. Văn Đa cƣ sĩ Nguyễn Văn San lại cho rằng chữ Nôm có từ thời Sĩ Nhiếp cuối đời Đông Hán thế kỷ thứ 2. Nguyễn Văn Tố dựa vào hai chữ "bố cái" trong danh xƣng "Bố Cái đại vƣơng" do nhân dân Việt Nam suy tôn Phùng Hƣng mà cho rằng chữ Nôm có từ thời Phùng Hƣng thế kỷ thứ 8. Ý kiến khác lại dựa vào chữ "cồ" trong quốc hiệu "Đại Cồ Việt" để cho rằng chữ Nôm có từ thời Đinh Tiên Hoàng. Trong một số nghiên cứu vào thập niên 1990, các học giả căn cứ vào đặc điểm cấu trúc nội tại của chữ Nôm, dựa vào cứ liệu ngữ âm lịch sử tiếng Hán và tiếng Việt, so sánh đối chiếu hệ thống âm tiếng Hán và tiếng Hán Việt đã đi tới kết luận rằng âm Hán Việt (âm của ngƣời Việt đọc chữ Hán) ngày nay bắt nguồn từ thời nhà Đƣờng-nhà Tống thế kỷ 8-9. Và nếu âm Hán Việt có từ thời Đƣờng, Tống thì chữ Nôm không thể ra đời trƣớc khi cố định cách đọc Hán Việt (nếu xét chữ Nôm với tƣ cách hệ thống văn tự) và chỉ có thể ra đời sau khoảng thế kỷ thứ 10 hi ngƣời Việt thoát khỏi nghìn năm Bắc thuộc với chiến thắng của Ngô Quyền vào năm 938. Mặc dù lịch sử hình thành chữ Nôm còn không ít vấn đề cần làm sáng tỏ, nhƣng về ý nghĩa của sự ra đời của chữ Nôm, các nhà nghiên cứu đều thống nhất nhận định rằng: trong suốt quãng thời gian tồn tại, chữ Nôm là công cụ duy
- 4 nhất, hoàn toàn Việt Nam, ghi lại lịch sử, văn hóa của dân tộc Việt. Sự hình thành và phát triển của chữ Nôm là bƣớc ngoặt trong lịch sử ngôn ngữ văn tự của ngƣời Việt và c ng là một bƣớc ngoặt trong lịch sử văn hóa Việt nam, chữ Nôm ra đời đáp ứng đòi hỏi của việc trực tiếp ghi chép hoặc diễn đạt lời ăn tiếng nói cùng tâm tƣ, suy nghĩ và tình cảm của bản thân ngƣời Việt bắt nguồn từ ý thức phản vệ của dân tộc chống lại xu hƣớng Hán hóa của ngƣời phƣơng Bắc, khẳng định tinh thần dân tộc của ngƣời Việt. Chữ Nôm là cách viết biểu ý ngày xƣa của tiếng Việt. Sau khi Việt Nam thoát khỏi ách đô hộ của Trung Quốc vào năm 939, chữ Nôm lần đầu tiên thành chữ quốc ngữ để diễn đạt tiếng Việt qua mẫu tự biểu ý. Hơn 1000 năm sau đó - từ thế kỷ 10 cho đến thế kỷ 20 - chữ Nôm đã tạo nên những thành tựu rực rỡ làm phong phú ho tàng văn hóa Việt: văn học, triết học, sử học, luật pháp, y khoa, tôn giáo, điều mà trƣớc nó chữ Hán trên đất Việt không hề có đƣợc. Bắt đầu từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ 16 với Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có nhiều khả năng diễn tả không những tình cảm mà còn tƣ tƣởng của ngƣời Việt. Chỉ tính riêng ở lĩnh vực văn học, chữ Nôm đã có vai trò đặc biệt quan trọng trong việc tạo nên một nền văn học Việt nam rực rỡ xuyên suốt nhiều thế kỷ. Từ chữ Nôm, nền văn học Việt nam sinh ra ba thể loại độc đáo của riêng Việt nam là Truyện thơ Nôm Lục Bát, Ngâm Khúc (song thất lục bát) và Hát Nói (trong ca trù). Sự sáng tạo đó đã để lại cho đời sau những di sản thơ Nôm vô giá. Tuy nhiên việc dùng chữ Nôm song song với chữ Hán chỉ đƣợc duy trì cho đến thế kỷ 16. Khi các nhà truyền đạo phƣơng Tây vào Việt Nam, họ đã dùng kí tự La Tinh để phiên âm tiếng Việt, và chữ Quốc ngữ dựa trên kí tự La Tinh đƣợc hình thành. Mặc dù dễ học, dễ nhớ, việc dùng chữ Quốc ngữ sau đó chỉ phổ biến trong cộng đồng giáo dân trong phạm vi ghi chép Kinh Thánh chứ hông đƣợc sử dụng nhiều trong việc làm phƣơng tiện trứ tác hay truyền đạt thông tin. Chữ Nôm vì vậy vẫn là văn tự chính trong nền văn chƣơng Việt Nam mãi cho tới hết thế kỷ 19. Sang đầu thế kỷ 20 chính quyền Pháp cho giải thể phép thi cử chữ Nho (1915 ở Bắc Kỳ và 1919 ở Trung Kỳ) và đƣa chữ Quốc ngữ lên hàng văn tự chính thức. Bắt đầu từ năm 1908 chữ Quốc ngữ mới bắt đầu thay thế chữ Nôm. Phong trào Đông Kinh Nghĩa Thục (1907) và Hội Truyền bá Quốc ngữ (1938) c ng nhƣ sự phát triển báo chí vào đầu thế kỷ 20 đã góp phần trong
- 5 việc thâu nhận chữ Quốc ngữ là văn tự chính đáng của ngƣời Việt, khép lại thời kỳ dùng chữ Nôm để truyền đạt tƣ duy cùng những cảm hứng của dân tộc Việt. Sau khi chữ quốc ngữ đƣợc phổ biến vào đầu thế kỷ 20, chữ Nôm dần dần mai một. Chính quyền thực dân Pháp có chính sách cấm dùng chữ Nôm. Điều đó hiến cho di sản này hiện nay có nguy cơ tiêu vong. Thực tế là hiện nay, trên thế giới có chƣa đến 100 ngƣời đọc đƣợc chữ Nôm. Một phần to tát của lịch sử Việt Nam nhƣ thế nằm ngoài tầm tay của 80 triệu ngƣời nói tiếng Việt. 1.2. Cấu tạo của chữ Nôm Dựa vào chữ Hán, chữ Nôm đã đƣợc hình thành bằng nhiều cách khác nhau. Trong đó, có thể tóm tắt thành 5 loại dựa vào ba yếu tố hình-âm-nghĩa nhƣ sau: 1.2.1 Mượn cả âm và nghĩa của chữ Hán Chữ Hán đƣợc mƣợn cả âm và nghĩa để ghi lại các âm gốc Hán. Âm đọc có ba loại là: - Âm Hán Việt tiêu chuẩn: bắt nguồn từ ngữ âm tiếng Hán thời Đƣờng. Ví dụ: "thành" 城, "hoa" 花, "thuyền" 船, "ngọc" 玉. - Âm Hán Việt cổ: bắt nguồn từ ngữ âm tiếng Hán trƣớc thời Đƣờng. Ví dụ: "mùa" 務 (âm Hán Việt tiêu chuẩn là "vụ), "bay" 飛 (âm Hán Việt tiêu chuẩn là "phi"), "buồng" 房 (âm Hán Việt tiêu chuẩn là "phòng"), "xe" 車 (âm Hán Việt tiêu chuẩn là "xa"). - Âm Hán Việt Việt hoá: là các âm gốc Hán bị biến đổi cách đọc do ảnh hƣởng của quy luật ngữ âm tiếng Việt. Ví dụ: "thêm" 添 (âm Hán Việt tiêu chuẩn là "thiêm"), "nhà" 家 (âm Hán Việt tiêu chuẩn là "gia"), "khăn" 巾 (âm Hán Việt tiêu chuẩn là "cân"), "ghế" 几 (âm Hán Việt tiêu chuẩn là "kỉ"), 1.2.2 Mượn nghĩa chữ Hán, không mượn âm. Mƣợn chữ Hán đồng nghĩa hoặc cận nghĩa để ghi lại âm tiếng Việt.
- 6 1.2.3 Mượn âm chữ Hán, không nhất thiết mượn nghĩa Mƣợn chữ Hán đồng âm hoặc cận âm để ghi âm tiếng Việt. Âm mƣợn có thể là âm Hán Việt tiêu chuẩn, âm Hán Việt cổ hoặc âm Hán Việt Việt hoá. Khi đọc có thể đọc giống với âm mƣợn hoặc đọc chệch đi. Ví dụ: - Đọc chính xác âm Hán Việt tiêu chuẩn: chữ "một" 沒 có nghĩa là "chìm" đƣợc mƣợn dùng để ghi từ "một" trong "một mình", chữ "tốt" 卒 có nghĩa là "binh lính" đƣợc mƣợn dùng để ghi từ "tốt" trong "tốt xấu", chữ "xƣơng" 昌 có nghĩa là "hƣng thịnh" đƣợc mƣợn dùng để ghi từ "xƣơng" trong "xƣơng thịt", chữ "qua" 戈 là tên gọi của một loại binh hí đƣợc mƣợn dùng để ghi từ "qua" trong "hôm qua". - Đọc chệch âm Hán Việt tiêu chuẩn: "gió" 這 (mƣợn âm "giá"), "cửa" 舉 (mƣợn âm "cử"), "đêm" 店 (mƣợn âm "điếm"), "chạy" 豸 (mƣợn âm "trãi"). - Đọc chính xác âm Hán Việt cổ: chữ "vạn" 萬 đọc là "muôn", chữ "tuế" 歲 đọc là "tuổi" 1.2.4 Ghép hai chữ Hán với nhau. Loại này hết sức phổ biến và thƣờng ghép một thành tố biểu âm với một thành tố biểu ý (giống nhƣ chữ hình-thanh trong Lục thƣ). Ví dụ:tháng = nguyệt 月 (biểu ý) + thƣớng 尚 (biểu âm); mắt = mục 目 (biểu ý) + mạt 末 (biểu âm); năm (con số) = ng (五 biểu ý) + nam (南 biểu âm); năm (năm tháng) = niên (年 biểu ý) + nam (南 biểu âm). Ngoài ra thỉnh thoảng c ng có những chữ ghép hai chữ Hán nhƣng cả hai đều biểu ý nhƣ trời= thiên 天 + thƣợng 上; sáng=quang 光 + minh 明. Những chữ này hông nhiều. Thêm nét và thêm chữ Hán Ví dụ: Bố (đối lập với mẹ) = vƣơng 王 + bố 布 + nét giản lƣợc của 司)
- 7 Thêm bộ thủ khác Ví dụ: 渃 nước (thủy 氵+ nhƣợc 若); 扜 vo [vo tròn] (thủ 扌+ vu 于); Phật (nhân イ+ thiên 天). Các bộ thủ thƣờng đƣợc dùng là: 亠, 刂, イ, 厂, 广, 氵, 忄, 辶, 土, 寸, 口, 巾, 山, 犭, 子, 小, 女, 礻, 灬, 木, 艹, 日, 月, 牛, 毛, 片, 牙, 疒, 瓦, 石, 衤, 白, 目, 皮, 田, 米, 耳, 竹, 舟, 羽, 雨, 色, 耒, 糸, 貝, 走, 足, 車, 角, 酉, 金, 風, 食, 髟, 馬, 魚, 赤. 1.2.5 Thêm, bớt các nét Ví dụ: 女< nỡ, nợ, nữa (bằng dấu < cộng với chữ 女 nữ); 馬< mỡ, mựa (dấu < cộng với chữ 馬 mã). “朱< cho (dấu < cộng với 朱 chu); “貝< buổi (dấu < cộng với 貝 bối) " hệnh hạng" (đều dùng chữ "cộng" 共 bớt nét, trong đó chữ " hệnh" bỏ nét phảy ノ, chữ " hạng" ヽ bỏ nét mác). " hề hà" (đều dùng chữ " ỳ" 其, chữ " hề" bỏ nét phảy ノ, chữ " hà" bỏ nét mác ヽ). Ngoài ra còn một số chữ đƣợc viết tắt từ chữ Hán gốc và hông đổi cả âm lẫn nghĩa. Những chữ này tƣơng đƣơng với chữ Giản thể của Trung Quốc, nhƣng c ng có nhiều chữ hông trùng với chữ Giản thể do đƣợc viết tắt theo lối Nôm. Ví dụ: 渃 phong (viết tắt chữ 風 phong); 乙 v (viết tắt 雨 v , hông phải là "ất"); り tiền (viết tắt chữ 錢 tiền). Ngoài ra một vài dân tộc thiểu số hác nhƣ Tày, Dao, Ngạn, v.v. c ng tạo ra chữ Nôm dựa trên chữ Hán để lƣu lại ngôn ngữ của họ. Qua cách cấu tạo của chữ Nôm nhƣ vậy, có thể nhận thấy rằng: chữ Nôm thƣờng có nhiều nét hơn, phức tạp hơn chữ Hán (do phần lớn là những chữ buộc phải ghép 2 chữ Hán lại) nên khó nhớ hơn cả chữ Hán vốn c ng đã hó nhớ. Cách đọc c ng có hi hông thống nhất hoặc một chữ có thể có nhiều cách đọc, cách viết, nên có ngƣời nói rằng "chữ Nôm phải vừa đọc vừa đoán". Ngoài ra,
- 8 việc "tam sao thất bản" là khó tránh khỏi, phần vì trình độ ngƣời thợ khắc chữ ngày xƣa, phần vì khâu in mộc bản có chất lƣợng không cao (chữ bị nhòe, mất nét). 1.3. Các nghiên cứu về chữ Nôm Chúng ta có thể khẳng định rằng Việt Nam có hai thứ chữ viết ghi lại tiếng Việt, một là chữ latinh(quốc ngữ), và hai là Hán-Nôm thuộc loại chữ biểu ý. Và chúng ta có hai lựa chọn: một là để mất hiểu biết chữ Hán Nôm, nghĩa là mất đi một phần lớn truyền thống và tri thức quá khứ của dân tộc, hai là dùng mọi loại kỹ thuật tiên tiến nhất để phục hồi và bảo tồn truyền thống văn hoá dân tộc ghi lại bằng chữ Hán Nôm. Với mục đích bảo tồn di sản Hán – Nôm, ngày 13/9/1979 Viện nghiên cứu Hán Nôm đƣợc thành lập trên cơ sở ban Hán Nôm, theo quyết định số 326/CP của hội đồng Chính phủ và đƣợc tái khẳng định thuộc trung tâm Khoa học xã hội và Nhân văn Quốc gia trong Nghị định số 23/CP ngày 22/5/1993 của Chính phủ. Đây là cơ quan duy nhất ở Việt Nam vừa là trung tâm bảo tồn vừa là trung tâm hai thác các tƣ liệu chữ Hán và chữ Nôm. Với mục đích bảo tồn di sản Hán Nôm bằng công nghệ, bao gồm: 1. Chia s các cơ sở dữ liệu có liên quan tới Hán Nôm. 2. Truy nhập công cộng vào các bản lƣu trữ và di sản Hán Nôm. 3. Giáo dục Hán Nôm bằng công nghệ: học tập và nghiên cứu Hán Nôm dựa trên các tƣ liệu đã số hóa. Với những nỗ lực bảo tồn di sản của dân tộc, hiện nay đã có bộ phông Arial Unicode MS chứa khoảng hơn 5.000 chữ Nôm trùng hình chữ Hán. Viện Mojikyo tại Nhật Bản đã làm ra phông chữ truetype cho 9.299 chữ Nôm mà Việt Nam đã đề nghị với quốc tế. Công ti DynaLab Đài Loan có trụ sở tại Thƣợng Hải và Hồng Kông đã xây dựng bộ font DFSongLight_Vietnam2.ttf c ng cho 9.299 chữ Nôm này. Nhóm Đạo Uyển (Đỗ Quốc Bảo (Đức) và Thiền viện Viên Chiếu) đã phát triển bộ font HanNom (trên 30.000 chữ) có thể sử dụng trên mạng. Nhóm Nôm Na đã phát triển bộ phông đầy đủ True Type NomNaTongLight.ttf (trên 15.000 chữ). Đến năm 2000, trong phiên bản 11.1, tổng số chữ đƣợc lựa chọn và cấp mã Unicode là 70.205 chữ (trong đó có 9.229 chữ do Việt Nam đề nghị, nếu trừ đi số chữ trùng lặp thì có 4.232 chữ Nôm Việt tự tạo). Tổng số chữ trên nằm trong 2 tập Extension A và Extension B. Tập Extension C đang biên soạn sẽ có thêm khoảng 2.300 chữ Nôm tự tạo nữa (trong đó sẽ có gần 400 chữ Nôm Tày
- 9 tự tạo). Vậy nếu tính cả 3 tập Extension A, B, C, thì tổng số mã Unicode dành cho chữ Nôm Việt (tự tạo) là khoảng 6150 chữ. Vấn đề về phần mềm hỗ trợ khai thác và sử dụng chữ Nôm đã phát triển phần mềm tra cứu chữ Nôm NLT đƣợc sử dụng rộng rãi trên mạng cả trong nƣớc và trên thế giới. Các phần mềm gõ chữ Nôm và phần mềm từ điển đã đƣợc một số nhóm chuyên gia tin học trong nƣớc phát triển: các nhóm của Phan Anh D ng (Huế) và Tống Phƣớc Khải-Lê Anh Minh (TP Hồ Chí Minh). Về việc in ấn đã thực hiện việc in ấn chữ Nôm từ máy tính cho một số bộ từ điển chữ Nôm. Nhiều tác phẩm chữ Nôm đã và đang đƣợc in ấn trực tiếp từ máy tính và tra cứu trên mạng. 1.4 Mô hình nhận dạng tổng thể và phạm vi nghiên cứu Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất yếu nhƣ với các ngôn ngữ khác. Nôm-OCR sẽ đóng vai trò một động lực mạnh thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tƣ liệu quý giá của dân tộc hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR hác, đặc biệt là các OCR chữ tƣợng hình nhƣ tiếng Hán, tiếng Nhật. Trên cơ sở nghiên cứu các mô hình về OCR, nhóm nghiên cứu của tác giả đƣa ra mô tổng thể cho bài toán nhận dạng chữ Nôm nhƣ hình 1.1. [2]
- 10 Hình 1.1 Mô hình nhận dạng chữ Hán - Nôm Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, tệp PDF…. Trong nguồn đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh, các loại ngôn ngữ hác nhau. Do đó, cần đƣợc tiến hành thao tác phân tích trang, nhận diện phần ký tự. Sau khi tách phần ký tự khỏi trang, ta tiến hành các bƣớc tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách dòng thành các ký tự rời rạc. Từ các ký tự rời rạc, ta tiến hành trích chọn đặc trƣng của ký tự để đƣa vào tiến hành nhận dạng. Kết quả của bƣớc nhận dạng có thể chƣa phải là bƣớc cuối cùng, mà sẽ đƣợc qua bƣớc hậu xử lý, có thể kiểm tra trên cơ sở từ điển, ngữ pháp… để quyết định kết quả cuối cùng. Tổng kết chƣơng 1 Chƣơng 1 đã trình bày tổng quan về chữ Nôm, từ lịch sử ra đời tới đặc điểm cấu tạo của chữ, tình hình nghiên cứu về chữ Hán-Nôm và bài toán nhận dạng chữ Nôm. Mặc dù đƣợc hình thành trên cơ sở là chữ Hán nhƣng chữ Nôm phức tạp hơn rất nhiều do ông cha ta không chỉ mƣợn âm và nghĩa của chữ Hán mà đã thay đổi rất nhiều về cấu trúc, tạo ra các chữ nhiều nét hơn. Do đó cần thiết phải xây dựng bộ nhận dạng mới cho chữ Nôm trên cơ sở nghiên cứu các kỹ thuật nhận dạng chữ Hán c ng nhƣ các chữ tƣợng hình khác.
- 11
- 12 Chƣơng 2. MẠNG NƠ-RON 2.1 Nơ-ron sinh học Theo các nhà nghiên cứu sinh học về bộ não, hệ thống thần kinh của con ngƣời bao gồm khoảng 100 tỷ tế bào thần inh, thƣờng gọi là các nơ-ron. Mỗi tế bào nơ-ron gồm ba phần: - Thân nơ-ron với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra các xung động thần kinh. - Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đƣa tín hiệu tới nhân nơ-ron. Các dây thần kinh vào tạo thành một lƣới dày đặc xung quanh thân nơ-ron, chiếm diện tích khoảng 0,25 mm2. - Đầu dây thần kinh ra (gọi là sợi trục axon) phân nhánh dạng hình cây, có thể dài từ một cm đến hàng mét. Chúng nối với các dây thần kinh vào hoặc trực tiếp với nhân tế bào của các nơ-ron khác thông qua các khớp nối (gọi là synapse). Thông thƣờng mỗi nơ-ron có thể có từ vài chục cho tới hàng trăm ngàn khớp nối để nối với các nơ-ron khác. Có hai loại khớp nối, khớp nối kích thích (excitatory) sẽ cho tín hiệu qua nó để tới nơ-ron còn khớp nối ức chế (inhibitory) có tác dụng làm cản tín hiệu tới nơ-ron. Ngƣời ta ƣớc tính mỗi nơ- ron trong bộ não của con ngƣời có khoảng 104 khớp nối (hình 2.1). Chức năng cơ bản của các tế bào nơ-ron là liên kết với nhau để tạo nên hệ thống thần inh điều khiển hoạt động của cơ thể sống. Các tế bào nơ-ron truyền tín hiệu cho nhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng xung điện và đƣợc tạo ra từ các quá trình phản ứng hoá học phức tạp. Tại nhân tế bào, hi điện thế của tín hiệu vào đạt tới một ngƣỡng nào đó thì nó sẽ tạo ra một xung điện dẫn tới trục dây thần kinh ra. Xung này truyền theo trục ra tới các nhánh rẽ và tiếp tục truyền tới các nơ-ron khác.
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ công nghệ thông tin: Ứng dụng mạng Nơron trong bài toán xác định lộ trình cho Robot
88 p | 701 | 147
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu mối quan hệ di truyền của một số giống ngô (Zea maysL.) bằng chỉ thị RAPD
89 p | 294 | 73
-
Luận văn thạc sĩ Công nghệ Sinh học: Nghiên cứu ảnh hưởng bổ sung tế bào và hormone lên sự phát triển của phôi lợn thụ tinh ống nghiệm
67 p | 277 | 50
-
Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn trong hệ cơ sở dữ liệu phân tán
75 p | 58 | 9
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng tính năng cảnh báo tấn công trên mã nguồn mở
72 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu phương pháp quản trị rủi ro hướng mục tiêu và thử nghiệm ứng dụng trong xây dựng cổng thông tin điện tử Bộ GTVT
75 p | 49 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Phát triển hệ thống quảng cáo thông minh trên mạng xã hội
76 p | 61 | 8
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng mô hình các chủ đề và công cụ tìm kiếm ngữ nghĩa
94 p | 34 | 6
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng Gis phục vụ công tác quản lý cầu tại TP. Hồ Chí Minh
96 p | 46 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân vùng phân cấp trong khai thác tập phổ biến
69 p | 45 | 5
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác tập mục lợi ích cao bảo toàn tính riêng tư
65 p | 45 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu được cập nhật
60 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác mẫu tuần tự nén
59 p | 30 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định để phân loại dữ liệu nhiễu
70 p | 38 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Kỹ thuật Matrix Factorization trong xây dựng hệ tư vấn
74 p | 39 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Khai thác Top-rank K cho tập đánh trọng trên cơ sở dữ liệu có trọng số
64 p | 46 | 4
-
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ truy vấn ngữ nghĩa đa cơ sở dữ liệu trong một lĩnh vực
85 p | 33 | 3
-
Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu và ứng dụng Hadoop để khai thác tập phổ biến
114 p | 46 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn