YOMEDIA
ADSENSE
Nhận dạng dấu thanh và mũ trong ký tự tiếng Việt viết tay
22
lượt xem 3
download
lượt xem 3
download
Download
Vui lòng tải xuống để xem tài liệu đầy đủ
Bài viết Nhận dạng dấu thanh và mũ trong ký tự tiếng Việt viết tay đề xuất một giải pháp nhận dạng dấu, kể cả trong trường hợp mũ và thanh trong ký tự dính liền nhau – một vấn đề rất phổ biến và ảnh hưởng đáng kể đến kết quả nhận dạng.
AMBIENT/
Chủ đề:
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Nhận dạng dấu thanh và mũ trong ký tự tiếng Việt viết tay
- Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên NHẬN DẠNG DẤU THANH VÀ MŨ TRONG KÝ TỰ TIẾNG VIỆT VIẾT TAY RECOGNIZING ACCENT IN VIETNAMESE HANDWRITING CHARACTERS TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌ hướng đ Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên trên: nhậ Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: hhhung@dut.udn.vn, ntnguyen.dn@gmail.com toán thấp Tóm tắt – Nhận dạng ký tự viết tay là chủ đề đang được nghiên cứu Abstract – Handwriting character recognition is one of the most 3. Phươ rộng rãi hiện nay. Nhiều giải pháp được áp dụng cho ký tự tiếng Anh common research topics. Many approaches have applied to English và mang lại hiệu quả cao. Tuy nhiên, bài toán tiếng Việt đang đối characters and achieve high accuracy. However, the complexities N mặt với nhiều thách thức, phần lớn vấn đề đến từ dấu mũ và dấu in the language of each country are not same. Recognizing bước xử thanh (gọi chung là dấu). Bài báo này đề xuất một giải pháp nhận Vietnamese handwriting character is facing many problems, most Việt. Mô dạng dấu, kể cả trong trường hợp mũ và thanh trong ký tự dính liền of them come from the accent. This paper focuses on accent nhau – một vấn đề rất phổ biến và ảnh hưởng đáng kể đến kết quả recognition, especially when there is a connection between two được thể nhận dạng. Chúng tôi bắt đầu với việc tách riêng dấu và chữ cái accents - a common problem which affects the identification result. bằng kĩ thuật gán nhãn vùng liên thông. Tiếp theo, dấu được phân Hình 1. Các Our approach dấu starts được with nghiên cứu separating và một accent fromsốcharacter ví dụ về using vào hai lớp: dấu đơn (một dấu mũ hoặc dấu thanh) hoặc dấu kép ký tự có sựlabeling the connected-component xuất hiện nhiều dấu method. The obtained accent (mũ và thanh dính liền nhau). Dấu kép (nếu có) tiếp tục được tách then is checked if it is single or multiple (the combination of many ra thành các dấu đơn để chuẩn bị cho bước xử lý cuối cùng. Quá 2. Các accents). nghiên In the second cứu liêneach case, quan accent is extracted for the last trình nhận dạng được thực hiện bằng phương pháp mô hình Markov processing step. The recognition is performed using hidden Markov n = 1 ẩn. Giải pháp đề xuất đã được thử nghiệm và thu được kết quả khả Hiệnsingle models with each nay, accent. nhiều Proposed hướng tiếp cận has solution chobeen vấn tested quan. đề nhậnhigh and obtained dạng ký tự viết tay bằng kĩ thuật xử lý accuracy. Từ khóa – ký tự viết tay tiếng việt; dấu mũ; dấu thanh; bộ phát hiện ảnh đã –được Key words đưa ra. handwriting vietnamese Mục tiêu chung đượcaccent; character; đặt racorner Nh góc; tách nhánh; mô hình Markov ẩn. detector; branch separating; hidden Markov models. là làm cho máy tính thu nhận và hiểu được ký tự d viết tay đầu vào. Mô hình tổng quan của một hệ 1. Đặt vấn đề được ký tự viết tay đầu vào. Mô hình tổng quan của một hệ thống nhận dạng ký tự viết tay được trình bày thống nhận dạng ký tự viết tay được trình bày trong Hình 2. Chủ đề nhận dạng ký tự viết tay đã được nghiên cứu trong hình 2. K trong suốt hơn 40 năm qua. Ngôn ngữ được hướng đến nhiều nhất là tiếng Anh, trong đó mỗi ký tự chỉ gồm một chữ cái, do đó kết quả thường cao hơn các ngôn ngữ khác. Phần lớn Ký tự Tiền xử lý Phân đoạn H các nghiên cứu đều tập trung vào bảng chữ cái Latinh hơn viết tay là ký tự có dấu, nguyên nhân là bởi độ phức tạp trong cách Đ biểu diễn và nhận dạng dấu. Tiếng Việt là một ngôn ngữ dấu và phức tạp với mỗi ký tự có thể chứa một hoặc hai dấu. Do Trích nhãn vùn đó, kết quả nghiên cứu trên tiếng Việt khá hạn chế, độ chính Phân lớp đặc trưng dưới dấu xác chỉ cao khi ký tự được viết một cách lý tưởng, nghĩa ký tự tiế là các dấu trong một ký tự được tách bạch rõ ràng. Phương dấu. Mộ pháp do chúng tôi đề xuất hướng đến việc giải quyết vấn đề ‘o’, ‘ó’, tồn tại sự liên kết của các dấu trong một ký tự, được thực Hậu xử lý Đầu ra hiện bởi sự kết hợp của nhiều kĩ thuật xử lý ảnh trên miền Tr Hình 2: Tổng quan hệ thống nhận dạng ký tự viết tay không gian. Hình 2. Tổng quan hệ thống nhận dạng ký tự viết tay gồm 1 v Dấu trong tiếng Việt được chia thành hai nhóm (mũ và Hai nghiênHai cứu nghiên gần cứu đây gần đây dạng về nhận về nhận ký tựdạng ký đượcnhư một có dấu thanh) như trong Hình 1, trong đó dấu nặng không được đề trìnhtự bàycótrong dấu [1][2]. được trình bàythực Sau khi tronghiện[1,bước 2]. Sau đoạn đểdụng ch phânkhi cập vì nó xuất hiện bên dưới chữ cái chính trong ký tự, nên thựcdấu, thu được hiệncác bước tác phân giả sửđoạn dụngđể 45thu đặcđược trưngdấu, các dạngdùng để và nhận không có sự liên kết với bất kỳ dấu khác. bằngtác máy giảvectơ tựa. Kết sử dụng quảtrưng 45 đặc thử nghiệm và nhận cho giải phápgồm 3 th thấybằng dạng này đạt hiệu quả khá cao và ổn định. Tuy máy vectơ tựa. Kết quả thử nghiệm cho thấy giải nhiên, cách viếtcái cần n ký tự được đề cập trong 2 bài báo này quá lý tưởng, cụ thể làđược th pháp này đạt hiệu quả khá cao và ổn định. Tuy các dấu được viết tách biệt, điều này không phải luôn đúngMarkov nhiên, cách viết ký tự được đề cập trong 2 bài trong các văn bản viết tay. Ngoài ra, hệ thống cần nhiều thời gian báo này toán để tính quá lýbởi tưởng, cụ thểđặc số lượng là các trưngdấulớnđược viết đối và tương Tr tách phức tạp. biệt, điều này không phải luôn đúng trong gồm hai các văn bản viết tay. Ngoài ra, hệ thống cần vùng dấ Giải pháp được đề xuất trong bài báo này hướng đến khả nhiều thời gian để tính toán bởi số lượng đặc hai dấu đ năng giải quyết cả hai vấn đề trên: nhận dạng dấu kép và yêu Hình 1: Các dấu được nghiên cứu và một số ví dụ trưng lớn và tương đối cầu chi phí tính toán thấp hơn. phức tạp. này, chú về ký tự có sự xuất hiện nhiều dấu thành cá Giải pháp được đề xuất trong bài báo này 2. Các nghiên cứu liên quan 3. Phương2pháp đề xuất Hiện nay, nhiều hướng tiếp cận cho vấn đề nhận dạng ký Nội dung phần này trình bày cụ thể từng bước xử lý để tự viết tay bằng kĩ thuật xử lý ảnh đã được đưa ra. Mục tiêu nhận dạng dấu trong ký tự tiếng Việt. Mô hình tổng quan chung được đặt ra là làm cho máy tính thu nhận và hiểu của giải pháp đề xuất được thể hiện trong Hình 3. 21
- Việt. Mô hình tổng quan của giải pháp đề xuất được TẠP CHÍ thể HỌC KHOA hiện VÀ trong hìnhNGHỆ, CÔNG 3. ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II n= ví dụ về Phân đoạn số vùng liên thông n=1 Nhận dạng n=2 cho vấn n=3 chữ cái Hình 4: Ký tự ‘ỗ’ với chữ cái ‘o’, dấu ‘∧’ và ‘∼’ ật xử lý ợc đặt ra 3.3. Nhận dạng chữ cái Nhận dạng dấu đơn Kiểm tra dấu ợc ký tự dấu đơn đơn hay kép Các chữ cái riêng biệt trong bảng chữ tiếng Việt có thể a một hệ được nhận dạng hiệu quả thông qua các giải pháp được áp dấu kép rình bày dụng cho bảng chữ tiếng Anh. Bước này không nằm trong dấu đơn nội dung trọng tâm mà bài báo muốn đề cập nên phần này Kết luận Phân tách dấu không được trình bày chi tiết. kép 3.4. Kiểm tra dấu “đơn” hay “kép” Hình 3: Tổng quan giải pháp đề xuất n đoạn Hình 3. Tổng quan giải pháp đề xuất TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, MộtĐẠI số trường HỌC ĐÀhợp NẴNG phổ- biến của dấu kép được thể hiện SỐ ………….. Đầu tiên, Đầu ký tiên, tự đầukývào tựTẠPđầuCHÍ được vào tách được KHOA riêngHỌC tách dấu VÀ riêng và chữ cái trong ĐẠI CÔNG NGHỆ, HìnhHỌC 5. ĐÀ NẴNG - SỐ ………….. chínhdấubằngvàphươngchữ đó, Sau các cáipháp chínhdấu gánbằng đơn nhãnnày vùng phương đượcliên nhận phápthông, dạng gán trong bằng đó chữSau cáiđó, nằm các bên dấu dưới đơn dấu. này nhãn vùng liên thông, trong đó chữ cái nằm bên cập. phương pháp mô Sốhình được lượngMarkov nhận vùng ẩn lớn dạng như nhất đã cóbằng đề thể rích trongphương dưới dấu.pháp mô là hình 3, baoMarkov ẩn như thểđãtrong đề cập. ký tự tiếng Việt gồm lý 1cụ chữ cái và 2hình dấu. 3Một trưng Số Cáclượng bướcvùngxửlớn nhất thểcó trong được số ví dụ cụ thể cho từng bày trong trường hợp là: ‘o’, ‘ó’, và ‘ố’ tương (a) (b) (c) (d) (e) (f) ký tự tiếng trìnhViệt là 3, nội baodung gồm tiếp 1 chữ theo. cái và 2 ứng với 1, 2,Các và 3bướcvùng. xử lý cụ thể trong hình 3 được Hình 5.(b) (a) Một số ví (c)dụ về sự (d) liên kết giữa(e) các dấu gồm (f) dấu. Một số ví dụnội trong cụ dung thể cho từng trường hợp là: trình Trường bày hợp3.1. Tiền đơn giảnxử lý nhất là tiếp ký tựtheo. chỉ bao gồm 1 vùng. Hình Một 5: số ví dụ ‘^ˀ’, ‘^~’ và ‘^`’ về sự liên kết giữa các dấu gồm ‘o’, ‘ó’, và ‘ố’ tương ứng với 1, 2, và 3 vùng. Hình 5. Một số ví dụ về liên kết giữa các dấu gồm ầu ra Khi đó, 3.1.kýTiềntự đượcxử Nhiễu lý mặc nhiên thường xem xuấtnhư hiệnmộtkhi chữ sửcái. dụng Các thiết Ta thấy rằng ‘ mỗi ’, ‘ ’dấu và ‘ kép ’ ở hình 5 tồn tại ‘^ˀ’, ‘^~’ và ‘^`’ phương phápTrường bị nhậnquét hợp dạng quangđơn áp dụnggiảncho học nhấtchữ làm là ký giảm tựtay viếtđộ chỉ bao xác chính tiếng Anhkhi một góc vớimỗi 3 (a,dấu b, kép d) hoặc 4 (e,5 tồn f) nhánh tương ự viết taycó thểgồmđược 1 Nhiễu vùng. dùng nhận để thường Khi dạng.xác đó, kýxuất định Ngoài tự hiện ra,được ký tự. nhiễu khi mặc Với sửcódụng nhiên trường cũng xem hợp thể thiết ký xuất tự Ta hiện(a, b,ứng, thấyTa rằng thấy rằng mỗi ởdấu Hình kép tại một ở 2hình 5 tồngóc tại với 3 d) hoặc hoặc 4 hai (e, f)góc nhánh với mỗi tương góc ứng, gồmhoặc nhánh hai góc (c), với mỗi dạng kýgồm bị như quét mộttrên 3 thành quang chữảnh phần, tahọc cái. Các có hai trong làm phương quá dấu giảm pháp đơn trình thuđộ vànhận chính một nhận và xác dạng chữ cái khi áp truyền cầndẫn.gócmột trong gồm góc 2 khi vớimỗi nhánh 3(c), (a, b,đơn dấutrong d)khi hoặc chỉ có 4thể mỗi (e,xuất dấu f) nhánh đơnhiện chỉ tối tương có thểđa xuất Sau khinhậnnhận dụng cho dạng.dạng. Quá chữ DotrìnhNgoài đó, viết khửra, nhận taydạng nhiễu tiếng nhiễu dấu Anh là cũng đơn được bước có có thể cầnthể thực được xuất thiết hiện hiện trước bởikhi ứng, hoặc hai góc với mỗi góc gồm 2 nhánh (c), hiện một tối đa gócmộtvớigóc 2 nhánh với 2 nhánh (dấu ‘^’). (dấu Do‘∧’). đó, một Do đó, dấumột là dấu dấu, các phương dùngảnh trên phápđểthựcxác mô trong định hình hiện quá kýtrình Markov các tự. Với công ẩn, thu đoạn trường sẽ được nhậnxử lývà hợp trình ký Chúng bày truyền chính. tự dẫn. tôilà “đơn” trong trong khihay mỗi dấu đơnthể chỉ có thểđịnhxuất dựa hiện tối điểm đa “đơn” hay “kép”“kép” có thểcó được được xác xác định dựa trên trênđặc phần gồm sau. 3 thành phần, ta có hai dấu đơn và một chữ ng bằng Do đó, sửkhửdụng nhiễubộ lọc là trung bước vịcần có thiết mặt nạ trước kích khi thướcnày. mộtđặcgóc Quá điểmvớixử trình 2 lýnhánh này. Quá tươngtrình (dấu ứng xử ‘^’). được Do lý trình tươngđó, một ứng bày chiđượcdấutrong tiết là hấy giải Trường cái cầnhợp nhận còndạng. kết lại,hợpQuá tương với trình ứng các nhận với phép kýdạng tự gồm biến dấu đổi đơnthành hai hình thái làHình 6. thực hiện các trình bày chi tiết trong hình tạpcông đoạnbởixửvùng lý chính. 33 “đơn” hay “kép” có thể được xác định dựa trên 6. nh. Tuyphần,được có độ phức thực hiện cao bởi nhất dấumô cóChúng thể là một tôi sử dụng đóngbộ và lọc mởtrungảnhphương [3]. vị pháp mặt nạ kích hình thước dấu đơn duy nhất Markov ẩn, sẽ hoặcđược haitrình dấubày có đơntrongdính phầnliền nhau. sau. Để giải đặc điểm này. Quá trình Làmxử mảnh lý tương ứng được ng 2 bài quyết33vấn đề kết3.2. hợp này, Phân chúngvớiđoạn cácthực tôi phép hiện biến kiểm đổitrahình và táchtháidấu là trình bày chi tiết trong hình 6. ược viết Trưởng hợp còn lại, tương ứng với ký tự thànhđóng các dấuvà thành mở đơn ảnhnếu Đây dấu [3].có đang xétxửlàlý dấu kép.trọng Sau đó, các ng trongdấu đơn gồmnày hai được phần,là nhận bướcphức dạngđộbằng tạpquan phương caopháp nhất mô bởivìhình ký tự Làm mảnh ống cầnMarkov vùng dấu tiếng Việt thường bao gồm một chữ cái cùng với n=0 Định vị góc n = số góc 3.2. như có ẩnPhân đoạn đã thểcập. đề là một dấu đơn duy nhất hoặc ợng đặc hai dấu một đơn hoặc dính hai dấu, liền nhau. víĐể dụgiải nhưquyết ‘á’, ‘â’, vấn ‘ă’, đề ‘ấ’ với Các bướcĐây làcụbước xử lýcái chữ thể trong xử Hình lý quan 3 Đầu được trọng vì bàyký trìnhphương trong tự tôi tương ứng là ‘a’. tra vàtiên, tách dấu pháp n>0 này,tiếp nội dung chúng theo. thực hiện kiểm tiếng thành Việt các thường gándấu nhãn đơnvùng baodấu nếu gồmđang liên mộtxét thông chữ [4]làđượccái dấu cùngsử dụng kép. với để n=0 Định vị góc n = số góc báo này Xét n max(bi)=2 Đếm số nhánh bi = số nhánh một hoặc 3.1. Tiền lý hairiêng xử tách dấu,từng ví dụ phần nhưtrong ‘á’, ‘â’, ký tự. ‘ă’,Sau ‘ấ’đó, vớicác tại góc thứ i tại mỗi góc chữ cái Nhiễu phần thườngtương này xuất ứng được hiện làkhi phân ‘a’. sửĐầu vàotiên, dụng 2thiết lớp, bịtương phươngquét quang ứng với pháp n>0 gángiảm học làm nhãn dấu và độvùng chính chữ liêncái,khi xác dựa thông nhậntrên vịđược [4]dạng. tríNgoài củasửmỗi ra, phần dụng nhiễu đểvới n>1 cũngtách có thểriêng đối tượng nằm dưới cùng là chữ cái. Một ví dụ n=1 Xét n max(b )=2 Đếm số nhánh max(b bi = số nhánh từngtrên xuất hiện phần ảnhtrongtrong ký quá tự. trìnhSau thu đó, nhậncác và i i)>2 minh họa được trình truyền dẫn. Do đó, khử nhiễu là bước cần thiết trước khi bày trong hình 4. tại mỗi góc tại góc thứ i phần này được phân vào 2 lớp, tương ứng với Dấu đơn Dấu kép thực hiện các công đoạn xử lý chính. Chúng tôi sử dụng bộ dấu vị lọc trung vàcóchữ mặtcái,nạ kíchdựathước trên vị 3×trí 3 kếtcủahợp mỗi vớiphần các phép với n>1 n=1 Hình 6: Quá trình kiểm tra dấu biến đối tượng đổi hình tháinằmlà đóng dướivàcùng mở ảnh là [3]. chữ cái. Một ví dụ Hình 6. Quá trình kiểm tra dấu max(bi)>2 minh họa được trình bày trong hình 4. 3.2. Phân đoạn Bộ phátBộ hiện Dấu đơn phát (địnhhiệnvị)(định góc được Dấu vị) kép gócxâyđược dựngxây dựadựng trên toán tử Plessey dựa trên được môtửtảPlessey toán trong [6]. đượcSố môlượng nhánh[6]. tả trong tại mỗi Số góc Đây là bước xử lý quan trọng vì ký tự tiếng Việt thường đượclượng tính bằng một phương pháp nhánh tại mỗi góc được tính bằng một đơn giản. Chúng tôi định bao gồm một chữ cái cùng với một hoặc hai dấu, ví dụ như nghĩaphương một đường pháp Hình đơntròn 6. Quá có bán trình giản. kính 3 kiểm tra Chúng điểm tôi dấu ảnh và định nghĩa tâm đặt ‘á’, ‘â’, ‘ă’, ‘ấ’ với chữ4.cáiKýtương Hình tự ‘ỗ’ứng với chữ là ‘a’.cáiĐầu ‘o’, tiên, dấu ‘^’ và ‘~’ tại góc. Tiếp theo phương ta xác định các điểm ảnh của đối tượng một đường tròn có (định bán kính 3góc điểm ảnh xây và tâm pháp gán nhãn 3.3.vùng Nhận liêndạng thôngchữ[4] cáiđược sử dụng để tách nằm đặt trên Bộđường phát tròn.hiện Lúc này, vị) dấu đã được được làm mảnh dựngnên tại góc. Tiếp theo ta xác định các điểm ảnh riêng từng phần trong ký tự. Sau đó, các phần này được số dựa điểmtrênảnhtoán đượctử xácPlessey định tương đượcứng môvới tả số trongnhánh [6].tạiSốgóc Các chữ cái riêng biệt trong bảng chữ của xét.đối tượng nằm trên đường tròn. Lúc này, dấu phân vào 2 lớp, tương ứng với dấu và chữ cái, dựa trên vị trí đang lượng nhánh tại mỗi góc được tính bằng một của mỗi phầntiếng với đốiViệttượngcó thể nằm được dưới nhậncùng dạnglà chữhiệucái.quảMột thông đã được làm mảnh nên số điểm ảnh được xác phương Nếu dấu pháp được xác đơnđịnh giản.là dấu Chúng đơn, việc tôi nhận địnhdạng nghĩađược Hình qua 4. Ký các tự ‘ỗ’ giải với ví dụ minh họa được trình bày trong Hình 4.pháp chữ đượccái ‘o’, áp dấu dụng ‘^’ chovà ‘~’ bảng chữ định tương ứngđó vớivới sốcácnhánh tại gócMarkov đang xét. thực hiện ngay sau mô hình ẩn. Ngược tiếng Anh. Bước này không nằm trong nội dung một đường tròn có bán kính 3 điểm ảnh và tâm Nếu dấu được xác định là dấu đơn, việc 3.3. Nhận dạng chữ cái 22 trọng tâm mà bài báo muốn đề cập nên phần này đặtnhận tại góc. Tiếp theo ta xác định các điểm ảnh dạng được thực hiện ngay sau đó với các
- 4. Kết quả thử nghiệm 3.5.2. Phân nhóm các nhánh Hiện nay chưa HuỳnhcóHữu bộHưng, dữ liệu chuẩn Nguyễn Trọngvề ký Nguyên Việc phân chia các nhánh vào hai nhóm lại, dấu kép được phân tách thành các dấu đơn trước khi có tự viếtsánh sự so taykết tiếng quả Việt nhận nên dạnggiải các pháp đềđểxuất cặp dấu chọnđược ra kết được thực hiện bằng cách chọn 2 nhánh đưa vào nhận dạng. quảthử nghiệm chính vớiVới xác nhất. dữtừng liệucặpcục dấu,bộ. Cácsuất 6 xác ký(tương tự nàyứng nhóm 1 và các nhánh còn lại được đưa vào nhóm vớiđược 6 lớp)lấycủatừ mỗi dấu đơn được tính toán và dấu này được 3.5. Phân tách dấu kép 2 nguồn dữ liệu mở của các sinh viên 2. Do đó, ta có Cn cách phân nhóm. gán vào lớp cho xác suất đầu ra cao nhất. Bước này được thực hiện dựa trên cả ảnh ban đầu và trường Đại học Bách khoa Hà Nội [8] và một Sau khi thu được các giá trị xác suất cao nhất tương ứng ảnh làm mảnh Cáccủa nhánh dấu. ởCác mỗi nhóm điểm ảnhmang tại vị ýtrínghĩa biểu góc trong phần do nhóm tác giả tự thu thập. Mỗi ảnh trong với mỗi cặp dấu, chúng tôi tính tổng xác suất từng cặp và so diễnđầu ảnh ban một dấuloại được đơnbỏtrong dấutọa dựa trên kép độđang góc (vàxét.vùng Nếulân ta bộđểdữchọn sánh liệurachứa một cặp có xácký tựtổng suất tiếngcaoViệt cóKết nhất. dấu.quảQuá nhận cận của chỉgóc) đơnthu được liên thuần từ ảnh làm kết mảnh các nhằmdựa nhánh mụctrênđíchvịtách trí dạng của cặp dấu đơn này được xem là kết quả cuối phục trình tách dấu được thực hiện thủ công để cùng. riêng từng nhánh tương ứng với góc đang xét. Tiếp theo, các của chúng trong ảnh ban đầu, dấu đơn thu được vụ cho việc huấn luyện. Một số ký tự được trình nhánh được gom vào 2 nhóm, tương ứng với 2 dấu đơn cần 4. Kết quả thử nghiệm nhận trở nên không đầy đủ do các điểm ảnh tại góc đã dạng. bày trong hình 8. bị loại bỏ. Vì vậy, chúng tôi sử dụng phép trừ 3.5.1. Tách các nhánh ảnh để xác định dấu đơn tương ứng với mỗi Tọa độ điểm góc đã xác định ở quá trình kiểm tra dấu TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI nhóm. Cụ thể, với mỗi nhóm, chúng tôi tiến được sử dụng để tách riêng các nhánh như sau: Việc huấn luyện được thực hiện với 120 xác th hành trừ đi các nhánh trong nhóm đó trên ảnh • Loại bỏ điểm góc hiện tại mẫu (Â) cho (Â)mỗi (Ã)dấu đơn, TẠP tương (Ă) (Ấ)KHOA CHÍ ứng(Ể) với VÀ HỌC số (Ỗ) lượng NGHỆ, CÔNG thể ĐẠ là g • gốc Đặt rđể= 1thu (bánđược ảnh lân kính vùng đơncận) tương ứng với các mẫuHình huấn8.8:luyện Hình là 720. Tập mẫu thử nghiệm Việc Mộthuấnsốluyện ký tự có dấu thực tronghiện tập dữ vớiliệu Một số ký tự có dấu trong tập dữ liệu nhánh trong nhóm còn • Đặt n = số vùng liên thônglại. Một ví dụ cụ thể được được 120 5. Kết được chia thành 2 nhóm, nhóm đầu tiên chứa các • Lặp lại4 các bước sau đến khi n > 1 mẫu nay Hiện cho chưa mỗi có dấubộđơn, dữ liệu tương chuẩnứng vớitựsố về ký viếtlượng tay tiếng – r=r+1 Việtdấunênđơn mẫu giải với tổng huấnpháp luyện số mẫu đề xuất là 720.đượclà thử Tập 300 chia với nghiệm mẫu thử đềudữ cho nghiệmliệu6 cục mới để – Xóa điểm ảnh thuộc vùng lân cận r×r bộ. lớp, Các kýnhóm cònđược tự này lại gồm lấy từ320 nguồn mẫudữtương liệu mở ứng củavớicác8sinh được chia thành 2 nhóm, nhóm đầu tiên chứa các – n = số vùng liên thông hiện tại viêndấu kép.Đại trường Kếthọc quảBách thử khoa nghiệm Hà vớiNội nhóm [8] và dấu một đơn phần do tự viết • Lấy tất cả nhánh đã tách nhóm dấu đơn tác giả vớithu tự tổng thập. sốMỗi mẫuảnh là trong 300 chiabộ dữ đều liệu cho chứa 6một bằng thấp nv được trình bày ở bảng 1. ký tựlớp, nhóm tiếng Việtcòn lại gồm có dấu. Quá320 trìnhmẫu táchtương ứng thực dấu được với 8hiện thuật xác thg Sau khi thực hiện quá trình tách nhánh cho các góc trong mỗi dấu, ta thu được một tập hợp các nhánh riêng lẻ. Lưu thủ công đểBảng dấu kép. Kết1.vụ phục Kết quả quảchothử nhận nghiệm việc huấndạngvới dấunhóm luyện. đơn dấu đơn Một số ký tự được đang thể làx ý rằng với dấu kép có góc nối 3 nhánh (hình 5a) thì chỉ góc trìnhđược bàyDấutrình bày trong Hìnhở8.bảng 1. đơn và 5. Kết này được tách nhánh; ngược lại, với dấu kép có hai góc 2 Bảng 1. Kết quả nhận dạng dấu đơn Bảng 1: Một số ký tự có dấu trong tập dữ liệu xích k nhánh (Hình 5c), bước tách nhánh được thực hiện với cả Mẫu thử 50 50 50 50 50 50 dụng c hai góc. Dấu mới đ Nhận dạng 48 49 46 42 43 41 Ưu điể 3.5.2. Phân nhóm các nhánh Mẫu thử 50 50 50 50 50 50 tự viế Tỉ lệ 96% 98% 92% 84% 86% 82% có thể bằng v Việc phân chia các nhánh vào hai nhóm được thực hiện Nhận dạng 48 49 46 42 43 41 cặp dấ Trung bình 89.7% thuật bằng cách chọn 2 nhánh đưa vào nhóm 1 và các nhánh còn tính to lại được đưa vào nhóm 2. Do đó, ta có cách phân nhóm. Tỉ lệ 96% 98% 92% 84% 86% 82% đang x Với nhóm dấu kép, kết quả tách dấu khá theo th Các nhánh ở mỗi nhóm mang ý nghĩa biểu diễn một dấu đơn v khả quan Trung khi độ chính xác89.7% bình trung bình lên đến đơn trong dấu kép đang xét. Nếu ta chỉ đơn thuần liên kết xích k hơn 94%. các nhánh dựa trên vị trí của chúng trong ảnh ban đầu, dấu Với nhóm dấu kép, kết quả tách dấu khá dụng đơn thu được trở nên không đầy đủ do các điểm ảnh tại góc BảngBảng2. Kết quả 2: Kết phân quả phântách khả quan khi độ chính xác trung bình lên đến tách dấu dấuképkép Ưu đi đã bị loại bỏ. Vì vậy, chúng tôi sử dụng phép trừ ảnh để có thể hơn Dấu Số mẫu thử Tách chính xác 94%. Tỉ lệ xác định dấu đơn tương ứng với mỗi nhóm. Cụ thể, với mỗi Bảng 2. Kết quả phân tách dấu kép cặp dấ nhóm, chúng tôi tiến hành trừ đi các nhánh trong nhóm đó 40 38 95.0% trên ảnh gốc để thu được ảnh đơn tương ứng với các nhánh tính to Dấu Số mẫu thử Tách chính xác Tỉ lệ trong nhóm còn lại. Một ví dụ cụ thể được trình bày trong 40 40 100% theo th Hình 7. 40 38 95.0% 40 39 97.5% 40 40 100% này sẽ 40 38 95.0% áp dụn 40 39 97.5% không 40 36 90.0% 40 38 95.0% chính 40 40 100% hiệu q 40 36 90.0% 40 35 87.5% này sẽ 40 40 100% Hình 7: 3 cách chia nhóm cho 1 dấu kép (‘∧’và ‘∼’) 40 37 92.5% áp dụn 40 35 87.5% không 3.5.3. Nhận dạng từng cặp dấu đơn Độ chính xác trung bình: 94.7% chính Quá trình này được thực hiện dựa trên mô hình Markov Trong bảng 1, hai dấu có tỉ lệ nhận dạng hiệu q ẩn [7] và đặc trưng mã xích [5] (chain code). Phương pháp Việc huấn luyện được thực hiện với 120 mẫu TÀIcho LIỆUmỗiTHAM thấp nhất là ‘^’ và ‘~’. Các kết quả không chính học máy này được chọn vì mức độ hiệu quả cao và cần thiết dấu [1] đơn, De tươngCao ứngTranvới số lượng mẫu (2012), “An huấn luyện method efficient là 720. for o recognition”, Proceedings of the Third Symposiu 23 TÀI LIỆU THAM
- TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II Tập mẫu thử nghiệm được chia thành 2 nhóm, nhóm đầu số luật về chính tả cũng có thể được kết hợp để nâng cao tiên chứa các dấu đơn với tổng số mẫu là 300 chia đều cho hiệu quả nhận dạng. 6 lớp, nhóm còn lại gồm 320 mẫu tương ứng với 8 dấu kép. Kết quả thử nghiệm với nhóm dấu đơn được trình bày ở Tài liệu tham khảo Bảng 1. Với nhóm dấu kép, kết quả tách dấu khá khả quan khi [1] De Cao Tran (2012), “An efficient method for on-line Vietnamese handwritten character recognition”, Proceedings of the Third độ chính xác trung bình lên đến hơn 94% (Bảng 2). Symposium on Information and Communication Technology, pp. 135-141. 5. Kết luận [2] De Cao Tran, Patrick Franco, Jean-Marc Ogier (2010), “Accented Bài báo này trình bày một cách tiếp cận mới để giải Handwritten Character Recognition Using SVM – Application to French”, International Conference on Frontiers in Handwriting quyết vấn đề nhận dạng dấu trong ký tự viết tay tiếng Việt. Recognition (ICFHR), Kolkata, pp. 65-71. Giải pháp đề xuất bắt đầu bằng việc xác định dấu trong ký [3] Gary Bradski, Adrian Kaehler (2008), Learning OpenCV, pp. tự dựa trên kĩ thuật gán nhãn vùng liên thông. Tiếp theo, dấu 115-120. đang xét được kiểm tra và phân vào 2 lớp: dấu đơn và dấu [4] Sivaramakrishnan Rajaraman, Arun Chokkalingam (2013), “Connected Components Labeling and Extraction Based Interphase kép. Quá trình nhận dạng bằng mã xích kết hợp với mô hình Removal from Chromosome Images”, International Journal of Markov ẩn được áp dụng cho dấu đơn hoặc dấu kép đã phân Bio-Science and Bio-Technology, vol. 5, no. 1, pp. 81-90. tách. Ưu điểm lớn nhất ở cách tiếp cận này là các dấu có thể [5] Mark Nixon, Alberto Aguado (2008), Feature Extraction & Image Processing 2nd, Academic Press, UK. được nhận dạng cả khi có sự liên kết tại cặp dấu trong cùng [6] D.Parks, J.P.Gravel (2004), “Corner Detection”, International một ký tự. Ngoài ra, chi phí tính toán cũng đáp ứng được Journal of Computer Vision. yêu cầu nhận dạng theo thời gian thực. [7] Sung-Jung Cho (2005), “Introduction to Hidden Markov Model and Its Application”, Samsung Advanced Institute of Technology Trong các nghiên cứu tiếp theo, giải pháp này sẽ được (SAIT). cải tiến để tăng khả năng nhận dạng, áp dụng được cho một [8] Sapphire-ocr data, http://sapphire-ocr.googlecode.com số trường hợp cách viết không chính xác. Bên cạnh đó, một /files/samples-full.zip. (BBT nhận bài: 21/12/2013, phản biện xong: 27/12/2013) 24
ADSENSE
Thêm tài liệu vào bộ sưu tập có sẵn:
Báo xấu
LAVA
AANETWORK
TRỢ GIÚP
HỖ TRỢ KHÁCH HÀNG
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn