intTypePromotion=1
ADSENSE

Các bước chuyển kiểu chữ

Chia sẻ: Tran Sanh | Ngày: | Loại File: DOC | Số trang:5

176
lượt xem
19
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Thuật toán chuyển đổi kiểu chữ Thuật toán này nhận diện và chuyển đổi một văn bản Tiếng Việt từ các kiểu nhập văn bản (VN6909, VN1258, VNI, TCNV3, VIETWARE) sang định dạng unicode vn6909. Thuật toán: Đầu vào: chuỗi văn bản cần chuyển đổi kiểu. Đầu ra: Chuỗi văn bản đã được chuyển về định dạng unicode vn6909.

Chủ đề:
Lưu

Nội dung Text: Các bước chuyển kiểu chữ

  1. 1. Thuật toán chuyển đổi kiểu chữ Thuật toán này nhận diện và chuyển đổi một văn bản Tiếng Việt từ các kiểu nhập văn bản (VN6909, VN1258, VNI, TCNV3, VIETWARE) sang định dạng unicode vn6909. Thuật toán: • Đầu vào: chuỗi văn bản cần chuyển đổi kiểu • Đầu ra: Chuỗi văn bản đã được chuyển về định dạng unicode vn6909 • Nội dung: o Nhận diện kiểu chữ của đoạn văn bản đưa vào (1) o Chuyển sang định dạng unicode vn6909 (2) Thuật toán (1) • Đầu vào: chuỗi văn bản cần nhận dạng • Đầu ra: Kiểu gõ của chuỗi văn bản đó • Nội dung: o Khai báo mảng các chuỗi ký tự đặc biệt sử dụng khác nhau của các loại kiểu gõ đã được nhận diện như trên. o Đếm tần xuất trùng của văn bản so với các bảng mã đã khai báo o Mã được nhận diện là mã có số ký tự trùng nhiều nhất với bảng mã đã khai báo. Ví dụ mảng khai báo sau đây dùng để nhận dạng kiểu nhập văn bản theo TCVN3 string[] tcvn3 ={ "µ", "¶", "•", "¸", "¹", "»", "¼", "½", "¾", "Ç" , "Ñ", "ß", "å", "æ", "ñ", "÷", "ø", "×", "Ø", "Ü" , "Þ", "þ", "Aµ", "A¶", "A•", "A¸", "A¹", "¡»", "¡¼" , "¡½", "¡¾", "¡Æ", "¢Ç", "¢È", "¢É", "¢Ê", "¢Ë", "EÌ" , "EÎ", "EÏ", "EÐ", "EÑ", "£Ò", "£Ó", "£Ô", "£Õ", "£Ö" , "Oß", "Oá", "Oâ", "Oã", "Oä", "¤å", "¤æ", "¤ç", "¤è" , "¤é", "¥ê", "¥ë", "¥ì", "¥í"\, "¥î", "Uï", "Uñ", "Uò" , "Uó", "Uô", "¦õ", "¦ö", "¦÷", "¦ø", "¦ù", "I×", "IØ" , "IÜ", "IÝ", "IÞ", "Yú", "Yû", "Yü", "Yý", "Yþ", "©" , "¨", "ª", "®", "«", "¬","", "¢", "¡", "£", "§", "¤"
  2. , "¥","¦" }; Thuận toán (2) • Đầu vào: chuỗi văn bản cần chuyển mã và mã của văn bản đã được nhận dạng từ thuật toán (1) • Đầu ra: Chuỗi văn bản đã được chuyển mã • Nội dung: o Khai báo mảng các ký tự mã nguồn (theo nhận diện) và mã đích (vn6909) o Lặp lại tất cả từng ký tự trong văn bản gốc o Thay thế ký tự ở mã nguồn bằng ký tự ở mã đích o Trả về kết quả là mã đã chuyển. Ví dụ mảng ký tự mã nguồn của TCVN3 private char[] TCVN3_CHAR ={ '\u00FC', '\u00FB', '\u00FE', '\u00FA', '\u00F9', '\u00F7', '\u00F6', '\u00F5', '\u00F8', '\u00F1', '\u00F4', '\u00EE', '\u00EC', '\u00EB', '\u00EA', '\u00ED', '\u00E9', '\u00E7', '\u00E6', '\u00E5', '\u00E8', '\u00E1', '\u00E4', '\u00DE', '\u00D8', '\u00D6', '\u00D4', '\u00D3', '\u00D2', '\u00D5', '\u00CF', '\u00CE', '\u00D1', '\u00C6', '\u00BD', '\u00BC', '\u00AB', '\u00BE', '\u00CB', '\u00C9', '\u00C8', '\u00C7', '\u00CA', '\u00B6', '\u00B9', '\u00AD', '\u00A6', '\u00AC', '\u00A5', '\u00F2', '\u00DC', '\u00AE', '\u00A8', '\u00A1', '\u00F3', '\u00EF', '\u00E2', '\u00BB', '\u00E3', '\u00DF', '\u00DD', '\u00D7', '\u00AA', '\u00D0', '\u00CC', '\u00B7', '\u00A9', '\u00B8', '\u00B5', '\u00A4', '\u00A7', '\u00A3', '\u00A2' }; 2. Trích lọc văn bản từ các định dạng khác nhau Việc trích lọc nội dung văn bản phụ thuộc vào định dạng tệp tin mà người dùng định nghĩa cho phép nhận diện. Các tệp tin này phải được khai báo trước và có cách đọc cũng như trích lọc khác nhau. Ứng dụng này định hướng để đọc nội dung từ các loại văn bản sau đây:
  3. • Tệp tin văn bản Microsoft Word với các phiên bản 2003 và 2007 tương đương với phần mở rộng .doc và .docx • Tệp tin văn bản Microsoft Power Point với các phiên bản 2003 và 2007 tương đương với phần mở rộng .ppt và .pptx • Tệp tin văn bản Microsoft Excel với các phiên bản 2003 và 2007 tương đương với phần mở rộng .xls và .xlsx • Tệp tin văn bản với định dạng pdf • Tệp tin html với các phần mở rộng html, htm và nội dung html từ địa chỉ web Thuật toán trích lọc văn bản từ tệp tin có định dạng HTML • Đầu vào: Tệp tin văn bản với định dạng HTML • Đầu ra: văn bản hoàn toàn gồm các kí tự • Nội dung: o Đọc nội dung văn bản đưa về định dạng chuỗi các ký tự. o Hủy bỏ dòng trắng không được hiển thị trên HTML. o Hủy bỏ khoảng trắng tab. o Hủy bỏ các ký tự trắng liên tiếp trong HTML. o Hủy bỏ thẻ HEAD. o Hủy bỏ tất cả JavaScript. o Thay thế các ký tự đặc biệt như &, , "… o Kiểm tra xem có ngắt dòng () hoặc khoản (). o Bước cuối cùng, loại bỏ tất cả các thẻ HTML và trả về hoàn toàn là các ký tự. Thuật toán chuyển từ tệp tin văn Microsoft Word về dạng văn bản. • Đầu vào: Tệp tin văn bản với định dạng .doc, .docx • Đầu ra: văn bản hoàn toàn gồm các kí tự • Nội dung: o Khai báo đối tượng Microsoft.Office.Interop.Word.Document
  4. o Sử dụng phương thức ActiveWindow.Selection.WholeStory() để đọc nội dung của văn bản. o Nội dung văn bản text sẽ được khai thác qua thuộc tính Content.Text; Thuật toán chuyển từ tệp tin văn Microsoft Power Point về dạng văn bản. • Đầu vào: Tệp tin văn bản với định dạng .ppt, .pptx • Đầu ra: văn bản hoàn toàn gồm các kí tự o Khai báo đối tượng Microsoft.Office.Interop.PowerPoint.Presentation o Duyệt qua từng trang trình diễn  Duyệt qua từng đối tượng textbox trang  Lấy nội dung văn bản thêm vào dữ liệu đã lấy o Trả lại kết quả đã trích xuất được Thuật toán chuyển từ nội dung từ địa chỉ URL về dạng văn bản. • Đầu vào: nội dung của văn bản được lưu trên web thông qua địa chỉ URL • Đầu ra: văn bản hoàn toàn gồm các kí tự o Khai báo đối tượng WebClient dùng để khai thác dữ liệu qua các trang web. o Tải nội dung HTML từ địa chỉ web về và lưu vào một chuỗi ký tự o Xử lý loại bỏ các ký tự định dạng HTML như phần trích lọc HTML o Trả lại kết quả đã được loại bỏ định dạng Thuật toán đọc hình ảnh từ văn bản Microsoft Word. • Đầu vào: Tệp tin văn bản với định dạng .doc, .docx • Đầu ra: mảng các hình ảnh o Khai báo đối tượng Document dùng để đọc nội dung văn bản Word. o Duyệt qua tất cả các hình vẽ có trên tệp tin đã đọc Khai báo đối tượng để chép nội dung hình ảnh đã  Clipboard được đọc rồi sau đó ghi vào đối tượng hình ảnh Bitmap.  Lưu dữ liệu vào mảng các hình ảnh o Trả lại kết quả là mảng các hình ảnh
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2