intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Thao tác Dữ liệu phần 2

Chia sẻ: Nghia Bui Tuan | Ngày: | Loại File: PDF | Số trang:7

97
lượt xem
7
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chạy CharacterEncodingExample sẽ tạo ra file output.txt. Mở file này trong một trình soạn thảo có hỗ trợ Unicode, bạn sẽ thấy kết quả như sau: Source Text

Chủ đề:
Lưu

Nội dung Text: Thao tác Dữ liệu phần 2

  1. Chạy CharacterEncodingExample sẽ tạo ra file output.txt. Mở file này trong một trình soạn thảo có hỗ trợ Unicode, bạn sẽ thấy kết quả như sau: Source Text : Area = Πr^2 UTF-16 Bytes: 41-00-72-00-65-00-61-00-20-00-3D-00-20-00-A0-03-72-00-5E-00- 32-00 UTF-8 Bytes: 41-72-65-61-20-3D-20-CE-A0-72-5E-32 ASCII Bytes: 41-72-65-61-20-3D-20-3F-72-5E-32 UTF-8 Text : Area = Πr^2 ASCII Text : Area = ?r^2 Chú ý rằng, nếu sử dụng UTF-16 thì mỗi ký tự được mã hóa bởi 2 byte, nhưng vì hầu hết các ký tự đều là ký tự chuẩn nên byte cao là 0 (nếu sử dụng little-endian thì byte thấp viết trước). Do đó, hầu hết các ký tự đều được mã hóa bởi những số giống nhau trong ba kiểu mã hóa, ngoại trừ ký hiệu PI được mã hóa khác (được in đậm trong kết quả ở trên). Để mã hóa PI cần 2 byte, đòi hỏi này được UTF-8 hỗ trợ nên thể hiện được Π, trong khi đó ASCII chỉ sử dụng một byte nên thay PI bằng mã 3F, đây là mã của dấu hỏi (?). Nếu chuyển các ký tự Unicode sang ASCII hoặc một kiểu mã hóa khác thì có thể mất dữ liệu. Bất kỳ ký tự Unicode nào có mã ký tự không biểu diễn được trong kiểu mã hóa đích sẽ bị bỏ qua khi chuyển đổi. Lớp Encoding cũng cung cấp phương thức tĩnh Covert để đơn giản hóa việc chuyển một mảng byte từ kiểu mã hóa này sang kiểu mã hóa khác không phải qua trung gian UTF-16. Ví dụ, dòng mã sau chuyển trực tiếp các byte trong mảng asciiString từ ASCII sang UTF- 8: byte[] utf8String = Encoding.Convert(Encoding.ASCII, Encoding.UTF8, asciiString); 1.1 Chuyển các kiểu giá trị cơ bản thành mảng kiểu byte Bạn cần chuyển các kiểu giá trị cơ bản thành mảng kiểu byte. Lớp System.BitConverter cung cấp các phương thức tĩnh rất tiện lợi cho việc chuyển đổi qua lại giữa các mảng kiểu byte và hầu hết các kiểu giá trị cơ bản— trừ kiểu decimal. Để chuyển một giá trị kiểu decimal sang mảng kiểu byte, bạn cần sử dụng đối tượng System.IO.BinaryWriter để ghi giá trị đó vào một thể hiện System.IO.MemoryStream, sau đó gọi phương thức Memorystream.ToArray. Để có một giá trị decimal từ một mảng kiểu byte, bạn cần tạo một đối tượng MemoryStream từ mảng kiểu byte, sau đó sử dụng thể hiện System.IO.BinaryReader để đọc giá trị này từ MemoryStream. Phương thức tĩnh GetBytes của lớp BitConverter cung cấp nhiều phiên bản nạp chồng cho phép chuyển hầu hết các kiểu giá trị cơ bản sang mảng kiểu byte. Các kiểu được hỗ
  2. trợ là bool, char, double, short, int, long, float, ushort, uint, và ulong. Lớp BitConverter cũng cung cấp các phương thức tĩnh cho phép chuyển các mảng kiểu byte thành các kiểu giá trị chuẩn như ToBoolean, ToUInt32, ToDouble,... Ví dụ sau minh họa cách chuyển các giá trị bool và int thành mảng kiểu byte, và ngược lại. Đối số thứ hai trong ToBoolean và ToUInt32 cho biết vị trí (tính từ 0) trong mảng byte mà BitConverter sẽ lấy các byte kể từ đó để tạo giá trị dữ liệu. byte[] b = null; // Chuyển một giá trị bool thành mảng kiểu byte và hiển thị. b = BitConverter.GetBytes(true); Console.WriteLine(BitConverter.ToString(b)); // Chuyển một mảng kiểu byte thành giá trị bool và hiển thị. Console.WriteLine(BitConverter.ToBoolean(b,0)); // Chuyển một giá trị int thành mảng kiểu byte và hiển thị. b = BitConverter.GetBytes(3678); Console.WriteLine(BitConverter.ToString(b)); // Chuyển một mảng kiểu byte thành giá trị int và hiển thị. Console.WriteLine(BitConverter.ToInt32(b,0)); Đối với kiểu decimal, lớp BitConverter không hỗ trợ, nên bạn phải sử dụng thêm MemoryStream và BinaryWriter. // Tạo mảng kiểu byte từ giá trị decimal. public static byte[] DecimalToByteArray (decimal src) { // Tạo một MemoryStream làm bộ đệm chứa dữ liệu nhị phân. using (MemoryStream stream = new MemoryStream()) { // Tạo một BinaryWriter để ghi dữ liệu nhị phân vào stream. using (BinaryWriter writer = new BinaryWriter(stream)) { // Ghi giá trị decimal vào BinaryWriter/MemoryStream. writer.Write(src); // Trả về mảng kiểu byte. return stream.ToArray(); } }
  3. } Để chuyển một mảng kiểu byte thành một giá trị decimal, sử dụng BinaryReader để đọc từ MemoryStream. // Tạo giá trị decimal từ mảng kiểu byte. public static decimal ByteArrayToDecimal (byte[] src) { // Tạo một MemoryStream chứa mảng. using (MemoryStream stream = new MemoryStream(src)) { // Tạo một BinaryReader để đọc từ stream. using (BinaryReader reader = new BinaryReader(stream)) { // Đọc và trả về giá trị decimal từ // BinaryReader/MemoryStream. return reader.ReadDecimal(); } } } Lớp BitConverter cũng cung cấp phương thức ToString để tạo một String chứa giá trị mảng. Gọi ToString và truyền đối số là một mảng byte sẽ trả về một String chứa giá trị thập lục phân của các byte trong mảng, các giá trị này cách nhau bởi dấu gạch nối, ví dụ “34-A7-2C”. Tuy nhiên, không có phương thức nào tạo một mảng kiểu byte từ một chuỗi theo định dạng này. 1.2 Mã hóa dữ liệu nhị phân thành văn bản Bạn cần chuyển dữ liệu nhị phân sang một dạng sao cho có thể được lưu trữ trong một file văn bản ASCII (chẳng hạn file XML), hoặc được gởi đi trong e- mail. Sử dụng các phương thức tĩnh ToBase64String và FromBase64String của lớp System.Converter để chuyển đổi qua lại giữa dữ liệu nhị phân và chuỗi được mã hóa theo Base64. Base64 là một kiểu mã hóa cho phép bạn mô tả dữ liệu nhị phân như một dãy các ký tự ASCII để nó có thể được chèn vào một file văn bản hoặc một e-mail, mà ở đó dữ liệu nhị phân không được cho phép. Base64 làm việc trên nguyên tắc sử dụng 4 byte để chứa 3 byte dữ liệu nguồn và đảm bảo mỗi byte chỉ sử dụng 7 bit thấp để chứa dữ liệu. Điều này có nghĩa là mỗi byte dữ liệu được mã hóa theo Base64 có dạng giống như một ký tự ASCII, nên có thể được lưu trữ hoặc truyền đi bất cứ nơi đâu cho phép ký tự ASCII.
  4. Lớp Convert cung cấp hai phương thức ToBase64String và FromBase64String để mã hóa và giải mã Base64. Tuy nhiên, trước khi mã hóa Base64, bạn phải chuyển dữ liệu thành mảng kiểu byte; và sau khi giải mã, bạn phải chuyển mảng kiểu byte trở về kiểu dữ liệu thích hợp (xem lại mục 2.2 và 2.3). Ví dụ sau minh họa cách sử dụng lớp Convert để mã hóa và giải mã Base64 với chuỗi Unicode, giá trị int, giá trị decimal. Đối với giá trị decimal, bạn phải sử dụng lại các phương thức ByteArrayToDecimal và DecimalToByteArray trong mục 2.3. // Mã hóa Base64 với chuỗi Unicode. public static string StringToBase64 (string src) { // Chuyển chuỗi thành mảng kiểu byte. byte[] b = Encoding.Unicode.GetBytes(src); // Trả về chuỗi được mã hóa theo Base64. return Convert.ToBase64String(b); } // Giải mã một chuỗi Unicode được mã hóa theo Base64. public static string Base64ToString (string src) { // Giải mã vào mảng kiểu byte. byte[] b = Convert.FromBase64String(src); // Trả về chuỗi Unicode. return Encoding.Unicode.GetString(b); } // Mã hóa Base64 với giá trị decimal. public static string DecimalToBase64 (decimal src) { // Chuyển giá trị decimal thành mảng kiểu byte. byte[] b = DecimalToByteArray(src); // Trả về giá trị decimal được mã hóa theo Base64. return Convert.ToBase64String(b); } // Giải mã một giá trị decimal được mã hóa theo Base64. public static decimal Base64ToDecimal (string src) {
  5. // Giải mã vào mảng kiểu byte. byte[] b = Convert.FromBase64String(src); // Trả về giá trị decimal. return ByteArrayToDecimal(b); } // Mã hóa Base64 với giá trị int. public static string IntToBase64 (int src) { // Chuyển giá trị int thành mảng kiểu byte. byte[] b = BitConverter.GetBytes(src); // Trả về giá trị int được mã hóa theo Base64. return Convert.ToBase64String(b); } // Giải mã một giá trị int được mã hóa theo Base64. public static int Base64ToInt (string src) { // Giải mã vào mảng kiểu byte. byte[] b = Convert.FromBase64String(src); // Trả về giá trị int. return BitConverter.ToInt32(b,0); } 1.3 Sử dụng biểu thức chính quy để kiểm tra dữ liệu nhập Bạn cần kiểm tra dữ liệu nhập vào có đúng với cấu trúc và nội dung được quy định trước hay không. Ví dụ, bạn muốn bảo đảm người dùng nhập địa chỉ IP, số điện thoại, hay địa chỉ e-mail hợp lệ. Sử dụng biểu thức chính quy để bảo đảm dữ liệu nhập đúng cấu trúc và chỉ chứa các ký tự được quy định trước đối với từng dạng thông tin. Khi ứng dụng nhận dữ liệu từ người dùng hoặc đọc dữ liệu từ file, bạn nên giả định dữ liệu này là chưa chính xác và cần được kiểm tra lại. Một nhu cầu kiểm tra khá phổ biến là xác định các số điện thoại, số thẻ tín dụng, địa chỉ e-mail có đúng dạng hay không. Việc kiểm tra cấu trúc và nội dung của dữ liệu không đảm bảo dữ liệu là chính xác nhưng giúp
  6. loại bỏ nhiều dữ liệu sai và đơn giản hóa việc kiểm tra sau này. Biểu thức chính quy (regular expression) cung cấp một cơ chế rất tốt để kiểm tra một chuỗi có đúng với cấu trúc quy định trước hay không, do đó bạn có thể lợi dụng tính năng này cho mục đích kiểm tra dữ liệu nhập. Trước tiên, bạn phải xác định cú pháp của biểu thức chính quy cho phù hợp với cấu trúc và nội dung của dữ liệu cần kiểm tra, đây là phần khó nhất khi sử dụng biểu thức chính quy. Biểu thức chính quy được xây dựng trên hai yếu tố: trực kiện (literal) và siêu ký tự (metacharacter). Trực kiện mô tả các ký tự có thể xuất hiện trong mẫu mà bạn muốn so trùng; siêu ký tự hỗ trợ việc so trùng các ký tự đại diện (wildcard), tầm trị, nhóm, lặp, điều kiện, và các cơ chế điều khiển khác. Ở đây không thảo luận đầy đủ về cú pháp biểu thức chính quy (tham khảo tài liệu .NET SDK để hiểu thêm về biểu thức chính quy), nhưng bảng 2.2 sẽ mô tả các siêu ký tự thường dùng. Bảng 2.2 Các siêu ký tự thường dùng Siêu ký tự Mô tả . Mọi ký tự trừ ký tự xuống dòng (\n). \d Ký tự chữ số thập phân (digit). \D Ký tự không phải chữ số (non-digit). \s Ký tự whitespace (như khoảng trắng, tab...). \S Ký tự non-whitespace. \w Ký tự word (gồm mẫu tự, chữ số, và dấu gạch dưới). \W Ký tự non-word. ^ Bắt đầu một chuỗi hoặc dòng. \A Bắt đầu một chuỗi. $ Kết thúc một chuỗi hoặc dòng. \z Kết thúc một chuỗi. Ngăn cách các biểu thức có thể so trùng, ví dụ AAA|ABA|ABB sẽ so | trùng với AAA, ABA, hoặc ABB (các biểu thức được so trùng từ trái sang). So trùng với một trong các ký tự trong nhóm, ví dụ [AbC] sẽ so trùng [abc] với A, b, hoặc C. So trùng với bất cứ ký tự nào không thuộc các ký tự trong nhóm, ví dụ [^abc] [^AbC] sẽ không so trùng với A, b, or C nhưng so trùng với B, F,…
  7. So trùng với bất kỳ ký tự nào thuộc khoảng này, ví dụ [A-C] sẽ so trùng [a-z] với A, B, hoặc C. Xác định một biểu thức con sao cho nó được xem như một yếu tố đơn () lẻ đối với các yếu tố được trình bày trong bảng này. Xác định có một hoặc không có ký tự hoặc biểu thức con đứng trước ? nó, ví dụ A?B so trùng với B, AB, nhưng không so trùng với AAB. Xác định không có hoặc có nhiều ký tự hoặc biểu thức con đứng trước * nó, ví dụ A*B so trùng với B, AB, AAB, AAAB,… Xác định có một hoặc có nhiều ký tự hoặc biểu thức con đứng trước nó, + ví dụ A+B so trùng với AB, AAB, AAAB,… nhưng không so trùng với B. Xác định có đúng n ký tự hoặc biểu thức con đứng trước nó, ví dụ A{2} {n} chỉ so trùng với AA. Xác định có ít nhất n ký tự hoặc biểu thức con đứng trước nó, ví dụ {n,} A{2,} so trùng với AA, AAA, AAAA,… nhưng không so trùng với A. Xác định có từ n đến m ký tự đứng trước nó, ví dụ A{2,4} so trùng với {n, m} AA, AAA, và AAAA nhưng không so trùng với A hoặc AAAAA.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2