Tin học cơ sở - Chương 6
lượt xem 6
download
Để xử lý, lưu trữ và truyền thông tin cần phải tìm cách tổ chức và biểu diễn (thể hiện) thông tin trong MTĐT một cách hợp lý. Như đã biết, dữ liệu là hình thức biểu diễn thông tin. Như vậy đối với máy tính, dữ liệu chính là các thông tin đã được mã hoá dưới dạng nhị phân. Dữ liệu - thông tin được máy tính xử lý có thể có các dạng khác nhau.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Tin học cơ sở - Chương 6
- Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh CHƯƠNG 6: BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH 6.1. CÁC DẠNG DỮ LIỆU Để xử lý, lưu trữ và truyền thông tin cần ph ải tìm cách t ổ ch ức và bi ểu di ễn (thể hiện) thông tin trong MTĐT một cách hợp lý. Nh ư đã bi ết, d ữ li ệu là hình thức biểu diễn thông tin. Như vậy đối với máy tính, d ữ li ệu chính là các thông tin đã được mã hoá dưới dạng nhị phân. D ữ liệu - thông tin đ ược máy tính x ử lý có thể có các dạng khác nhau. Máy tính có thể tính toán trên các số, có th ể x ử lý thông tin ch ữ, có th ể x ử lý những thông tin đa phương tiện (multimedia) nh ư âm thanh và hình ảnh. Máy tính còn có thể xử lý tri thức (knowledge). Thông tin về một đối tượng có thể rất phức tạp và có thể được thể hi ện b ằng nhiều dữ liệu có kiểu khác nhau. Ví dụ thông tin v ề m ột cán b ộ có th ể có tên, nơi sinh là văn bản; ngày sinh, lương là số, ảnh chân dung là ảnh, ... Dữ liliệu Dữ ệu Dữ liliệuphi ssố Dữ ệu phi ố Tri thứcc Dữ liliệussố Dữ ệu ố Tri thứ S ố dấu Văăn Vn Hình Âm Luật t SSựkiệnn ự kiệ Số dấu Số dấu Hình Âm Luậ S ố dấu phẩy tĩtĩnh phẩy đđộng phẩy nh bản ảnh thanh phẩy ộng bản ảnh thanh Hình 6.1. Phân loại các dạng dữ liệu Để lưu trữ trong MTĐT cả dữ liệu số, phi số và tri th ức đ ều đ ược mã hóa b ằng các mã nhị phân. Theo nghĩa đó, mọi dữ liệu dù là b ản ch ất có khác nhau nhưng đều được số hoá. Sự phân biệt theo sơ đồ ở Hình 6.1 nặng về ý nghĩa sử dụng hơn là cách biểu diễn. Dưới đây ta sẽ trình bày chi tiết hơn các lớp d ữ liệu. Trong trường hợp biểu diễn thông tin không quá ph ức t ạp ta s ẽ gi ới thi ệu về cách biểu diễn. 6.2. DỮ LIỆU KIỂU SỐ Người ta thường dùng hai cách biểu diễn số là số dấu phẩy tĩnh và s ố d ấu phẩy động. 6.2.1. Biểu diễn số dấu phẩy tĩnh (fixed point number) Với kiểu biểu diễn số dấu phẩy tĩnh, người ta chọn một độ rộng n bit nào đó cho một số. Trong n bit này, bit đầu tiên dùng để mã d ấu c ủa s ố theo cách bit 0 dùng để mã dấu dương, bit 1 dùng để mã dấu âm. Trong n-1 bit còn l ại, l ấy một số bit cho phần nguyên và phần còn lại cho phần lẻ. Ví dụ trong dãy 16 42
- Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh bit như trên Hình 6.2 sau nếu ta dùng 7 bit cho phần nguyên và 8 bit cho ph ần lẻ và một bit cho dấu thì biểu diễn sau thể hiện số 1100101,11011011 0110010111011011 Vị trí dấu phẩy Hình 6.2. Biểu diễn dấu phẩy tĩnh Do với mỗi kiểu biểu diễn đã chọn, vị trí dấu phẩy mang tính quy ước n ằm ở một vị trí cố định nên kiểu biểu diễn này gọi là kiểu dấu phẩy tĩnh. Trên thực tế đa số các môi trường xử lý quy ước d ấu phẩy đ ứng sau ô cu ối cùng có nghĩa là chỉ áp dụng chế độ dấu phẩy tĩnh cho s ố nguyên. Đ ộ dài c ủa biểu diễn tuỳ thuộc vào nhu cầu. Các số nguyên th ường dùng ch ủ y ếu có các loại độ dài 8 bit, 16 bit và 32 bit. Số nguyên không thể dùng trong tính toán gần đúng đ ược. 6.2.2. Biểu diễn số dấu phẩy động (floating point number) Biểu diễn dấu phẩy tĩnh không đáp ứng đ ược m ột s ố nhu c ầu, đ ặc bi ệt trong tính toán gần đúng. Đối với các bài toán tính gần đúng ng ười ta có th ể ch ấp nhận những sai số là lớn về tuyệt đối nhưng t ỷ số của sai s ố trên giá tr ị th ực của số là nhỏ (sai số tương đối). Mặt khác cách bi ểu di ễn s ố trong d ấu ph ẩy tĩnh không đủ mềm dẻo để thể hiện các số quá lớn ho ặc quá bé. Đã t ừ lâu, khi có nhu cầu tính toán gần đúng trên máy tính ng ười ta th ường dùng m ột lo ại biểu diễn số khác là biểu dấu phẩy động. Trong dạng này, số phải đ ược phân tích trong dạng mũ hay còn là dạng nửa logarit nh ư sau: ± Px x = ± mx10 trong đó mx gọi là phần định trị, còn ± Px gọi là phần bậc. Ví dụ: 3,14 = 0,314 x 101, - 0.0012 = - 0.12 x 10-2 Phân tích của một số ra dạng mũ là không duy nhất, nh ưng nếu kèm thêm điều kiện phần định trị phải nằm giữa 1 và 10 -1 thì phân tích luôn duy nhất. Phân tích về dạng như thế gọi là dạng chuẩn. Như vậy, phần định trị không có phần nguyên nên chỉ phải biểu diễn phần lẻ của nó. H ơn n ữa trong d ạng chuẩn, chữ số đầu tiên của phần định trị phải khác 0. Trong hệ đ ếm c ơ s ố 2 nó phải là 1. Để biểu diễn một số trong một vùng nhớ n bit người ta sẽ dành một phần biểu diễn phần định trị và một vùng biểu diễn phần bậc. 43
- Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh Phần định trị Phần bậc ± ± Hình 6.3. Biểu diễn dấu phẩy động Nguyên tắc mã dấu của phần định trị và phần bậc cũng gi ống nh ư trong trường hợp số dấu phẩy tĩnh. Như vậy ví trí d ấu ph ẩy thực s ự c ủa s ố là do phần bậc định ra trên phần định trị. Chính vì vậy người ta g ọi ki ểu bi ểu di ễn số này là biểu diễn dấu phẩy động. Biểu diễn dấu phẩy động thực chất là biểu diễn chấp nhận sai số làm tròn. Đ ể dễ hình dung, ta minh họa trên hệ thập phân. Ví d ụ, phần đ ịnh tr ị c ủa m ột s ố trong hệ đếm cơ số 10 chỉ được dùng 6 vị trí còn phần bậc chỉ được dùng 2 chữ số. Khi đó số -56234566 sẽ có biểu diễn là:-0,562345.10 2. Sai số tuyệt đối là 66 còn sai số tương đối là 0,000001 Ưu điểm dễ thấy của kiểu biểu diễn dấu phẩy động là ta có th ể bi ểu di ễn được các số rất lớn hoặc rất bé. Với 9 ngăn dành cho ch ữ s ố trong ki ểu nguyên ta chỉ có thể biểu diễn được các số không quá 10 9. Trong khi đó với kiểu biểu diễn dấu phẩy động như trên với 3 ngăn dành cho ph ần b ậc ta có thể biểu diễn các số lớn tới 0,999999.1099 hoặc các số dương nhỏ tới 0,1.10 -99. Giá phải trả cho ưu điểm này chính là sai số làm tròn. Ph ần đ ịnh tr ị càng ng ắn thì sai số làm tròn càng lớn. 6.3. DỮ LIỆU PHI SỐ 6.3.1. Mã hoá chữ và dữ liệu kiểu văn bản Đơn vị cơ sở của dữ liệu văn bản là chữ. Ở đây khái niệm chữ cần được hiểu theo nghĩa rộng, không chỉ là các chữ cái Latinh mà k ể cả ch ữ s ố, các d ấu chính tả, các dấu toán học, các ký hiệu để trình bày. Mặt khác không ph ải dân tộc nào cũng dùng chữ latinh nên đối với một số dân tộc có th ể có nh ững ch ữ riêng. Ví dụ chữ Trung hoa có đến hơn 60 nghìn chữ. Để đỡ gây nhầm lẫn giữa khái niệm chữ theo nghĩa ch ữ cái thông th ường (letter) với "chữ" dùng trong văn bản nói chung k ể c ả văn b ản máy tính, t ừ đây trở đi chúng ta sẽ dùng thuật ngữ ký tự (character) với ý nghĩa là một ký hiệu dùng trong văn bản. Nếu dùng một vùng nhớ k bit để mã hoá một ch ữ thì ch ỉ có th ể bi ểu di ễn đ ược tối đa là 2k ký tự vì chỉ có thể tạo được đúng 2 các mã nhị phân khác nhau. K Điều này giải thích tại sao người Mỹ chỉ cần 7 bit để mã cho các ch ữ c ủa h ọ; để có thêm các mặt chữ châu Âu, chữ Hy Lạp và một số ký hiệu trình bày cũng chỉ cần 8 bit; trong khi đó người Trung Hoa hay ng ười Nh ật ph ải dùng các mã 16 bit. Các văn bản được hình dung như một chuỗi ký tự. Nội dung m ột cu ốn sách, một bài thơ được đưa vào máy tính là những ví dụ cụ thể về thông tin văn bản. Hầu hết các máy tính và môi trường lập trình hi ện nay đ ều s ử d ụng m ột byte để mã hoá một chữ. Trong thời gian tới hầu như chắc chắn sẽ phải dùng b ộ mã UNICODE cho văn bản. Với bộ mã này mỗi chữ sẽ tốn 2 byte. Bài đọc thêm: Bảng mã dùng trong MTĐT Trước đây, để lưu trữ và xử lý thông tin trong MTĐT người ta đã xây d ựng một s ố bảng mã: 44
- Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh Mã BCD - 4 bit (Binary Coded Decimal) Lúc đầu người ta muốn dùng các chữ số hệ thập phân qua hệ nh ị phân nên ng ười ta đã mã hoá mỗi chữ số hệ thập phân bằng 4 bit theo bảng dưới đây: Chữ số thập 0 1 2 3 4 5 6 7 8 9 phân Mã BCD 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 Bảng 6.1. Bảng mã BCD Mã EBCDIC (Extended Binary Coded Decimal Interchange Code) Sau này người ta đã mở rộng mã BCD 4 bit thành mã BCD 6 bit đ ể có th ể mã c ả các ch ữ latinh. Với 6 bit chỉ có thể biểu diễn được t ới 64 ký t ự. Do còn ph ải bi ểu di ễn ch ữ s ố, các d ấu chính tả và dấu phép toán nên không đủ chỗ cho cả ch ữ hoa và ch ữ thường, vì th ế trong mã BCD 6 bit chỉ có mã cho các chữ latinh in. Với việc dùng máy tính có cấu trúc bộ nhớ địa ch ỉ hoá theo byte, b ảng mã BCD đã đ ược m ở rộng thành bảng mã 8 bit. Tuy nhiên bảng này không dùng h ết 256 ch ỗ. Đây là b ộ mã th ịnh hành trong thập kỷ 70 của thế kỷ 20 và được nhi ều nước s ử d ụng v ới các máy tính đ ương thời. 45
- Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh Ký tự Ký tự Ký tự Mã Mã Mã A 1100 0001 J 110 10001 - 1110 0001 B 1100 0010 K 1101 0010 S 1110 0010 C 1100 0011 L 1101 0011 T 1110 0011 D 1100 0100 M 1101 0100 U 1110 0100 E 1100 0101 N 1101 0101 V 1110 0101 F 1100 0110 O 1101 0110 U 1110 0110 G 1100 0111 P 1101 0111 X 1110 0111 H 1100 1000 Q 1101 1000 Y 1110 1000 I 1100 1001 R 1101 1001 Z 1110 1001 Bảng 6.2. Bảng mã EBCDIC Mã ASCII Bảng chữ được sử dụng nhiều để xử lý thông tin trên MTĐT là b ảng ch ữ ASCII (American Standard Codes for Information Interchange) - bộ mã chuẩn của Mỹ để trao đổi thông tin. Mỗi ký tự ban đầu được mã bằng 7 bit. Sau này b ảng mã ASCII đ ược m ở r ộng thành b ảng 8 bit với 256 mã khác nhau để có thể chứa thêm m ột s ố ch ữ cái c ủa các qu ốc gia khác cũng như một số ký tự dùng để trình bày. Với 256 ký t ự, m ỗi ký t ự đ ược mã bằng m ột dãy 8 bit (m ột byte). Bảng 6.3 trình bày bộ mã ASCII. Các ký t ự t ừ 0 đến 31 là các mã đi ều khi ển có tên riêng với ý nghĩa điều khiển được quy ước trước. Ví d ụ, ký t ự s ố 2 STX (Start of Text) báo b ắt đ ầu vùng văn bản trong dòng dữ liệu truyền thông, ký hi ệu s ố 7 (Bell) để gây m ột ti ếng chuông, ký hiệu thứ 10 CR (Carriage Return) dùng để điều khiển đi ểm làm vi ệc c ủa máy in hay màn hình về đầu dòng. Các ký tự từ 32 đến 127 là các ký t ự g ốc c ủa bảng mã ASCII. Các ký t ự t ừ 128 đến 255 có thể thay đổi tuỳ theo nhu cầu sử d ụng. Có rất nhi ều b ộ m ặt ch ữ cho vùng này mà Bảng 6.3 là một ví dụ. Trong bảng, mỗi ô có số thứ tự của ký t ự và mặt chữ t ương ứng, mã nh ị phân c ủa ký t ự đ ược ghép từ 5 bit của hàng và 3 bit của cột trong bảng. Ví d ụ mã nh ị phân c ủa ch ữ H là 01001000. 000 001 010 011 100 101 110 111 00000 0 NUL 1 SOH 2 STX 3 EXT 4 EOT 5 6 7 BEL 00001 8 BS 9 HT 10 LF 11 VT 12 FF 13 CR 14 15 00010 16 17DC1 18DC2 19DC3 20DC4 21 22 23 00011 24 25 26 27 28 29 30 31 00100 32 33 ! 34 " 35 # 36 $ 37 % 38 & 39 ' 00101 40 ( 41 ) 42 * 43 + 44, 45 - 46. 47 / 00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7 00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ? 01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G 01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 01010 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W 01011 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _ 01100 96 ` 97 a 98 b 99 c 100 d 101 e 102 f 103 g 01101 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 01110 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 01111 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 127 10000 128 129 130 131 132 133 134 † 135 ‡ 46
- Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh 000 001 010 011 100 101 110 111 10001 136 ˆ 137 ‰ 138 Š 139 ‹ 140 141 142 143 10010 144 145 ‘ 146 ’ 147“ 148” 149 • 150 – 151— 10011 152 153 154 š 155 › 156 157 158 159 165 Ơ 166 Ư 10100 160 161 Ă 162 Â 163 Ê 164 Ô 167 Đ 172 ơ 173 ư 10101 168 ă 169 â 170 ê 171 ô 174 đ 175 ¯ 182 ả 10110 176 ° 177 ± 178 ² 179 ³ 180 ´ 181 à 183 ã 185 ạ 187 ằ 188 ẳ 189 ẵ 190 ắ 10111 184 á 186 º 191 ¿ 198 ặ 199 ầ 11000 192 À 193 Á 194 Â 195 Ã 196 Ä 197 Å 200 ẩ 201 ẫ 202 ấ 203 ậ 206 ẻ 207 ẽ 11001 204 è 205 Í 209 ẹ 210 ề 211 ể 212 ễ 213 ế 214 ệ 11010 208 é 215 ì 216 ỉ 222 ị 11011 217 Ù 218 Ú 219 Û 220 ĩ 221 í 223 ò 225 ỏ 228 ọ 229 ồ 230 ổ 231 ỗ 11100 224 à 226 õ 227 ó 232 ố 233 ộ 234 ờ 235 ở 236 ỡ 237 ớ 238 ợ 11101 239 ù 241 ủ 244 ụ 245 ừ 246 ử 247 ữ 11110 240 ð 242 ũ 243 ú 248 ứ 249 ự 251 ỷ 252 ỹ 254 ỵ 11111 250 ỳ 253 ý 255 ÿ Bảng 6.3. Bảng mã ASCII Về mã tiếng Việt Vào thời kỳ đầu khi mới có MTĐT, Việt Nam sử dụng các bộ mã s ẵn có trên các máy tính do đó không thể hiện được chữ Việt. Từ khi máy vi tính đ ược s ử d ụng r ộng rãi, đã xu ất hi ện nhu cầu lập bảng mã tiếng Việt trên cơ sở sửa đổi bảng mã ASCII. So v ới b ộ ch ữ latinh, ti ếng Vi ệt có rất nhiều chữ riêng như ă, â, ư, ơ, ê, đ. Mỗi ch ữ này còn có thêm các d ấu thanh trong c ả dạng chữ thường và chữ in. Với chữ o sẽ phải có thêm các m ặt ch ữ nh ư ò ó ỏ ọ õ ò ó ỏ ọ õ. Tổng cộng có tới 134 mặt chữ không có trong bộ chữ latinh. Ph ần m ở r ộng c ủa b ảng ch ữ ASCII chỉ có thêm 128 chữ. Vì vậy về mặt nguyên t ắc nếu không mu ốn hy sinh các mã đi ều khiển và các mã chữ trong bảng ASCII phần gốc, không thể đ ưa toàn b ộ ch ữ Vi ệt vào b ảng mã ASCII. Có một số giải pháp được sử dụng như hy sinh m ột s ố ch ữ ít dùng trong b ảng mã ASCII để lấy chỗ cho chữ Việt, hay hy sinh m ột số ch ữ in có d ấu ít dùng (ví d ụ ẫ). Đã có r ất nhiều công ty hay tổ chức tạo các bộ mã tiếng Việt riêng của mình. Cho t ới nay đã có t ới 40 bộ mã khác nhau trong đó các bộ mã hay dùng nh ất là TCVN1572-93, VNI, ...Tình tr ạng lo ạn mã dẫn đến văn bản soạn ở mã này không đọc được trên mã khác. T ới năm 1993, B ộ Khoa học Công nghệ và Môi trường đã ban hành chuẩn Quốc gia TCVN 5712-1993. Th ực ch ất chuẩn này gồm 3 bộ mã riêng biệt. Chuẩn TCVN 5712 đã góp ph ần ch ấm d ứt th ời kỳ cát c ứ về mã chữ Việt. Tuy vậy chuẩn này không giải quyết được cơ b ản vấn đ ế thi ếu ch ỗ trong b ộ mã 8 bit. Sau đây là bộ mã TCVN 5712-3, 1993, m ột s ố ch ỗ bôi đen th ực ra v ẫn có m ặt ch ữ nhưng với mục đích giới thiệu mã tiếng Việt nên chúng ta sẽ không gi ới thi ệu ở đây: 000 001 010 011 100 101 110 111 00000 0 1 2 3 4 5 6 7 00001 8 9 10 11 12 14 14 15 00010 16 17 18 19 20 21 22 23 00011 24 25 26 27 28 29 30 31 00100 32 33 ! 34 " 35 # 36 $ 37 % 38 & 39 ' 00101 40 ( 41 ) 42 * 43 + 44, 45 - 46. 47 / 00110 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7 00111 56 8 57 9 58 : 59 ; 60 < 61 = 62 > 63 ? 01000 64 @ 65 A 66 B 67 C 68 D 69 E 70 F 71 G 01001 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 01010 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W 47
- Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh 000 001 010 011 100 101 110 111 01011 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _ 01100 96 ` 97 a 98 b 99 c 100 d 101 e 102 f 103 g 01101 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 01110 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 01111 120 x 121 y 122 z 123 { 124 | 125 } 126 ~ 127 10000 128 129 130 131 132 133 134 135 10001 136 137 138 139 140 141 142 143 10010 144 145 146 147 148 149 150 151 10011 152 153 154 155 156 157 158 159 165 Ơ 166 Ư 10100 160 161 Ă 162 Â 163 Ê 164 Ô 167 Đ 172 ơ 173 ư 10101 168 ă 169 â 170 ê 171 ô 174 đ 175 182 ả 10110 176 177 178 179 180 181 à 183 ã 185 ạ 187 ằ 188 ẳ 189 ẵ 190 ắ 10111 184 á 186 191 198 ặ 199 ầ 11000 192 193 194 195 196 197 200 ẩ 201 ẫ 202 ấ 203 ậ 206 ẻ 207 ẽ 11001 204 è 205 209 ẹ 210 ề 211 ể 212 ễ 213 ế 214 ệ 11010 208 é 215 ì 222 ị 11011 216 217 218 219 220 ĩ 221 í 223 ò 225 ỏ 228 ọ 229 ồ 230 ổ 231 ỗ 11100 224 226 õ 227 ó 232 ố 233 ộ 234 ờ 235 ở 236 ỡ 237 ớ 238 ợ 11101 239 ù 241 ủ 244 ụ 245 ừ 246 ử 247 ữ 11110 240 242 ũ 243 ú 248 ứ 249 ự 251 ỷ 252 ỹ 254 ỵ 11111 250 ỳ 253 ý 255 Bảng 6.4. Bảng mã TCVN 5712-3 Bộ mã UNICODE - Giải pháp toàn cầu So với Việt Nam thì một số nước như Trung Quốc hay Nhật b ản v ấn đề mã còn nan gi ải h ơn. Bộ chữ của Trung Quốc có tới 6 vạn chữ. Bộ chữ Kangi của Nhật b ản về c ơ b ản là b ộ ch ữ Hán của Trung quốc, ngoài ra để có thể sử dụng được máy tính có ch ữ latinh, ng ười Nh ật buộc phải tạo ra bộ chữ có thể đánh vần được trên cơ s ở ch ữ Hán và v ẫn không b ỏ đ ược ch ữ latinh. Có lẽ vì thế mà ngay t ừ thập k ỷ 80 của thế kỷ 20, ng ười Nh ật đã đ ề xu ất ra m ột d ự án xây dựng một bảng mã toàn cầu trong đó mỗi nước có thể s ử d ụng các trang b ảng mã nhi ều byte. Nếu mặt chữ nào có ở một nơi thì không cần định nghĩa ở nơi khác. D ự án này sau đ ược mở rộng thành một dự án quốc tế gọi là UNICODE. Đầu th ập k ỷ 90 c ủa thế k ỷ 20, t ổ ch ức tiêu chuẩn thế giới ISO đã thoả thuận với t ổ chức UNICODE cùng thống nh ất m ột b ộ mã toàn cầu. Chuẩn ISO 10646 sử dụng luôn bộ mã UNICODE làm b ộ mã chung. Trong UNICODE đã sẵn có cho tất cả chữ Việt kể cả chữ có dấu thanh. Nh ận th ức đ ược vi ệc s ử d ụng b ộ mã UNICODE là một trong những giải pháp giải quyết tận gốc vấn đề mã ch ữ Vi ệt và h ội nh ập với nền CNTT thế giới. Tháng 9/2001 Bộ Khoa học Công nghệ và Môi trường đã giao cho U ỷ ban tiêu chuẩn và chất lượng chuẩn bị để phê chuẩn b ộ mã quốc gia trên c ơ s ở UNICODE. Bộ mã này được chính thức sử dụng từ ngày 01/01/2003. 6.3.2. Hình ảnh Hình ảnh cũng có thể xử lý bằng máy tính. Khác với hình ảnh thông th ường, hình ảnh trong máy tính được mã hoá dưới dạng nhị phân. Có rất nhi ều ki ểu mã hoá ảnh trong đó hai kiểu thông dụng nhất. Kiểu thứ nhất là ảnh bitmap (nghĩa là bản đồ các bit) thể hiện ảnh như một lưới điểm. Như vậy mỗi điểm sẽ phải nằm trong một hàng và một cột nào đó trong lưới, ngoài ra màu của điểm cũng được mã hoá. Các ảnh 48
- Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh khí tượng do các vệ tinh chụp gửi về, ảnh phong c ảnh, chân dung đ ều có th ể thể hiện theo kiểu này. Ta cũng có thể đưa một ảnh bất kỳ vào máy d ưới d ạng bitmap bằng máy quét ảnh (scanner), máy quay video s ố (digital video camera) hay máy chụp ảnh số (digital camera)... Nói chung, d ữ li ệu ảnh này là dữ liệu lớn. Vì vậy, người ta thường sử dụng các k ỹ thuật nén ảnh khác nhau trước khi đưa vào máy, sự khác nhau là ở cách t ổ chức để nén được ảnh mà vẫn giữ được chất lượng và thể hiện được các hiệu ứng ảnh. Còn lúc hi ển th ị để xem thì ảnh sẽ được khôi phục dưới dạng bitmap. Ảnh th ể hi ện theo t ừng điểm gọi là ảnh raster. Kiểu thứ hai thể hiện ảnh theo cách vẽ. Kiểu này ch ỉ phù h ợp v ới các ảnh có thành phần là các điểm rời rạc, các đường hoặc hình thể hiện bằng các đ ường biên như bản vẽ kiến trúc, các bản vẽ kỹ thuật, bản đ ồ. Cách l ưu tr ữ là l ưu thông tin về các thành phần của ảnh. Đối với một đoạn thẳng thì ch ỉ l ưu to ạ độ các đầu mút, đối với một hình tròn thì Hình 6.4. Ảnh bitmap chỉ lưu toạ độ tâm và bán kính... Vì thế các ảnh này thường gọn gàng và dễ phóng to thu nhỏ (vì chỉ dùng các phép biến đổi toạ độ). Các ảnh kiểu này gọi là ảnh vector. 6.3.3. Âm thanh Âm thanh cũng có thể được xử lý bằng máy tính. Cũng có nhiều phương pháp mã hoá âm thanh. Có thể mã hoá bằng cách xấp xỉ dao đ ộng sóng âm b ằng một chuỗi các byte thể hiện biên độ dao dộng t ương ứng theo t ừng kho ảng thời gian bằng nhau. Dĩ nhiên các đơn vị thời gian này c ần ph ải đ ủ nh ỏ đ ể không làm nghèo âm thanh. Đơn vị thời gian này g ọi là chu kỳ l ấy m ẫu. Hình 6.5 minh hoạ cách lưu trữ xấp xỉ sóng âm, theo đó s ẽ l ưu l ại dãy các giá tr ị sau: (-4 -3 2 3 5 4 3 3 5 7 8 6 -1-4-6-6-6-7-6-3 2 5 5 4 3-1...) Hình 6.5. Số hoá âm thanh 49
- Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh Khi phát, một mạch điện sẽ khôi phục lại sóng âm v ới m ột sai khác ch ấp nh ận được. Một cách khác là phân tích dao động âm thanh thành t ổng các dao đ ộng điều hoà (các dao động hình sin với tần số và biên độ khác nhau) và ch ỉ l ưu lại các đặc trưng về tần số và biên độ. Việc số hoá âm thanh cũng được thực hiện nhờ các thiết bị chuyên d ụng. Xử lý âm thanh trên máy tính gồm những việc sau: • Thu và mã hoá âm thanh • Biên tập (sửa chữa, ghép, cắt) • Phân tích (tìm các đặc trưng để nhận dạng ti ếng nói). M ột s ố máy tính đã có thể nghe được các lệnh đơn giản. Các máy điện thoại di đ ộng hiện nay đã có khả năng nhận dạng tiếng nói. • Tổng hợp tiếng nói. ở mức độ đơn giản máy tính có th ể đ ọc văn b ản thành lời. 6.3.4. Về dữ liệu tri thức Người ta đang cố gắng làm máy tính thông minh h ơn bằng cách t ạo cho máy khả năng suy luận. Muốn vậy, ta phải cung cấp cho máy các sự ki ện và các quy luật suy luận. Ví dụ, để máy có thể tìm được quan hệ h ọ hàng ta đ ưa vào các quy luật sau: • Nếu A là anh em với B và A là con C thì B cũng là con C • Nếu A là con B và B là con C thì A là cháu C • Nếu là cháu B và B là anh em với C thì A cũng là cháu C Nếu ta đưa vào các sự kiện: • Ngọc là chị Phượng • Hùng là em An • Lê là con Ngọc • An là con Lê thì máy có thể rút ra kết luận An là cháu Phượng. Hai nhóm thông tin này gọi là tri th ức, nhóm th ứ nh ất đ ược g ọi là lu ật suy di ễn, nhóm thứ hai gọi là sự kiện. Dữ liệu tri thức trình bày ở đây cho th ấy m ột khía cạnh xử lý thông tin với một mục đích rõ nét h ơn. Có nhi ều cách bi ểu di ễn tri thức (knowledge representation). Tuy nhiên đó là nh ững v ấn đ ề chuyên môn sâu nên ta sẽ không nghiên cứu ở đây. 6.4. BIỂU DIỄN THÔNG TIN TRONG MÁY TÍNH Đối với bộ nhớ trong, các thông tin sau khi mã hoá d ưới d ạng nh ị phân đ ược đưa vào bộ nhớ theo quy ước: Mỗi ngăn của ô nh ớ sẽ l ưu gi ữ m ột trong hai trạng thái được quy ước là một trong hai bit 0 hoặc 1. Với đĩa từ, người ta không ghi mã hoá bit 0 hay 1 theo chi ều c ủa t ừ thông c ủa các vùng nhiễm từ. Vấn đề là khi đọc, đầu đọc trên nguyên tắc cảm ứng từ ch ỉ có thể cảm nhận được các trạng thái khác nhau qua sự bi ến thiên c ủa t ừ 50
- Ch¬ng 6. BiÓu diÔn th«ng tin trong m¸y tÝnh trường. Nếu dùng chiều của từ thông để mã hoá thì không thể phân bi ệt đ ược các bit giống nhau đứng liền nhau. Thông thường các bit đ ược ghi theo ki ểu điều tần. Các bit được thể hiện qua các ki ểu bi ến thiên c ủa t ừ tr ường ch ứ không phải chiều của từ thông một vùng nhiễm từ trên đĩa. Th ực ra cách ghi trên đĩa từ khá phức tạp vì người ta không những chỉ ghi dữ li ệu mà còn có các thông tin về địa chỉ và các thông tin đồng bộ giúp cho việc đ ọc thông tin đ ược chính xác. 6.5. TRUYỀN TIN GIỮA CÁC MÁY TÍNH Người ta muốn truyền các bit từ máy này đến máy khác và cách đ ơn gi ản nh ất là phân biệt các bit bằng điện áp, ví d ụ đi ện áp 5 v đ ể th ể hi ện bit 1, đi ện áp -5 v thể hiện bit 0. Thực tế không bao gi ờ có thể truy ền và nh ận các tín hi ệu dưới dạng các xung vuông (Hình 6.6a) mà bao gi ờ khi chuy ển t ừ m ức đi ện áp nọ đến mức điện áp kia cũng có những giai đoạn đi ện áp nh ận nh ững giá tr ị trung gian (Hình 6.6b). Không những thế còn r ất nhi ều ảnh h ưởng khác làm tín hiệu lúc nhận khác với tín hiệu mức thu như sự suy yếu tín hiệu làm biên đ ộ thay đối (Hình 6.6c), hình dạng tín hiệu thay đ ổi - b ị méo (Hình 6.6d) và đ ương cong tín hiệu không trơn như lúc đầu do nhiễu (Hình 6.6e). Nh ững v ấn đ ề này cần được khắc phục bằng các mạch vật lý. a) Tín hiệu mong muốn b) Tín hiệu truyền e) Tín hiệu bị nhiễu d) Tín hiệu bị méo c) Tín hiệu bị suy giảm Hình 6.6. Tín hiệu truyền Thể hiện các bit bằng mức điện áp chỉ là một cách điều 51
- Ch¬ng 6 - BiÓu diÔn th«ng tin trong m¸y tÝnh chế tín hiệu mà ta gọi là điều biên. Còn có các phương pháp đi ều ch ế tín hi ệu khác gọi là điều tần theo đó, các bit th ể hi ện b ằng s ự thay đ ổi t ần s ố c ủa tín hiệu và phương pháp điều pha theo đó các bit đ ược th ể hi ện b ằng pha c ủa tín hiệu hình sin. Hình 6.7 minh hoạ một số phương pháp điều chế tín hi ệu: a) băng t ần c ơ s ở (tín hiệu nhị phân); b) điều biên, bit 0 thể hiện biên đ ộ là 0, bit 1 đ ược th ể hi ện biên độ khác 0; c) Hình 6.7. Điều chế tín hiệu điều tần, bit 0 được thể hiện bằng tần số thấp, bit 1 thể hi ện bằng t ần s ố cao; d) điều pha, bit 0 tương ứng với pha - π/2, bit 1 ứng với pha π/2. Người ta cũng kết hợp cả nhiều cách điều chế để có th ể tăng t ốc đ ộ truy ền tin. Một trong các thiết bị cho phép truyền tin gi ữa các máy qua m ạng đi ện thoại là modem. Tên "modem" có nguồn g ốc từ cặp t ừ "modulation - demodulation" nghĩa là điều chế và giải điều ch ế. Các d ữ li ệu truy ền ra t ừ m ột máy tính sẽ được modem điều chế thành tín hiệu tương t ự và g ửi đi theo đường điện thoại. Modem nhận sẽ giải điều chế từ tín hi ệu t ương t ự thành các bit chuyển cho máy tính nhận. Một cách mã hoá để truy ền trong modem là k ết hợp điều biên và điều pha cho phép có thể truyền tin với t ốc đ ộ cao h ơn t ần số của sóng mang. Câu hỏi 1. Đúng hay sai khi nói rằng: Dữ liệu có hai loại là s ố và phi s ố? Gi ải thích câu trả lời. 2. Trong Tin học Số được viết theo quy cách nào? 3. Hãy liệt kê các bộ mã thông dụng hiện nay. 4. Hãy trình bày cách mã hoá dữ liệu các dạng: hình ảnh, âm thanh, tri thức. 5. Quá trình truyền tin giữa các máy tính diễn ra nh ư thế nào? 52
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Khóa Hàm Thụ Visual Basic 6.0_Chương 14
9 p | 152 | 72
-
6 liều doping đơn giản để tăng tốc máy tính Windows
6 p | 170 | 44
-
giải pháp an toàn thông tin cho cơ sở dữ liệu phần 6
11 p | 110 | 33
-
Đề thi trắc nghiệm cơ sở dữ liệu trường Cao Thắng - phần 6
6 p | 186 | 27
-
Kiểm tra SQL Server bằng Windows PowerShell 6
7 p | 153 | 27
-
Cài đặt nhanh hệ điều hành Fedora Core 6
8 p | 333 | 25
-
Kiểm tra SQL Server bằng Windows PowerShell – Phần 6
6 p | 161 | 15
-
Quản Lý Dữ Liệu - Cơ Sở Dữ Liệu phần 6
12 p | 82 | 9
-
Tin Học Hệ Quản Trị - Toán Tin Dữ Liệu phần 6
12 p | 59 | 6
-
Bài tập 6: Table
1 p | 86 | 6
-
Bài 6: Data Access and Viewing with .NET
20 p | 60 | 6
-
Toán - Tin Học Hệ Quản Trị phần 6
12 p | 62 | 6
-
Tin học đại cương - bài 6: phương pháp giải các bài toán tin học
20 p | 53 | 5
-
Bài 6: Mạng máy tính
15 p | 68 | 5
-
Đề thi học phần Access 1 (Đề số 6)
2 p | 110 | 4
-
Bài giảng Lập trình tính toán khoa học kỹ thuật: Buổi 6 - TS. Lê Hoàng Sơn
19 p | 74 | 4
-
Bài giảng Tin học cơ sở 3 bài 6: Report
5 p | 28 | 4
-
Bài giảng Tin học đại cương Phần 2: Bài 6 - Nguyễn Hữu Nam Dương
10 p | 53 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn