
KỸ THUẬT LẬP TRÌNH
CƠ BẢN
Khoa Công nghệ thông tin
Trường Đại học Ngoại ngữ - Tin học TP.HCM (HUFLIT)

KỸ THUẬT XỬ LÝ CHUỖI

3
Biểu diễn ký tự
•Character (ký tự): là một đơn vị thông tin thường
tương ứng với một ký hiệu đồ họa (symbol)
•Ký tự đồ họa (ký tự in ra được )
•Leters: 𝑎, 𝑏, 𝑐, …
•Numbers: 0, 1, 2, …
•Dấu câu, khoảng trắng (space)
•Ký tự điều khiển (control character): tab, carriage return, …
•Biểu diễn ký tự (character representation) trên máy tính
•Mỗi ký tự được biểu diễn bằng một con số (code)
(quá trình này gọi là mã hóa ký tự -character encoding)
Không có
symbol

4
Biểu diễn ký tự
•Character encoding
•ASCII
•Unicode
•…
•ASCII
•Chuẩn character encoding đầu tiên (1963)
•Dùng cho tiếng Anh
•Dùng 7 𝑏𝑖𝑡𝑠, biểu diễn cho 128 ký tự (1bit để kiểm tra lỗi)

5
Biểu diễn ký tự -Ký tự điều khiển
Hệ 2
(Nhị phân)
Hệ 10
(Thập phân)
Hệ 16
(Thập lục phân) Viết tắt Biểu diễn
in được
Truy nhập
bàn phím
Tên/Ý nghĩa
tiếng Anh
Tên/Ý nghĩa
tiếng Việt
000 0000 0 00 NUL ␀
^@
Null character
Ký tự rỗng
000 0001 1 01 SOH ␁
^A
Start of Header
Bắt đầu Header
000 0010 2 02 STX ␂
^B
Start of Text
Bắt đầu văn bản
000 0011 3 03 ETX ␃
^C
End of Text
Kết thúc văn bản
000 0100 4 04 EOT ␄
^D
End of Transmission
Kết thúc truyền
000 0101 5 05 ENQ ␅
^E
Enquiry
Truy vấn
000 0110 6 06 ACK ␆
^F
Acknowledgement
Sự công nhận
000 0111 7 07 BEL ␇
^G
Bell
Tiếng kêu
000 1000 8 08 BS ␈
^H
Backspace
Xoá ngược
000 1001 9 09 HT ␉
^I
Horizontal Tab
Thẻ ngang
000 1010 10 0A LF ␊
^J
New Line, Line Feed
Dòng mới
000 1011 11 0B VT ␋
^K
Vertical Tab
Thẻ dọc
000 1100 12 0C FF ␌
^L
Form feed
Cấp giấy
000 1101 13 0D CR ␍
^M
Carriage return
Chuyển dòng/ Xuống dòng
000 1110 14 0E SO ␎
^N
Shift Out
Ngoài mã
000 1111 15 0F SI ␏
^O
Shift In
Mã hóa/Trong mã
001 0000 16 10 DLE ␐
^P
Data Link Escape
Thoát liên kết dữ liệu
001 0001 17 11 DC1 ␑
^Q
Device Control 1
—oft. XON
001 0010 18 12 DC2 ␒
^R
Device Control 2
001 0011 19 13 DC3 ␓
^S
Device Control 3
—
oft. XOFF
001 0100 20 14 DC4 ␔
^T
Device Control 4
001 0101 21 15 NAK ␕
^U
Negative Acknowledgement
001 0110 22 16 SYN ␖
^V
Synchronous Idle
001 0111 23 17 ETB ␗
^W
End of Trans. Block
001 1000 24 18 CAN ␘
^X
Cancel
001 1001 25 19 EM ␙
^Y
End of Medium
001 1010 26 1A SUB ␚
^Z
Substitute
001 1011 27 1B ESC ␛
^[ hay ESC
Escape
001 1100 28 1C FS ␜
^
\
File Separator
001 1101 29 1D GS ␝
^]
Group Separator
Nhóm Separator
001 1110 30 1E RS ␞
^^
Record Separator
001 1111 31 1F US ␟
^_
Unit Separator
111 1111 127 7F DEL ␡
DEL
Delete
Xóa