
Chương 1: Đại cương về tín hiệu audio và video
Chương 1
ĐẠI CƯƠNG VỀ AUDIO VÀ VIDEO
1.1. QUÁ TRÌNH PHÁT TRIỂN
Khoảng cuối thế kỷ 19 đầu thế kỷ 20, nhiều thiết bị xử lý âm thanh điện tử ra
đời, đã mở ra một hướng phát triển mới trong chế tạo các thiết bị điện tử dân dụng.
Trong giai đoạn này các nhà khoa học đã thành công trong chế tạo các thiết bị xử lý
âm thanh như: hệ thống máy điện thoại, máy cassette, các máy quay đĩa và máy
phát thanh…Ngày nay âm thanh điện tử được ứng dụng rộng rãi trong các thiết bị
dân dụng, nhiều thiết bị âm thanh số ra đời có tính năng kỹ thuật cao từng bước thay
thế cho các thiết bị âm thanh tương tự trước đây. Cho đến nay, hầu như các gia đình
đều sở hữu một vài thiết bị điện tử phục vụ đời sống tinh thần.
Khi kỹ thuật truyền thanh ra đời thì truyền hình là tiêu điểm nghiên cứu quan
trọng cho các nhàkhoa học. Đến khoảng giữa thế kỷ 20, thời kỳ thế chiến thứ II, kỹ
thuật truyền hình ảnh động đấu tiên ra đời, nhưng chỉ nhằm để phục vụ cho mục
đích quâ sự. Sau khi kết thúc chiến tranh, truyền hình ở các quốc gia mới thực sự
nhằm vào mục đích dân dụng, từ đó kỹ thuật truyền hình không ngừng được cải tiến
và phát triển. Cho đến nay, thế giới thực sự đổi thay từ khi mọi gia đình có thể
thưởng thức thông tin bằng hình ảnh và âm thanh.
Trong suốt hơn 50 năm qua, truyền hình đóng một vai trò quan trọng trong sự
phát triển của nền kinh tế tri thức của thế giới. Cho đến nay cùng với sự phát triển
mạnh mẽ của công nghệ điện tử, nhiều công nghệ truyền hình thế hệ mới ra đời với
những tính năng kỹ thuật cao dần thay thế cho truyền hình tương tự trước đây,
truyền hình số với những công nghệ khác nhau như: truyền hình mặt đất, truyền
hình cáp, truyền hình vệ tinh...đã thực sự làm cho thế giới truyền hình ngày càng
sóng động hơn.
1.2. ẢNH TỰ NHIÊN
Ảnh tự nhiên là những gì mà chúng ta có thể trông thấy xung quanh thế giới
thực, chúng được tạo ra bởi các nguồn ánh sáng mặt trời hoặc ánh sáng nhân tạo
phản xạ lên các vật thể mà ta có thể trông thấy. Truyền hình là một hệ thống tín hiệu
hình ảnh và tín hiệu âm thanh analog được phát triển rất cao. Cơ sở của hệ thống
truyền hình là dựa trên đặc tính của thị giác con người, đặc tính này cũng được áp
dụng trong hệ thống truyền hình kỹ thuật số hiện nay.
1

Chương 1: Đại cương về tín hiệu audio và video
Mục đích hệ thống tái tạo ảnh điện tử (video) là thu ảnh tự nhiên và tái tạo lại
với những khoảng cách về không gian, hoặc cả hai (hình 1.1). Ở đây chúng ta quan
tâm đến hai thuộc tính nhìn thấy của cảnh quan là màu sắc và độ chói.
Chuyển đổi
ảnh-tín hiệu Xử lý tín hiệu
Tạo xung
đồng bộ
Lưu trữ hoặc
truyền dẫn
Xử lý tín hiệuChuyển đổi
tín hiệu-ảnh
Tách xung
đồng bộ
Mắt người
xem
Ảnh tái tạo
Ảnh tự
nhiên Ống kính
Hình 1.1. Hệ thống tái tạo ảnh điện tử
Nhưng cảnh tự nhiên ít khi được tạo nên từ một nguồn sáng đơn sắc. Ảnh tại
mọi điểm trong cảnh quan là tổng của ánh sáng từ các nguồn đồng nhất với ánh
sáng phản xạ từ các vật xung quanh. Sự chiếu sáng vừa nêu đã được sửa đổi bởi các
thành phần phản chiếu từ các vật xung quanh môi trường tạo ra một sự chiếu sáng
mà màu sắc và độ sáng của nó thay đổi theo từng cảnh. Đối với những cảnh phức
tạp hơn, mắt người có thể thích nghi với sự thay đổi từng khu vực chiếu sáng cho
đến lúc không còn cảm nhận được nữa khi quan sát trực tiếp. Hệ thống tái tạo hình
ảnh cũng cần tạo ra một kết quả tương tự .
Quá trình chuyển đổi tín hiệu-ảnh hoàn toàn đồng bộ và đồng pha với quá
trình chuyển đổi ảnh-tín hiệu thì mới khôi phục được ảnh quang đã truyền đi. Để
thực hiện sự đồng bộ và đồng pha, trong hệ thống truyền hình phải dùng một bộ tạo
xung đồng bộ. Xung đồng bộ được đưa đến bộ xử lý tín hiệu để khống chế quá trình
phân tích ảnh, đồng thời đưa đến bộ xử lý tín hiệu hình rồi truyền sang phía thu, tín
hiệu hình được cộng thêm xung đồng bộ gọi là tín hiệu truyền hình.
1.3. ÂM THANH TỰ NHIÊN
Âm thanh là những biến đổi áp suất nhanh xảy ra trong không khí do nhiều
quá trình tự nhiên gây nên. Tiếng gió thổi trên cành cây, tiếng sóng biển vỗ bờ ,
tiếng chim kêu…tất cả đều là âm thanh tự nhiên. Nhiều hệ thống do con người chế
2

Chương 1: Đại cương về tín hiệu audio và video
tạo cũng tạo ra những biến đổi áp suất tương tự, đôi khi còn có ý chủ định, hay đôi
khi còn do khách quan. Một dàn nhạc tạo ra những âm thanh có chủ định với mục
đích thưởng thức âm nhạc. Trong khi, âm thanh của một động cơ phản lực phát ra
khi cất cánh lại được coi là do khách quan gây lên.
Tai con người phản ứng lại những biến đổi áp suất không khí ở phạm vi tần số
trong khoảng từ 30Hz đến 15000Hz sau đó đưa đến não và đó chính là âm thanh.
Độ lớn hay biên độ dao động của những biến đổi áp suất này tạo nên cảm giác về
tiếng ồn.
Âm thanh chuyển động trong không khí theo quy tắc truyền sóng, vì vậy người
ta có thể nghe thấy một âm thanh phát ra từ khoảng cách khá xa và những biến đổi
áp suất âm thanh thường được gọi là sóng âm. Trong mọi trường hợp, sóng âm
thanh là sóng tương tự. Sóng âm chuyển động trong không khí với vận tốc xắp xỉ
bằng 345m/s ở nhiệt độ phòng và mực nước biển. Theo lý thuyết về sóng, mối liên
hệ giữa tần số f và bước sóng λ là:
λ = v/f (1.1)
Ngoài ra, các tính chất khác của sóng âm thanh cũng có tầm quan trọng đối với
việc thiết kế các thiết bị âm thanh. Sóng âm sẽ phản xạ với bề mặt cứng (những bề
mặt không hấp thụ sóng âm) tạo nên hiệu ứng về tiếng vọng và vang âm. Sóng âm
thanh bị nhiễu xạ, chúng có thể xuyên qua các lỗ hỏng, các khe hở và đến từng ngóc
ngách. Sóng âm thanh cũng có thể bị khúc xạ, nó sẽ bị bẻ cong khi vận tốc truyền
thay đổi ở những khu vực khác nhau với nhiệt độ và mật độ không khí khác nhau.
Tầm quan trọng của những hệ quả này là hàm điều kiện môi trường và bước sóng.
Về mặt toán học, việc tạo những đường truyền sóng âm thanh trong một môi trường
thực tiễn khá phức tạp.
Âm thanh tự nhiên không chỉ liên quan đến hai yếu tố là nguồn phát và người
nghe, bởi vì sóng âm luôn phản xạ với các đồ vật xung quanh môi trường. Người
nghe tiếp nhận âm thanh phản xạ ngay sau khi âm thanh đó được phát ra. Người ta
gọi các yếu tố có liên quan đến âm thanh này là môi trường âm thanh. Môi trường
này rất quan trọng đối với việc tái tạo lại âm thanh bằng hệ thống điện tử.
Một trong những yếu tố chủ yếu của môi trường âm thanh được tạo ra do hiện
tượng phản xạ, thường xảy ra ở những không gian kín (như phòng hoà nhạc). Do
tốc độ giới hạn của âm thanh, song âm được truyền đi trong một phòng kín mất
nhiều thời gian để đến được tai người hơn là âm thanh trực tiếp và được gọi là
những âm bị trễ mà có thể nghe thấy sự lặp lại của âm thanh trước. Chúng ta có thể
nhận thấy rõ tiếng vọng xẩy ra khi sự trễ âm phản xạ lớn hơn khoảng 50m/s, tương
đương với khoảng cách là 17m. Tiếng vọng rõ nhất với những âm thanh có thời
gian trễ lớn hơn, ví dụ như tiếng vọng xảy ra trong một thung lũng.
3

Chương 1: Đại cương về tín hiệu audio và video
Ở những khu vực không gian hẹp hơn, có thể có rất nhiều phản xạ mà không
một phản xạ nào có thể bị trễ khác biệt hẳn tới mức là tiếng vọng. Tuy nhiên, âm
thanh vẫn tiếp tục truyền đi trong phòng cho đến khi nó biến mất hoàn toàn do có
hiện tượng hấp thụ âm, và gọi là hiện tượng tiếng vọng.
Hiện tượng tiếng vang tạo ra cảm giác về không gian, nó rất quan trọng trong
quá trình mô phỏng âm thanh. Ví dụ, nếu việc mô phỏng âm thanh không thu được
tiếng vang (trường hợp máy thu đặt gần, hoặc thậm chí đặt máy thu ngay tại nguồn
âm), âm thanh sẽ trở thành âm “chết”. Điều kiện này có thể khắc phục bằng cách
đưa vào những tiếng vang nhân tạo (thường xử lý bằng kỹ thuật số). Các chương
trình truyền hình gốc (chưa được biên tập) thường được thực hiện ở những điều
kiện âm “chết” này với mục đích là tiếng vang nhân tạo sẽ được đưa vào trong quá
trình biên tập, điều này giúp cho biên tập viên có thể kiểm soát được âm thanh.
Tiếng vang được lượng tử hoá trong khoảng thời gian đủ để nó phá huỷ 1/1000
âm gốc. Đối với phòng thiết kế riêng cho phòng hội thảo, thời gian vang của âm
thích hợp nhất là 1 giây. Với một phòng hòa nhạc, thời gian dài hơn một chút, lên
đến khoảng 2 giây.
Việc đo âm bằng các thiết bị như micro hay loa cần phải được thực hiện trong
một môi trường hoàn toàn cách âm để tách các đặc tính của chúng ra khỏi các đặc
tính của môi trường. Một loại phòng đặc biệt được gọi là phòng cách âm được thiết
kế cho mục đích này. Loại phòng này hấp thụ tất cả các âm thanh nhập vào chu vi
của nó, vì vậy hiện tượng phản xạ không xảy ra. Về cơ bản đây là một không gian
“chết”. Khi nói trong căn phòng này, người ta hầu như không thể nghe được giọng
nói của chính mình .
1.4. TÁI TẠO ÂM THANH ĐIỆN TỬ
Âm thanh điện tử được gọi chung là audio. Hình 1.2 minh họa một hệ thống
audio điển hình. Âm được thu từ nguồn nhờ một hoặc nhiều micro và những tín
hiệu audio thu được truyền qua hệ thống cho đến khi tới loa phát (bộ phận chuyển
các tín hiệu điện thành sóng âm).
Nguồn
âm Thu audio Lưu trữ hay
truyền dẫn Máy thu
Hình 1.2. Hệ thống tái tạo âm thanh điện tử
Mục đích tái tạo âm thanh điện tử là để tải các sóng âm thanh đến những
khoảng cách xa cả về không gian và thời gian, để người nghe có thể tiếp nhận như
thể họ đang nghe âm trực tiếp từ nguồn. Một mục đích khác nữa là để chau chuốt
4

Chương 1: Đại cương về tín hiệu audio và video
âm thanh mới không có trong tự nhiên, làm cho âm thanh điện tử hay hơn âm gốc,
hoặc tạo ra những âm thanh mới không có trong tự nhiên.
1.5. THỊ GIÁC CON NGƯỜI
Mắt người là một thiết bị rất đặc biệt bao gồm trên 100.000.000 (108) phần tử
cảm biến cùng một hệ thống điều khiển độ sáng cho phép nhìn rõ ở một phạm vi độ
sáng hơn 10 triệu tới 1. Hai mắt kết hợp với não tạo ra khả năng nhận biết các vật
trong không gian ba chiều. Mặc dù hầu hết các hệ thống tái tạo điện tử không có các
tính năng này nhưng bằng cánh thiết kế như các đặc điểm của mắt trong bộ não điện
tử, hệ thống có khả năng đáp ứng nhiều mục đích ứng dụng.
1.5.1. Độ phân giải
Thị lực trung bình của mắt là 20/20, vùng trung tâm thị lực là một cung có góc
khoảng 1/60 độ. Đây là độ phân giải của mắt, tất nhiên chỉ áp dụng đối với những
ảnh của các vật thể trên thang xám. Còn đối với ảnh màu, độ phân giải của mắt sẽ
giảm đi (xem phần 1.8.1). Độ phân giải ở đây có nghĩa là mắt người có thể nhìn rõ
các vật thể có kích thước khoảng 1cm khi nhìn khoảng cách là 3m, trường nhìn của
mắt gần bằng 1800, một người có thể phân biệt được tổng cộng 180×60 =10.800 vật
thể ngang qua trường nhìn. Tuy nhiên, độ phân giải của mắt giảm dần từ trung tâm
của thị giác, vì vậy tổng số vật thể trong thực tế là ít hơn nhiều .
Hệ thống ảnh điện tử phân biệt được một số lượng lớn các vật thể trong ảnh
đơn thực tế là rất hiếm. Vì vậy, nó thường được thiết kế sao cho màn hình hiển thị
có kích thước nhỏ hơn tổng trường nhìn của mắt. Do đó, hầu hết hình ảnh đều được
quan sát bởi phần có độ phân giải đầy đủ nhất của mắt, và độ phân giải đầy đủ cũng
là yếu tố quan trọng cần được sử dụng trong các thao tác tính toán hình ảnh điện tử.
Một đặc điểm khác cũng yêu cầu sử dụng độ phân giải đầy đủ nhất là khả năng
chuyển động của mắt để mang vật thể cần nhìn vào trung tâm thị giác. Một màn
hình hiển thị ở một góc rộng, khi nhìn gần sẽ gặp một số vấn đề đó là người xem sẽ
nhìn trực tiếp vào bất cứ phần nào trên màn hình thu hút họ trước nhất. Ở một thời
gian đặc biệt nào đó nó có thể là một điểm bất kỳ trên màn hình. Do vậy toàn bộ
màn hình đều cần phải có độ phân giải cao.
Ta biết rằng, ảnh trong các hệ thống số được miêu tả là một chuỗi các pixel.
Hệ thống hiển thị cần phải thiết kế sao cho các pixel không bị lộ diện nếu như
không có sẽ gây ảnh hưởng xấu tới chất lượng ảnh. Người ta thường hạn chế số
lượng pixel trong ảnh để đủ cho người xem ở khoảng cách nhìn quy định hoặc lớn
hơn, không thể phân tích được. Một thông số quan trọng cần tính đến ở đây là tỉ lệ
nhìn, được xác định bằng tỉ lệ giữa khoảng cách người xem (tính từ màn hình) với
độ cao nhất của ảnh.
5