TIÊU CHUẨN QUỐC GIA
TCVN 11795-17:2017
ISO/IEC 14496-17:2006
CÔNG NGHỆ THÔNG TIN - MÃ HÓA ĐỐI TƯỢNG HÌNH ẢNH, ÂM THANH - PHẦN 17: TẠO DÒNG
ĐỊNH DẠNG VĂN BẢN
Information technology - Coding of audio-visual objects - Part 17: Streaming text format
Lời nói đầu
TCVN 11795-17:2017 hoàn toàn tương đương với ISO/IEC 14496-17:2006.
TCVN 11795-17:2017 do Học viện Công nghệ Bưu chính Viễn thông, Bộ Thông tin và Truyền thông đề
nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học và Công nghệ công bố.
CÔNG NGHỆ THÔNG TIN - MÃ HÓA ĐỐI TƯỢNG HÌNH ẢNH, ÂM THANH - PHẦN 17: TẠO DÒNG
ĐỊNH DẠNG VĂN BẢN
Information technology - Coding of audio-visual objects - Part 17: Streaming text format
1 Phạm vi áp dụng
Tiêu chuẩn này quy định việc trình bày dạng mã hóa các thông tin văn bản để hiển thị theo thời gian
trên màn hình. Các dữ liệu văn bản có thể được xem trực tiếp kết hợp với âm thanh và hình ảnh, đó là
trong trường hợp thông tin văn bản được hiển thị dạng phụ đề, ví dụ là bản dịch của âm thanh trong
video dưới dạng một ngôn ngữ khác hoặc phụ đề trợ giúp trong trường hợp âm thanh khó nghe, một ví
dụ khác là phụ đề nội dung bài hát trong một ứng dụng Karaoke. Tuy nhiên, dữ liệu văn bản cũng có
thể được xem trực tiếp như một ứng dụng độc lập mà không cần kết hợp bất kỳ âm thanh hay hình
ảnh nào liên quan. Tạo dòng định dạng văn bản được quy định theo cách thức không phụ thuộc lớp
truyền tải, tức là cho phép truyền tải theo nhiều cách khác nhau, trong khi vẫn cung cấp một mức độ
truy cập ngẫu nhiên hợp lý và sự kháng lỗi.
Các dòng văn bản được định nghĩa là dòng byte có khả năng mang theo các khối truy cập văn bản của
một định dạng cụ thể, tùy chọn xen kẽ với các dữ liệu cần thiết cho việc giải mã các dòng văn bản.
Định dạng của các dòng văn bản và các khối truy cập văn bản được quy định, cũng như tín hiệu và giải
mã các dòng văn bản.
2 Tài liệu viện dẫn
Các tài liệu viện dẫn rất cần thiết cho việc áp dụng tiêu chuẩn. Đối với các tài liệu ghi năm công bố thì
áp dụng bản được nêu. Đối với các tài liệu viện dẫn không ghi năm công bố thì áp dụng phiên bản mới
nhất, bao gồm cả các sửa đổi.
ISO/IEC 14496-18:2004: Information technology - Coding of audio-visual objects - Part 18: Font
compression and streaming (Công nghệ thông tin - Mã hóa các đối tượng âm thanh-hình ảnh - Phần
18: Nén và sắp xếp font).
3GPP TS 26.245 - 2003, Timed text format, Release 6 (Định dạng văn bản định thời, phiên bản thứ 6).
IETF RFC 3550, RTP, A Transport Protocol for Real Time Applications (Giao thức truyền tải cho các
ứng dụng thời gian thực).
IETF RFC 3640, RTP payload for transport of generic MPEG-4 content (Tải tin RTP cho truyền tải nội
dung MPEG-4).
3 Thuật ngữ và định nghĩa
3.1
Dòng văn bản (Text stream)
Dòng byte có khả năng mang các khối truy cập văn bản của một định dạng cụ thể, có thể xen kẽ với
các dữ liệu cần thiết cho việc giải mã dòng văn bản đó.
3.2
Khối truy cập văn bản (Text access unit)
Các phần truy cập riêng biệt của văn bản trong mỗi dòng văn bản.
CHÚ THÍCH: Mỗi khối truy cập văn bản bao gồm cả hiển thị được mã hóa của dữ liệu văn bản. Để hiển
thị thì khối truy cập văn bản có thể kết hợp với một dấu thời gian riêng.
3.3
Dòng văn bản 3GPP (3GPP text stream)
Dòng văn bản mang các khối truy cập văn bản 3GPP.
3.4
Khối truy cập văn bản 3GPP (3GPP text access unit)
Khối truy cập văn bản mang các dữ liệu từ các mẫu văn bản mà 3GPP quy định.
3.5
Mẫu văn bản (Text sample)
Khi sử dụng một dòng văn bản 3GPP, theo quy định của 3GPP TS 26.245 một mẫu văn bản bao gồm
một chuỗi văn bản, có thể có một hoặc nhiều chuỗi điều chỉnh.
3.6
Chuỗi văn bản (Text string)
Khi sử dụng dòng văn bản 3GPP, dữ liệu chứa trong mẫu văn bản, là một chuỗi các ký tự được mã
hóa ở định dạng UTF-8 hoặc UTF-16 như quy định trong 3GPP TS 26.245.
3.7
Chuỗi điều chỉnh (text modifier)
Khi sử dụng dòng văn bản 3GPP, một hoặc nhiều chuỗi điều chỉnh được kèm theo đề xác định cách
thức hiển thị chuỗi văn bản trong mẫu văn bản theo quy định trong 3GPP TS 26.245
3.8
Mô tả mẫu (sample description)
Khi sử dụng trong dòng văn bản 3GPP, các dữ liệu mô tả sẽ cung cấp các thông tin chung về một hay
nhiều mẫu văn bản, ví dụ như các loại font được sử dụng hay định vị văn bản theo quy định của 3GPP
TS 26.245.
3.9
Khối văn bản định thời TTU (Timed Text Unit)
Cấu trúc cú pháp trong một dòng văn bản 3GPP mang các khối truy cập văn bản theo đó chỉ số j chỉ
loại dữ liệu (như một phần, một khối truy cập văn bản hoàn chỉnh hay một mô tả văn bản) được mang.
3.10
Tạo dòng định dạng văn bản (text stream format)
Dòng văn bản được xác định là luồng byte có khả năng chứa các khối truy cập văn bản của một định
dạng cụ thể, tùy chọn xen kẽ với các dữ liệu cần thiết cho việc giải mã dòng văn bản. Tạo dòng định
dạng văn bản được định nghĩa một cách thuận tiện cho việc vận chuyển trong gói truyền tải và các tập
tin. Tuy nhiên, bản thân việc vận chuyển đó phụ thuộc vào định dạng cụ thể cho lưu trữ và truyền tải
tập tin, điều đó nằm ngoài phạm vi của tiêu chuẩn này.
3.11
Khung hiển thị văn bản (Text Track)
Là phần khung hình chữ nhật dưới cùng của màn hình để hiển thị văn bản trong các video, có độ rộng
và độ dài được xác định cụ thể.
3.12
Hộp văn bản (Text Box)
Là phần khung hình chữ nhật được định vị trong phạm vi Text Track để hiển thị văn bản trong các
video, có độ rộng và độ dài được xác định cụ thể.
4 Ký hiệu
3GPP The 3rd Generation Partnership Project Dự án hợp tác thế hệ sau
TTU Timed Text Unit Khối văn bản định thời.
HTD Hypothetical Text Decoder Bộ giải mã văn bản giả định
5 Khối truy cập văn bản
5.1 Định thời và giải mã khối truy cập văn bản
Mỗi khối truy cập văn bản có chứa dữ liệu văn bản ở một định dạng xác định, sử dụng nhãn thời gian.
Nhãn thời gian xác định thời gian khối truy cập văn bản được hiển thị trên màn hình. Bộ thu cần các
thông tin của cấu hình văn bản để giải mã một dòng văn bản. Cấu hình văn bản có thể cung cấp thông
tin xác định định dạng dữ liệu văn bản.
5.2 Định dạng khối truy cập văn bản
5.3 Cấu hình văn bản
5.4 Ngữ nghĩa
“textFormat” - một byte báo hiệu định dạng dữ liệu văn bản. Giá trị 0x01 báo hiệu rằng các dữ liệu văn
bản được định thời theo quy định của 3GPP TS 26.245 theo cách thức quy định ở điều 7.
Bảng 1 - Định dạng dữ liệu văn bản trong textformat
0x00 Dự trữ
0x01 Văn bản được xác định thời gian theo quy định của 3GPP TS 26.245
0x02- 0xEF Dự trữ
0xF0- 0xFE Định dạng riêng của người sử dụng
0xFF Dự trữ
textConfigLength”- số nguyên không dấu xác định số lượng byte trong “formatSpecificTextConfig ( )
6 Cách sử dụng luồng văn bản trong ngữ cảnh hệ thống MPEG-4
6.1 Báo hiệu một dòng văn bản
Khi sử dụng hệ thống MPEG-4, một dòng văn bản phải được báo hiệu bởi một Giá trị định dạng dòng
0x0D và một Giá trị định danh loại đối tượng 0x08.
6.2 Sử dụng trong việc mô tả cảnh
Khi được sử dụng trong một mô tả cảnh MPEG-4, đối tượng dòng văn bản được sử dụng như sau:
Nếu đối tượng dòng văn bản được sử dụng bởi một nút “AnimationStream”, nó phải được hiển thị, bất
kể việc nút “AnimationStream” được kích hoạt hay không:
Nếu đối tượng dòng văn bản không được sử dụng bởi bất kỳ nút “AnimationStream” nào, nó sẽ không
được hiển thị trong cảnh.
Việc hiển thị văn bản theo không gian của dữ liệu văn bản được xác định bởi các định dạng văn bản
cơ bản. Trong trường hợp mô tả ảnh có chỉ số kích thước màn hình, các kết quả sẽ không được xác
định nếu việc định vị các dữ liệu văn bản ra ngoài màn hình.
Tất cả các quy tắc chung liên quan đến việc điều khiển thời gian và phân đoạn dòng đều được áp dụng
cho các đối tượng dòng văn bản.
7 Định dạng dữ liệu văn bản cho các dòng văn bản 3GPP
7.1 Giới thiệu
Phần này xác định định dạng dữ liệu văn bản trong dòng văn bản 3GPP.
7.2 Truyền tải mẫu văn bản và mô tả mẫu trong các khối truy cập văn bản 3GPP
Chuẩn 3GPP TS 26.245 định dạng dữ liệu văn bản theo thời gian bao gồm các mẫu văn bản và mô tả
mẫu, mỗi mẫu văn bản bao gồm một chuỗi văn bản, được theo sau bởi một hoặc nhiều chuỗi điều
chỉnh. Mỗi chuỗi văn bản bao gồm các ký tự tạo thành các văn bản được hiển thị, trong khi các chuỗi
điều chỉnh mang những thay đổi sẽ được áp dụng cho các chuỗi văn bản trong suốt thời gian mà văn
bản đó được hiển thị trong hộp văn bản. Ví dụ trong một ứng dụng Karaoke, các chuỗi điều chỉnh cho
phép dòng văn bản được thay đổi màu sắc đồng bộ với bài hát.
Một mô tả mẫu cung cấp thông tin tổng quát về một mẫu văn bản, ví dụ về phông chữ sẽ được sử
dụng, về vị trí của văn bản khi hiển thị trong hộp văn bản, màu nền hiển thị v.v... Có thể có nhiều mô tả
mẫu; một chỉ số được gán cho mỗi mô tả mẫu văn bản (SD) và mỗi mẫu văn bản được kết hợp với các
chỉ số của mô tả mẫu. Một mô tả mẫu có thể sử dụng cho nhiều mẫu văn bản, trong khi một mẫu văn
bản chỉ áp dụng duy nhất một mô tả mẫu.
Mối quan hệ giữa các mô tả mẫu, các mẫu văn bản, chuỗi văn bản và các chuỗi điều chỉnh được mô tả
trong Hình 1
Hình 1- Mô tả mẫu, mẫu văn bản, chuỗi văn bản và chuỗi điều chỉnh trong các dòng văn bản
3GPP
Một khối truy cập văn bản 3GPP bao gồm các dữ liệu từ một mẫu văn bản. Do đó, một khối truy cập
văn bản 3GPP không cho phép bao gồm dữ liệu từ nhiều mẫu văn bản. Mỗi khối truy cập văn bản
3GPP được hiển thị trong khoảng thời gian nhất định, xác định bởi các thông tin về thời gian. Ngoài
một mẫu văn bản, khối truy cập văn bản có thể chứa nhiều mô tả mẫu hoàn chỉnh. Bằng việc cho phép
xen kẽ các mẫu văn bản và các mô tả mẫu trong các khối truy cập văn bản 3GPP, các dòng văn bản
3GPP có khả năng chứa các mô tả mẫu trong băng.
7.3 Truyền tải các khối truy cập văn bản 3GPP trong các TTU
Thông thường, một khối truy cập văn bản 3GPP có kích thước nhỏ, khoảng 100 - 200 byte, và thường
nhỏ hơn nhiều so với kích thước của gói tin mang dữ liệu văn bản trên một mạng truyền tải. Do đó hệ
thống truyền tải sẽ tập hợp nhiều khối truy cập văn bản 3GPP vào một gói tin để truyền tải. Tuy nhiên,
có thể đôi khi khối truy cập văn bản 3GPP có kích thước lớn, ví dụ như khi di chuyển văn bản theo
hướng ngang ở phía dưới của màn hình, trong trường hợp đó cần phải phân mảnh khối truy cập văn
bản 3GPP trước khi truyền tải. Tóm lại, truyền tải khối truy cập văn bản 3GPP thường phải tập hợp các
khối truy cập văn bản nhưng đôi khi cũng có yêu cầu phân đoạn. Vì vậy, để thuận tiện cho việc tổng
hợp và phân đoạn các khối truy cập văn bản theo một cách độc lập, tiêu chuẩn này quy định một cấu
trúc khung linh hoạt bao gồm các khối văn bản định thời, còn được gọi là TTU.
Có 5 loại TTU, một loại mang các khối truy cập văn bản 3GPP hoàn chỉnh, ba loại chứa các phân đoạn
mẫu văn bản và một loại mang các mô tả mẫu hoàn chỉnh với ba loại được dự trữ để dùng trong tương
lai. Do các mô tả mẫu nhỏ nên không cần phương thức hỗ trợ truyền tải các phân đoạn mô tả mẫu.
Cấu trúc khung linh hoạt mà TTU cung cấp cho phép tiếp cận với các lớp vận chuyển khác nhau một
cách dễ dàng và thuận tiện khi thực hiện việc sắp xếp TTU cùng với các gói vận chuyển. Mỗi lớp vận
chuyển có thể chọn cấu trúc TTU phù hợp nhất. Bằng việc sử dụng các TTU, các mẫu văn bản nhỏ có
thể được tổng hợp vào một gói vận chuyển nhưng các TTU cũng có thể được sử dụng để phân đoạn
các mẫu văn bản qua nhiều gói vận chuyển khi đưa ra mức độ kháng lỗi phù hợp trong trường hợp
mất các gói vận chuyển hoặc các lỗi không thể phục hồi. Để làm được điều đó, dữ liệu văn bản trong
một khối truy cập văn bản có thể tái phân vùng thành các TTU để tiếp cận các hệ thống vận chuyển
hiệu quả nhất. Tiêu chuẩn này dừng lại ở mức xác định các TTU cho các dòng văn bản 3GPP.
Hình 2- Mẫu văn bản và mô tả mẫu trong khối truy cập 3GPP và việc sử dụng các TTU để tạo
dòng văn bản 3GPP
Mỗi khối truy cập văn bản trong một dòng văn bản 3GPP được xác định bao gồm một hoặc nhiều TTU.
Mỗi loại TTU được xác định bởi chỉ số j của nó và được gọi là TTU[j]. Có các loại TTU được xác định
như sau:
TTU[0]: loại TTU được dự trữ sử dụng trong tương lai
TTU[1]: loại TTU này có khả năng mang các khối truy cập văn bản 3GPP hoàn chỉnh;
TTU[2]: loại TTU này có khả năng mang một đoạn của một chuỗi văn bản (text string) trong một mẫu
văn bản;
TTU[3]: loại TTU này có khả năng mang phân đoạn đầu tiên của một chuỗi điều chỉnh từ một mẫu văn