PHƯƠNG PHÁP ƯỚC LƯỢNG XÁC SUẤT THỨ CẤP DỰA TRÊN LÝ THUYẾT ENTROPY CỰC ĐẠI
lượt xem 19
download
Mô hình hóa dữ liệu và mã hóa là hai quá trình quan trọng nhất của nén dữ liệu. Mã hóa được thực hiện tối ưu và hiệu quả với mã hóa số học. Tuy nhiên không thể tính toán mô hình tối ưu cho một nguồn dữ liệu cho trước. Bài báo sẽ giới thiệu phương pháp ước lượng xác suất thứ cấp. Trong đó mỗi mô hình sơ cấp ước lượng xác suất bit tiếp theo là bit 1 hoặc bit 0 một cách độc lập. Các xác suất ước lượng được kết hợp lại với nhau bằng...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: PHƯƠNG PHÁP ƯỚC LƯỢNG XÁC SUẤT THỨ CẤP DỰA TRÊN LÝ THUYẾT ENTROPY CỰC ĐẠI
- Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 PHƢƠNG PHÁP ƢỚC LƢỢNG XÁC SUẤT THỨ CẤP DỰA TRÊN LÝ THUYẾT ENTROPY CỰC ĐẠI TRONG ỨNG DỤNG NÉN DỮ LIỆU SECONDARY PROBABILITY ESTIMATION METHODS BASED ON MAXIMUM ENTROPY PRINCIPLE IN DATA COMPRESSION APPLICATIONS SVTH: Nguyễn Hải Triều Anh Lớp 05DT1, Khoa Điện tử Viễn thông, Trường Đại học Bách khoa GVHD: ThS. Hoàng Lê Uyên Thục Khoa Điện tử Viễn thông, Trường Đại học Bách khoa TÓM TẮT Mô hình hóa dữ liệu và mã hóa là hai quá trình quan trọng nhất của nén dữ liệu. Mã hóa được thực hiện tối ưu và hiệu quả với mã hóa số học. Tuy nhiên không thể tính toán mô hình tối ưu cho một nguồn dữ liệu cho trước. Bài báo sẽ giới thiệu phương pháp ước lượng xác suất thứ cấp. Trong đó mỗi mô hình sơ cấp ước lượng xác suất bit tiếp theo là bit 1 hoặc bit 0 một cách độc lập. Các xác suất ước lượng được kết hợp lại với nhau bằng phương pháp tương tự như mạng nơtron. Sau khi bit được mã hóa, bộ ước lượng được cập nhật theo hướng tối thiểu chi phí mã hóa thay vì theo hướng giảm sai số dự đoán. ABSTRACT Data modeling and coding is two most important processes of data compression. An optimal and effective coding process can be implemented using arithmetic coding. However, optimal model is not computable. This paper introduces a secondary probability estimation method. In this method, each primary model independently estimates the probability that the next bit of data is 0 or 1. Results of estimation are combined by using a method similar to a neural network. After a bit is coded, the estimator will be updated in the direction that min imizes coding cost instead of the direction that minimizes mean square error. 1. Đặt vấn đề Nén dữ liệu là biện pháp nhằm giảm số bit cần dùng để lưu trữ hoặc truyền dữ liệu . Các thuật toán nén có hai quá trình thiết yếu nhất là quá trình ước lượng phân bố x ác suất và quá trình mã hóa. Người ta đã chứng minh được rằng không thể tìm ra ước lượng phân bố xác suất tối ưu cho một nguồn cho trước [1][2]. Tuy nhiên quá trình mã hóa có thể được thực hiện hiệu quả và tối ưu với mã hóa số học [3]. Độ dài từ mã trung bình mà bộ mã hóa tạo ra bị giới hạn bởi entropy của nguồn. Giả sử biến ngẫu nhiên x nhận giá trị thuộc tập X={x1, x2, …}; mỗi giá trị xi có xác suất là pi, lí thuyết thông tin [4] định nghĩa entropy của x là: 1 (1) H ( x) pi log 2 ( ) pi i Entropy của nguồn tin được xác định nếu ta biết trước được phân bố xác suất của nguồn đó. Tổng quát thì phân bố xác suất của nguồn là không thể biết trước đồng thời phân bố tối ưu của nguồn là không tính toán được, vì vậy chỉ có thể thực hiện ước lượng các giá trị pi . Do đó tính hiệu quả của một thuật toán nén dữ liệu phụ thuộc chủ yếu vào quá trình ước 222
- Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 lượng xác suất. Mặt khác để ước lượng xác suất pi của sự kiện xi người ta có thể sử dụng nhiều phương pháp, nhiều cách tiếp cận khác nhau. Bài toán đặt ra là thực hiện kết hợp ước lượng xác suất từ các bộ ước lượng sơ cấp để tạo ra phân bố xác suất thích hợp nhất nhằm mã hóa nguồn tin hiệu quả nhất. 2. Phƣơng pháp kết hợp dựa trên lí thuyết entropy cực đại 2.1. Cơ sở lí thuyết Ta xét biến ngẫu nhiên x nhận giá trị thuộc tập X={x1, x2, …, xn}. Xác suất ước lượng của xi với i 1, n từ m bộ ước lượng sơ cấp khác nhau là PS k ( xi ) , với k 1, m . Xác suất ước lượng tại đầu ra của bộ kết hợp là PM ( xi ) . Các điều kiện ràng buộc của PM ( xi ) [5]: n 1 - Entropy: H ( x) PM ( xi ) log 2 ( ) (2) PM ( xi ) i1 n - Kì vọng của các xác suất sơ cấp: Fk PM ( xi ).PSk ( xi ) (3) i1 n - Mặt khác PM ( xi ) phải thỏa mãn: PM ( xi ) 1 (4) i1 Áp dụng phương pháp số nhân Lagrange với các điều ràng buộc như trên. Định nghĩa các hằng số (k 1, m ) và hàm Lagrange L: , k n m n Fk )] (5) L H ( x) ( PM ( xi ) 1) [ k( PM ( xi ).PS k ( xi ) i1 k1 i1 Lý thuyết entropy cực đại dựa trên tiền đề là khi ước lượng phân bố xác suất với các ràng buộc cho trước ta nên chọn phân bố có entropy cực đại [5][6]. Có nghĩa là tìm , 1, n ) sao cho L lớn nhất [5]. Tức là xác suất tại đầu ra (k 1, m ), và PM ( xi ) ( i k L PM ( xi ) phải thỏa mãn điều kiện 0 và các điều kiện (2)(3)(4). Suy ra: PM ( xi ) m . PS k ( x i ) k 2k 1 PM ( xi ) (6) m n . PS k ( x i ) k 2k 1 i1 Các giá trị có thể được xác định bằng phương pháp lặp tổng quát và đảm bảo sẽ k hội tụ đến nghiệm duy nhất [6]. Dựa vào công thức (6) ta thấy: để có thể kết hợp các bộ dự đoán một cách đơn giản nhất thì các bộ dự đoán phải là các bộ dự đoán nhị phân (dự đoán từng bit). Gọi P là xác suất bit tiếp theo là bit 1, xác suất bit tiếp theo là bit 0 là (1-P). Tương tự gọi PS k là xác 223
- Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 suất sơ cấp bit tiếp theo là bit 1 thì (1- PS k ) là xác suất sơ cấp bit tiếp theo là bit 0. Công thức (6) có thể viết lại: 1 P (7) m ( 2 PS k 1) k 12 k1 Gọi y là bit vừa mã hóa, u là số bit để mã hóa y. Theo lí thuyết thông tin [4]: log 2 P khi y = 1 và u log 2 (1 P) khi y = 0 u Tương đương với: u log 2 [1 y (2 y 1) P] (8) u Vi phân từng phần của (8) theo ta được: (y P)(2 PSk 1) (9) k k Sau khi mã hóa bit y, các trọng số được cập nhật sao cho số bit cần dùng để mã k hóa thay đổi ngược chiều với chiều biến thiên của u theo : k : (y P)(2 PS k 1) (10) k k Với là hệ số học. có thể là một hằng số cho trước (ví dụ 0.01) hoặc thay đổi thích nghi như [6]. Kí hiệu:= biểu thị cho phép gán. Hiệu (y-P) chính là sai số dự đoán. Dựa vào công thức (8) và (10) ta thấy bộ kết hợp tương tự như một mạng nơtron perceptron gồm 2 lớp trong đó lớp đầu vào có m nút, lớp ra có 1 nút với hàm ngưỡng là 1 . Đầu ra của nơtron i của lớp vào là Pri 1 , đầu ra của nơtron lớp ra là 2 PS i g x 12 m hàm truyền ngược là Prk ) , P g( k k1 : ( y P) Prk . k k 2.2. Phương pháp thực hiện (hình 1) Dữ liệu nguồn được tiền xử lí bằng thuật toán LZ tiên đoán nhằm giảm bớt kích thước. Đầu ra của bộ tiền xử lí được đưa vào 4 bộ ước lượng xác suất sơ cấp PS k . Các giá trị xác suất thuộc đoạn [0, 1) được biểu diễn bằng các số nguyên trong đoạn [0,8192). 1 được tính toán trước Hàm sigmoid g x 12 và thực hiện dưới dạng bảng tra với x mang giá trị trong đoạn [-8192, 8192) biểu diễn cho dải từ -16 đến 16 với độ phân giải 2 9 . 4 Giá trị x Prk lưu trong một thanh ghi Hình 1. Thủ tục mã hóa một bit k k1 32 bit. Sau đó x được chuẩn hóa đến dải giá trị đầu vào của hàm sigmoid. 224
- Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 Xác suất kết hợp từ 4 bộ ước lượng xác suất sơ cấp sẽ được dùng để mã hóa bit y bằng phương pháp mã hóa số học. Sau khi mã hóa, các giá trị được điều chỉnh nhằm làm giảm số bit dùng để mã k hóa, đồng thời cập nhật các bộ ước lượng sơ cấp. Hệ số học được chọn trước có dạng 2l , với l 26,0 nhằm mục đích thay thế phép nhân với trong công thức (10) bằng phép dịch bit. 2.3. Kết quả và đánh giá 2.3.1. So sánh với phương pháp kết hợp được sử dụng trong chuẩn ZPAQ Bài báo thực hiện so sánh 3 phương pháp kết hợp khác nhau. Phương pháp thứ nhất thực hiện tính trung bình cộng các xác suất sơ cấp. Phương pháp thứ hai là phương pháp đã nêu ở mục 2.1. Phương pháp thứ ba là phương pháp của chuẩn ZPAQ, phương pháp này tương tự như phương pháp thứ hai, tuy nhiên đầu ra của nơtron i của lớp vào là Pri g 1 ( PSi ) với g 1 ( x) là hàm ngược của g(x) thay vì Pri 2 PS i 1 . Ở cả ba phương pháp, các bộ dự đoán sơ cấp nhằm dự đoán xác suất của bit tiếp theo là hoàn toàn giống nhau. Hệ số học được chọn bằng 2 17 . Dữ liệu để kiểm chứng là Calary.tar [1] và enwik8 [1]. Calgary là tập hợp các file văn bản và file nhị phân thường dùng để so sánh các thuật toán nén dữ liệu. Tập hợp này có 14 file gồm các bài báo khoa học, mã nguồn, ảnh bitmap và chương trình thực thi. Tất cả được đóng gói thành một file TAR* (tape archive: định dạng lưu trữ không nén khá phổ biến) nhằm đánh giá khả năng thích nghi của thuật toán với nguồn dữ liệu có phân bố thay đổi. Enwik8 là 108 byte dữ liệu đầu tiên của bách khoa toàn thư mở wikipedia ngày 3/3/2006. Hiện nay enwik8 cũng được dùng với mục đích tương tự như bộ dữ liệu calgary. Bảng 1. Kết quả so sánh các phương pháp ước lượng thứ cấp Phương pháp 1 Phương pháp 2 Phương pháp 3 Kích thước Kích thước Thời gian Kích thước Thời Kích thước Thời gian File (byte) sau khi nén nén (s) sau khi nén gian nén sau khi nén nén (s) (byte) (byte) (s) (byte) Calgary.tar 3152896 1031116 1.015 976056 1.516 939918 1.738 Enwik8 100000000 33154937 31.778 31825330 44.964 30390024 50.056 2.3.2. Ảnh hưởng của hệ số học Sử dụng phương pháp kết hợp thứ hai, ta thay đổi hệ số học để xem xét ảnh hưởng của nó tới kích thước file sau khi nén. Bằng phương pháp thử - sai - sửa ta thấy giá trị 2 17 là phù hợp. Bảng 2. Kích thước file nén (byte) khi thay đổi hệ số học Kích thước 15 18 12 16 17 19 2 2 2 2 2 2 gốc (byte) Calgary.tar 3152896 7203636 980534 977378 976056 975690 975850 Enwik8 100000000 244105971 31968473 31866841 31825330 31813578 31816184 2.3.3. Đánh giá Theo lí thuyết chiều dài mô tả ngắn nhất [2] ta suy ra phương pháp kết hợp ước 225
- Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 lượng cho file nén nhỏ nhất là mô hình chính xác nhất. Đo đó phương pháp kết hợp sử dụng trong chuẩn ZPAQ là phương pháp tốt nhất trong ba phương pháp trên Trung bình cộng của các xác suất ước lượng sơ cấp không phải là phân bố xác suất mô tả nguồn thích hợp. Phương pháp kết hợp được sử dụng trong ZPAQ thay thế Pri 2 PS i 1 trong công Pi thức (8) và (10) bằng: Pri (11) S g 1(P i ) log 2 ( ) S 1 Pi S Đặc điểm của hàm g 1 ( x) là độ dốc của nó thay đổi chậm khi x nằm gần giá trị 0.5 và thay đổi rất nhanh khi x nằm gần giá trị 0 hoặc 1. Phương pháp của ZPAQ đạt tỉ lệ nén cao chứng tỏ xác suất từ bộ ước lượng càng gần với giá trị 0 hoặc 1 thì độ tin cậy của chúng càng cao, và xác suất càng gần với giá trị 0.5 thì độ tin cậy chúng càng thấp. Phương pháp suy ra từ lí thuyết entropy cực trị không đạt hiệu quả cao nhất là do phương pháp này không xem xét đến độ tin cậy của xác suất được ước lượng. Phương pháp kết hợp cho tỉ lệ nén càng cao thì càng chậm. Tùy theo mục đích thiết kế mà ta lựa chọn phương pháp thích hợp. Hệ số học có tác động rất lớn đến hiệu quả nén dữ liệu, và cần lựa chọn cẩn thận nếu không sẽ không đạt hiệu quả như mong muốn. 3. Kết luận Bài báo đã giới thiệu một phương pháp kết hợp hiệu quả các bộ dự đoán dựa trên lí thuyết entropy cực đại. Đồng thời cho thấy khi kết hợp các xác suất ta cần quan tâm đến độ tin cậy của nó. Do ứng dụng trong nén dữ liệu cho nên bộ kết hợp được huấn luyện trực tuyến (online-training) theo hướng giảm số bit dùng để mã hóa một bit dữ liệu thay vì huấn luyện theo hướng giảm sai số ước lượng. Để ước lượng chính xác hơn ta phải tăng số lượng và độ chính xác của các bộ ước lượng sơ cấp. Ưu điểm lớn nhất của phương pháp này là có thể xây dựng nhiều bộ ước lượng sơ cấp khác nhau cho các kiểu dữ liệu khác nhau, rồi kết hợp các ước lượng đó để tạo ra xác suất ước lượng tốt nhất. Vì vậy ta dễ dàng tạo ra thuật toán nén dữ liệu làm việc tốt đối với nhiều nguồn dữ liệu khác nhau như hình ảnh, văn bản, âm thanh, video … TÀI LIỆU THAM KHẢO [1] Matt Mahoney (2010), Data compression explain, Ocarina Networks, Section 1 and section 4. [2] Volker Nannen (2003), A Short Introduction to Model Selection, Kolmogorov Complexity and Minimum Description Length [3] Khalid Sayood (2003), Lossless compression handbook, Academic Press, Chapter 5 [4] C.E.Shannon (1948), “A Mathematical Theory of Communication”, The Bell System Technical Journal 226
- Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 7 Đại học Đà Nẵng năm 2010 [5] Department of Electrical Engineering and Computer Science (2004), Information and Entropy, Massachusetts Institute of Technology, Chapter 9-10 [6] Matt Mahoney (2000), “Fast Text Compression with Neural Networks”, Florida Institute of Technology [7] Matt Mahoney (2009), “The ZPAQ Open Standard Format for Highly Compressed Data - Level 1” 227
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Luận văn Thạc sĩ Khoa học máy tính: Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
76 p | 230 | 44
-
Luận văn:PHÂN TÍCH DANH MỤC TÍN DỤNG: XÁC SUẤT KHÔNG TRẢ ĐƯỢC NỢ - PROBABILITY OF DEFAULT (PD)
75 p | 92 | 21
-
Tóm tắt Luận văn Thạc sĩ Ngân hàng: Đo lường xác suất vỡ nợ trong rủi ro tín dụng tại Ngân Hàng Techcombank
10 p | 66 | 13
-
Luận án Tiến sĩ Kinh tế: Nghiên cứu ứng dụng thống kê Bayes phân tích việc sẵn lòng tham gia bảo hiểm cây cà phê theo chỉ số năng suất của hộ nông dân tỉnh Đắk Lắk
247 p | 53 | 7
-
Luận án Tiến sĩ Y học: Nghiên cứu vai trò của siêu âm doppler xuyên sọ trong hồi sức bệnh nhân chấn thương sọ não nặng
154 p | 25 | 6
-
Luận văn Thạc sĩ Kinh tế: Kiểm định các nhân tố tác động đến lạm phát Việt Nam
50 p | 43 | 5
-
Luận án tiến sĩ Y học: Nghiên cứu tỷ suất mới mắc ung thư dạ dày trong cộng đồng dân cư Hà Nội giai đoạn 2009-2013
149 p | 36 | 5
-
Tóm tắt Luận án tiến sĩ Toán học: Nghiên cứu rủi ro tài chính trong tái bảo hiểm
32 p | 33 | 4
-
XÁC ĐỊNH TỶ LỆ TIÊU HOÁ IN VIVO CÁC CHẤT DINH DƯỠNG CỦA NGỌN LÁ MÍA CHẾ BIẾN THEO PHƯƠNG PHÁP KHÁC NHAU.
8 p | 129 | 4
-
Luận án Tiến sĩ Vật lý: Nghiên cứu giải pháp đánh giá và đảm bảo tương thích điện từ trường cho các thiết bị vô tuyến điện tử
133 p | 27 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn