intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận văn Thạc sĩ Hệ thống thông tin: Ứng dụng độ đo entropy và fuzzy logic cho bài toán dữ liệu thưa

Chia sẻ: Matroinho | Ngày: | Loại File: PDF | Số trang:70

29
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn "Ứng dụng độ đo entropy và fuzzy logic cho bài toán dữ liệu thưa" được hoàn thành với mục tiêu nhằm ứng dụng Fuzzy logic cho việc phục hồi điểm rèn luyện; Cài đặt thuật toán Bootstrap phục hồi dữ liệu; Đánh giá mối tương quan giữa các biến, các cụm biến; Đề xuất cách phục hồi điểm rèn luyện dựa trên độ tương đồng giữa hai vector.

Chủ đề:
Lưu

Nội dung Text: Luận văn Thạc sĩ Hệ thống thông tin: Ứng dụng độ đo entropy và fuzzy logic cho bài toán dữ liệu thưa

  1. UBND TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN VIỆT THANH HIỀN ỨNG DỤNG ĐỘ ĐO ENTROPY VÀ FUZZY LOGIC CHO BÀI TOÁN DỮ LIỆU THƢA LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƢƠNG - 2019
  2. UBND TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN VIỆT THANH HIỀN ỨNG DỤNG ĐỘ ĐO ENTROPY VÀ FUZZY LOGIC CHO BÀI TOÁN DỮ LIỆU THƢA LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƢỜI HƢỚNG D N HOA HỌC: TS. HOÀNG MẠNH HÀ BÌNH DƢƠNG – 2019
  3. LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các trích dẫn đều đƣợc sự đồng ý của tôi trƣớc khi đƣa vào luận văn. Các kết quả trong luận văn là trung thực và chƣa từng công bố trong một công trình khoa học nào khác. Bình Dương, tháng 10 năm 2019 Học viên Nguyễn Việt Thanh Hiền i
  4. LỜI CẢM ƠN Để hoàn thành luận văn này, trƣớc hết em xin bày tỏ lòng biết ơn sâu sắc tới Thầy TS Hoàng Mạnh Hà đã tận tình chỉ dạy và có những góp ý quý báu cho em trong thời gian thực hiện luận văn. Em xin chân thành cảm ơn ban Lãnh đạo Khoa Kỹ Thuật Công Nghệ Trƣờng Đại học Thủ Dầu Một, Phòng Đào tạo Sau đại học và Quý thầy Cô Trƣờng Đại học Thủ Dầu Một, thành phố Thủ Dầu Một, Tỉnh Bình Dƣơng, đã tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu tại trƣờng. Cảm ơn các bạn Tập thể lớp Cao học CH17HT đã sát cánh cùng nhau chia sẽ kinh nghiệm học tập quý báu, giúp đỡ nhau vƣợt qua khó khăn. Cảm ơn Các Thầy, cô Phòng Công tác Sinh viên trƣờng Đại học Thủ Dầu Một, khoa Kỹ thuật Công Nghệ đã tận tình chia sẽ và trao đổi các thông tin trong lĩnh vực quản lí sinh viên. Do thời gian có hạn và khả năng còn hạn chế nên không tránh khỏi những thiếu sót, rất mong đƣợc sự đóng góp ý kiến từ Thầy Cô và bạn bè để em luận văn hoàn chỉnh hơn nữa. Bình Dương, tháng 10 năm 2019 Học viên Nguyễn Việt Thanh Hiền ii
  5. TÓM TẮT LUẬN VĂN Trong thực tế, khi cơ sở dữ liệu (CSDL) không đáp ứng yêu cầu về độ lớn của các mô hình phân tích dữ liệu, giải pháp đƣợc chọn để giải quyết thƣờng là Bootstrap. Với đặc điểm tái tạo dữ liệu từ dữ liệu có sẵn sao cho tập dữ liệu mới vẫn giữ nguyên các tham số thống kê cơ bản nhƣ kỳ vọng (trung bình), trung vị, vv... , thuật toán Bootstrap đã thỏa mãn điều kiện về dừng thống kê. Điều này là cơ sở để áp dụng các thuật toán cực tiểu hóa hàm mục tiêu. Tại thời điểm bắt đầu giải quyết bài toán khôi phục dữ liệu điểm rèn luyện của sinh viên Đại học Thủ Dầu Một, tôi đã chọn tiếp cận Fuzzy Logic nhƣng chƣa thành công. Sau đó, vấn đề đƣợc khơi thông nhờ việc coi các điểm bị mất nhƣ là dữ liệu chƣa có. Bài toán khôi phục dữ liệu đƣợc chuyển thành bài toán tạo mới dữ liệu. Do đó, tại thời điểm đó về mặt trực giác, có thể áp dụng Bootstrap vào trƣờng hợp này. Để đánh giá đƣợc độ chính xác, tôi giả định một số điểm là điểm bị mất cần phục hồi. Thống kê độ sai lệch giữa điểm thực và điểm khôi phục sẽ là tiêu chí đánh giá, so sánh độ tin cậy của các giải pháp. Sau khi cài đặt Bootstrap trên Matlab, tôi tiến hành thực nghiệm trên bộ dữ liệu điểm rèn luyện của sinh viên lớp D14PM01 và đƣợc kết quả là độ chính xác trung bình đạt 72.59% Sau đó, tôi phát ra sự tƣơng đƣơng giữa việc tái tạo ngẫu nhiên một mẫu sao cho tham số thống kê không đổi của Bootstrap với việc tìm ra mẫu có độ tƣơng đồng cao nhất với mẫu cần khôi phục. Phát hiện này, sau đó đƣợc tôi biểu diễn dƣới dạng công thức (3.1) trong luận văn này. Theo hƣớng giải quyết này, tôi gặp vấn đề đó là điều kiện để tính đúng độ tƣơng đồng giữa hai bộ điểm rèn luyện của hai sinh viên. Khi áp dụng công thức tính độ tƣơng đồng thông qua tính cos  , tôi nhận ra là kết quả không chắc chắn đúng vì độ dài mỗi vector không đủ. iii
  6. Để giải quyết vấn đề này, tôi tham khảo bài toán tƣơng đƣơng của ngành tài chính. Với giải pháp sử dụng các bƣớc biến đổi Copula Gauss, các phần tử của vector đƣợc biểu diễn lại dƣới dạng phân bố cân đối của Copula Gauss. Do vậy có thể áp dụng công thức tính độ tƣơng đồng và cho kết quả tin cậy đƣợc. Để giảm bớt số phép tính, bƣớc cải tiến tiếp theo chúng tôi tiến hành tiền xử lý dữ liệu thông qua lọc ra nhóm các sinh viên có kết quả rèn luyện khá tƣơng đồng nhƣ sau: - Về độ lớn của điểm thông qua phân cụm Fuzzy C-means - Về độ bất định thông qua Entropy Sau đó, việc tìm bộ điểm có độ tƣơng đồng lớn nhất đƣợc thực hiện thông qua duyệt trong phạm vi những sinh viên trong nhóm sau lọc. Tại bƣớc thực nghiệm để so sánh, đánh giá, chúng tôi thực hiện trên cùng bộ dữ liệu với thực nghiệm trên Bootstrap và thu đƣợc kết quả là 87.41% , cao hơn so với kết quả áp dụng Bootstrap. Kết quả của nghiên cứu này sẽ đƣợc chúng tôi trình bày ở Hội nghị REV-ECIT2019 trong tháng 12 tới, bài báo đã đƣợc chấp nhận trình bày trong Hội nghị. iv
  7. MỤC LỤC LỜI CAM ĐOAN ……………………………………………………………...i LỜI CÁM ƠN…………………………………………………………………..ii TÓM TẮT LUẬN VĂN……………………………………………………….iii MỤC LỤC:……………………………………………………………………..iv DANH MỤC CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT………………viii DANH MỤC CÁC BẢNG……………………………………………………..ix DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ……………………………………x CHƢƠNG 1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU .......................... 1 1.1. Lý do chọn đề tài .......................................................................................... 1 1.2. Mục tiêu nghiên cứu .................................................................................... 2 1.3. Đối tƣợng và phạm vi nghiên cứu .............................................................. 2 1.4. Phƣơng pháp nghiên cứu ............................................................................ 3 1.5. Ý nghĩa khoa học và thực tiễn .................................................................... 3 1.6. Bố cục luận văn ............................................................................................ 3 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN . 5 2.1. Một số kiến thức cơ sở đƣợc sử dụng trong luận văn .............................. 5 2.1.1. Lý thuyết về Entropy thông tin ........................................................ 5 2.1.2. Lý thuyết về Fuzzy logic .................................................................... 8 2.1.3. Độ tƣơng đồng giữa 2 vector........................................................... 12 2.1.4. Lý thuyết Copula Gauss .................................................................. 13 2.2. Các nghiên cứu liên quan .......................................................................... 15 2.2.1. Phục hồi dữ liệu bằng Bootstrap .................................................... 16 v
  8. 2.2.2. Phục hồi dữ liệu bằng thuật toán đối sánh phù hợp (Matching pursuit algorithm): ..................................................................................... 18 2.2.3. Phục hồi dữ liệu bằng thuật toán đối sánh trực giao (Orthogonal matching pursuit): ...................................................................................... 20 2.3. Ứng dụng độ đo bất định Entropy và Fuzzy Logic cho bài toán dữ liệu điểm rèn luyện .................................................................................................... 20 2.3.1. Tổng quan về dữ liệu điểm rèn luyện ............................................ 20 2.3.2. Đánh giá điểm rèn luyện ................................................................. 21 2.3.3. Đánh giá về ý thức học tập .............................................................. 21 2.3.4. Phân loại kết quả rèn luyện ............................................................ 24 2.4. Các hƣớng tiếp cận .................................................................................... 26 2.4.1. Ứng dụng Entropy thông tin để phân nhóm dữ liệu .................... 26 2.4.2. Ứng dụng thuật toán phân cụm C-Mean cho bài toán tiền xử lý dữ liệu làm tiền để để ứng dụng Fuzzy logic khôi phục điểm ................ 26 2.4.3. Ứng dụng Fuzzy logic để phục hồi dữ liệu .................................... 27 2.5. Hƣớng đề xuất nghiên cứu ........................................................................ 31 CHƢƠNG 3 ỨNG DỤNG ĐO ĐỘ TƢƠNG ĐỒNG GIỮA 2 VECTOR VÀ ỨNG DỤNG CHUYỂN ĐỔI COPULA GAUSS ĐỂ GIẢI QUYẾT BÀI TOÁN .................................................................................................................. 33 3.1. Tổng quan về mô hình đề xuất ................................................................. 33 3.2. Các đặc trƣng của mô hình đề xuất ......................................................... 35 CHƢƠNG 4 THỰC NGHIỆM ......................................................................... 36 4.1. Dữ liệu ......................................................................................................... 36 4.2. Xử lý dữ liệu ............................................................................................... 36 4.3. Thực nghiệm ............................................................................................... 36 vi
  9. 4.4. Đánh giá ...................................................................................................... 48 CHƢƠNG 5 ẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.................................. 50 5.1. Kết quả đạt đƣợc ........................................................................................ 50 5.2. Hƣớng phát triển........................................................................................ 50 PHỤ LỤC ............................................................................................................ 51 TÀI LIỆU THAM HẢO ................................................................................. 57 vii
  10. DANH MỤC CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT STT Kí hiệu Ý nghĩa 1 OPM Orthogonal matching pursuit (Đối sánh trực giao) 2 NCKH Nghiên cứu khoa học 3 BCH Ban chấp hành 4 D14PM01 Đại học kỹ thuật phần mềm khóa 14 viii
  11. DANH MỤC CÁC BẢNG Bảng 2. 1 Bảng phân loại rèn luyện sinh viên trƣờng Đại học Thủ Dầu Một ..... 25 Bảng 2. 2 Kết quả ƣớc lƣợng sắp sỉ khi dùng Fuzzy ........................................... 27 Bảng 4. 1 Thực nghiệm với Bootstrap ................................................................. 37 Bảng 4. 2 Kết quả thực nghiệm tính độ tƣơng đồng 2 vector ............................. 41 Bảng 4. 3 Bảng kết quả ứng dụng chuyển đổi Copula Gauss dựa trên KQ lớn nhất ....................................................................................................................... 44 Bảng 4. 4 Kết quả thực nghiệm giữa 3 phƣơng pháp .......................................... 45 Bảng 4. 5 Kết quả thực nghiệm để đánh giá hiệu năng của Copula Gauss trên ½ dữ liệu còn lại ....................................................................................................... 48 ix
  12. DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 2. 1 Đồ thị Entropy của một phép thử Bernoulli đƣợc vẽ nhƣ một hàm số theo xác suất thành công (thƣờng gọi là hàm entropy nhị phân) [4] ..................... 6 Hình 2. 2 Mô tả Fuzzy logic [3] ............................................................................ 9 Hình 2. 3 Các bƣớc chuyển đổi các mẫu xi và yi sang biểu diễn Copulas Gauss .............................................................................................................................. 15 Hình 2. 4 Mô Phỏng Bootstrap ............................................................................ 16 Hình 2. 5 Mô Phỏng Thuật toán Bootstrap ......................................................... 18 Hình 2. 6 Mô tả tâm của các cụm ........................................................................ 27 Hình 2. 7 Hình mô tả Ứng dụng Fuzzy logic bị bế tắt và chuyển sang hƣớng nghiên cứu chuyển đổi Copula Gauss .................................................................. 31 Hình 3. 1 Lƣu đồ các bƣớc khôi phục điểm cho sinh viên .................................. 35 Biểu đồ 4. 1 Biểu đồ trực quan hóa so sánh thực nghiệm đạt đƣợc .................... 49 x
  13. CHƢƠNG 1 TỔNG QUAN 1.1. Lý do chọn đề tài Trong quá trình học tập của sinh viên tại trƣờng Đại học Thủ Một Tỉnh Bình Dƣơng nói riêng các cơ sở giáo dục đại học, cao đẳng nói chung có hai vấn đề tiên quyết đó chính là kết quả học tập và rèn luyện. Trong đó điểm rèn luyện của sinh viên có vai trò rất quan trọng trong đánh giá sinh viên bên cạnh điểm học tập, điểm này còn thể hiện quá trình rèn luyện, phấn đấu của sinh viên trong quá trình học tập và tham gia sinh hoạt cộng đồng. Đánh giá rèn luyện là một yêu cầu bắt buộc đối với sinh viên. Điểm rèn luyện là điểm đạt đƣợc khi đánh giá về phẩm chất chính trị, đạo đức, lối sống của sinh viên trên 05 tiêu chí đánh giá nhƣ sau: Đánh giá về ý thức tham gia học tập; Đánh giá về ý thức chấp hành nội quy, quy chế, quy định trong nhà trƣờng; Đánh giá về ý thức tham gia các hoạt động chính trị, xã hội, văn hóa, văn nghệ, thể thao, phòng chống tội phạm và các tệ nạn xã hội; Đánh giá về ý thức công dân trong quan hệ cộng đồng; Đánh giá về ý thức và kết quả tham gia công tác cán bộ lớp, các đoàn thể, tổ chức khác trong nhà trƣờng hoặc sinh viên đạt đƣợc thành tích đặc biệt trong học tập, rèn luyện. Điểm rèn luyện bao gồm 21 đầu điểm thành phần và đƣợc mô tả trong phần Phụ lục 1. Thực tế đƣa đến kịch bản là một số sinh viên bị mất vài điểm rèn luyện đã đƣợc chấm trƣớc đó lâu hơn hai năm. Do thời gian chấm quá lâu nên giảng viên không thể đánh giá lại. Do vậy, phòng Quản lý Sinh viên đặt ra yêu cầu về bài toán Phục hồi điểm rèn luyện từ những điểm đã có. Ban đầu, để giải quyết bài toán này, chúng tôi đã sử dụng một tiếp cận có sẵn, đó là áp dụng thuật toán Bootstrap. Tuy nhiên, thông qua kiểm định thống kê, chúng tôi khẳng định rằng mỗi đầu điểm có tƣơng quan với những đầu điểm khác. Do vậy chúng tôi giả thiết rằng điểm bị mất của sinh viên A sẽ tƣơng quan với điểm cùng loại của sinh viên B nếu những điểm còn lại của hai sinh viên này tƣơng quan với nhau (phụ lục 2). 1
  14. Vì số lƣợng điểm quá ít để tính độ tƣơng đồng giữa X và Y, do đó chúng tôi phải áp dụng Copulas Gauss cho vấn đề này. Điểm khôi phục sẽ đƣợc tính dựa trên kết quả tính độ tƣơng đồng lớn nhất. Để đánh giá độ chính xác, thực nghiệm đƣợc tiến hành trên bảng điểm thật. Việc mất điểm đƣợc giả định trên những điểm có thật. Sau đó điểm khôi phục đƣợc so sánh với điểm thật. Trên cơ sở việc đánh giá điểm rèn luyện, tôi đề ra mục tiêu nghiên cứu về phục hồi điểm rèn luyện của sinh viên trƣờng Đại học Thủ Dầu Một. 1.2. Mục tiêu nghiên cứu + Nghiên cứu các giải pháp phục hồi dữ liệu. + Phƣơng pháp tính Entropy thông tin cho một dãy số. + Ứng dụng Fuzzy logic cho việc phục hồi điểm rèn luyện + Cài đặt thuật toán Bootstrap phục hồi dữ liệu + Đánh giá mối tƣơng quan giữa các biến, các cụm biến. + Đề xuất cách phục hồi điểm rèn luyện dựa trên độ tƣơng đồng giữa hai vector + Ứng dụng chuyển đổi Copula Gauss để tính kỳ vọng của biến ngẫu nhiên trong điều kiện số mẫu nhỏ. Tính độ tƣơng đồng giữa hai vector thông qua chuyển đổi Copulas Gauss. 1.3. Đối tƣợng và phạm vi nghiên cứu Đối tƣợng nghiên cứu: Thuật toán tính xấp xỉ hệ số tƣơng quan. Lý thuyết Copula Gauss, bảng điểm rèn luyện của khóa D14PM01 - Đại học Kỹ thuật Phần mềm Trƣờng Đại học Thủ Dầu Một. Phạm vi nghiên cứu: Ứng dụng độ tƣơng đồng giữa hai biến ngẫu nhiên với số mẫu nhỏ để phục hồi điểm rèn luyện của sinh viên. 2
  15. 1.4. Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết tổng quan về phục hồi dữ liệu Ngôn ngữ lập trình Matlab Cài đặt, thực nghiệm để so sánh đánh giá các phƣơng pháp 1.5. Ý nghĩa khoa học và thực tiễn Dựa trên cơ sở về lý thuyết về Copula Gauss và để giải quyết vấn đề này tôi đề xuất phƣơng án đó là “Áp dụng phƣơng thức ƣớc lƣợng độ tƣơng đồng giữa hai biến ngẫu nhiên với số mẫu nhỏ để khôi phục điểm rèn luyện sinh viên trƣờng Đại học Thủ Dầu Một” cho luận văn của mình. Nhằm tìm ra điểm phục hồi của sinh viên có thể do giáo viên chấm chƣa đầy đủ qua quá trình lƣu giữ lâu năm khó có khả năng bổ sung lại đầy đủ và quá trình lƣu trữ do nhà kho bảo quản không đƣợc tốt dẫn đến ƣớt rách, mối mọt ăn mất bài thi, tài liệu. 1.6. Bố cục luận văn Ngoài phần mở đầu và tài liệu tham khảo, nội dung luận văn đƣợc trình bày trong 5 chƣơng Chƣơng 1 trình bày tổng quan về lĩnh vực nghiên cứu, mục tiêu, đối tƣợng , phƣơng pháp nghiên cứu Chƣơng 2 chia làm 2 phần chính. Phần 1 trình bày tổng quan về các hƣớng giải quyết bài toán khôi phục dữ liệu nhƣ Bootstrap, Đối sánh phù hợp, Đối sánh trực giao. Phần 2 tóm tắt lại các kiến thức mà chúng tôi sẽ tổ hợp lại thành công cụ mới để giải quyết bài toán Khôi phục điểm rèn luyện nhƣ entropy để đo độ bất định về điểm của sinh viên, độ tƣơng đồng giữa hai vector, Fuzzy Logic và Copula Gauss. Chƣơng 3 đề xuất áp dụng Copula Gauss vào giải quyết bài toán xác định độ tƣơng đồng giữa 2 vector trong điều kiện vector không đủ số phần tử cần thiết 3
  16. Chƣơng 4 dành để trình bày về các thực nghiệm để đánh giá, so sánh về độ chính xác giữa đề xuất trong chƣơng 3 với Bootstrap Chƣơng 5 Kết luận và hƣớng phát triển 4
  17. CHƢƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1. Một số kiến thức cơ sở đƣợc sử dụng trong luận văn 2.1.1. Lý thuyết về Entropy thông tin Khái niệm: Entropy thông tin là một khái niệm mở rộng của entropy trong nhiệt động lực học và cơ học thống kê sang cho lý thuyết thông tin [1]. Entropy thông tin mô tả mức độ hỗn loạn trong một tín hiệu lấy từ một sự kiện ngẫu nhiên. Nói cách khác, entropy cũng chỉ ra có bao nhiêu thông tin trong tín hiệu, với thông tin là các phần không hỗn loạn ngẫu nhiên của tín hiệu [1]. Khái niệm này lần đầu giới thiệu bởi Shanon trong [1]. Trƣớc đó von Neumann đã dùng đến công thức có entropy vào năm 1927. Định nghĩa Claude E. Shannon đã xây dựng định nghĩa về entropy nhƣ sau: ∑ () () (2.1) Trong đó  K là một hằng số, chỉ phụ thuộc vào đơn vị đo.  n là tổng số các giá trị có thể nhận của tín hiệu.  là xác suất xuất hiện của sự kiện thứ . Với định nghĩa entropy trong công thức (2.1) Shanon đã muốn entropy phải tỷ lệ thuận liên tục với các xác suất xuất hiện của các phần tử ngẫu nhiên trong tín hiệu. Thay đổi nhỏ trong xác suất phải dẫn đến thay đổi nhỏ trong entropy. 5
  18. Nếu các phần tử ngẫu nhiên đều có xác suất xuất hiện bằng nhau, việc tăng số lƣợng phần tử ngẫu nhiên phải làm tăng entropy. Có thể tạo các chuỗi tín hiệu theo nhiều bƣớc, và entropy tổng cộng phải bằng tổng có trọng số của entropy của từng bƣớc. Ngẫu nhiên rời rạc Hình 2. 1 Đồ thị Entropy của một phép thử Bernoulli đƣợc vẽ nhƣ một hàm số theo xác suất thành công (thƣờng gọi là hàm entropy nhị phân) [4] Nếu một sự kiện ngẫu nhiên rời rạc x, có thể nhận các giá trị là 1..n, thì entropy của nó là: ( ) ∑ () . / ∑ () () (2.2) () với p(i) là xác suất xảy ra của giá trị i. Nhƣ vậy, entropy của x cũng là giá trị mong đợi của các độ ngạc nhiên của các giá trị mà x có thể nhận. Entropy thông tin trong trƣờng hợp phần tử tín hiệu ngẫu nhiên rời rạc còn đƣợc gọi là entropy Shannon. Ngẫu nhiên liên tục 6
  19. Nếu x là số thực ngẫu nhiên liên tục, thì định nghĩa entropy có thể đƣợc biểu diễn là: , - ∫ ( ) ( ) (2.3) với f là hàm mật độ xác suất. Định nghĩa này thƣờng đƣợc gọi là entropy Boltzmann hay entropy liên tục, hay entropy vi phân. Có thể chứng minh rằng entropy Boltzmann không phải là giới hạn của entropy Shannon khi n → ∞ và do đó không phải là độ đo mức độ hỗn loạn của thông tin. Ví dụ Một dòng chữ luôn chỉ có các ký tự "a" sẽ có entropy bằng 0, vì ký tự tiếp theo sẽ luôn là "a". Một dòng chữ chỉ có hai ký tự 0 và 1 ngẫu nhiên hoàn toàn sẽ có entropy là 1 bit cho mỗi ký tự. Một dòng chữ tiếng Anh thông thƣờng có entropy khoảng 1,1 đến 1,6 bit cho mỗi ký tự. Thuật toán nén PPM có thể tạo ra tỷ lệ nén 1,5 bit cho mỗi ký tự. Trên thực tế, tỷ lệ nén của các thuật toán nén thông dụng có thể đƣợc dùng làm ƣớc lƣợng cho entropy của dữ liệu. Entropy của dòng văn bản thuần thƣờng đƣợc định nghĩa dựa trên mô hình Markov. Nếu các ký tự tiếp theo hoàn toàn độc lập với các ký tự trƣớc đó, entropy nhị phân sẽ là: ( ) ∑ (2.4) với pi là xác suất của sự kiện thứ i. 7
  20. Chúng tôi nhân ra là các sinh viên có cùng đồng thời cả về mức điểm và độ bất về điểm thì những điểm thành phần cũng rất giống nhau. Do vậy, trong luận văn này, chúng tôi định sử dụng độ đo entropy là tiêu chí để nhóm các sinh viên có cùng độ bất định về điểm 2.1.2. Lý thuyết về Fuzzy logic Theo [2,3], trong logic cổ điển (logic vị từ cấp một), một mệnh đề phân tử P(x) là một phát biểu có dạng: x là P (2.5) Trong đó x là kí hiệu một đối tƣợng nằm trong một tập các đối tƣơng nào đó ( hay nói cách khác, x là một giá trị trên miền U), còn P là một tính chất nào đó của các đối tƣợng trong miền U. Chẳng hạn, các mệnh đề “n là số nguyên tố”, “x là ngƣời Ấn độ” Trong các mệnh đề của logic kinh điển, tính chất P cho phép ta xác định một tập con rõ A của u sao cho x ∈ a nếu và chỉ nếu x thõa mãn tính chất của P. Chẳng hạn, tính chất “ là số nguyên tố” xác định một tập con rõ của tập tất cả con số nguyên, đó là tập tất cả các số nguyên tố. Nếu chúng ta kí hiệu Truth(P(x)) là giá trị chân lý của mệnh đề rõ thì : Truth(P(x)) = ( ) (2.6) Trong đó, ( )là hàm đặc trƣng của tập rõ a, tập A đƣợc xác định bởi một tính chất P Một mệnh đề mờ phân tử cũng có dạng tƣơng tự nhƣ (2.5), chỉ có điều ở đây P không phải là một tính chất chính xác, mà là một tính chất không rõ ràng, mờ. Chẳng hạn, các mệnh đề “ tốc độ nhanh”, “áp suất là cao”, “ nhiệt độ là thấp”,… là các mệnh đề mờ. Chúng ta có định nghĩa sau. Một mệnh đề mờ phân tử có dạng : x là t (2.7) 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2