Đặc trưng thống kê và hồi quy với dữ liệu khoảng
lượt xem 3
download
Bài viết trình bày một số đặc trưng thống kê và áp dụng trong phân tích tương quan và hồi quy trên các biến ngẫu nhiên nhận giá trị khoảng. Để hiểu rõ hơn, mời các bạn tham khảo chi tiết nội dung bài viết này.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Đặc trưng thống kê và hồi quy với dữ liệu khoảng
- KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN 21. ĐẶC TRƯNG THỐNG KÊ VÀ HỒI QUY VỚI DỮ LIỆU KHOẢNG ThS. Nguyễn Văn Phong* Tóm tắt Bài viết trình bày một số đặc trưng thống kê và áp dụng trong phân tích tương quan và hồi quy trên các biến ngẫu nhiên nhận giá trị khoảng có dạng . Từ khóa: Dữ liệu khoảng, đặc trưng thống kê, hồi quy với dữ liệu khoảng 1. Giới thiệu Hiện nay, trong phân tích dữ liệu, chúng ta thường đối diện với các dữ liệu không chính xác (dữ liệu nhiễu), điều này xảy ra bởi nhiều nguyên nhân khác nhau như: đo lường, quá trình tính toán, các phương pháp ước lượng dữ liệu… Do đó, việc nghiên cứu trên các loại dữ liệu mà giá trị của chúng cho phép giao động trên một khoảng được đề cập trong nhiều tài liệu và cũng được các tác giả quan tâm, nghiên cứu áp dụng trong nhiều lĩnh vực khác nhau. Chẳng hạn như khi nghiên cứu về giá cổ phiếu trên thị trường chứng khoán, chúng ta nghiên cứu dựa trên giá mở cửa và giá đóng cửa của cổ phiếu đó; hay nghiên cứu về sự thay đổi nhiệt độ của một khu vực trong phạm vi thời gian; hay các dữ liệu liên quan đến nhịp tim và huyết áp… Các loại dữ liệu này thường được biểu diễn dưới dạng và trong đó là biến ngẫu nhiên có phân phối xác xuất. Việc nghiên cứu trên các loại dữ liệu này giúp chúng ta có thể kiểm soát được sai số trong các bài toán được chặc chẽ hơn và tránh gây ra hiện tượng mất thông tin. Chẳng hạn như nghiên cứu về nhiệt độ hàng ngày tại một khu vực nếu dữ liệu được đo đạc theo phạm vi biến động của nó trong cả ngày, chắc chắn sẽ cung cấp nhiều thông tin hơn đối với trường hợp trong đó một giá trị được đo đạc đơn lẻ. Những lý do trên đã thúc đẩy sự phát triển của các phương pháp phân tích thống kê mới để xử lý các biến có giá trị theo khoảng. Đối với dữ liệu khoảng có dạng , chúng ta cũng đã xây dựng các bài toán liên quan đến ước lượng, kiểm định cho các tham số như trung bình , phương sai và tỷ lệ , bằng cách xét điểm đại diện (điểm giữa: ) trên từng khoảng của dữ liệu. * Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing 173
- KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Bằng cách tiếp cận tương tự, nhưng thay vì chỉ xét trên một giá trị duy nhất của dữ liệu, trong bài viết này sẽ trình bày một vài kết quả liên quan đến các đặc trưng thống kê, cũng như áp dụng trong phân tích tương quan và hồi quy đối với dữ liệu khoảng có dạng 2. Một số kết quả Trong phần này, để trình bày các kết quả liên quan đến các đặc trưng thống kê cũng như trong phân tích tương quan và hồi quy, chúng ta xét biến ngẫu nhiên có giá trị khoảng có dạng: . Khi đó, các đặt trưng thống kê như: trung bình, phương sai và độ lệch chuẩn được xác định như sau: i) Trung bình: ii) Độ lệch từ một điểm đến trung bình: và iii) Phương sai: Để xác định phương sai trên dữ liệu khoảng, trước tiên với biến ngẫu nhiên , với trung bình , ta có: Khi đó, với , iv) Hiệp phương sai và hệ số tương quan: Với , ta có: Xét Đặt , ta có: 174
- KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Trong đó: Hệ số tương quan giữa và được xác định như sau: Trong đó: v) Hồi quy đơn với dữ liệu khoảng Giả sử với lần lượt là biến độc lập và phụ thuộc: Hình 1. Mô tả quan hệ giữa hai dữ liệu khoảng Khi đó, mô hình hồi quy ước lượng của phụ thuộc vào có dạng: Trong đó: 175
- KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN với: vi) Ví dụ số Ví dụ 1: Để mô tả cho các kết quả trên, xét bảng số liệu sau: Đối tượng 1 0.93, 0.94 -27, -18 170, 204 118, 196 2 0.93, 0.94 -5, -4 192, 208 188, 197 3 0.92, 0.92 -6, -1 99, 113 198, 198 4 0.92, 0.93 -6, -4 104, 116 187, 193 5 0.92, 0.92 -21, -15 80, 82 189, 193 6 0.91, 0.92 0, 6 79, 90 187, 196 7 0.86, 0.87 30, 38 40, 48 190, 199 8 0.86, 0.86 22, 32 53, 77 190, 202 Khi đó, áp dụng các kết quả trên ta có: Trung bình: Phương sai: Độ lệch chuẩn: Ma trận hiệp phương sai: Ma trận tương quan: 176
- KỶ YẾU HỘI THẢO KHOA HỌC ĐỔI MỚI GIẢNG DẠY MÔN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ ỨNG DỤNG CHO SINH VIÊN KHỐI NGÀNH KINH TẾ, QUẢN TRỊ KINH DOANH VÀ CÁC VẤN ĐỀ LIÊN QUAN Ví dụ 2: Xét bộ số liệu sau: Đối tượng X Y 1 [90, 100] [44, 68] 2 [90, 130] [60, 72] 3 [140, 180] [56, 90] 4 [110, 142] [70, 112] 5 [90, 100] [54, 72] 6 [130, 160] [70, 100] 7 [60, 100] [63, 75] 8 [130, 160] [72, 100] 9 [110, 190] [76, 98] 10 [130, 180] [86, 96] 11 [110, 150] [86, 100] Giả sử rằng: Y . Khi đó, ta có kết quả hồi quy như sau: 3. Kết luận Bài viết giới thiệu một cách tiếp cận nghiên cứu trên các biến có giá trị theo khoảng, nhằm khắc phục các vấn đề về sai số cũng như tổng hợp thông tin trên các đối tượng. Công cụ này cũng hữu dụng trong việc nghiên cứu các dữ liệu liên quan đến các lĩnh vực như: dữ liệu tài chính; dữ liệu về sự hài lòng của khách hàng, hay trong nghiên cứu về giới hạn dung sai trong kiểm soát chất lượng; khoảng tin cậy của các ước tính từ các cuộc khảo sát mẫu… Tuy nhiên, việc tính toán trên các dữ liệu khoảng khá phức tạp đòi hỏi các công cụ như Đại số trên các tập mà các phần tử nhận giá trị trên một khoảng; giải quyết các bài toán tối ưu cho các hàm. Trong giới hạn của bài viết này, tác giả không phát biểu và nêu ra các công cụ đó, cũng như các tính toán chi tiết. Người đọc quan tâm có thể tìm hiểu và phát triển lĩnh vực này trong các tài liệu tham khảo được tác giả sử dụng. TÀI LIỆU THAM KHẢO 1. Billard L., Diday E. (2000), Regression Analysis for Interval-Valued Data. In: Data Analysis, Classification and Related Methods (eds. H.-H. Bock and E. Diday), Springer, pp. 103 - 124. 2. Moore R.E. (1966), Interval Analysis, Prentice-Hall, Series in Automatic Computation. 3. F. Gioia, CN Lauro (2005), Basic statistical methods for interval data, Statistica applicata. 4. Bock H. -H. Diday E. (2000), Analysis of Symbolic Data, Springer. 5. Alefeld G., Herzberger J. (1983), Introduction to Interval Computations, Computer Science and Applied Mathematics. 177
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Giáo trình Lý thuyết thống kê - ĐH Kinh tế Tp.HCM
167 p | 1551 | 337
-
Bài Giảng : Thống kê trong nghiên cứu xã hội
216 p | 1022 | 297
-
Toán kinh tế - Thống kê 2008 part 1
10 p | 596 | 275
-
Giáo trình Thống kê sinh học: Phần 2
66 p | 164 | 44
-
Bài giảng về KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
49 p | 180 | 43
-
Giáo trình Nguyên lý thống kê - ThS. Đinh Thái Hà
53 p | 223 | 38
-
Bài giảng Xác suất và thống kê - ThS. Đoàn Vương Nguyên
22 p | 107 | 11
-
Bài giảng Xác suất thống kê: Phần 2 - Trường CĐ Cộng đồng Đồng Tháp
53 p | 32 | 7
-
Giáo trình Xác suất thống kê (Giáo trình Cao đẳng sư phạm): Phần 2
136 p | 36 | 5
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 6 - ĐH Thăng Long
151 p | 101 | 5
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 5.2 - Ngô Thị Thanh Nga
39 p | 90 | 5
-
Bài giảng Xác suất thống kê và ứng dụng trong kinh tế xã hội: Chương 5.3 - Nguyễn Thị Nhung
89 p | 94 | 5
-
Viện Khoa học Thống kê: Tầm nhìn đến năm 2030
4 p | 67 | 4
-
Đề cương học phần Xác suất thống kê
10 p | 12 | 4
-
Vai trò của thống kê cấp huyện đối với các cuộc điều tra thống kê
9 p | 40 | 3
-
Giáo trình nội bộ Xác suất thống kê: Phần 2
77 p | 24 | 2
-
Các đặc trưng cơ bản của hệ thống thống kê hiệu quả
14 p | 36 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn