CÁC PHƯƠNG PHÁP XẾP HẠNG THUỘC TÍNH
1. CHỈ SỐ GINI VÀ ĐƯỜNG CONG LORENZ
2. PHƯƠNG PHÁP 2 BIẾN SỐ
ĐƯỜNG CONG LORENZ
• Đường cong Lorenz là một loại đồ thị dùng để biểu
diễn mức độ bất bình đẳng trong phân phối.
• Là sự biểu diễn bằng hình học của hàm phân bố tích
lũy, chỉ ra quan hệ giữa tỷ lệ phần trăm của một giá trị thể hiện qua trục tung với tỷ lệ phần trăm của một giá trị khác thể hiện qua trục hoành.
Đường cong Lorenz
Đường màu xanh lá cây hợp với trục hoành thành một góc 45° gọi là đường bình đẳng tuyệt đối. Mỗi điểm trên đường này thể hiện tỷ lệ phần trăm số hộ gia đình đúng bằng tỷ lệ phần trăm thu nhập. Đường màu xanh da trời được gọi là đường bất bình đẳng tuyệt đối. Mỗi điểm trên đường này thể hiện tỷ lệ phần trăm số hộ gia đình không có thu nhập hoặc tỷ lệ phần trăm số hộ gia đình chiếm toàn bộ tổng thu nhập.
Ưu điểm của đường cong Lorenz
• Thể hiện trực quan: Dễ thấy mức độ bất bình đẳng trong phân phối thu nhập
• Nghiên cứu sự phân bố thu nhập, chỉ ra tỷ lệ phần trăm số hộ gia đình hay dân số trong tổng số và tỷ lệ phần trăm thu nhập của họ trong tổng thu nhập.
Hạn chế của đường cong Lorenz
HỆ SỐ GINI
• Hệ số Gini dùng để biểu thị độ bất bình đẳng trong phân phối thu nhập. Nó có giá trị từ 0 đến 1 và bằng tỷ số giữa phần diện tích nằm giữa đường cong Lorenz và đường bình đẳng tuyệt đối với phần diện tích nằm dưới đường bình đẳng tuyệt đối.
HỆ SỐ GINI
HỆ SỐ GINI
• Nếu G = 0: Thể hiện độ bình đẳng tuyệt đối • Nếu G = 1: Thể hiện độ bất bình đẳng tuyệt
đối
• Nếu G gần 0: Độ bất bình đẳng là nhỏ • Nếu G gần 1: Độ bất bình đẳng là lớn
Nhận xét
• Nếu sử dụng phương pháp chỉ số Gini ta có
thể độ không đồng nhất của một tập dữ liệu D
• Sau khi tính toán hệ số Gini cho mỗi tập dữ
liệu. Tập dữ liệu nào có hệ số Gini nhỏ hay độ không đồng nhất của tập dữ liệu đó là nhỏ thì sẽ xếp cao hơn
Phương pháp 2 biến số
• Giả sử thuộc tính X = {x1, …, xn} • Giả sử thuộc tính Y = {y1, …, yn} • Gọi (Xi, Bj) là sự kiện đồng thời X = xi, Y = yj
Phương pháp 2 biến số
• Phương pháp này giống như thông tin tương
hỗ (mutual information)
• Tìm ra xác suất kết hợp giữa 2 biến số X và Y
nếu X và Y xảy ra đồng thời:
Phương pháp 2 biến số
• p(x, y) – Hàm phân bố xác xuất kết hợp • p1(x), p2(y) – Hàm mật độ xác xuất của X và Y
•Nếu I(X; Y) càng lớn hơn 0 thì X và Y có mối quan hệ với nhau càng lớn •Nếu I(X; Y) càng gần 0 thì X và Y không có mối quan hệ gì với nhau •Nếu I(X; Y) càng nhỏ so với 0 thì X và Y càng có ít mối quan hệ
Ví dụ:
• Nhóm 1 (20% dân số nghèo nhất) chiếm 7% thu nhập • Nhóm 2 (20% dân số tiếp theo) chiếm 12% thu nhập • Nhóm 3 (20% dân số tiếp theo) chiếm 15% thu nhập • Nhóm 4 (20% dân số tiếp theo) chiếm 22% thu nhập • Nhóm 5 (20% dân số tiếp theo) chiếm 34% thu nhập
Câu hỏi: Hãy vẽ đường cong Lorenz và tính hệ số Gini G?
Lời giải
% dân số % thu nhập Population Lorenz curve Perfect equality Perfect inequality
0 0 0 0
20 7 20 0 20 7
60
34
60
0
20
15
40 19 40 0 20 12
80 56 80 0 20 22
100 100 100 0 20 44
Lời giải
Hệ số Gini:
G = 1 – 2×0.2(0.07 + 0.19 + 0.34 + 0.56 + 1/2) = 0.336