Bài giảng Mô hình khác biệt kép Lê Việt Phú: Tổng quan và ứng dụng

Mô hình Khác biệt Kép (Difference-in-Difference Method)

Kinh tế lượng ứng dụng

Lê Việt Phú Chương trình Giảng dạy Kinh tế Fulbright

1 / 19

Ngày 16 tháng 5 năm 2015

Ôn tập lý thuyết

Khung phân tích DiD

Phương pháp DiD - Mở rộng

2 / 19

Thực hành

Ôn tập lý thuyết

3 / 19

Các phương pháp với dữ liệu khác nhau:

Ôn tập lý thuyết (2)

(cid:73) Bản chất của đánh giá tác động của chính sách là ước lượng phản thực E[Y0|T = 1] bằng các phương pháp khác nhau.

(cid:73) Dữ liệu điều tra ngẫu nhiên: phản thực chính là nhóm kiểm

(cid:73) Dữ liệu bán thực nghiệm: sử dụng thiết kế của chính sách để tìm cách ướng lượng phản thực. Tuỳ thuộc vào việc có quan sát được nhân tố quyết định tham gia chính sách hay không.

4 / 19

soát, E[Y0|T = 1] = E[Y0|T = 0].

Ước lượng điểm Xu hướng (Selection on Observables)

Mô hình việc tham gia chính sách để tạo nhóm đối chứng dựa vào những đặc tính quan sát được:

(cid:73) Độc lập có điều kiện: Y 1

P(T = 1|Xi ) = f (X1, X2, ..., Xk )

i ⊥ Ti |Xi đảm bảo việc tham gia chương trình là ngẫu nhiên sau khi đã kiểm soát các khác biệt về đặc tính của hộ tham gia. Điều kiện này đảm bảo việc diễn giải tác động của tham gia chính sách là tác động nhân quả.

(cid:73) Có vùng hỗ trợ chung: 0 < P(Ti = 1|Xi ) < 1 đảm bảo tìm được nhóm đối chứng có các đặc tính giống với nhóm tham gia.

Các giả định để đảm bảo ước lượng được nhóm đối chứng: i , Y 0

5 / 19

Kết hợp hai điều kiện trên thì PSM sẽ tìm ra nhóm đối chứng E[Y0|T = 1] dựa vào xác suất tham gia chương trình, để từ đó tính được tác động nhân quả của chính sách.

Khung phân tích của phương pháp DiD

(cid:73) Giả định song song (parallel assumption): Nếu không có

Nếu nhân tố quyết định tham gia chính sách không quan sát được ⇒ lựa chọn dựa vào biến không quan sát được (selection on unobservables). Không sử dụng được phương pháp PSM.

0 |T = 1]. (cid:73) Giả định này nới lỏng hơn rất nhiều so với giả định nhóm kiểm soát tương đồng với nhóm tham gia trong phương pháp mẫu ngẫu nhiên bởi nó cho phép sử dụng nhóm tham gia và nhóm kiểm soát có khác biệt về các thuộc tính, kể cả các thuộc tính không quan sát được có thể ảnh hưởng đến lựa chọn tham gia chương trình (unobserved heterogeneity).

(cid:73) Chúng ta sẽ nghiên cứu tình huống phức tạp hơn khi giả định

song song bị vi phạm.

6 / 19

chương trình thì thay đổi kết quả của nhóm tham gia (T) và nhóm kiểm soát (C) là như nhau. Khi này có thể sử dụng nhóm kiểm soát E[Y C |T = 1] để xây dựng nhóm đối chứng E[Y T

Khung phân tích của phương pháp DiD

7 / 19

Khung phân tích của phương pháp DiD (2)

Ước lượng tác động bằng hồi quy:

Yi = β0 + β1 ∗ Ti + β2 ∗ Year + β3 ∗ (T × Year ) + β4 ∗ Xi + εi (1)

(cid:73) T là biến trạng thái tham gia chính sách (cid:73) Year là biến thời gian trước và sau khi thực hiện chính sách (cid:73) Xi là các đặc tính của hộ gia đình (tạm thời bỏ qua)

Trong đó:

β3 là ước lượng ATT của việc tham gia chương trình:

Year = 0

8 / 19

Year = 1 Y = β0 + β2 T=0 Y = β0 T=1 Y = β0 + β1 Y = β0 + β1 + β2 + β3 (cid:52)Y β2 β2 + β3 DiD = β3

Khung phân tích của phương pháp DiD (3)

(cid:73) Dùng dữ liệu gộp (pooled regression): gộp các quan sát qua nhiều năm của các hộ gia đình thành một bảng dữ liệu chéo (repeated cross-sectional data).

(cid:73) DiD cũng có thể áp dụng với dữ liệu chéo (chỉ có một năm quan sát duy nhất đối với tất cả các hộ gia đình), tuy nhiên rất hiếm khi được sử dụng do thiếu tính tin cậy.

9 / 19

Hình thức ước lượng DiD đơn giản nhất:

Phương pháp DiD - Mở rộng

(cid:73) DiD có tính đến điều kiện ban đầu:

(cid:73) Ước lượng tác động cố định sử dụng dữ liệu bảng (panel data

Nếu điều kiện ban đầu ảnh hưởng đến giả định song song ⇒ hồi quy với tung độ gốc và hệ số góc thay đổi.

(cid:73) FE vs RE:

with fixed effects) Sử dụng dữ liệu bảng có thể kiểm soát được các yếu tố không quan sát được (ví dụ như IQ, tố chất cá nhân) không thay đổi theo thời gian nhưng có ảnh hưởng đến kết quả.

(cid:73) DiD kết hợp với PSM:

Dữ liệu bảng cho phép sử dụng nhiều giả định khác nhau về yếu tố không quan sát được có thể ảnh hưởng đến chương trình.

10 / 19

Sử dụng PSM để lọc các quan sát có độ tương đồng cao trước khi sử dụng DiD để tính tác động của chương trình.

So sánh các phương pháp đã học

Randomization PSM DiD Giả định

Dữ liệu

Tác động

Ưu điểm

11 / 19

Nhược điểm

Thực hành

(cid:73) data file STATA hh_9198.dta (cid:73) STATA dd.do file

(cid:73) Dữ liệu dạng bảng Nxt = 826x2: 826 hộ gia đình, mỗi hộ có

Nghiên cứu cấu trúc file hh_9198.dta

(cid:73) Bảng dọc (long format)

quan sát trước (t=0) và sau (t=1) khi thực hiện chương trình.

(cid:73) Các kỹ thuật xử lý và chuyển đổi rất quan trọng đối với dữ

HHid Year Village Treatment Yi Xi x10 x11 x20 x21 ... y T 0 y T 1 y C 0 y C 1 ... ... ... ... ... ... 1 1 2 2 ... 0 1 0 0 ... 0 1 0 1 ...

12 / 19

liệu bảng!

Thực hành (2) - Hồi quy dữ liệu gộp (pooled regression, repeated cross-sectional data)

Để ước lượng được phương trình hồi quy (1) bằng phương pháp gộp dữ liệu, cần tạo biến tương tác T × Year :

(cid:73) reg Y Year T (Year ∗ T ) Xi ⇒ Ước lượng chênh lệch trung bình giữa nhóm có và không tham gia chính sách, có kiểm soát sự ảnh hưởng của các nhân tố khác.

(cid:73) Lợi ích của hồi quy dữ liệu gộp là thực hiện đơn giản, không yêu cầu dữ liệu bảng phải cân bằng (mỗi hộ gia đình đều có quan sát ở tất cả các thời kỳ). Tuy nhiên, nếu dữ liệu bị thiếu một cách hệ thống (non-random missing values) thì việc ước lượng có thể bị chệch.

13 / 19

HHid Year Village Treatment T × Year Yi Xi x10 x11 x20 x21 ... y T 0 y T 1 y C 0 y C 1 ... 0 1 0 0 ... ... ... ... ... ... 1 1 2 2 ... 1 1 0 0 ... 0 1 0 1 ...

Thực hành (3) - Hồi quy dữ liệu bảng với tác động cố định - Panel data with fixed effects

(cid:73) xtreg Y Year T (Year ∗ T ) Xi , fe i(id) id là mã hộ gia đình.

Khác với hồi quy dữ liệu gộp, hồi quy dữ liệu bảng cho phép tách được ảnh hưởng của khác biệt không quan sát được nhưng không thay đổi theo thời gian (time invariant unobserved heterogeneity). Ví dụ tố chất cá nhân không thay đổi theo thời gian, và có thể có ảnh hưởng đến quyết định tham gia chương trình cũng như kết quả chương trình. Hình thức ước lượng thứ nhất:

Mô hình FE ước lượng phương trình hồi quy sau:

14 / 19

Yi = β0 +β1 ∗Ti +β2 ∗Year +β3 ∗(Ti ×Yeari )+β4 ∗Xi +ηi +εi (2) ηi là tác động cố định của mỗi hộ gia đình i, không quan sát được.

Thực hành (4) - Hồi quy dữ liệu bảng với tác động cố định - Panel data with fixed effects

(cid:73) areg Y Year T (Year ∗ T ) Xi , a(id) (cid:73) reg Y Year T (Year ∗ T ) Xi i.id

Các lệnh khác có kết quả tương tự như FE bằng cách tạo một biến giả cho mỗi hộ gia đình để ước lượng tác động cố định và dùng phương pháp LSDV:

(cid:73) Hồi quy sử dụng sai biệt của các biến số của phương trình (2): Lấy sai biệt của các biến trong phương trình (2) qua thời gian đối với từng hộ gia đình (lẫy dữ liệu năm sau trừ đi dữ liệu năm trước), khi đó tác động cố định và tung độ gốc sẽ bị trừ khử, và bản chất là chúng ta ước lượng mô hình sau bằng OLS:

Hình thức ước lượng thứ hai:

(cid:73) Sử dụng lệnh reg dY dT dInteraction dXi với các sai biệt

∆Yi = β2 + β1 ∗ ∆Ti + β3 ∗ ∆(Ti × Yeari ) + β4 ∗ ∆Xi + µi (3)

15 / 19

được tạo ra.

Thực hành (5) - DiD có tính đến điều kiện ban đầu

Giả định song song hàm ý các nhân tố phi chính sách không quan sát được ảnh hưởng đến nhóm tham gia và nhóm kiểm soát không thay đổi theo thời gian (time-invariant selection bias). Nếu giả định song song bị vi phạm ⇒ có thể dẫn đến ượng lượng chệch trên hoặc dưới:

(cid:73) Ví dụ tốc độ tăng trưởng thu nhập của nhóm tham gia lớn hơn

nhóm kiểm soát ⇒ DiD chệch dưới (ước lượng thấp hơn thực tế) và ngược lại.

16 / 19

Thực hành (6) - DiD có tính đến điều kiện ban đầu

Tương tự như ước lượng sử dụng sai biệt của các biến số, nhưng kiểm soát thêm điều kiện ban đầu Xi trong cùng một phương trình hồi quy:

∆Yi = β2+β1∗∆Ti +β3∗∆(Ti ×Yeari )+β4∗∆Xi +β5 ∗ Xi+µi (4)

17 / 19

Sử dụng lệnh reg dY dT dInteraction dXi Xi với các sai biệt được tạo ra và điều kiện ban đầu (quan sát Xi tại thời điểm Year = 0).

Thực hành (7) - DiD kết hợp với PSM

(cid:73) Ôn tập: PSM tìm ra nhóm phản chứng dựa vào các đặc tính quan sát được và loại bỏ những quan sát nằm ngoài vùng hỗ trợ.

(cid:73) Kết hợp PSM và DiD sẽ mạnh hơn là chỉ sử dụng DiD.

(cid:73) Bước 1: Lọc các hộ gia đình nằm trong vùng hỗ trợ chung

Các bước thực hiện:

(cid:73) Chạy chương trình pscore (cid:73) Kiểm tra cho đến khi điều kiện cân bằng được đảm bảo (cid:73) Lọc các quan sát đảm bảo điều kiện cân bằng và bỏ các quan

sát nằm ngoài vùng hỗ trợ chung

(cid:73) Bước 2: Tạo bộ dữ liệu chỉ với các quan sát nằm trong vùng

bằng cách ước lượng xác suất tham gia chương trình (điểm xu hướng) dựa trên điều kiện ban đầu. Lưu ý là nếu dữ liệu là dạng dài (long format) thì cần phải chuyển đổi thành dạng rộng (wide format).

18 / 19

hộ trợ chung và sử dụng các phương pháp ước lượng DiD trên mẫu dữ liệu đã chọn lọc này.

Thực hành (8) - Thực hành DiD kết hợp với PSM

Bước 1: Cần thiết tạo dữ liệu chéo (wide format) từ dữ liệu bảng (long format) sao cho với mỗi quan sát thì biến tham gia chính sách T được tính tại thời điểm Year = 1, Xi là đặc tính hộ gia đình thời điểm Year = 0:

pscore T Xi , pscore(myscore) blockid(myblock) comsup keep if myblock! = . keep id sort id

Bước 2:

19 / 19

merge id using master .dta keep if _merge == 3 drop merge gen Interact = T ∗ Year xtreg income T Year Interact Xi , fe i(id)