Bản chất của biến giả - Biến giả cho sự thay đổi 
trong hệ số chặn
 Biến giả cho sự thay đổi trong hệ số góc
 Biến giả và Kiểm định tính ổn định cấu trúc của mô 
hình
 Hồi qui tuyến tính từng khúc
 Biến phụ thuộc là biến giả
 Mô hình xác suất tính tuyến tính (LPM)
 Mô hình Probit và Logit
              
                                            
                                
            
 
            
                 36 trang
36 trang | 
Chia sẻ: lelinhqn | Lượt xem: 1522 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang nội dung tài liệu HỒI QUI VỚI BIẾN GIẢ VÀ BIẾN BỊ CHẶN, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỒI QUI VỚI BIẾN GIẢ VÀ BIẾN BỊ CHẶN
 Bản chất của biến giả - Biến giả cho sự thay đổi 
trong hệ số chặn
 Biến giả cho sự thay đổi trong hệ số góc
 Biến giả và Kiểm định tính ổn định cấu trúc của mô 
hình
 Hồi qui tuyến tính từng khúc
 Biến phụ thuộc là biến giả
 Mô hình xác suất tính tuyến tính (LPM)
 Mô hình Probit và Logit
 Biến bị chặn: mô hình Tobit
Bản chất của biến giả - Biến giả cho sự thay 
đổi trong hệ số chặn
Trong phân tích hồi qui, có 2 loại biến chính: biến định 
lượng và biến định tính.
 Các biến định lượng: giá trị của những quan sát đó 
là những con số. 
 Biến định tính thường biểu thị có hay không có một 
tính chất hoặc biểu thị các mức độ khác nhau của 
một tiêu thức thuộc tính nào đó, chẳng hạn như 
giới tính, tôn giáo, chủng tộc, nơi cư trú, …
 Những biến định tính này cũng có sự ảnh hưởng 
đối với biến phụ thuộc và phải được đưa vào mô 
hình hồi quy.
Bản chất của biến giả - Biến giả cho sự thay 
đổi trong hệ số chặn
 Biến giả (D) thường có 2 giá trị:
 D = 1: nếu quan sát có một thuộc tính nào đó, và
 D = 0: nếu không có thuộc tính đó.
 Biến giả cũng được đưa vào mô hình hồi 
quy giống như một biến định lượng, 
 Chúng được dùng để chỉ sự khác biệt giữa 2 
nhóm quan sát: có và không có một thuộc 
tính nào đó.
Bản chất của biến giả - Biến giả cho sự thay 
đổi trong hệ số chặn
 Ví dụ: giả sử ta muốn xem có sự khác biệt nào 
không về tiền công giữa nam và nữ với những điều 
kiện về công việc như nhau.
 Hàm hồi quy ngẫu nhiên cho một quan sát:
wagei = 0 + 1Di + ’X + ui,
Trong đó D là biến giả về giới tính: D = 1 nếu là nam 
và 0 nếu là nữ; X là vector chỉ những đặc điểm cá 
nhân và công việc.
 Nếu D=1: wagei = 0 + 1 + ’X + ui,
 Nếu D=0: wagei = 0 + ’X + ui,
 Vậy hệ số 1 đo lường sự khác biệt của hệ số 0
giữa nhóm nam và nữ. 
 Biến giả cho sự thay đổi trong hệ số chặn 
(hệ số tự do)
 
 
y
x
Hình 7.1 Đường hồi qui với hệ số góc giống nhau 
và hệ số chặn khác nhau
Wagei = 0 + 1 + ’X + ui
Wagei = 0 + ’X + ui
 Nếu biến định tính được chia ra m nhóm, chúng ta 
phải sử dụng (m -1) biến giả.
 Ví dụ: Ta có thể chia trình độ học vấn thành các 
cấp học: 1) cấp một trở xuống, 2) cấp hai, 3) cấp 
ba và 4) cao hơn.
 để so sánh tiền công của những người lao động 
có các trình độ học vấn khác nhau, ta dùng 3 
biến giả: D1: cấp hai; D2: cấp ba và D3: cấp học 
cao hơn.
 Các hệ số ước lượng của D1; D2 và D3: sẽ chỉ ra 
sự khác biệt về tiền công giữa các cấp học tương 
ứng và cấp một trở xuống.
 Nhóm không được biểu diễn bởi biến giả đgl 
nhóm cơ sở, hay nhóm đối ứng, hay nhóm so 
sánh, …
 Giả định rằng hệ số góc  là giống nhau cho các
nhóm và phần sai số ngẫu nhiên u có cùng phân 
phối cho các nhóm
Biến giả cho sự thay đổi trong hệ số chặn 
 Lưu ý: mô hình hồi quy có thể chỉ bao 
gồm những biến giả.
 Khi đó, mô hình đgl “Mô hình phân tích 
phương sai” (ANOVA model).
 Hệ số của các biến giả sẽ cho biết sự
khác biệt về giá trị trung bình của biến 
phụ thuộc giữa các nhóm.
 Một ví dụ khác, giả sử rằng chúng ta có số 
liệu về tiêu dùng C và thu nhập Y của một số 
hộ gia đình. Thêm vào đó, chúng ta cũng có 
số liệu về:
1) S: giới tính của chủ hộ
2) A: tuổi của chủ hộ, được chia ra như sau: < 
25 tuổi, từ 25 đến 50, > 50 tuổi. 
3) E: trình độ học vấn của chủ hộ, cũng được 
chia thành 3 nhóm: < trung học,  trung học 
nhưng < đại học,  đại học. 
 Chúng ta sẽ sử dụng những biến định tính 
này bằng các biến giả như sau:
1 nếu giới tính là nam
0 nếu là nữ
D1 = 
1 nếu tuổi từ 25 đến 50
0 nhóm tuổi khác
D3 = 
1 nếu học vấn < trung học
0 nhóm học vấn khác
D4 = 
1 nếu học vấn  trung học nhưng < đại học trở lên
0 nhóm học vấn khácD5 = 
1 nếu tuổi nhỏ hơn 25
0 nhóm tuổi khác
D2 =
 Khi đó chúng ta chạy phương trình hồi qui:
C =  + Y + 1D1 + 2D2 + 3D3 + 4D4 + 
5D5 + u
 Ví dụ, khi chủ hộ là nam, nhỏ hơn 25 tuổi, có 
một bằng đại học, chúng ta có D1 = 1, D2 = 
1, D3 = 0, D4 = 0, D5 = 0 => hệ số chặn sẽ là 
 + 1 + 2. 
 Khi chủ hộ là nữ, lớn hơn 50 tuổi, có một 
bằng đại học, chúng ta có D1 = 0, D2 = 0, D3
= 0, D4 = 0, D5 = 0 và như vậy hệ số chặn sẽ 
chỉ là . 
Biến giả cho sự thay đổi trong hệ số góc
 Ví dụ, phương trình hồi qui cho 2 nhóm: 
y1 =  + 1x + u cho nhóm thứ nhất
và y2 =  + 2x + u cho nhóm thứ hai
Giả sử có sự khác biệt về hệ số góc giữa 2 nhóm:
y2 =  + (1 + )x + u =  + 1x + x +u 
Phương trình hồi quy cho một quan sát i là:
yi =  + 1xi + Dixi + ui =  + 1xi + Dixi + ui
Do vậy, hệ số của biến Dixi () sẽ cho biết sự khác 
biệt về hệ số góc giữa hai nhóm.
Biến giả và Kiểm định tính ổn định cấu trúc 
của mô hình
 Ta có bảng số liệu sau về thu nhập và tiết 
kiệm ở Mỹ từ năm 1970 – 1995.
 Vào năm 1982, Mỹ rơi vào khủng hoảng 
kinh tế
 Ta có thể giả định có sự thay đổi cấu trúc 
trong mối quan hệ giữa tiết kiệm và thu 
nhập,
 Ta chia số liệu ra 2 giai đoạn và đặt:
 D = 1: cho số liệu từ 1982 và 0 cho giai đoạn 
trước đó.
Biến giả và Kiểm định tính ổn định cấu trúc 
của mô hình
 Ta có mô hình hồi quy:
Yt = α1 + α2Dt + β1Xt + β2(DtXt) + ut
Hồi qui tuyến tính từng khúc
 Hệ số góc của biến độc lập, X, có thể thay đổi 
khi X đạt một mức ngưỡng nào đó.
 Phân tích mô hình có sự thay đổi về độ dốc, 
nhưng cũng chỉ giới hạn trong trường hợp đoạn 
thẳng được ước lượng vẫn là liên tục. 
 Công ty trả hoa hồng cho các đại lý dựa vào 
doanh thu, nếu doanh thu dưới mức x* thì cách 
tính tiền hoa hồng khác với cách tính tiền hoa 
hồng khi doanh thu trên mức x*. 
 
y
x*
Hình 7.3: Đường hồi qui tuyến tính từng 
khúc
x doanh thu
tiền hoa hồng
0
 Ước lượng hàm:
y =  + x + xD + u (7.8)
 Trong đó: y: tiền hoa hồng; x: doanh thu
x*: giá trị ngưỡng của doanh thu
Kiểm định  = 0
1 nếu x > x*
0 nếu x  x*
D 
= 
Biến phụ thuộc là biến giả
 Biến giả có thể có 2 hoặc nhiều giá trị nhưng 
trong trường hợp này chúng ta chỉ xem xét 
trường hợp nó chỉ có 2 giá trị: 0 hoặc 1. 
 mô hình xác suất tuyến tính (LPM)
 Ví dụ:
1 nếu một sinh viên tốt nghiệp ra 
trường
0 nếu không tốt nghiệp
y = 
1 nếu một gia đình có vay được vốn từ ngân 
hàng
0 nếu không vay được
y = 
Mô hình xác suất tuyến tính và hàm phân 
biệt tuyến tính
 Chúng ta viết mô hình xác suất tuyến 
tính dưới dạng hồi qui thông thường như 
sau:
yi = Pi = E(yi|xi) = i’xi + ui (7.9)
với E(ui) = 0. 
 Kỳ vọng có điều kiện E(yi|xi) = ’ixi được 
giải thích như là xác suất có điều kiện để 
sự kiện xảy ra khi biến xi đã xảy ra. 
Mô hình xác suất tuyến tính 
 Vì E(yi|xi) là một xác suất nên:
 0  E(yi|xi)  1
 Tuy OLS không đòi hỏi ui phải có phân 
phối chuẩn, nhưng ta vẫn giả định nó có 
phân phối chuẩn để phục vụ cho việc suy 
diễn.
 Giả định này bị vi phạm, vì thực sự ui
theo phân phối Bernoulli.
 Xét mô hình LPM 2 biến, ta có:
Mô hình xác suất tuyến tính 
ui = Yi - 1 - 2Xi
Khi Yi = 1, ui = 1 - 1 - 2Xi, với xác suất pi,
Khi Yi = 0, ui = -1 -2Xi, với xác suất 1- pi,
 Ước lượng OLS vẫn không chệch, nên nếu dùng để
ước lượng điểm, kết quả vẫn tin cậy.
 Có hiện tượng phương sai sai số thay đổi, do ui
theo phân phối Bernoulli nên:
Var(ui) = Pi(1 – Pi) với Pi = ’iXi
 E(yi|xi) có thể vượt khoảng (0,1) nếu Xi có giá trị lớn.
 R2 sẽ rất nhỏ
y
Hình 7.4: Dự báo từ mô hình xác suất 
tuyến tính
 
x 
1
0
Đường hồi qui tuyến 
tính
Đường hồi qui thích hợp 
hơn
Mô hình Probit và Logit
 Trong mô hình LPM, ta có:
yi = Pi = E(yi|xi) = F(i’xi) = i’xi + ui,
Trong đó: i’xi = 0 + 1x1 + 2x2 + … + kxk
 Do yi là một xác suất nên thay vì ta dùng F(i’xi) là 
hàm tuyến tính như LPM, ta có thể cho F(xi) là một 
hàm tích lũy xác suất (c.d.f).
 Khi đó, chắc chắn 0  E(yi|xi) = F(i’xi)  1.
 Tùy theo dạng của F(i’xi) được chọn, ta có các mô 
hình: “lựa chọn nhị phân” (binary choice) khác 
nhau:
 F(i’xi) là c.d.f của phân phối chuẩn: probit model
 F(i’xi) là c.d.f của phân phối logistic: logit model
“Biến ẩn” và Mô hình Probit và 
Logit
 Gọi yi* là một “biến ẩn”, không quan sát được từ
quan sát i:
yi* = xi’ + vi,
Trong đó vi thỏa các giả định của CLRM. 
 Giả sử ta quan sát được yi khi yi* vượt một ngưỡng 
nào đó, chẳng hạn, 0, với:
yi = 1 khi yi* > 0, và
yi = 0 khi yi*  0.
 Do vi có p.d.f đối xứng nên: 1-F(-xi’) = F(xi’). Ta 
có:
P(y = 1|xi) = P(y* > 0|xi) = P(vi > -xi’) = 1 - F(-xi’) = 
F(xi’)
Mô hình logit và probit
 Tác động biên (marginal effect) của xi lên Pi
là:
Trong đó f(.) là p.d.f của F(.).
 Ta thấy tác động từng phần này có cùng dấu 
với i và phụ thuộc vào giá trị của xi, không 
giống như các mô hình tuyến tính.
 Do vậy, ta chỉ có thể tính tác động biên của xi
lên Pi ứng với các giá trị cụ thể của các xi.
    'ii
i
'
i
i
i xf
x
xF
x
P
Mô hình logit và probit
   
 '
i
'
i
x
x
'
iiii
e
exFPxyE
1
Hàm c.d.f. trong các mô 
hình:
Mô hình logit:
Mô hình probit: F(.) 
là c.d.f. của phân 
phối chuẩn tắc.
  
'
i
'
i
x
/x'
ii exFP
2
2
1
Đây là các mô hình phi tuyến tính nên ước lượng bằng 
phương pháp ML (Maximum Likelihood)
Mô hình logit và probit
Ước lượng ML của mô hình Logit và Probit
 Để ước lượng mô hình bằng ML, ta phải xây 
dựng hàm log-likelihood của các quan sát i.
 Xác suất có điều kiện của yi ứng với xi là:
f(y|xi, ) = [F(xi’)]y[1 - F(xi’)](1-y), y = 0, 
1
 Hàm log-likelihood của quan sát i là:
 Hàm log-likelihood của mẫu n quan sát:
L = (*)
          iiiii xFlogyxFlogy  11
 
n
i
1
Ước lượng ML của mô hình Logit và Probit
 Thông thường, ta có thể giải (*) để tìm ước 
lượng  của  sao cho L() cực đại.
  là các ước lượng chệch nhưng vững và xấp 
xỉ phân phối chuẩn. 
 Do vậy, ta có thể dùng các thống kê t, F để
kiểm định mức ý nghĩa của các ước lượng.
 Lưu ý, các ước lượng ML là vững và theo 
những phân phối xấp xỉ nên để có độ tin cậy 
cao, cở mẫu n phải lớn.
Mô hình logit:
 Vế trái của phương trình này được gọi là 
tỉ số log-odds. 
 phân phối tích luỹ của ui trong (7.10) là 
logistic 
k
j
ijj
i
i x
P
P
1
0)1
ln( 
Mô hình Probit: 
các phần dư ui trong phương trình (7.10) theo phân 
phối chuẩn
k
j
ijji xZ
1
0 
Biến bị chặn: mô hình Tobit
 Mô hình Tobit được sử dụng để phân tích 
trong lý thuyết kinh tế lượng lần đầu tiên 
bởi nhà kinh tế học James Tobin năm 
1958. 
 với ui ~ IN(0, 2) 
yi* = xi + ui nếu yi* 
> 0
0 nếu yi*  0
yi = 
 Nó còn có tên gọi khác là mô hình hồi qui 
chuẩn được kiểm duyệt (censored 
regression model) 
 hoặc mô hình hồi qui có biến phụ thuộc bị
chặn (limited dependent variable 
regression model) 
 bởi vì có một số quan sát của biến phụ
thuộc y* bị chặn hay được giới hạn. 
 Ví dụ, Tobin xem xét vấn đề chi tiêu cho 
việc mua xe ôtô. 
 Chúng ta muốn ước lượng hệ số co giãn 
của thu nhập đối với nhu cầu mua xe ôtô. 
 Đặt y* là chi tiêu cho mua xe ôtô và x là 
thu nhập, mô hình Tobit được trình bày 
như sau:
 y* = xi + ui ui ~ IN(0, 2)
 Mô hình Tobit: chi tiêu mua xe ô tô
 mô hình cho số giờ làm việc 
yi = xi + ui cho các quan sát có chi tiêu mua xe là số 
dương
0 cho các quan sát không có chi tiêu mua 
xe
yi =
 mô hình tiền lương 
yi = xi + ui cho những người có việc làm
0 cho những người không đi làmHi
=
yi = xi + ui cho những người có việc làm
0 cho những người không đi làmWi
=
 Bây giờ ước lượng phương trình hồi qui bội
y = 0 + 1x1 + 2x2 + … + kxk + u
 Thu được tổng bình phương các phần dư RSS. 
Khi đó:
i
k
i
i x
1
 
nếu cá nhân thuộc nhóm 1 (nhóm 
I)
nếu cá nhân thuộc nhóm 2 (nhóm 
II)
y =
n2
n1 + 
n2n1
n1+n2
221 
nn
RSS
ii 
            Các file đính kèm theo tài liệu này:
 hoi_quy_voi_bien_gia_9122.pdf hoi_quy_voi_bien_gia_9122.pdf