Xác suất thống kê - Chương 6: Đa cộng tuyến

Bản chất và nguyên nhân

2. Hậu quả

3. Cách phát hiện

4. Cách khắc phục

 

ppt28 trang | Chia sẻ: Mr Hưng | Lượt xem: 668 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Xác suất thống kê - Chương 6: Đa cộng tuyến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 6: Đa cộng tuyến1. Bản chất và nguyên nhân2. Hậu quả3. Cách phát hiện4. Cách khắc phục1. Bản chất và nguyên nhânVí dụ: Năng suất cây trồng chịu sự ảnh hưởng của Lượng phân bón và Công lao động. Hai biến giải thích này có quan hệ đồng biến với nhauChi phí bảo trì xe chịu sự ảnh hưởng của số dặm xe đã chạy và số năm của chiếc xe. Có sự tương quan giữa số dặm và số năm.Có 2 dạng đa cộng tuyếnĐa cộng tuyến hoàn hảo:Đa cộng tuyến không hoàn hảo: Với vi là sai số ngẫu nhiênVí dụ: dữ liệu giả định cho các biếnX1X2X2*V105052215757501890977241201299301501522Ta thấy: X2 = 5X1 nên có đa cộng tuyến hoàn hảo giữa X1 và X2. X2* = 5X1 + V nên có đa cộng tuyến không hoàn hảo giữa X1, X2* Nguyên nhân:Mẫu không đặc trưng cho tổng thểDo bản chất mối quan hệ giữa các biếnVí dụ: Hồi quy lượng điện năng tiêu thụ theo thu nhập và diện tích nhà ở. Trong mối quan hệ này ẩn chứa đa cộng tuyến vì những gia đình có thu nhập cao thường có nhà rộng hơn.2. Hậu quảCác ước lượng vẫn BLUEMô hình không thể ước lượng được nếu các biến độc lập quan hệ hoàn hảo.Gia tăng sai số chuẩn => giảm trị thống kê t => giảm ý nghĩa của các hệ sốTrị thống kê t thấp nhưng R2 có thể rất caoKhông thể hiện được tác động riêng lẻ của từng biến giải thíchKhông gây ảnh hưởng xấu đến việc thực hiện dự báo giá trị của biến phụ thuộcVí dụ: Mối quan hệ giữa Cost, Age và Milesobscostagemilesobscostagemilesobscostagemiles11150.82198523236.641158336653.22161232210212353742160938455.7355304.923103023938.143282538856466407.124109624939.544289340257.3576427.625111426040.745291843260.26835310.12611342714346301143360.37135661227115727243.147307743660.681607312.8281176273.543.24830954466391637913.929118227643.449315445663.71021110118.630118227943.7503162463.563.91125811421.131123128144.351321746565.11232212923.232124431347.652327447865.81337415025.333125732648.953332048567.71440818028.734126032849.1543329498.572.11547819530.535134232949.255340152672.11648919630.6361356336.55056341252773.61753620431.437146733850.157342553874.41859021232.9381518342.550.6    1960422435.3391557344.550.8    2070422735.340156535151.6    Xét 3 mô hình:Mô hình A:Mô hình B:Mô hình C: Trong đó: Why? Bảng các tham số ước lượngBiếnMô hình AMô hình BMô hình CHằng số-625.94-796.0722.19 -6.01-5.910.23Age7.34 28.02 22.28 10.09Miles 53.45-154.63  18.27-7.47df565655R2 hiệu chỉnh0.90.860.95Hệ số tương quan  0.996Nhận xét: Mô hình A, B: hệ số ước lượng đúng với dấu kỳ vọng và có ý nghĩa về mặt thống kê. Mô hình C: hệ số ước lượng của Miles không đúng với dấu kỳ vọng và trị thống kê t giảm đáng kể, R2 cao. Hệ số tương quan giữa Age và Miles cao3. Cách phát hiện Giá trị R2 cao và trị thống kê t thấp Hệ số tương quan cặp giữa các biến giải thích cao (theo kinh nghiệm > 0.8 thì có đa cộng tuyến). Tuy nhiên kinh nghiệm này không chính xác. Hệ số hồi quy thay đổi khi thêm hay bớt biến giải thích.Xét mô hình hồi quy phụ Xây dựng mô hình hồi quy phụ giữa các biến X Xác định R2 của từng mô hình hồi quy phụ Nếu R2 phụ > R2 gốc thì có đa cộng tuyến4. Cách khắc phục Chung sống với lũ: khi ta ít (hoặc không quan tâm) đến việc diễn dịch từng hệ số hồi quy riêng lẻ mà chỉ chú ý đến việc dự báo. Loại bỏ bớt những biến có trị thống kê t thấp để cải thiện mức ý nghĩa của các biến còn lại. Tăng kích thước mẫu Sử dụng thông tin tiên nghiệm Ví dụ: Nghiên cứu tỷ lệ nghèo và các yếu tố ảnh hưởng Povrate(tỷ lệ nghèo): tỷ lệ hộ nghèo (%) Urb: tỷ lệ dân thành thị (%) Famsize: Số người trong một hộ ga đình Unemp: Tỷ lệ thất nghiệp (%)Highschl: tỷ lệ dân số có trình độ trung học (%)College: tỷ lệ dân số có trình độ cao đẳng trở lên (%)Medinc: Thu nhập hộ gia đình(1000USD/hộ)Kỳ vọng: β3, β4 > 0, β2, β5 , β6, β7 5%)Hệ số không đúng với kỳ vọng=> có hiện tượng đa cộng tuyến trong mô hìnhLoại bỏ biến Unemp (pvalue = 0.92 >5%)Loại bỏ biến Urb (pvalue = 0.2 >5%)Nhận xét: : không đúng với dấu kỳ vọngSự ảnh hưởng của biến Medinc đến tỷ lệ nghèo có thể được giải thích thông qua biến Highschl và biến College=> khi ước lượng mô hình có thể loại bỏ biến MedincNhận xét:Hệ số ước lượng của biến Highschl và College có ý nghĩa thống kê và đúng với dấu kỳ vọngHệ số ước lượng của Famsize nghịch với dấu kỳ vọngGiá trị R2adj giảm đáng kểmedinc = f(famsize, unemp, highschl, college)Nhận xétTất cả các hệ số đều rất có ý nghĩa và có dấu như kỳ vọngR2adj: có giá trị cao=> Đa cộng tuyến là lý do về dấu không như kỳ vọng của biến College trong mô hình tỷ lệ nghèo.Loại bỏ biến College

Các file đính kèm theo tài liệu này:

  • pptchuong_6_a_cng_tuyn_9045.ppt
Tài liệu liên quan