Download - Gabungan Ekonometrika.docx
Gabungan
Kuadrat terkecil biasa (OLS)
Roti dan mentega dari analisis regresi adalah estimasi koefisien model ekonometrik dengan
teknik kuadrat terkecil biasa (OLS). Dua bagian pertama dari bab ini merangkum alasan di
balik dan mekanik OLS.
2.1 memperkirakan model variabel tunggal independen dengan OLS
Tujuan dari analisis regresi adalah untuk mengambil persamaan murni teoritis seperti:
Yi = β0 + β1 Xi + є
Dan menggunakan satu set data untuk membuat persamaan diperkirakan seperti:
Dimana masing-masing "hat" menunjukkan contoh perkiraan nilai populasi yang sebenarnya.
(Dalam kasus Y, "benar nilai poppulaion" adalah E [Y | X].
Metode yang paling banyak digunakan untuk mendapatkan perkiraan ini adalah kuadrat
terkecil biasa (OLS). OLS adalah teknik estimasi regresi yang menghitung βs sehingga dapat
meminimalkan jumlah residu persegi.
Mengapa menggunakan kuadrat terkecil biasa?
Ada sedikitnya tiga alasan penting untuk menggunakan OLS untuk regresi diperkirakan:
1. Alasan pertama untuk menggunakan adalah bahwa itu adalah yang paling sederhana dari
semua teknik estimasi ekonometrik. Kebanyakan teknik lain melibatkan formula nonlinear
rumit atau produres berulang, banyak yang merupakan perpanjangan dari OLS sendiri.
2. Alasan kedua untuk menggunakan OLS adalah bahwa meminimalkan dijumlahkan,
kuadrat residual adalah tujuan yang masuk akal untuk teknik estimasi.
3. Alasan terakhir untuk menggunakan perkiraan perusahaan memiliki karakteristik:
a. Garis regresi perkiraan (Persamaan 2.2) berjalan melalui sarana Y dan X.
b. Jumlah residual adalah persis nol.
c. OLS ditampilkan sebagai "yang terbaik" estimator mungkin di bawah satu set assumtions
tertentu.
2.1.2 Bagaimana OLS bekerja?
Bagaimana OLS akan estimasi model regresi tunggal independen variabel seperti persamaan
2.1?
(2.1)
Untuk persamaan dengan hanya satu variabel independen koefisien ini.
Dan mengingat perkiraan ini β1.
Sebuah Ilustrasi Estimasi OLS
Persamaan untuk koefisien regresi perhitungan mungkin tampak sedikit untuk penawaran tetapi itu
tidak sulit untuk menerapkannya diri Anda untuk set data yang hanya memiliki beberapa pengamatan
dan variabel independen, Anda akan mengerti OLS lebih baik jika Anda bekerja melalui ilustrasi yang
ada.
Untuk menjaga hal-hal sederhana mari upayakan untuk memperkirakan koefisien regresi dari tinggi
dan berat badan data yang diberikan dalam bagian 1.4. Seperti yang dicatat dalam bagian 2.1.2 rumus
untuk estimasi OLS untuk persamaan regresi dengan satu variabel independen adalah :
β1
∑i=1
N
[( X i−X ) .(Y i−Y )]
∑i=1
N
( X i−X )2
β0=Y − β1 X
Properti lain dari OLS adalah memperkirakan bahwa garis regresi estimasi melewati sarana Y dan X
dapat ditunjukkan dengan mensubstitusi Y dan X ke dalam persamaan regresi estimasi.
Memperkirakan Regresi Multivariat Model dengan OLS
Hanya variabel dependen beberapa dapat dijelaskan sepenuhnya oleh variabel bebas. Sama
pentingnya dengan variabel penjelas tambahan mungkin tampak pada contoh tinggi / berat badan,
bahkan ada banyak alasan untuk memasukkan berbagai variabel independen dalam aplikasi ekonomi
dan bisnis. Meskipun jumlah yang diminta dari suatu produk tentu dipengaruhi oleh harga dan segala
sesuatu yang penting dalam model dunia nyata. Akibatnya kita merasa bahwa itu penting untuk
bergerak dari regresi variabel tunggal independen untuk persamaan model regresi multivariat dengan
lebih dari satu variabel independen.
Arti Koefisien Regresi Multivariat
Model multivariat umum dengan variabel independen K dapat diwakili oleh persamaan:
Y i=β0+β1 X1 i+β2 X2 i+. ..+β K X Ki+ϵ i
Perbedaan terbesar antara model regresi variabel independen tunggal dan model regresi multivariat
adalah dalam interpretasi koefisien kemiringan yang terakhir. Koefisien ini sering disebut koefisien
regresi parsial, didefinisikan untuk memungkinkan peneliti untuk membedakan dampak dari satu
variabel terhadap variabel terikat itu variabel independen lainnya.
Secara khusus, koefisien regresi multivariat menunjukkan perubahan dalam variabel dependen yang
terkait dengan peningkatan satu unit dalam variabel independen tersebut memegang konstan variabel
independen lain dalam persamaan.
Frase yang dicetak miring terakhir ini adalah kunci untuk memahami regresi berganda. Koefisien β1
mengukur dampak pada Y dari kenaikan satu unit X1, memegang konstanta X2, X3. . . dan XK tetapi
tidak memegang konstan setiap variabel yang relevan yang mungkin telah dihilangkan dari
persamaan. Koefisien β0 adalah nilai Y ketika semua Xs dan error term sama dengan nol.
Sebagai contoh, mari kita pertimbangkan model tahunan berikut permintaan per kapita daging sapi di
United State:
C Bt=37.54−0.88 Pt+11.9Y d t
Dimana : C Bt = konsumsi per kapita daging sapi pada tahun t
Pt = harga daging sapi pada tahun t
Ydt = pendapatan disposable per kapita pada tahun t
Kemampuan untuk menahan harga konstan sangat penting karena kita harapkan peningkatan besar
seperti pendapatan per kapita untuk merangsang permintaan, sehingga mendorong harga dan
membuat sulit untuk membedakan efek dari peningkatan pendapatan dari pengaruh kenaikan harga.
Perkiraan regresi multivariat memungkinkan kita untuk fokus pada dampak dari variabel pendapatan
dengan memegang harga variabel constnat.
Estimasi OLS Model Regresi Multivariat
Penerapan OLS untuk persamaan dengan lebih dari satu variabel independen yang cukup mirip
dengan aplikasi untuk model variabel tunggal independen.
Y i=β0+β1 X1 i+β2 X2 i+ϵ i
Estimasi model hanya satu variabel indepent. Persamaan diri mereka lebih rumit. Tetapi prinsip yang
mendasari memperkirakan βs yang meminimalkan residual kuadrat menyimpulkan tetap sama.
Untungnya, user - paket komputer yang ramah dapat menghitung perkiraan dengan persamaan-
persamaan rumit dalam waktu kurang dari satu detik dari waktu komputer. Memang. Hanya orang
hilang dalam waktu atau terdampar di pulau terpencil akan mengganggu mengestimasi model regresi
multivariat tanpa komputer. Sisanya kita akan menggunakan Eviews, SPSS, SAS, Stara, RATS,
MINITAB, Atau salah satu paket regresi tersedia secara komersial lainnya.
2.2.3 Teladan dari model regresi multivariat
Sebagai contoh regresi multivariat. Mari kita lihat model penghargaan bantuan keuangan perguruan
tinggi seni liberal. Variabel terikat dalam penelitian tersebut akan menjadi jumlah, dalam dolar
diberikan kepada pemohon bantuan keuangan tertentu:
FINAID1 = bantuan keuangan (diukur dalam dolar hibah) diberikan kepada pemohon engan.
Apa jenis variabel independen dapat mempengaruhi jumlah bantuan keuangan yang diterima oleh
seorang mahasiswa yang diberikan? baik, sebagian besar bantuan adalah baik berbasis kebutuhan atau
jasa - berbasis, sehingga masuk akal untuk mempertimbangkan model mencakup dua atribut
setidaknya ini:
FINAIDI = F (PARENTi , HSRANKI)
DAN
FINAIDI = β0 + β1 PARENTi + β2 PARENTi + €1
4. untuk persamaan 2.8 koefisien estimasi yang
β1=¿¿¿ ¿
β2=¿¿¿ ¿
`β0=¿Y− `β1 X1−¿ β2 X2¿¿
dimana variabel huruf kecil menunjukkan penyimpangan dari mean. seperti dalam
y=Y 1−Y ; X1=X1 I−X 1;∧x2=x2 i−X2
Di Mana
PARENT1 = jumlah (dalam dolar) bahwa orang tua dari ithstudent tersebut dinilai mampu
memberikan kontribusi biaya kuliah
HSRANK1 = para engan siswa IPK peringkat di sekolah tinggi diukur sebagai persentase (mulai
froma LOQ 0 sampai yang tertinggi 100)
Catatan dari tanda-tanda di atas variabel independen dalam persamaan 2.9 yang kami mengantisipasi
bahwa semakin banyak orang tua dapat berkontribusi untuk pendidikan anak mereka, kurang
penghargaan bantuan keuangan akan. Demikian pula, kami berharap bahwa semakin tinggi sekolah
tinggi peringkat siswa, semakin tinggi penghargaan keuangan dan akan. Anda setuju dengan harapan
ini?
Jika kita memperkirakan persamaan 2.10 dengan menggunakan OLS dan data5 dalam tabel 2.2 kita
mendapatkan:
FINAIS1=8927−0.36%∗PARENT 1+87.4∗HSRANK 1
Apa artinya koefisien tersebut? Nah, -0,36 yang berarti bahwa model menunjukkan bahwa
pemberian bantuan keuangan mahasiswa akan turun $ 0,36 untuk setiap kenaikan dolar dalam
kemampuan orang tua mereka untuk membayar. Memegang peringkat sekolah tinggi yang
konstan. Apakah tanda koefisien membuat rasa? Iya Nih.
Untuk memastikan bahwa Anda memahami konsep-konsep ini, meluangkan waktu
menuliskan arti dari koefisien HSRANK dalam persamaan 2.h. apakah anda setuju bahwa
model menunjukkan bahwa siswa engan hibah bantuan keuangan akan meningkat sebesar $
87,40 untuk setiap kenaikan satu persen di peringkat disekolah tinggi, hoiding konstan: orang
tua kemampuan untuk membayar? Apakah koefisien estimasi ini masuk akal?
Untuk menggambarkan, lihatlah angka 2.1 dan 2.2. Angka-angka ini mengandung dua
pandangan yang berbeda dari persamaan 2.11. Angka 2.1 adalah diagram pengaruh INDUK
pada FINAID, memegang HSRANK konstan, dan mencari 2.2 menunjukkan pengaruh
HSRANK pada FINAID, memegang INDUK konstan. Kedua tokoh adalah representasi
grafis dari koefisien regresi multivariat. Karena mereka mengukur dampak o variabel
dependen variabel independen yang diberikan, memegang konstan variabel lain dalam
persamaan.
Kurva
Dalam persamaan 2.11 kenaikan satu dolar pada orang tua kemampuan untuk membayar
mengurangi keuangan dan penghargaan oleh $ 0,36 memegang peringkat sekolah tinggi yang
konstan.
Kurva
Dalam persamaan 2.11 sebuah lipatan satu persen di peringkat sekolah tinggi meningkatkan
penghargaan bantuan keuangan oleh $ 87,40 memegang orangtua konstan kemampuan untuk
membayar.
bagan
TABLE 2.2 (Continued)
I FINAID PARENT HSRANK MALE
43 15,265 3,909 84 0
44 20,470 2,027 99 1
45 9,550 12,592 89 0
46 15,970 0 57 0
47 12,190 6,249 84 0
48 11,800 6,237 81 0
49 21,640 0 99 0
50 9,200 10,535 68 0
2.2. 4 Total, Menjelaskan, dan Penjumlahan sisa dari Kuadrat
Sebelum melanjutkan, mari kita berhenti sejenak untuk mengembangkan beberapa
ukuran dari berapa banyak variasi dari variabel terikat yang dijelaskan dengan perkiraan
persamaan regresi. Seperti perbandingan dari nilai-nilai perkiraan dengan nilai yang
sebenarnya dapat membantu para peneliti menilai kecukupan regresi perkiraan.
Econometricians menggunakan variasi kuadrat Y di sekitar yang berarti sebagai
ukuran jumlah variasi untuk dijelaskan oleh regresi. Jumlah dihitung ini biasanya disebut
jumlah total kuadrat, atau TTS, dan ditulis sebagai:
TTS =
Untuk kuadrat paling sedikit biasanya, jumlah total kuadrat memiliki dua komponen, yang
mana variasi dapat dijelaskan oleh regresi dan yang mana tidak dapat:
=
Jumlah Total = Dijelaskan + sisa
dari Jumlah Jumlah
Kuadrat Kuadrat Kuadrat
(TSS) (ESS) (RSS)
Ini biasanya disebut “dekomposisi dari varians”
Gambar 2.3 menggambarkan dekomposisi varians untuk model regresi sederhana.
Nilai-nilai perkiraan Yi berbaring di garis perkiraan regresi
KURVA HAL.48
Ỷᵢ = β0 + β1Xᵢ. Variasi dari Y yang artinya (Y - Ῡ) dapat didekomposisi menjadi dua bagian:
(1 ) (Y - Ῡ), diantara perbedaan nilai perkiraan dari Y(Ỷ) dan nilai rata-rata dari Y(Ῡ); dan
(2) (Yᵢ - Ỷᵢ), perbedaan di antara nilai nyata dari Y dan nilai perkiraan dari Y.
Komponen pertama dari persamaan 2.13 jumlah ukuran dari kwadrat penyimpangan
Yᵢ yang berarti dijelaskan dengan garis regresi. Komponen ini jumlah total dari
penyimpangan kuadrat, disebut jumlah penjelasan dari kuadrat, atau ESS, berkaitan
dengan dilengkapi garis regresi. Penjelasn bagian dari TSS (adalah, penjelaskan dalam arti
empiris persamaan regresi perkiraan), disebut penjumlah sisa dari kuadrat atau, RSS.
Kita dapat melihat dari Persamaan 2.13 bahwa semakin kecil RSS adalah relatif
terhadap TSS, semakin baik garis regresi yang diperkirakan cocok dengan data. OLS adalah
teknik estimasi yang meminimalkan RSS dan karena itu memaksimalkan ESS.
2.3 Mengevaluasi Kualitas Regresi a: Persamaan.
Jika roti dan mentega dari analisis regresi adalah estimasi OLS, maka hati dan jiwa
ekonometrik adalah mencari tahu seberapa baik estimasi OLS ini.
Banyak ekonometri awal memiliki kecenderungan untuk menerima perkiraan regresi
ketika mereka keluar dari sebuah komputer, atau seperti yang dipublikasikan dalam sebuah
artikel, tanpa berpikir tentang arti atau validitas yang diestimasi. iman buta tersebut membuat
banyak arti sebagai membeli lemari seluruh pakaian tanpa mencoba mereka. beberapa
pakaian akan cocok dengan baik, tapi banyak orang lain akan berubah menjadi kesalahan
besar (atau kecil).
Sebaliknya , pekerjaan seorang econometrician adalah untuk hati-hati memikirkan dan
mengevaluasi setiap aspek persamaan , dari teori yang mendasari untuk kualitas data ,
sebelum menerima hasil regresi yang valid . pada kenyataannya , ekonometri yang paling
baik menghabiskan sedikit waktu untuk berpikir tentang apa yang diharapkan dari sebuah
persamaan sebelum mereka memperkirakan persamaan itu .
Setelah perkiraan komputer telah diproduksi , namun, saatnya untuk mengevaluasi hasil
regresi . daftar pertanyaan yang harus ditanyakan selama evaluasi tersebut adalah panjang .
sebagai contoh:
1. adalah persamaan didukung oleh teori suara
2. seberapa baik regresi diperkirakan cocok dengan data
3. diatur data cukup besar dan akurat
4. adalah OLS estimator terbaik yang akan digunakan untuk persamaan ini
5. Seberapa baik koefisien yang diperkirakan sesuai dengan harapan yang
dikembangkan oleh peneliti sebelum data dikumpulkan
6. semua variabel yang jelas penting termasuk dalam persamaan
7. memiliki teoritis paling logis fungsional dari digunakan
8. apakah regresi tampaknya bebas dari masalah ekonometrik utama
Tujuan teks ini adalah untuk membantu Anda mengembangkan kemampuan untuk
bertanya dan tepat menjawab pertanyaan-pertanyaan. Bahkan, jumlah di depan setiap
pertanyaan di atas kira-kira sesuai bab di mana kita akan membahas isu-isu yang diangkat
oleh pertanyaan itu. Karena ini adalah Bab 2, itu akan datang sebagai tidak mengejutkan
Anda mendengar bahwa sisa bab ini akan dikhususkan untuk kedua topik ini, fit keseluruhan
model estimasi.
2.4 Menggambarkan Fit keseluruhan Perkiraan wajah Model
Mari kita hadapi itu, kita berharap bahwa persamaan regresi estimasi yang baik akan
menjelaskan variasi variabel dependen dalam sampel cukup akurat Jika tidak, kita katakan
bahwa model estimasi sesuai dengan data dengan baik.
Melihat fit keseluruhan model diperkirakan berguna tidak hanya untuk mengevaluasi
kualitas regresi, tetapi juga untuk membandingkan model yang berbeda saat data, bentuk
fungsional, atau rombinations variabel independen. Kita tidak pernah bisa yakin bahwa satu
model diperkirakan merupakan kebenaran lebih dari yang lain, tetapi mengevaluasi kualitas
fit persamaan adalah salah satu bahan dalam pilihan antara formulasi yang berbeda dari
model regresi. Hati-hati, namun! Kualitas fit adalah bahan kecil dalam pilihan ini, dan banyak
peneliti mulai membiarkan diri mereka menjadi banyak terlalu dipengaruhi oleh itu
2.4.1 R2 Koefisien Determinasi
Paling sederhana yang umum digunakan ukuran fit adalah koefisien determinasi, R2.
Koefisien determinasi adalah rasio jumlah dijelaskan dari kotak untuk jumlah total kuadrat:
R2= ESSTSS
=1−RSSTSS
=1− ∑ e12
∑ ( Y i−Y )2
Semakin tinggi R2, dekat persamaan regresi estimasi sesuai dengan data sampel.
Tindakan jenis ini disebut "goodness of fit" langkah-langkah. Sejak TSS, RSS, dan ESS
semua nonnegatif (yang kuadrat penyimpangan) dan karena ESS TSS, R2 harus berada di
dalam interval
0 ≤ R2≤ 1
Nilai R2 mendekati satu menunjukkan keseluruhan sangat cocok, sedangkan nilai
mendekati nol menunjukkan kegagalan persamaan regresi yang diperkirakan untuk
menjelaskan nilai-nilai Y yang lebih baik daripada yang dapat dijelaskan oleh mean sampel
Y. R2 mengukur persentase variasi Y sekitar Y yang dijelaskan oleh persamaan regresi.
Sejak OLS memilih estimasi parameter yang meminimalkan RSS, OLS memberikan kemungkinan terbesar R2, mengingat model linear.
Gambar 2.4 melalui 2.6 menunjukkan beberapa ekstrem. Gambar 2.4 menunjukkan X dan Y
yang tidak terkait. Garis regresi dipasang mungkin juga Ŷ = Ȳ, nilai yang sama akan ada jika
x dihilangkan. sebagai hasilnya, regresi linier yang diperkirakan tidak lebih baik dari mean
sampel sebagai perkiraan Y_i. Bagian menjelaskan, ESS, = 0, dan bagian menjelaskan, RSS,
sama dengan jumlah kuadrat deviasi TSS; dengan demikian, R ^ 2 = 0. Dalam hal tjis, residu
relatif besar terhadap penyimpangan di Y dari mean, menyiratkan bahwa garis regresi tidak
berguna dalam menggambarkan hubungan antara X Dan Y.
Gambar 2.5 menunjukkan hubungan antara X Dan Y yang dapat "jelas 'cukup baik oleh
persamaan regresi linear: nilai R ^ 2 Apakah 95. semacam ini hasil khas dari regresi time-
series dengan goog fit. Sebagian besar variasi telah dijelaskan, namun masih tetap menjadi
bagian dari variasi yang pada dasarnya acak atau dijelaskan oleh model.
Goodness of fit adalah relatif terhadap topik yang sedang dipelajari. Dalam data time series,
kita sering mendapatkan R tinggi ^ 2 Karena bisa ada tren waktu yang signifikan di kedua sisi
persamaan. Dalam situasi seperti itu, R ^ 2 Mungkin lebih bermakna jika tren waktu telah
dihapus dari data. Dalam data cross-sectional, kita sering mendapatkan rendah R ^ 2 s karena
pengamatan (katakanlah negara) difeer cara-cara yang tidak mudah diukur. Dalam situasi
seperti ini, R ^ 2 Dari 50 mungkin dianggap cocok, dan peneliti akan cenderung berfokus
pada identifikasi variabel-variabel yang memiliki dampak substantif terhadap variabel
dependen, bukan pada R ^ 2. Dengan kata lain, tidak ada metode sederhana untuk
menentukan seberapa tinggi R ^ 2 Harus untuk fit yang akan dianggap memuaskan.
Sebaliknya, mengetahui kapan R ^ 2 Apakah relatif besar atau kecil adalah masalah
pengalaman. Perlu dicatat bahwa R tinggi ^ 2 Apakah tidak berarti bahwa perubahan X
menyebabkan perubahan Y, karena mungkin ada variabel yang mendasari yang menyebabkan
perubahan perubahan baik X dan Y secara bersamaan.
Gambar 2.6 menunjukkan cocok R ^ 2 = 1. fit seperti itu menyiratkan bahwa tidak ada
estimasi diperlukan. Hubungan ini benar-benar deterministik, dan kemiringan dan mencegat
dapat dihitung dari koordinat dua titik. Bahkan, dilaporkan persamaan dengan R ^ 2S sama
dengan (yang sangat dekat) yang harus dilihat dengan kecurigaan; mereka sangat mungkin
tidak menjelaskan KASIH bergerak dari variabel dependet Y dalam hal proposisi kasual
maju, bahkan thoygh mereka menjelaskannya secara empiris. Hati-hati ini berlaku untuk
aplikasi ekonomi, tetapi belum tentu bagi mereka di bidang-bidang seperti fisika atau kimia.
2.4.2 Koefisien Korelasi sederhana, r
Ukuran terkait yang akan berguna dalam bab-bab selanjutnya adalah "r," koefisien korelasi
sederhana. Korelasi coeffitient sederhana, r, adalah ukuran dari kekuatan dan arah hubungan
linier antara dua variabel. Kisaran r adalah dari 1 sampai -1, dan tanda r menunjukkan arah
korelasi antara dua variabel. Dekat nilai mutlak dari r adalah 1, semakin kuat korelasi antara
dua variabel. Dengan demikian:
Jika dua variabel yang berkorelasi sempurna positif, maka r = +1
Jika dua variabel yang berkorelasi sempurna negatif, maka r = -1
Iftwo variabel benar-benar tidak berkorelasi, maka r = 0
Kami akan menggunakan koefisien korelasi sederhana dalam Bab 6 dan setiap bab
selanjutnya untuk menggambarkan hubungan antara dua variabel. Menariknya, ternyata r dan
R ^ 2 Untuk regresi di mana salah satu dari dua variabel adalah variabel dependen dan yang
lainnya adalah satu-satunya variabel independen.
2.4.3 R ^ 2, disesuaikan R ^ 2
Masalah utama dengan R ^ 2 Apakah itu menambahkan variabel independen lain untuk
persamaan tertentu tidak dapat menurunkan R ^ 2. Artinya, Anda membandingkan dua
regresi identik (variabel dependet sama dan variabel independen), kecuali satu yang memiliki
independentvariable tambahan, persamaan dengan jumlah yang lebih besar dari variabel
independen akan selalu memiliki yang lebih baik (atau sama) fit yang diukur dengan R ^ 2 .
Untuk melihat ini, mengingat persamaan untuk R ^ 2, Persamaan 2.14
R ^ 2 = ESS / TSS = 1-RSS / TSS = 1- Σ_ (e_i ^ 2) / (Σ 〖(Y_ (i- Ȳ))〗 ^ 2) (2.14)
Jika RSS jatuh dan TSS tetap konstan, R ^ 2 Akan meningkat. Karena variabel dependen
tidak berubah, TSS masih sama. Juga, karena OLS memastikan bahwa menambahkan
variabel tidak akan meningkatkan residual kuadrat dijumlahkan, RSS hanya akan mengurangi
atau tetap sama. Anda tahu bahwa RSS tidak akan meningkat karena program OLS selalu
bisa mengatur koefisien ditambahkan variabel sama dengan nol, sehingga memberikan fit
yang sama seperti persamaan sebelumnya. Koefisien variabel baru ditambahkan menjadi nol
adalah satu-satunya keadaan di mana R ^ 2 Akan tetap sama ketika variabel ditambahkan.
Jika tidak, R ^ 2 Akan selalu meningkat bila variabel ditambahkan ke persamaan.
Penambahan variabel perlu dibandingkan dengan penurunan derajat kebebasan sebelum
keputusan dapat dibuat sehubungan dengan dampak statistik variabel tambahan.
Pada intinya, adalah sedikit membantu jika kita mencoba untuk memutuskan apakah
menambahkan variabel ke persamaan meningkatkan kemampuan kita untuk bermakna
menjelaskan variabel dependen. Karena masalah ini, ekonometri telah mengembangkan
ukuran lain kualitas fit dari persamaan. Ukuran yang (diucapkan R-squared-bar), yang
merupakan disesuaikan dengan derajat kebebasan:
mengukur persentase variasi Y sekitar mean dijelaskan oleh persamaan regresi,
disesuaikan dengan derajat kebebasan.
akan naik, turun, atau tetap sama ketika variabel ditambahkan ke persamaan, tergantung
pada apakah peningkatan fit disebabkan oleh penambahan variabel baru melebihi hilangnya
derajat kebebasan. Memang, untuk persamaan berat menebak menurun hingga 0,72 jika
variabel kotak surat ditambahkan. Variabel kotak surat, karena tidak memiliki hubungan
teoritis berat, sebaiknya tidak dimasukkan dalam persamaan, dan ukuran mendukung
kesimpulan ini.
Kemungkinan tertinggi adalah 1,00, sama dengan . Kemungkinan terendah Namun,
tidak. 00; jika sangat rendah, dapat sedikit negatif.
dapat digunakan untuk membandingkan cocok persamaan dengan variabel dependen yang
sama dan nomor yang berbeda dari variabel independen. Karena properti ini, sebagian besar
peneliti secara otomatis menggunakan bukannya ketika mengevaluasi fit persamaan
regresi diperkirakan mereka. Bahkan, telah menjadi sangat populer sehingga
menggantikan di sebagian melaporkan hasil regresi.
Akhirnya, peringatan adalah dalam rangka. Selalu ingat bahwa kualitas fit dari persamaan
diperkirakan hanya satu ukuran kualitas keseluruhan regresi yang. Seperti disebutkan di atas,
sejauh mana koefisien yang diperkirakan sesuai dengan teori ekonomi dan harapan peneliti
sebelumnya tentang orang-koefisien yang sama pentingnya dengan fit sendiri. Misalnya,
sebuah persamaan diperkirakan dengan cocok tetapi dengan tanda masuk akal untuk
koefisien diperkirakan akan memberikan prediksi tidak masuk akal dan dengan demikian
tidak menjadi persamaan yang sangat berguna. Faktor-faktor lain, seperti relevansi teoritis
dan kegunaan, juga ikut bermain. Mari kita lihat contoh faktor ini.
2.5 Contoh Penyalahgunaan
Bagian 2.4 menunjukkan bahwa semakin tinggi fit keseluruhan persamaan diberikan,
semakin baik. Sayangnya, banyak peneliti mulai menganggap bahwa jika tinggi (atau )
yang baik, maka memaksimalkan adalah cara terbaik untuk memaksimalkan kualitas
persamaan. Asumsi tersebut berbahaya karena secara keseluruhan cocok hanya satu ukuran
kualitas sebuah persamaan.
Mungkin cara terbaik untuk memvisualisasikan bahaya yang melekat dalam memaksimalkan
tanpa memperhatikan arti ekonomi atau signifikansi statistik dari persamaan adalah
dengan melihat contoh penyalahgunaan tersebut. Hal ini penting karena merupakan salah satu
hal yang peneliti setuju dalam teori bahwa " memaksimalkan" buruk, dan itu adalah hal
yang sama sekali berbeda bagi peneliti bahwa untuk menghindari sadar memaksimalkan
proyek. Sangat mudah untuk setuju bahwa tujuan regresi tidak untuk memaksimalkan
tetapi banyak peneliti merasa sulit untuk menahan godaan itu.
Sebagai contoh, asumsikan bahwa Anda telah disewa oleh Negara Bagian California untuk
membantu legislatif mengevaluasi tagihan untuk memberikan lebih banyak air untuk
Southern California. Masalah ini penting karena keputusan harus dibuat apakah atau tidak
untuk merusak, melalui sistem bendungan, salah satu yang terbaik daerah negara trout
memancing. Di satu sisi masalah ini adalah Southern California yang mengklaim bahwa
lingkungan gurun-seperti mereka membutuhkan lebih banyak air; di sisi lain adalah pecinta
alam dan lingkungan hidup yang ingin mempertahankan keindahan alam yang California
terkenal. Tugas Anda adalah untuk meramalkan jumlah air yang diminta di Los Angeles
Country, pengguna terbesar air di negara bagian.
Karena RUU ini akan datang sebelum legislatif negara, Anda dipaksa untuk memilih antara
dua regresi yang telah berjalan untuk Anda, satu per satu econometrician negara dan lainnya
oleh konsultan independen. Anda akan mendasarkan perkiraan Anda pada salah satu dari dua
persamaan tersebut. Persamaan negara econometrician ini:
= 24,000 + 48,000PR + 0.40P – 370RF
= .859 DF = 25
Persamaan konsultan independen:
DF = 26
Dimana: W = jumlah total air yang dikonsumsi di Los Angeles Negara pada tahun
tertentu (diukur dalam jutaan galon)
PR = harga dari galon air yang tahun (diukur dalam dolar nyata)
P = penduduk di Los Angeles Negara tahun itu
RF = jumlah curah hujan tahun (diukur dalam inci)
DF = derajat kebebasan, yang sama dengan jumlah observasi (N = 29, karena
bertahun-tahun dalam sampel adalah 1.970 sampai 1.998) dikurangi jumlah
koefisien estimasi
Pertanyaannya adalah apakah peningkatan bernilai tanda tak terduga dalam harga
koefisien air Persamaan 2.16. yang econometrician negara berpendapat bahwa mengingat
lebih cocok persamaan nya, itu akan melakukan pekerjaan yang lebih baik dari kebutuhan air
peramalan. Konsultan independen berpendapat bahwa hal itu tidak masuk akal untuk
mengharapkan bahwa kenaikan harga di masa depan akan, memegang variabel lain dalam
konstanta persamaan, meningkatkan jumlah air yang diminta di Los Angeles. Selain itu,
mengingat tanda tak terduga koefisien, tampaknya jauh lebih mungkin bahwa permintaan air
tidak berhubungan dengan harga selama periode sampel atau bahwa beberapa variabel
penting (seperti pendapatan per kapita riil) telah ditinggalkan dari kedua persamaan. Karena
jumlah uang yang dihabiskan di atas air cukup rendah dibandingkan dengan pengeluaran
lainnya selama tahun-tahun sampel, konsultan menunjukkan, adalah mungkin bahwa
permintaan untuk air cukup harga inelastis. Argumen ekonomi untuk tanda positif diamati
oleh econometrician negara sulit untuk membenarkan; itu berarti bahwa harga air naik,
demikian juga jumlah air yang diminta.
Apakah argumen ini hanya akademik? Jawabannya, sayangnya, tidak ada. jika perkiraan
dibuat dengan Persamaan 2.16, maka akan cenderung lebih dari perkiraan kebutuhan air
dalam skenario yang meramalkan kenaikan harga dan permintaan air dibawah perkiraan
dengan skenario harga yang lebih rendah. Pada dasarnya, persamaan dengan baik cocok akan
melakukan pekerjaan yang lebih buruk dari perkiraan.
Dengan demikian, seorang peneliti yang menggunakan sebagai satu-satunya ukuran
kualitas sebuah persamaan (dengan mengorbankan teori ekonomi atau signifikansi statistik)
dalam lipatan kemungkinan memiliki hasil yang tidak representatif atau menyesatkan.
Praktek ini harus dihindari di semua biaya. Tidak ada aturan sederhana estimasi ekonometrik
kemungkinan untuk bekerja dalam semua kasus. Sebaliknya, kombinasi kemampuan teknis,
teoritis, penilaian, dan akal sehat untuk membuat econometrician baik.
Untuk membantu menghindari dorongan alami untuk memaksimalkan tanpa
memperhatikan seluruh persamaan, Anda mungkin menemukan itu berguna untuk
membayangkan percakapan berikut:
Anda: kadang-kadang, sepertinya cara terbaik untuk memilih antara dua model adalah untuk
memilih salah satu yang memberikan tertinggi.
Hati nurani Anda: tapi itu akan menjadi salah.
Anda: Saya tahu bahwa tujuan analisis regresi adalah untuk mendapatkan estimasi terbaik
dari koefisien populasi yang sebenarnya dan tidak mendapatkan tinggi, tapi hasilnya saya
"terlihat lebih baik" jika cocok saya baik.
Hati nurani Anda: terlihat lebih baik kepada siapa? Ini tidak aneh untuk mendapatkan
tinggi, tetapi menemukan bahwa beberapa koefisien regresi memiliki tanda yang
bertentangan dengan harapan teoritis.
Anda: baik, saya kira saya harus lebih peduli dengan relevansi logis dari variabel penjelas
dibandingkan dengan pas, ya?
Hati nurani Anda: benar! Jika dalam proses ini kita memperoleh tinggi, baik dan bagus,
tetapi jika tinggi, itu tidak berarti bahwa model yang baik.
Anda: amin.