ANALISIS REGRESI SEM



Garis regresi untuk 50 titik acak dalam distribusi Gaussian disekitar garis y = 1,5x + 2 (tidak ditampilkan).
Dalam pemodelan statistik , analisis regresi adalah seperangkat proses statistik untuk memperkirakan hubungan antara variabel dependen (sering disebut 'variabel hasil') dan satu atau lebih variabel independen (sering disebut 'prediktor', 'kovariat', atau 'fitur' ). Bentuk paling umum dari analisis regresi adalah regresi linier , di mana seorang peneliti menemukan garis (atau kombinasi linear yang lebih kompleks) yang paling cocok dengan data sesuai dengan kriteria matematika tertentu. Misalnya, metode kuadrat terkecil biasamenghitung garis unik (atau hyperplane) yang meminimalkan jumlah jarak kuadrat antara data yang benar dan garis (atau hyperplane). Untuk alasan matematis tertentu (lihat regresi linier ), ini memungkinkan peneliti untuk memperkirakan ekspektasi bersyarat (atau nilai rata-rata populasi) dari variabel dependen ketika variabel independen mengambil sekumpulan nilai tertentu. Bentuk regresi yang kurang umum menggunakan prosedur yang sedikit berbeda untuk memperkirakan parameter lokasi alternatif (misalnya, regresi kuantil atau Analisis Kondisi yang Diperlukan [1] ) atau memperkirakan ekspektasi bersyarat pada koleksi model non-linear yang lebih luas (misalnya, regresi nonparametrik ).
Analisis regresi terutama digunakan untuk dua tujuan yang berbeda secara konseptual. Pertama, analisis regresi secara luas digunakan untuk prediksi dan peramalan , di mana penggunaannya memiliki tumpang tindih substansial dengan bidang pembelajaran mesin . Kedua, dalam beberapa situasi analisis regresi dapat digunakan untuk menyimpulkan hubungan sebab akibat antara variabel independen dan dependen. Yang penting, regresi sendiri hanya mengungkapkan hubungan antara variabel dependen dan koleksi variabel independen dalam dataset tetap.Untuk menggunakan regresi untuk prediksi atau untuk menyimpulkan hubungan sebab akibat, masing-masing, seorang peneliti harus hati-hati membenarkan mengapa hubungan yang ada memiliki kekuatan prediksi untuk konteks baru atau mengapa hubungan antara dua variabel memiliki interpretasi kausal. Yang terakhir ini sangat penting ketika peneliti berharap untuk memperkirakan hubungan sebab akibat menggunakan data pengamatan . [2] [3]

Sejarah



Bentuk regresi paling awal adalah metode kuadrat terkecil , yang diterbitkan oleh Legendre pada tahun 1805, [4] dan oleh Gauss pada tahun 1809. [5] Legendre dan Gauss menerapkan metode ini pada masalah penentuan, dari pengamatan astronomi, mengorbit benda-benda tentang Matahari (kebanyakan komet, tetapi juga kemudian planet minor yang baru ditemukan). Gauss menerbitkan pengembangan lebih lanjut dari teori kuadrat terkecil pada tahun 1821, [6] termasuk versi teorema Gauss-Markov .
Istilah "regresi" diciptakan oleh Francis Galton pada abad kesembilan belas untuk menggambarkan fenomena biologis. Fenomena itu adalah bahwa ketinggian keturunan leluhur tinggi cenderung mundur ke bawah rata-rata normal (sebuah fenomena yang juga dikenal sebagai regresi menuju rata-rata ). [7] [8] Untuk Galton, regresi hanya memiliki makna biologis ini, [9] [10] tetapi karyanya kemudian diperluas oleh Udny Yule dan Karl Pearson ke konteks statistik yang lebih umum. [11] [12]Dalam karya Yule dan Pearson, distribusi gabungan dari variabel respon dan penjelas diasumsikan sebagai Gaussian . Asumsi ini dilemahkan oleh RA Fisher dalam karya-karyanya tahun 1922 dan 1925. [13] [14] [15] Fisher berasumsi bahwa distribusi bersyarat dari variabel respon adalah Gaussian, tetapi distribusi bersama tidak perlu.Dalam hal ini, asumsi Fisher lebih dekat dengan formulasi Gauss tahun 1821.
Pada 1950-an dan 1960-an, para ekonom menggunakan "kalkulator" meja elektromekanis untuk menghitung regresi. Sebelum 1970, kadang-kadang butuh waktu hingga 24 jam untuk menerima hasil dari satu regresi. [16]
Metode regresi terus menjadi bidang penelitian aktif. Dalam beberapa dekade terakhir, metode baru telah dikembangkan untuk regresi yang kuat , regresi yang melibatkan respons berkorelasi seperti deret waktu dan kurva pertumbuhan , regresi di mana variabel prediktor (variabel independen) atau respons adalah kurva, gambar, grafik, atau objek data kompleks lainnya, metode regresi mengakomodasi berbagai jenis data yang hilang, regresi nonparametrik , metode Bayesian untuk regresi, regresi di mana variabel prediktor diukur dengan kesalahan, regresi dengan lebih banyak variabel prediktor daripada pengamatan, dan inferensial kausal dengan regresi.

model regresi



Dalam praktiknya, para peneliti pertama-tama memilih model yang ingin mereka perkirakan dan kemudian menggunakan metode yang mereka pilih (misalnya, kuadrat terkecil biasa ) untuk memperkirakan parameter dari model itu. Model regresi melibatkan komponen-komponen berikut:
  • Parameter yang tidak diketahui , sering dilambangkan sebagai skalar atau vektor \beta  .
  • Variabel independen , yang diamati dalam data dan sering dilambangkan sebagai vektor  X_{i} (dimana  i menunjukkan deretan data).
  • Variabel dependen , yang diamati dalam data dan sering dilambangkan dengan menggunakan skalar  Y_{i} .
  • Istilah kesalahan , yang tidak secara langsung diamati dalam data dan sering dinotasikan menggunakan skalar  e_{i} .
Dalam berbagai bidang aplikasi , berbagai terminologi digunakan sebagai pengganti variabel dependen dan independen .
Sebagian besar model regresi mengusulkan itu  Y_{i} adalah fungsi dari  X_{i} dan  \beta  , dengan  e_{i} mewakili istilah kesalahan aditif yang mungkin berlaku untuk penentu un-modeled  Y_{i} atau noise statistik acak:
 {\displaystyle Y_{i}=f(X_{i},\beta )+e_{i}}
Tujuan para peneliti adalah untuk memperkirakan fungsi  {\displaystyle f(X_{i},\beta )} yang paling cocok dengan data. Untuk melakukan analisis regresi, bentuk fungsi  f harus ditentukan. Terkadang bentuk fungsi ini didasarkan pada pengetahuan tentang hubungan antar  Y_{i} dan  X_{i} itu tidak bergantung pada data. Jika tidak ada pengetahuan seperti itu tersedia, bentuk yang fleksibel atau nyaman untuk  fterpilih. Sebagai contoh, sebuah regresi univariat sederhana dapat diusulkan  {\displaystyle f(X_{i},\beta )=\beta _{0}+\beta _{1}X_{i}} , menunjukkan bahwa peneliti percaya  {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i}+e_{i}} menjadi perkiraan yang masuk akal untuk proses statistik menghasilkan data.
Setelah peneliti menentukan model statistik pilihan mereka, berbagai bentuk analisis regresi menyediakan alat untuk memperkirakan parameter  \beta  . Sebagai contoh, kuadrat terkecil (termasuk varian yang paling umum, kuadrat terkecil biasa ) menemukan nilai  \beta  yang meminimalkan jumlah kesalahan kuadrat  {\displaystyle \sum _{i}(Y_{i}-f(X_{i},\beta ))^{2}} . Metode regresi yang diberikan pada akhirnya akan memberikan estimasi  \beta  , biasanya dilambangkan  \hat{\beta} untuk membedakan estimasi dari nilai parameter true (tidak diketahui) yang menghasilkan data. Dengan menggunakan estimasi ini, peneliti kemudian dapat menggunakan nilai pas  {\displaystyle {\hat {Y_{i}}}=f(X_{i},{\hat {\beta }})} untuk prediksi atau untuk menilai keakuratan model dalam menjelaskan data. Apakah peneliti secara intrinsik tertarik pada estimasi tersebut  \hat{\beta}atau nilai prediksi  {\displaystyle {\hat {Y_{i}}}} akan tergantung pada konteks dan tujuannya. Seperti yang dijelaskan dalam kuadrat terkecil biasa , kuadrat terkecil banyak digunakan karena fungsi yang diestimasi  {\displaystyle f(X_{i},{\hat {\beta }})} mendekati ekspektasi bersyarat  {\displaystyle E(Y_{i}|X_{i})} . [5]Namun, varian alternatif (misalnya, paling tidak penyimpangan absolut atau regresi kuantil ) berguna ketika para peneliti ingin memodelkan fungsi-fungsi lain.  {\displaystyle f(X_{i},\beta )} .
Penting untuk dicatat bahwa harus ada data yang cukup untuk memperkirakan model regresi. Sebagai contoh, anggaplah seorang peneliti memiliki akses ke  Nbaris data dengan satu variabel dependen dan dua independen:  {\displaystyle (Y_{i},X_{1i},X_{2i})} .Anggap lebih jauh bahwa peneliti ingin memperkirakan model linear bivariat melalui kuadrat terkecil :  {\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+e_{i}} . Jika peneliti hanya memiliki akses ke  N=2 titik data, maka mereka dapat menemukan banyak kombinasi tanpa batas  {\displaystyle ({\hat {\beta }}_{0},{\hat {\beta }}_{1},{\hat {\beta }}_{2})} yang menjelaskan data dengan baik: kombinasi apa pun dapat dipilih yang memuaskan  {\displaystyle {\hat {Y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}} , yang semuanya mengarah ke  {\displaystyle \sum _{i}{\hat {e}}_{i}^{2}=\sum _{i}({\hat {Y}}_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}))^{2}=0} dan karena itu solusi yang valid yang meminimalkan jumlah residu kuadrat. Untuk memahami mengapa ada banyak pilihan yang tak terbatas, perhatikan bahwa sistem  N=2persamaan harus diselesaikan untuk 3 yang tidak diketahui, yang membuat sistem tidak ditentukan . Atau, seseorang dapat memvisualisasikan banyak pesawat 3 dimensi yang tak terbatas  N=2 poin tetap.
Lebih umum, untuk memperkirakan model kuadrat terkecil dengan  k parameter yang berbeda, harus dimiliki  {\displaystyle N\geq k} titik data yang berbeda. Jika  {\displaystyle N>k} , maka ada umumnya tidak ada satu set parameter yang akan cocok dengan data. Kuantitas N-k sering muncul dalam analisis regresi, dan disebut sebagai derajat kebebasandalam model. Selain itu, untuk memperkirakan model kuadrat terkecil, variabel independen  {\displaystyle (X_{1i},X_{2i},...,X_{ki})} harus independen secara linear : seseorang tidakboleh dapat merekonstruksi variabel independen dengan menambahkan dan mengalikan variabel independen yang tersisa. Sebagaimana dibahas dalam kuadrat terkecil biasa , kondisi ini memastikan hal itu  {\displaystyle X^{T}X} adalah matriks Invertible dan karena itu solusi  \hat{\beta} ada

Asumsi yang mendasari



Dengan sendirinya, regresi hanyalah perhitungan menggunakan data. Untuk menafsirkan hasil regresi sebagai kuantitas statistik yang bermakna yang mengukur hubungan dunia nyata, peneliti sering mengandalkan sejumlah asumsi klasik. Ini sering termasuk:
  • Sampel mewakili populasi pada umumnya.
  • Variabel independen diukur tanpa kesalahan.
  • Penyimpangan dari model memiliki nilai yang diharapkan dari nol, tergantung pada kovariat:  {\displaystyle E(e_{i}|X_{i})=0}
  • Varian dari residu  e_{i} konstan di seluruh pengamatan ( homoscedasticity ).
  • Residu  e_{i} tidak berkorelasi satu sama lain. Secara matematis, matriks varians-kovarian kesalahan adalah diagonal .
Sejumlah kondisi cukup untuk estimator kuadrat-terkecil untuk memiliki sifat yang diinginkan: khususnya, asumsi Gauss-Markov menyiratkan bahwa estimasi parameter akan tidak bias , konsisten , dan efisien dalam kelas estimator linier yang tidak bias.Praktisi telah mengembangkan berbagai metode untuk mempertahankan beberapa atau semua sifat yang diinginkan ini dalam pengaturan dunia nyata, karena asumsi klasik ini tidak mungkin benar. Misalnya, pemodelan kesalahan-dalam-variabel dapat menyebabkan estimasi yang masuk akal variabel independen diukur dengan kesalahan. Kesalahan standar yang konsisten heteroskedastisitas memungkinkan varians  e_{i} untuk mengubah nilai lintas  X_{i} . Kesalahan terkait yang ada dalam himpunan bagian data atau mengikuti pola tertentu dapat ditangani menggunakan kesalahan standar berkerumun, regresi geografis tertimbang , atau kesalahan standar Newey-Barat , di antara teknik lainnya. Ketika baris data sesuai dengan lokasi di ruang, pilihan cara memodelkan  e_{i} dalam unit geografis dapat memiliki konsekuensi penting. [17] [18] Subbidang ekonometrik sebagian besar berfokus pada pengembangan teknik yang memungkinkan para peneliti untuk membuat kesimpulan dunia nyata yang masuk akal dalam pengaturan dunia nyata, di mana asumsi klasik tidak berlaku secara tepat.

regresi linier



Dalam regresi linier, spesifikasi model adalah bahwa variabel dependen,  y_{i} adalah kombinasi linear dari parameter (tetapi tidak harus linier dalam variabel independen ).Misalnya, dalam regresi linier sederhana untuk pemodelan  n poin data ada satu variabel independen:  x_{i} , dan dua parameter,  \beta _{0} dan  \beta _{1} :
garis lurus:  y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\quad i=1,\dots ,n.\!
Dalam regresi linier berganda, ada beberapa variabel independen atau fungsi variabel independen.
Menambahkan istilah dalam  {\displaystyle x_{i}^{2}} regresi sebelumnya memberikan:
parabola:  y_{i}=\beta _{0}+\beta _{1}x_{i}+\beta _{2}x_{i}^{2}+\varepsilon _{i},\ i=1,\dots ,n.\!
Ini masih regresi linier; meskipun ekspresi di sisi kanan kuadratik dalam variabel independen  x_{i} , itu linear dalam parameter  \beta _{0} ,  \beta _{1} dan  \beta _{2}.
Dalam kedua kasus tersebut,  \varepsilon _{i} adalah istilah kesalahan dan subskrip  i indeks pengamatan tertentu.
Mengembalikan perhatian kami ke kasus garis lurus: Diberikan sampel acak dari populasi, kami memperkirakan parameter populasi dan mendapatkan model regresi linier sampel:
 {\displaystyle {\widehat {y}}_{i}={\widehat {\beta }}_{0}+{\widehat {\beta }}_{1}x_{i}.}
Sisa ,  e_{i}=y_{i}-{\widehat {y}}_{i} , adalah perbedaan antara nilai variabel dependen yang diprediksi oleh model,  {\displaystyle {\widehat {y}}_{i}} , dan nilai sebenarnya dari variabel dependen,  y_{i} . Salah satu metode estimasi adalah kuadrat terkecil biasa . Metode ini memperoleh estimasi parameter yang meminimalkan jumlah residu kuadrat, SSR :
 {\displaystyle SSR=\sum _{i=1}^{n}e_{i}^{2}.\,}
Minimalisasi fungsi ini menghasilkan satu set persamaan normal , satu set persamaan linear simultan dalam parameter, yang diselesaikan untuk menghasilkan penduga parameter,  {\widehat {\beta }}_{0},{\widehat {\beta }}_{1} .

Ilustrasi regresi linier pada set data.
Dalam kasus regresi sederhana, rumus untuk estimasi kuadrat terkecil adalah
 {\displaystyle {\widehat {\beta }}_{1}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum (x_{i}-{\bar {x}})^{2}}}}
 {\displaystyle {\widehat {\beta }}_{0}={\bar {y}}-{\widehat {\beta }}_{1}{\bar {x}}}
dimana  {\bar {x}} adalah rata - rata (rata-rata) dari  x nilai dan  {\bar {y}} adalah rata - rata dari  y nilai-nilai.
Dengan asumsi bahwa istilah kesalahan populasi memiliki varians konstan, estimasi varians tersebut diberikan oleh:
 {\displaystyle {\hat {\sigma }}_{\varepsilon }^{2}={\frac {SSR}{n-2}}.\,}
Ini disebut mean square error (MSE) dari regresi. Penyebutnya adalah ukuran sampel dikurangi dengan jumlah parameter model yang diperkirakan dari data yang sama,  {\displaystyle (n-p)} untuk  p regresi atau  {\displaystyle (n-p-1)} jika intersep digunakan. [19] Dalam hal ini,  p=1 jadi penyebutnya  n-2 .
Kesalahan standar estimasi parameter diberikan oleh
 {\displaystyle {\hat {\sigma }}_{\beta _{1}}={\hat {\sigma }}_{\varepsilon }{\sqrt {\frac {1}{\sum (x_{i}-{\bar {x}})^{2}}}}}
 {\displaystyle {\hat {\sigma }}_{\beta _{0}}={\hat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}={\hat {\sigma }}_{\beta _{1}}{\sqrt {\frac {\sum x_{i}^{2}}{n}}}.}
Di bawah asumsi lebih lanjut bahwa istilah kesalahan populasi terdistribusi secara normal, peneliti dapat menggunakan perkiraan kesalahan standar ini untuk membuat interval kepercayaan dan melakukan tes hipotesis tentang parameter populasi .

Model linear umum

Dalam model regresi berganda yang lebih umum, ada  p Variabel independen:
 y_{i}=\beta _{1}x_{i1}+\beta _{2}x_{i2}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i},\,
dimana  x_{ij} adalah  i -Pengamatan pada tanggal  j variabel independen -th. Jika variabel independen pertama mengambil nilai 1 untuk semua  i ,  {\displaystyle x_{i1}=1} , kemudian  \beta _{1} disebut intersep regresi .
Estimasi parameter kuadrat terkecil diperoleh dari  p persamaan normal. Sisa dapat ditulis sebagai
 \varepsilon _{i}=y_{i}-{\hat {\beta }}_{1}x_{i1}-\cdots -{\hat {\beta }}_{p}x_{ip}.
Persamaan normal adalah
 {\displaystyle \sum _{i=1}^{n}\sum _{k=1}^{p}x_{ij}x_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{n}x_{ij}y_{i},\ j=1,\dots ,p.\,}
Dalam notasi matriks, persamaan normal ditulis sebagai
 \mathbf {(X^{\top }X){\hat {\boldsymbol {\beta }}}={}X^{\top }Y} ,\,
Dimana  ij elemen dari  \mathbf {X}  adalah  x_{ij} , itu  i elemen vektor kolom  Y adalah  y_{i} , dan  j elemen dari  {\displaystyle {\hat {\boldsymbol {\beta }}}} adalah  {\hat {\beta }}_{j} . Jadi  \mathbf {X}  adalah  n\times p ,  Y adalah  n\times 1 , dan  {\displaystyle {\hat {\boldsymbol {\beta }}}}adalah  p\times 1 . Solusinya adalah
 {\displaystyle \mathbf {{\hat {\boldsymbol {\beta }}}=(X^{\top }X)^{-1}X^{\top }Y} .\,}

Diagnostik

Setelah model regresi telah dibangun, mungkin penting untuk mengkonfirmasi goodness of fit model dan signifikansi statistik dari parameter yang diestimasi.Pemeriksaan goodness of fit yang umum digunakan meliputi R-squared , analisis pola residu dan pengujian hipotesis. Signifikansi statistik dapat diperiksa dengan uji-F dari kesesuaian keseluruhan, diikuti dengan uji-t dari masing-masing parameter.
Interpretasi tes diagnostik ini sangat bergantung pada asumsi model. Meskipun pemeriksaan residu dapat digunakan untuk membatalkan model, hasil uji-t atau uji - F terkadang lebih sulit untuk ditafsirkan jika asumsi model dilanggar. Misalnya, jika istilah kesalahan tidak memiliki distribusi normal, dalam sampel kecil parameter yang diestimasi tidak akan mengikuti distribusi normal dan mempersulit inferensi. Namun, dengan sampel yang relatif besar, teorema batas pusat dapat digunakan sedemikian rupa sehingga pengujian hipotesis dapat dilanjutkan dengan menggunakan perkiraan asimptotik.

Variabel dependen terbatas

Variabel dependen terbatas , yang merupakan variabel respons yang merupakan variabel kategorikal atau variabel yang dibatasi untuk jatuh hanya dalam kisaran tertentu, sering muncul dalam ekonometrik .
Variabel respon mungkin non-kontinu ("terbatas" terletak pada beberapa bagian dari garis nyata). Untuk variabel biner (nol atau satu), jika analisis dilanjutkan dengan regresi linier kuadrat-terkecil, model ini disebut model probabilitas linier . Model nonlinear untuk variabel dependen biner termasuk model probit dan logit . Model probit multivariat adalah metode standar untuk memperkirakan hubungan bersama antara beberapa variabel dependen biner dan beberapa variabel independen. Untuk variabel kategori dengan lebih dari dua nilai ada multinomial logit . Untuk variabel ordinal dengan lebih dari dua nilai, ada logit yang dipesan dan model probit yang dipesan . Model regresi yang disensor dapat digunakan ketika variabel dependen hanya kadang-kadang diamati, dan model tipe koreksi Heckman dapat digunakan ketika sampel tidak dipilih secara acak dari populasi yang diminati. Alternatif untuk prosedur tersebut adalah regresi linier berdasarkan korelasi polikorik (atau korelasi poliserial) antara variabel kategori. Prosedur seperti itu berbeda dalam asumsi yang dibuat tentang distribusi variabel dalam populasi. Jika variabel positif dengan nilai-nilai rendah dan mewakili pengulangan terjadinya suatu peristiwa, maka hitung model seperti regresi Poisson atau model binomial negatif dapat digunakan.

regresi linier



Ketika fungsi model tidak linier dalam parameter, jumlah kuadrat harus diminimalkan dengan prosedur berulang. Ini memperkenalkan banyak komplikasi yang dirangkum dalam Perbedaan antara kuadrat terkecil linier dan non-linier .

Interpolasi dan ekstrapolasi




Di tengah, garis lurus terinterpolasi mewakili keseimbangan terbaik antara titik-titik di atas dan di bawah garis ini. Garis putus-putus mewakili dua garis ekstrem. Kurva pertama mewakili nilai estimasi. Kurva luar mewakili prediksi untuk pengukuran baru. [20]
Model regresi memprediksi nilai variabel Ymengingat nilai variabel X yang diketahui. Prediksi dalam kisaran nilai dalam dataset yang digunakan untuk pemasangan model dikenal secara informal sebagai interpolasi . Prediksi di luar rentang data ini dikenal sebagai ekstrapolasi . Melakukan ekstrapolasi sangat bergantung pada asumsi regresi. Semakin jauh ekstrapolasi keluar dari data, semakin banyak ruang bagi model untuk gagal karena perbedaan antara asumsi dan data sampel atau nilai sebenarnya.
Secara umum disarankan bahwa ketika melakukan ekstrapolasi, seseorang harus menyertai nilai estimasi variabel dependen dengan interval prediksi yang mewakili ketidakpastian. Interval seperti itu cenderung berkembang dengan cepat ketika nilai-nilai variabel independen bergerak di luar kisaran yang dicakup oleh data yang diamati.
Untuk alasan tersebut dan lainnya, beberapa cenderung mengatakan bahwa mungkin tidak bijaksana untuk melakukan ekstrapolasi. [21]
Namun, ini tidak mencakup set lengkap kesalahan pemodelan yang dapat dibuat: khususnya, asumsi bentuk tertentu untuk hubungan antara Y dan X. Analisis regresi yang dilakukan dengan benar akan mencakup penilaian seberapa baik formulir yang diasumsikan dicocokkan dengan data yang diamati, tetapi hanya dapat melakukannya dalam kisaran nilai dari variabel independen yang sebenarnya tersedia. Ini berarti bahwa setiap ekstrapolasi sangat bergantung pada asumsi yang dibuat tentang bentuk struktural dari hubungan regresi. Saran praktik terbaik di sini rujukan? ] Adalah bahwa hubungan linear-in-variabel dan linear-in-parameter tidak boleh dipilih hanya untuk kenyamanan komputasi, tetapi bahwa semua pengetahuan yang tersedia harus digunakan dalam membangun model regresi. Jika pengetahuan ini mencakup fakta bahwa variabel dependen tidak dapat pergi di luar rentang nilai tertentu, ini dapat digunakan dalam memilih model - bahkan jika dataset yang diamati tidak memiliki nilai khususnya di dekat batas tersebut. Implikasi dari langkah ini memilih bentuk fungsional yang sesuai untuk regresi bisa menjadi besar ketika ekstrapolasi dipertimbangkan. Minimal, dapat memastikan bahwa setiap ekstrapolasi yang muncul dari model yang pas adalah "realistis" (atau sesuai dengan apa yang diketahui).

Perhitungan daya dan ukuran sampel



Tidak ada metode yang disepakati secara umum untuk menghubungkan jumlah pengamatan versus jumlah variabel independen dalam model. Salah satu aturan praktis yang diduga oleh Good and Hardin adalah  N=m^{n} dimana  N adalah ukuran sampel,  n adalah jumlah variabel independen dan  m adalah jumlah pengamatan yang diperlukan untuk mencapai presisi yang diinginkan jika model hanya memiliki satu variabel independen. [22] Misalnya, seorang peneliti sedang membangun model regresi linier menggunakan dataset yang berisi 1000 pasien (  N ). Jika peneliti memutuskan bahwa lima pengamatan diperlukan untuk menentukan garis lurus secara tepat (  m ), maka jumlah maksimum variabel independen yang dapat didukung model adalah 4, karena
 {\displaystyle {\frac {\log 1000}{\log 5}}=4.29.}

Metode lain



Meskipun parameter model regresi biasanya diperkirakan menggunakan metode kuadrat terkecil, metode lain yang telah digunakan meliputi:
  • Metode Bayesian , misalnya regresi linear Bayesian
  • Persentase regresi, untuk situasi di mana mengurangi kesalahan persentasedianggap lebih tepat. [23]
  • Penyimpangan absolut terkecil , yang lebih kuat dengan adanya outlier, yang mengarah ke regresi kuantil
  • Regresi nonparametrik , membutuhkan sejumlah besar pengamatan dan intensif secara komputasi
  • Optimalisasi skenario , mengarah ke model prediktor interval
  • Pembelajaran metrik jarak, yang dipelajari dengan mencari metrik jarak yang bermakna di ruang input yang diberikan. [24]

Perangkat Lunak



Semua paket perangkat lunak statistik utama melakukan analisis regresi inferensi terkecil dan inferensi. Regresi linier sederhana dan regresi berganda menggunakan kuadrat terkecil dapat dilakukan dalam beberapa aplikasi spreadsheet dan pada beberapa kalkulator. Sementara banyak paket perangkat lunak statistik dapat melakukan berbagai jenis regresi nonparametrik dan kuat, metode ini kurang standar; paket perangkat lunak yang berbeda menerapkan metode yang berbeda, dan metode dengan nama yang diberikan dapat diimplementasikan secara berbeda dalam paket yang berbeda. Perangkat lunak regresi khusus telah dikembangkan untuk digunakan dalam bidang-bidang seperti analisis survei dan neuroimaging.

Lihat juga



  • Kuartet Anscombe
  • Kurva pas
  • Teori estimasi
  • Peramalan
  • Fraksi varian tidak dapat dijelaskan
  • Aproksimasi fungsi
  • Model linier umum
  • Kriging (algoritma estimasi kuadrat terkecil linier)
  • Regresi lokal
  • Masalah unit areal yang dapat dimodifikasi
  • Splines regresi adaptif multivariat
  • Distribusi normal multivarian
  • Pearson koefisien korelasi momen-produk
  • Varians kuasi
  • Interval prediksi
  • Validasi regresi
  • Regresi yang kuat
  • Regresi tersegmentasi
  • Pemrosesan sinyal
  • Regresi bertahap
  • Estimasi tren

Referensi



  1. ^ Diperlukan Analisis Kondisi
  2. ^ David A. Freedman (27 April 2009). Model Statistik: Teori dan Praktek .Cambridge University Press. ISBN 978-1-139-47731-4 .
  3. ^ R. Dennis Cook; Sanford Weisberg Kritik dan Analisis Pengaruh dalam Regresi , Metodologi Sosiologis , Vol. 13. (1982), hlm. 313-361
  4. ^ AM Legendre . Nouvelles méthodes pour la détermination des orbites des comètes , Firmin Didot, Paris, 1805. "Sur la Méthode des moindres quarrés" muncul sebagai lampiran.
  5. a b Bab 1 dari: Angrist, JD, & Pischke, JS (2008). Ekonometrika Paling Tidak Berbahaya: Sahabat Seorang Empiris . Princeton University Press.
  6. ^ CF Gauss. Theoria kombinasi adalah observasi erroribus minimis obnoxiae .(1821/1823)
  7. ^ Mogull, Robert G. (2004). Statistik Terapan Semester Kedua . Kendall / Perusahaan Penerbitan Hunt. hal. 59. ISBN 978-0-7575-1181-3 .
  8. ^ Galton, Francis (1989). "Kekerabatan dan Korelasi (dicetak ulang 1989)". Ilmu Statistik 4 (2): 80–86. doi : 10.1214 / ss / 1177012581 . JSTOR 2245330 .
  9. ^ Francis Galton . "Hukum khas keturunan", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton menggunakan istilah "pembalikan" dalam makalah ini, yang membahas ukuran kacang polong.)
  10. ^ Francis Galton. Pidato Presiden, Bagian H, Antropologi. (1885) (Galton menggunakan istilah "regresi" dalam makalah ini, yang membahas ketinggian manusia.)
  11. ^ Yule, G. Udny (1897). "Tentang Teori Korelasi" . Jurnal Masyarakat Statistik Kerajaan . 60 (4): 812–54. doi : 10.2307 / 2979746 . JSTOR 2979746 .
  12. ^ Pearson, Karl ; Yule, GU; Blanchard, Norman; Lee, Alice (1903). "Hukum Keturunan Leluhur" . Biometrika . 2 (2): 211-236. doi : 10.1093 / biomet / 2.2.211 . JSTOR 2331683 .
  13. ^ Fisher, RA (1922). "Kebaikan formula formula regresi, dan distribusi koefisien regresi" . Jurnal Masyarakat Statistik Kerajaan . 85 (4): 597–612. doi : 10.2307 / 2341124 . JSTOR 2341124 . PMC 1084801 .
  14. ^ Ronald A. Fisher (1954). Metode Statistik untuk Pekerja Penelitian (Twelfth ed.). Edinburgh : Oliver dan Boyd. ISBN 978-0-05-002170-5 .
  15. ^ Aldrich, John (2005). "Fisher dan Regresi". Ilmu Statistik 20 (4): 401–417. doi : 10.1214 / 088342305000000331 . JSTOR 20061201 .
  16. ^ Rodney Ramcharan. Regresi: Mengapa Ekonom Terobsesi dengan Mereka?Maret 2006. Diakses 2011-12-03.
  17. ^ Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Regresi tertimbang secara geografis: analisis hubungan yang bervariasi secara spasial(Cetak ulang ed.). Chichester, Inggris: John Wiley. ISBN 978-0-471-49616-8 .
  18. ^ Fotheringham, AS; Wong, DWS (1 Januari 1991). "Masalah unit areal yang dapat dimodifikasi dalam analisis statistik multivariat". Lingkungan dan Perencanaan A. 23 (7): 1025-1044. doi : 10.1068 / a231025 .
  19. ^ Steel, RGD, dan Torrie, JH, Prinsip dan Prosedur Statistik dengan Referensi Khusus untuk Ilmu Biologi. , McGraw Hill , 1960, halaman 288.
  20. ^ Rouaud, Mathieu (2013). Probabilitas, Statistik, dan Estimasi (PDF) . hal. 60.
  21. ^ Chiang, CL, (2003) Metode analisis statistik , World Scientific. ISBN 981-238-310-7 - halaman 274 bagian 9.7.4 "interpolasi vs ekstrapolasi"
  22. ^ Bagus, PI ; Hardin, JW (2009). Kesalahan Umum dalam Statistik (Dan Cara Menghindarinya) (edisi ke-3). Hoboken, New Jersey: Wiley. hal. 211. ISBN 978-0-470-45798-6 .
  23. ^ Tofallis, C. (2009). "Regresi Persentase Kuadrat Terkecil". Jurnal Metode Statistik Terapan Modern . 7 : 526–534. doi : 10.2139 / ssrn.1406472 . SSRN1406472 .
  24. ^ YangJing Long (2009). "Estimasi usia manusia dengan pembelajaran metrik untuk masalah regresi" (PDF) . Proc Konferensi Internasional tentang Analisis Gambar dan Pola Komputer: 74–82. Diarsipkan dari yang asli (PDF) pada 2010-01-08.