LOGISTIC REGRESSION Chapter 1
Regresi logistic merupakan salah satu analisi multivariate, yang
berguna untuk memprediksi dependent variabel berdasarkan variabel
independen.
Data
Pada logistic regresi, dependen variabel adalah variabel dikotomi
(kategori). Ketika kategori variabel dependennya berjumlah dua kategori
maka digunakan binary logistic, dan ketika dependen variabelnya lebih
dari dua kategori maka digunakan multinominal logistic regression. Lalu
ketika dependen variabelnya berbentuk ranking, maka disebut dengan
ordinal logistic regression.
Konsep Regresi Logistik
Regresi logistik merupakan alternative uji jika asumsi multivariate
normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika
akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini
dikarenakan variabel bebas merupakan campuran antara variabel kontinyu
(metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang
yang menderita serangan jantung pada waktu tertentu dapat diprediksi
dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Asumsi Regresi Logistik
- Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan variabel terikat.
- Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian Nasional.
- Variabel bebas tidak memerlukan asumsi multivariate normality
- Asumsi homokedastis tidak diperlukan
- Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)
CONTOH KASUS Logistic Regression
Data Yang Diberikan Adalah Data Fiktif Bukan Data Sebenarnya, Cuma Sebagai Latihan Uji Statistik
Seorang dokter ingin mengetahui probabilitas seorang pasien terkena
penyakit jantung berdasarkan rutinitas kebiasaan merokok dan usia
Data dikumpulkan dari catatan medis sebanyak 30 orang pasien yang melakukan pemeriksaan kesehatan di RS ABC
Sakit | Rokok | Usia |
1 | 0 | 51 |
1 | 1 | 46 |
1 | 1 | 53 |
1 | 0 | 55 |
1 | 1 | 43 |
1 | 1 | 33 |
1 | 1 | 42 |
1 | 1 | 42 |
1 | 1 | 46 |
1 | 1 | 51 |
1 | 1 | 46 |
1 | 1 | 46 |
1 | 1 | 46 |
1 | 1 | 51 |
1 | 1 | 25 |
0 | 1 | 29 |
0 | 0 | 38 |
0 | 0 | 31 |
0 | 0 | 47 |
0 | 0 | 50 |
0 | 0 | 51 |
0 | 1 | 41 |
0 | 0 | 32 |
0 | 0 | 42 |
0 | 0 | 38 |
0 | 0 | 40 |
0 | 0 | 42 |
0 | 0 | 33 |
0 | 0 | 43 |
0 | 0 | 46 |
Keterangan :
sakit (1), tidak sakit (0)
merokok (1), tdk merokok (0)
Usia (usia dalam tahun)
PENYELESAIAN KASUS
Pada menu Analyze, Pilih Regression >> Binary Logistic
Masukkan variabel sakit ke Dependent, kemudian variabel rokok dan usia ke “covariate box”
Kemudian, Klik Options, lalu beri tanda pada Classification Plots,
Hosmer-Lemeshow GoF, Correlation matrix, dan itteration history
Klik Continue, kemudian OK
HASIL Dan INTERPRESTASI
Output didownload OUTPUT LOGISTIC REGRESSION 1
Menilai Model Fit
Untuk menilai model fit dapat diperhatikan nilai statistik -2LogL
yaitu tanpa mengikutsertakan variabel hanya berupa konstanta yaitu
sebesar 41.589. Ketika dimasukkan 2 variabel baru maka prediksi nilai
-2LogL sebesar 16.750. Artinya terdapat penurunan sebesar 41.589 –
16.750 = 24.839.
Untuk -2LogL pertama diperoleh nilai 41.589 dengan df1 = 30-1 = 29.
Nilai ini signifikan pada alpha 5% yang berarti Ho ditolak, artinya
model tidak fit.
nilai -2LogL kedua adalah sebesar 16.750 dengan df2 = 30-3 = 27
adalah tidak signifikan pada alpha 5%. (Nilai statistik -2LogL di atas
dibandingkan dengan nilai statistik distribusi x^2.), artinya model fit
dengan data.
Statistik -LogL dapat digunakan untuk menentukan apakah jika variabel
bebas dimasukkan dalam model dapat secara signifikan mempengaruhi
model. dengan selisih 24.839 dan df(df1-df2=29-27=2) maka menunjukkan
angka ini signifikan pada alpha 5%. Hal ini berarti Ho ditolak dan Model
fit dengan data.
Cox n Snell’s R Square adalah ukuran pengaruh bersama yaitu sebesar
0.563 dan nilai Nagelkerke R Square adalah sebesar 0.751. dengan
demikian dapat disimpulkan bahwa kemampuan variabel bebas menjelaskan
model adalah sebesar 75.10%.
Selanjutnya, Hosmer and Lemeshow’s GoF dilakukan untuk menguji
hipotesis. Jika sig < 0.05 maka Ho ditolak yang berarti ada perbedaan
signifikan antara model dengan nilai observasinya. Jika sig > 0.05
maka Ho diterima, artinya tidak ada perbedaan antara model dan nilai
observasinya.
statistik Hosmer and Lemeshow’s GoF diperoleh sebesar 0.594 (>
0.05) sehingga dapat dinyatakan bahwa model fit dengan data. Hosmer and
Lemeshow’s GoF juga menghasilkan nilai 6.475 dengan probabilitas sebesar
0,594 sehingga dapat disimpulkan bahwa model fit dengan data.
Estimasi Parameter dan Interprestasi
Estimasi Maximum Likehood parameter model dapat dilihat dari output
pada tabel Variables in the Equation. Logistic Regression kemudian dapat
dinyatakan :
Ln P/1-P = -11.506 + 5.348 Rokok + .210 Usia.
Variabel bebas kebiasaan merokok signifikan dengan probabilitas
sebesar 0.004 (< 0.05) dan variabel usia juga signifikan dengan
probabilitas 0.032. dengan memperhatikan persamaan ini maka dapat
diinterprestasikan sbb :
Log of Odds seseorang terkena secara positif berhubungan dengan
rokok. Probabilitas atau Odds seorang terkena penyakit jantung jika ia
perokok adalah sebesar 5.348. artinya seorang perokok memiliki
kemungkinan terkena serangan jantung 5.35 kali lebih besar dibanding
yang tidak merokok.
Jika variabel rokok dianggap konstan, maka probabilitas seseorang
terkena serangan jantung adalah sebesar 0.210 pada setiap kenaikan satu
tahun usia.
Jika Rokok dianggap konstan, maka seseorang memiliki odds terkena
penyakit jantung adalah sebesar 1.233 untuk setiap penambahan usia.
Sementara jika usia bernilai konstan maka odds seorang terkena penyakit
jantung adalah sebesar 210.286 untuk perokok dibandingkan dengan yang
tidak merokok. Hasil overall clasification rate adalah sebesar 90.0%
pada cutoff 50%
Kesimpulan
- Pertama. Variabel rokok dan usia memiliki hubungan positif dengan odds penyakit jantung
- Kedua. Jika usia bernilai konstan, maka seorang perokok memiliki odds terkena penyakit jantung sebesar 5.384 kali lebih besar dibanding yang tidak merokok
- Ketiga. Jika rokok bernilai konstan, maka odds seorang terkena penyakit jantung adalah sebesar 0.210 pada setiap penambahan usia.
Catatan :
Cuma diingatkan….data yang Diberikan Adalah Data Fiktif Bukan Data Sebenarnya, Cuma Sebagai Latihan Uji Statistik
Sumber Referensi :
SPSS menu help
Imam Ghozali. 2009. Aplikasi Analisis Multivariate dengan program SPSS. Semarang BP:Undip, hal : 261-275
Tidak ada komentar:
Posting Komentar