Rabu, 23 Januari 2013

LOGISTIC REGRESSION Chapter 1

LOGISTIC REGRESSION Chapter 1

Regresi logistic merupakan salah satu analisi multivariate, yang berguna untuk memprediksi dependent variabel berdasarkan variabel independen.
Data
Pada logistic regresi, dependen variabel adalah variabel dikotomi (kategori). Ketika kategori variabel dependennya berjumlah dua kategori maka digunakan binary logistic, dan ketika dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk ranking, maka disebut dengan ordinal logistic regression.
Konsep Regresi Logistik
Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Asumsi Regresi Logistik
  • Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan variabel terikat.
  • Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian Nasional.
  • Variabel bebas tidak memerlukan asumsi multivariate normality
  • Asumsi homokedastis tidak diperlukan
  • Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)
CONTOH KASUS Logistic Regression
Data Yang Diberikan Adalah Data Fiktif Bukan Data Sebenarnya, Cuma Sebagai Latihan Uji Statistik
Seorang dokter ingin mengetahui probabilitas seorang pasien terkena penyakit jantung berdasarkan rutinitas kebiasaan merokok dan usia
Data dikumpulkan dari catatan medis sebanyak 30 orang pasien yang melakukan pemeriksaan kesehatan di RS ABC
Sakit Rokok Usia
1 0 51
1 1 46
1 1 53
1 0 55
1 1 43
1 1 33
1 1 42
1 1 42
1 1 46
1 1 51
1 1 46
1 1 46
1 1 46
1 1 51
1 1 25
0 1 29
0 0 38
0 0 31
0 0 47
0 0 50
0 0 51
0 1 41
0 0 32
0 0 42
0 0 38
0 0 40
0 0 42
0 0 33
0 0 43
0 0 46
Keterangan :
sakit (1), tidak sakit (0)
merokok (1), tdk merokok (0)
Usia (usia dalam tahun)
PENYELESAIAN KASUS
Pada menu Analyze, Pilih Regression >> Binary Logistic
Masukkan variabel sakit ke Dependent, kemudian variabel rokok dan usia ke “covariate box”
Kemudian, Klik Options, lalu beri tanda pada Classification Plots, Hosmer-Lemeshow GoF, Correlation matrix, dan itteration history
Klik Continue, kemudian OK
HASIL Dan INTERPRESTASI
Output didownload OUTPUT LOGISTIC REGRESSION 1
Menilai Model Fit
Untuk menilai model fit dapat diperhatikan nilai statistik -2LogL yaitu tanpa mengikutsertakan variabel hanya berupa konstanta yaitu sebesar 41.589. Ketika dimasukkan 2 variabel baru maka prediksi nilai -2LogL sebesar 16.750. Artinya terdapat penurunan sebesar 41.589 – 16.750 = 24.839.
Untuk -2LogL pertama diperoleh nilai 41.589 dengan df1 = 30-1 = 29. Nilai ini signifikan pada alpha 5% yang berarti Ho ditolak, artinya model tidak fit.
nilai -2LogL kedua adalah sebesar 16.750 dengan df2 = 30-3 = 27 adalah tidak signifikan pada alpha 5%. (Nilai statistik -2LogL di atas dibandingkan dengan nilai statistik distribusi x^2.), artinya model fit dengan data.
Statistik -LogL dapat digunakan untuk menentukan apakah jika variabel bebas dimasukkan dalam model dapat secara signifikan mempengaruhi model. dengan selisih 24.839 dan df(df1-df2=29-27=2) maka menunjukkan angka ini signifikan pada alpha 5%. Hal ini berarti Ho ditolak dan Model fit dengan data.
Cox n Snell’s R Square adalah ukuran pengaruh bersama yaitu sebesar 0.563 dan nilai Nagelkerke R Square adalah sebesar 0.751. dengan demikian dapat disimpulkan bahwa kemampuan variabel bebas menjelaskan model adalah sebesar 75.10%.
Selanjutnya, Hosmer and Lemeshow’s GoF dilakukan untuk menguji hipotesis. Jika sig < 0.05 maka Ho ditolak yang berarti ada perbedaan signifikan antara model dengan nilai observasinya. Jika sig > 0.05 maka Ho diterima, artinya tidak ada perbedaan antara model dan nilai observasinya.
statistik Hosmer and Lemeshow’s GoF diperoleh sebesar 0.594 (> 0.05) sehingga dapat dinyatakan bahwa model fit dengan data. Hosmer and Lemeshow’s GoF juga menghasilkan nilai 6.475 dengan probabilitas sebesar 0,594 sehingga dapat disimpulkan bahwa model fit dengan data.
Estimasi Parameter dan Interprestasi
Estimasi Maximum Likehood parameter model dapat dilihat dari output pada tabel Variables in the Equation. Logistic Regression kemudian dapat dinyatakan :
Ln P/1-P = -11.506 + 5.348 Rokok + .210 Usia.
Variabel bebas kebiasaan merokok signifikan dengan probabilitas sebesar 0.004 (< 0.05) dan variabel usia juga signifikan dengan probabilitas 0.032. dengan memperhatikan persamaan ini maka dapat diinterprestasikan sbb :
Log of Odds seseorang terkena secara positif berhubungan dengan rokok. Probabilitas atau Odds seorang terkena penyakit jantung jika ia perokok adalah sebesar 5.348. artinya seorang perokok memiliki kemungkinan terkena serangan jantung 5.35 kali lebih besar dibanding yang tidak merokok.
Jika variabel rokok dianggap konstan, maka probabilitas seseorang terkena serangan jantung adalah sebesar 0.210 pada setiap kenaikan satu tahun usia.
Jika Rokok dianggap konstan, maka seseorang memiliki odds terkena penyakit jantung adalah sebesar 1.233 untuk setiap penambahan usia. Sementara jika usia bernilai konstan maka odds seorang terkena penyakit jantung adalah sebesar 210.286 untuk perokok dibandingkan dengan yang tidak merokok. Hasil overall clasification rate adalah sebesar 90.0% pada cutoff 50%
Kesimpulan
  • Pertama. Variabel rokok dan usia memiliki hubungan positif dengan odds penyakit jantung
  • Kedua. Jika usia bernilai konstan, maka seorang perokok memiliki odds terkena penyakit jantung sebesar 5.384 kali lebih besar dibanding yang tidak merokok
  • Ketiga. Jika rokok bernilai konstan, maka odds seorang terkena penyakit jantung adalah sebesar 0.210 pada setiap penambahan usia.
Catatan :
Cuma diingatkan….data yang Diberikan Adalah Data Fiktif Bukan Data Sebenarnya, Cuma Sebagai Latihan Uji Statistik
Sumber Referensi :
SPSS menu help
Imam Ghozali. 2009. Aplikasi Analisis Multivariate dengan program SPSS. Semarang BP:Undip, hal : 261-275

Tidak ada komentar:

Posting Komentar