download

I0064 – Pertemuan 24
REGRESI LOGISTIK
PENGANTAR
Metode Regresi telah menjadi suatu komponen integral dari
analisis data mengenai hubungan diantara peubah respons
dengan satu atau lebih peubah penjelas (bebas). Seringkali
peubahnya diskrit, mengambil dua atau lebih nilai yang
mungkin. Pada dekade terakhir model regresi muncul pada
berbagai lapangan ilmu, merupakan metode baku dari
analisis keadaan ini. Apa yang membedakan model regresi
logistik dan model regresi linear adalah peubah hasil pada
regresi logistik biner atau dikhotom. Teknik yang digunakan
pada analisis regresi linear akan memotivasi pendekatan
kita ke regresi logistik. Kemiripan dan perbedaan diilustrasi
kan dalam bentuk teladan.
Tabel berikut berisi data 100 subyek yang terpilih untuk
berpartisipasi pada studi. Peubah yang dicatat adalah umur
dalam tahun (AGE), ada tidaknya penyakit jantung koroner
(CHD) dan peubah grup usia (AGRP).
No
1
2
3
4
5
6
.
.
.
AGRP
1
1
1
1
1
1
AGE
20
23
24
25
25
26
CHD
0
0
0
0
1
0
100
8
69
1
CHD:
0 = tidak CHD
1 = ada CHD
Buat Plot antara CHD dan AGE, tidak terlihat kaitan umur
dan adanya CHD.
Tabel Frekuensi Grup Usia dengan CHD
Grup Usia
20 – 29
30 – 34
35 – 39
40 – 44
45 – 49
50 – 54
55 – 59
60 – 69
Total
n
10
15
12
15
13
8
17
10
100
CHD
Tidak ada Ada
9
1
13
2
9
3
10
5
7
6
3
5
4
13
2
8
57
43
Rataan
(Proporsi)
0.10
0.13
0.25
0.33
0.46
0.63
0.76
0.80
0.43
Buat plot grup usia dan rataan  terlihat ada hubungan.
Pada regresi linear, nilai harapan Y, untuk nilai x tertentu
yaitu EY / x    0  1X.
Dengan ekspresi ini memungkinkan E(Y/x) mengambil nilai
diantara -  dan +  , sedang dengan data dikhotom
beberapa fungsi sebaran telah diusulkan untuk digunakan
pada analisis peubah dikhotom . Ada dua alasan utama
untuk memilih sebaran logistik
1. Dari sudut pandang matematik , fungsi ini sangat fleksibel
dan mudah digunakan
2. Memberikan interpretasi yang berguna secara biologis.
Dengan data dikhotom, nilai harapannya lebih besar atau
sama nol dan kurang atau sama satu  0  E (Y / x)  1.
Bentuk spesifik model regresi logistik adalah
 x  
e β0  β1 X
1  e β0  β1 x
Transformasi dari  (x) adalah transformasi logit.
Transformasi didefiniskan dalam suku  (x) :
  x  
g x    n 
  β 0  β1 X


1


x


Logistiknya, g (x) adalah linear dalam parameternya.
Perbedaan penting kedua adalah masalah galat (error)
 sebaran
normal dengan rataan nol dan ragam yang
sama. Pada kasus peubah respons dikhotom nilai  hanya
ada dua macam yaitu jika Y = 1 maka  = 1 -
 (x)
dengan
peluang
 (x)
dan jika Y = 0 , maka  = -  (x) dengan
peluang 1 -
 (x).
0 dan ragam
 (x)
Jadi  mempunyai sebaran dengan rataan
(1 -
 (x))
Ringkasnya :
1. Rataan bersyarat persamaan regresi harus diformulasi
kan dalam batas 0 dan 1
2. Sebarannya Binom, bukan normal yang menggambar
kan galatnya.
3. Prinsip-prinsip pada analisis regresi linear berlaku pula
pada regresi logistik.
 Metode menduga parameter.
Pendugaan parameter pada model regresi logistik dengan
menggunakan metode kemungkinan maksimum (maximum
likelihood) dan untuk data kita gunakan saja paket Software
yang tersedia untuk model ini misalnya MINITAB atau SAS.
Hasil data tabel diatas dengan model regresi logistik.
Peubah
AGE
Constant
Koefisien
penduga
0.111
-5.310
Galat
baku
0.024
1.134
Koef
GB
4.61
-4.68
Log – Likelihood = -53.677.
Uji Nyata Koefissien
Pembandingan amatan terhadap nilai prediksi menggunakan
fungsi kemungkinan (likelihood)
 Likelihood model sekarang 
D  2n 

 Likelihood model sadurated 
ˆ 
ˆ 
n 

 1 
i 
 2   y i n  i   1  y i  n 

i1 
y
1

y
i
i





ˆ 
ˆ x 
dengan 
i
i
D disebut Devian.
Nilai khi-kuadrat G
G = D (bagi model Tanya peubah) – D (bagi model dengan
peubah).
 likelihood tanpa peubah 
G  2n 

likelihood
dengan
peubah


Penduga kemungkinan maksimum 0 adalah ℓn (n1/n0)
dengan n1 =  yi dan n0 = ∑ (1 – yi) dan nilai prediksi adalah
konstanta n1 /n.
  ni   n 0 







n
n





G  2n  n
1 y 
y
ˆ
  i 1   i

i1




atau
ni
i
 

n0

i
 


ˆ  1  y  n 1  
ˆ  n n n  
G  2  y i n 
i
i
i
1
1
n
i 1
n 0 n n 0   n n n 
Dengan hipotesis bahwa 1 = 0, statistik G akan mempunyai
sebaran khi – kuadrat dengan derajat bebas 1.
Dari data kita: n1 = 43 dan n0 = 57.
G  2  53.677  43 n 43  57 n 57  100 n 100
 2  53.677   68,322  29.31
Nilai – P < 0,001
Jadi kita mempunyai evidensi bahwa peubah umur nyata
dalam memprediksi CHD.
Cara lain menguji umur dalam memprediksi CHD :
Cari log-likelihood dari model yang hanya terdiri dari
konstanta, diperoleh - 68.322 , sedang log-likelihood dari
model dengan konstantadan peubah bebas umur diperoleh
- 53,677 , sehingga
G = -2x( -68.332 – ( - 53.667)) = -2 x ( -14.655) = 29.31
UJI WALD
Uji Wald digunakan untuk membandingkan penduga
kemungkinan maksimum parameter kemiringan ̂1 terhadap
galat baku dugaannya.
ˆ

0.111
1
W

 4.610
ˆ
0
.
024
GB 
1
 
Nilai – p untuk uji dua arah = P  Z .4.610 
Dibawah hipotesis nol :
normal baku

1
= 0 akan mengikuti sebaran