download

Penyegaran Peluang dan Statistik
1
Apa yang harus kita pelajari ...
• Pengetahuan akan peluang dan statistik, diperlukan untuk memahami dan melakukan
simulasi
• Diasumsikan anda telah memahami tentang
– Manipulasi Aljabar
– Notasi penjumlahan
– Kalkulus dasar (khususnya integral)
• Outline
–
–
–
–
Peluang – ide dasar, terminologi
Peubah acak, sebaran bersama (joint distributions)
Sampling
Statistika inferensia – pendugaan titik (point
estimation), selang kepercayaan (confidence intervals),
uji hipotesis (hypothesis testing)
2
Dasar-dasar Peluang
• Percobaan – aktivitas dengan hasil yang tak pasti
– Melambungkan koin/dadu, pengambilan kartu,
mengambil bola-bola dari jambangan, …
– Pergi berkendaraan besok – Waktu? Kecelakaan?
– Operator telepon (riil) – Banyaknya panggilan? Ratarata pelanggan menunggu? Banyaknya pelanggan
menerima sinyal sibuk?
– Operator telepon simulasi – sama dengan di atas
• Ruang Sampel – semua hasil individual yang
mungkin muncul dari suatu percobaan
– Mungkin mudah/sulit untuk ditentukan
– Mungkin saja sama sekali tak dapat ditentukan
3
Dasar-dasar Peluang(lanjutan)
• Kejadian (“Event”) – himpunan bagian dari ruang
sampel
– Digambarkan hasilnya secara phisik, atau deskripsi
matematis
– Biasanya dinotasikan dengan E, F, E1, E2, dsb.
– Operasi gabungan, irisan, komplemen
• Peluang (“Probability”) suatu kejadian adalah
kemungkinan relatif munculnya kejadian tersebut
bila anda melakukan percobaan
– Bilangan riil antara 0 dan 1 (termasuk diantaranya)
– Dinotasikan dengan P(E), P(E  F), dsb.
– Interpretasi – proporsi munculnya suatu kejadian dari
sejumlah ulangan yang bebas (replications) dari suatu
percobaan
– Besarnya peluang mungkin bisa, mungkin tidak untuk diperoleh4
Dasar-dasar Peluang(lanjutan)
• Sifat-sifat peluang
Jika S adalah ruang sampel, maka P(S) = 1
Mungkin saja ada kejadian E  S dengan P(E) = 1
Jika Ø adalah kejadian kosong (empty set), maka P(Ø) = 0
Mungki saja ada kejadian E  Ø dengan P(E) = 0
Jika EC adalah komplemen dari E, maka P(EC) = 1 – P(E)
P(E  F) = P(E) + P(F) – P(E  F)
Jika E dan F adalah mutuali eksklusif (i.e., E  F = Ø),
maka
P(E  F) = P(E) + P(F)
Jika E adalah himpunan bagian dari F (i.e., munculnya E
berimplikasi munculnya F), maka P(E)  P(F)
Jika o1, o2, … adalah hasil-hasil individual dari ruang
sampel, maka
5
Dasar-dasar Peluang(lanjutan)
• Peluang Bersyarat (“Conditional Probability”)
– Diketahui kejadian F muncul yang mempengaruhi
peluang munculnya kejadian lain E
– Mengurangi ukuran efektif ruang sampel dari S ke F,
sehingga kejadian E diukur relatif overlapnya dengan F
(jika ada) terhadap F, bukan relatif terhadap S
– Definisi (assumsi P(F)  0):
• E dan F adalah bebas jika P(E  F) = P(E) P(F)
– Berimplikasi P(E|F) = P(E) dan P(F|E) = P(F), i.e., suatu
kejadian diketahui muncul, yang tidak mempengaruhi
apapun terhadap peluang kejadian lain
– Jika E dan F adalah saling asing (mutually exclusive),
apakah kejadian-kejadian tersebut bebas (independent)?
6
Peubah Acak (PA)
• Suatu cara untuk mengkuantifikasi,
menyederhanakan kejadian dan peluang
• Sebuah peubah acak (“random variable”) (PA)
adalah suatu bilangan yang nilainya ditentukan
oleh hasil suatu percobaan
– Teknis: sebuah fungsi atau pemetaan dari ruang
sampel ke bilangan riil, biasanya kita langsung
bekerja pada PA tanpa perlu tahu ruang sampelnya
– Teoritis: PA adalah bilangan yang besarnya tidak
dapat diketahui dengan pasti tetapi kita biasanya
tahu apa yang mungkin terjadi
• Teladan: Pelambungan dua dadu
– Biasanya dinotasikan dengan huruf besar: X, Y, W1,
W2, dsb.
• Fenomena probabilistik digambarkan oleh fungsi
sebaran (“distribution function”)
7
PA Diskret vs. Kontinu
• Dua jenis PA berikut digunakan untuk
merepresentasikan atau memodelkan hal yang
berbeda
• Diskret (“discrete”) – hanya mungkin mengambil
nilai tertentu yang terpisah-pisah
– Jumlah nilainya bisa terbatas (finite) atau tak terbatas
(infinite)
• Kontinu (“continuous”) – dapat mengambil
sembarang nilai riil didalam suatu selang (range)
– Jumlah nilai yang mungkin selalu tak terbatas
– Selang dapat dibatasi pada dua sisi, atau hanya satu
sisi saja.
8
Sebaran Diskret
• Diketahui X adalah PA diskret dengan nilainilai yang mungkin (range) adalah x1, x2, …
(bisa berupa list yang terbatas atau tak terbatas)
• Fungsi massa peluang (“Probability mass
function”) (PMF)
p(xi) = P(X = xi) untuk i = 1, 2, ...
– Pernyataan “X = xi” merupakan sebuah kejadian
yang bisa terjadi atau tidak, sehingga ia
mempunyai peluang untuk terjadi, yang diukur
oleh PMF
– PMF dapat diekspresikan dalam bentuk list
numerik, tabel, graphik, atau formula
9
Sebaran Diskret
(lanjutan)
• Fungsi sebaran komulatif (“cumulative distribution
function”) (CDF) – peluang PA  a untuk nilai x
tetap:
• Sifat-sifat CDF diskret
Keempat sifat ini
0  F(x)  1 untuk semua x
juga berlaku untuk PA
Jika x  –, F(x)  0
CDF kontinu
Jika x  +, F(x)  1
F(x) adalah fungsi tak turun untuk x
F(x) adalah fungsi tangga (“step function”) kontinu dari
kanan dengan jumps di xi yang tingginya sama dengan
PMF di xi
10
Sebaran Diskret
(lanjutan)
• Untuk menghitung peluang PA diskret –
biasanya menggunakan PMF
– Jumlahkan p(xi) untuk semua xi yang
memenuhi kondisi untuk kejadian yang
bersangkutan
• Pada PA diskret, agar diperhatikan bentuk
pertidaksamaannya lemah ( atau ) atau
kuat (< atau >).
11
Nilai Harapan Diskret
• Data mempunyai titik pusat – rataan (mean)
• PA mempunyai sebuah titik pusat – expected value
– Juga disebut dengan rata-rata atau harapan dari PA X
– Notasi lain adalah: m, mX
– Rata-rata terbobot dari nilai-nilai xi yang mungkin
dengan bobotnya adalah nilai peluang pemunculannya
– Nilai harapan bukanlah: Nilai X yang anda “harapkan”
untuk diperoleh
E(X) mungkin saja mengambil nilai bukan salah satu dari x1, x2, …
– Jasi nilai harapan itu adalah:
Ulangi “suatu percobaan” beberapa kali, amati nilai X1, X2, …, Xn
E(X) adalah nilai konvergen dari
jika n  
– Konvergensi ini memegang peranan penting pada
simulasi!
12
Ragam (Variances) dan
Simpangan Baku (Standard Deviations) Diskret
• Data mempunyai ukuran “dispersi” –
– Ragam sampel
– Simpangan baku sampel
• PA mempunyai ukuran yang serupa
– Notasi lain adalah:
– Rata-rata terbobot dari akar simpangan-simpangan
nilai-nilai xi yang mungkin dari rata-ratanya
– Simpangan baku X adalah
13
– Interpreatasinya serupa dengan E(X)
Sebaran Kontinu
• Bila X adalah PA kontinu
– Dibatasi pada sebuah range yang berbatas di kiri
atau di kanan atau kedua-duanya
– Tidak soal seberapa kecil range tersebut, jumlah
nilai-nilai X yang mungkin dan tak dapat dicacah
(uncountably) adalah tak terbatas (infinite)
– Tidaklah mungkin ada pertanyaan mengenai P(X
= x) walupun x ada di dalam range
– Secara teknis, P(X = x) adalah selalu 0
– Karenanya, fenomena X digambarkan sebagai
suatu nilai yang yang jatuh di dalam selang antara
dua nilai
14
Sebaran Kontinu (lanjutan)
• Fungsi kepekatan peluang (“Probability density
function”) (PDF) adalah fungsi f(x) dengan tiga
sifat-sifat berikut:
f(x)  0 untuk semua nilai riil x
Luas daerah dibawah f(x) adalah 1:
Untuk suatu nilai a dan b dengan a  b, peluang X ada
diantara nilai a dan b adalah luas daerah dibawah f(x)
diantara a dan b:
• Fakta-fakta menyangkut PDF
– Nilai-nilai X mempunyai tinggi sebesar f(x)
– Tinggi f(x) ini bukanlah nilai peluang untuk X– yang
mana nilainya bisa saja > 1
– PA kontinu tidak membedakan pertidaksamaan lemah
vs. kuat
15
Sebaran Kontinu (lanjutan)
• Fungsi sebaran komulatif (“Cumulative distribution
function”) (CDF) – peluang bahwaPA  sebuah
nilai x tertentu:
• Sifat-sifat CDF kontinu
F(x) mungkin
tidak memiliki
formula
closed-form
Keempat sifat ini juga
0  F(x)  1 untuk semua x
berlaku untuk CDF
Jika x  –, F(x)  0
diskret
Jika x  +, F(x)  1
F(x) adalah fungsi tak turun dari x
F(x) adalah fungsi kontinu dengan kemiringan sama
dengan PDF nya:
f(x) = F'(x)
16
Nilai Harapan, Ragam, dan Simpangan
Baku Kontinu
• Harapan atau rata-rata X adalah
– Rata-rata “continuous” terboboti dari nilainilai X yang mungkin
– Interpretasinya sama dengan kasus diskret:
rata-rata sejumlah besar (tak terbatas)
pengamatan-pengamatan PA X
• Ragam X adalah
• Simpangan Baku X adalah
17
Sebaran Bersama
• Sejauh ini kita hanya bicara sebuah PA saja
• Tetapi PA tersebut bisa berbentuk pasangan dua-dua,
ganda tiga, …, dst, yang membentuk sebaran bersama
(“jointly distributed”) dari PA atau vektor acak (“random
vectors”)
– Input: (T, P, S) = (tipe part, prioritas, lamanya layanan)
– Output: {W1, W2, W3, …} = lamanya part-part yang ada di dalam
sistem
• Issue utamanya adalah apakah PA individual adalah
independent satu dengan yang lainnya atau saling terkait
– Bahasa R dapat memodelkan keterkaitan antara PA
• Akan dibahas kasus khusus untuk pasangan dua-dua dari
PA (X1, X2)
– Dapat dikembangakan dengan cara yang sama untuk dimensi yang
lebih besar
18
Sebaran Bersama (lanjutan)
• CDF bersama untuk (X1, X2) adalah sebuah fungsi
dua peubah
Ganti
“and” dg “,”
– Definisinya sama baik untuk diskret maupun kontinu
• Jika kedua PA adalah diskret, joint PMF didefinsikan
• Jika kedua PA adalah kontinu, joint PDF f(x1, x2)
didefinisikan sebagai fungsi taknegatif dengan
total volume dibawahnya samadengan 1, dan
• Joint CDF (atau PMF atau PDF) mengandung
banyak informasi – dalam praktenya tidak banyak
19
diperlukan
Sebaran Marjinal
• Bagaimana sebaran X1 terpisah tersendir dari X2?
Dan bagaimana denga X2 tersendiri?
– Diskret bersama
• Marjinal PMF X1 adalah
• Marjinal CDF X1 adalah
– Kontinu bersama
• Marjinal PDF X1 adalah
• Marjinal CDF X1 adalah
• Jika sebaran bersama diketahui  sebaran
marjinalnya akan diketahui – tetapi tidak
sebaliknya (kecuali X1 dan X2 bebas)
20
Peragam (“Covariance”) Antar PA
• Mengukur hubungan linear antara X1 dan X2
• Peragam antara X1 dan X2 adalah
– Jika kecendrungan X1 membesar (mengecil) bersamasama dengan kecendrungan membesarnya (mengecil),
X2 maka peragamnya > 0
– Jika kecendrungan X1 membesar (mengecil) bersamasama dengan kecendrungan mengecilnya (membesar),
X2 maka peragamnya < 0
– Jika kecendrungan X1 dan X2 tidak terjadi secara
bersama-sama pada arah tertentu membesar atau
mengecil, maka Cov = 0
• Interpretasi terhadap nilai peragam – sulit
karena tergantung pada unit pengukurannya
21
Korelasi Antar PA
• Koefisien korelasi (“correlation”) antar X1 dan X2
adalah
–
–
–
–
–
Mempunyai tanda yang sama dengan peragamnya
Nilainya selalu antara –1 dan +1
Nilai ini tidak tergantung pada unit pengukurannya
Tanpa dimensi – “universal interpretation”
Merupakan korelasi Pearson
• Banyak sekali jenis korelasi yang tidak dibahas disini
22
PA Bebas
• X1 dan X2 adalah bebas jika CDF bersamanya
merupakan faktor/hasil kali msing-masing CDF
marjinalnya:
– Hal yang sama berlaku baik untuk PMF maupun PDF
• Sifat-sifat PA bebas:
– Tidak ada hubungan linear satu dengan yang lain
– Bebas  tak berkorelasi
• Belum tentu berlaku sebaliknya, kecuali PA-PA tersebut
merupakan sebaran normal bersama
• Sifat kebebasan (independence) dalam simulasi
– Input: Biasanya diasumsikan input-input bebas yang
terpisah. – valid?
– Output: Standard statistik mengasumsikan bebas. –
valid?!?!?!?
23
Sampling
• Analisis statistik – menduga atau menyimpulkan
sesuatu mengenai populasi atau proses didasari
hanya atas sebuah sampel yang diambil darinya
– PA suatu sebaran mengejawantahkan suatu populasi
– Sampel acak (“random sample”) adalah himpunan sebaran
pengamatan-pengamatan bebas dan identik (“independent
and identically distributed”) (IID) X1, X2, …, Xn pada PA
yang bersangkutan
– Dalam simulasi, sampling dilakukan dengan
menjalankan beberapa kali model dan mengumpulkan
data output
– Parameter populasi (atau sebaran) tidak diketahui dan
ingin menduganya atau menyimpulkan sesuatu
mengenainya didasarkan pada sampel
• Simulasi memberikan pemahaman mengenai bagaimana
memperoleh sampel yang tepat
24
Sampling (lanjutan)
• Parameter populasi
Rataan populasi m = E(X)
Ragam populasi s2
Proporsi Populasi
• Parameter – diperlukan
untuk mengetahui
keseluruhan populasi
• Konstan (tetapi tak
diketahui)
• Dugaan sampel
Rata-rata sampel
Ragam sampel
Proporsi sampel
• Statistik sampel –
dihitung dari sebuah
sampel
• Bervariasi dari satu
sampel terhadap
sampel lainnya –
merupakan PA, dan
memiliki sebaran,
disebut sebaran sampling
25
Sebaran Sampling
• Statistik, seperti rata-rata sampel atau ragam
sampel
– Nilai-nilainya bervariasi dari satu sampel dengan
sampel berikutnya
• Suatu sebaran-sampling memberikan
– Rata-rata sampel
Jika
Apapun bentuk sebaran X,
– Ragam sample s2
E(s2) = s2
– Proporsi sampel
E( ) = p
26
Penduagaan Titik (Point Estimation)
• Statistik sampel yang menduga sebuah
parameter populasi
• Sifat-sifat
– Tak berbias: E(penduga) = parameter
– Efisien: Var(penduga) lebih kecil dari pada
ragam individualnya
– Konsisten: Var(penduga) menurun
(menuju 0) jika ukuran sampel
ditingkatkan
27
Selang Kepercayaan
• Penduga titik hanyalah sebuah nilai tunggal,
dengan suatu ketakpastian atau keragaman yang
bersesuaian dengannya
• Selang kepercayaan (“confidence interval”)
mengkuantifikasi keakuratan penduga titik
– Sebuah selang mengandung (covers) parameter populasi
yang tidak diketahui, dengan peluang (besar) yaitu 1 –
a
– Disebut dengan selang kepercayaan 100 (1 – a)% untuk
suatu parameter
• Selang kepercayaan (SK) rata-rata populasi m:
tn-1,1-a/2 adalah titik dengan luas daerah
di kanannya pada sebaran t dengan
derajat bebas n – 1 adalah 1 – a/2
• SK untuk parameter-parameter lain – lihat buku tex
28
Selang Kepercayaan pada
Simulasi
• Jalankan simulasi, dapatkan simulasinya
• Pandang setiap ulangan pada simulasi
sebagai sebuah data point
• Input acak  Output acak
• Buat selang kepercayaan
• Selang (dengan peluang 1 – a) merupakan
output harapan “yang sebenarnya” (yang
secara teoritis merupakan rata-rata dari
sejumlah ulangan simulasi yang tak terbatas)
29
Uji Hipotesis
• Uji yang menyangkut populasi atau parameter
• Tidak dapat menentukan benar atau salah secara
pasti – berdasarkan bukti-bukti yang ada
– Kita mungkin menolak hipotesi nol, atau
– Kita mungkin gagal menolak hipotesis nol
– Kita tidak pernah menerima hipotesis nol
• Hipotesis nol (“null hypothesis”) (H0) – hipotesis inilah
yang diuji
• Hipotesis alternatif (“alternate hypothesis”) (H1 or HA) –
akibat ditolaknya H0
H0: m = 6 vs. H1: m  6
H0: s < 10 vs. H1: s  10
H0: m1 = m2 vs. H1: m1  m2
• Merupakan sebuah rule untuk memutuskan H0 atau
30
H1 didasarkan pada data sampel
Galat (Errors) dalam Uji
Hipotesis
H0 is really true
H1 is really true
Decide H0
No error
(“Accept” H0) Probability 1 – a
a is chosen
(controlled)
Type II error
Probability 
 is not controlled –
affected by a and n
Decide H1
(Reject H0)
No error
Probability 1 –  =
power of the test
Type I Error
Probability a
31
Nilai-p pada Uji Hipotesis
• Metoda tradisional adalah “menerima” atau
menolak H0
• Metoda alternatif – hitung nilai-p pengujian
– p kecil ( < 0.01) merupakan bukti yang kuat untuk
menolak H0
– p besar ( > 0.20) menunjukkan bukti yang lemah
untuk menolak H0
• Hubungannya dengan metoda tradisional
– Jika p < a, tolak H0
– Jika p  a, H0 tidak dapat ditolak
• Nilai-p mengkuantifikasi kepercayaan mengenai
suatu keputusan
32
Uji Hipotesis pada Simulasi
• Sisi input
– Menentukan sebaran input yang menggerakkan
suatu simulasi
– Kumpulkan data sebenarnya pada proses yang
terkait
– Paskan (“Fit”) sebaran peluang terhadap data yang
diamati (“the real-world data”)
– Uji H0: yaitu data menyebar menurut sebaran yang
akan dipaskan (“the fitted distribution”)
• Sisi Output
– Memilih dari dua atau lebih rancangan model yang
ingin dibandingkan (“competing” designs modeled)
– Uji H0: semua rancangan memberikan output yang
sama, atau uji H0: sebuah rancangan lebih baik
33
daripada yang lainnya
Ada Pertanyaan?
34