Sapto Condro loves Science and Technology

Catatan seorang pelajar yang tertidur…

Menghitung jumlah sampel

Akhir-akhir ini, di dunia maya Indonesia terdapat perbincangan mengenai quick count dan ukuran sampel yang dipakai. Hasil quick count dari lembaga penelitian yang berbeda menunjukkan persentase berbeda. Ada lembaga membuka metodologi yang digunakan dan dapat diunduh di website mereka, contoh Saiful Mujani Research Center. Beberapa tidak menunjukkan metodologinya kepada publik.

Tulisan kali ini ingin menulis tentang bagaimana cara menentukan ukuran sampel. Ada beberapa rumus matematika yang bisa dipakai untuk mengukur sampel. Aku ingin menuliskan dua rumus yang lagi hangat di media sosial dan satu rumus dari kuliah “Multivariate Statistic” yang sedang kujalani.

***

Rumus Pertama:

n = \frac{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2}{{\Delta}^2}

Penjelasan:

n = jumlah sampel atau ukuran sampel (sample size)

Z_{\alpha \mid 2} = angka pada distribusi normal yang memotong bagian atas (upper tail) pada probabilitas \alpha \mid 2.
Angka \pm Z_{\alpha \mid 2} biasa disebut selang kepercayaan (confidence interval).
Pada tingkat kepercayaan 95%, \alpha = 0.05, Z_{\alpha \mid 2} =  1,96.
Pada tingkat kepercayaan 99%, \alpha = 0.01, Z_{\alpha \mid 2} = 2,58.

\sigma = simpangan baku (standard deviation).
Berhubung adanya asumsi bahwa proses pada quick count itu hanya tentang memilih calon X atau tidak memilih calon X, simpangan baku maksimum adalah 0,5. Ini sesuai Bernoulli Process dan Binomial Distribution.

\Delta = galat (error). Sedangkan “margin of error” itu \pm \Delta.

Rumus di atas adalah penurunan dari rumus menghitung margin of error, tanpa Finite Error Correction (FEC):

\Delta = Z_{\alpha \mid 2} \cdot \frac{\sigma}{\sqrt{n}}

Contoh 1.1:

Kita menginginkan quick count yang memiliki tingkat kepercayaan 95% (\alpha = 0.05) dan margin of error 1%. Berapakah sampel yang harus diambil?

Z_{\alpha \mid 2} = 1,96

\sigma = 0,5 (sesuai asumsi Bernoulli Process)

n = \frac{1,96^2 0.5^2}{0.01^2} = 9604

Jadi sampel yang harus diambil ada 9604.

Contoh 1.2:

Bagaimana kalau tingkat kepercayaan yang diinginkan 99% dan margin of error sama?

Dengan rumus yang sama, diperoleh ukuran sampel n = 16641.

Rumus pertama di atas untuk menghitung jumlah sampel bisa dibaca di posting berikut

Asumsi pada rumus pertama adalah galat yang diperhitungkan adalah hanya type I error (wiki: en,de), yang berhubungan dengan tingkat dan selang kepercayaan. Berhubung survei tidak memiliki variabel kontrol yang bisa dijadikan hipotesis nol, type II error (wiki: de) tidak bisa dihitung dan power analysis tidak bisa dilakukan (wiki: en,de).

***

Rumus Kedua:

n = \frac{Z_{\alpha \mid 2}^2 \cdot p(1-p) \cdot N}{Z_{\alpha \mid 2}^2 \cdot p(1-p) + (N-1) \cdot {\Delta}^2} = \frac{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2 \cdot N}{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2 + (N-1) \cdot {\Delta}^2}

Penjelasan:

n = jumlah sampel atau ukuran sampel (sample size)

N = jumlah populasi atau ukuran populasi (population size)

Z_{\alpha \mid 2} = angka pada distribusi normal yang memotong bagian atas (upper tail) pada probabilitas \alpha \mid 2.

\sigma =  simpangan baku (standard deviation).

p(1-p) = {\sigma}^2 =  variance, sesuai asumsi Binomial Distribution atau Bernoulli Process.
Entropi maksimum tercapai ketika p = 0,5. Jadi margin of error yang paling besar tercapai ketika p = 0,5, jadi asumsikan begitu, sehingga \sigma = 0,5.

\Delta = galat atau error.

Rumus di atas adalah penurunan dari rumus menghitung margin of error, dengan Finite Error Correction (FEC):

\Delta = \sqrt{\frac{N-n}{N-1}} \cdot Z_{\alpha \mid 2} \cdot \frac{\sigma}{\sqrt{n}}

FEC = \sqrt{\frac{N-n}{N-1}}

Contoh 2.1:

Kita menginginkan quick count yang memiliki tingkat kepercayaan 95% (\alpha = 0,05) dengan margin of error 1%. Berapa besar ukuran sampel yang dibutuhkan ketika populasi 186.612.255 orang?

Z_{\alpha \mid 2} = 1,96

N = 186.612.255

\Delta = 0,01

p(1-p) = {\sigma}^2 = 0,5^2 = 0,25

n = \frac{1,96^2 \cdot 0,25 \cdot 186812255}{1,96^2 \cdot 0,25 + (186612255 - 1) \cdot 0,01^2} \approx 9603,5 \approx 9604

Ternyata hasil rumus kedua mirip dengan rumus pertama, yaitu ukuran sampelnya 9604.

Contoh 2.2:

Bagaimana kalau populasi penduduk hanya 1 juta orang?

N = 1.000.000

n = \frac{1,96^2 \cdot 0,25 \cdot 1000000}{1,96^2 \cdot 0,25 + (1000000 - 1) \cdot 0,01^2} \approx 9512,65 \approx 9513

Ukuran sampel menjadi 9513.

Jadi dengan koreksi galat populasi berhingga (finite error correction), kita tidak perlu mengambil 9604 sampel, tetapi cukup 9513 sampel saja. Bedanya dikit banget, yah?

Rumus kedua di atas untuk menghitung jumlah sampel bisa dibaca di posting berikut

Asumsi yang dipakai pada rumus kedua dan pertama itu sama, yaitu hanya memperhitungkan type I error tetapi tidak memasukkan type II error.

***

Hubungan antara rumus pertama dan kedua

Rumus kedua jika diturunkan lebih lanjut akan menjadi

n = \frac{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2}{{\Delta}^2 + \left( \frac{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2 - {\Delta}^2}{N} \right) }

Dan bisa dibandingkan dengan rumus pertama

n = \frac{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2}{{\Delta}^2}

Terlihatlah bahwa finite error correction (FEC), menimbulkan efek \left( \frac{Z_{\alpha \mid 2}^2 \cdot {\sigma}^2 - {\Delta}^2}{N} \right) yang kecil, untuk N yang besar.

Jadi sesuai prinsip parsimoni atau Occam’s Razor, pilih rumus pertama yang lebih sederhana. Jumlah sampel menggunakan rumus kedua tidak jauh berbeda dengan rumus pertama.

***

Rumus Ketiga:

n = \frac{2 \left( Z_{\alpha \mid 2} + Z_{\beta} \right)^2 \cdot {\sigma}^2}{{\Delta}^2}

Penjelasan:

n = jumlah sampel atau ukuran sampel (sample size).

Z_{\alpha \mid 2} = nilai pada distribusi normal yang memotong bagian atas (upper tail)  pada probabilitas \alpha \mid 2, seperti yang telah dicontohkan pada rumus pertama.

Z_{\beta} = nilai pada distribusi normal yang memotong bagian atas pada probabilitas \beta.
Pada statistical power sebesar 0,90, nilai \beta = 0,10 dan Z_{\beta} = 1,28.

\sigma = simpangan baku (standard deviation).
Diasumsikan sebesar 0,5.

\Delta = galat (error).

Contoh 3.1:

Pimpinan suatu parpol menargetkan Pemilu ini akan mendapat 27%. Diinginkan suatu survei dengan margin of error 1% dan tingkat kepercayaan 95% serta power sebesar 90%. Berapa ukuran sampel yang dibutuhkan?

Z_{\alpha \mid 2} = 1,96
untuk tingkat kepercayaan 95%, yaitu \alpha = 0.05

Z_{\beta} = 1,28
untuk power 90%, yaitu \beta = 0,10

{\sigma}^2 = p \cdot (1 - p) = 0,27 \cdot (1 -0,27) = 0,1971 < 0,25
\sigma \approx 0,444 < 0,5
\sigma = 0,5 , jika menggunakan asumsi simpangan baku maksimum pada proses Bernoulli atau distribusi Binomial.

\Delta = 0,01

Jika tidak menggunakan asumsi simpangan baku 0,5, maka menghitung ukuran sampel sebagai berikut.
n = \frac{2 \left( 1,96 + 1,28 \right)^2 \cdot 0,1971}{0,01^2} \approx 41381,54 \approx 41382

Jika menggunakan asumsi simpangan baku 0,5, maka ukuran sampel dihitung sebagai berikut.
n = \frac{2 \left( 1,96 + 1,28 \right)^2 \cdot 0,5^2}{0,01^2} = 52488

Jadi untuk memperkirakan apakah target pimpinan parpol tersebut itu akan tercapai atau tidak, dibutuhkan suatu survei dengan ukuran sampel sebesar 41.382 atau 52.488, tergantung asumsi.

Pada rumus pertama dan kedua, ukuran sampel yang dibutuhkan tidak lebih dari 9604, sedangkan pada rumus ketiga, ukuran sampel mencapai 50 ribu. Ini menunjukkan bahwa memasukkan power analysis atau type II error ke dalam perhitungan, bisa menyebabkan ukuran sampel membesar. Sesuai prinsip parsimoni atau Occam’s Razor, pilihlah metode dengan asumsi yang paling ringkas dan sederhana. Jadi rumus pertama saja yang sebaiknya dipakai dalam survei politik dan hitung cepat dalam pemilu, juga dengan asumsi simpangan baku maksimum 0,5. Ini juga sudah dipakai dalam quick count dan survei politik yang dilakukan oleh National Democratic Institute (NDI) di berbagai negara.

Rumus ketiga ini bisa dibaca dari buku berikut

  • Brian S. Everitt, 2010, Multivariable Modeling and Multivariate Analysis for the Behavioral Sciences. Chapter 1, pp 15. CRC Press, Taylor & Francis Group. ISBN 978-1-4398-0769-9

 

***

Jadi setelah membaca penjelasan tiga rumus untuk menghitung ukuran sampel dalam survei politik maupun exit polls dan hitung cepat (quick count) pemilu, kita bisa belajar mengetahui apakah kata-kata seorang politisi itu sekedar basa-basi politik atau memiliki argumen ilmiah yang valid. Dengan matematika, terutama ilmu probabilitas dan statistika, kita bisa memperkirakan kondisi sosial politik suatu masyarakat. Hal ini bisa membantu politisi dalam menyusun langkah strategis selanjutnya dalam berpolitik. Karena politik itu tidak hanya basa-basi. Hal ini juga bisa membantu masyarakat awam untuk lekas tahu kira-kira seperti apa hasil pemilu, pilpres atau pilkada. Jadi rakyat tahu akan menghadapi pemimpin seperti apa selama sekian tahun ke depan.

Dalam politik, bukan hanya persamaan matematika yang berlaku. Jadinya belajar survei politik itu bukan hanya rumus matematika, namun juga dampak politik yang terjadi pada elit maupun bagi rakyat kebanyakan. Posting ini hanya menjelaskan matematika di balik quick count dan survei sosial politik sejenisnya. Jadi ada kemungkinan “mathematically correct, but politically incorrect”. Jika tersinggung dengan tulisan ini, salahkan matematikawan yang bikin rumus di atas.

Bremen, 26 Agustus 2014

iscab.saptocondro

P.S. Tulisan ini seharusnya selesai di Oldenburg tanggal 14 Juli 2014, tapi karena aku menunda-nunda jadinya baru selesai hari ini.

Advertisements

August 26, 2014 Posted by | probabiliscab, Uncategorized | , , | 1 Comment

Pemilu Indonesia: Survei, Quick Count dan Exit Polls

Hari ini hari pemilihan anggota legislatif dalam rangkaian Pemilu Indonesia tahun 2014. Pada tahun 2004, banyak pimpinan partai politik yang membuat klaim angkat memperoleh sekian persen suara atau sekian persen kursi. Sebetulnyaklaim tersebut dapat dibuktikan dengan uji hipotesis berdasarkan statistik. Akan tetapi, saat itu, lembaga survei politik belum banyak. Tahun 2009, kemampuan statistika dipakai oleh beberapa lembaga survei untuk membuat “quick count” atau hitung cepat dan “exit polls” untuk memperkirakan hasil Pemilu.

 

Pada saat itu, sejumlah pimpinan partai politik begitu gagap dengan penggunaan sains dalam politik, dalam hal ini matematika atau statistika. Sebagian mengeluarkan pernyataan bahwa survei ini survei bayaran partai lawan atau data direkayasa. Sebagian lain membuat survei yang tidak ilmiah, yang bertujuan menyenangkan pimpinan parpol tapi sama sekali tidak bisa menggambarkan opini publik. Sebagian pemakai internet membuat internet polling di website dan blog.

 

Posting saya kali ini adalah tentang penjelasan bagaimana suatu survei ilmiah dibuat. Juga ada penjelasan apa itu “quick count” dan “exit polls”. Pada survei ilmiah, harus ada penjelasan mengenai tingkat kepercayaan, batas kesalahan dan jumlah sampel, serta bagaimana caranya survei atau polling dilakukan.

***

Istilah-istilah yang dipakai dalam Pemilu Indonesia dari 2004 hingga 2014:

  • Survei (politik) adalah suatu jajak pendapat pada sejumlah orang sebagai untuk memperkirakan opini publik dari suatu populasi. Pada survei ilmiah, pengambilan sampel dari 2000 orang secara acak terkendali bisa menggambarkan opini publik dari populasi 100 juta orang. (wiki tentang survey: en,de,id)
  • Survei menjelang pemilihan adalah survei yang dilakukan sebelum pemilihan umum atau pemilihan lain seperti pilkada, pilgub, dll. Survei menjelang pemilihan biasa dilakukan untuk menghitung elektabilitas suatu partai atau orang peserta pemilihan. Dari wiki Pemilu 2014, sejumlah survei ini bisa dilihat hasilnya.
  • Hasil penghitungan suara sementara adalah hasil penghitungan suara yang dilakukan KPU dan panitia pemilihan, dari tingkat TPS, kecamatan, kota/kabupaten/provinsi, hingga pusat. Pada tahun 2004 dan 2009, ada IT KPU yang menyajikan hasil penghitungan suara sementara di website. Ini bukan survei dan bukan polling, walau secara matematis bisa saja diperlakukan sebagai suatu survei.
  • Quick Count atau Hitung Cepat adalah metode pengambilan sampel dari beberapa tempat pemungutan suara (TPS) untuk memperkirakan hasil Pemilu. Yang menjadi sampel pada quick count adalah hasil TPS, bukan orang. Jadi dari sebagian TPS, misalnya 2000 TPS,  kita bisa memprediksi hasil dari seluruh populasi, yaitu 550 ribu TPS atau lebih.
  • Exit Polls adalah jajak pendapat dari orang-orang yang telah selesai mencoblos di TPS. Yang menjadi sampel pada exit polls adalah orang. Pada exit polls, selain pertanyaan apa partai yang dipilih, peserta polling juga bisa ditanya mengenai identitasnya (agama, umur, tingkat pendidikan, dll) dan opini mengenai pemilu, seperti apa harapan ke depan, siapa presiden yang akan dipilih, pemilu sebelumnya memilih apa, dll. Dari exit polls, sampel 2000 orang bisa dipakai menggambarkan opini publik dari populasi 100 juta orang.
  • Internet Polling adalah pengambilan sampel yang dibuat oleh website atau blog. Ini bukan survei ilmiah karena pengambilan sampel tidak bisa terkendali: apakah satu orang memilih lebih dari satu kali, bagaimana penyebaran geografis peserta polling, dll. Internet polling cukup marak pada Pemilu 2004 dan 2009. Saat itu berdasarkan internet polling, PKS mendapat lebih dari 40% suara.
  • SMS Polling adalah pengambilan sampel menggunakan SMS. Ini juga bukan survei ilmiah, dengan alasan yang sama dengan internet polling.

***

Apa itu survei ilmiah? Suatu survei politik itu ilmiah jika pengambilan sampel dilakukan secara acak dan batas-batas yang jelas (terkendali). Acak (random) itu maksudnya tidak ada pola.  tiada hubungan kausalitas dan tiada hubungan koherensi (wiki: en,de). Contoh hal-hal yang tidak acak, adalah pengambilan sampel dilakukan hanya pada golongan tertentu atau hanya pada daerah tertentu. Polling di laman internet dan via SMS bisa menyebabkan hal-hal yang tidak acak karena pesertanya bisa saja hanya dari golongan tertentu. Batas yang jelas (terkendali) pada suatu survei yang dimaksud adalah seperti ini

  • Berapa jumlah sampelnya? Mengapa?
  • Bagaimana cara pengambilan sampel? Mengapa?
  • Rentang waktu kapan pengambilan sampel diambil.
  • Berapa jumlah sampel di daerah ini dan di daerah itu? Mengapa?
  • Berapa jumlah sampel pria dan yang wanita? Mengapa?

Pada pengambilan sampel secara acak sederhana (simple random sampling, wiki: en), kita bisa mengambil sampel sejumlah tertentu misalnya 2000. Lalu kita bisa menghitung rata-rata atau proporsi suara pilihan politik. Pelaku survei tinggal bertanya kepada 2000 orang yang ditemui secara acak. Akan tetapi cara ini menyimpan kelemahan. Indonesia memiliki kondisi geografis tertentu dan penyebaran penduduk khas. Jika metode acak sederhana yang dipakai, penyurvei bisa bertanya secara acak di daerah ini namun lupa bertanya di daerah lain. Akibatnya hasil survei belum tentu menggambarkan opini publik. Cara lain adalah dengan menggunakan pengambilan sampel  secara acak berjenjang (stratified random sampling, wiki: en,de). Contoh:

  • Pada pengambilan sampel, di provinsi ini sampel diambil sekian dan di tempat lain berbeda, sesuai proporsi jumlah penduduk. Begitu pula proporsi di kota ini dan di kabupaten itu.
  • Proporsi kota dan desa juga diperhatikan, misalnya sampel diambil di 60% desa dan 40% kelurahan (di kota) berdasarkan proporsi penduduk.
  • Proporsi pria dan wanita juga diperhatikan, misalnya sample pria dan sampel wanita harus sama (50:50).

Dengan metode pengambilan sampel secara acak berjenjang ini, opini publik bisa digambarkan menurut distribusi wilayah, gender, dan geografis.

***

Berapa jumlah sampel yang harus diambil? Jumlah sampel yang diambil itu tergantung seberapa akurat kita ingin memperkirakan seluruh populasi. Prinsipnya ada dua:

  • Semakin banyak sampel, semakin akurat
  • Semakin banyak sampel, semakin mahal biaya survei

Menurut statistika, jumlah sampel itu tergantung seberapa besar batas kesalahan (margin of error) dan tingkat kepercayaan (confidence level) yang kita tetapkan. Rumusnya ada di bawah.

***

Apa itu batas kesalahan? Batas kesalahan atau margin of error adalah rentang kesalahan pada hasil suatu pengambilan sampel (wiki: en,id). Misalnya pada survei politik, ada tulisan margin of error 2%, sedangkan PDI-P mendapat 19%, Golkar 14%, PKS 5% , dll. Itu artinya PDI-P suaranya bisa meleset plus-minus 2%, sehingga suara PDI-P berkisar 17 hingga 21%. Sedangkan Golkar antara 12 hingga 16%. Lalu PKS antara 3 hingga  7%. Hubungan antara batas kesalahan dengan jumlah sampel akan dijelaskan pada rumus di bawah.

***

Apa itu tingkat kepercayaan dan selang kepercayaan? Tingkat kepercayaan (confidence level) dan selang kepercayaan (confidence interval) saling berhubungan. Hal ini bisa dijelaskan dengan gambar Distribusi Gaussian (dari website National Curve Bank) berikut ini.

Distribusi Gaussian

Distribusi Gaussian

Pada distribusi normal atau Gaussian, terdapat kurva berbentuk bel seperti pada gambar. Di situ terdapat angka rata-rata yaitu \mu dan simpangan baku yaitu  \sigma . Pada gambar, tingkat kepercayaan menunjukkan luas di bawah kurva Gaussian antara suatu rentang, yaitu selang kepercayaan. Menurut gambar, pada tingkat kepercayaan 95,44%, terdapat selang kepercayaan antara \mu - 2\sigma dan \mu + 2\sigma, yang berarti hasil sampling bisa meleset sekitar 2 kali simpangan baku dari angka rata-rata.

 

Di sini selang kepercayaan (confidence interval) menunjukkan seberapa jauh hasil sampling boleh menyimpang untuk tetap dipercaya. Tingkat kepercayaan (confidence level) menunjukkan probabilitas atau kemungkinan suatu hasil sampling berada pada selang kepercayaan. Silahkan baca buku probabilistika dan statistika dasar untuk penjelasan yang lebih baik dan kalau malas silahkan baca wiki: en,de,id.

 

Untuk meningkatkan tingkat kepercayaan, selang kepercayaan harus diperlebar. Berarti hasilnya harus semakin menyimpang dari angka rata-rata, dong? Berarti makin besar saja batas kesalahannya, dong? Ya, betul, akan tetapi jika simpangan \sigma kecil, memperbesar selang kepercayaan belum tentu menambah galat atau error. Perhitungannya pada rumus di bawah ini.

***

Rumus ini, adalah rumus mencari batas kesalahan (margin of error), pada survei.
e = \frac{k}{2}\cdot \sigma_{\bar x} =\frac{k\cdot\sigma}{2\cdot\sqrt{n}}

e = batas kesalahan
k = kelipatan simpangan terhadap rata-rata, yang tergantung tingkat/selang kepercayaan.
\sigma_{\bar x} = kesalahan baku (standard error), dari rata-rata (of the mean)
\sigma = simpangan baku (standard deviation) menurut distribusi normal atau Gaussian.
n = jumlah sampel

 

Dari rumus di atas, dapat dicari hubungan antara berapa batas kesalahan yang dimaklumi dan berapa jumlah sampel yang diinginkan. Semakin besar jumlah sampel, maka semakin kecil kesalahannya. Selain itu, tingkat kepercayaan (confidence level) dan selang kepercayaan (confidence interval) berhubungan dengan besarnya k.

  • k = 1 setara dengan selang kepercayaan \pm 1 dan tingkat kepercayaan 68,26%
  • k =1,96 setara dengan tingkat kepercayaan 95% dan selang kepercayaan \pm 1,96
  • k = 2 setara dengan selang kepercayaan \pm 2 dan tingkat kepercayaan 95,44%
  • k = 2,58 setara dengan tingkat kepercayaan 99% dan selang kepercayaan \pm 2,58
  • k = 3 setara dengan selang kepercayaan \pm 3 dan tingkat kepercayaan 99,74%

***

Contoh pertama:
Hasil exit polls dari Center for Strategic and International Studies (CSIS) dan Cyrus Network, 9 April 2014 (dari berita Antara).
Jumlah sampel 8000 orang. Berapa batas kesalahannya (margin of error)?

Jika tingkat kepercayaan 95%, maka selang kepercayaan \pm 1,96.
e = \frac{1,96}{2}\cdot\sigma_{\bar x} =\frac{1,96\cdot{1}}{2\cdot\sqrt{8000}} = 0,011
Batas kesalahannya adalah 0,011 = 1,1%.

Jika tingkat kepercayaan 99%, maka selang kepercayaan \pm 2,58.
e = \frac{2,58}{2}\cdot\sigma_{\bar x} =\frac{2,58\cdot{1}}{2\cdot\sqrt{8000}} = 0,0144
Batas kesalahannya adalah 0,0144 = 1,44%.

Margin of error yang kecil, tidak lebih dari 1,5%. Lumayan akurat.

***

Contoh kedua:
Hasil quick count dari Jaringan Suara Indonesia (JSI), 9 April 2014 (dari berita KOMPAS).
Jumlah sampel 2000 TPS. Berapa batas kesalahannya (margin of error)?

Jika tingkat kepercayaan 95%, maka selang kepercayaan \pm 1,96.
e = \frac{1,96}{2}\cdot\sigma_{\bar x} =\frac{1,96\cdot{1}}{2\cdot\sqrt{2000}} = 0,022
Batas kesalahannya adalah 0,022 = 2,2%.

Jika tingkat kepercayaan 99%, maka selang kepercayaan \pm 2,58.
e = \frac{2,58}{2}\cdot\sigma_{\bar x} =\frac{2,58\cdot{1}}{2\cdot\sqrt{2000}} = 0,029
Batas kesalahannya adalah 0,029 = 2,9%.

Margin of error di bawah 3%.

***

Contoh ketiga:
Joko ingin membuka usaha survei politik. Dia ingin melakukan survei secara akurat terpercaya. Dia berpikir tingkat kepercayaan 95% dan kalau bisa batas kesalahannya 1% saja. Berapa sampel minimumnya?

Jika tingkat kepercayaan 95%, maka selang kepercayaan \pm 1,96.
0,01 =\frac{1,96 \cdot {1}}{2 \cdot \sqrt{n}}
maka
n = (\frac{1,96}{2 \cdot {0,01}})^2 = 9604

Jadi jumlah sampel yang harus diambil adalah 9604.
Wah, banyak sekali. Joko pun bingung bagaimana menggaji orang buat survei untuk seluruh Indonesia. Biaya perjalanan mereka juga besar. Joko pun berpikir bagaimana kalau batas kesalahannya jadi 3% saja, jadi jumlah sampel cukup 2000 saja.

***

Begitulah hubungan antara jumlah sampel dan batas kesalahan (margin of error) pada suatu survei ilmiah. Jadi pada survei menjelang Pemilu, “exit polls” maupun “quick count”, kita sebagai pembaca atau penonton berita harus kritis dengan bertanya berapa jumlah sampel, batas kesalahan, dan tingkat kepercayaan. Tentu saja kita harus kritis untuk mengetahui bagaimana juga survei dilakukan, misalnya stratified random sampling (acak berjenjang) atau tidak. Kapan survei dilakukan juga perlu diketahui.

 

Nah, kalau ada pimpinan partai yang membuat klaim partainya akan memperoleh sekian suara atau sekian kursi, akan tetapi hasil beberapa survei ilmiah tidak menunjukkan hasil sesuai kata-kata pimpinan parpol, itu artinya orang ini tidak memiliki argumentasi ilmiah.

 

Begitu pula, jika ada organisasi jadi-jadian yang biasanya dibentuk oleh suatu partai politik, membuat suatu survei. Akan tetapi dia tidak mencantumkan jumlah sampel, batas kesalahan (margin of error), tingkat kepercayaan, serta bagaimana dan kapan survei diadakan. Itu artinya survei ini ngawur atau tidak ilmiah.

 

Kalau ada orang yang bilang survei ini rekayasa parpol atau survei itu survei bayaran, kita juga harus kritis. Sekarang ada 56 lembaga survei yang tercatat oleh KPU. Jadi lihat-lihat saja hasil survei dari 56 lembaga tersebut kemudian bandingkan. Serta di wikipedia juga sudah ada yang merangkum survei-survei yang telah dilakukan selama ini. Jangan hanya karena kita tidak suka dengan hasil suatu survei, kita menganggap survei ini ngawur.

 

 ***

Posting ini adalah posting tentang penggunaan statistika dalam dunia politik. Posting serupa dalam dunia perjodohan, bisa dibaca pada “Semua pria sama saja“.

 

Oldenburg, 9 April 2014

iscab.saptocondro

April 9, 2014 Posted by | probabiliscab | , , , | 3 Comments

Semua pria sama saja, menurut probabilitas dan statistika

Ada pernyataan yang sering dikeluarkan oleh orang-orang yang kecewa.

  • “Ah, semua laki-laki sama saja. Brengsek!”
  • “Ah, semua wanita sama saja. Matré!”
  • dan lain-lain

Pernyataan di atas adalah suatu premis logis yang bisa dinegasikan dan dihubungkan dengan premis lain untuk membangun silogisme.

Negasi dari “semua pria sama saja” adalah “Ada pria yang tidak sama”.

Aku bertanya-tanya mengenai kebenaran dari pernyataan “semua pria sama saja”, bukan hanya secara logis, melainkan juga matematis. Ada cara untuk mengetahui kebenaran pernyataan ini secara matematis, yaitu dari ilmu probabilitas dan statistika.

Untuk menguji kebenaran pernyataan “semua pria sama saja, Brengsek!” maka perlu suatu survei atau pengambilan sampel, dari populasi pria. Berapa sampel yang diperlukan? Bagaimana tingkat kepercayaannya? Bagaimana galatnya?

***

Rumus ini, adalah rumus mencari batas kesalahan (margin of error), pada survei.

e = \frac{k}{2}\cdot \sigma_{\bar x} =\frac{k\cdot\sigma}{2\cdot\sqrt{n}}

e = batas kesalahan
k = kelipatan simpangan terhadap rata-rata, yang tergantung tingkat/selang kepercayaan.
\sigma_{\bar x} = kesalahan baku (standard error), dari rata-rata (of the mean)
\sigma = simpangan baku (standard deviation) menurut distribusi normal atau Gaussian.
n = jumlah sampel

Dari rumus di atas, dapat dicari hubungan antara berapa batas kesalahan yang dimaklumi dan berapa jumlah sampel yang diinginkan. Semakin besar jumlah sampel, maka semakin kecil kesalahannya.

Selain itu, tingkat kepercayaan (confidence level) dan selang kepercayaan (confidence interval) berhubungan dengan besarnya k.

  • k = 1 setara dengan selang kepercayaan \pm 1 dan tingkat kepercayaan 68,26%
  • k =1,96 setara dengan tingkat kepercayaan 95% dan selang kepercayaan \pm 1,96
  • k = 2 setara dengan selang kepercayaan \pm 2 dan tingkat kepercayaan 95,44%
  • k = 2,58 setara dengan tingkat kepercayaan 99% dan selang kepercayaan \pm 2,58
  • k = 3 setara dengan selang kepercayaan \pm 3 dan tingkat kepercayaan 99,74%

Gambar dari National Curve Bank berikut menjelaskan hubungan tingkat/selang kepercayaan dalam distribusi Gaussian.

Distribusi Gaussian

Distribusi Gaussian

Tingkat kepercayaan 95% berarti jika survei dilakukan 100 kali, maka 95 survei menunjukkan hasil yang sama dan 5 yang berbeda.
Batas kesalahan 1% berarti pada suatu survei, ada 1% sampel yang menyimpang.
Makna tingkat kepercayaan dan batas kesalahan di atas tidak terlalu tepat karena hanya dipakai untuk mempermudah penjelasan.

***

Kembali ke pernyataan “Semua laki-laki itu sama aja, brengsek.”

Untuk memperoleh tingkat kepercayaan 95% dengan batas kesalahan 1%, hitung-hitungannya begini.
Tingkat kepercayaan 95% berarti k = 1,96.
Simpangan baku setelah distandardisasi/dinormalisasi selalu satu.

0,01 =\frac{1,96 \cdot 1}{2 \cdot \sqrt{n}}
maka
n = (\frac{1,96}{2 \cdot 0,01})^2 = 9604

Jadi untuk tingkat kepercayaan 95% dan batas kesalahan 1%, perlu melakukan pengambilan sampel acak sejumlah 9604 pria, untuk membuktikan kebenaran pernyataan “Semua pria itu brengsek.”

Oh, ya, kalau tingkat kepercayaannya dinaikkan menjadi 99% dan batas kesalahan tetap 1%, maka k = 2,58 dan hitungannya sebagai berikut.

n = (\frac{2,58}{2 \cdot 0,01})^2 = 16641

Maka sampel yang perlu diambil secara acak adalah 16641 pria.

***

Jika kamu kecewa dengan pasanganmu, jangan bilang “Ah, semua pria sama aja, suka berbohong!” atau “Ah, semua wanita sama aja, matre semua!” sebelum merasakan pacaran sebanyak 16000 kali dan membuktikan pernyataan tersebut.

Bremen, 18 Juli 2013

iscab.saptocondro

July 18, 2013 Posted by | probabiliscab | , , , , , | 5 Comments

Mengapa Kartini dan bukan yang lainnya? Simple Complexity Analysis

Minggu lalu, dunia online dialiri tulisan tentang mengapa Kartini harus dirayakan setiap 21 April dan mengapa ia menjadi mitos. Ada dua artikel lama yang dikopi-paste ke milis-milis dan juga foto-foto Facebook, serta ditautkan ke Twitter:

Kedua tulisan tersebut merujuk pada artikel Harsja W. Bahtiar “Kartini dan Peranan Wanita dalam Masyarakat Kita”, di buku Satu Abad Kartini (1879-1979), (Jakarta: Pustaka Sinar Harapan, 1990, cetakan ke-4).

Pada ketiga artikel di atas, terdapat kritik terhadap pengkultusan Kartini. Selain itu, ada pertanyaan mengapa Kartini diperingati harinya setiap 21 April. Baik negara maupun masyarakat, merayakan Kartini namun tidak merayakan tokoh wanita lainnya, seperti Dewi Sartika, Rasuna Said, Rohana Kudus, Cut Nyak Dien, Laksamana Kemalahayati, dll. Sebagian tokoh wanita yang disebut T.A. Bachtiar, mengangkat senjata berperang melawan Belanda. Sebagian lain tidak menggunakan kekerasan, namun mendirikan sekolah perempuan, atau minimal lembaga kursus. Kritik berlanjut menjadi, mengapa hanya Kartini dan bukan yang lainnya.

Tulisanku tidak akan membahas mengenai aspek historis mengenai ketokohan Kartini dan perayaannya. Kali ini, aku akan membahas fenomena kompleksitas (wiki: en,de,en). Aku tidak akan memihak Kartini maupun tokoh wanita yang lainnya. Aku akan menggambarkan suatu model matematis yang menjelaskan mengapa Kartini digemari.

***

Pada suatu diskusi di Bremen, kawanku menyodorkan suatu paper tentang kompleksitas. Sayang sekali, paper ini entah kutaruh di mana. Kami mendiskusikan paper tersebut yang berisi suatu model yang menjelaskan mengapa motor bakar (combustion engine) berkembang lebih pesat daripada motor listrik (electric engine). Juga mengapa masyarakat di suatu tempat, memilih cara hidup yang ini, bukan yang lainnya. Mengapa warga suatu daerah memilih beternak bebek daripada kambing walau kedua hewan memiliki kemampuan yang sama untuk hidup dan sintas di tempat itu. Topik doktoral kawan-kawanku adalah tentang fenomena sosio-ekologi yang berhubungan dengan laut, karang, ikan, nelayan, dst. di suatu daerah di Sulawesi. Aku ikut diskusi dalam rangka makan-gak-makan-asal-kumpul, bukan untuk kegiatan akademik.

Modelnya seperti ini. Dimisalkan pada suatu kotak terdapat 1 bola hitam dan 1 bola putih. Satu bola diambil secara acak (random). Jika bola hitam terambil, maka bola hitam harus dikembalikan ke dalam kotak dan ada satu bola hitam yang ditambahkan ke dalam kotak. Jadi kotak menjadi memiliki 2 bola hitam dan 1 bola putih. Begitu juga sebaliknya, jika bola putih yang terambil. Pengambilan yang sederhana ini, jika dilakukan berulang (iterasi), akan menghasilkan fenomena kompleksitas.

Menurut diskusi Bremen, bola mana yang terambil terlebih dahulu akan lebih diuntungkan. Sistem ini sangat tergantung keadaan awal (initial condition). Penjelasan matematisnya terdapat di paper yang hilang jejaknya tersebut. Kini aku akan merekonstruksi modelnya secara lebih sederhana dengan contoh.

***

Keadaan awal: Dalam kotak, 1 bola hitam + 1 bola putih
Kemungkinan bola hitam terambil acak adalah \frac{1}{2} dan putih \frac{1}{2}

Langkah ke-1: bola hitam kebetulan terambil. Maka harus ada bola hitam yang ditambahkan. Jadinya 2 bola hitam dan 1 bola putih.
Kemungkinan bola hitam terambil acak pada langkah ini adalah \frac{2}{3} dan putih \frac{1}{3}
Kemungkinan langkah ini terus menghasilkan bola hitam:
P_{2,1}=\frac{1}{2}\cdot\frac{2}{3} = \frac{1}{3}

Langkah ke-2: bola hitam kebetulan terambil lagi. Isi kotak jadi 3 bola hitam dan 1 bola putih.
Kemungkinan bola hitam terambil acak pada langkah ini adalah \frac{3}{4} dan putih \frac{1}{4}
Kemungkinan langkah ini terus menghasilkan bola hitam:
P_{3,1}=\frac{1}{2}\cdot\frac{2}{3}\cdot\frac{3}{4} = \frac{1}{4}

Dan seterusnya, hingga langkah ke-k: Isi kotak jadi (k+1) bola hitam dan 1 bola putih
Kemungkinan bola hitam terambil terus:
P_{(k+1),1}=\frac{1}{2}\cdot\frac{2}{3}\cdot\frac{3}{4}\cdots\frac{k}{k-1+2}\cdot\frac{k+1}{k+2}= \frac{1}{k+2}
Begitu pula, jika bola putih yang terambil terus: Isi kotak 1 bola hitam + k+1 bola putih
P_{1,(k+1)}= \frac{1}{k+2}

Pertanyaan selanjutnya adalah:

  • Bagaimana kalau pada suatu langkah, bola hitam dan bola putih terambil bergantian, dengan urutan acak?
  • Bagaimana kalau kondisi awalnya tidak seimbang? Bagaimana kalau jumlah bola putih dan bola hitam yang asimetris?

***

Pada contoh lain. Kondisi awal bersifat asimetris. Ini lebih menggambarkan kejadian di dunia nyata yang berisi distribusi yang timpang, contoh kesenjangan sosial, social sentiment, tradisi, dll.

Kondisi awal: 7 bola hitam + 3 bola putih.
Kemungkinan bola hitam terambil acak adalah \frac{7}{10} dan putih \frac{3}{10}

Alternatif I: Bola hitam terambil terus

Langkah ke-1: Isi kotak jadi 8 bola hitam dan 3 bola putih.
Kemungkinan bola hitam terambil acak pada langkah ini adalah \frac{8}{11} dan putih \frac{3}{11}
Kemungkinan langkah ini terus menghasilkan bola hitam:
P_{8,3}=\frac{7}{10}\cdot\frac{8}{11}

Langkah ke-2: Isi kotak jadi 9 bola hitam dan 3 bola putih.
Kemungkinan bola hitam terambil acak pada langkah ini adalah \frac{9}{12} dan putih \frac{3}{12}
Kemungkinan langkah ini terus menghasilkan bola hitam:
P_{9,3}=\frac{7}{10}\cdot\frac{8}{11}\cdot\frac{9}{12}

Dan seterusnya, hingga langkah ke-k: Isi kotak menjadi (k+7) bola hitam dan 3 bola putih
P_{(k+7),3}=\frac{7}{10}\cdot\frac{8}{11}\cdot\frac{9}{12}\frac{10}{13}\cdots\frac{k-1+7}{k-1+10}\cdot\frac{k+7}{k+10}= \frac{7\cdot 8\cdot 9}{(k+10)\cdot(k+9)\cdot(k+8)}
Pada k yang besar:
P_{(k+7),3} \approx\frac{7\cdot 8\cdot 9}{k^{3}}

Alternatif II: Bola putih terambil terus

Langkah ke-1: Isi kotak jadi 7 bola hitam dan 4 bola putih.
Kemungkinan bola hitam terambil acak pada langkah ini adalah \frac{7}{11} dan putih \frac{4}{11}
Kemungkinan langkah ini terus menghasilkan bola putih:
P_{7,4}=\frac{3}{10}\cdot\frac{4}{11}

Langkah ke-2: Isi kotak jadi 7 bola hitam dan 5 bola putih.
Kemungkinan bola hitam terambil acak pada langkah ini adalah \frac{7}{12} dan putih \frac{5}{12}
Kemungkinan langkah ini terus menghasilkan bola putih:
P_{7,5}=\frac{3}{10}\cdot\frac{4}{11}\cdot\frac{5}{12}

Dan seterusnya, hingga langkah ke-k: Isi kotak menjadi 7 bola hitam dan (k+3) putih
P_{7,(k+3)}=\frac{3}{10}\cdot\frac{4}{11}\cdot\frac{5}{12}\frac{6}{13}\cdots\frac{k-1+3}{k-1+10}\cdot\frac{k+3}{k+10}= \frac{3\cdot 4\cdot 5\cdots 9}{(k+10)\cdot(k+9)\cdot(k+8) \cdots (k+4)}
Pada k yang besar:
P_{7,(k+3)} \approx\frac{3\cdot 4\cdot 5\cdots 9}{k^{7}}

Dari kedua alternatif di atas, tampak bahwa pada bola hitam lebih diuntungkan daripada bola putih.
P_{(k+7),3} =\frac{A}{k^{3}} > P_{7,(k+3)} = \frac{B}{k^{7}}
dengan A dan B konstanta, pada langkah ke-k, ketika k besar.

Alternatif III: Bola hitam dan bola putih terambil bergantian dengan urutan acak
Untuk alternatif ini, bisa kembali lagi dianalisis seperti alternatif I atau II. Iterasi ini sebetulnya lebih mudah dilakukan komputer daripada manusia.

***

Dari beberapa contoh di atas, tampak bahwa kondisi saat ini tergantung kondisi sebelumnya. Keadaan awal yang timpang, bisa menghasilkan kesempatan yang asimetris. Ada pihak yang diuntungkan dari kesenjangan ini, dan dirugikan karena kurangnya kesempatan.

Contoh di atas adalah untuk dua pilihan. Untuk multi pilihan bisa juga berlaku pemodelan yang sama. Bisa lihat sebagai berikut.

  • Kartini memiliki 17 bola hijau
  • Dewi Sartika memiliki 9 bola kuning
  • Cut Nyak Dien memiliki 5 bola kelabu
  • Rasuna Said memiliki 3 bola merah muda (pink)
  • Martha Christina Tiahahu memiliki 2 biru

Total bola adalah 36.

Ketika iterasi dilakukan sebanyak k, maka peluang masing-masing akan berbeda, untuk k yang besar.

  • Kartini berpeluang P_{hijau} = \frac{A}{k^(36-17)} = \frac{A}{k^{19}} (peluang terbesar)
  • Dewi Sartika berpeluang P_{kuning} = \frac{B}{k^(36-9)} = \frac{B}{k^{27}}
  • Cut Nyak Dien berpeluang P_{kelabu} = \frac{C}{k^(36-5)} = \frac{C}{k^{29}}
  • Rasuna Said berpeluang P_{pink} = \frac{D}{k^(36-3)} = \frac{D}{k^{33}}
  • Martha Christina Tiahahu berpeluang P_{biru} = \frac{E}{k^(36-2)} = \frac{E}{k^{34}} (peluang terkecil)

Dengan A, B, C, D, dan E adalah konstanta.

Kartini terpilih karena ia lebih dahulu diminati daripada tokoh wanita lainnya.  Seiring berjalannya waktu, ia dirayakan terus-menerus. Ini membentuk tradisi untuk semakin menambah minat akan Kartini. Ini terjadi ketika isi kotak tidak dipengaruhi agen dari luar sistem yang menambah bola, tanpa mengikuti aturan.

Jika ada suatu agen dari luar sistem yang menambah bola, isi kotak bisa berubah keadaan. Keadaan selanjutnya akan tergantung keadaan awal. Jika ada revolusi, yang menghapus Kartini dalam sejarah atau mengganti perayaan Kartini dengan tokoh lain, bisa saja keadaan selanjutnya berubah.

Bremen, 26 April 2013

iscab.saptocondro

April 27, 2013 Posted by | probabiliscab | , , | 1 Comment

Lotto Jerman: Analisis Probabilitas Kemenangan

Di Jerman, ada lotere yang dimiliki negara, namanya Lotto. Setiap hari Rabu dan Sabtu, di televisi nasional milik negara (ARD atau ZDF), ditampilkan pengambilan undian lotere ini. Pada Lotto, setiap orang membeli kupon, baik berupa kertas di kios maupun secara online pada website.

Setiap pemain lotere memiliki kebebasan memilih 6 angka dari 49 angka. Selain itu, pada kupon terdapat nomor kupon. Kemenangan seorang pemain tergantung dari angka yang dipilih bebas dan angka kupon. Setiap membeli undian, ada biaya 0,75 EUR untuk 1 pilihan. Ditambah biaya administrasi, per lembar kupon.

Pada pengundian, terdapat 49 bola yang memiliki nomor 1 hingga 49. Lalu diputar-putarlah bola-bola tersebut. Kemudian diambillah 7 bola secara acak: 6 angka utama dan 1 angka substitusi (Zusatzzahl). Selain itu, ada pengundian Superzahl, yaitu angka terakhir pada nomor kupon. Sepuluh bola, dari angka 0 hingga 9, diundi secara acak untuk diambil 1.

Jadi ada dua pengundian independen yang menyebabkan

  • 49 angka (lotere) = 6 angka benar+ 1 angka pengganti (Zusatzzahl) + 42 angka salah
  • 10 angka (kupon) = 1 angka Superzahl + 9 angka salah

***

 Kemungkinan yang muncul dari pengundian tersebut, sebagai berikut

  • Dari 49 diambil 6: {}_{49}C_{6} =\binom{49}{6}= 13 983 816
  • Dari 10 diambil 1: {}_{10}C_{1} =\binom{10}{1}= 10
  • Perkalian keduanya: {}_{49}C_{6}\times{}_{10}C_{1} =\binom{49}{6}\times\binom{10}{1}= 139 838 160
  • Jadi hampir 140 juta kemungkinan pengundian

Cara menghitungnya menggunakan Kombinasi (wiki: id,en,de):
{}_{n}C_{k} =\frac{n!}{k!(n-k)!}
{}_{n}C_{k} =\binom{n}{k}

***

Pada LOTTO, terdapat beberapa level kemenangan (Gewinnklasse):

  • Klasse I : 6 angka benar + 1 Superzahl
  • Klasse II: 6 angka benar
  • Klasse III: 5 angka benar + 1 Zusatzzahl
  • Klasse IV: 5 angka benar
  • Klasse V:  4 angka benar + 1 Zusatzzahl
  • Klasse VI: 4 angka benar
  • Klasse VII: 3 angka benar + 1 Zusatzzahl
  • Klasse VIII: 3 angka benar

Setengah uang yang dikumpulkan LOTTO diambil bandar, yaitu negara, untuk kegiatan kesenian, olahraga, dll serta tentu saja administrasi dan bagi hasil dengan kios. Jadi bandar dan kios takkan terkena resiko kerugian dari sistem perjudian ini. Setengah lagi, diberikan kepada para pemenang undian. Uang yang diundi dibagi dengan kuota sesuai level/kelas di atas, sebagai berikut.

  • 10% untuk Klasse 1
  • 8% untuk Klasse 2
  • 5% untuk Klasse 3
  • 13% untuk Klasse 4
  • 2% untuk Klasse 5
  • 10% untuk Klasse 6
  • 8% untuk Klasse 7
  • 44% untuk Klasse 8

Jika pada suatu kelas, tidak ada pemenang, maka hadiah akan diakumulasi pada pengundian berikutnya untuk kelas/level yang sama. Hal ini yang disebut Jackpot.

***

Analisis probabilitas untuk  tiap level kemenangan bisa dilihat di bawah ini.

Klasse I: 6 angka benar + 1 Superzahl

  • Dari 6 angka benar diambil 6: {}_{6}C_{6}=\binom{6}{6}=1
  • Dari 1 angka Zusatzzahl diambil 0: {}_{1}C_{0}=\binom{1}{0}=1
  • Dari 42 angka salah diambil 0: {}_{42}C_{0}=\binom{42}{0}=1
  • Dari 1 angka Superzahl diambil 1: {}_{1}C_{1}=\binom{1}{1}=1
  • Dari 9 angka salah diambil 0: {}_{9}C_{0}=\binom{9}{0}=1
  • Perkalian semuanya: {}\binom{6}{6}\times\binom{1}{0}\times\binom{42}{0}\times\binom{1}{1}\times\binom{9}{0}=1
  • Rasio kemenangan: 1 : 139 838 160
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{1}\times{0,75} = 104878620 EUR
  • Jadi kalau hadiahnya di bawah 105 juta EUR untuk Klasse I, sebetulnya Anda membuang uang.

Klasse II: 6 angka benar (+ 0 Superzahl)

  • Dari 6 angka benar diambil 6: {}_{6}C_{6}=\binom{6}{6}=1
  • Dari 1 angka Zusatzzahl diambil 0: {}_{1}C_{0}=\binom{1}{0}=1
  • Dari 42 angka salah diambil 0: {}_{42}C_{0}=\binom{42}{0}=1
  • Dari 1 angka Superzahl diambil 0: {}_{1}C_{0}=\binom{1}{0}=1
  • Dari 9 angka salah diambil 1: {}_{9}C_{1}=\binom{9}{1}=9
  • Perkalian semuanya: {}\binom{6}{6}\times\binom{1}{0}\times\binom{42}{0}\times\binom{1}{0}\times\binom{9}{1}=9
  • Rasio kemenangan: 9 : 139 838 160 = 3 : 46 612 720
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{9}\times{0,75} = 11653180 EUR
  • Jadi kalau hadiahnya di bawah 12 juta EUR untuk Klasse II, sebetulnya Anda membuang uang.

Klasse III: 5 angka benar + 1 Zuzatzzahl

  • Dari 6 angka benar diambil 5: {}_{6}C_{5}=\binom{6}{5}=6
  • Dari 1 angka Zusatzzahl diambil 1: {}_{1}C_{1}=\binom{1}{1}=1
  • Dari 42 angka salah diambil 0: {}_{42}C_{0}=\binom{42}{0}=1
  • Dari 10 angka kupon diambil 1: {}_{10}C_{1}=\binom{10}{1}=10
  • Perkalian semuanya: {}\binom{6}{5}\times\binom{1}{1}\times\binom{42}{0}\times\binom{10}{1}=60
  • Rasio kemenangan: 60 : 139 838 160 = 1 : 2 330 636
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{60}\times{0,75} = 1747977 EUR
  • Jadi kalau hadiahnya di bawah 1,75  juta EUR untuk Klasse III, sebetulnya Anda membuang uang.

Klasse IV: 5 angka benar (+ 1 angka salah)

  • Dari 6 angka benar diambil 5: {}_{6}C_{5}=\binom{6}{5}=6
  • Dari 1 angka Zusatzzahl diambil 0: {}_{1}C_{0}=\binom{1}{0}=1
  • Dari 42 angka salah diambil 1: {}_{42}C_{1}=\binom{42}{1}=42
  • Dari 10 angka kupon diambil 1: {}_{10}C_{1}=\binom{10}{1}=10
  • Perkalian semuanya: {}\binom{6}{5}\times\binom{1}{0}\times\binom{42}{1}\times\binom{10}{1}=2520
  • Rasio kemenangan: 2520 : 139 838 160
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{2520}\times{0,75} = 41618,5 EUR
  • Jadi kalau hadiahnya di bawah 42 ribu EUR untuk Klasse IV, sebetulnya Anda membuang uang.

Klasse V: 4 angka benar + 1 Zuzatzzahl (+ 1 angka salah)

  • Dari 6 angka benar diambil 4: {}_{6}C_{4}=\binom{6}{4}=15
  • Dari 1 angka Zusatzzahl diambil 1: {}_{1}C_{1}=\binom{1}{1}=1
  • Dari 42 angka salah diambil 1: {}_{42}C_{1}=\binom{42}{1}=42
  • Dari 10 angka kupon diambil 1: {}_{10}C_{1}=\binom{10}{1}=10
  • Perkalian semuanya: {}\binom{6}{4}\times\binom{1}{1}\times\binom{42}{1}\times\binom{10}{1}=6300
  • Rasio kemenangan: 6300 : 139 838 160
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{6300}\times{0,75} = 16647,4 EUR
  • Jadi kalau hadiahnya di bawah 17 ribu EUR untuk Klasse V, sebetulnya Anda membuang uang.

Klasse VI: 4 angka benar (+ 2 angka salah)

  • Dari 6 angka benar diambil 4: {}_{6}C_{4}=\binom{6}{4}=15
  • Dari 1 angka Zusatzzahl diambil 0: {}_{1}C_{0}=\binom{1}{0}=1
  • Dari 42 angka salah diambil 2: {}_{42}C_{2}=\binom{42}{2}=861
  • Dari 10 angka kupon diambil 1: {}_{10}C_{1}=\binom{10}{1}=10
  • Perkalian semuanya: {}\binom{6}{4}\times\binom{1}{0}\times\binom{42}{2}\times\binom{10}{1}=129150
  • Rasio kemenangan: 129 150 : 139 838 160
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{129150}\times{0,75} = 812,1 EUR
  • Jadi kalau hadiahnya di bawah 813 EUR untuk Klasse VI, sebetulnya Anda membuang uang.

Klasse VII: 3 angka benar + 1 Zuzatzzahl (+ 2 angka salah)

  • Dari 6 angka benar diambil 3: {}_{6}C_{3}=\binom{6}{3}=20
  • Dari 1 angka Zusatzzahl diambil 1: {}_{1}C_{1}=\binom{1}{1}=1
  • Dari 42 angka salah diambil 2: {}_{42}C_{2}=\binom{42}{2}=861
  • Dari 10 angka kupon diambil 1: {}_{10}C_{1}=\binom{10}{1}=10
  • Perkalian semuanya: {}\binom{6}{3}\times\binom{1}{1}\times\binom{42}{2}\times\binom{10}{1}=172200
  • Rasio kemenangan: 172200 : 139 838 160
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{172200}\times{0,75} = 609,1 EUR
  • Jadi kalau hadiahnya di bawah 610 EUR untuk Klasse VII, sebetulnya Anda membuang uang.

Klasse VIII: 3 angka benar (+ 3 angka salah)

  • Dari 6 angka benar diambil 3: {}_{6}C_{3}=\binom{6}{3}=20
  • Dari 1 angka Zusatzzahl diambil 0: {}_{1}C_{0}=\binom{1}{0}=1
  • Dari 42 angka salah diambil 3: {}_{42}C_{3}=\binom{42}{3}=11480
  • Dari 10 angka kupon diambil 1: {}_{10}C_{1}=\binom{10}{1}=10
  • Perkalian semuanya: {}\binom{6}{3}\times\binom{1}{0}\times\binom{42}{3}\times\binom{10}{1}=2296000
  • Rasio kemenangan: 2 296 000 : 139 838 160
  • Secara ekonomis, perjudian ini menguntungkan jika hadiahnya \frac{139 838 160}{2296000}\times{0,75} = 45,7 EUR
  • Jadi kalau hadiahnya di bawah 46 EUR untuk Klasse VIII, sebetulnya Anda membuang uang.

***

Selama ini, hadiah dari LOTTO selalu di bawah angka harapan matematis (Expected value/Erwartungswert). Dari kelas I hingga VIII, hadiahnya tak pernah menguntungkan, secara statistik, seperti perhitungan di atas. Jadi membeli LOTTO adalah cara membuang uang, untuk disumbangkan kepada kegiatan olahraga dan kesenian (kalau berpikir positif). Janganlah berjudi hingga kecanduan, seperti pesan pada kupon LOTTO (dan websitenya).

Bremen, 11 April 2013

iscab.saptocondro

April 11, 2013 Posted by | probabiliscab | , , , | 1 Comment

Information transfer rate (ITR) and Poco-poco dance

Information transfer rate (ITR)
ITR = B \cdot v
with B as bits per transfer and v as speed

Speed/rate (v)
v = \frac{n + e}{t}
with n as good information transfer, e as error and t is transfer time

Bits per transfer (B)
B = \log_2{N }+ P \cdot \log_2{P} + ( 1 - P ) \cdot \log_2{(\frac{1 - P}{N - 1})}
with N as the number which shows how many kinds of information you can transfer,
P as the accuracy, which means the number of good information (n) divided by the total information

Accuracy (P)
P = \frac{n}{n + e}

***

First Example:

I am learning how to dance. The basic steps are just go to left and right. The dance instructor will tell “left” and “right”.
One example is “left, left, right, left, right, right, left, right” That are first eight step of line dance.

In this case, the information type is just LEFT and RIGHT.
N = 2

In 15 minutes, the instructor has just taught me a dance routine. There was 100 steps. Fiuh, I am sweating. Because I am a beginner, I made 60 mistakes and 40 good dance.
n = 40
e = 60
t = 15 minutes

The Accuracy (P)
P = \frac{40}{40+60} = 0.4 = 40 percent

The learning speed (v)
v = \frac{100}{15} = 6.67

The bits per learning (B)
B = log_2{(2)} + 0.4 \cdot log_2{(0.4)} + (1 - 0.4) \cdot log_2{(\frac{1 - 0.4}{2 -1})}
B = 1 + 0.4 \cdot (-1.32) + 0.6 \cdot (-0.74)
B = 0.03 bits per learning

The information transfer rate
ITR = 0.03 \cdot 6.67 = 0.2
So I am learning how to dance with a rate of 0.2 bits per minute.

***

Second Example:

Now, I learn how to dance Poco-poco. This line dance comes from North Sulawesi in Indonesia.
The basic steps are

  • move left
  • move right
  • move forward
  • move backward
  • lean forward
  • lean backward
  • twist left
  • twist right

So the number of information types are N = 8

More advanced steps are

  • cross forward right
  • cross forward left
  • cross backward right
  • cross backward left
  • and so on

So N can be increasing depending on how well you learn the dance.

You can learn the basic step of Poco-poco from here.

***

Third Example:

Well, in a brain-computer interface experiment, a human subject has to do a task containing commands: LEFT, RIGHT, UP, DOWN. So N = 4. The time t, how many successful tasks n and how many mistakes e are measured. In the end, you can calculate the information transfer rate (ITR). More of this example can be read in my master thesis (here: wordpress, blogspot, scribd).

***

Well, I am still looking for books about this bits per transfer equation. It has something to do with information entropy.

Bits per transfer (B)
B = \log_2{N }+ P \cdot \log_2{P} + ( 1 - P ) \cdot \log_2{(\frac{1 - P}{N - 1})}

From wikipedia, the binary entropy function (H_b):
H_b(p) = - p \cdot \log_2{p} - (1 - p) \cdot \log_2{(1 - p)}
with p as a probability in a Bernoulli process, containing only 2 states, for example success-failure, yes-no, true-false, on-off, two-side of tossing coin.

From wikipedia, the Shannon entropy function (H):
H(X) = - \sum_{i = 1}^{n}{p(x_i) \cdot \log_b{p(x_i)}}
with p as a probability mass function of a discrete random variable X with a possible values \{ x_1, x_2, \dotsc, x_n \},
and b as the base or the possible states of x_i (in a binary or Bernoulli process b = 2)
Entropy is a measure of uncertainty associated to random variable. Shannon entropy quantifies expected value of information contained in a message. In binary process, it is quantified in bits.

Other reference:

  1. J.R. Wolpaw, N. Birbaumer, D.J. McFarland, G. Pfurtscheller, and T.M Vaughan, “Brain-computer interfaces for communication and control,” Clinical Neurophysiology, vol. 113, pp. 767-791, 2002.
  2. M. Cheng, X. Gao, S. Gao, and D. Xu, “Design and Implementation of a Brain-Computer Interface with High Transfer Rate,” IEEE Transactions on Biomedical Engineering, vol. 49, pp. 1181-1186, October 2002.
  3. Atmawan-Bisawarna,I.S.C., “Improvement of Response Times in SSVEP-based Brain-Computer Interface,” Master thesis, Information and Automation Engineering, University of Bremen, 2010.

Nürnberg, 17 Maret 2012

iscab.saptocondro

March 17, 2012 Posted by | probabiliscab | , , | Leave a comment