Dasar-dasar penelitian selektif dan pembentukan sampel acak sederhana. Populasi umum dan studi sampel. Validitas statistik Kriteria pengambilan sampel data

Sampel atau kerangka sampel- satu set kasus (subjek, objek, peristiwa, sampel), menggunakan prosedur tertentu, dipilih dari populasi umum untuk berpartisipasi dalam penelitian.

Karakteristik sampel:

Karakteristik kualitatif sampel - siapa sebenarnya yang kami pilih dan metode konstruksi sampel apa yang kami gunakan untuk ini.

Karakteristik kuantitatif sampel - berapa banyak kasus yang kita pilih, dengan kata lain, ukuran sampel.

Perlu untuk pengambilan sampel

Objek kajiannya sangat luas. Misalnya, konsumen produk perusahaan global adalah sejumlah besar pasar yang tersebar secara geografis.

Ada kebutuhan untuk mengumpulkan informasi primer.

Ukuran sampel

Ukuran sampel- jumlah kasus yang termasuk dalam sampel. Untuk alasan statistik, disarankan agar jumlah kasus setidaknya 30-35.

Sampel dependen dan independen

Saat membandingkan dua (atau lebih) sampel, ketergantungannya merupakan parameter penting. Jika memungkinkan untuk membentuk pasangan homomorfik (yaitu, ketika satu kasus dari sampel X sesuai dengan satu dan hanya satu kasus dari sampel Y dan sebaliknya) untuk setiap kasus dalam dua sampel (dan dasar hubungan ini penting untuk sifat diukur dalam sampel), sampel tersebut disebut bergantung. Contoh pilihan dependen:

pasangan kembar,

dua pengukuran fitur apa pun sebelum dan sesudah paparan eksperimental,

suami dan istri

Jika tidak ada hubungan seperti itu antara sampel, maka sampel ini dianggap Mandiri, Misalnya:

§ pria dan wanita,

psikolog dan matematikawan.

Dengan demikian, sampel dependen selalu memiliki ukuran yang sama, sedangkan ukuran sampel independen mungkin berbeda.

Sampel dibandingkan dengan menggunakan berbagai kriteria statistik:

Uji-t siswa

Tes Wilcoxon

Uji U Mann-Whitney

Kriteria tanda

keterwakilan

Sampel dapat dianggap representatif atau tidak representatif.

Contoh sampel yang tidak representatif

Di Amerika Serikat, salah satu contoh sejarah paling terkenal dari non-representative sampling dianggap sebagai kasus yang terjadi selama pemilihan presiden tahun 1936. The Litrery Digest, yang telah berhasil meramalkan peristiwa beberapa pemilihan sebelumnya, salah perhitungan dengan mengirimkan sepuluh juta surat suara tes kepada pelanggannya, serta orang-orang yang dipilih dari buku telepon di seluruh negeri dan orang-orang dari daftar registrasi mobil. Dalam 25% dari surat suara yang dikembalikan (hampir 2,5 juta), suara didistribusikan sebagai berikut:

57% memilih kandidat Partai Republik Alf Landon

40% memilih Presiden Demokrat saat itu Franklin Roosevelt

Seperti diketahui, Roosevelt memenangkan pemilihan yang sebenarnya dengan lebih dari 60% suara. Kesalahan The Litreary Digest adalah ini: ingin meningkatkan keterwakilan sampel - karena mereka tahu bahwa mayoritas pelanggan mereka menganggap diri mereka Republikan - mereka memperluas sampel dengan orang-orang yang dipilih dari buku telepon dan daftar pendaftaran. Namun, mereka tidak memperhitungkan realitas kontemporer dan bahkan merekrut lebih banyak Republikan: selama Depresi Hebat, sebagian besar kelas menengah dan atas (yaitu, sebagian besar Republikan, bukan Demokrat) yang mampu memiliki telepon dan mobil.

Jenis rencana untuk membangun kelompok dari sampel

Ada beberapa jenis utama rencana pembangunan kelompok:

1. Belajar dengan kelompok eksperimen dan kontrol, yang ditempatkan dalam kondisi yang berbeda.

Belajar dengan kelompok eksperimen dan kontrol menggunakan strategi pemilihan berpasangan

2. Penelitian hanya menggunakan satu kelompok - eksperimen.

3. Penelitian menggunakan rencana campuran (faktorial) - semua kelompok ditempatkan dalam kondisi yang berbeda.

]Jenis pengambilan sampel

Sampel dibagi menjadi dua jenis:

probabilistik

ketidakmungkinan

sampel probabilitas

1. Pengambilan sampel probabilitas sederhana:

Pengambilan sampel ulang sederhana. Penggunaan sampel semacam itu didasarkan pada asumsi bahwa setiap responden memiliki kemungkinan yang sama untuk diikutsertakan dalam sampel. Berdasarkan daftar penduduk umum disusun kartu dengan jumlah responden. Mereka ditempatkan di dek, dikocok, dan kartu diambil dari mereka secara acak, nomor ditulis, lalu dikembalikan. Selanjutnya, prosedur ini diulangi sebanyak ukuran sampel yang kita butuhkan. Minus: pengulangan unit seleksi.

Prosedur untuk membangun sampel acak sederhana meliputi langkah-langkah berikut:

1. Anda perlu mendapatkan daftar lengkap anggota populasi umum dan beri nomor daftar ini. Daftar seperti itu, mengingat, disebut kerangka sampling;

2. menentukan ukuran sampel yang diharapkan, yaitu jumlah responden yang diharapkan;

3. ekstrak angka dari tabel angka acak sebanyak yang kita butuhkan unit sampel. Jika sampel harus mencakup 100 orang, 100 nomor acak diambil dari tabel. Angka-angka acak ini dapat dihasilkan oleh program komputer.

4. pilih dari daftar dasar pengamatan yang angkanya sesuai dengan angka acak tertulis

Pengambilan sampel acak sederhana memiliki keuntungan yang jelas. Metode ini sangat mudah dipahami. Hasil penelitian dapat diperluas ke populasi penelitian. Sebagian besar pendekatan untuk inferensi statistik melibatkan pengumpulan informasi menggunakan sampel acak sederhana. Namun, metode simple random sampling memiliki setidaknya empat keterbatasan yang signifikan:

1. Seringkali sulit untuk membuat kerangka sampel yang memungkinkan sampel acak sederhana.

2. Hasil dari penggunaan sampel acak sederhana dapat berupa populasi yang besar, atau populasi yang tersebar di wilayah geografis yang luas, yang secara signifikan meningkatkan waktu dan biaya pengumpulan data.

3. Hasil penerapan sampel acak sederhana seringkali ditandai dengan akurasi yang rendah dan kesalahan standar yang lebih besar daripada hasil penerapan metode probabilistik lainnya.

4. Sebagai hasil dari penerapan SRS, sampel yang tidak representatif dapat terbentuk. Meskipun sampel yang diperoleh dengan pemilihan acak sederhana, rata-rata cukup mewakili populasi, beberapa di antaranya sangat salah mewakili populasi yang diteliti. Probabilitas ini sangat tinggi dengan ukuran sampel yang kecil.

Pengambilan sampel non-repetitif sederhana. Prosedur pembuatan sampelnya sama, hanya kartu dengan nomor responden yang tidak dikembalikan ke deck.

1. Pengambilan sampel probabilitas sistematis. Ini adalah versi sederhana dari sampel probabilitas sederhana. Berdasarkan daftar populasi umum, responden dipilih pada interval tertentu (K). Nilai K ditentukan secara acak. Hasil yang paling dapat diandalkan dicapai dengan populasi umum yang homogen, jika tidak, ukuran langkah dan beberapa pola siklus internal sampel mungkin bertepatan (pencampuran sampel). Cons: sama seperti dalam sampel probabilitas sederhana.

2. Pengambilan sampel serial (bersarang). Unit pengambilan sampel adalah seri statistik (keluarga, sekolah, tim, dll.). Elemen yang dipilih dikenakan pemeriksaan terus menerus. Pemilihan unit statistik dapat diatur sesuai dengan jenis sampling acak atau sistematis. Cons: Kemungkinan homogenitas yang lebih besar daripada di populasi umum.

3. Pengambilan sampel berdasarkan zona. Dalam hal populasi yang heterogen, sebelum menggunakan probability sampling dengan teknik pemilihan apa pun, disarankan untuk membagi populasi menjadi bagian-bagian yang homogen, sampel seperti itu disebut sampel terzona. Kelompok zonasi dapat berupa formasi alami (misalnya, kabupaten kota) dan fitur apa pun yang mendasari penelitian. Tanda yang menjadi dasar pembagiannya disebut tanda stratifikasi dan zonasi.

4. Pilihan "Nyaman". Prosedur pengambilan sampel "kenyamanan" terdiri dari menjalin kontak dengan unit pengambilan sampel "nyaman" - dengan sekelompok siswa, tim olahraga, dengan teman dan tetangga. Jika perlu untuk memperoleh informasi tentang reaksi orang terhadap konsep baru, sampel semacam itu cukup masuk akal. Pengambilan sampel "kenyamanan" sering digunakan untuk pengujian awal kuesioner.

Sampel Luar Biasa

Pemilihan sampel semacam itu dilakukan tidak sesuai dengan prinsip peluang, tetapi sesuai dengan kriteria subjektif - aksesibilitas, kekhasan, representasi yang setara, dll.

1. Sampel kuota - sampel dibangun sebagai model yang mereproduksi struktur populasi umum dalam bentuk kuota (proporsi) dari karakteristik yang dipelajari. Jumlah elemen sampel dengan kombinasi yang berbeda dari karakteristik yang diteliti ditentukan sedemikian rupa sehingga sesuai dengan bagian mereka (proporsi) dalam populasi umum. Jadi, misalnya, jika kita memiliki populasi umum 5.000 orang, yang terdiri dari 2.000 wanita dan 3.000 pria, maka dalam sampel kuota kita akan memiliki 20 wanita dan 30 pria, atau 200 wanita dan 300 pria. Sampel kuota paling sering didasarkan pada kriteria demografi: jenis kelamin, usia, wilayah, pendapatan, pendidikan, dan lain-lain. Cons: biasanya sampel tersebut tidak representatif, karena tidak mungkin untuk memperhitungkan beberapa parameter sosial sekaligus. Kelebihan: bahan mudah diakses.

2. Metode bola salju. Sampel dibangun sebagai berikut. Setiap responden, mulai dari yang pertama, diminta untuk menghubungi teman, kolega, kenalannya yang sesuai dengan syarat seleksi dan dapat mengikuti penelitian. Jadi, dengan pengecualian langkah pertama, sampel dibentuk dengan partisipasi dari objek studi itu sendiri. Metode ini sering digunakan ketika diperlukan untuk mencari dan mewawancarai kelompok responden yang sulit dijangkau (misalnya, responden berpenghasilan tinggi, responden dari kelompok profesional yang sama, responden yang memiliki hobi/kegemaran yang sama, dll. )

3. Pengambilan sampel spontan - pengambilan sampel dari apa yang disebut "pendatang pertama". Sering digunakan dalam polling televisi dan radio. Ukuran dan komposisi sampel acak tidak diketahui sebelumnya, dan hanya ditentukan oleh satu parameter - aktivitas responden. Kekurangan: tidak mungkin untuk menentukan populasi umum apa yang diwakili oleh responden, dan akibatnya, tidak mungkin untuk menentukan keterwakilan.

4. Survei rute - sering digunakan jika unit studi adalah keluarga. Pada peta pemukiman di mana survei akan dilakukan, semua jalan diberi nomor. Menggunakan tabel (generator) angka acak, sejumlah besar dipilih. Setiap nomor besar dianggap terdiri dari 3 komponen: nomor jalan (2-3 nomor pertama), nomor rumah, nomor apartemen. Misalnya, nomor 14832: 14 adalah nomor jalan di peta, 8 adalah nomor rumah, 32 adalah nomor apartemen.

5. Pengambilan sampel berdasarkan zona dengan pemilihan objek yang khas. Jika, setelah zonasi, objek khas dipilih dari setiap grup, mis. objek yang menurut sebagian besar karakteristik yang dipelajari dalam penelitian ini mendekati rata-rata, sampel semacam itu disebut dikategorikan dengan pemilihan objek yang khas.

6.Modal pemilihan. 7. sampel ahli. 8. Sampel heterogen.

Strategi Membangun Grup

Pemilihan kelompok untuk partisipasi mereka dalam eksperimen psikologis dilakukan dengan menggunakan berbagai strategi yang diperlukan untuk memastikan kepatuhan sebesar mungkin dengan validitas internal dan eksternal.

Pengacakan (pilihan acak)

Pilihan berpasangan

Seleksi stratometrik

Perkiraan pemodelan

§ Melibatkan Grup Nyata

Pengacakan

Pengacakan, atau seleksi acak, digunakan untuk membuat sampel acak sederhana. Penggunaan sampel semacam itu didasarkan pada asumsi bahwa setiap anggota populasi memiliki kemungkinan yang sama untuk diikutsertakan dalam sampel. Misalnya, untuk membuat sampel acak dari 100 mahasiswa, Anda dapat meletakkan selembar kertas dengan nama semua mahasiswa di sebuah topi, dan kemudian mengambil 100 lembar kertas dari itu - ini akan menjadi pemilihan acak (Goodwin J. , hal.147).

Pilihan berpasangan

Pilihan berpasangan- strategi untuk membangun kelompok sampel, di mana kelompok subjek terdiri dari subjek yang setara dalam hal parameter samping yang signifikan untuk eksperimen. Strategi ini efektif untuk eksperimen menggunakan kelompok eksperimen dan kontrol dengan opsi terbaik - menarik pasangan kembar (mono- dan dizigotik), karena memungkinkan Anda membuat ...

Seleksi stratometrik

Seleksi stratometrik- pengacakan dengan alokasi strata (atau cluster). Dengan metode pengambilan sampel ini, populasi umum dibagi menjadi kelompok-kelompok (strata) yang memiliki karakteristik tertentu (jenis kelamin, usia, preferensi politik, pendidikan, tingkat pendapatan, dll.), dan subjek dengan karakteristik yang sesuai dipilih.

Perkiraan pemodelan

Perkiraan pemodelan- menyusun sampel terbatas dan menggeneralisasi kesimpulan tentang sampel ini ke populasi yang lebih luas. Misalnya, ketika berpartisipasi dalam studi mahasiswa di tahun ke-2 universitas, data studi ini diperluas ke "orang berusia 17 hingga 21 tahun." Penerimaan generalisasi semacam itu sangat terbatas.

Pemodelan perkiraan adalah pembentukan model yang, untuk kelas sistem (proses) yang didefinisikan dengan jelas, menggambarkan perilakunya (atau fenomena yang diinginkan) dengan akurasi yang dapat diterima.

Pengambilan sampel dalam 1C 8.2 dan 8.3 adalah cara khusus untuk menyortir record tabel infobase. Mari kita lihat lebih dekat apa itu sampling dan bagaimana menggunakannya.

Apa yang dimaksud dengan sampel dalam 1C?

Sampel- cara untuk menyortir informasi dalam 1C, yang terdiri dari penempatan kursor secara berurutan pada catatan berikutnya. Pilihan dalam 1C dapat diperoleh dari hasil query dan dari manajer objek, misalnya, dokumen atau direktori.

Contoh mendapatkan dan mengulangi dari manajer objek:

Pilihan = Direktori. Bank. Pilih() ; Sedangkan seleksi. Berikutnya() Siklus Akhir Siklus ;

Contoh mendapatkan pilihan dari kueri:

Dapatkan pelajaran video 267 1C gratis:

Permintaan = Permintaan Baru( "Pilih Link, Kode, Nama Dari Direktori. Bank"); Contoh = Permintaan. Jalankan() . Pilih() ; Sedangkan seleksi. Berikutnya() Putaran //melakukan tindakan menarik dengan direktori "Bank" Siklus Akhir;

Kedua contoh di atas mendapatkan kumpulan data yang sama untuk diulang.

Metode Pengambilan Sampel 1C 8.3

Seleksi memiliki sejumlah besar metode, mari kita pertimbangkan secara lebih rinci:

  • Pilih()- metode di mana sampel diperoleh secara langsung. Dari seleksi, Anda bisa mendapatkan yang lain, bawahan, seleksi jika jenis bypass "berdasarkan pengelompokan" ditentukan.
  • Pemilik() adalah metode kebalikan dari Select(). Memungkinkan Anda mendapatkan pilihan kueri "induk".
  • Lanjut()- metode yang memindahkan kursor ke record berikutnya. Mengembalikan True jika record ada, False jika tidak ada record lagi.
  • TemukanBerikutnya()- metode yang sangat berguna yang dengannya Anda hanya dapat menghitung bidang yang diperlukan dengan nilai pilihan (pilihan - struktur bidang).
  • BerikutnyaByFieldValue()- memungkinkan Anda untuk mendapatkan catatan berikutnya dengan nilai yang berbeda dari posisi saat ini. Misalnya, Anda perlu menghitung semua catatan dengan nilai unik bidang "Akun": Pilihan.Berikutnya Dengan Nilai Bidang ("Akun").
  • Mengatur ulang()- memungkinkan Anda untuk mengatur ulang lokasi kursor saat ini dan mengaturnya ke posisi semula.
  • Kuantitas()- mengembalikan jumlah record dalam seleksi.
  • Menerima()- menggunakan metode ini, Anda dapat mengatur kursor pada catatan yang diinginkan dengan nilai indeks.
  • Tingkat() - level dalam hierarki entri saat ini (angka).
  • Tipe Rekam()— menampilkan jenis rekaman — DetailRecord, GroupTotal, HierarchyTotal, atau GrandTotal
  • pengelompokan()- mengembalikan nama pengelompokan saat ini, jika catatan bukan pengelompokan - string kosong.

Jika Anda mulai belajar pemrograman 1C, kami merekomendasikan kursus gratis kami (jangan lupa

Populasi- satu set unit yang memiliki karakter massa, kekhasan, keseragaman kualitatif dan adanya variasi.

Populasi statistik terdiri dari objek material yang ada (Karyawan, perusahaan, negara, wilayah), adalah objek.

Satuan populasi- setiap unit tertentu dari populasi statistik.

Populasi statistik yang sama dapat homogen dalam satu fitur dan heterogen di fitur lainnya.

Keseragaman kualitatif- kesamaan semua unit populasi untuk fitur apa pun dan ketidaksamaan untuk semua yang lain.

Dalam populasi statistik, perbedaan antara satu unit populasi dan yang lain lebih sering bersifat kuantitatif. Perubahan kuantitatif dalam nilai atribut unit yang berbeda dari populasi disebut variasi.

Variasi Fitur- perubahan kuantitatif dalam suatu sifat (untuk sifat kuantitatif) dalam transisi dari satu unit populasi ke unit lainnya.

tanda- ini adalah properti, fitur karakteristik atau fitur lain dari unit, objek, dan fenomena yang dapat diamati atau diukur. Tanda dibagi menjadi kuantitatif dan kualitatif. Keanekaragaman dan keragaman nilai suatu ciri dalam satuan individu populasi disebut variasi.

Ciri-ciri atributif (kualitatif) tidak dapat diukur (komposisi populasi menurut jenis kelamin). Karakteristik kuantitatif memiliki ekspresi numerik (komposisi populasi berdasarkan usia).

Indikator- ini adalah karakteristik kualitatif kuantitatif generalisasi dari setiap properti unit atau set secara keseluruhan dalam kondisi waktu dan tempat tertentu.

Kartu catatan angka adalah seperangkat indikator yang secara komprehensif mencerminkan fenomena yang diteliti.

Misalnya, pertimbangkan gaji:
  • Tanda - upah
  • Populasi statistik - semua karyawan
  • Satuan dari populasi adalah setiap pekerja
  • Homogenitas kualitatif - gaji yang masih harus dibayar
  • Variasi fitur - serangkaian angka

Populasi umum dan sampel darinya

Basis adalah sekumpulan data yang diperoleh sebagai hasil pengukuran satu atau lebih fitur. Himpunan objek yang benar-benar diamati, secara statistik diwakili oleh sejumlah pengamatan dari variabel acak , adalah contoh, dan yang ada secara hipotetis (dipikirkan) - populasi umum. Populasi umum dapat berhingga (jumlah observasi N = konstanta) atau tak terbatas ( N =), dan sampel dari populasi umum selalu merupakan hasil pengamatan dalam jumlah terbatas. Banyaknya pengamatan yang membentuk sampel disebut ukuran sampel. Jika ukuran sampel cukup besar n→∞) sampel dianggap besar, jika tidak maka disebut sampel volume terbatas. Sampel dianggap kecil, jika, ketika mengukur variabel acak satu dimensi, ukuran sampel tidak melebihi 30 ( n<= 30 ), dan ketika mengukur secara bersamaan beberapa ( k) fitur dalam hubungan ruang multidimensi n ke k kurang dari 10 (n/k< 10) . Contoh formulir seri variasi jika anggotanya adalah statistik pesanan, yaitu, nilai sampel dari variabel acak x diurutkan dalam urutan menaik (diperingkat), nilai-nilai atribut disebut pilihan.

Contoh. Kumpulan objek yang dipilih secara acak yang hampir sama - bank komersial dari satu distrik administratif Moskow, dapat dianggap sebagai sampel dari populasi umum semua bank komersial di distrik ini, dan sebagai sampel dari populasi umum semua bank komersial di Moskow , serta contoh bank komersial di negara ini dan lain-lain.

Metode pengambilan sampel dasar

Keandalan kesimpulan statistik dan interpretasi hasil yang bermakna tergantung pada: keterwakilan sampel, yaitu kelengkapan dan kecukupan penyajian sifat-sifat populasi umum, yang dengannya sampel ini dapat dianggap representatif. Studi tentang sifat statistik populasi dapat diatur dalam dua cara: menggunakan kontinu Dan terputus-putus. Pengamatan terus menerus termasuk pemeriksaan semua unit dipelajari agregat, tetapi observasi non-kontinyu (selektif)- hanya sebagian saja.

Ada lima cara utama untuk mengatur pengambilan sampel:

1. pilihan acak sederhana, di mana objek diekstraksi secara acak dari populasi umum objek (misalnya, menggunakan tabel atau generator angka acak), dan masing-masing sampel yang mungkin memiliki probabilitas yang sama. Sampel seperti itu disebut sebenarnya acak;

2. seleksi sederhana melalui prosedur reguler dilakukan dengan menggunakan komponen mekanis (misalnya, tanggal, hari dalam seminggu, nomor apartemen, huruf alfabet, dll.) dan sampel yang diperoleh dengan cara ini disebut mekanis;

3. bertingkat seleksi terdiri dari kenyataan bahwa populasi umum volume dibagi menjadi himpunan bagian atau lapisan (strata) volume sehingga . Strata adalah objek homogen dalam hal karakteristik statistik (misalnya, populasi dibagi menjadi strata menurut kelompok umur atau kelas sosial; perusahaan menurut industri). Dalam hal ini, sampel disebut bertingkat(sebaliknya, bertingkat, khas, dikategorikan);

4. metode serial seleksi digunakan untuk membentuk serial atau sampel bersarang. Mereka nyaman jika perlu untuk memeriksa "blok" atau serangkaian objek sekaligus (misalnya, kiriman barang, produk dari seri tertentu, atau populasi di divisi teritorial-administrasi negara). Pemilihan seri dapat dilakukan secara acak atau mekanis. Pada saat yang sama, survei berkelanjutan terhadap sejumlah barang tertentu, atau seluruh unit teritorial (bangunan tempat tinggal atau seperempat) dilakukan;

5. gabungan(melangkah) seleksi dapat menggabungkan beberapa metode seleksi sekaligus (misalnya, bertingkat dan acak atau acak dan mekanis); sampel seperti itu disebut gabungan.

Jenis pilihan

Oleh pikiran ada seleksi individu, kelompok dan gabungan. Pada seleksi individu unit individu dari populasi umum dipilih dalam kumpulan sampel, dengan pemilihan grup adalah kelompok (deret) unit yang secara kualitatif homogen, dan seleksi gabungan melibatkan kombinasi dari tipe pertama dan kedua.

Oleh metode seleksi membedakan berulang dan tidak berulang Sampel.

tidak bisa diulang disebut seleksi, di mana unit yang masuk ke dalam sampel tidak kembali ke populasi semula dan tidak ikut seleksi lebih lanjut; sedangkan jumlah unit populasi umum n berkurang selama proses seleksi. Pada ulang pilihan tertangkap dalam sampel, unit setelah pendaftaran dikembalikan ke populasi umum dan dengan demikian mempertahankan kesempatan yang sama, bersama dengan unit lain, untuk digunakan dalam prosedur seleksi lebih lanjut; sedangkan jumlah unit populasi umum n tetap tidak berubah (metode ini jarang digunakan dalam studi sosio-ekonomi). Namun, dengan besar N (N → ) rumus untuk tidak berulang pilihan dekat dengan mereka untuk ulang seleksi dan yang terakhir digunakan hampir lebih sering ( N = konstanta).

Karakteristik utama dari parameter populasi umum dan sampel

Dasar dari kesimpulan statistik penelitian adalah distribusi variabel acak , sedangkan nilai-nilai yang diamati (x 1, x 2, ..., x n) disebut realisasi dari variabel acak x(n adalah ukuran sampel). Distribusi variabel acak dalam populasi umum bersifat teoretis, ideal, dan analog sampelnya adalah empiris distribusi. Beberapa distribusi teoritis diberikan secara analitis, yaitu mereka parameter tentukan nilai fungsi distribusi pada setiap titik dalam ruang kemungkinan nilai variabel acak . Untuk sampel, sulit, dan terkadang tidak mungkin, untuk menentukan fungsi distribusi, oleh karena itu parameter diestimasi dari data empiris, dan kemudian disubstitusikan ke dalam ekspresi analitis yang menggambarkan distribusi teoretis. Dalam hal ini, asumsi (atau hipotesa) tentang jenis distribusi dapat benar dan salah secara statistik. Tetapi bagaimanapun juga, distribusi empiris yang direkonstruksi dari sampel hanya secara kasar mencirikan distribusi yang sebenarnya. Parameter distribusi yang paling penting adalah nilai yang diharapkan dan dispersi.

Menurut sifatnya, distribusi adalah kontinu Dan diskrit. Distribusi kontinu yang paling dikenal adalah normal. Analog selektif parameter dan untuk itu adalah: nilai rata-rata dan varians empiris. Di antara diskrit dalam studi sosial-ekonomi, yang paling umum digunakan alternatif (dikotomis) distribusi. Parameter ekspektasi dari distribusi ini menyatakan nilai relatif (atau Bagikan) satuan populasi yang mempunyai sifat yang diteliti (ditunjukkan dengan huruf ); proporsi populasi yang tidak memiliki ciri tersebut dilambangkan dengan huruf q (q = 1 - p). Varians dari distribusi alternatif juga memiliki analog empiris.

Tergantung pada jenis distribusi dan metode pemilihan unit populasi, karakteristik parameter distribusi dihitung secara berbeda. Yang utama untuk distribusi teoritis dan empiris diberikan dalam Tabel. satu.

Contoh berbagi k n adalah rasio jumlah unit populasi sampel dengan jumlah unit populasi umum:

k n = n/N.

Berbagi sampel adalah rasio unit yang memiliki sifat yang dipelajari x untuk ukuran sampel n:

w = n n / n.

Contoh. Dalam batch barang yang berisi 1000 unit, dengan sampel 5% pecahan sampel k n dalam nilai absolut adalah 50 unit. (n = N*0,05); jika 2 produk cacat ditemukan dalam sampel ini, maka pecahan sampel w akan menjadi 0,04 (w = 2/50 = 0,04 atau 4%).

Karena populasi sampel berbeda dengan populasi umum, maka kesalahan pengambilan sampel.

Tabel 1. Parameter utama populasi umum dan sampel

Kesalahan pengambilan sampel

Dengan apapun (padat dan selektif) kesalahan dari dua jenis dapat terjadi: pendaftaran dan keterwakilan. kesalahan Registrasi dapat memiliki acak Dan sistematis karakter. Acak kesalahan terdiri dari banyak penyebab tak terkendali yang berbeda, tidak disengaja di alam, dan biasanya menyeimbangkan satu sama lain dalam kombinasi (misalnya, perubahan pembacaan instrumen karena fluktuasi suhu di dalam ruangan).

Sistematis kesalahan bias, karena melanggar aturan untuk memilih objek dalam sampel (misalnya, penyimpangan dalam pengukuran saat mengubah pengaturan alat pengukur).

Contoh. Untuk menilai status sosial penduduk di kota direncanakan pemeriksaan 25% keluarga. Namun, jika pemilihan setiap apartemen keempat didasarkan pada jumlahnya, maka ada bahaya memilih semua apartemen hanya dari satu jenis (misalnya, apartemen satu kamar), yang akan menimbulkan kesalahan sistematis dan mendistorsi hasil; pilihan nomor apartemen berdasarkan lot lebih disukai, karena kesalahannya akan acak.

Kesalahan keterwakilan melekat hanya dalam pengamatan selektif, mereka tidak dapat dihindari dan mereka muncul sebagai akibat dari fakta bahwa sampel tidak sepenuhnya mereproduksi yang umum. Nilai indikator yang diperoleh dari sampel berbeda dengan indikator nilai yang sama pada populasi umum (atau diperoleh selama pengamatan terus menerus).

Kesalahan pengambilan sampel adalah perbedaan antara nilai parameter dalam populasi umum dan nilai sampelnya. Untuk nilai rata-rata atribut kuantitatif sama dengan: , dan untuk share (atribut alternatif) - .

Kesalahan pengambilan sampel hanya melekat pada pengamatan sampel. Semakin besar kesalahan ini, semakin banyak distribusi empiris berbeda dari yang teoritis. Parameter distribusi empiris dan merupakan variabel acak, oleh karena itu, kesalahan pengambilan sampel juga merupakan variabel acak, mereka dapat mengambil nilai yang berbeda untuk sampel yang berbeda, dan oleh karena itu merupakan kebiasaan untuk menghitung kesalahan rata-rata.

Rata-rata kesalahan pengambilan sampel adalah nilai yang menyatakan simpangan baku rata-rata sampel dari ekspektasi matematis. Nilai ini, tunduk pada prinsip pemilihan acak, terutama bergantung pada ukuran sampel dan tingkat variasi sifat: semakin besar dan semakin kecil variasi sifat (karenanya, nilai ), semakin kecil nilai kesalahan sampling rata-rata. Rasio antara varians dari populasi umum dan sampel dinyatakan dengan rumus:

itu. untuk cukup besar, kita dapat mengasumsikan bahwa . Rata-rata kesalahan sampling menunjukkan kemungkinan penyimpangan parameter populasi sampel dari parameter populasi umum. Di meja. 2 menunjukkan ekspresi untuk menghitung kesalahan pengambilan sampel rata-rata untuk berbagai metode pengorganisasian pengamatan.

Tabel 2. Rata-rata kesalahan (m) dari rata-rata sampel dan proporsi untuk berbagai jenis sampel

Dimana rata-rata varians sampel intragroup untuk fitur kontinu;

Rata-rata dispersi intra-grup saham;

— jumlah seri yang dipilih, — jumlah total seri;

,

di mana rata-rata deret ke-th;

- rata-rata umum di seluruh sampel untuk fitur berkelanjutan;

,

dimana proporsi sifat pada deret ke-th;

— bagian total sifat di seluruh sampel.

Namun, besarnya kesalahan rata-rata hanya dapat dinilai dengan probabilitas tertentu (Р 1). Lyapunov A.M. membuktikan bahwa distribusi rata-rata sampel, dan karenanya penyimpangannya dari rata-rata umum, dengan jumlah yang cukup besar, kira-kira mematuhi hukum distribusi normal, asalkan populasi umum memiliki rata-rata berhingga dan varians terbatas.

Secara matematis, pernyataan untuk mean ini dinyatakan sebagai:

dan untuk pecahan, ekspresi (1) akan berbentuk:

di mana - makan kesalahan pengambilan sampel marjinal, yang merupakan kelipatan dari rata-rata kesalahan pengambilan sampel , dan faktor multiplisitas adalah kriteria Student ("faktor kepercayaan"), diusulkan oleh W.S. Gosset (nama samaran "Mahasiswa"); nilai untuk ukuran sampel yang berbeda disimpan dalam tabel khusus.

Nilai fungsi (t) untuk beberapa nilai t adalah:

Oleh karena itu, ekspresi (3) dapat dibaca sebagai berikut: dengan probabilitas P = 0,683 (68,3%) dapat dikatakan bahwa perbedaan antara sampel dan rata-rata umum tidak akan melebihi satu nilai kesalahan rata-rata m(t=1), dengan probabilitas P = 0,954 (95,4%)— bahwa itu tidak melebihi nilai dua kesalahan rata-rata m (t = 2) , dengan kemungkinan P = 0,997 (99,7%)- tidak akan melebihi tiga nilai m (t = 3) . Jadi, probabilitas bahwa perbedaan ini akan melebihi tiga kali nilai kesalahan rata-rata menentukan: tingkat kesalahan dan tidak lebih dari 0,3% .

Di meja. 3 menunjukkan rumus untuk menghitung kesalahan sampling marginal.

Tabel 3. Kesalahan pengambilan sampel marginal (D) untuk rata-rata dan proporsi (p) untuk berbagai jenis pengamatan sampel

Memperluas Hasil Sampel ke Populasi

Tujuan akhir dari observasi sampel adalah untuk mengkarakterisasi populasi umum. Untuk ukuran sampel yang kecil, perkiraan empiris dari parameter ( dan ) dapat menyimpang secara signifikan dari nilai sebenarnya ( dan ). Oleh karena itu, menjadi perlu untuk menetapkan batas-batas di mana nilai sebenarnya ( dan ) terletak untuk nilai sampel parameter ( dan ).

Interval kepercayaan dari beberapa parameter dari populasi umum disebut rentang nilai acak dari parameter ini, yang dengan probabilitas mendekati 1 ( keandalan) berisi nilai sebenarnya dari parameter ini.

kesalahan marginal sampel Δ memungkinkan Anda untuk menentukan nilai batas karakteristik populasi umum dan mereka interval kepercayaan, yang sama dengan:

Intinya selang kepercayaan diperoleh dengan mengurangkan kesalahan marginal dari mean sampel (share), dan yang teratas dengan menambahkannya.

Interval kepercayaan untuk mean, ia menggunakan kesalahan sampling marginal dan untuk tingkat kepercayaan tertentu ditentukan oleh rumus:

Ini berarti bahwa dengan probabilitas tertentu R, yang disebut tingkat kepercayaan dan secara unik ditentukan oleh nilai T, dapat dikatakan bahwa nilai sebenarnya dari mean terletak pada rentang dari , dan nilai sebenarnya dari saham tersebut berada dalam kisaran dari

Saat menghitung interval kepercayaan untuk tiga tingkat kepercayaan standar P=95%, P=99% dan P=99,9% nilai dipilih oleh . Aplikasi tergantung pada jumlah derajat kebebasan. Jika ukuran sampel cukup besar, maka nilai-nilai yang sesuai dengan probabilitas ini T adalah sama: 1,96, 2,58 Dan 3,29 . Dengan demikian, kesalahan pengambilan sampel marjinal memungkinkan kita untuk menentukan nilai marjinal dari karakteristik populasi umum dan interval kepercayaannya:

Distribusi hasil pengamatan selektif kepada masyarakat umum dalam kajian sosial ekonomi mempunyai ciri tersendiri, karena memerlukan kelengkapan keterwakilan dari semua jenis dan golongannya. Dasar dari kemungkinan distribusi seperti itu adalah perhitungannya Kesalahan relatif:

di mana Δ % - kesalahan sampling marginal relatif; , .

Ada dua metode utama untuk memperluas pengamatan sampel ke populasi: konversi langsung dan metode koefisien.

Esensi konversi langsung adalah mengalikan mean sampel!!\overline(x) dengan ukuran populasi .

Contoh. Biarkan rata-rata jumlah balita di kota diperkirakan dengan metode sampling dan jumlah seseorang. Jika ada 1000 keluarga muda di kota, maka jumlah tempat yang dibutuhkan di pembibitan kota diperoleh dengan mengalikan rata-rata ini dengan ukuran populasi umum N = 1000, yaitu. akan menjadi 1200 kursi.

Metode koefisien disarankan untuk digunakan jika pengamatan selektif dilakukan untuk memperjelas data pengamatan berkelanjutan.

Dalam melakukannya, rumus yang digunakan:

di mana semua variabel adalah ukuran populasi:

Ukuran sampel yang diperlukan

Tabel 4. Ukuran sampel yang diperlukan (n) untuk berbagai jenis organisasi pengambilan sampel

Saat merencanakan survei pengambilan sampel dengan nilai kesalahan pengambilan sampel yang diizinkan sebelumnya, perlu untuk memperkirakan dengan benar yang diperlukan ukuran sampel. Jumlah ini dapat ditentukan berdasarkan kesalahan yang diizinkan selama pengamatan selektif berdasarkan probabilitas tertentu yang menjamin tingkat kesalahan yang dapat diterima (dengan mempertimbangkan cara pengamatan diatur). Rumus untuk menentukan ukuran sampel yang diperlukan n dapat dengan mudah diperoleh langsung dari rumus untuk kesalahan pengambilan sampel marginal. Jadi, dari ekspresi untuk kesalahan marginal:

ukuran sampel ditentukan secara langsung n:

Rumus ini menunjukkan bahwa dengan menurunnya kesalahan sampling marginal Δ secara signifikan meningkatkan ukuran sampel yang diperlukan, yang sebanding dengan varians dan kuadrat dari uji-t Student.

Untuk metode khusus pengorganisasian observasi, ukuran sampel yang diperlukan dihitung sesuai dengan rumus yang diberikan dalam Tabel. 9.4.

Contoh Perhitungan Praktis

Contoh 1. Perhitungan nilai rata-rata dan interval kepercayaan untuk karakteristik kuantitatif kontinu.

Untuk menilai kecepatan penyelesaian dengan kreditur di bank, sampel acak dari 10 dokumen pembayaran dilakukan. Nilai mereka ternyata sama (dalam hari): 10; 3; 15; 15; 22; 7; 8; satu; 19; dua puluh.

Diperlukan dengan probabilitas P = 0,954 tentukan kesalahan marginal Δ rata-rata sampel dan batas kepercayaan waktu kalkulasi rata-rata.

Larutan. Nilai rata-rata dihitung dengan rumus dari Tabel. 9.1 untuk populasi sampel

Dispersi dihitung menurut rumus dari Tabel. 9.1.

Kesalahan kuadrat rata-rata hari ini.

Kesalahan mean dihitung dengan rumus:

itu. nilai rata-rata adalah x ± m = 12,0 ± 2,3 hari.

Keandalan rata-rata adalah

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9.3 untuk pemilihan ulang, karena ukuran populasi tidak diketahui, dan untuk P = 0,954 tingkat kepercayaan diri.

Jadi, nilai rata-ratanya adalah `x ± D = `x ± 2m = 12,0 ± 4,6, mis. nilai sebenarnya terletak pada kisaran 7,4 hingga 16,6 hari.

Penggunaan meja Siswa. Aplikasi ini memungkinkan kita untuk menyimpulkan bahwa untuk n = 10 - 1 = 9 derajat kebebasan, nilai yang diperoleh dapat diandalkan dengan tingkat signifikansi a £ 0,001, yaitu. nilai mean yang dihasilkan berbeda nyata dengan 0.

Contoh 2. Estimasi Probabilitas (Bagian Umum) r.

Dengan metode sampling mekanis yang mensurvei status sosial 1000 keluarga, terungkap bahwa proporsi keluarga berpenghasilan rendah adalah w = 0,3 (30%)(sampelnya adalah 2% , yaitu n/N = 0,02). Diperlukan dengan tingkat kepercayaan diri p = 0,997 tentukan indikator R keluarga berpenghasilan rendah di seluruh wilayah.

Larutan. Menurut nilai fungsi yang disajikan (t) temukan untuk tingkat kepercayaan yang diberikan P = 0,997 berarti t=3(lihat rumus 3). Kesalahan pembagian marjinal w tentukan dengan rumus dari Tabel. 9.3 untuk pengambilan sampel yang tidak berulang (pengambilan sampel mekanis selalu tidak berulang):

Membatasi kesalahan pengambilan sampel relatif dalam % akan:

Probabilitas (pangsa umum) keluarga berpenghasilan rendah di wilayah tersebut adalah p=w±w, dan batas kepercayaan p dihitung berdasarkan pertidaksamaan ganda:

w — w p w — w, yaitu nilai sebenarnya dari p terletak di dalam:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Dengan demikian, dengan probabilitas 0,997, dapat dikatakan bahwa proporsi keluarga berpenghasilan rendah di antara semua keluarga di wilayah tersebut berkisar antara 28,6% hingga 31,4%.

Contoh 3 Perhitungan nilai rata-rata dan interval kepercayaan untuk fitur diskrit yang ditentukan oleh deret interval.

Di meja. 5. Distribusi aplikasi untuk produksi pesanan sesuai dengan waktu implementasinya oleh perusahaan diatur.

Tabel 5. Distribusi observasi berdasarkan waktu kejadian

Larutan. Rata-rata waktu penyelesaian pesanan dihitung dengan rumus:

Waktu rata-rata akan menjadi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 bulan

Kami mendapatkan jawaban yang sama jika kami menggunakan data pada p i dari kolom kedua dari belakang Tabel. 9.5 menggunakan rumus:

Perhatikan bahwa pertengahan interval gradasi terakhir ditemukan dengan melengkapinya secara artifisial dengan lebar interval gradasi sebelumnya yang sama dengan 60 - 36 = 24 bulan.

Dispersi dihitung dengan rumus

di mana x saya- tengah seri interval.

Oleh karena itu!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) dan kesalahan standarnya adalah .

Kesalahan rata-rata dihitung dengan rumus selama berbulan-bulan, mis. rata-ratanya adalah!!\overline(x) ± m = 23,1 ± 13,4.

Kesalahan pembatas dihitung dengan rumus dari Tabel. 9,3 untuk pemilihan ulang karena ukuran populasi tidak diketahui, untuk tingkat kepercayaan 0,954:

Jadi maksudnya adalah:

itu. nilai sebenarnya terletak pada kisaran 0 hingga 50 bulan.

Contoh 4 Untuk mengetahui kecepatan pelunasan dengan kreditur N = 500 badan usaha pada bank umum perlu dilakukan penelitian secara selektif dengan menggunakan metode random non-repetitive selection. Tentukan ukuran sampel yang diperlukan n sehingga dengan probabilitas P = 0,954 kesalahan rata-rata sampel tidak melebihi 3 hari, jika perkiraan percobaan menunjukkan bahwa standar deviasi s adalah 10 hari.

Larutan. Untuk menentukan jumlah studi yang diperlukan n, kami menggunakan rumus untuk seleksi non-berulang dari Tabel. 9.4:

Di dalamnya, nilai t ditentukan dari untuk tingkat kepercayaan P = 0,954. Sama dengan 2. Nilai kuadrat rata-rata s = 10, ukuran populasi N = 500, dan kesalahan marginal rata-rata Δ x = 3. Substitusikan nilai-nilai ini ke dalam rumus, kita dapatkan:

itu. cukup membuat sampel 41 perusahaan untuk memperkirakan parameter yang diperlukan - kecepatan penyelesaian dengan kreditur.

Konsep "keterwakilan" dalam kaitannya dengan jajak pendapat sosiologis - jajak pendapat publik - memiliki efek yang hampir ajaib pada orang-orang. Istilah “representasi” itu sendiri, selain secara ilmiah, juga memiliki makna politis yang jelas.

Apa alasannya? Masalahnya diasumsikan bahwa sampel (sekelompok orang yang dipilih untuk survei) dapat mewakili (mewakili) seluruh populasi. Populasi umum dalam kasus survei semua-Rusia adalah seluruh populasi negara. Sekarang mari kita bayangkan bahwa kita berbicara tentang keputusan politik - mendukung RUU atau memberikan suara dalam pemilihan. Dengan bantuan survei sampel, kami mendapatkan mekanisme representasi politik yang sangat baik - mekanisme di mana sekelompok kecil orang dapat mewakili pendapat atau posisi seluruh penduduk negara. Oleh karena itu, keterwakilan penelitian diberikan tempat yang begitu penting.

Konsep keterwakilan digunakan, tentu saja, tidak hanya dalam studi politik. Istilah ini hampir selalu digunakan ketika berbicara tentang studi besar, baik di bidang pemasaran, perilaku ekonomi, atau pendidikan.

Metodologi survei representatif

Bagaimana, setelah mensurvei 1.500 orang, seseorang dapat menarik kesimpulan tentang semua orang Rusia, di antaranya ada lebih dari 140 juta (dan bahkan pemilih lebih dari 110 juta)? Teknologi di balik jajak pendapat perwakilan didasarkan pada undang-undang statistik. Alasan terdekat adalah hukum bilangan besar, atau teorema Bernoulli.

Secara sederhana, maknanya dapat disampaikan sebagai berikut. Misalkan kita memiliki beberapa fitur, misalnya, jumlah curah hujan per hari di Yekaterinburg selama abad ke-20. Jika kita menuliskan semua nilainya bersama dengan frekuensinya (ini disebut distribusi), dan kemudian secara acak mengambil sejumlah besar kasus (yaitu, tidak semua hari di abad kedua puluh, tetapi cukup banyak), maka kita akan melihat bahwa distribusi dalam sampel kita akan sangat mirip dengan distribusi untuk seluruh abad kedua puluh. Jadi, jika kita memilih beberapa unit dari populasi, mereka mungkin memang mewakili seluruh populasi, dan tidak perlu mengumpulkan data untuk semua kasus.

Namun, ada syarat utama: ini benar hanya jika pemilihannya benar-benar acak. Satu-satunya masalah di sini mungkin penyimpangan dari keacakan. Jadi, jika kita hanya mengambil data curah hujan selama beberapa tahun terakhir (misalnya, karena data ini lebih mudah ditemukan) atau mewawancarai 1500 kenalan kita (karena lebih mudah untuk menghubungi mereka), dan bukan orang acak, maka sampelnya tentu tidak akan menjadi perwakilan.

Bayangkan bahwa dari 143,5 juta orang Rusia, Anda secara acak memilih 1.500 orang yang Anda butuhkan. Kemudian, misalnya, proporsi manajer menengah di antara mereka akan kira-kira sama dengan proporsi manajer menengah dalam populasi, yang menunjukkan bahwa sampel Anda dapat mewakili seluruh populasi. Mungkinkah kedua indikator ini akan sangat berbeda? Misalnya, di antara orang Rusia 14%, tetapi dalam sampel hanya 1%? Secara teoritis, ini mungkin, tetapi kemungkinannya sangat kecil sehingga dapat diabaikan (seperti bertemu naga di jalan).

Selain itu, hal yang paling menyenangkan tentang probabilitas ini bukanlah kecil, tetapi untuk proses acak, probabilitas ini dapat dihitung. Kita dapat mengatakan dengan probabilitas berapa nilai sampel kita akan menyimpang dari nilai dalam populasi umum sebesar 13% (seperti dalam contoh di atas), dan dengan itu, katakanlah, sebesar 2,5%. Namun, biasanya mereka melakukan yang sebaliknya: pertama, mereka menentukan probabilitas yang kita inginkan agar nilai kita tidak menyimpang dari nilai dalam populasi umum (paling sering ditetapkan pada tingkat 95%), dan kemudian mereka melihat besarnya penyimpangan untuk sampel ukuran tertentu. Penyimpangan ini disebut interval kepercayaan, kadang-kadang disebut sebagai kesalahan pengambilan sampel atau kesalahan statistik, dan sering dicantumkan di samping hasil survei.

Jadi, probabilitas penyimpangan, jumlah penyimpangan (interval kepercayaan) dan ukuran sampel saling berhubungan. Berdasarkan hal tersebut, rumus untuk menghitung ukuran sampel adalah sebagai berikut:

di mana n adalah ukuran sampel, adalah interval kepercayaan, z adalah nilai fungsi distribusi normal untuk probabilitas penolakan tertentu (untuk probabilitas 5%, nilai ini adalah 1,96).

Ini adalah formula yang disederhanakan, survei nyata menggunakan formula yang sedikit lebih kompleks. Rumus ini juga bisa gagal jika nilai indikatornya sangat berbeda dari 50% (jadi, misalnya, rumus ini tidak cocok untuk memperkirakan proporsi penderita penyakit langka di suatu negara).

Inilah yang terjadi jika Anda mengganti beberapa nilai dalam rumus ini:

Dengan kata lain, jika kami mengambil sampel acak orang Rusia dengan ukuran 1600 orang dan memperkirakan beberapa indikator, misalnya, kesediaan untuk memilih politisi tertentu, maka dengan probabilitas 95% perkiraan kami tidak akan berbeda dengan kesediaan untuk memilih dia di antara semua orang Rusia dengan lebih dari 2, 45%.

Ukuran sampel

Jadi, semakin besar ukuran sampel, semakin besar kemungkinan kita untuk lebih dekat dengan bagian dalam populasi. Tampaknya ini berarti bahwa kita perlu mencoba membawa sampel lebih dekat ke 143,5 juta Faktanya, seperti yang Anda lihat dari tabel, sifat proses acak sedemikian rupa sehingga dari saat tertentu kemungkinan jatuh ke dalam interval mulai meningkat sangat lambat (dan momen ini datang cukup cepat). Setelah kami mengambil sampel 1500 unit, tidak peduli seberapa besar kami meningkatkan ukuran sampel, kemungkinan nilai sampel kami akan jatuh ke dalam nilai populasi akan meningkat sangat, sangat lambat.

Faktanya, hampir tidak ada perbedaan antara 1.500 dan 10.000 responden. Di suatu tempat pada tahun 1500 kita sudah dapat mengatakan bahwa perkiraan kita akan berbeda dari bagian populasi umum sebesar 2-3%. Jika kita menambah sampel lebih jauh, maka kemungkinan kesalahan ini akan berkurang, tetapi sangat sedikit. Dengan kata lain, sampel 100.000 lebih baik daripada sampel 2500, tetapi perbedaannya sangat kecil sehingga tidak masuk akal dan, dalam kasus survei sosial, tidak dapat dibenarkan secara ekonomi. Biasanya, menambah sampel itu mahal, dan oleh karena itu tidak masuk akal untuk mengembangnya untuk mendapatkan satu poin persentase dalam nilai interval kepercayaan.

Adalah penting bahwa ukuran populasi umum tidak muncul dalam rumus sama sekali. Faktanya adalah bahwa ketika populasinya besar (lebih dari 20.000), itu memiliki sedikit atau tidak berpengaruh pada ukuran sampel. Jadi, kita tidak perlu tahu berapa banyak orang yang tinggal di Rusia untuk membuat sampel yang representatif. Jelas bahwa memilih 1500 dari 2000 kemungkinan besar tidak masuk akal - lebih mudah untuk memeriksa 2000 dan mendapatkan perkiraan yang akurat. Tapi, jika perlu, membuat sampel, kita mendapat kesempatan untuk menggeneralisasikan hasilnya untuk populasi umum. Dan untuk alasan yang sama, ukuran sampel tidak akan berbeda untuk negara besar dan kecil.

Keterwakilan dan Akurasi

Untuk memahami arti dari konsep "keterwakilan", mari kita pertimbangkan sampel 15 orang. Anehnya, jika Anda membuatnya secara tidak sengaja, itu juga representatif. Selain itu, Anda dapat membuat sampel satu unit. Bayangkan sebuah kotak bola dari mana Anda mengambil satu bola secara acak. Jika itu adalah bola yang dipilih secara acak, maka itu juga akan mewakili semua bola yang ada di dalam kotak ini. Dia hanya akan mewakili mereka. tidak tepat. Mengapa? Karena kemungkinan salahnya sangat besar. Lain kali kita bisa menggambar bola lain dan mendapatkan ide yang berbeda tentang bola di dalam kotak. Mewakili secara tidak akurat berarti memiliki kisaran perkiraan yang luas.

Dengan cara yang sama, 15 orang mewakili populasi umum mana pun, tetapi mereka mewakilinya secara tidak akurat, karena kesalahannya, interval kepercayaannya, sangat besar. Kita harus menambahkan +/- 33% untuk mendapatkan 95% kemungkinan bahwa kita akan jatuh ke dalam interval. Jika kita siap untuk mengakui hal ini, maka kita ambil 15 orang, cari tahu bahwa 7 di antaranya adalah manajer menengah, dan kemudian kita mendapatkan perkiraan bahwa 7/15 dari total, yaitu, 47% +/- 33%, adalah perkiraan bagian manajer dalam populasi umum, dan ini adalah kesimpulan yang benar-benar tepat. Itu hanya tidak memiliki nilai. Ini bisa kita katakan tanpa pemeriksaan. Oleh karena itu, ketika merencanakan sampel, masuk akal untuk mencapai ukuran yang sesuai dalam hal efektivitas biaya.

Semua hal di atas dimaksudkan untuk menyampaikan satu ide sederhana, yang sangat sering tidak disadari: ukuran sampel tidak terkait dengan keterwakilannya.

Sampel kecil tidak tepat, tetapi masih bisa mewakili. Ukuran sampel yang digunakan saat ini dalam survei massal di Rusia hampir selalu memiliki akurasi yang cukup tinggi.

Keterwakilan sampel terancam bukan oleh ukurannya, tetapi oleh bias, yaitu penyimpangan dari prinsip keacakan.

Pelanggaran prinsip keacakan

Jika kita mulai memilih unit secara non-acak, sampel menjadi tidak representatif. Misalnya, jika ada sesuatu yang menghalangi kita untuk memilihnya secara acak. Bayangkan kita ingin memilih bola dari kotak kita secara acak, tetapi ternyata beberapa bola menggigit. Mekanisme di mana kita hanya akan mengambil kelereng yang diberikan kepada kita adalah mekanisme yang melanggar keacakan dan karenanya melanggar keterwakilan. Dalam hal ini, tidak peduli berapa banyak kelereng yang kita ambil dari kotak (bahkan jika kita mengambil semua kelereng yang tidak menggigit), kita akan memiliki sampel yang tidak representatif, karena kita tidak akan memperhitungkan yang menggigit - mereka hanya melewati sampel kami.

Masalah terbesar dengan menggigit bola adalah bahwa mereka dapat berbeda dari yang datang ke tangan kita, dan berbeda dalam cara kita tertarik. Situasi ini disebut bias sampling.

Perlu untuk membedakan situasi representasi yang tidak akurat, yang kami jelaskan di atas, dari situasi non-representasi. Ini adalah masalah yang berbeda dan mereka memiliki solusi yang berbeda. Anda tidak dapat menyelesaikan salah satunya dengan menyelesaikan yang lain. Jika sampel tidak memiliki keterwakilan, tidak ada gunanya meningkatkannya. Selain itu, sampel besar dalam survei sosial cenderung menumpuk kesalahan, sehingga masalah representasi hanya dapat diperburuk oleh peningkatan sampel yang besar.

Mengapa keterwakilan tidak mungkin?

Dalam catatan tabel hasil survei, sering terlihat bahwa "ukuran sampel adalah 1600 orang, sampel tersebut mewakili jenis kelamin dan usia." Dari apa yang telah dikatakan di atas, jelas bahwa ini adalah dua parameter yang berbeda: indikasi keterwakilan tidak terkait dengan ukuran sampel. Sebenarnya, yang dimaksud di sini adalah bahwa prosedur-prosedur tertentu diikuti untuk menjamin kesesuaian antara sampel dan populasi. Misalnya, untuk memastikan keterwakilan berdasarkan jenis kelamin, pria dan wanita direkrut ke dalam sampel dalam proporsi yang sama yang ada di antara orang Rusia menurut data sensus. Tetapi keterwakilan menurut jenis kelamin tidak berarti keterwakilan, misalnya, menurut pandangan politik.

Mengapa perlu untuk menyelaraskan sampel berdasarkan jenis kelamin dan kategori sosio-demografis lainnya? Karena hanya sampel acak yang dapat memberikan keterwakilan yang benar, dan tidak mungkin menerapkannya dalam praktik karena banyak alasan. Segera setelah Anda mencoba melakukan ini, Anda akan mengalami banyak masalah - tidak peduli metode mana yang Anda pilih untuk digunakan. Beberapa responden tidak akan tersedia untuk metode Anda sama sekali (misalnya, untuk wawancara pribadi, rumah dengan interkom dan keamanan adalah masalah besar), bagian lain akan absen, tidak menjawab, atau lebih memilih untuk menjalankan bisnis mereka. Ada orang yang memiliki masalah bahasa dan tidak dapat berbicara dengan kami. Ada orang yang tidak mengerti mengapa ini perlu, dan mereka tidak mau berbicara dengan kita. Semua ini adalah pelanggaran serius terhadap keacakan, yang membuat realisasinya tidak mungkin.

Mereka yang mereduksi masalah representasi dalam survei massal menjadi statistik lupa bahwa orang adalah kelereng yang sangat spesifik. Ada bola yang lari dan bersembunyi. Ada bola yang menggigit. Mereka bukan objek pasif, mereka membalas. Mereka berkata, "Saya tidak ingin berpartisipasi dalam survei Anda," sehingga melanggar keacakan. Oleh karena itu, dalam arti kata yang sempit, keterwakilan dalam survei massal, tentu saja, tidak mungkin dilakukan dalam bentuk apa pun.

Sebuah mekanisme telah dikembangkan di mana penampilan keterwakilan biasanya dipastikan: kami menyelaraskan sampel dalam beberapa kategori dan berpura-pura bahwa itu juga disejajarkan dalam semua kategori lain yang mungkin. Sebenarnya, kami tidak punya alasan untuk menegaskan hal ini. Tetapi masalahnya adalah tidak ada cara untuk memeriksa ini - sekali lagi, karena fakta bahwa beberapa bola menggigit. Untuk memeriksa bias, pemeriksa harus mendatangi orang-orang yang tidak kami wawancarai dan mewawancarai mereka. Tapi mereka, seperti yang kita ingat, tidak mau ditanyai sama sekali. Tidak mungkin untuk menginterogasi mereka yang dengan tegas tidak menjawab. Oleh karena itu, setiap orang bekerja dengan asumsi bahwa jika kita menyelaraskan sampel pada dua atau tiga parameter, itu mewakili seluruh populasi, meskipun tidak ada dasar yang serius untuk asumsi ini.

Sampling representatif adalah teknologi yang dipinjam oleh sosiolog dari statistik. Oleh karena itu, ia pasti membawa unsur-unsur gambaran matematika dan statistik dunia. Mungkin asumsi yang paling kuat adalah bahwa sampel survei itu sendiri secara politik dan sosiologis netral: partisipasi dan non-partisipasi dalam survei tidak membawa makna politik dan tidak terkait dengan parameter sosiologis penting lainnya. Tapi hari ini, jajak pendapat telah menjadi salah satu lembaga politik utama dan telah menjadi perantara utama antara perusahaan besar dan konsumen. Dalam kondisi seperti ini, tidak mungkin lagi mempercayai sterilitas politik mereka. Namun, kita masih tahu sedikit tentang bagaimana jajak pendapat dipahami dalam masyarakat kontemporer dan apa yang sebenarnya diwakilinya.

Jumlah objek pengamatan (orang, rumah tangga, perusahaan, pemukiman, dll.) yang memiliki seperangkat karakteristik tertentu (jenis kelamin, usia, pendapatan, jumlah, omset, dll.), terbatas dalam ruang dan waktu. Contoh populasi

  • Semua penduduk Moskow (10,6 juta orang menurut sensus 2002)
  • Pria Moskow (4,9 juta menurut sensus 2002)
  • Badan hukum Rusia (2,2 juta pada awal 2005)
  • Gerai ritel yang menjual produk makanan (20 ribu di awal 2008), dll.

Sampel (Populasi sampel)

Bagian dari objek-objek dari populasi dipilih untuk diteliti guna menarik suatu kesimpulan tentang keseluruhan populasi. Agar kesimpulan yang diperoleh dengan mempelajari sampel dapat diperluas ke seluruh populasi, sampel harus memiliki sifat representatif.

Keterwakilan sampel

Properti sampel untuk mencerminkan populasi umum dengan benar. Sampel yang sama mungkin atau mungkin tidak mewakili populasi yang berbeda.
Contoh:

  • Sampel yang seluruhnya terdiri dari orang Moskow yang memiliki mobil tidak mewakili seluruh populasi Moskow.
  • Sampel perusahaan Rusia dengan hingga 100 karyawan tidak mewakili semua perusahaan di Rusia.
  • Sampel orang Moskow yang melakukan pembelian di pasar tidak mewakili perilaku pembelian semua orang Moskow.

Pada saat yang sama, sampel ini (tergantung pada kondisi lain) dapat dengan sempurna mewakili pemilik mobil Moskow, perusahaan Rusia kecil dan menengah, dan pembeli yang melakukan pembelian di pasar.
Penting untuk dipahami bahwa keterwakilan sampel dan kesalahan pengambilan sampel adalah fenomena yang berbeda. Keterwakilan, tidak seperti kesalahan, tidak bergantung pada ukuran sampel.
Contoh:
Tidak peduli seberapa banyak kami meningkatkan jumlah pemilik mobil Moskow yang disurvei, kami tidak akan dapat mewakili semua orang Moskow dengan sampel ini.

Kesalahan pengambilan sampel (interval kepercayaan)

Penyimpangan hasil yang diperoleh dengan bantuan observasi sampel dari data sebenarnya dari populasi umum.
Ada dua jenis kesalahan pengambilan sampel: statistik dan sistematis. Kesalahan statistik tergantung pada ukuran sampel. Semakin besar ukuran sampel, semakin rendah.
Contoh:
Untuk sampel acak sederhana 400 unit, kesalahan statistik maksimum (dengan kepercayaan 95%) adalah 5%, untuk sampel 600 unit - 4%, untuk sampel 1100 unit - 3% .
Kesalahan sistematis tergantung pada berbagai faktor yang memiliki dampak konstan pada penelitian dan bias hasil penelitian ke arah tertentu.
Contoh:

  • Penggunaan sampel probabilitas apa pun meremehkan proporsi orang berpenghasilan tinggi yang aktif. Ini terjadi karena fakta bahwa orang-orang seperti itu jauh lebih sulit ditemukan di tempat tertentu (misalnya, di rumah).
  • Masalah responden yang menolak menjawab pertanyaan (bagian "refuseniks" di Moskow, untuk survei yang berbeda, berkisar antara 50% hingga 80%)

Dalam beberapa kasus, ketika distribusi yang benar diketahui, bias dapat disamakan dengan memperkenalkan kuota atau pembobotan ulang data, tetapi dalam kebanyakan studi nyata, bahkan memperkirakannya bisa sangat bermasalah.

Jenis sampel

Sampel dibagi menjadi dua jenis:

  • probabilistik
  • ketidakmungkinan

1. Sampel probabilitas
1.1 Pengambilan sampel secara acak (seleksi acak sederhana)
Sampel semacam itu mengasumsikan homogenitas populasi umum, probabilitas ketersediaan semua elemen yang sama, keberadaan daftar lengkap semua elemen. Saat memilih elemen, sebagai aturan, tabel angka acak digunakan.
1.2 Pengambilan sampel mekanis (sistematis)
Semacam sampel acak, diurutkan berdasarkan beberapa atribut (urutan abjad, nomor telepon, tanggal lahir, dll.). Elemen pertama dipilih secara acak, kemudian setiap elemen 'k' dipilih dengan kelipatan 'n'. Ukuran populasi umum, sedangkan - N=n*k
1.3 Bertingkat (berzonasi)
Ini digunakan dalam kasus heterogenitas populasi umum. Populasi umum dibagi menjadi kelompok-kelompok (strata). Pada setiap strata, seleksi dilakukan secara acak atau mekanis.
1.4 Pengambilan sampel serial (bersarang atau berkerumun)
Dengan pengambilan sampel serial, unit seleksi bukanlah objek itu sendiri, tetapi kelompok (cluster atau sarang). Kelompok dipilih secara acak. Objek dalam kelompok disurvei ke mana-mana.

2. Sampel yang luar biasa
Pemilihan sampel semacam itu dilakukan tidak sesuai dengan prinsip peluang, tetapi sesuai dengan kriteria subjektif - aksesibilitas, kekhasan, representasi yang setara, dll.
2.1. Pengambilan sampel kuota
Awalnya, sejumlah kelompok objek dialokasikan (misalnya, pria berusia 20-30 tahun, 31-45 tahun dan 46-60 tahun; orang dengan pendapatan hingga 30 ribu rubel, dengan pendapatan 30 hingga 60 tahun). ribu rubel dan dengan pendapatan lebih dari 60 ribu rubel ) Untuk setiap kelompok, jumlah objek yang akan disurvei ditentukan. Jumlah objek yang harus masuk ke dalam masing-masing kelompok ditetapkan, paling sering, baik secara proporsional dengan bagian kelompok yang diketahui sebelumnya dalam populasi umum, atau sama untuk setiap kelompok. Di dalam grup, objek dipilih secara acak. Pengambilan sampel kuota cukup sering digunakan.
2.2. Metode Bola Salju
Sampel dibangun sebagai berikut. Setiap responden, mulai dari yang pertama, diminta untuk menghubungi teman, kolega, kenalannya yang sesuai dengan syarat seleksi dan dapat mengikuti penelitian. Jadi, dengan pengecualian langkah pertama, sampel dibentuk dengan partisipasi dari objek studi itu sendiri. Metode ini sering digunakan ketika diperlukan untuk mencari dan mewawancarai kelompok responden yang sulit dijangkau (misalnya, responden berpenghasilan tinggi, responden dari kelompok profesional yang sama, responden yang memiliki hobi/kegemaran yang sama, dll. )
2.3 Pengambilan sampel spontan
Responden yang paling mudah diakses disurvei. Contoh tipikal sampel spontan ada di surat kabar/majalah yang diberikan kepada responden untuk diisi sendiri, sebagian besar survei Internet. Ukuran dan komposisi sampel spontan tidak diketahui sebelumnya, dan hanya ditentukan oleh satu parameter - aktivitas responden.
2.4 Contoh kasus tipikal
Unit populasi umum dipilih yang memiliki nilai rata-rata (tipikal) atribut. Hal ini menimbulkan masalah dalam memilih fitur dan menentukan nilai tipikalnya.

Mata kuliah teori statistika

Informasi lebih rinci tentang pengamatan sampel dapat diperoleh dengan melihat.



Postingan serupa