Основи вибіркового дослідження та формування простої випадкової вибірки. Генеральна сукупність та вибіркове дослідження. Статистична достовірність Критерії вибірки даних

Вибіркаабо вибіркова сукупність- безліч випадків (випробуваних, об'єктів, подій, зразків), за допомогою певної процедури обраних ізгенеральної сукупності для участі в дослідженні.

Характеристики вибірки:

§ Якісна характеристика вибірки – кого саме ми вибираємо та які способи побудови вибірки ми для цього використовуємо.

§ Кількісна характеристика вибірки – скільки випадків вибираємо, тобто обсяг вибірки.

Необхідність вибірки

§ Об'єкт дослідження дуже великий. Наприклад, споживачі продукції глобальної компанії – величезна кількість територіально розкиданих ринків.

§ Існує необхідність у зборі первинної інформації.

Обсяг вибірки

Обсяг вибірки- Число випадків, включених у вибіркову сукупність. Зі статистичних міркувань рекомендується, щоб кількість випадків становила не менше 30-35.

Залежні та незалежні вибірки

При порівнянні двох (і більше) вибірок важливим параметром є їхня залежність. Якщо можна встановити гомоморфну ​​пару (тобто коли одному випадку з вибірки X відповідає один і тільки один випадок з вибірки Y і навпаки) для кожного випадку у двох вибірках (і ця підстава взаємозв'язку є важливою для вимірюваної на вибірках ознаки), такі вибірки називаються залежними. Приклади залежних вибірок:

§ пари близнюків,

§ два виміри будь-якої ознаки до і після експериментального впливу,

§ чоловіки та дружини

Якщо такий взаємозв'язок між вибірками відсутня, то ці вибірки вважаються незалежними, наприклад:

§ чоловіки та жінки,

§ психологи та математики.

Відповідно, залежні вибірки мають однаковий обсяг, а обсяг незалежних може відрізнятися.

Порівняння вибірок здійснюється за допомогою різних статистичних критеріїв:

§ t-критерій Стьюдента

§ Критерій Вілкоксона

§ U-критерій Манна-Уітні

§ Критерій знаків

Репрезентативність

Вибірка може розглядатися як репрезентативна або нерепрезентативна.

Приклад нерепрезентативної вибірки

У США одним із найвідоміших історичних прикладів нерепрезентативної вибірки вважається випадок, що стався під час президентських виборів у 1936 році. Журнал «Літрері Дайджест», який успішно прогнозував події кількох попередніх виборів, помилився у своїх прогнозах, розіславши десять мільйонів пробних бюлетенів своїм передплатникам, а також людям, обраним за телефонними книгами всієї країни та людям із реєстраційних списків автомобілів. У 25 % бюлетенів, що повернулися (майже 2,5 мільйона) голоси були розподілені наступним чином:

§ 57% віддавали перевагу кандидату-республіканцю Альфу Лендону

§ 40 % обрали чинного на той час президента-демократа Франкліна Рузвельта

На дійсних виборах, як відомо, переміг Рузвельт, набравши більше 60% голосів. Помилка «Літрері Дайджест» полягала в наступному: бажаючи збільшити репрезентативність вибірки, оскільки їм було відомо, що більшість їх передплатників вважають себе республіканцями, вони розширили вибірку за рахунок людей, вибраних з телефонних книг та реєстраційних списків. Однак вони не врахували сучасних їм реалій і насправді набрали ще більше республіканців: під час Великої депресії мати телефони та автомобілі могли собі дозволити в основному представники середнього та вищого класу (тобто більшість республіканців, а не демократів).

Види плану побудови груп із вибірок

Виділяють кілька основних видів плану побудови груп:

1. Дослідження з експериментальною та контрольною групами, які ставляться у різні умови.

§ Дослідження з експериментальною та контрольною групами із залученням стратегії попарного відбору

2. Дослідження з використанням лише однієї групи – експериментальної.

3. Дослідження з використанням змішаного (факторного) плану – всі групи ставляться у різні умови.

]Типи вибірки

Вибірки поділяються на два типи:

§ імовірнісні

§ неймовірні

Імовірнісні вибірки

1. Проста ймовірнісна вибірка:

§ Проста повторна вибірка. Використання такої вибірки ґрунтується на припущенні, що кожен респондент з часткою ймовірності може потрапити у вибірку. За підсумками списку генеральної сукупності складаються картки з номерами респондентів. Вони поміщаються в колоду, перемішуються і їх навмання виймається картка, записується номер, потім повертається назад. Далі процедура повторюється стільки разів, який обсяг вибірки нам необхідний. Мінус: повторення одиниць відбору.

Процедура побудови простої випадкової вибірки включає наступні кроки:

1. необхідно отримати повний списокчленів генеральної сукупності та пронумерувати цей список. Такий список, нагадаємо, називається основою вибірки;

2. визначити очікуваний обсяг вибірки, тобто очікуване число опитаних;

3. Витягти з таблиці випадкових чисел стільки чисел, скільки нам потрібно вибіркових одиниць. Якщо у вибірці має бути 100 людина, з таблиці беруть 100 випадкових чисел. Ці випадкові числа можуть генеруватись комп'ютерною програмою.

4. вибрати зі списку-основи спостереження, номери яких відповідають виписаним випадковим числам

§ Проста випадкова вибірка має очевидні переваги. Цей метод дуже простий для розуміння. Результати дослідження можна поширювати на сукупність, що вивчається. Більшість підходів до отримання статистичних висновків передбачають збирання інформації за допомогою простої випадкової вибірки. Однак метод простої випадкової вибірки має як мінімум чотири суттєві обмеження:

1. часто складно створити основу вибіркового спостереження, яка б провести просту випадкову вибірку.

2. результатом застосування простої випадкової вибірки може стати велика сукупність, або сукупність, розподілена по великій географічної території, що значно збільшує час та вартість збору даних.

3. результати застосування простої випадкової вибірки часто характеризуються низькою точністю та більшою стандартною помилкою, ніж результати застосування інших ймовірнісних методів.

4. в результаті застосування SRS може сформуватися нерепрезентативна вибірка. Хоча вибірки, отримані простим випадковим відбором, в середньому адекватно представляють генеральну сукупність, деякі з них вкрай некоректно представляють сукупність, що вивчається. Імовірність цього особливо велика за невеликого обсягу вибірки.

§ Проста безповторна вибірка. Процедура побудови вибірки така сама, тільки картки з номерами респондентів не повертаються назад у колоду.

1. Систематична імовірнісна вибірка. Є спрощеним варіантом простої імовірнісної вибірки. За підсумками списку генеральної сукупності через певний інтервал (К) відбираються респонденти. Розмір До визначається випадково. Найбільш достовірний результат досягається при однорідній генеральній сукупності, інакше можливі збіг величини кроку та якихось внутрішніх циклічних закономірностей вибірки (змішування вибірки). Мінуси: такі ж, як і в простій імовірнісній вибірці.

2. Серійна (гніздова) вибірка. Одиниці відбору є статистичні серії (сім'я, школа, бригада тощо). Відібрані елементи зазнають суцільного обстеження. Відбір статистичних одиниць може бути організований на кшталт випадкової чи систематичної вибірки. Мінус: Можливість більшої однорідності, ніж у генеральній сукупності.

3. Районована вибірка. У разі неоднорідної генеральної сукупності, перш ніж використовувати ймовірнісну вибірку з будь-якою технікою відбору, рекомендується розділити генеральну сукупність на однорідні частини, така вибірка називається районованою. Групами районування можуть бути як природні освіти (наприклад, райони міста), і будь-який ознака, закладений основою дослідження. Ознака, на основі якої здійснюється поділ, називається ознакою розшарування та районування.

4. «Зручна» вибірка. Процедура «зручної» вибірки полягає у встановленні контактів із «зручними» одиницями вибірки – з групою студентів, спортивною командою, з друзями та сусідами. Якщо необхідно отримати інформацію про реакцію людей на нову концепцію, Така вибірка цілком обґрунтована. «Зручну» вибірку часто використовують із попереднього тестування анкет.

Неймовірні вибірки

Відбір у такій вибірці здійснюється за принципами випадковості, а, по суб'єктивним критеріям – доступності, типовості, рівного представництва тощо.

1. Квотна вибірка – вибірка будується як модель, яка відтворює структуру генеральної сукупності як квот (пропорцій) досліджуваних ознак. Число елементів вибірки з різним поєднанням ознак, що вивчаються, визначається з таким розрахунком, щоб воно відповідало їх частці (пропорції) в генеральній сукупності. Так, наприклад, якщо генеральна сукупність у нас представлена ​​5000 чоловік, з них 2000 жінок та 3000 чоловіків, тоді у квотній вибірці у нас будуть 20 жінок та 30 чоловіків, або 200 жінок та 300 чоловіків. Квотовані вибірки найчастіше ґрунтуються на демографічних умовах: стать, вік, регіон, дохід, освіта та інші. Мінуси: зазвичай такі вибірки нерепрезентативні, т.к. не можна врахувати відразу кілька соціальних параметрів. Плюси: доступний матеріал.

2. Метод снігової грудки. Вибірка будується в такий спосіб. У кожного респондента, починаючи з першого, просяться контакти його друзів, колег, знайомих, які б підходили під умови відбору і могли б взяти участь у дослідженні. Отже, крім першого кроку, вибірка формується з участю самих об'єктів дослідження. Метод часто застосовується, коли необхідно знайти та опитати важкодоступні групи респондентів (наприклад, респондентів, які мають високий дохід, респондентів, що належать до однієї професійної групи, респондентів, які мають схожі хобі/захоплення тощо)

3. Стихійна вибірка - вибірка так званого "першого зустрічного". Часто використовується в теле- та радіоопитуваннях. Розмір та склад стихійних вибірок заздалегідь не відомий, і визначається лише одним параметром – активністю респондентів. Мінуси: неможливо встановити якусь генеральну сукупність представляють опитані, і як наслідок – неможливість визначити репрезентативність.

4. Маршрутне опитування – часто використовується, якщо одиницею вивчення є сім'я. На карті населеного пункту, в якому проводитиметься опитування, нумеруються всі вулиці. З допомогою таблиці (генератора) випадкових чисел відбираються великі числа. Кожне велике число розглядається як 3-х компонентів: номер вулиці (2-3 перших числа), номер будинку, номер квартири. Наприклад, число 14832: 14 – це номер вулиці на карті, 8 – номер будинку, 32 – номер квартири.

5. Районована вибірка із відбором типових об'єктів. Якщо після районування кожної групи відбирається типовий об'єкт, тобто. об'єкт, який переважно досліджуваних у дослідженні показників наближається до середніх показників, така вибірка називається районованої з відбором типових об'єктів.

6.Модальна вибірка. 7. Експертна вибірка. 8. Гетерогенна вибірка.

Стратегії побудови груп

Відбір груп для їхньої участі в психологічному експерименті здійснюється за допомогою різних стратегій, які потрібні для того, щоб забезпечити максимально можливе дотримання внутрішньої та зовнішньої валідності.

§ Рандомізація (випадковий відбір)

§ Попарний відбір

§ Стратометричний відбір

§ Наближене моделювання

§ Залучення реальних груп

Рандомізація

Рандомізація, або випадковий відбірвикористовується для створення простих випадкових вибірок. Використання такої вибірки ґрунтується на припущенні, що кожен член популяції з рівною ймовірністю може потрапити у вибірку. Наприклад, щоб зробити випадкову вибірку зі 100 студентів вузу, можна скласти папірці з іменами всіх студентів вузу в капелюх, а потім дістати з нього 100 папірців - це буде випадковим відбором (Гудвін Дж., с. 147).

Попарний відбір

Попарний відбір- стратегія побудови груп вибірки, у якому групи піддослідних складаються з суб'єктів, еквівалентних за значними експерименту побічним параметрам. Ця стратегія ефективна для експериментів з використанням експериментальних та контрольних груп з кращим варіантом - залученням близнюкових пар (моно- та дизиготних), оскільки дозволяє створити...

Стратометричний відбір

Стратометричний відбір- рандомізація із виділенням страт (чи кластерів). При цьому способі формування вибірки генеральна сукупність ділиться на групи (страти), які мають певні характеристики (стаття, вік, політичні переваги, освіту, рівень доходів та ін), і відбираються піддослідні з відповідними характеристиками.

Наближене моделювання

Наближене моделювання- Складання обмежених вибірок та узагальнення висновків про цю вибірку на ширшу популяцію. Наприклад, за участю у дослідженні студентів 2-го курсу університету дані цього дослідження поширюються на «людей віком від 17 до 21 року». Допустимість подібних узагальнень вкрай обмежена.

Наближене моделювання – формування моделі, яка чітко обумовленого класу систем (процесів) визначає його поведінка (чи необхідні явища) з прийнятною точністю.

Вибірка в 1С 8.2 і 8.3 спеціалізований спосіб перебору записів таблиць інформаційної бази. Розглянемо докладно, що таке вибірка та як її використовувати.

Що таке вибірка у 1С?

Вибірка- спосіб перебору інформації в 1С, який полягає у послідовній установці курсору на наступному записі. Вибірку в 1С можна отримати з результату запиту та менеджера об'єктів, наприклад, документів або довідників.

Приклад отримання та перебору з менеджера об'єкта:

Вибірка = Довідники. Банки. Вибрати() ; Поки що Вибірка. Наступний() Цикл КінецьЦикл ;

Приклад отримання вибірки із запиту:

Отримайте 267 відеоуроків з 1С безкоштовно:

Запит = Новий Запит( "Вибрати Посилання, Код, Найменування З Довідник.Банки"); Вибірка = Запит. Виконати() . Вибрати() ; Поки що Вибірка. Наступний() Цикл //виробляємо дії, що цікавлять, з довідником "Банки"Кінець циклу;

Обидва наведені вище приклади отримують однакові набори даних для перебору.

Методи вибірки 1С 8.3

Вибірка має велику кількість методів, розглянемо їх докладніше:

  • Вибрати()- Метод, за допомогою якого отримують безпосередньо вибірку. З вибірки можна отримати ще одну, підлеглу, вибірку якщо вказано тип обходу «угруповання».
  • Власник()- Метод, обернений Вибрати (). Дозволяє отримати «батьківську» вибірку запиту.
  • Наступний()— метод, який проводить переведення курсору на наступний запис. Якщо запис існує, повертає Істина, якщо записи закінчилися - Брехня.
  • ЗнайтиНаступний()- дуже корисний метод, за допомогою якого можна виконувати перебір лише потрібних поле за значенням відбору (відбір - структура полів).
  • НаступнийПоЗначеннюПоля()— дозволяє отримати наступний запис, відмінний від поточного положення значення. Наприклад, необхідно перебрати всі записи з унікальний значенняполя «Контрагент»: Вибірка.
  • Скинути()— дозволяє скинути поточне розташування курсору та встановити його у початкове положення.
  • Кількість()- Повертає кількість записів у вибірці.
  • Отримати()— за допомогою методу можна встановити курсор на потрібний запис за значенням індексу.
  • Рівень()рівень у ієрархії поточного запису (число).
  • ТипЗаписи()— відображає тип запису — ДетальнийЗапис, ПідсумокУгрупування, ПідсумокПоІєрархії або ЗагальнийПідсумок
  • Угруповання()— повертає ім'я поточного угруповання, якщо запис не є групуванням — пустий рядок.

Якщо Ви починаєте вивчати програмування 1С, рекомендуємо наш безкоштовний курс(не забудьте

Статистична сукупність- безліч одиниць, що мають масовість, типовість, якісну однорідність і наявність варіації.

Статистична сукупність складається з матеріально існуючих об'єктів (працівники, підприємства, країни, регіони), є об'єктом .

Одиниця сукупності- Кожна конкретна одиниця статистичної сукупності.

Одна і та ж статистична сукупність може бути однорідною за однією ознакою і неоднорідною за іншою.

Якісна однорідність- подібність всіх одиниць сукупності за якоюсь ознакою і несхожість по всіх інших.

У статистичній сукупності відмінності однієї одиниці сукупності з іншого частіше мають кількісну природу. Кількісні зміни значень ознаки різних одиниць сукупності називаються варіацією.

Варіація ознаки- Кількісне зміна ознаки (для кількісної ознаки) при переході від однієї одиниці сукупності до іншої.

Ознака- це властивість, характерна риса або інша особливість одиниць, об'єктів та явищ, яка може бути спостерігається або виміряна. Ознаки поділяються на кількісні та якісні. Різноманітність та мінливість величини ознаки в окремих одиниць сукупності називається варіацією.

Атрибутивні (якісні) ознаки не піддаються числовому виразу (склад населення за статтю). Кількісні ознаки мають числове вираження (склад населення віком).

Показник- це узагальнююча кількісно якісна характеристика будь-якої властивості одиниць або сукупності загалом у конкретних умовах часу та місця.

Система показників- Це сукупність показників всебічно відображають явище, що вивчається.

Наприклад, вивчається зарплата:
  • Ознака - оплата праці
  • Статистична сукупність – усі працівники
  • Одиниця сукупності – кожен працівник
  • Якісна однорідність - нарахована зарплата
  • Варіація ознаки – ряд цифр

Генеральна сукупність та вибірка з неї

Основу становить безліч даних, отриманих у результаті виміру однієї чи кількох ознак. Реально спостерігається сукупність об'єктів, статистично представлена ​​рядом спостережень випадкової величини, є вибіркою, А гіпотетично існуюча (що домислюється) - генеральною сукупністю. Генеральна сукупність може бути кінцевою (кількість спостережень N = const) або нескінченною ( N = ∞), а вибірка з генеральної сукупності - це завжди результат обмеженого ряду спостережень. Число спостережень, що утворюють вибірку, називається обсягом вибірки. Якщо обсяг вибірки досить великий ( n → ∞) вибірка вважається великий, інакше вона називається вибіркою обмеженого обсягу. Вибірка вважається малоїякщо при вимірюванні одновимірної випадкової величини обсяг вибірки не перевищує 30 ( n<= 30 ), а при вимірі одночасно декількох ( k) ознак у багатовимірному просторі відношення nдо kне перевищує 10 (n/k< 10) . Вибірка утворює варіаційний ряд, якщо її члени є порядковими статистиками, Т. е. вибіркові значення випадкової величини Хупорядковані за зростанням (ранжовані), значення ж ознаки називаються варіантами.

приклад. Майже одна й та сама випадково відібрана сукупність об'єктів — комерційних банків одного адміністративного округу Москви, може розглядатися як вибірка з генеральної сукупності всіх комерційних банків цього округу, і як вибірка з генеральної сукупності всіх комерційних банків Москви, а також як вибірка з комерційних банків країни і т.д.

Основні способи організації вибірки

Достовірність статистичних висновків та змістовна інтерпретація результатів залежить від репрезентативностівибірки, тобто. повноти та адекватності уявлення властивостей генеральної сукупності, стосовно якої цю вибірку вважатимуться представницької. Вивчення статистичних властивостей сукупності можна організувати двома способами: за допомогою суцільногоі несплошного. Суцільне спостереженняпередбачає обстеження всіх одиницьвивчається сукупності, а несуцільне (вибіркове) спостереження- Тільки його частини.

Існують п'ять основних способів організації вибіркового спостереження:

1. простий випадковий відбір, при якому об'єкти випадково вилучаються з генеральної сукупності об'єктів (наприклад, за допомогою таблиці або датчика випадкових чисел), причому кожна з можливих вибірок мають рівну ймовірність. Такі вибірки називаються власне-випадковими;

2. простий відбір за допомогою регулярної процедуриздійснюється за допомогою механічної складової (наприклад, дати, дня тижня, номера квартири, літери алфавіту та ін.) та отримані таким способом вибірки називаються механічними;

3. стратифікованийВідбір полягає в тому, що генеральна сукупність обсягу підрозділяється на підсукупність або шари (страти) обсягу так що . Страти є однорідними об'єктами з погляду статистичних характеристик (наприклад, населення ділиться на страти по віковим групам чи соціальної власності; підприємства — по галузях). У цьому випадку вибірки називаються стратифікованим(інакше, розшарованими, типовими, районованими);

4. методи серійноговідбору використовуються для формування серійнихабо гніздових вибірок. Вони зручні у разі, якщо необхідно обстежити відразу " блок " чи серію об'єктів (наприклад, партію товару, продукцію певної серії чи населення при територіально-адміністративному розподілі країни). Відбір серій можна здійснити власно-випадковим чи механічним способом. При цьому проводиться суцільне обстеження певної партії товару або цілої територіальної одиниці (житлового будинку чи кварталу);

5. комбінований(ступінчастий) відбір може поєднувати в собі відразу кілька способів відбору (наприклад, стратифікований та випадковий або випадковий та механічний); така вибірка називається комбінованої.

Види відбору

за видурозрізняються індивідуальний, груповий та комбінований відбір. При індивідуальному відборіу вибіркову сукупність відбираються окремі одиниці генеральної сукупності, груповий відбір- якісно однорідні групи (серії) одиниць, а комбінований відбірпередбачає поєднання першого та другого видів.

за методомвідбору розрізняють повторну та безповторнувибірку.

Безповторнимназивається відбір, у якому що потрапила вибірку одиниця не повертається у вихідну сукупність й у подальшому виборі бере участь; при цьому чисельність одиниць генеральної сукупності Nскорочується у процесі відбору. При повторномувідборі потрапилау вибірку одиниця після реєстрації повертається в генеральну сукупність і таким чином зберігає рівну можливість поряд з іншими одиницями використовуватися в подальшій процедурі відбору; при цьому чисельність одиниць генеральної сукупності Nзалишається незмінною (метод у соціально-економічних дослідженнях застосовується рідко). Однак, за великого N (N → ∞)формули для безповторноговідбору наближаються до аналогічних для повторноговідбору та практично частіше використовуються останні ( N = const).

Основні характеристики параметрів генеральної та вибіркової сукупності

В основі статистичних висновків проведеного дослідження лежить розподіл випадкової величини (х 1, х 2, …, х n)називаються реалізаціями випадкової величини Х(n - Обсяг вибірки). Розподіл випадкової величини в генеральній сукупності має теоретичний, ідеальний характер, а її вибірковий аналог є емпіричнимрозподілом. Деякі теоретичні розподіли задані аналітично, тобто. їх параметривизначають значення функції розподілу у кожній точці простору можливих значень випадкової величини. Для вибірки функцію розподілу визначити важко, а іноді неможливо, тому параметриоцінюють за емпіричними даними, а потім їх підставляють в аналітичний вираз, що описує теоретичний розподіл. При цьому припущення (або гіпотеза) Про вид розподілу може бути як статистично вірним, так і хибним. Але в будь-якому випадку відновлений за вибіркою емпіричний розподіл лише грубо характеризує справжнє. Найважливішими параметрами розподілу є математичне очікуваннята дисперсія.

За своєю природою розподілу бувають безперервнимиі дискретними. Найбільш відомим безперервним розподілом є нормальне. Вибірковими аналогами параметрів і для нього є: середнє значення та емпірична дисперсія. Серед дискретних у соціально-економічних дослідженнях найчастіше застосовується альтернативне (дихотомічне)Розподіл. Параметр математичного очікування цього розподілу виражає відносну величину (чи частку) одиниць сукупності, які мають досліджувану ознаку (вона позначена буквою ); частка сукупності, що не має цієї ознаки, позначається буквою q (q = 1 - p). Дисперсія альтернативного розподілу також має емпіричний аналог .

Залежно від виду розподілу та від способу відбору одиниць сукупності по-різному обчислюються характеристики параметрів розподілу. Основні з них для теоретичного та емпіричного розподілів наведені у табл. 1.

Часткою вибірки k nназивається відношення числа одиниць вибіркової сукупності до одиниць генеральної сукупності:

k n = n/N.

Вибіркова частка w- Це відношення одиниць, що володіють ознакою, що вивчається xдо обсягу вибірки n:

w = n n /n.

приклад.У партії товару, що містить 1000 од., при 5% вибірці частка вибірки k nв абсолютній величині складає 50 од. (n = N * 0,05); якщо ж у цій вибірці виявлено 2 браковані вироби, то вибіркова частка шлюбу wстановитиме 0,04 (w = 2/50 = 0,04 або 4%).

Так як вибіркова сукупність відмінна від генеральної, то виникають помилки вибірки.

Таблиця 1. Основні параметри генеральної та вибіркової сукупностей

Помилки вибірки

При будь-якому (суцільному та вибірковому) можуть зустрітися помилки двох видів: реєстрації та репрезентативності. Помилки реєстраціїможуть мати випадковийі систематичнийхарактер. Випадковіпомилки складаються з безлічі різних неконтрольованих причин, носять ненавмисний характер і зазвичай за сукупністю врівноважують один одного (наприклад, зміни показників приладу при температурних коливаннях у приміщенні).

Систематичніпомилки тенденційні, тому що порушують правила відбору об'єктів у вибірку (наприклад, відхилення у вимірах при зміні налаштування вимірювального приладу).

приклад.Для оцінки соціального становища населення місті передбачено обстежити 25% сімей. Якщо при цьому вибір кожної четвертої квартири ґрунтується на її номері, то існує небезпека відібрати всі квартири лише одного типу (наприклад, однокімнатні), що забезпечить систематичну помилку та спотворить результати; вибір же номера квартири за жеребом кращий, оскільки помилка буде випадковою.

Помилки репрезентативностіпритаманні лише вибірковому спостереженню, їх неможливо уникнути і вони виникають внаслідок того, що вибіркова сукупність в повному обсязі відтворює генеральну. Значення показників, одержуваних за вибіркою, відрізняються від показників цих самих величин у генеральній сукупності (або одержуваних при суцільному спостереженні).

Помилка вибіркового спостереженняє різниця між значенням параметра в генеральній сукупності та її вибірковим значенням. Для середнього значення кількісної ознаки вона дорівнює: , а частки (альтернативного ознаки) — .

Помилки вибірки властиві лише вибірковим спостереженням. Чим більше ці помилки, тим більше емпіричний розподіл відрізняється від теоретичного. Параметри емпіричного розподілу і є випадковими величинами, отже, помилки вибірки також є випадковими величинами, можуть приймати різні вибірки різні значення і тому прийнято обчислювати середню помилку.

Середня помилка вибіркиє величина, що виражає середнє квадратичне відхилення вибіркової середньої від математичного очікування. Ця величина за дотримання принципу випадкового відбору залежить передусім від обсягу вибірки і зажадав від ступеня варіювання ознаки: що більше і менше варіація ознаки (отже, і значення ), тим менше величина середньої помилки вибірки . Співвідношення між дисперсіями генеральної та вибіркової сукупностей виражається формулою:

тобто. при досить великих вважатимуться, що . Середня помилка вибірки показує можливі відхилення параметра вибіркової сукупності від генерального параметра. У табл. 2 наведено вирази для обчислення середньої помилки вибірки за різних методів організації спостереження.

Таблиця 2. Середня помилка (m) вибіркових середньої та частки для різних видів вибірки

Де - середня із внутрішньогрупових вибіркових дисперсій для безперервної ознаки;

Середня із внутрішньогрупових дисперсій частки;

- Кількість відібраних серій, - Загальна кількість серій;

,

де - Середня серії;

- загальна середня по всій вибірковій сукупності для безперервної ознаки;

,

де - частка ознаки в серії;

- Загальна частка ознаки по всій вибірковій сукупності.

Однак про величину середньої помилки можна судити лише з певною ймовірністю Р (Р ≤ 1). Ляпунов О.М. довів, що розподіл вибіркових середніх , а отже, та його відхилень від генеральної середньої, за досить великому числі приблизно підпорядковується нормальному закону розподілу за умови, що генеральна сукупність має кінцевої середньої та обмеженої дисперсією.

Математично це твердження для середньої виражається у вигляді:

а для частки вираз (1) набуде вигляду:

де - є гранична помилка вибіркияка кратна величині середньої помилки вибірки , а коефіцієнт кратності - є критерій Стьюдента ("коефіцієнт довіри"), запропонований У.С. Держсетом (псевдонім "Student"); значення для різного обсягу вибірки зберігаються у спеціальній таблиці.

Значення функції Ф(t) при деяких значеннях t дорівнюють:

Отже, вираз (3) може бути прочитаний так: з ймовірністю Р = 0,683 (68,3%)можна стверджувати, що різниця між вибірковою та генеральною середньою не перевищить однієї величини середньої помилки m (t = 1)з ймовірністю Р = 0,954 (95,4%)що вона не перевищить величини двох середніх помилок m (t = 2) ,з ймовірністю Р = 0,997 (99,7%)- не перевищить трьох значень m (t = 3).Таким чином, ймовірність того, що ця різниця перевищить триразову величину середньої помилки, визначає рівень помилкиі становить не більше 0,3% .

У табл. 3 наведено формули для обчислення граничної помилки вибірки.

Таблиця 3. Гранична помилка (D) вибірки для середньої та частки (р) для різних видів вибіркового спостереження

Поширення вибіркових результатів на генеральну сукупність

Кінцевою метою вибіркового спостереження є характеристика генеральної сукупності. При малих обсягах вибірки емпіричні оцінки параметрів (і) можуть суттєво відхилятися від їх справжніх значень (і). Тому виникає необхідність встановити межі, у яких для вибіркових значень параметрів ( і ) лежать справжні значення ( і ).

Довірчим інтерваломбудь-якого параметра θгенеральної сукупності називається випадкова область значень цього параметра, яка з ймовірністю близькою до 1 ( надійністю) містить справжнє значення цього параметра.

Гранична помилкавибірки Δ дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали, які рівні:

Нижня границя довірчого інтервалуотримана шляхом віднімання граничної помилкиз вибіркового середнього (частки), а верхня – шляхом її додавання.

Довірчий інтервалдля середньої використовує граничну помилку вибірки та для заданого рівня достовірності визначається за формулою:

Це означає, що із заданою ймовірністю Ряка називається довірчим рівнем і однозначно визначається значенням t, можна стверджувати, що справжнє значення середньої лежить у межах від а справжнє значення частки - в межах від

Під час розрахунку довірчого інтервалу для трьох стандартних довірчих рівнів Р = 95%, Р = 99% та Р = 99,9%значення вибирається за . Програми в залежності від числа ступенів свободи. Якщо обсяг вибірки досить великий, то відповідні цим імовірностям значення tрівні: 1,96, 2,58 і 3,29 . Таким чином, гранична помилка вибірки дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали:

Поширення результатів вибіркового спостереження на генеральну сукупність у соціально-економічних дослідженнях має свої особливості, оскільки потребує повноти представництва всіх її типів та груп. Основою для можливості такого розповсюдження є розрахунок відносної помилки:

де Δ % - відносна гранична помилка вибірки; , .

Існують два основні методи поширення вибіркового спостереження на генеральну сукупність: прямий перерахунок та спосіб коефіцієнтів.

Сутність прямого перерахункуполягає у множенні вибіркового середнього значення!! \ overline (x) на обсяг генеральної сукупності .

приклад. Нехай середня кількість дітей ясельного віку в місті оцінена вибірковим методом і склала людину. Якщо місті 1000 молодих сімей, кількість необхідних місць у муніципальних дитячих яслах отримують множенням цієї середньої чисельність генеральної сукупності N = 1000, тобто. становитиме 1200 місць.

Спосіб коефіцієнтівдоцільно використовувати у разі, коли вибіркове спостереження проводиться з метою уточнення даних суцільного спостереження.

При цьому використовують формулу:

де всі змінні - це чисельність сукупності:

Необхідний обсяг вибірки

Таблиця 4. Необхідний обсяг (n) вибірки для різних видів організації вибіркового спостереження

При плануванні вибіркового спостереження із заздалегідь заданим значенням припустимої помилки вибірки необхідно правильно оцінити необхідний обсяг вибірки. Цей обсяг може бути визначений на основі припустимої помилки при вибірковому спостереженні, виходячи із заданої ймовірності, що гарантує допустиму величину рівня помилки (з урахуванням способу організації спостереження). Формули визначення необхідної чисельності вибірки n легко отримати безпосередньо з формул граничної помилки вибірки. Так, з висловлювання для граничної помилки:

безпосередньо визначається обсяг вибірки n:

Ця формула показує, що зі зменшенням граничної помилки вибірки Δ істотно збільшується необхідний обсяг вибірки, який пропорційний дисперсії та квадрату критерію Стьюдента.

Для конкретного способу організації спостереження необхідний обсяг вибірки обчислюється згідно з формулами, наведеними в таблиці. 9.4.

Практичні приклади розрахунку

Приклад 1. Обчислення середнього значення та довірчого інтервалу для безперервної кількісної ознаки.

Для оцінки швидкості розрахунку з кредиторами у банку проведено випадкову вибірку 10 платіжних документів. Їх значення виявилися рівними (у днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необхідно з ймовірністю Р = 0,954визначити граничну помилку Δ вибіркової середньої та довірчі межі середнього часу розрахунків.

Рішення.Середнє значення обчислюється за такою формулою з табл. 9.1 для вибіркової сукупності

Дисперсія обчислюється за такою формулою з табл. 9.1.

Середня квадратична похибка дня.

Помилка середньої обчислюється за такою формулою:

тобто. середнє значення дорівнює x ± m = 12,0 ± 2,3 дні.

Достовірність середнього склала

Граничну помилку обчислимо за такою формулою з табл. 9.3 для повторного відбору, оскільки чисельність генеральної сукупності невідома, та Р = 0,954рівня достовірності.

Таким чином, середнє значення дорівнює x ± D = x ± 2m = 12,0 ± 4,6, тобто. його справжнє значення лежить у межах від 7,4 до 16,6 днів.

Використання таблиці Стьюдента. Додатки дозволяє зробити висновок, що з n = 10 — 1 = 9 ступенів свободи отримане значення достовірно з рівнем значимості a £ 0,001, тобто. отримане значення середнього вірогідно відрізняється від 0.

Приклад 2. Оцінка ймовірності (генеральної частки) нар.

При механічному вибірковому способі обстеження соціального стану 1000 сімей виявлено, що частка малозабезпечених сімей склала w = 0,3 (30%)(вибірка була 2% , тобто. n/N = 0,02). Необхідно з рівнем достовірності р = 0,997визначити показник рмалозабезпечених сімей у всьому регіоні.

Рішення.За представленими значеннями функції Ф(t)знайдемо для заданого рівня достовірності Р = 0,997значення t = 3(Див. формулу 3). Граничну помилку частки wвизначимо за формулою із табл. 9.3 для безповторного відбору (механічна вибірка завжди є безповторною):

Гранична відносна помилка вибірки в % складе:

Імовірність (генеральна частка) малозабезпечених сімей у регіоні становитиме р=w±Δw, а довірчі межі р обчислюються виходячи з подвійної нерівності:

w - Δ w ≤ p ≤ w - Δ w, тобто. справжнє значення р лежить у межах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким чином, із ймовірністю 0,997 можна стверджувати, що частка малозабезпечених сімей серед усіх сімей регіону становить від 28,6% до 31,4%.

приклад 3.Обчислення середнього значення та довірчого інтервалу для дискретної ознаки, заданої інтервальним рядом.

У табл. 5. задано розподіл заявок виготовлення замовлень за термінами їх виконання предприятием.

Таблиця 5. Розподіл спостережень щодо термінів появи

Рішення. Середній термін виконання заявок обчислюється за такою формулою:

Середній термін складе:

= (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 = 23,1 міс.

Та ж відповідь отримаємо, якщо використовуємо дані про р i з передостанньої колонки табл. 9.5, використовуючи формулу:

Зауважимо, що середина інтервалу для останньої градації знаходиться шляхом її штучного доповнення шириною інтервалу попередньої градації, що дорівнює 60 - 36 = 24 міс.

Дисперсія обчислюється за формулою

де х i- Середина інтервального ряду.

Отже!!\sigma = \frac (20 2 + 14 2 + 1 + 25 2 + 49 2) (4), а середня квадратична похибка .

Помилка середньої обчислюється за такою формулою міс., тобто. середнє значення дорівнює!! \ overline (x) ± m = 23,1 ± 13,4.

Граничну помилку обчислимо за такою формулою з табл. 9.3 для повторного відбору, оскільки чисельність генеральної сукупності невідома, для 0,954 рівня достовірності:

Таким чином, середнє значення дорівнює:

тобто. його справжнє значення лежить у межах від 0 до 50 місяців.

приклад 4.Для визначення швидкості розрахунків із кредиторами N = 500 підприємств корпорації у комерційному банку необхідно провести вибіркове дослідження методом випадкового безповторного відбору. Визначити необхідний обсяг вибірки n, щоб із ймовірністю Р = 0,954 помилка середнього значення вибірки не перевищувала 3-х днів, якщо пробні оцінки показали, що середнє відхилення квадратне s склало 10 днів.

Рішення. Для визначення кількості необхідних досліджень n скористаємося формулою для відбору безповторного з табл. 9.4:

У ній значення t визначається з рівня достовірності Р = 0,954. Воно дорівнює 2. Середнє квадратичне значення s = 10, обсяг генеральної сукупності N = 500, а гранична помилка середнього значення Δ x = 3. Підставляючи ці значення формулу, отримаємо:

тобто. вибірку достатньо скласти із 41 підприємства, щоб оцінити необхідний параметр — швидкість розрахунків із кредиторами.

Поняття «репрезентативність» стосовно соціологічних опитувань - опитувань громадської думки - має майже магічну дію на людей. Сам термін «репрезентація» має, крім наукового, ще й явно політичне значення.

В чому причина? Вся справа в тому, що передбачається, що вибірка (група людей, відібрана для опитування) може представляти всю генеральну сукупність. Генеральною сукупністю у разі загальноросійських опитувань є населення країни. Тепер уявімо, що йдеться про політичне рішення - підтримку законопроекту чи голосування на виборах. За допомогою вибіркового опитування ми отримуємо відмінний механізм політичної репрезентації – механізм, у якому невелика група людей може представляти думку чи позицію населення країни. Тому репрезентативності дослідження приділяється таке важливе місце.

Поняття репрезентативності використовується, зрозуміло, у політичних дослідженнях. Термін застосовується практично завжди, коли йдеться про великі дослідження, чи то у сфері маркетингу, економічної поведінки чи освіти.

Методологія репрезентативних опитувань

Як, опитавши 1500 осіб, можна робити висновки про всіх росіян, яких понад 140 мільйонів (і навіть виборців понад 110 мільйонів)? Технологія, яка стоїть за репрезентативними опитуваннями, ґрунтується на статистичних законах. Найближчою підставою є закон великих чисел, або теорема Бернуллі.

Спрощено його зміст можна передати так. Припустимо, ми маємо деяку ознаку, наприклад кількість опадів за день в Єкатеринбурзі протягом ХХ століття. Якщо ми випишемо всі його значення разом із їх частотою (це називається розподілом), а потім випадково візьмемо досить велику кількість випадків (тобто не всі дні у ХХ столітті, але досить багато), то ми побачимо, що розподіл у нашій вибірці буде дуже схожим на розподіл за все ХХ століття. Таким чином, якщо ми відбираємо із сукупності деякі одиниці, вони справді можуть представляти всю сукупність, і насправді немає необхідності збирати дані з усіх випадків.

Однак є ключова умова: це правильно, тільки якщо проводити відбір суворо випадковим чином. Єдиною проблемою може бути відхилення від випадковості. Так, якщо ми візьмемо лише дані щодо опадів за останні роки (наприклад, тому що ці дані простіше знайти) або опитаємо 1500 своїх знайомих (бо з ними простіше зв'язатися), а не випадкових людей, то вибірка, звичайно, не буде репрезентативною.

Уявіть, що з 143,5 мільйонів росіян ви випадково відбираєте необхідні вам 1500 чоловік. Тоді, наприклад, частка менеджерів середньої ланки серед них приблизно дорівнює частці менеджерів середньої ланки в генеральній сукупності, що і показує, що ваша вибірка може представляти всю сукупність. Чи може так вийти, що ці два показники сильно відрізнятимуться? Наприклад, серед росіян він становить 14%, а у вибірці він становитиме лише 1%? Теоретично це можливо, проте ймовірність цього настільки мала, що її можна знехтувати (приблизно як зустріти дракона на вулиці).

Більш того, найприємніше в цій ймовірності навіть не те, що вона мала, а те, що для випадкових процесів цю ймовірність можна обчислити. Ми можемо сказати, з якою ймовірністю наше вибіркове значення відхилиться від значення в генеральній сукупності на 13% (як у прикладі вище), а з якою, скажімо, на 2,5%. Зазвичай, втім, роблять навпаки: спочатку визначають ймовірність, з якої ми хочемо, щоб наше значення не відхилялося від значення в генеральній сукупності (найчастіше його фіксують на рівні 95%), а потім уже дивляться, яка величина відхилення при тому чи іншому розмірі вибірки. Це відхилення називається довірчим інтервалом, іноді його називають помилкою вибірки чи статистичної похибкою – його часто наводять поруч із результатами опитування.

Отже, ймовірність відхилення, величина відхилення (довірчий інтервал) та розмір вибірки пов'язані між собою. Виходячи з цього, формула для розрахунку розміру вибірки виглядає так:

де n – розмір вибірки, Δ – довірчий інтервал, z – значення функції нормального розподілу для даної ймовірності відхилення (для ймовірності 5% це значення становить 1,96).

Це спрощена формула, у реальних опитуваннях використовуються дещо складніші формули. Ця формула також може давати збій, якщо значення показника сильно відрізняється від 50% (тому, наприклад, ця формула не підійде для того, щоб оцінити частку хворих на рідкісне захворювання в країні).

Ось що буде, якщо підставити в цю формулу деякі значення:

Іншими словами, якщо ми взяли випадкову вибірку росіян розміром у 1600 осіб та оцінили якийсь показник, наприклад, готовність голосувати за певного політика, то з ймовірністю 95% наша оцінка не відрізнятиметься від готовності проголосувати за нього серед усіх росіян більш ніж на 2,45%.

Розмір вибірки

Отже, чим більший розмір вибірки, тим більша ймовірність того, що ми будемо ближчими до частки в генеральній сукупності. Здавалося б, це означає, що нам потрібно намагатися наблизити вибірку до 143,5 млн. Насправді, як можна бачити з таблиці, природа випадкових процесів така, що з певного моменту можливість потрапити в інтервал починає підвищуватися дуже повільно (і цей момент настає досить швидко). Після того як ми відбираємо 1500 одиниць, як би ми сильно не збільшували обсяг вибірки, ймовірність, що наше значення за вибіркою потрапить у значення за генеральною сукупністю, зростатиме дуже і дуже повільно.

Фактично різниці між 1500 та 10 000 опитаних майже немає. Десь до 1500 ми вже можемо говорити, що наші оцінки відрізнятимуться від частки в генеральній сукупності на 2–3%. Якщо ми збільшуємо вибірку далі, ця можлива помилка буде зменшуватися, але дуже незначно. Інакше кажучи, вибірка в 100 000 краще, ніж вибірка в 2500, але різниця настільки мала, що немає сенсу, а разі соціальних обстежень і економічно не обгрунтована. Зазвичай збільшення вибірки коштує дорого, і тому її немає сенсу роздмухувати заради того, щоб виграти один відсотковий пункт у розмірі довірчого інтервалу.

Важливо, що у формулі взагалі фігурує розмір генеральної сукупності. Справа в тому, що коли генеральна сукупність велика (понад 20 000), він практично не впливає на розмір вибірки. Таким чином, нам не потрібно знати, скільки людей живе в Росії, щоби побудувати репрезентативну вибірку. Зрозуміло, що вибирати 1500 із 2000, швидше за все, не має сенсу – простіше обстежити 2000 та отримати точну оцінку. Але, роблячи у разі потреби вибірку, ми маємо можливість узагальнювати її результати для генеральної сукупності. І з цієї ж причини розмір вибірки не відрізнятиметься для великих та маленьких країн.

Репрезентативність та точність

Щоб зрозуміти зміст поняття «репрезентативність», розглянемо вибірку в 15 осіб. Як не дивно, якщо ви зробили її випадково, вона також репрезентативна. Більше того, ви можете зробити вибірку на одну одиницю. Уявіть ящик з кулями, звідки ви випадково берете одну кулю. Якщо це випадково обрана куля, то вона теж буде репрезентувати всі кулі, що є в цій скриньці. Просто він буде репрезентувати їх неточно. Чому? Тому що є дуже велика можливість помилитися. Наступного разу ми можемо витягнути іншу кулю і отримати інше уявлення про кулі в ящику. Репрезентувати неточно означає мати велику кількість оцінок.

Так само і 15 осіб репрезентують будь-яку генеральну сукупність, але вони репрезентують її неточно, тому що похибка, довірчий інтервал дуже великі. Нам доведеться додавати +/- 33%, щоб отримати 95% ймовірності того, що ми потрапимо в інтервал. Якщо ми готові це допустити, то беремо 15 осіб, з'ясовуємо, що 7 з них - це менеджери середньої ланки, а далі отримуємо оцінку, що 7/15 від сукупності, тобто 47% +/- 33%, - це оцінка частки менеджерів у генеральній сукупності, і це абсолютно коректний висновок. Просто він не має жодної цінності. Це ми могли сказати без обстеження. Тому, плануючи вибірку, має сенс досягати такого обсягу, який буде доцільним з погляду співвідношення витрат та ефективності.

Все сказане покликане донести одну просту думку, яку часто не усвідомлюють: обсяг вибірки не пов'язаний з її репрезентативністю.

Маленька вибірка неточна, але вона все одно може бути репрезентативною. Обсяги вибірок, які використовуються сьогодні в масових опитуваннях в Росії, майже завжди мають досить високу точність.

Погрожує репрезентативності вибірки не її обсяг, а зміщення, тобто відхилення від принципу випадковості.

Порушення принципу випадковості

Якщо ми починаємо вибирати одиниці невипадковим чином, вибірка стає нерепрезентативною. Наприклад, якщо щось заважає нам відбирати їх випадково. Уявімо, що ми хочемо відібрати кулі з нашого ящика випадковим чином, але тут виявляється, що частина куль кусається. Механізм, при якому ми братимемо лише ті кульки, які даються нам у руки, - це механізм, що порушує випадковість і тому порушує репрезентативність. У цьому випадку, скільки б ми кульок не взяли з ящика (навіть якщо ми візьмемо всі кульки, які не кусаються), у нас буде нерепрезентативна вибірка, тому що ми не врахуємо жодного з тих, що кусаються, вони просто пройдуть нашу вибірку.

Найбільша проблема з кулями, що кусаються, полягає в тому, що вони можуть відрізнятися від тих, які йдуть до нас в руки, і відрізнятися якраз за тією ознакою, яка нас цікавить. Така ситуація називається систематичною помилкою вибірки.

Потрібно відрізняти ситуацію неточної репрезентації, яку ми описали вище, від ситуації нерепрезентативності. Це різні проблеми, і вони мають різні способи вирішення. Не можна вирішити одну з них шляхом вирішення іншої. Якщо вибірці не вистачає репрезентативності, марно її збільшувати. Більше того, великі вибірки у соціальних обстеженнях мають властивість накопичувати помилки, тому за допомогою сильного збільшення вибірки проблему репрезентації можна лише посилити.

Чому репрезентативність неможлива

У примітках до таблиць з результатами опитувань часто можна побачити, що «обсяг вибірки становить 1600 осіб, вибірка репрезентативна за статтю та віком». Зі сказаного вище очевидно, що це два різні параметри: вказівка ​​на репрезентативність не пов'язана з обсягом вибірки. Насправді тут мають на увазі те, що виконувались певні процедури, щоб забезпечити відповідність між вибіркою та генеральною сукупністю. Наприклад, щоб забезпечити репрезентативність за статтю, у вибірку набирають чоловіків і жінок у таких самих співвідношеннях, які існують серед росіян за даними перепису. Але репрезентативність за статтю не означає репрезентативності, наприклад, з політичних поглядів.

Чому доводиться вирівнювати вибірку за статтю та іншими соціально-демографічними категоріями? Тому що справжню репрезентативність може забезпечити лише випадкова вибірка, а реалізувати її практично неможливо з маси причин. Як тільки ви спробуєте це зробити, ви зіткнетеся з безліччю проблем - байдуже, яким методом ви захочете скористатися. Частина респондентів взагалі виявиться недоступною для вашого методу (скажімо, для особистих інтерв'ю великою проблемою є будинки з домофонами та охороною), ще частина буде відсутня, не відповідатиме або волітиме займатися своїми справами. Є люди, які мають мовні проблеми, і вони не можуть з нами говорити. Є люди, які не розуміють, навіщо це потрібно, і вони не хочуть говорити з нами. Все це - серйозні порушення випадковості, які унеможливлюють її реалізацію.

Ті, хто зводить проблему репрезентації у масових опитуваннях до статистики, забувають про те, що люди – це дуже специфічні кульки. Є кульки, які тікають та ховаються. Є кульки, які кусаються. Вони не пасивні об'єкти, вони дають здачу. Вони кажуть: "Я не хочу брати участь у твоєму опитуванні", тим самим порушують випадковість. Тому в строгому значенні слова репрезентативність у масових опитуваннях, звісно, ​​неможлива у жодному вигляді.

Вироблено механізм, за допомогою якого зазвичай забезпечується видимість репрезентативності: ми вирівнюємо вибірку за деякими категоріями і робимо вигляд, що за рештою можливих категорій вона теж вирівняна. Насправді, у нас немає жодних підстав це стверджувати. Але проблема в тому, що немає і ніякої можливості це перевірити - знову ж таки через те, що деякі кульки кусаються. Щоб перевірити наявність систематичної помилки, перевіряльнику довелося б сходити до тих, кого ми не опитали, і опитати їх. Але вони, як ми пам'ятаємо, не хочуть, щоб їх опитували. Опитати тих, хто не відповідає категорично, неможливо. Тому всі працюють на припущенні, що якщо ми вирівняли вибірку за двома-трьома параметрами, вона репрезентує всю сукупність, хоча у цього припущення і немає жодних серйозних підстав.

Репрезентативна вибірка – технологія, запозичена соціологами зі статистики. Тому вона неминуче містить у собі елементи математико-статистичної картини світу. Мабуть, найсильніше припущення у тому, що саме собою вибіркове опитування політично і соціологічно нейтральний: що й неучасть у опитуванні несе у собі політичного сенсу і пов'язані з іншими соціологічно важливими параметрами. Але сьогодні опитування стали одним із головних політичних інститутів і перетворилися на ключового посередника між великими корпораціями та споживачами. У цих умовах вірити в їхню політичну стерильність уже неможливо. Однак ми, як і раніше, мало знаємо про те, як опитування розуміються в сучасних суспільствах і що вони насправді репрезентують.

Сумарна чисельність об'єктів спостереження (люди, домогосподарства, підприємства, населені пункти тощо), які мають певним набором ознак (стаття, вік, дохід, чисельність, оборот тощо.), обмежена у просторі та часі. Приклади генеральних сукупностей

  • Усі мешканці Москви (10,6 млн. осіб за даними перепису 2002 року)
  • Чоловіки-Москвичі (4,9 млн осіб за даними перепису 2002 року)
  • Юридичні особи Росії (2,2 млн. на початок 2005 року)
  • Роздрібні торгові точки, які здійснюють продаж продуктів харчування (20 тисяч початку 2008 року) тощо.

Вибірка (Вибіркова сукупність)

Частина об'єктів з генеральної сукупності, відібраних для вивчення, для того, щоб зробити висновок про всю генеральну сукупність. Для того щоб висновок, отриманий шляхом вивчення вибірки, можна було поширити на всю генеральну сукупність, вибірка повинна мати властивість репрезентативності.

Репрезентативність вибірки

Властивість вибірки коректно відбивати генеральну сукупність. Одна і та ж вибірка може бути репрезентативною та нерепрезентативною для різних генеральних сукупностей.
Приклад:

  • Вибірка, що повністю складається з москвичів, які володіють автомобілем, не представляє все населення Москви.
  • Вибірка з підприємств чисельністю до 100 людина не репрезентує всі підприємства Росії.
  • Вибірка з москвичів, які здійснюють покупки на ринку, не репрезентує купівельну поведінку всіх москвичів.

У той же час, зазначені вибірки (при дотриманні інших умов) можуть відмінно репрезентувати москвичів-автовласників, невеликі та середні російські підприємства та покупців, які купують на ринках відповідно.
Важливо розуміти, що репрезентативність вибірки та помилка вибірки – різні явища. Репрезентативність, на відміну від помилки, ніяк не залежить від розміру вибірки.
Приклад:
Як би ми не збільшували кількість опитаних москвичів-автовласників, ми не зможемо репрезентувати цією вибіркою всіх москвичів.

Помилка вибірки (довірчий інтервал)

Відхилення результатів, одержаних за допомогою вибіркового спостереження від справжніх даних генеральної сукупності.
Помилка вибірки буває двох видів – статистична та систематична. Статистична помилка залежить від розміру вибірки. Чим більший розмір вибірки, тим вона нижча.
Приклад:
Для простої випадкової вибірки розміром 400 одиниць максимальна статистична помилка (з 95% довірчою ймовірністю) становить 5%, для вибірки 600 одиниць – 4%, для вибірки 1100 одиниць – 3% Зазвичай, коли говорять про помилку вибірки, мають на увазі саме статистичну помилку.
Систематична помилка залежить від різних факторів, що надають постійний вплив на дослідження та зміщують результати дослідження у певний бік.
Приклад:

  • Використання будь-яких ймовірнісних вибірок занижує частку людей із високим доходом, які ведуть активний спосіб життя. Відбувається це через те, що таких людей набагато складніше застати в якомусь певному місці (наприклад, вдома).
  • Проблема респондентів, які відмовляються відповідати на запитання (частка «відмовників» у Москві, для різних опитувань коливається від 50% до 80%)

У деяких випадках, коли відомі справжні розподіли, систематичну помилку можна нівелювати запровадженням квот або перезважуванням даних, але в більшості реальних досліджень навіть оцінити її досить проблематично.

Типи вибірок

Вибірки поділяються на два типи:

  • імовірнісні
  • неймовірні

1. Імовірнісні вибірки
1.1 Випадкова вибірка (простий випадковий вибір)
Така вибірка передбачає однорідність генеральної сукупності, однакову можливість доступності всіх елементів, наявність повного списку всіх елементів. При відборі елементів зазвичай використовується таблиця випадкових чисел.
1.2 Механічна (систематична) вибірка
Різновид випадкової вибірки, впорядкований за якоюсь ознакою (алфавітний порядок, номер телефону, дата народження тощо). Перший елемент відбирається випадково, потім з кроком 'n' відбирається кожен 'k'-ий елемент. Розмір генеральної сукупності, у своїй – N=n*k
1.3 Стратифікована (районована)
Застосовується у разі неоднорідності генеральної сукупності. Генеральна сукупність розбивається на групи (страти). У кожній страті відбір здійснюється випадковим чи механічним чином.
1.4 Серійна (гніздова чи кластерна) вибірка
При серійній вибірці одиницями відбору виступають самі об'єкти, а групи (кластери чи гнізда). Групи відбираються випадковим чином. Об'єкти всередині груп обстежуються суцільником.

2.Неймовірні вибірки
Відбір у такій вибірці здійснюється за принципами випадковості, а, по суб'єктивним критеріям – доступності, типовості, рівного представництва тощо.
2.1. Квотна вибірка
Спочатку виділяється деяка кількість груп об'єктів (наприклад, чоловіки віком 20-30 років, 31-45 років і 46-60 років; особи з доходом до 30 тисяч рублів, з доходом від 30 до 60 тисяч рублів і з доходом понад 60 тисяч рублів) Для кожної групи задається кількість об'єктів, які повинні бути обстежені. Кількість об'єктів, які повинні потрапити до кожної групи, задається, найчастіше, або пропорційно заздалегідь відомої частки групи в генеральній сукупності, або однаковою для кожної групи. Усередині груп об'єкти відбираються довільно. Квотні вибірки використовуються досить часто.
2.2. Метод снігової грудки
Вибірка будується в такий спосіб. У кожного респондента, починаючи з першого, просяться контакти його друзів, колег, знайомих, які б підходили під умови відбору і могли б взяти участь у дослідженні. Отже, крім першого кроку, вибірка формується з участю самих об'єктів дослідження. Метод часто застосовується, коли необхідно знайти та опитати важкодоступні групи респондентів (наприклад, респондентів, які мають високий дохід, респондентів, що належать до однієї професійної групи, респондентів, які мають схожі хобі/захоплення тощо)
2.3 Стихійна вибірка
Опитуються найдоступніші респонденти. Типові приклади стихійних вибірок – у газетах/журналах, які віддали респондентам на самозаповнення, більшість інтернет-опитувань. Розмір та склад стихійних вибірок заздалегідь не відомий, і визначається лише одним параметром – активністю респондентів.
2.4 Вибір типових випадків
Відбираються одиниці генеральної сукупності, які мають середнім (типовим) значенням ознаки. При цьому виникає проблема вибору ознаки та визначення її типового значення.

Курс лекцій з теорії статистики

Більш детальну інформацію щодо вибіркових спостережень можна отримати переглянувши.



Подібні публікації