Репрезентативность выборки. Объем
и ошибка выборки.
В формировании выборочной
совокупности важную роль играет
определение ее объема и обеспечение
репрезентативности.
«Если тип выборки говорит
о том, как попадают люди
в выборочную совокупность, то объём
выборки сообщает о том, какое их количество
попало сюда». То есть объем выборки –
это количество единиц попавших в выборочную
совокупность. И очень важно, чтобы выборка
была репрезентативной, то есть не искажала
представлений о генеральной совокупности
в целом. «Требования репрезентативности
выборки означают, что по выделенным параметрам
(критериям) состав обследуемых должен
приближаться к соответствующим пропорциям
в генеральной совокупности».
Одна из ключевых проблем, встающих,
как правило, перед социологом, решающим:
доверять полученным в ходе него данным
или нет, это то, сколько же человек должно
быть опрошено для того, чтобы получить
действительно репрезентативную информацию.
К сожалению, единой и четкой формулы,
используя которую можно было бы рассчитать
оптимальный объем выборочной совокупности,
не существует в природе. И объясняется
это весьма просто. Дело в том, что определение
объема выборочной совокупности – это
проблема не столько статистическая, сколько
содержательная.
Иными словами, объем выборочной совокупности
зависит от множества факторов, основные
из них следующие:
1.
затраты на сбор информации, включая временные;
2.
стремление к определённой статистической
достоверности результатов, которую надеется
получить исследователь;
3.
ценность и новизна информации, получаемой
в результате опроса
Объем выборки обусловлен степенью
однородности или неоднородности,
генеральной совокупности, количеством
характеризующих ее признаков.
Однородной считается совокупность, в
которой контролируемый признак, например
уровень грамотности, распределён равномерно,
то есть не образует пустот и сгущений,
тогда опросив лишь несколько человек,
можно сделать вывод о том, что большинство
людей грамотны. Чем более однородна генеральная
совокупность, тем меньше объем выборки.
Например, «допустим, мы осуществляем
отбор из генеральной совокупности в 2000
человек, контролируя состав выборочной
совокупности по признаку «пол»»: 70% мужчин
и 30% женщин. Согласно теории вероятности,
можно предположить, что примерно среди
каждых десяти отбираемых респондентов
встретятся три женщины. Если мы хотим
опросить по крайней мерее 90 женщин, то
исходя из вышеупомянутого соотношения,
нам необходимо отобрать не менее 300 человек.
А теперь предположим, что в генеральной
совокупности 90% мужчин и 10% женщин. В этом
случае, чтобы в выборочную совокупность
попало 90 женщин, необходимо отобрать
уже не менее 900 человек» Из примера видно,
что объем выборки зависит от разброса
признака (дисперсии), и его нужно вычислять
по признаку, дисперсия значений которого
наибольшая.
«Степень однородности социального
объекта зависит, в сущности, от
того, насколько детально мы намерены
его исследовать. Практически
любой, самый «элементарный» объект
оказывается чрезвычайно сложным. Лишь
в анализе мы представляем его как относительно
простой, выделяя те или иные его свойства.
Чем более основательным и детальным будет
анализ, чем больше свойств данного объекта
мы намерены принять во внимание в их сочетании,
а не изолированно, тем больше должен быть
объем выборки».
Репрезентативность выборки определяется
двумя компонентами: систематическими
и случайными ошибками. Случайные ошибки
связаны «со статистическими погрешностями
(зависят от динамики исследуемых признаков)
и непредвиденными нарушениями процедуры
сбора информации (процедурные ошибки,
допущенные при регистрации признаков)»
Случайные ошибки уменьшаются с увеличением
объема выборочной совокупности. Случайную
ошибку можно измерить методами математической
статистики, если при формировании выборочной
совокупности соблюдался принцип случайности,
обеспечивающийся строго определенными
правилами, которые составляют метод формирования
выборочной совокупности, и устранить.
На практике принцип случайности
соблюсти очень сложно, а иногда просто
невозможно, что приводит к появлению
систематической ошибки, которые возникают
«из-за неполной объективности выборки
генеральной совокупности (недостаток
информации о генеральной совокупности,
отбор наиболее «удобных» для исследования
элементов генеральной совокупности),
а так же из-за несоответствия выборки
целям и задачам исследования». Иногда
такие ошибки называют ошибками смещения.
Они возникают при различных телевизионных
опросах, когда телеведущий предлагает
телезрителям позвонить по определённым
номерам телефонов, послать смс-сообщение
и высказать своё мнение по какой-то проблеме.
Естественно мы не можем утверждать что
эти люди отражают мнение всего населения
страны, и даже телеаудитории. Вероятнее
всего в таких опросах участвуют более
образованные и активные люди, чем вся
генеральная совокупность, поэтому любой
телевизионный опрос содержит в себе систематическое
искажение и носит поверхностный характер.
Но систематические ошибки возникают
и в ходе корректно организованного
опроса. Например, на улице на вопросы
интервьюера отвечают только те, кто никуда
не спешит. Искажения можно избежать, если
соблюдать принципы случайного отбора
и опрашивать, к примеру, каждого десятого
прохожего.
Причины возникновения систематических
ошибок:
1.
«в ходе исследования была не правильно
составлена основа выборки (использовались
устаревшие, неполные данные либо отсутствовала
статистика по некоторым важным для формирования
выборки признакам),
2.
неудачно выбран способ отбора единиц
наблюдения,
3.
часть респондентов по разным причинам
«выпала» из опроса (отсутствовала, отказалась
отвечать) и так далее» .
При помощи математических
средств такие ошибки устранить
невозможно, поэтому необходимо
осуществить логический анализ
причин появления систематических ошибок
и разработать меры, которые смогли бы
их устранить. «Величину ошибок смещения
определить при помощи математических
формул практически не возможно, поэтому
они автоматически переходят на результаты
и выводы исследования. Ошибки смещения
бывают обычно следствием:
– неверных исходных статистических
данных о параметрах контрольных признаков
генеральной совокупности;
– слишком малого (статистически не значимого)
объёма выборочной совокупности;
– неверного применения способа
отбора единиц анализа (например, отбор
из неверно составленного списка, неудачный
выбор места и времени проведения опроса)»
Существуют определённые пределы
ошибки выборки, которые зависят
от цели исследования. В экономических
и демографических прогнозах, например
при переписи населения, требуется повышенная
надёжность и точность. Для таких прогнозов
существенные ошибки оборачиваются миллионными
потерями материальных ресурсов и просчетами
в прогнозах и планировании. Но чаще поводятся
социологические исследования для уяснения
общих тенденций, общей ориентировки в
социальной сфере не требующие стопроцентной
надёжности. Существует приблизительная
оценка на надёжность результатов исследования:
«повышенная надёжность допускает ошибку
выборки до 3%. Обыкновенная – до 3-10%, приближенная
– то 10 до 20%, ориентировочная – от 20 до
40%, а прикидочная – более 40%»
Таким образом, существует
несколько способов, чтобы избежать
ошибки:
§ каждый элемент генеральной совокупности
должен иметь одинаковую вероятность
попасть в выборочную совокупность;
§ генеральная совокупность должна быть
желательно однородной;
§ необходимо иметь сведения о структуре
генеральной совокупности и её характерные
черты;
§ при составлении выборочной совокупности
заранее учесть случайные и систематические
ошибки.
Качество выборки оценивают
по двум показателям: репрезентативность
и надежность. О репрезентативности
уже говорилось выше. А чтобы
создать надежную выборку необходимо
правильно построить ее основу.
Для этого соблюдаются следующие требования:
1. Полнота выборки, которая требует наличия
всех элементов генеральной совокупности
в основе выборки. Если в выборку не включены
многие единицы наблюдения, тем более,
несущие в себе существенные особенности
и характеристики объекта, то результаты
исследования будут неполными и однобокими.
2.
Отсутствие дублирования, которое подразумевает
недопустимость повторного включения
в выборку одной и той же единицы наблюдения
(например, ученик перешел учиться в другую
школу, его включили в новый список, не
вычеркнув при этом из старого, таким образом,
он дважды попал в выборку).
3.
Точность информации выборки, предполагающая
исключение несуществующих единиц наблюдения
из основы выборки. Например, в избирательных
списках, которые готовятся для очередных
выборов депутатов различного уровня,
нередко остаются умершие люди или жильцы
снесенных домов.
4.
Адекватность, которая означает, что основа
составленной выборки должна соотноситься
с решением поставленных в исследовании
задач. Например, полный список всех учащихся
школы — хорошая основа для того, чтобы
сформировать выборку при изучении проблемы
общей успеваемости. Но если нас интересует
отношение старшеклассников к основным
учебным дисциплинам, то этот список может
быть использован только для формирования
новой основы выборки — списка старшеклассников.
5.
Удобство работы с основой выборки, при
котором необходимо четко пронумеровать
все элементы, которые в нее входят, а составленные
списки централизованно хранить.
«Существует два основных подхода
к обоснованию репрезентативности
выборки:
1.
При статистическом подходе репрезентативность
обеспечивается специальными вероятностными
методами извлечения выборки. Для обобщения
результатов исследования на генеральную
совокупность применяются строгие индуктивные
процедуры статистического вывода, оценивается
ошибка выборки с заданной вероятностью.
2.
В нестатистическое обоснование репрезентативности
предполагает теоретическое доказательство
того, что выборка достаточно хорошо представляет
генеральную совокупность. При использовании
этого подхода статистическое оценивание
ошибок выборки не производится»
На первый взгляд, кажется, что
обеспечить репрезентативность
выборки на практике просто невозможно,
но на самом деле всё зависит от программных
целей и задач исследования.
Если мы проводим обследование
большой общественной значимости,
по завершению которого нужно
будет сделать выводы обо всей
генеральной совокупности, то необходимо
чётко следовать всем требования репрезентативной
выборочной процедуры, так как ошибки
в таких исследованиях недопустимы.
Если перед нами стоят более
скромные задачи и уровень
надежности выводов можно смело
понизить, то необходимо следовать
всем требованиям по качественному
представительству выборочной совокупности.
Если мы решим подчёркивать статистическую
надёжность данных, то введём в заблуждение
тех людей, кто привык верить математическим
расчётам. Нельзя забывать, что та информация,
которую мы получаем путём опросов и других
способов, лишь условно переводится в
количественные показатели. И не редкость
когда количественные показатели только
приблизительно отражают существо социальных
процессов. «Поэтому усилия, направленные
на строгость статистического обоснования
результатов, приобретают смысл только
при условии серьёзного качественного
анализа проблемы, содержательного её
изучения»
Необходимо помнить, что социолог
должен сосредотачивать своё
внимание именно на существе
социальных проблем, привлекать
к работе других специалистов, практиков
и теоретиков, внимательно изучать литературу
в области экономики, психологии, социологии
о предмете исследования. И для решения
статистических задач, по поводу типа
и объема выборки, он сначала должен чётко
сформулировать конкретные вопросы, которые
необходимо решить, а уже потом обращаться
к соответствующим расчётам различных
статистик.