Как правильно рассчитать объем выборки? Репрезентативность - что это за процесс? Ошибка репрезентативности.


Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям. Одно из главных условий - репрезентативность (представительность) выборки . Как обсуждалось ранее, выделяют качественную и количественную репрезентативность.

Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):

1. Каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку.

2. Отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака.

3. Отбор должен проводиться из однородных групп.

Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:

1. Выборки, не требующие разделения генеральной совокупности на части (собственно, случайная повторная или бесповторная выборка).

2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).

Собственно, случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора лежит перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.

При составлении случайной выборки после того, как объект выбран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть, или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность) или бесповторной (объект не возвращается в генеральную совокупность). Поскольку в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует, то априорно принимается условие, что выборка повторная.

Оценка необходимой численности выборки

Для того, чтобы выборочная совокупность была количественно репрезентативной по отношению к генеральной, необходимо первоначально оценить количество данных, которое требуется включить в выборочную совокупность.

При неизвестной величине генеральной совокупности величину повторной выборки, гарантирующую репрезентативные результаты, если результат отражается показателем в виде относительной величины (доли) , определяют по формуле:

где р – величина показателя изучаемого признака, в %; q = (100- p ) ;

t – доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t = 2, что обеспечивает 95% вероятность безошибочного прогноза);

 - предельная ошибка показателя.

Например: одним из показателей, характеризующих здоровье рабочих промышленных предприятий, является процент не болевших в течение года работников. Предположим, что для промышленной отрасли, к которой относится обследуемое предприятие, этот показатель равен 25%. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, 5%. При этом показатель может принимать значения 25% ±5%, т.е. от 20% до 30%. Допуская t = 2, получаем

В том случае, если показатель - средняя величина , то число наблюдений можно установить по формуле:

где σ - среднее квадратическое отклонение, которое можно получить из предыдущих исследований, либо на основании пробных (пилотажных) исследований.

При бесповторном отборе и при условии известной генеральной совокупности для определения необходимого размера случайной выборки в случае использования относительных величин (доли) применяется формула:

для средних величин используется формула:

где N - численность генеральной совокупности.

Исходя из условий приведенного выше примера и принимая численность генеральной совокупности N =500 рабочих, получаем:

Нетрудно заметить, что необходимая численность выборки при бесповторном отборе меньше, чем при повторном (соответственнo, 188 и 300 рабочих).

В целом, число наблюдений, необходимое для получения репрезентативных данных, изменяется обратно пропорционально квадрату допустимой ошибки.

Механическая выборка - выборка, когда из обследуемой совокупности единицы наблюдения отбираются механически. Например: отбор каждого пятого или каждого десятого рабочего по карточкам отдела кадров предприятия или по амбулаторным картам поликлиники МСЧ.

Типическая, типологическая или районированная выборка предполагает разбивку генеральной совокупности на ряд качественно однородных групп. Например: при изучении заболеваемости студентов вуза для углубленного обследования на каждом курсе выбираются типичные по своему составу студенческие группы. Часто этот способ отбора комбинируется с другими способами. Например: территория города делится в зависимости от степени загрязнения на типичные районы, в этих районах путем случайного отбора формируются группы наблюдения.

Когортный отбор относится к целенаправленным отборам. При этом способе из генеральной совокупности отбираются лица (распределение на подгруппы при этом является неслучайным), объединенные моментом появления какого-либо признака или изучаемого воздействия, играющего существенную роль в исследовании (год рождения, начало болезни, прием препарата и т.п.).

Исследование по типу случай-контроль (СК) – тип эпидемиологического исследования, в котором распределение фактора риска сравнивается в группе пациентов с заболеванием и контрольной группе. Исследование (СК) относится к ретроспективным, поскольку исследователь, разделив пациентов на группы, по тому, есть или нет у них заболевание, выясняет у них информацию из прошлого.

Следует отдельно остановиться на использовании выборочного метода в санитарной статистике при изучении общей заболеваемости населения. Теоретические предпосылки выборочного метода были проверены в ходе специальных исследований. Так, В.С. Быховский и соавт. в 1928 году сделали параллельную обработку 132,8 тыс. карт с данными о заболеваниях сплошным методом и методом механического отбора каждой пятой карты. Анализ результатов этой обработки показал высокую репрезентативность данных выборочного исследования заболеваемости. Однако, вплоть до сегодняшнего дня, отсутствуют единые методические подходы проведения в широкой практике выборочных санитарно-статистических исследований.

Статистическая совокупность - объект статистического изучении, состоящий из качественно однородных единиц, но отличающихся по каким-то другим признакам.

Генеральная совокупность - совокупность единиц, подлежащая изучению, ее численность обозначается N.

Выборочная совокупность - часть единиц генеральной совокупности, отобранная в случайном порядке, ее численность обозначается n. Выборочное наблюдение - не сплошное наблюдение, при котором обследованию подвергается определенная часть единиц изучаемой совокупности, отобранная в случайном порядке.

Преимущества выборочного наблюдения:

1) при обследовании слишком больших совокупностей, когда сплошное наблюдение требует огромных затрат труда и средств;

2) при необходимости получения информации в сжатые сроки;

3) при невозможности сплошного наблюдения.

Основные принципы выборочного наблюдения

1) обеспечение случайности - заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку

1) -обеспечение достаточного числа отобранных единиц.

Репрезентативность выборки - представительность отобранной из всей изучаемой совокупности части в отношении тех признаков, которые изучаются или оказывают влияние на формирование обобщающих характеристик.

Суть выборочного метода - получение первичных данных наблюдением выборки, анализом и их распространением на всю генеральную совокупность, с целью получения достоверной информации, об исследуемом явлении.

Характеристики генеральной совокупности - средняя, дисперсия, доля - называются генеральными и соответственно обозначаются х, р, где р - доля, отношение числа М единиц, обладающих данным признаком, ко всей численности генеральной совокупности, т. е. р = М/N.

Обобщающие характеристики в выборочной совокупности называются выборочными и обозначаются соответственно x, где - частость, отношение числа единиц, обладающих данным признаком, в выборочной совокупности л, т.е. = m/n.

Разность x - х= x, называется ошибкой репрезентативности выборочной средней, соответственно разность - р = называется ошибкой частости и разность - = - ошибкой дисперсии.

Ошибка репрезентативности - расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности.

Систематические ошибки репрезентативности - ошибки, возникающие в связи с особенностями принятой системы отбора и обработки данных наблюдений или в связи с нарушением установленных правил отбора.



Случайные ошибки репрезентативности ошибки, возникающие в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности.

Стандартная ошибка выборки:

Предельная ошибка выборки: (t-коэффициент доверия).

Величина случайной стандартной и предельной ошибки зависит:

1) от принятого способа формирования выборочной совокупности;

2) от объема выборки;

3) от степени колеблемости изучаемого признака в генеральной совокупности.

3)Случайный отбор и его виды. Простой случайный бесповторный отбор и простой случайный повторный отбор. Типический, механический и серийный отбор.
На практике применяются различные способы Отбора. Принципиально эти способы можно подразделить на два вида:

1. Отбор, не требующий расчленения генеральной совокупности на части. Сюда относятся: а) простой случайный бесповторный отбор; б) простой случайный повторный отбор.

2. Отбор, при котором генеральная совокупность разбивается на части. Сюда относятся: а) типический отбор; б) механический отбор; в) серийный отбор. Простым случайным называют такой отбор, при котором объекты извлекают по одному из всей генеральной совокупности. Осуществить простой отбор можно различными способами. Например, для извлечения п объектов из генеральной совокупности объема N поступают так: выписывают номера от 1 до N на карточках, которые тщательно перемешивают, и наугад вынимают одну карточку; объект, имеющий одинаковый номер с извлеченной карточкой, подвергают обследованию; затем карточку возвращают в пачку и процесс повторяют, т. е. карточки перемешивают, наугад вынимают одну из них и т. д. Так поступают п раз; в итоге получают простую случайную повторную выборку объема п.Если извлеченные карточки не возвращать в пачку, то выборка является простой случайной бесповторной. При большом объеме генеральной совокупности описанный процесс оказывается очень трудоемким. В этом случае пользуются готовыми таблицами «случайных чисел», в которых числа расположены в случайном порядке. Для того чтобы отобрать, например, 50 объектов из пронумерованной генеральной совокупности, открывают любую страницу таблицы случайных чисел и выписывают подряд 50 чисел; в выборку попадают те объекты, номера которых совпадают с выписанными случайными числами. Если бы оказалось, что случайное число таблицы превышает число N, то такое случайное число пропускают. При осуществлении бесповторной выборки случайные числа таблицы, уже встречавшиеся ранее, следует также пропустить. Типическим называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типической» части. Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Типическим отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных типических частях генеральной совокупности. Например, если продукция изготовляется на нескольких машинах, среди которых есть более и менее изношенные, то здесь типический отбор целесообразен. Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20% изготовленных станком деталей, то отбирают каждую пятую деталь; если требуется отобрать 5% деталей, то отбирают каждую двадцатую деталь, и т. д. Следует указать, что иногда механический отбор может не обеспечить репрезентативности выборки. Например, если отбирают каждый двадцатый обтачиваемый валик, причем сразу же после отбора производят замену резца, то отобранными окажутся все валики, обточенные затупленными резцами. В таком случае следует устранить совпадение ритма отбора с ритмом замены резца, для чего надо отбирать, скажем, каждый десятый валик из двад­цати обточенных. Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергаются сплошному обследованию. Например, если изделия изготовляются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков. Серийным отбором пользуются тогда, когда обследуемый признак колеблется в различных сериях незначительно.Подчеркнем, что на практике часто применяется комбинированный отбор, при котором сочетаются указанные выше способы. Например, иногда разбивают генеральную совокупность на серии одинакового объема, затем простым случайным отбором выбирают несколько серий и, наконец, из каждой серии простым случайным отбором извлекают отдельные объекты.



4)Вариационный ряд. Эмпирическая функция распределения. Гистограмма и полигон.
Пусть в некотором опыте наблюдается случайная величина Х с функцией распределения F(x). И пусть однократное осуществление опыта позволяет нам найти одно из возможных ее значений. Предположим, что опыт в одних и тех же условиях можно повторять какое угодно число раз, и что сами опыты (испытания) являются независимыми.

Результаты рассматриваемых n опытов представляют собой последовательность x1, x2, … , xn действительных чисел, которая называется выборкой объема n. Такова практическая трактовка выборки. Каждое xi (i=1, 2, …, n) называется вариантой(элементом выборки, наблюденным значением, значением признака).

Полученные в результате n опытов наблюдаемые значения x1, x2 xn представляют собой выборку из всей совокупности значений, которые может принимать интересующая нас величина Х. Принято говорить, что мы имеем дело с набором значений, соответствующим некоторой выборке из генеральной совокупности. Рассматриваемая выборка должна обладать свойством репрезентативности (представительности), то есть быть такой, чтобы по ее данным можно было получить правильное представление об всей генеральной совокупности в целом. Будет рассматриваемая выборка репрезентативной или нет – это зависит от способа отбора.

В математической литературе слово «выборка» гораздо чаще используется в другом смысле. Конкретную выборку x1, x2, …, xn мы можем рассматривать как реализацию значений системы случайных величин (X1, X2, …, Xn), распределенных одинаково, по тому же закону, что и Х.

Выборкой объема n из распределения случайной величины Х называется последовательность x1, x2, …, xn независимых и одинаково распределенных – по тому же закону, что и Х – случайных величин.

Часто в практических ситуациях возникает следующая задача: имеется выборка и отсутствует всякая информация о виде функции распределения F(x). Требуется построить оценку (приближение) для этой неизвестной функции F(x).

Наиболее предпочтительной оценкой функции F(x) является эмпирическая функция распределения Fn(x), которая определяется следующим образом

где nx – число вариант меньших х (х принадлежит R), n – объем выборки.

Функция Fn(x) служит хорошим приближением для неизвестной функции распределения для большихn.
Эмпирическая функция распределения

Пусть известно статистическое распределение частот количественного признака X. Введем обозначения:

– число наблюдений, при которых наблюдалось значение признака, меньшее;

– общее число наблюдений (объем выборки).

Ясно, что относительная частота события равна.

Если будет изменяться, то будет изменяться и относительная частота, то есть относительная частота есть функция от.

Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию, определяющую для каждого значения относительную частоту события.

Итак, по определению, где – число вариант, меньших, – объем выборки.

Из определения функции вытекают следующие ее свойства:

1) значения эмпирической функции принадлежат отрезку

2) – неубывающая функция;

3) если – наименьшая варианта, то, при;

если – наибольшая варианта, то при.

Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.
Для наглядности строят различные графики статистического распределения.

По данным дискретного вариационного ряда строят полигон частот или относительных частот.

Полигоном частот называют ломанную, отрезки которой соединяют точки (x1; n1), (x2; n2), ..., (xk; nk). Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им частоты ni. Точки (xi; ni) соединяют отрезками прямых и получают полигон частот (Рис. 1).

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x1; W1), (x2; W2), ..., (xk; Wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi, а на оси ординат - соответствующие им относительные частоты Wi. Точки (xi; Wi) соединяют отрезками прямых и получают полигон относительных частот.

В случае непрерывного признака целесообразно строить гистограмму.

Свойство выборки, благодаря которому результаты выборочного исследовании позволяют делать выводы о генеральной совокупности и эмпирическом объекте в целом, называется репрезентативностью.

Репрезентативность (представительность) выборки - это способность выборки воспроизводить определенные характеристики генеральной совокупности в пределах допустимых погрешностей. Выборку называют репрезентативной, если результат измерения определенного параметра для данной выборки совпадает с учетом допустимой погрешности с известным результатом измерения генеральной совокупности. Если выборочное измерение отклоняется от известного параметра генеральной совокупности больше выбранного уровня погрешности, то такая выборка считается нерепрезентативной.

Предложенное определение прежде всего устанавливает связь между выборочной и генеральной совокупностью исследования. Именно генеральную совокупность представляет выборка, и только на генеральную совокупность могут быть распространены выявленные в выборочном исследовании тенденции. Теперь должно быть понятно, почему ранее такое внимание было уделено задачам корректного определения генеральной совокупности и ее описания в исследовательской документации и публикациях. Выборка не может представлять иную совокупность, отличную от той, из которой фактически проводился отбор единиц для измерения. Если исследователь заблуждается относительно фактических границ генеральной совокупности, то его выводы будут некорректны. Если он по ошибке или намеренно расширяет или искажает границы генеральной совокупности в отчетных материалах, публикациях, презентациях по результатам исследования, то это вводит в заблуждение пользователей и может рассматриваться в качестве фальсификации результатов.

Проверка репрезентативности осуществляется посредством сравнения отдельных параметров выборки и генеральной совокупности. Распространенным заблуждением является существование репрезентативных выборок «вообще».

Репрезентативность или нерепрезентативность выборки может быть установлена исключительно в отношении отдельных переменных. Более того, одна и та же выборка может быть репрезентативна по одним параметрам и нерепрезентативна - по другим.

Как правило, в профессиональном дискурсе социологов репрезентативность представляется как дихотомическое свойство - выборка либо репрезентативна, либо нет. Но это не вполне корректный подход. В действительности выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие - менее точно. Поэтому корректнее (хотя с практической точки зрения и менее удобно) вести речь о мере репрезентативности конкретной выборки по конкретным параметрам.

Как и в случае с выборкой в целом, ключевым моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной для целей исследования. Возможно и обратное - фиксация размера фактических ошибок и констатация факта, что выборка представляет генеральную совокупность с определенными погрешностями. И опять-таки ключевую роль в этом играет характер использования результатов исследования. Следовательно, одна и та же выборка может быть признана достаточно репрезентативной для одних целей (например, для прогноза явки избирателей на предстоящих выборах), но недостаточно репрезентативной для других (например, для определения рейтингов кандидатов и прогноза результатов голосования).

По каким параметрам следует проверять репрезентативность выборки? Во-первых, таких параметров в большинстве исследовательских ситуаций немного. Ведь сопоставить результаты выборочного измерения с данными о генеральной совокупности можно только при наличии последних. А исследования проводятся потому, что таких данных как раз не хватает. Поэтому еще на этапе моделирования объекта и последующей разработки инструментария целесообразно предусмотреть измерение одного или нескольких контрольных параметров, по которым доступны данные, характеризующие генеральную совокупность. Это создаст необходимую эмпирическую базу для проверки репрезентативности.

Во-вторых, нужно стремиться проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. В современной практике широкое распространение получил контроль репрезентативности по основным демографическим параметрам - полу, возрасту, образованию и пр. Эти данные, как правило, доступны для любого территориального объекта, так как фиксируются во время переписей населения и впоследствии пересчитываются статистическими учреждениями с применением обоснованных математических моделей. По этой причине обязательное включение нескольких демографических переменных в «паспортичку» стало общепринятой профессиональной нормой. Однако такая практика может быть отнесена к разряду наивных и подвергнута обоснованной критике. Дело в том, что основные и общедоступные для сравнения демографические параметры далеко не всегда играют роль структурирующих факторов в отношении предметов социологических исследований. Их природа сама по себе не является социальной, а влияние на объекты исследований часто достаточно опосредованно. Поэтому репрезентативные по демографическим параметрам выборки на деле могут скрывать значительные проблемы в виде системных ошибок и неконтролируемых смещений. Напротив, демографическая репрезентативность эффективных с точки зрения целей и задач исследования выборок может оказаться невысокой.

Вот интересный пример из практики. В 2009 г. одна из исследовательских компаний, работающих на Урале, выполнила опрос в г. Ки- зеле Пермского края. В ходе проведения полевых работ исследователи столкнулись с серьезными препятствиями для набора предусмотренной планом исследования выборки - отсутствием достаточного количества доступных респондентов, ухудшением погодных условия. Судя по всему, исследовательская компания не была в полной мере готова к осуществлению работ в таком масштабном проекте. Ее производственные мощности работали на пределе возможностей, чтобы в течение недели обеспечить опрос 6000 респондентов на достаточно обширной территории. В результате фактическая выборка во многих местах проведения опроса была, по признанию самих исследователей, наполнена всеми, кого удалось привлечь к участию в исследовании. Установленные техническим заданием демографические квоты были нарушены в большинстве районов опроса. В некоторых районах искажение пропорций наполнения выборки по отношению к квотному заданию достигали для отдельных категорий населения 2,5 раза, что фактически ставило под сомнение сам факт применения квотной выборки. Казалось, заказчик исследования имеет все основания для предъявления обоснованных претензий к исследователям.

Однако проведенная по поручению арбитражного суда экспертиза установила, что такие значительные искажения квот и, соответственно, явная нерепрезентативность полученной выборки по основным демографическим параметрам практически не привели к искажению данных исследования! Путем перевзешивания массива данных эксперты получили эффект репрезентативной по контролируемым параметрам выборки. Практически все проверенные экспертами частотные распределения данных показали статистически не значимые различия между результатами обработки фактического и перевзвешенного массивов. Де-факто это означает, что, несмотря на грубейшие нарушения технологии опроса и практическое игнорирование квотных заданий, исследователи предоставили заказчику те же самые данные, на которые он мог рассчитывать, если бы процедуры формирования выборки были полностью соблюдены и демографическая репрезентативность была обеспечена.

Как такое могло произойти? Ответ прост - использованные для контроля репрезентативности демографические параметры практически не имели (и это подтвердил корреляционный анализ) влияния на предметные переменные исследования - оценки населением социально- экономического положения и параметры его общественно-политической активности. К тому же размер выборки был весьма велик относительно генеральной совокупности (фактически исследование охватывало четверть взрослого населения муниципального округа), что в результате действия закона больших чисел привело к стабилизации наблюдаемых распределений задолго до того, как требуемое число респондентов было опрошено.

Практический вывод из этой поучительной истории состоит в том, что усилия и ресурсы следует направлять на обеспечение и контроль репрезентативности в отношении таких параметров выборки, которые, как предполагает исследователь, оказывают существенное влияние на предмет исследования. Это означает, что параметры для контроля репрезентативности должны выбираться специально для каждого исследовательского проекта соответственно его предметной специфике. Например, оценки социально-экономического положения всегда сильно связаны с реальным благосостоянием семьи респондента, его позициями на рынке труда и в бизнес-сфере. Соответственно, именно эти параметры целесообразно использовать для контроля репрезентативности. Другое дело, что получить объективные данные, характеризующие по ним генеральную совокупность, может быть непросто. Здесь нужен творческий подход и, возможно, компромисс. Например, уровень благосостояния можно проконтролировать по наличию автомобиля в семье респондента, ведь статистика зарегистрированных автомашин в регионе может быть доступна.

Интересно, что в исследовательских отчетах и публикациях практически всегда упоминаются именно репрезентативные выборки. Неужели нерепрезентативные выборки настолько редки? Конечно нет. Выборок, которые являются проблемными с точки зрения репрезентативности по тем или иным параметрам, в исследовательской практике встречается достаточно. Скорее их даже больше, чем выборок, репрезентативность которых может быть оценена не формально (по демографическим параметрам), а по существу. Однако их публичное упоминание в профессиональной социологической среде, к сожалению, табуировано. И никто из исследователей не готов признать, что репрезентативность его выборки по существенным для предметной области измерения параметрам проблематична либо не проверяема.

На самом деле обнаружение признаков нерепрезентативности выборки не является катастрофой. Во-первых, существующие технологии «ремонта» (перевзвешивания) выборки во многих случаях позволяют полностью исключить эффект нерепрезентативности относительно беспокоящего социолога или его клиента параметра. Суть метода перевзвешивания состоит в присваивании различным категориям наблюдений (в случае опроса - респондентов) определенных весовых коэффициентов , компенсирующих недостаточное или избыточное фактическое представительство данных категорий в выборке. В дальнейшем эти веса учитываются при проведении всех расчетных операций с массивом данных, что позволяет получать распределения, полностью соответствующие сбалансированному (соответствующему расчетным квотам) массиву данных. Современные статистические программы, такие как БРвв, позволяют производить расчеты с учетом весовых коэффициентов в автоматическом режиме, что делает эту процедуру достаточно легкой для исполнения.

Во-вторых, даже если получить «хорошую» репрезентативную выборку не получается, «умеренной» репрезентативности может оказаться достаточно для решения многих исследовательских задач. Напомним, что репрезентативность - это скорее мера соответствия, чем дихотомический маркер. И только отдельные исследовательские задачи - в основном связанные с точным прогнозированием определенных событий - требуют от выборок действительно высокой (статистически подтвержденной) репрезентативности.

Например, для того, чтобы прогнозировать рыночную долю нового продукта в маркетинговом исследовании требуется выборка, охватывающая и репрезентирующая потенциальных клиентов. Однако чаще всего маркетологи не имеют достаточных данных о том, кто на самом деле образует круг их клиентов, тем более - потенциальный. В этой ситуации проверить репрезентативность выборки вообще невозможно - ведь неизвестно, какие параметры она должна воспроизводить. Тем не менее многие маркетинговые задачи успешно решаются, так как для выявления клиентских предпочтений, реакции на рекламные материалы, анализа отзывов на новый продукт статистически репрезентативные выборки не нужны - достаточно обеспечить охват типичной клиентуры, которую легко найти прямо в магазинах. Нерепрезентативные выборки вполне подходят для решения поисковых задач, выявления сильно выраженных тенденций, анализа специфики отдельных категорий (представленных маленькими самостоятельными подвыборками), сравнения таких категорий между собой (двумерный анализ), анализа взаимосвязей между переменными и других задач, в которых точность полученных статистических распределений имеет второстепенное значение.

Требования к выборке

К выборке применяется ряд обязательных требований, опре­деленных, прежде всего, целями и задачами исследования. Плани­рование эксперимента должно включать в себя учет, как объема выборки, так и ряда ее особенностей. Так, в психологических ис­следованиях важно требование однородности выборки. Оно озна­чает, что психолог, изучая, например, подростков, не может, включать в эту же выборку взрослых людей. Напротив, исследо­вание, выполненное методом возрастных срезов, принципиаль­но предполагает наличие разновозрастных испытуемых. Однако и в этом случае должна соблюдаться однородность выборки, но уже по другим критериям, в первую очередь таким, как возраст, пол. Основаниями для формирования однородной выборки могут служить разные характеристики, такие, как уровень интеллекта, национальность, отсутствие определенных заболеваний и т.д., в зависимости от целей исследования.

В общей статистике имеется понятие повторной и безповторной выборки, или, иначе говоря, выборки с возвратом и без возврата. В качестве примера приводится, как правило, выбор шара, доставаемого из какой-либо емкости. В случае выборки с возвратом каждый выбранный шар опять возвращается в емкость и, следовательно, может быть выбран снова. При бесповторном выборе однажды выбранный шар откладывается в сторону и больше не может участвовать в выборке. В психологических исследованиях можно найти аналоги подобного рода способам организации выборочного исследования, поскольку психологу нередко приходится несколько раз тестировать одних и тех же испытуемых при помощи одной и той же методики. Однако, строго говоря, повторной в этом случае является процедура тес­тирования. Выборка испытуемых при полной тождественности состава в случае повторных исследований всегда будет иметь не­которые отличия, обусловленные функциональной и возрастной изменчивостью, присущей всем людям. Подобная выборка по ха­рактеру проведения процедуры является повторной, хотя смысл термина здесь, очевидно, иной, чем в случае с шарами.

Важно подчеркнуть, что все требования, предъявляемые к любой выборке, сводятся к тому, что на ее основе психологом должна быть получена наиболее полная, неискаженная инфор­мация об особенностях генеральной совокупности, из которой взята эта выборка. Иными словами, выборка должна как можно более полно отражать характеристики изучаемой генеральной со­вокупности.

Состав экспериментальной выборки должен представлять (моделировать) генеральную совокупность, поскольку выводы, полученные в эксперименте, предполагается в дальнейшем пе­ренести на всю генеральную совокупность. Поэтому выборка должна обладать особым качеством - репрезентативностью, позволяющим распространить полученные на ней выводы на всю генеральную совокупность.


Репрезентативность выборки очень важна, тем не менее, по объективным причинам соблюдать её крайне сложно. Так, хоро­шо известен факт, что от 70% до 90% всех психологических ис­следований поведения человека проводились в США в 60-х годах XX века с испытуемыми-студентами колледжей, причем боль­шинство из них были студентами психологами. В лабораторных исследованиях, выполняемых на животных, наиболее распрост­раненным объектом изучения являются крысы. Поэтому неслу­чайно психологию называли раньше «наукой о студентах-второ­курсниках и белых крысах». Студенты психологических коллед­жей составляют всего 3% от общей численности населения США. Очевидно, что выборка студентов нерепрезентативна в качестве модели, претендующей на представительство всего населения страны.

Репрезентативная выборка, или, как еще говорят, предста­вительная выборка, - это такая выборка, в которой все основ­ные признаки генеральной совокупности представлены прибли­зительно в той же пропорции и с той же частотой, с которой данный признак выступает в данной генеральной совокупности. Иными словами, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной сово­купности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки, можно с большой долей уверенности считать применимыми ко всей генеральной совокупности. Это распространение результатов называется генерализуемостью.

В идеале репрезентативная выборка должна быть такой, чтобы каждая из основных изучаемых психологом характерис­тик, черт, особенностей личности и т.п. была бы представлена в ней пропорционально этим же особенностям в генеральной совокупности. Согласно этим требованиям процедура форми­рования выборки должна иметь внутреннюю логику, способ­ную убедить исследователя, что при сравнении с генеральной совокупностью она действительно окажется репрезентатив­ной, представительной.

В своей конкретной деятельности психолог действует следую­щим образом: устанавливает подгруппу (выборку) внутри гене­ральной совокупности, подробно изучает эту выборку (проводит с ней экспериментальную работу), а затем, если это позволяют результаты статистического анализа, распространяет полученные выводы на всю генеральную совокупность. Это и есть основные этапы работы психолога с выборкой.

Начинающий психолог должен иметь в виду часто повторяю­щуюся ошибку: каждый раз, когда он осуществляет сбор любых данных любым методом и из любого источника, у него всегда появляется соблазн распространить свои выводы на всю гене­ральную совокупность. Для того чтобы избежать подобной ошиб­ки, надо не просто обладать здравым смыслом, но, прежде все­го, хорошо владеть основными понятиями математической ста­тистики.

Между временным рядом и случайной выборкой существуют принципиальные различия. Во-первых, элементы случайной выборки являются статистически независимыми, а элементы временного ряда - нет, т.к. во временном ряде можно проследить тенденцию развития и прогнозировать значения на будущее. Во-вторых, члены временного ряда не являются одинаково распределенными. В-третьих, у случайной выборки математическое ожидание, дисперсия, среднеквадратическое отклонение являются постоянными, в отличии от временного ряда, который отражает динамику развития какого-либо признака во времени, в связи с чем могут меняться во времени и числовые характеристики.

Репрезентативность выборки - это соответствие характеристик выборки характеристикам генеральной совокупности. Репрезентативность выборки определяет на сколько можно переносить выводы, сделанные по исследуемой выборке, на генеральную совокупность. Для обеспечения высокой репрезентативности выборки необходимо обеспечить большой объем выборки и наличие в ней, элементов из всех групп генеральной совокупности. Для достижения высокой репрезентативности временного ряда необходимо анализировать достаточно продолжительный объем данных, изменяющихся во времени, т.к. например, наличие данные о часовом газопотреблении за 1 января в течение нескольких лет не позволит прогнозировать объем газопотребления за другие даты. Т.е. для обеспечения репрезентативности временного ряда необходимо обеспечить наличие ряда наблюдений, в различные периоды времени.

Репрезентативность выборки определяется в первую очередь ее объемом. К тому же отбор показателей должен осуществляться из однородных групп, причем вероятность попадания любого элемента генеральной совокупности в выборку должна быть одинаковой для всех элементов. В свою очередь на объем выборки влияет способ осуществления отбора. Объем выборки определяется рядом факторов: объем генеральной совокупности, t-критерий Стьюдента, дисперсия выборки, предельная ошибка выборки и т.д. В случае временного ряда репрезентативность достигается наличием информации по разным временным периодам.

На мой взгляд, при исследовании всего временного ряда в целом удобно осуществлять типический отбор, разбив генеральную совокупность на группы, соответствующие одним суткам. И затем для каждых суток по дате выберем случайным образом одно из часовых потреблений. По полученному ряду нельзя будет судить о суточных колебаниях газопотребления, но общую тенденцию проследить будет возможно.

В нашем же случае, при исследовании относительно стабильной области газопотребления, наоборот, больший интерес составляют суточные колебания, поэтому, выборку будем осуществлять из подгрупп соответствующих одному времени потребления.

Таким образом, выберем в качестве базовой 25%-ю выборку генеральной совокупности, т.е. выберем из каждой группы часовых значений 0,25*52=13 значений случайным образом. Пронумеруем все даты (52 шт.), и с помощью функции СЛУЧМЕЖДУ(1;52) определим по 13 значений каждой часовой группы.

Рисунок 18 - Определение номеров элементов, включаемых в выборку

Т.к. функция СЛУЧМЕЖДУ() пересчитывает значения после каждого операции, сохраним найденные значения в формате чисел без формулы.

Рисунок 19 - Формирование 25%-й выборки

Переместим сформированную выборку на отдельный лист.

Рисунок 20 - Сформированная базовая выборка

Основными характеристиками типической выборки являются объем выборки, выборочная средняя, выборочная дисперсия, средняя из внутригрупповых дисперсий, а также средняя и предельная ошибки выборки. В виду того, что все группы равны по числу наблюдений, среднюю из внутригрупповых дисперсий рассчитываем как среднюю арифметическую простую. Внутригрупповые и выборочную дисперсии найдем с помощью функции ДИСП().

Для типического повторного отбора средняя ошибка равна:

Для типического повторного отбора предельная ошибка равна:

Значение t-критерия Стьюдента находится по специальным таблицам. При вероятности 99,7% t=3.

Таблица 6 - Характеристики базовой выборки

Разделим базовую выборку на две подвыборки: первая будет охватывать значения от 0:00 до 11:00 включительно, вторая от 12:00 до 23:00 включительно. Гистограммы будем строить по алгоритму, рассмотренному на прошлом занятии. Для построения гистограмм определим количество и ширину интервалов для базовой выборки, а для подвыборок частоты будем определять по границам интервалов базовой выборки для наглядности изображения гистограмм.

Таблица 7 - Данные для построения гистограмм

Интервал

нижняя граница

верхняя граница

базовая выборка

подвыборка 1

подвыборка 2

Уже глядя на таблицу можно сказать о том, что законы распределения базовой выборки и подвыборок будут отличаться. Что подтверждает предположения, выдвинутые в п.1 и 2 о различиях между выборкой и временным рядом и репрезентативности данных временного ряда.

Рисунок 21 - Гистограмма по базовой выборке и по подвыборкам

Внешний вид диаграмм по базовой выборке и по подвыборкам 1 и 2 различается. В первых интервалах частоты по базовой выборке ближе к частотам подвыборки 1, в последних - подвыборки 2. Это связано с тем, что до 11:00 объем часового газопотребления меньше, чем после 11:00. Данная гистограмма прекрасно иллюстрирует различие между выборкой и временным рядом и статистическую зависимость элементов временных рядов. Законы распределения всех трех рассматриваемых элементов различны.

Найдем характеристики двух подвыборок.

Таблица 8 - Характеристики подвыборок

Характеристики подвыборок

Подвыборка 1 до 11:00

Подвыборка 2 с 12:00

Значение

Значение

Изменение значения относительно характеристик базовой выборки

Выборочная средняя

Выборочная дисперсия

Средняя из внутригрупповых дисперсий

Объем выборки

Ошибки выборки

предельная

Выборочная средняя в первой и второй подвыборках отличаются от средней базовой выборки на -4,23% и +4,23% соответственно. Этот факт подтверждает возможность изменения характеристик во временных рядах по времени.

Выборочная дисперсия во второй подвыборке меньше дисперсии базовой выборки на 55,56%. Данное различие является очень существенным.

Сокращение объема выборки обусловлено разбиением базовой выборки на две равные части.

Ошибки выборки в двух подвыборках значительно выше ошибок базовой выборки.

Определим доверительные интервалы для математических ожиданий базовой выборки и двух подвыборок с помощью функции ДОВЕРИТ.

Таблица 9 - Определение границ доверительных интервалов для математического ожидания

Изобразим схематически доверительные вероятности для математических ожиданий трех рассматриваемых выборок.

Рисунок 22 - Схематическое изображение доверительных интервалов математических ожиданий базовой выборки и подвыборок

Доверительные интервалы не пересекаются между собой, следовательно вероятность равенства математических ожиданий базовой выборки и какой-либо из подвыборок равна 0. Рассчитаем для математического ожидания каждой подвыборки доверительный интервал, используя стандартное отклонение базовой выборки.

Таблица 10 - Расчет новых доверительных интервалов

Для первой подвыборки доверительный интервал изменился незначительно, т.к. стандартное отклонение первой подвыборки близко к стандартному отклонению базовой выборки. Для второй подвыборки доверительный интервал увеличился почти в два раза, что обусловлено аналогичным увеличением задаваемого стандартного отклонения. Расширение доверительного интервала связано с увеличением стандартного отклонения, которое характеризует разброс случайной величины относительно среднего значения. Увеличивается стандартное отклонение, следовательно, увеличивается разброс, что приводит к расширению границ доверительного интервала. Также косвенно обосновать расширение доверительного интервала возможно по правилу трех сигм, которое утверждает: вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю. Чем больше значение стандартного отклонения, тем шире интервал колебаний случайной величины, и следовательно, тем шире доверительный интервал для математического ожидания. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время. В главе была изучена возможность использования части временного ряда вместо целого при анализе и прогнозе. Значительное увеличение ошибок выборки и отсутствие пересечений в доверительных интервалах базовой выборки и подвыборок делают данные подвыборки не репрезентативной с точки зрения исследования всего временного ряда динамики часового газопотребления. Данные подвыборки могут быть использованы для анализа и прогноза газопотребления в различное время суток с 0:00 до 11:00 и с 12:00 до 23:00. По такому же принципу можно было сформировать подвыборки и прогнозировать часовое газопотребление в стабильный период в дневное и ночное время.

Выбор редакции
Добрый день, друзья! Малосольные огурцы - хит огуречного сезона. Большую популярность быстрый малосольный рецепт в пакете завоевал за...

В Россию паштет пришел из Германии. В немецком языке это слово имеет значение «пирожок». И первоначально это был мясной фарш,...

Простое песочное тесто, кисло-сладкие сезонные фрукты и/или ягоды, шоколадный крем-ганаш — совершенно ничего сложного, а в результате...

Как приготовить филе минтая в фольге - вот что необходимо знать каждой хорошей хозяйке. Во-первых, экономно, во-вторых, просто и быстро,...
Салат «Обжорка «, приготовленный с мясом — по истине мужской салат. Он накормит любого обжору и насытит организм до отвала. Этот салат...
Такое сновидение означает основу жизни. Сонник пол толкует как знак жизненной ситуации, в которой ваша основа жизни может показывать...
Во сне приснилась крепкая и зеленая виноградная лоза, да еще и с пышными гроздьями ягод? В реале вас ждет бесконечное счастье во взаимной...
Первое мясо, которое нужно давать малышу для прикорма, это – крольчатина. При этом очень важно знать, как правильно варить кролика для...
Ступеньки… Сколько десятков за день нам приходится их преодолевать?! Движение – это жизнь, и мы не замечаем, как пешим ходом наматываем...