Автор работы: Пользователь скрыл имя, 21 Декабря 2011 в 20:55, доклад
Статисти́ческие ме́тоды — методы анализа статистических данных. Выделяют методы прикладной статистики, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой.
Статистические
методы
Статисти́ческие
ме́тоды — методы анализа статистических
данных. Выделяют методы прикладной статистики,
которые могут применяться во
всех областях научных исследований
и любых отраслях народного хозяйства,
и другие статистические методы, применимость
которых ограничена той или иной сферой.
Имеются в виду такие методы, как статистический
приемочный контроль, статистическое
регулирование технологических процессов,
надежность и испытания, планирование
экспериментов.
Статистические
методы анализа данных
как область научно-практической
деятельности
Статистические
методы анализа данных применяются
практически во всех областях деятельности
человека. Их используют всегда, когда
необходимо получить и обосновать какие-либо
суждения о группе (объектов или субъектов)
с некоторой внутренней неоднородностью.
Целесообразно
выделить три вида научной и прикладной
деятельности в области статистических
методов анализа данных (по степени
специфичности методов, сопряженной
с погруженностью в конкретные проблемы):
а) разработка и
исследование методов общего назначения,
без учета специфики области
применения;
б) разработка и
исследование статистических моделей
реальных явлений и процессов
в соответствии с потребностями
той или иной области деятельности;
в) применение статистических
методов и моделей для статистического
анализа конкретных данных.
Кратко рассмотрим
три только что выделенных вида научной
и прикладной деятельности. По мере
движения от а) к в) сужается широта
области применения конкретного
статистического метода, но при этом повышается
его значение для анализа конкретной ситуации.
Если работам вида а) соответствуют научные
результаты, значимость которых оценивается
по общенаучным критериям, то для работ
вида в) основное - успешное решение конкретных
задач той или иной области применения
(техники и технологии, экономики, социологии,
медицины и др.). Работы вида б) занимают
промежуточное положение, поскольку, с
одной стороны, теоретическое изучение
свойств статистических методов и моделей,
предназначенных для определенной области
применения, может быть весьма сложным
и математизированным, с другой - результаты
представляют не всеобщий интерес, а лишь
для некоторой группы специалистов. Можно
сказать, что работы вида б) нацелены на
решение типовых задач конкретной области
применения.
Прикладная
статистика
Статистические
методы анализа данных, относящиеся
к группе а), обычно называют методами
прикладной статистики. Таким образом,
прикладная статистика – это наука
о том, как обрабатывать данные произвольной
природы, без учета их специфики [2].
Математическая
основа прикладной статистики и статистических
методов анализа данных в целом
– это математическая наука, известная
под названием «теория
Прикладная статистика
– одна из статистических наук, она не
относится к математике. Внутренняя структура
статистики как науки была выявлена и
обоснована при создании в 1990 г. Всесоюзной
статистической ассоциации (см., например,
статью [3]). Прикладная статистика - методическая
дисциплина, являющаяся центром, идейным
ядром статистики. Внутри прикладной статистики
выделяют задачи описания данных, оценивания
и проверки гипотез.
Описание вида
данных и, при необходимости, механизма
их порождения – начало любого статистического
исследования. Отметим, что для описания
данных применяют как детерминированные,
так и вероятностные методы. С помощью
детерминированных методов можно проанализировать
только те данные, которые имеются в распоряжении
исследователя. Например, с их помощью
получены таблицы, рассчитанные органами
официальной государственной статистики
на основе представленных предприятиями
и организациями статистических отчетов.
Перенести полученные результаты на более
широкую совокупность, использовать их
для предсказания и управления можно лишь
на основе вероятностно-статистического
моделирования. Поэтому в математическую
статистику часто включают лишь методы,
опирающиеся на теорию вероятностей, оставляя
детерминированные методы экономической
учебной дисциплине «Общая теория статистики».
Мы не считаем
возможным противопоставлять
В простейшей ситуации
статистические данные – это значения
некоторого признака, свойственного
изучаемым объектам. Значения могут
быть количественными или
При измерении
по нескольким количественным или качественным
признакам в качестве статистических
данных об объекте получаем вектор.
Его можно рассматривать как новый
вид данных. В таком случае выборка состоит
из набора векторов. Есть часть координат
– числа, а часть – качественные (категоризованные)
данные, то говорим о векторе разнотипных
данных.
Одним элементом
выборки, т.е. одним измерением, может
быть и функция в целом. Например, описывающая
динамику показателя, т.е. его изменение
во времени, - электрокардиограмма больного
или амплитуда биений вала двигателя.
Или временной ряд, описывающий динамику
показателей определенной фирмы. Тогда
выборка состоит из набора функций.
Элементами выборки
могут быть и иные математические
объекты. Например, бинарные отношения.
Так, при опросах экспертов часто
используют упорядочения (ранжировки)
объектов экспертизы – образцов продукции,
инвестиционных проектов, вариантов
управленческих решений. В зависимости
от регламента экспертного исследования
элементами выборки могут быть различные
виды бинарных отношений (упорядочения,
разбиения, толерантности), множества,
нечеткие множества и т.д.
Итак, математическая
природа элементов выборки в различных
задачах прикладной статистики может
быть самой разной. Однако можно выделить
два класса статистических данных – числовые
и нечисловые. Соответственно прикладная
статистика разбивается на две части –
числовую статистику и нечисловую статистику.
Числовые статистические
данные – это числа, вектора, функции.
Их можно складывать, умножать на коэффициенты.
Поэтому в числовой статистике большое
значение имеют разнообразные суммы.
Математический аппарат анализа
сумм случайных элементов выборки
– это (классические) законы больших чисел
и центральные предельные теоремы.
Нечисловые статистические
данные – это категоризованные данные,
вектора разнотипных признаков,
бинарные отношения, множества, нечеткие
множества и др. Их нельзя складывать
и умножать на коэффициенты. Поэтому
не имеет смысла говорить о суммах нечисловых
статистических данных. Они являются элементами
нечисловых математических пространств
(множеств). Математический аппарат анализа
нечисловых статистических данных основан
на использовании расстояний между элементами
(а также мер близости, показателей различия)
в таких пространствах. С помощью расстояний
определяются эмпирические и теоретические
средние, доказываются законы больших
чисел, строятся непараметрические оценки
плотности распределения вероятностей,
решаются задачи диагностики и кластерного
анализа, и т.д. (см. [2]).
В прикладных исследованиях
используют статистические данные различных
видов. Это связано, в частности,
со способами их получения. Например,
если испытания некоторых технических
устройств продолжаются до определенного
момента времени, то получаем т.н. цензурированные
данные, состоящие из набора чисел – продолжительности
работы ряда устройств до отказа, и информации
о том, что остальные устройства продолжали
работать в момент окончания испытания.
Цензурированные данные часто используются
при оценке и контроле надежности технических
устройств.
Обычно отдельно
рассматривают статистические методы
анализа данных первых трех типов. Это
ограничение вызвано тем
Вероятностно-статистическое
моделирование
При применении
статистических методов в конкретных
областях знаний и отраслях народного
хозяйства получаем научно-практические
дисциплины типа "статистические методы
в промышленности", "статистические
методы в медицине" и др. С этой точки
зрения эконометрика - это "статистические
методы в экономике" [4]. Эти дисциплины
группы б) обычно опираются на вероятностно-статистические
модели, построенные в соответствии с
особенностями области применения. Весьма
поучительно сопоставить вероятностно-статистические
модели, применяемые в различных областях,
обнаружить их близость и вместе с тем
констатировать некоторые различия. Так,
видна близость постановок задач и применяемых
для их решения статистических методов
в таких областях, как научные медицинские
исследования, конкретные социологические
исследования и маркетинговые исследования,
или, короче, в медицине, социологии и маркетинге.
Они часто объединяются вместе под названием
«выборочные исследования».
Отличие выборочных
исследований от экспертных проявляется,
прежде всего, в числе обследованных
объектов или субъектов – в выборочных
исследованиях речь обычно идет о сотнях,
а в экспертных – о десятках. Зато технологии
экспертных исследований гораздо изощреннее.
Еще более выражена специфика в демографических
или логистических моделях, при обработке
нарративной (текстовой, летописной) информации
или при изучении взаимовлияния факторов.
Ряд иных полезных моделей рассмотрен
в [5-7].
Вопросы надежности
и безопасности технических устройств
и технологий, теории массового обслуживания
подробно рассмотрены, например, в ставших
классическими монографиях [8-10].
Статистический
анализ конкретных данных
Применение статистических
методов и моделей для
Например, результаты
опроса потребителей растворимого кофе
естественно отнести к маркетингу (что
и делают, читая лекции по маркетинговым
исследованиям). Исследование динамики
роста цен с помощью индексов инфляции,
рассчитанных по независимо собранной
информации, представляет интерес прежде
всего с точки зрения экономики и управления
народным хозяйством (как на макроуровне,
так и на уровне отдельных организаций).
Заказчики прикладных
исследований получают отчеты, в которых
проблемы соответствующих областей
деятельности рассмотрены подробно.
Примером такого отчета является монография
[5], посвященная подходам к проблеме вероятностно-статистического
моделирования процессов налогообложения.
О
высоких статистических
технологиях
Термин "высокие
технологии" популярен в современной
научно-технической литературе. Он
используется для обозначения наиболее
передовых технологий, опирающихся на
последние достижения научно-технического
прогресса. Есть такие технологии и среди
технологий статистического анализа данных
- как в любой интенсивно развивающейся
научно-практической области. Они подробно
обсуждаются в настоящем учебнике. Их
роль подчеркнута тем, что термин «высокие
статистические технологии» вынесен в
название учебника.
Обсудим этот пока
не вполне привычный термин (он был
введен в статье [11], опубликованной
в 2003 г.). Каждое из трех слов несет свою
смысловую нагрузку.
"Высокие",
как и в других областях, означает,
что статистическая технология
опирается на современные
Термин "статистические"
привычен. Статистические данные – это
результаты измерений, наблюдений, испытаний,
анализов, опытов, а "статистические
технологии" - это технологии анализа
статистических данных.