Методы многомерного статистического анализа

Автор работы: Пользователь скрыл имя, 02 Октября 2011 в 22:08, реферат

Краткое описание

Изучение социальных процессов ограничиваться методами пассивного эксперимента. При анкетировании, интервьюировании, тестировании он ограничивается регистрацией ответов-реакций на предложенные вопросы-признаки, которые, как предполагается, являются отражением скрытых социальных характеристик эмпирически наблюдаемого явления. В следствии этого, необходимым этапом в познании и понимании сущности социальных явлений является выявление этих латентных объясняющих характеристик (факторов, признаков) и их содержательная интерпретация.

Содержимое работы - 1 файл

Mnogomernij stat analis.doc

— 120.00 Кб (Скачать файл)

облимин, являющийся результатом объединения двух предыдущих критериев.

    2. Методы, основанные  на использовании  первичной матрицы  факторного отображения.

  • прямой метод облимин (позволяет задать параметр α, большие значения которого соответствуют «наиболее» косоугольным решениям, а меньшие отрицательные значения — «наиболее» ортогональным решениям. В наиболее простом случае однофакторной модели следует положить α = 0).

 

9. Модели многомерной  классификации в  социологии.

      Классификация рассматриваемой совокупности объектов по отдельным значениям признаков и их комбинациям – распространенная процедура анализа данных в социологическом исследовании. Как правило, цель классификации – выделение типов объектов по некоторым значимым характеристикам.

      Многомерная классификация объектов служит эффективным  средством установления взаимосвязей между признаками. Сложность социальных явлений требует их многофакторного объяснения. Так, алгоритм классификации объектов одновременно по ряду признаков заложен в методах кластерного анализа. Получаемые при этом группы при достаточно многочисленны и часто хорошо интерпретируются как некоторые содержательно значимые типы объектов.

      Методы  кластерного анализа позволяют  разделить совокупность объектов на однородные группы таким образом, что различия между объектами одной группы оказываются значительно меньшими, чем между объектами разных групп. 

10. Возможности использования  моделей кластерного  анализа.

     Выбор процедур кластерного анализа в  значительной степени зависит от выдвигаемых исследователем предположений относительно неоднородного расположения объектов в признаковом пространстве.

      Можно выделить три основных гипотезы относительно свойств выделяемых кластеров:

  1. Гипотеза “компактности”. Расположение точек в признаковом пространстве характеризуется наличием компактных групп. При этом компактность понимается как близость точек, входящих в состав одного класса, к некоторому  типичному представителю (эталону, профилю) класса (кластера).

    Такого  рода классификационные критерии применяются в тех случаях, когда имеются некоторые основания предполагать, что эталоны различных классов достаточно удалены друг от друга в признаковом пространстве, а объекты, принадлежащие одному кластеру, распределены относительно равномерно вокруг своих эталонов. Кроме того, предполагается, что расстояние между объектами одного кластера и талоном меньше, чем расстояние между этими же объектами и эталонами других кластеров. Как правило, в таких случаях компактные группы объектов можно заключить в сферические или эллиптические  гиперповерхности.

    При этом, в качестве эталона кластера обычно берется точка признакового пространства, координаты которой представляют собой усреднение значений признаков  объектов, образующих данный кластер.

  1. Гипотеза “связности” (“непрерывности”). В практике часто встречаются случаи, когда характерным признаком существующих кластеров выступают близость объектов одного класса друг к другу и одновременная изолированность отдельных классов. Другими словами, необходимым признаком реальности кластеров считается наличие отчетливого разрыва в системе признаков. При этом в результирующем разбиении объектов расстояние между кластерами должно быть не меньше некоторого заранее заданного порога.

    Кластеры, полученные в результате применения алгоритмов, соответствующих гипотезе “связности”, как правило, имеют более сложную форму по сравнению с кластерами, полученными методами, опирающимися на гипотезу “компактности”.

  1. Гипотеза “унимодального распределения”. При анализе данных нередко встречаются ситуации, когда на относительно “хорошие” и выделяемые кластеры накладывается так называемый статистический “шум”. В подобных случаях приведенные выше алгоритмы могут не давать приемлемых результатов – алгоритмы, отвечающие гипотезе “компактности”, много малочисленных кластеров, а алгоритмы, соответствующие гипотезе “связности”, объединяют в один кластер различные группы, соединенные цепочкой объектов, создающих статистический шум.

      Методы  кластеризации могут быть разделены  на иерархические и неиерархические. Иерархическая кластеризация характеризуется построением иерархической, или древовидной, структуры.

      Иерархические методы кластеризации, в свою очередь, могут быть агломеративными (объединительными) и дивизивными (разделяющими). При использовании агломеративных алгоритмов на каждом шаге классификации число кластеров на единицу уменьшается, объединяются два ближайших кластера, при использовании дивизимных — на единицу увеличивается, один из кластеров разбивается на два в наибольшей степени удаленных друг от друга кластеров.

     В социологических исследованиях  в основном применяются иерархические  агломеративные алгоритмы. На первом шаге в их применении каждый объект принимается  за отдельный кластер. Алгоритмы  различаются между собой главным  образом критериями, используемыми при объединении кластеров на каждом последующем шаге классификации, например:

  • Ближайшего соседа. Дистанция между двумя кластерами определяется как расстояние между парой значений случаев, расположенных друг к другу ближе всего, причем каждый случай берется из своего кластера.
  • Дальнего соседа. Дистанция между двумя кластерами определяется как расстояние между самыми удаленными друг от друга значениями случаев, каждый случай берется из своего кластера.
  • Метод Варда, в котором кластеры формируются таким образом, чтобы минимизировать квадраты евклидовых расстояний до величины кластерных средних. Данный метод построен таким образом, чтобы оптимизировать минимальную дисперсию внутри кластеров.
  • Центроидный метод,, в котором расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных).

      Неиерархические методы кластеризации (метод  k-средних) вначале определяют центр кластера, а затем группируют все объекты в пределах заданного от центра порогового значения.

      Ограничения применения методов  кластерного анализа

      Говоря  о методах кластерного анализа  нельзя не отметить ряд характерных  особенностей, накладывающих определенные ограничения на применение методов  кластеризации:

    1. Большинство методов кластерного анализа, являются эвристическими методами, и как правило, не имеют достаточного статистического обоснования, что делает их результаты в значительной степени субъективными. Данный факт не означает, что методы кластерного анализа не применимы при решении задач прикладных исследований, однако необходимо иметь ввиду, что получаемые в процессе кластеризации группы совсем не обязательно существуют на эмпирическом уровне.
    2. Разные методы кластеризации могут порождать различные решения для одних и тех же данных. Данная проблема является характерной чертой прикладных исследований, в связи с чем возникает вопрос о проверке существования выделенных кластеров на эмпирическом уровне.
    3. Основной целью кластерного анализа является поиск существующих структур в анализируемых данных. В то же время методы кластерного анализа широко используются для привнесения структуры в анализируемые данные. Хотя цель кластеризации и заключается в нахождении структуры, на практике кластерный анализ позволяет привнести структуру в данные и, как уже отмечалось выше, эта структура может не совпадать с искомой структурой, существующей в реальности.

      Таким образом, использование методов  кластерного анализа требует  пристального внимания со стороны исследователя  к изучаемой структуре и отчетливого понимания субъективности получаемых результатов и необходимости их эмпирической проверки.

      Для оценки надежности результатов кластерного  анализа всегда желательно использовать несколько алгоритмов на одном и  том же массиве данных. Получение  совпадающих или весьма близких разделений совокупности на кластеры — важное свидетельство надежности, объективности полученной структуры совокупности вне зависимости от специфики каждого из алгоритмов.

      Проведение  кластерного анализа особенно плодотворно  в рамках комплексных методик, предусматривающих последовательное применение ряда математико-статистических методов. 

11. Проблемы выбора  расстояния и формы  кластера.

     При проведении кластерного анализа  обычно определяют расстояние на множестве  объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и расстояний между объектами существует великое множество. Их выбирают в зависимости от цели исследования.

     В том случае, когда признаки классификации  количественные, наиболее часто используется евклидово расстояние: . При использовании евклидова расстояния неявно подразумевается равнозначность признаков. Для учета различной значимости признаков по отношению к изучаемому явлению может быть применено взвешенное евклидово расстояние: , где вес характеризует значимость (относительный вес) признака.

      Выбор меры близости определяется тем, насколько  удачно эта мера формализует представление  о близости между объектами в содержательном отношении.

     В качестве меры различия в ряде случаев  можно использовать сумму модулей разностей между значениями признаков (в пакете SPSS называется Блок): .

    Можно определить и другие метрики, но большинство  из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формуле

      Косинус - как и для корреляционных коэффициентов Пирсона, область значений от -1 до +1.

      Для порядковых признаков (различные оценки в баллах, результаты ранжирования) могут быть применены уже приведенные  нами показатели близости. При использовании показателей близости для количественных признаков в этом случае неявно будет предполагаться, что различия между соседними значениями по порядковому признаку равны. В применении показателей близости для номинальных признаков будет теряться информация об упорядоченности объектов. Результаты классификации вместе с тем могут быть вполне интерпретируемыми и иметь практическое значение.

      Для порядковых признаков используются и специальные показатели, аналогичные коэффициентам статистической взаимосвязи: rs — Спирмена и — Кендалла.

      Несмотря  на важность евклидовой и других метрик, они имеют серьезные недостатки, из которых наиболее важный состоит  в том, что оценка сходства сильно зависит от различий в сдвигах данных. Переменные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями. Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию. Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния нормируют переменные к единичной дисперсии и нулевому среднему.

      Важным  этапом кластерного анализа является определение количества кластеров. Здесь не существует твердых устоявшихся  правил, однако при определении количества кластеров можно пользоваться следующим.

  1. При определении количества кластеров можно руководствоваться теоретическими или практическими предпосылками.
  2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры.
  3. Относительные размеры кластеров должны быть достаточно большими и весомыми. Так если в n-ый кластер попадает всего 1% респондентов, то вряд ли это можно считать хорошим решением, и разумно уменьшить количество выделяемых кластеров.

Информация о работе Методы многомерного статистического анализа