Автор работы: Пользователь скрыл имя, 02 Октября 2011 в 22:08, реферат
Изучение социальных процессов ограничиваться методами пассивного эксперимента. При анкетировании, интервьюировании, тестировании он ограничивается регистрацией ответов-реакций на предложенные вопросы-признаки, которые, как предполагается, являются отражением скрытых социальных характеристик эмпирически наблюдаемого явления. В следствии этого, необходимым этапом в познании и понимании сущности социальных явлений является выявление этих латентных объясняющих характеристик (факторов, признаков) и их содержательная интерпретация.
облимин, являющийся результатом объединения двух предыдущих критериев.
2. Методы, основанные на использовании первичной матрицы факторного отображения.
9. Модели многомерной классификации в социологии.
Классификация рассматриваемой совокупности объектов по отдельным значениям признаков и их комбинациям – распространенная процедура анализа данных в социологическом исследовании. Как правило, цель классификации – выделение типов объектов по некоторым значимым характеристикам.
Многомерная классификация объектов служит эффективным средством установления взаимосвязей между признаками. Сложность социальных явлений требует их многофакторного объяснения. Так, алгоритм классификации объектов одновременно по ряду признаков заложен в методах кластерного анализа. Получаемые при этом группы при достаточно многочисленны и часто хорошо интерпретируются как некоторые содержательно значимые типы объектов.
Методы
кластерного анализа позволяют
разделить совокупность объектов на
однородные группы таким образом, что
различия между объектами одной группы
оказываются значительно меньшими, чем
между объектами разных групп.
10. Возможности использования моделей кластерного анализа.
Выбор процедур кластерного анализа в значительной степени зависит от выдвигаемых исследователем предположений относительно неоднородного расположения объектов в признаковом пространстве.
Можно выделить три основных гипотезы относительно свойств выделяемых кластеров:
Такого рода классификационные критерии применяются в тех случаях, когда имеются некоторые основания предполагать, что эталоны различных классов достаточно удалены друг от друга в признаковом пространстве, а объекты, принадлежащие одному кластеру, распределены относительно равномерно вокруг своих эталонов. Кроме того, предполагается, что расстояние между объектами одного кластера и талоном меньше, чем расстояние между этими же объектами и эталонами других кластеров. Как правило, в таких случаях компактные группы объектов можно заключить в сферические или эллиптические гиперповерхности.
При этом, в качестве эталона кластера обычно берется точка признакового пространства, координаты которой представляют собой усреднение значений признаков объектов, образующих данный кластер.
Кластеры, полученные в результате применения алгоритмов, соответствующих гипотезе “связности”, как правило, имеют более сложную форму по сравнению с кластерами, полученными методами, опирающимися на гипотезу “компактности”.
Методы кластеризации могут быть разделены на иерархические и неиерархические. Иерархическая кластеризация характеризуется построением иерархической, или древовидной, структуры.
Иерархические методы кластеризации, в свою очередь, могут быть агломеративными (объединительными) и дивизивными (разделяющими). При использовании агломеративных алгоритмов на каждом шаге классификации число кластеров на единицу уменьшается, объединяются два ближайших кластера, при использовании дивизимных — на единицу увеличивается, один из кластеров разбивается на два в наибольшей степени удаленных друг от друга кластеров.
В
социологических исследованиях
в основном применяются иерархические
агломеративные алгоритмы. На первом шаге
в их применении каждый объект принимается
за отдельный кластер. Алгоритмы
различаются между собой
Неиерархические методы кластеризации (метод k-средних) вначале определяют центр кластера, а затем группируют все объекты в пределах заданного от центра порогового значения.
Говоря о методах кластерного анализа нельзя не отметить ряд характерных особенностей, накладывающих определенные ограничения на применение методов кластеризации:
Таким
образом, использование методов
кластерного анализа требует
пристального внимания со стороны исследователя
к изучаемой структуре и
Для оценки надежности результатов кластерного анализа всегда желательно использовать несколько алгоритмов на одном и том же массиве данных. Получение совпадающих или весьма близких разделений совокупности на кластеры — важное свидетельство надежности, объективности полученной структуры совокупности вне зависимости от специфики каждого из алгоритмов.
Проведение
кластерного анализа особенно плодотворно
в рамках комплексных методик, предусматривающих
последовательное применение ряда математико-статистических
методов.
11. Проблемы выбора расстояния и формы кластера.
При проведении кластерного анализа обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и расстояний между объектами существует великое множество. Их выбирают в зависимости от цели исследования.
В том случае, когда признаки классификации количественные, наиболее часто используется евклидово расстояние: . При использовании евклидова расстояния неявно подразумевается равнозначность признаков. Для учета различной значимости признаков по отношению к изучаемому явлению может быть применено взвешенное евклидово расстояние: , где вес характеризует значимость (относительный вес) признака.
Выбор меры близости определяется тем, насколько удачно эта мера формализует представление о близости между объектами в содержательном отношении.
В качестве меры различия в ряде случаев можно использовать сумму модулей разностей между значениями признаков (в пакете SPSS называется Блок): .
Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формуле
Косинус - как и для корреляционных коэффициентов Пирсона, область значений от -1 до +1.
Для порядковых признаков (различные оценки в баллах, результаты ранжирования) могут быть применены уже приведенные нами показатели близости. При использовании показателей близости для количественных признаков в этом случае неявно будет предполагаться, что различия между соседними значениями по порядковому признаку равны. В применении показателей близости для номинальных признаков будет теряться информация об упорядоченности объектов. Результаты классификации вместе с тем могут быть вполне интерпретируемыми и иметь практическое значение.
Для порядковых признаков используются и специальные показатели, аналогичные коэффициентам статистической взаимосвязи: rs — Спирмена и — Кендалла.
Несмотря
на важность евклидовой и других метрик,
они имеют серьезные
Важным этапом кластерного анализа является определение количества кластеров. Здесь не существует твердых устоявшихся правил, однако при определении количества кластеров можно пользоваться следующим.
Информация о работе Методы многомерного статистического анализа