Факторный анализ

Автор работы: Пользователь скрыл имя, 20 Октября 2011 в 21:06, реферат

Краткое описание

Факторный анализ, раздел статистического анализа многомерного,. объединяющий методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц. Основное предположение Ф. а. заключается в том, что корреляционные связи между большим числом наблюдаемых переменных определяются существованием меньшего числа гипотетических ненаблюдаемых переменных или факторов. В терминах случайных величин – результатов наблюдений X1,..., Xn общей моделью Ф. а. служит следующая линейная модель:

Содержимое работы - 1 файл

Документ Microsoft Word.docx

— 32.04 Кб (Скачать файл)

Факторный анализ, раздел статистического анализа многомерного,. объединяющий методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц. Основное предположение Ф. а. заключается в том, что корреляционные связи между большим числом наблюдаемых переменных определяются существованием меньшего числа гипотетических ненаблюдаемых переменных или факторов. В терминах случайных величин – результатов наблюдений X1,..., Xобщей моделью Ф. а. служит следующая линейная модель:

  (*),

 ,

где случайные величины fсуть общие факторы, случайные величины Uсуть факторы, специфические для величин Xiи не коррелированные с fjа ei; суть случайные ошибки. Предполагается, что k < n задано, случайные величины eiнезависимы между собой и с величинами fи Uи имеют Еe= 0, De= s2i. Постоянные коэффициенты aij называются факторными нагрузками (нагрузка i-й переменной на j-й фактор). Значения aij, biи s2считаются неизвестными параметрами, подлежащими оценке. В указанной форме модель Ф. а. отличается некоторой неопределённостью, т.к. nпеременных выражаются здесь через других переменных. Однако уравнения (*) заключают в себе гипотезу о ковариационной матрице, которую можно проверить. Например, если факторы fнекоррелированы и cij – элементы матрицы ковариаций между величинами Xi, то из уравнений (*) следует выражение для cij через факторные нагрузки и дисперсии ошибок:

   .

Т. о., общая модель Ф. а. равносильна гипотезе о ковариационной матрице, а именно о том, что ковариационная матрица представляется в виде суммы матрицы А = {aij} и диагональной матрицы L с 2 элементами s2i.

Процедура оценивания в Ф. а. состоит из двух этапов: оценки факторной структуры – числа  факторов, необходимого для объяснения корреляционной связи между величинами Xiи факторной нагрузки, а затем оценки самих факторов по результатам наблюдения. Принципиальные трудности при интерпретации набора факторов состоят в том, что при > 1 ни факторные нагрузки, ни сами факторы не определяются однозначно, т.к. в уравнении (*) факторы fмогут быть заменены любым ортогональным преобразованием. Это свойство модели используется в целях преобразования (вращения) факторов, которое выбирается так, чтобы наблюдаемые величины имели бы максимально возможные нагрузки на один фактор и минимальные нагрузки на остальные факторы. Существуют различные практические способы оценки факторных нагрузок, имеющие смысл в предположении, что Xi,..., Xn подчиняются многомерному нормальному распределению с ковариационной матрицей С = {сij}.Выделяется максимального правдоподобия метод, который приводит к единственным оценкам для cijно для оценок aij даёт уравнения, которым удовлетворяет бесчисленное множество решений, одинаково хороших по статистическим свойствам.

Ф. а. возник и первоначально  разрабатывался в задачах психологии (1904). Область его приложения значительно  шире – Ф. а. находит применение при  решении различных практических задач в медицине, экономике, химии  и т.д. Однако многие результаты и методы Ф. а. пока ещё не обоснованы, хотя практики ими широко пользуются. Математическое строгое описание современного Ф. а. – задача весьма трудная и до сих пор в полной мере не решенная.

Задачи и условия  факторного анализа

Факторный анализ позволяет  решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они  сходны между собой и имеют  высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить  наблюдаемое сходство полученных оценок. Такую латентную переменную называютфактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка.

Таким образом можно выделить 2 цели Факторного анализа:

  • определение взаимосвязей между переменными, их классификация, т. е. «объективная R-классификация»[1][2];
  • сокращение числа переменных.

Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит  в замене коррелированных компонентов  некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа[1][3].

Факторный анализ может  быть 1) разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках; и 2)конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках (примечание 2). Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

  • Все признаки должны быть количественными.
  • Число признаков должно быть в два раза больше числа переменных.
  • Выборка должна быть однородна.
  • Исходные переменные должны быть распределены симметрично.
  • Факторный анализ осуществляется по коррелирующим переменным[3].

При анализе в один фактор объединяются сильно коррелирующие  между собой переменные, как следствие  происходит перераспределение дисперсии  между компонентами и получается максимально простая и наглядная  структура факторов. После объединения  коррелированность компонент внутри каждого фактора между собой  будет выше, чем их коррелированность  с компонентами из других факторов. Эта процедура также позволяет  выделить латентные переменные, что  бывает особенно важно при анализе  социальных представлений и ценностей.

Процедура вращения. Выделение и интерпретация факторов

Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения  дисперсии по определённому методу. Вращение бывает ортогональным икосоугольным. При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид — это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Однако если цель ортогональных вращений — определение простой структуры факторных нагрузок, то целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, один косоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности[1][3][2].

Главной проблемой  факторного анализа является выделение  и интерпретация главных факторов. При отборе компонент исследователь  обычно сталкивается с существенными  трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Существует несколько часто употребляемых  критериев определения числа  факторов. Некоторые из них являются альтернативными по отношению к  другим, а часть этих критериев  можно использовать вместе, чтобы  один дополнял другой:

  • Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается[1].
  • Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона[1]. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещё несколько критериев.
  • Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия[1].
  • Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить[1]. Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50,1 % дисперсии.
  • Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться[1][3].

Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует  о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии — результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, — однофакторное распределение. Последнее возможно, например, когда на предмет наличия определённого свойства проверяются несколько социальных групп, однако искомое свойство есть только у одной из них.

Факторы имеют две  характеристики: объём объясняемой  дисперсии и нагрузки. Если рассматривать  их с точки зрения геометрической аналогии, то касательно первой отметим, что фактор, лежащий вдоль оси  ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор), фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор). То есть в идеальной ситуации вся дисперсия может быть объяснена двумя главными факторами с указанными долями[4]. В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости. Нагрузки, опять же с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции — это коэффициенты корреляции, точки — наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0,7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности — наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах[1].

Информация о работе Факторный анализ