Автор работы: Пользователь скрыл имя, 17 Ноября 2011 в 10:32, курсовая работа
При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.
Введение
1. Задача кластерного анализа.
2. Методы кластерного анализа.
3. Алгоритм последовательной кластеризации.
4. Число кластеров.
5. Дендограммы.
6. Применение кластерного анализа.
Заключение
Содержание
Введение
1. Задача кластерного анализа.
2. Методы кластерного анализа.
3. Алгоритм последовательной кластеризации.
4. Число кластеров.
5. Дендограммы.
6. Применение кластерного анализа.
Заключение
Введение
в кластерный анализ.
При
анализе и прогнозировании
Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.
Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.
Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.
Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster – гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.
Большое
достоинство кластерного
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.
Важное
значение кластерный анализ имеет применительно
к совокупностям временных
Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.
В
задачах социально-экономического
прогнозирования весьма перспективно
сочетание кластерного анализа
с другими количественными
Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.
В кластерном анализе считается, что:
а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;
б) единицы измерения (масштаб) выбраны правильно.
Выбор
масштаба играет большую роль. Как
правило, данные нормализуют вычитанием
среднего и делением на стандартное отклоненение,
так что дисперсия оказывается равной
единице.
Задача
кластерного анализа
Например, пусть G включает n стран, любая из которых характеризуется ВНП на душу населения (F1), числом М автомашин на 1 тысячу человек (F2), душевым потреблением электроэнергии (F3), душевым потреблением стали (F4) и т.д. Тогда Х1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х2 - для второй, Х3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.
Решением
задачи кластерного анализа являются
разбиения, удовлетворяющие некоторому
критерию оптимальности. Этот критерий
может представлять собой некоторый
функционал, выражающий уровни желательности
различных разбиений и
где xj - представляет собой измерения j-го объекта.
Для решения задачи кластерного анализа необходимо определить понятие сходства и разнородности.
Понятно то, что объекты i-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Хi и Хj было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между Хi и Хj из Ер, где Ер - р-мерное евклидово пространство. Неотрицательная функция d(Хi , Хj) называется функцией расстояния (метрикой), если:
а) d(Хi , Хj) ³ 0, для всех Хi и Хj из Ер
б) d(Хi, Хj) = 0, тогда и только тогда, когда Хi = Хj
в) d(Хi, Хj) = d(Хj, Хi)
г) d(Хi, Хj) £ d(Хi, Хk) + d(Хk, Хj), где Хj; Хi и Хk - любые три вектора из Ер.
Значение d(Хi, Хj) для Хi и Хj называется расстоянием между Хi и Хj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам (F1, F2, F3, ..., Fр).
Наиболее часто употребляются следующие функции расстояний:
1. Евклидово расстояние d2(Хi , Хj) =
2. l1 - норма
3. Сюпремум
- норма
d¥ (Хi , Хj) = sup
k 1, 2, ..., р
4. lp - норма
Евклидова метрика является наиболее популярной. Метрика l1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а lp - норма охватывает функции расстояний 1, 2, 3,.
Пусть
n измерений Х1, Х2,..., Хn представлены
в виде матрицы данных размером p
´ n:
Тогда расстояние между парами векторов d(Хi , Хj) могут быть представлены в виде симметричной матрицы расстояний:
Понятием,
противоположным расстоянию, является
понятие сходства между объектами
Gi. и Gj. Неотрицательная вещественная
функция S(Хi ; Хj) = Sij называется мерой
сходства, если :
1) 0£ S(Хi
, Хj)<1 для Хi ¹ Хj
2) S(Хi ,
Хi) = 1
3) S(Хi ,
Хj) = S(Хj , Хi)
Пары значений мер сходства можно объединить в матрицу сходства:
Величину
Sij называют коэффициентом сходства.
2.Методы
кластерного анализа.
Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).
Пусть
Х - матрица наблюдений: Х = (Х1, Х2,..., Хu)
и квадрат евклидова расстояния
между Хi и Хj определяется по формуле:
1) Метод полных связей.
Суть
данного метода в том, что два
объекта, принадлежащих одной и
той же группе (кластеру), имеют коэффициент
сходства, который меньше некоторого
порогового значения S. В терминах евклидова
расстояния d это означает, что расстояние
между двумя точками (объектами) кластера
не должно превышать некоторого порогового
значения h. Таким образом, h определяет
максимально допустимый диаметр подмножества,
образующего кластер.
2) Метод максимального локального расстояния.
Каждый
объект рассматривается как одноточечный
кластер. Объекты группируются по следующему
правилу: два кластера объединяются, если
максимальное расстояние между точками
одного кластера и точками другого минимально.
Процедура состоит из n - 1 шагов и результатом
являются разбиения, которые совпадают
со всевозможными разбиениями в предыдущем
методе для любых пороговых значений.
3) Метод Ворда.
В этом
методе в качестве целевой функции
применяют внутригрупповую
4) Центроидный метод.
Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:
d2 ij
= (`X –`Y)Т(`X –`Y) Кластеризация идет
поэтапно на каждом из n–1 шагов объединяют
два кластера G и p, имеющие минимальное
значение d2ij Если n1 много больше n2,
то центры объединения двух кластеров
близки друг к другу и характеристики
второго кластера при объединении кластеров
практически игнорируются. Иногда этот
метод иногда называют еще методом взвешенных
групп.
3.
Алгоритм последовательной
кластеризации.
Рассмотрим Ι = (Ι1, Ι2, … Ιn) как множество кластеров {Ι1}, {Ι2},…{Ιn}. Выберем два из них, например, Ι i и Ι j, которые в некотором смысле более близки друг к другу и объединим их в один кластер. Новое множество кластеров, состоящее уже из n-1 кластеров, будет: