Автор работы: Пользователь скрыл имя, 25 Февраля 2012 в 13:49, курсовая работа
При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.
Вступление 5
1 Кластерный анализ. Общие сведения 7
1.1 Основные понятия 7
2 Задача кластерного анализа 10
3 Методы кластерного анализа 13
3.1 Алгоритм последовательной кластеризации 14
4 Число кластеров 17
5 Дендрограммы 19
6 Применение к интервальным данным, частотам и бинарным данным 20
7 Решение задач с помощью кластерного анализа 23
Выводы 30
Перечень ссылок 31
2. Деление стран по критерию близости культуры.
Как известно маркетинг должен учитывать культуру стран (обычаи, традиции, и т.д.).
Посредством кластеризации были получены следующие группы стран:
арабские;
ближневосточные;
скандинавские;
германоязычные;
англоязычные;
романские европейские;
латиноамериканские;
дальневосточные.
3. Разработка прогноза конъюнктуры рынка цинка.
Кластерный анализ играет важную роль на этапе редукции экономико-математической модели товарной конъюнктуры, способствуя облегчению и упрощению вычислительных процедур, обеспечению большей компактности получаемых результатов при одновременном сохранении необходимой точности. Применение кластерного анализа дает возможность разбить всю исходную совокупность показателей конъюнктуры на группы (кластеры) по соответствующим критериям, облегчая тем самым выбор наиболее репрезентативных показателей.
Кластерный анализ широко используется для моделирования рыночной конъюнктуры. Практически основное большинство задач прогнозирования опирается на использование кластерного анализа.
Например, задача разработки прогноза конъюнктуры рынка цинка.
Первоначально было отобрано 30 основных показателей мирового рынка цинка:
Х1 - время
Показатели производства:
Х2 - в мире
Х3 - США
Х4 - Европе
Х5 - Канаде
Х6 - Японии
Х7 - Австралии
Показатели потребления:
Х8 - в мире
Х9 - США
Х10 - Европе
Х11 - Канаде
Х12 - Японии
Х13 - Австралии
Запасы цинка у производителей:
Х14 - в мире
Х15 - США
Х16 - Европе
Х17 - других странах
Запасы цинка у потребителей:
Х18 - в США
Х19 - в Англии
Х10 - в Японии
Импорт цинковых руд и концентратов (тыс. тонн)
Х21 - в США
Х22 - в Японии
Х23 - в ФРГ
Экспорт цинковых руд и концентратов (тыс. тонн)
Х24 - из Канады
Х25 - из Австралии
Импорт цинка (тыс. тонн)
Х26 - в США
Х27 - в Англию
Х28 - в ФРГ
Экспорт цинка (тыс. Тонн)
Х29 - из Канады
Х30 - из Австралии
Для определения конкретных зависимостей был использован аппарат корреляционно-регрессионного анализа. Анализ связей производился на основе матрицы парных коэффициентов корреляции. Здесь принималась гипотеза о нормальном распределении анализируемых показателей конъюнктуры. Ясно, что rij являются не единственно возможным показателем связи используемых показателей. Необходимость использования кластерного анализа связано в этой задаче с тем, что число показателей влияющих на цену цинка очень велико. Возникает необходимость их сократить по целому ряду следующих причин:
а) отсутствие полных статистических данных по всем переменным;
б) резкое усложнение вычислительных процедур при введении в модель большого числа переменных;
в) оптимальное использование методов регрессионного анализа требует превышения числа наблюдаемых значений над числом переменных не менее, чем в 6-8 раз;
г) стремление к использованию в модели статистически независимых переменных и пр.
Проводить такой анализ непосредственно на сравнительно громоздкой матрице коэффициентов корреляции весьма затруднительно. С помощью кластерного анализа всю совокупность конъюнктурных переменных можно разбить на группы таким образом, чтобы элементы каждого кластера сильно коррелировали между собой, а представители разных групп характеризовались слабой коррелированностью.
Для решения этой задачи был применен один из агломеративных иерархических алгоритмов кластерного анализа. На каждом шаге число кластеров уменьшается на один за счет оптимального, в определенном смысле, объединения двух групп. Критерием объединения является изменение соответствующей функции. В качестве функции такой были использованы значения сумм квадратов отклонений вычисляемые по следующим формулам:
(j = 1, 2, …, m),
где j - номер кластера, n - число элементов в кластере.
rij - коэффициент парной корреляции.
Таким образом, процессу группировки должно соответствовать последовательное минимальное возрастание значения критерия E.
На первом этапе первоначальный массив данных представляется в виде множества, состоящего из кластеров, включающих в себя по одному элементу. Процесс группировки начинается с объединения такой пары кластеров, которое приводит к минимальному возрастанию суммы квадратов отклонений. Это требует оценки значений суммы квадратов отклонений для каждого из возможных объединений кластеров. На следующем этапе рассматриваются значения сумм квадратов отклонений уже для кластеров и т.д. Этот процесс будет остановлен на некотором шаге. Для этого нужно следить за величиной суммы квадратов отклонений. Рассматривая последовательность возрастающих величин, можно уловить скачок (один или несколько) в ее динамике, который можно интерпретировать как характеристику числа групп “объективно” существующих в исследуемой совокупности. В приведенном примере скачки имели место при числе кластеров равном 7 и 5. Далее снижать число групп не следует, т.к. это приводит к снижению качества модели. После получения кластеров происходит выбор переменных наиболее важных в экономическом смысле и наиболее тесно связанных с выбранным критерием конъюнктуры - в данном случае с котировками Лондонской биржи металлов на цинк. Этот подход позволяет сохранить значительную часть информации, содержащейся в первоначальном наборе исходных показателей конъюнктуры.
ВЫВОДЫ
Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.
Изучив подробно кластерный анализ можно говорить о его недостатках и преимуществах. Например, большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов. А недостаток: состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.
ПЕРЕЧЕНЬ ССЫЛОК
1 Википедия Кластеризация– http://ru.wikipedia.org/wiki/
2 Кластерный анализ в задачах социально-экономического прогнозиро-вания – http://www.dea-analysis.ru/
3 Задача о разбиении на группы: кластерный анализ – http://www.masters.donntu.edu.
4 Центр Статистических Технологий
Методы многомерной классификации и сегментации – http://www.nickart.spb.ru/
5 Эрудиция Кластерный анализ в задачах и примерах – http://www.erudition.ru/
6 Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7