Автор работы: Пользователь скрыл имя, 15 Января 2012 в 18:05, лабораторная работа
Цель: изучение методов кластерного анализа и применение их для классификации экономических объектов.
Цель: изучение методов кластерного анализа и применение их для классификации экономических объектов.
При наличии нескольких признаков (исходных или обобщенных), задача классификации может быть решена методами кластерного анализа, которые отличаются от других методов многомерной классификации отсутствием обучающих выборок, т.е. априорной информации о распределении генеральной совокупности.
Пусть исследуется совокупность n объектов, каждый из которых характеризуется по k-замеренным на нем признакам Х, требуется разбить эту совокупность на однородные, в некотором смысле, группы (классы).
Полученные в результате разбиения группы обычно называются кластерами (claster – группа элементов, характеризуемых каким – либо общим свойством), таксонами (taxon - систематизированная группа любой категории), образами. Методы их нахождения - кластер-анализом.
Задача классификации решается следующим образом. Из множества признаков, описывающих каждый объект, выбирается один, наиболее информативный, и производится группировка в соответствии со значениями данного признака. Пусть исследуется совокупность n объектов, каждый из которых характеризуется по k замеренным на нем признакам Х. Требуется разбить эту совокупность на однородные группы (классы). При этом практически отсутствует априорная информация о характере измерения Х внутри классов. Полученные в результате группы называются кластерами (от англ. Claster – группа элементов, обладающих общим свойством).
Обычной
формой представления исходных данных
в задачах кластерного анализа
служит матрица:
(1.1.1)
Каждая строка представляет результат измерений k, рассматриваемых признаков на одном из обследованных объектов. В конкретных ситуациях, может представлять интерес как группировка объектов, так и группировка признаков. В тех случаях, когда разница между двумя этими задачами не существенна, например, при описании некоторых алгоритмов, будем пользоваться только термином «объект», включая в это понятие и признак.
Матрица
Х не является единственным способом
представления данных в задачах кластерного
анализа. Иногда, исходная информация
задана в виде квадратной матрицы:
(1.1.2)
Элемент rij определяет степень близости i-ого объекта к j-му. Большинство алгоритмов кластерного анализа полностью исходит из матрицы расстояний (или близостей), либо требует вычисления отдельных ее элементов, поэтому, если данные представлены в форме Х, то первым этапом решения задачи поиска кластеров будет выбор способа вычисления расстояний, или близости, между объектами и признаками.
Расстояние между объектами (кластерами) и мера близости
Наиболее трудным и наименее формализованным в задаче классификации является определение понятия однородности объектов.
В общем случае, понятие однородности объектов задается либо введением правила вычисления расстояний между любой парой исследуемых объектов либо заданием некоторой функции характеризующий степень близости i-ого и j-ого объектов. Если задана функция то близкие с точки зрения этой мерки объекты считаются однородными, принадлежащими к одному классу. Очевидно, что необходимо при этом сопоставлять с некоторыми пороговыми значениями, определяемыми в каждом случае по-своему.
Аналогично используется и мера близости , при задании которой нужно помнить о необходимости выполнения следующих условий: симметрии максимального сходства объекта с самим собой при , и монотонного убывания по мере увеличения т.е. из должно следовать неравенство
Выбор метрики или меры близости является узловым моментом исследования, от которого в основном зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В каждом, конкретном случае, этот выбор должен производиться по-своему, в зависимости от целей исследования, физической и статистической природы вектора наблюдений Х, априорных сведений о характере вероятностного распределения Х.
Рассмотрим
наиболее широко используемые в задачах
кластерного анализа расстояния
и меры близости.
Обычное Евклидово
расстояние
(1.1.3)
Где - величина е-ой компоненты у i-ого (j-ого) объекта (е=1,2, …,k, i,j=1,2,…,n).
Использование этого расстояния оправдано в следующих случаях:
а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида т.е. Х взаимно независимы и имеют одну и ту же дисперсию, где - единичная матрица;
б) компоненты вектора наблюдений Х однородны по физическому смыслу и одинаково важны для классификации;
в) признаковое пространство совпадает с геометрическим пространством.
“Взвешенное” Евклидово пространство
(1.1.4)
Применяется в тех случаях, когда каждой компоненте вектора наблюдений Х, удается переписать некоторый “вес” , пропорционально степени важности признака в задаче классификации. Обычно, принимают , где е=1,2,…,k.
Определение “весов”, как правило, связано с дополнительными исследованиями, например, организацией опроса экспертов и обработкой их мнений. Определение весов , только по данным выборки, может привести к ложным выводам.
Хеммингово расстояние
Используется как мера различия
объектов, задаваемых дихотомическими
признаками. Это расстояние определяется
по формуле:
(1.1.5)
Оно равно числу несовпадений значений соответствующих признаков, в рассматриваемых i-м и j-м объектах.
Расстояние между группами
В ряде процедур классификации (кластер – процедур) используют понятие расстояние между группами объектов и меры близости двух групп объектов.
Пусть, - i-ая группа (класс, кластер), состоящая из объектов;
- среднее арифметическое
- расстояние между группами и .
Наиболее употребляемыми расстояниями и мерами близости между классами объектов являются:
(1.1.6)
- расстояние, измеряемого по принципу “дальнего соседа” –
(1.1.7)
-
расстояние, измеряемое по “центрам
тяжести” групп -
(1.1.8)
(1.1.9)
Академиком Колмогоровым было предложено “обобщенное расстояние” между классами, которое включает в себя, в качестве частных случаев, все рассмотренные выше виды расстояний.
Расстояние
между группой элементов
При
этом рассмотрении между классами
и
, являющиеся объединением двух других
классов
и
, можно определить по формуле:
(1.1.10)
где, и - расстояние между классами и
- числовые коэффициенты, значения которых определяют специфику процедуры, ее алгоритм.
Например, при и приходим к расстоянию, построенному по принципу “ближайшего соседа”. При и , расстояние между классами определяется по принципу “дальнего соседа”, то есть как расстояние между двумя самыми дальними элементами этих классов.
И, наконец, при:
Соотношение приводит к расстоянию между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой из другого.
Функционалы качества разбиения
Под наилучшем разбиением, мы понимаем такое разбиение, при котором достигается экстремум выбранного функционала качества. Следует отметить, что выбор того или иного функционала качества, как правило, опирается на имперические соображения.
Существуют следующие характеристики функционала качества
(1.1.12)
Q1(S) и Q2(S) широко используются в задачах кластерного анализа для сравнения качества процедур разбиения;
(1.1.14)
где
det A - определитель матрицы А; Wi
- выборочная ковариационная матрица
класса Si, элементы которой определяются
по формуле
q, m = 1,2,…,k, (1.1.15)
где хiq - q-я компонента многомерного наблюдения хi; хq - среднее значение q-ой компоненты, вычисленное по наблюдениям i-го класса.
Рассмотрим
несколько областей Центрального федерального
округа: Белгородская область, Брянская
область, Владимирская область, Воронежская
область, Ивановская область, Калужская
область. На основе данных с 1996 по 2010 (см.
таблицу №1) определить в каком периоде
времени наблюдался наиболее высокий
показатель ВВП, рассматривая все регионы.
Центральный федеральный округ ВВП млн. р. | Белгородская область | Брянская область | Владимирская область | Воронежская область | Ивановская область | Калужская область |
1996 | 14955,5 | 11294,9 | 12830,2 | 20158,3 | 8578,3 | 9649,9 |
1997 | 16905,3 | 11190 | 14690,8 | 23393,1 | 8023,6 | 10399,2 |
1998 | 18 245,5 | 11 051,3 | 14 936,9 | 22 381,9 | 8 278,4 | 10 097,3 |
1999 | 32 060,6 | 16 809,4 | 24 481,0 | 36 278,8 | 11 743,6 | 16 009,8 |
2000 | 42 074,5 | 24 650,5 | 33 017,7 | 49 523,9 | 16 900,0 | 23 903,3 |
2001 | 49 941,8 | 30 110,3 | 42 075,4 | 60 014,6 | 22 175,9 | 31 860,0 |
2002 | 62 404,4 | 37 374,1 | 50 359,9 | 83 001,1 | 26 981,3 | 37 283,1 |
2003 | 76 054,5 | 43 700,3 | 61 818,6 | 100143,3 | 33 214,6 | 48 792,7 |
2004 | 114409,3 | 51 003,4 | 74 207,0 | 117197,6 | 40 159,4 | 57 993,8 |
2005 | 144 987,8 | 66 692,3 | 86 926,8 | 133586,6 | 44 415,4 | 70 953,9 |
2006 | 178 846,1 | 82 100,4 | 112841,7 | 166176,5 | 55 090,0 | 86 150,5 |
2007 | 237 013,3 | 102706,2 | 146663,0 | 222811,9 | 74 752,0 | 111 869,0 |
2008 | 317 656,3 | 125834,4 | 175395,7 | 287072,1 | 86 980,3 | 150 394,4 |
2009 | 304 343,0 | 126199,3 | 188466,3 | 302510,1 | 86 572,8 | 156 646,2 |
2010 | 345754,8 | 158656,6 | 192000 | 316 019,5 | 56275,4 | 214235 |
Информация о работе Применение кластерного анализа для классификации экономических объектов