Автор работы: Пользователь скрыл имя, 02 Октября 2012 в 18:15, контрольная работа
Цель работы – изучение методов и процедур кластеризации и формирования интерпретаций в системах анализа бизнес-информации на примере технологии сегментирования с использованием метода K-means, а также исследование возможностей совершенствования управления взаимоотношениями с клиентами.
Задание.
Выполнить сравнительный анализ процедур сегментирования по переменным и по факторам с заменой количества факторов и с расчетом коэффициентов важности с использованием алгоритма Черчмена-Акоффа путем сопоставления по вариантам кластеризации профилей сегментов и карт восприятия.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное
бюджетное образовательное
высшего профессионального образования
«Тихоокеанский государственный университет»
по дисциплине:
г. Хабаровск – 2012г.
СОДЕРЖАНИЕ
Цель работы – изучение методов и процедур кластеризации и формирования интерпретаций в системах анализа бизнес-информации на примере технологии сегментирования с использованием метода K-means, а также исследование возможностей совершенствования управления взаимоотношениями с клиентами.
Задание.
Выполнить сравнительный анализ процедур сегментирования по переменным и по факторам с заменой количества факторов и с расчетом коэффициентов важности с использованием алгоритма Черчмена-Акоффа путем сопоставления по вариантам кластеризации профилей сегментов и карт восприятия.
Теория.
Технологии сегментирования и позиционирования из состава Best Practices реализованы на основе методов и алгоритмов кластерного анализа. Кластерный анализ - задача разбиения заданной выборки объектов, ситуаций на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Наиболее широко в сфере бизнеса, экономики и финансов в составе различных решений применяются методы и алгоритмы K-means (метод k-средних) — наиболее популярный метод кластеризации и G-means (метод нечеткой кластеризации C-средних).
Кластер - объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определёнными свойствами (по значениям совокупности признаков классификации, называемых в данной области переменными и факторами).
Метод нахождения образа заключается в том, что дается определение образа и находится совокупность точек, обладающих соответствующими определению свойствами. Таким образом, существует класс алгоритмов, ориентированных на выделение кластеров с заданными свойствами. Это предполагает возможность использования таких алгоритмов во всех сферах материального и идеального, для которых существуют точные определения образов.
В группе методов K-means (метод k-средних) объекты (точки) попадают в тот класс, расстояния, до центра которого минимальны. Существуют процедуры выделения классов в контексте нескольких определений. Таким образом, можно рассматривать произвольные наборы совокупностей точек. Представление о качестве кластеризации формулируется в виде некоторого функционала, экстремальное значение которого соответствует наилучшему варианту кластеризации.
Пакет программ «Сегментирование и рынки включает обучающую программу «КонСи» и прикладную программу «Сегментирование и рынки». Последняя обеспечивает формирование исходных данных, их первоначальную загрузку в базу данных (БД), хранение и корректировку. Она обеспечивает сегментирование на основе кластеризации с использованием определенного алгоритма кластеризации и выполнение интерпретаций.
Работа с базой данных включает следующие операции: создания БД для ввода с клавиатуры или импорта исходных данных в среду программы; открытия БД для загрузки параметров модели и методики решения задачи, а также для записи варианта сегментирования; сохранения БД перед тем, как выполнять большие изменения в открытой базе.
В приведенной на рис. 1 схеме данных содержатся таблицы и связи, соответствующие данному описанию. Все корректировки БД через панели диалога программы соответствующим образом изменяют содержание таблиц (отношений). Общее описание таблиц приведено в табл. 1.
Рисунок 1 - Схема данных приложения «Сегментирование и рынки»
Таблица 1 - Общее описание таблиц приложения
Имя таблицы |
Общее описание данных |
tVwSegm |
Варианты визуализации сегментов |
tVar |
Вариаты сегментирования (1-по переменным; 2-по факторам) |
tSegm |
Параметры сегментов |
tCriterion |
Параметры критериев |
tObjCrit |
Расчетные значения критериев для объектов |
tObject |
Параметры объектов |
tvrPrmKw |
Коэффициенты важности при всех переменных для варианта сегментирования |
tvrPrmVal |
Значения переменных для объектов по варианту сегментирования |
tParam |
Данные об именах и характеристиках по всем переменным сегментирования |
tLnkPrmCrit |
Параметры взаимосвязи переменных и критериев |
tScale |
Параметры шкалированных данных |
tFactPrm |
Параметры факторных переменных |
Сходство и различия сегментов или кластеров определяются по значениям переменных и факторов. В качестве меры сходства объектов используется евклидово расстояние:
где dij – расстояние между потребителями i и j; wk – коэффициент важности (вклад или вес переменной или фактора k); xik , xjk – координаты точек, соответствующих потребителям по переменной или фактору k.
Все значения dij , xik , xjk определяются как нормированные по правилу нормирования с целью получения x*:
.
Здесь x – ненормированное значение переменной.
В качестве переменных используют количественные
и качественные величины. К числу
количественных относят объем продаж,
относительный уровень
Для каждого потребителя можно определить значение фактора как сумму произведений значений переменных фактора на коэффициенты (факторные нагрузки).
Матрица факторных нагрузок — способ представления результатов анализа факторного и метода главных компонент. Строки матрицы факторных нагрузок соответствуют исходным переменным, столбцы — факторам (или главным компонентам). На пересечении строки и столбца указывается значение нагрузки, которая представляет собой коэффициент корреляции между измеряемой переменной и фактором.
Пример матрицы факторных
Значения переменных можно заменить
на факторы и выполнять
Функция полезности - формальное выражение зависимости, которая связывает полезность как результат некоторого действия с уровнем (интенсивностью) этого действия.
Пусть u – вещественная функция, определенная на множестве альтернатив X, и пусть p,q X. Функция u называется функцией полезности для отношения предпочтения на X, если u(p) > u(q) для любых p и q, таких, что p q.
Функция полезности обеспечивает переход
от качественного сравнения
Величина определяет важность i – го свойства Si для аналитика в рамках решаемой задачи сопоставления альтернатив p, q.
Следующие и предлагаемые для ознакомления данные получены в результате сегментирования по переменным (1-й вариант) и по факторам (2-й вариант) с использованием демонстрационного варианта программы. В табл. 2 представлен фрагмент данных сегментирования по переменным, полученный в результате выполнения запроса.
Значение поля varID указывает на вариант сегментирования (varID=1, сегментирование по переменным). Значения полей objID и objName определяют покупателя (потребителя) номер 1 (Consumer 1). Значение поля sgmID указывает, что первый покупатель находится в третьем сегменте («Мелкие клиенты»). В поле prmID представлены номера основных переменных. Они соответствуют товарным группам («Кондитерские изделия», «Йогурты», «Бакалея», «Колбаса», «Мясо и мясные полуфабрикаты», «Рыба и рыбные полуфабрикаты», «Пельмени»).
Таблица 2 – Фрагмент данных сегментирования по переменным
varID |
objID |
objName |
sgmID |
prmID |
prmVal |
1 |
1 |
Consumer 1 |
3 |
1 |
4 |
1 |
1 |
Consumer 1 |
3 |
2 |
4,38285714285714 |
1 |
1 |
Consumer 1 |
3 |
3 |
4,68 |
1 |
1 |
Consumer 1 |
3 |
4 |
5,96428571428571 |
1 |
1 |
Consumer 1 |
3 |
5 |
0,785 |
1 |
1 |
Consumer 1 |
3 |
6 |
4,55444444444445 |
1 |
1 |
Consumer 1 |
3 |
7 |
1,083 |
В поле prmVal находятся значения аналитического показателя объема продаж (абсолютного или относительного), в конечном счете определяющие сегмент. Результаты сегментирования по переменным представлены в трехфакторном пространстве с помощью метода главных компонент (один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации).
На рис. 2 представлены результаты
анализа стратегического
Рисунок 2 - Результаты анализа стратегического потенциала сегментов по конкурентоспособности и привлекательности
На рис. 3 представлена карта восприятия сегментов по товарам при сегментировании по факторам. Если объект находится в нескольких сегментах, окружности должны пересекаться.
Рисунок - 3. Карта восприятия сегментов по товарам при сегментировании по факторам
Совокупность похожих в
Центр кластера определяется как точка в p-мерном пространстве признаков:
; ,
где wj – вес j-й переменной;
I – определенное количество элементов в кластере;
xij – значение j-й переменной для i-го объекта.
Дисперсия характеризует меру рассеяния кластера:
.
Среднеквадратичное отклонение (СКО) точек (объектов) от центра кластера определяют по формуле
.
Радиус кластера определяется по переменной как максимальное расстояние до его центра от точки:
.
Среднее, рассчитанное по возможным радиусам, определяют как радиус кластера.
Математические характеристики сегментов представлены в табл. 3.
Таблица 3 - Математические характеристики
сегментов
Математические характеристики сегментов | ||||
Дата |
24.03.2007 |
|||
Параметры сегментов |
||||
Сегмент |
1 |
2 |
3 | |
Число объектов |
329 |
366 |
305 | |
Радиус |
12,00531 |
13,86068 |
12,81451 | |
СКО |
6,701654 |
7,495186 |
6,27866 | |
Расстояния до центров сегментов |
||||
Объект |
Сегмент |
1 |
2 |
3 |
Consumer 1 |
3 |
14,44521 |
18,13084 |
6,36806 |
Consumer 2 |
3 |
12,79052 |
18,07599 |
7,289446 |
Consumer 3 |
1 |
5,561475 |
7,264595 |
9,819078 |
Consumer 4 |
3 |
7,471205 |
10,22911 |
6,968611 |
Consumer 5 |
3 |
11,52568 |
11,275 |
3,43026 |
Consumer 6 |
2 |
6,922235 |
5,651012 |
12,44058 |
Consumer 7 |
1 |
5,607487 |
14,65258 |
13,75189 |
Consumer 8 |
2 |
14,22584 |
8,363308 |
9,76112 |
Consumer 9 |
2 |
18,86183 |
13,86068 |
25,71982 |
Consumer 10 |
2 |
15,67267 |
9,396872 |
13,16096 |