Главная | Библиотека | Глоссарий | Кластеризация, Сегментация, Сlustering |
Глоссарий
Кластеризация
Сlustering
Синонимы: Сегментация
Объединение объектов или наблюдений в непересекающиеся группы, называемые кластерами, на основе близости значений их атрибутов (признаков). В результате в каждом кластере будут находиться объекты, похожие по своим свойствам друг на друга и отличающиеся от тех, которые расположены в других кластерах. При этом, чем больше подобие объектов внутри кластера и чем сильнее их непохожесть на объекты в других кластерах, тем лучше кластеризация.
Формальная постановка задачи кластеризации выглядит следующим образом. Пусть заданы множества объектов X = (x1,x2,...,xn) и номеров (имён, меток) кластеров Y = (y1, y2,…yk). Для X определена некоторая функция расстояния между объектами D(x,x’), например, метрика L2. Кроме этого, имеется конечная выборка обучающих примеров Xm = (x1,x2,…,xm) из множества X, которую требуется разбить на Xm на непересекающиеся подмножества (кластеры) так, чтобы каждое из них состояло бы только из элементов, близких по метрике D. При этом каждому объекту xi из множества Xm присваивается номер кластера yj.
Тогда задача будет заключаться в поиске функции f, которая любому объекту x из множества X ставит в соответствие номер кластера y из множества Y, которое само по себе бывает известно заранее. Однако в большинстве случаев приходится определять оптимальное число кластеров исходя из особенностей решаемой задачи.
Кластеризация позволяет добиться следующих целей:
- Улучшает понимание данных за счет выявления структурных групп. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа.
- Позволяет компактно хранить данные. Для этого вместо хранения всей выборки можно оставить по одному типичному наблюдению из каждого кластера.
- Обнаружение новых нетипичных объектов, которые не попали ни в один кластер.
В Data Mining кластеризация используется для сегментации клиентов и рынков, медицинской диагностики, социальных и демографических исследований, определения кредитоспособности заемщиков и во многих других областях.
Смотрите также
- Web Mining – анализ использования веб-ресурсов. Построение моделей
- Связной-Клуб
- Анализ рязанского рынка СМИ при помощи самоорганизующихся карт Кохонена
- Работа с картами Кохонена (демо-ролики)
- Сегментация данных как метод сравнительного анализа
- Самоорганизующиеся карты Кохонена - математический аппарат

