Главная | Библиотека | Алгоритмы анализа | Кластеризация |
Кластеризация
Алгоритмы кластеризации на службе Data Mining
Данный материал - попытка систематизировать и дать целостный взгляд на последние достижения в области разработки эффективных подходов к кластеризации данных. Целью материала не являлось подробное описание всех алгоритмов кластеризации. Наоборот, обзорный характер статьи и затронутая проблематика помогут сориентироваться в огромном количестве алгоритмов кластеризации.
Кластеризация категорийных данных: масштабируемый алгоритм CLOPE
Разбиение на группы со схожими характеристиками категорийных и транзакционных массивов данных в больших БД является важнейшей задачей Data Mining. Традиционные алгоритмы кластеризации в большинстве случаев не эффективны при обработке сверхбольших баз данных. В материале рассказывается о масштабируемом эвристическом алгоритме CLOPE, который позволяет проводить кластеризацию с высоким качеством и производительностью.
Самоорганизующиеся карты Кохонена - математический аппарат
Самоорганизующиеся карты Кохонена – это одна из разновидностей нейросетевых алгоритмов. Этот алгоритм решает задачи кластеризации и проецирования многомерного пространства в пространство с более низкой размерностью. Он часто применяются для решения самых различных задач, от восстановления пропусков в данных до анализа и поиска закономерностей.
ЕМ - масштабируемый алгоритм кластеризации
Использование EM алгоритма для решению задач кластеризации открывает возможности для работы с очень большими объемами данных, поскольку он является масштабируемым. В основе идеи работы алгоритма лежит предположение, что кластеризуемые данные представляют собой смесь нормальных распределений, а данные внутри каждого кластера подчиняются нормальному распределению с заданными параметрами. Алгоритм оценивает параметры распределения, связанного с каждым кластером, и определяет вероятность принадлежности наблюдений к различным кластерам. Наблюдение относится к тому кластеру, для которого вероятность принадлежности наибольшая. Алгоритм особенно эффективен в случаях, когда имеет место перекрытие кластеров.
Использование самоорганизующихся карт в задачах кластеризации
Использование нейросетей, в частности, самоорганизующихся карт при добычи информации из больших объемов данных. Описаны подходы, позволяющие находить закономерности, основываясь на поиске схожих (близких) объектов.

