Глоссарий

Понижение размерности

Data reduction

Синонимы: Сокращение размерности, Снижение размерности

Процесс уменьшения анализируемого множества данных до размера, оптимального с точки зрения решаемой задачи и используемой аналитической модели.

Сокращение размерности может потребоваться когда данные избыточны в информационном плане, т.е. задачу можно решить с тем же уровнем эффективности и точности, но используя меньший объем данных. Это позволяет урезать время и вычислительные затраты на решение задачи. Другой случай связан со слишком большими вычислительными затратами, требуемыми для обработки множества данного размера. Эта ситуация типична для алгоритмов, вычислительная сложность которых экспоненциально растет с увеличением числа наблюдений (т.е. немасштабируемых). Если в первом случае достаточно просто отобрать из всего множества столько признаков(атрибутов) и записей, сколько надо, то во втором, нужно сократить исходное множество до такого объема, который обеспечил бы реализуемость его обработки невзирая на потерю полезной информации.

Поэтому во втором случае предъявляются очень жесткие требования по отбору данных: сокращение объема должно происходить за счет наименее ценных данных, например, сначала за счет наименее значимых признаков, затем - похожих записей и т.д., пока размерность не окажется приемлемой с точки зрения требуемого объема вычислений.

Существует несколько направлений сокращения размерности множеств данных: сокращение числа признаков (атрибутов), сокращение числа записей и сокращение числа разнообразных значений определенного признака. Наиболее эффективным является сокращение признаков, поскольку в этом случае уменьшается не только объем данных, но и размерность всей задачи. В большинстве случаев решающим фактором за или против исключения признака является его значимость. На практике, определяют значимость всех признаков, исключают все признаки, значимость которых ниже заданного порога. Также следует исключать коррелирующие признаки.

Подмножество данных, полученное в результате сокращения размерности, должно унаследовать от исходного множества столько информации, сколько необходимо для решения задачи с заданной точностью, а вычислительные и временные затраты на сокращение данных не должны обесценивать , полученные от него преимущества. Аналитическая модель, построенная на основе сокращенного множества данных, должна стать проще для обработки, реализации и понимания, чем модель, построенная на исходном множестве.

Решение о выборе метода сокращения размерности основывается на априорном знании об особенностях решаемой задачи и ожидаемых результатах, а также ограниченности временных и вычислительных ресурсов.

Подпишитесь!

Микроблог BaseGroup в Twitter
Блог BaseGroup в Live Journal (ЖЖ)
Почтовая рассылка BaseGroup на Subscribe.ru

Искать термин

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Искать по слову