Глоссарий

Регрессия

Regression

В теории вероятностей и математической статистике это зависимость среднего значения случайной величины от некоторой другой величины или даже нескольких. В отличие от чисто функциональной зависимости y = f(x), где каждому значению независимой переменной x соответствует единственное значение зависимой переменной y, регрессионная зависимость предполагает, что каждому значению переменной x могут соответствовать различные значения y, обусловленные случайной природой зависимости. Если некоторому значению величины xi соответствует набор значений величин {yi1, yi2,…,yin}, то зависимость средних арифметических:

от xi и является регрессией в статистическом понимании данного термина.

Типичным примером регрессионной зависимости может быть зависимость между ростом и весом человека. В большинстве случае вес пропорционален росту, но фактически большой рост не всегда означает большой вес. Иными словами, у роста, например, 175 см. может наблюдаться несколько значений веса, скажем 69, 78 и 86 кг. Тогда зависимость между ростом и средним значением указанных весов будет являться регрессионной.

Изучение регрессии в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х, величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей. Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: Е(Y|х) = u(х). Уравнение у = u(х) называется уравнением регрессии, а соответствующий график — линией регрессии Y по X. Точность, с которой уравнение Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией D величины Y, вычисленной для каждого значения X = х: D(Y|х)=D(x). Если D(х) = 0 при всех значениях х, то можно достоверно утверждать, что Y и Х связаны строгой функциональной зависимостью Y = u(X). Если D(х) = 0 при всех значениях х и u(х) не зависит от х, то говорят, что регрессионная зависимость Y по Х отсутствует.

Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций f(х) минимум математического ожидания Е[Y — f(X)] 2 достигается для функции f(x) = u(х). Это означает, что регрессия Y по Х даёт наилучшее в указанном смысле представление величины Y по величине X. Это свойство позволяет использовать регрессию для предсказания величины Y по X. Иными словами, если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать только Х, то в качестве прогнозируемого значения Y можно использовать величину Y = u(X). Наиболее простым является случай, когда регрессионная зависимость Y по Х линейна, т.е. Е(Y|x) = b0 + b1x, где b0 и b1 – коэффициенты регрессии. На практике обычно коэффициенты регрессии в уравнении у = u(х) неизвестны, и их оценивают по наблюдаемым данным.

Регрессия широко используется в аналитических технологах при решении различных бизнес-задач, таких как прогнозирование (продаж, курсов валют и акций), оценивания различных бизнес-показателей по наблюдаемым значениям других показателей (скоринг), выявление зависимостей между показателями и т.д.

Подпишитесь!

Микроблог BaseGroup в Twitter
Блог BaseGroup в Live Journal (ЖЖ)
Почтовая рассылка BaseGroup на Subscribe.ru

Искать термин

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Искать по слову