Главная | Библиотека | Глоссарий | Регрессия, Regression |
Глоссарий
Регрессия
Regression
В теории вероятностей и математической статистике это зависимость среднего значения случайной величины от некоторой другой величины или даже нескольких. В отличие от чисто функциональной зависимости y = f(x), где каждому значению независимой переменной x соответствует единственное значение зависимой переменной y, регрессионная зависимость предполагает, что каждому значению переменной x могут соответствовать различные значения y, обусловленные случайной природой зависимости. Если некоторому значению величины xi соответствует набор значений величин {yi1, yi2,…,yin}, то зависимость средних арифметических:

от xi и является регрессией в статистическом понимании данного термина.
Типичным примером регрессионной зависимости может быть зависимость между ростом и весом человека. В большинстве случае вес пропорционален росту, но фактически большой рост не всегда означает большой вес. Иными словами, у роста, например, 175 см. может наблюдаться несколько значений веса, скажем 69, 78 и 86 кг. Тогда зависимость между ростом и средним значением указанных весов будет являться регрессионной.
Изучение регрессии в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х, величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей. Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: Е(Y|х) = u(х). Уравнение у = u(х) называется уравнением регрессии, а соответствующий график — линией регрессии Y по X. Точность, с которой уравнение Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией D величины Y, вычисленной для каждого значения X = х: D(Y|х)=D(x). Если D(х) = 0 при всех значениях х, то можно достоверно утверждать, что Y и Х связаны строгой функциональной зависимостью Y = u(X). Если D(х) = 0 при всех значениях х и u(х) не зависит от х, то говорят, что регрессионная зависимость Y по Х отсутствует.
Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций f(х) минимум математического ожидания Е[Y — f(X)] 2 достигается для функции f(x) = u(х). Это означает, что регрессия Y по Х даёт наилучшее в указанном смысле представление величины Y по величине X. Это свойство позволяет использовать регрессию для предсказания величины Y по X. Иными словами, если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать только Х, то в качестве прогнозируемого значения Y можно использовать величину Y = u(X). Наиболее простым является случай, когда регрессионная зависимость Y по Х линейна, т.е. Е(Y|x) = b0 + b1x, где b0 и b1 – коэффициенты регрессии. На практике обычно коэффициенты регрессии в уравнении у = u(х) неизвестны, и их оценивают по наблюдаемым данным.
Регрессия широко используется в аналитических технологах при решении различных бизнес-задач, таких как прогнозирование (продаж, курсов валют и акций), оценивания различных бизнес-показателей по наблюдаемым значениям других показателей (скоринг), выявление зависимостей между показателями и т.д.

