Аналитика / Линейная регрессия, коэффициенты

Линейная регрессия по методу наименьших квадратов

OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.

Опубликовано: Обновлено:

Формула

$$\hat{\beta}_1=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2},\quad \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}$$

Обозначения

$x_i$
значение объясняющей переменной в i-м наблюдении, единицы x
$y_i$
значение целевой переменной, единицы y
$\hat{\beta}_0, \hat{\beta}_1$
оценки свободного члена и наклона прямой, единицы y и y на единицу x

Условия применения

  • Зависимая переменная и факторы для OLS заданы в одной таблице без сдвига строк.
  • Спецификация линейной модели выбрана до расчета коэффициентов, включая набор факторов и константу.
  • Остатки проверяются на грубые выбросы, сильную нелинейность и точки с чрезмерным влиянием.

Ограничения

  • OLS описывает линейную связь и не доказывает причинность без дизайна исследования.
  • Выбросы и мультиколлинеарность могут сильно изменить коэффициенты.
  • Экстраполяция за пределы наблюдавшихся значений факторов остается рискованной.

Подробное объяснение

Линейная регрессия по методу наименьших квадратов связывает исходные наблюдения с итоговой метрикой через запись \hat{\beta}_1=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2},\quad \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для OLS итог читают как линейная зависимость, выбранная по минимальной сумме квадратов остатков, а не как самостоятельный приговор модели.

Регрессионные формулы работают с двумя уровнями: с моделью, которая описывает среднюю зависимость, и с остатками, которые показывают несовпадение модели с наблюдениями. Поэтому численный результат всегда связан с выбранной спецификацией: набором признаков, формой зависимости, шкалой переменных и способом оценки параметров.

Если изменить масштаб признака, добавить важную переменную или убрать выброс, значение метрики может заметно измениться. Это не делает формулу слабой: наоборот, она дисциплинирует анализ и показывает, какие выводы зависят от данных. Для коэффициентов важны знак, размер, стандартная ошибка и связь с предметной задачей.

В прикладной работе регрессионную формулу применяют не только для получения ответа, но и для диагностики. После расчета смотрят остатки, проверяют разумность коэффициентов, сравнивают модель с более простой базой и отдельно оценивают, насколько вывод устойчив на новых данных или соседних периодах.

Перед подстановкой нужно убедиться, что все наблюдения относятся к одной выборке и одной цели. Нельзя смешивать обучающие и проверочные строки, менять единицы измерения внутри столбца или трактовать статистическую связь как доказанную причину. Формула дает ясный расчет, а качество вывода зависит от постановки модели.

Как пользоваться формулой

  1. Зафиксируйте целевую переменную, признаки и набор наблюдений.
  2. Проверьте единицы измерения, пропуски и явные выбросы.
  3. Оцените модель или нужную статистику по одной выбранной спецификации.
  4. Подставьте значения в формулу без раннего округления.
  5. Сопоставьте итог с остатками, предпосылками и предметным смыслом.

Историческая справка

Регрессионные формулы формировались с начала XIX века, когда Лежандр и Гаусс описали метод наименьших квадратов для астрономических и геодезических наблюдений. Позже Фрэнсис Гальтон и Карл Пирсон развили язык корреляции и регрессии, а Рональд Фишер связал оценивание параметров с дисперсионным анализом, стандартными ошибками и проверкой гипотез.

В XX веке регрессия стала универсальным инструментом прикладной статистики, эконометрики и машинного обучения. Современные записи коэффициентов, остатков, t-статистик и вероятностей не принадлежат одному человеку в бытовом смысле: они сложились в учебной и исследовательской традиции, где важны не только формулы, но и диагностика предпосылок, качество данных и осторожная интерпретация связи.

Для «Линейная регрессия по методу наименьших квадратов» корректная атрибуция такова: Legendre, Gauss, Galton.

Историческая линия формулы

Формулу «Линейная регрессия по методу наименьших квадратов» лучше связывать не с единственным автором, а с развитием темы regression-analysis и практикой статистической проверки моделей. Legendre, Gauss, Galton. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.

Пример

Дано: нужно проверить расчет для материала «Линейная регрессия по методу наименьших квадратов». Берем небольшой набор, где легко проследить каждую строку: точки (1,3), (2,5), (3,7), (4,8). Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: xbar=2,5; ybar=5,75; сумма произведений=8,5; сумма квадратов x=5; beta1=1,7; beta0=1,5. Ответ: уравнение y=1,5+1,7x. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.

Частая ошибка

В расчетах по OLS часто путают оценку модели с доказательством причинности. Даже аккуратная формула описывает связь в выбранных данных, но не заменяет дизайн исследования. Еще одна ошибка - сравнивать модели с разными наборами наблюдений: тогда меняется база, а не только качество. Также опасно игнорировать выбросы и масштаб признаков. Исправление начинается с проверки выборки, единиц, числа параметров и остатков, а затем уже выполняется численная подстановка.

Практика

Задачи с решением

Контрольная подстановка

Условие. Для формулы «Линейная регрессия по методу наименьших квадратов» даны учебные значения из примера. Выполните расчет и укажите итог.

Решение. Используем ту же подстановку: xbar=2,5; ybar=5,75; сумма произведений=8,5; сумма квадратов x=5; beta1=1,7; beta0=1,5. Промежуточные значения не округляем до финального шага.

Ответ. уравнение y=1,5+1,7x

Проверка интерпретации

Условие. Что нужно проверить перед сравнением значения OLS для двух моделей?

Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.

Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.

Дополнительные источники

  • Draper, Smith. Applied Regression Analysis.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning.
  • NIST/SEMATECH e-Handbook of Statistical Methods, regression and model diagnostics sections.

Связанные формулы

Аналитика

Коэффициент детерминации R-squared

$R^2=1-\frac{SS_{res}}{SS_{tot}}$

R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.

Аналитика

Стандартная ошибка регрессии

$s=\sqrt{\frac{SS_{res}}{n-p}}$

Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.

Аналитика

t-статистика коэффициента регрессии

$t=\frac{\hat{\beta}_j-\beta_{j,0}}{SE(\hat{\beta}_j)}$

t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.

Аналитика

Логистическая функция вероятности

$p=\frac{1}{1+e^{-z}},\quad z=\beta_0+\beta_1x_1+\ldots+\beta_kx_k}$

Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.