Аналитика / Линейная регрессия, коэффициенты

Стандартная ошибка регрессии

Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.

Опубликовано: Обновлено:

Формула

$$s=\sqrt{\frac{SS_{res}}{n-p}}$$

Обозначения

$SS_{res}$
сумма квадратов остатков, квадрат единицы y
$n$
число наблюдений, шт.
$p$
число оцененных параметров модели, шт.

Условия применения

  • Стандартная ошибка регрессии считается по остаткам одной модели и одной целевой переменной.
  • В знаменателе учтены степени свободы: число наблюдений минус число оцененных параметров.
  • Остатки выражены в единицах целевой переменной и рассчитаны без промежуточного округления.

Ограничения

  • Стандартная ошибка регрессии не показывает долю объясненной вариации и не заменяет R².
  • При гетероскедастичности и автокорреляции обычная оценка может быть слишком оптимистичной.
  • Средний размер остатка скрывает отдельные систематические провалы модели.

Подробное объяснение

Стандартная ошибка регрессии связывает исходные наблюдения с итоговой метрикой через запись s=\sqrt{\frac{SS_{res}}{n-p}}. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для standard error of regression итог читают как типичный размер остатка с поправкой на число параметров, а не как самостоятельный приговор модели.

Регрессионные формулы работают с двумя уровнями: с моделью, которая описывает среднюю зависимость, и с остатками, которые показывают несовпадение модели с наблюдениями. Поэтому численный результат всегда связан с выбранной спецификацией: набором признаков, формой зависимости, шкалой переменных и способом оценки параметров.

Если изменить масштаб признака, добавить важную переменную или убрать выброс, значение метрики может заметно измениться. Это не делает формулу слабой: наоборот, она дисциплинирует анализ и показывает, какие выводы зависят от данных. Для коэффициентов важны знак, размер, стандартная ошибка и связь с предметной задачей.

В прикладной работе регрессионную формулу применяют не только для получения ответа, но и для диагностики. После расчета смотрят остатки, проверяют разумность коэффициентов, сравнивают модель с более простой базой и отдельно оценивают, насколько вывод устойчив на новых данных или соседних периодах.

Перед подстановкой нужно убедиться, что все наблюдения относятся к одной выборке и одной цели. Нельзя смешивать обучающие и проверочные строки, менять единицы измерения внутри столбца или трактовать статистическую связь как доказанную причину. Формула дает ясный расчет, а качество вывода зависит от постановки модели.

Как пользоваться формулой

  1. Зафиксируйте целевую переменную, признаки и набор наблюдений.
  2. Проверьте единицы измерения, пропуски и явные выбросы.
  3. Оцените модель или нужную статистику по одной выбранной спецификации.
  4. Подставьте значения в формулу без раннего округления.
  5. Сопоставьте итог с остатками, предпосылками и предметным смыслом.

Историческая справка

Регрессионные формулы формировались с начала XIX века, когда Лежандр и Гаусс описали метод наименьших квадратов для астрономических и геодезических наблюдений. Позже Фрэнсис Гальтон и Карл Пирсон развили язык корреляции и регрессии, а Рональд Фишер связал оценивание параметров с дисперсионным анализом, стандартными ошибками и проверкой гипотез.

В XX веке регрессия стала универсальным инструментом прикладной статистики, эконометрики и машинного обучения. Современные записи коэффициентов, остатков, t-статистик и вероятностей не принадлежат одному человеку в бытовом смысле: они сложились в учебной и исследовательской традиции, где важны не только формулы, но и диагностика предпосылок, качество данных и осторожная интерпретация связи.

Для «Стандартная ошибка регрессии» корректная атрибуция такова: Gauss, Fisher, Draper and Smith.

Историческая линия формулы

Формулу «Стандартная ошибка регрессии» лучше связывать не с единственным автором, а с развитием темы regression-analysis и практикой статистической проверки моделей. Gauss, Fisher, Draper and Smith. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.

Пример

Дано: нужно проверить расчет для материала «Стандартная ошибка регрессии». Берем небольшой набор, где легко проследить каждую строку: SSres=54, n=20 наблюдений, p=2 параметра. Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: s=sqrt(54/(20-2))=sqrt(3)=1,73. Ответ: 1,73 единицы y. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.

Частая ошибка

В расчетах по standard error of regression часто путают оценку модели с доказательством причинности. Даже аккуратная формула описывает связь в выбранных данных, но не заменяет дизайн исследования. Еще одна ошибка - сравнивать модели с разными наборами наблюдений: тогда меняется база, а не только качество. Также опасно игнорировать выбросы и масштаб признаков. Исправление начинается с проверки выборки, единиц, числа параметров и остатков, а затем уже выполняется численная подстановка.

Практика

Задачи с решением

Контрольная подстановка

Условие. Для формулы «Стандартная ошибка регрессии» даны учебные значения из примера. Выполните расчет и укажите итог.

Решение. Используем ту же подстановку: s=sqrt(54/(20-2))=sqrt(3)=1,73. Промежуточные значения не округляем до финального шага.

Ответ. 1,73 единицы y

Проверка интерпретации

Условие. Что нужно проверить перед сравнением значения standard error of regression для двух моделей?

Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.

Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.

Дополнительные источники

  • Draper, Smith. Applied Regression Analysis.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning.
  • NIST/SEMATECH e-Handbook of Statistical Methods, regression and model diagnostics sections.

Связанные формулы

Аналитика

Линейная регрессия по методу наименьших квадратов

$\hat{\beta}_1=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2},\quad \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}$

OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.

Аналитика

Коэффициент детерминации R-squared

$R^2=1-\frac{SS_{res}}{SS_{tot}}$

R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.

Аналитика

t-статистика коэффициента регрессии

$t=\frac{\hat{\beta}_j-\beta_{j,0}}{SE(\hat{\beta}_j)}$

t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.

Аналитика

Логистическая функция вероятности

$p=\frac{1}{1+e^{-z}},\quad z=\beta_0+\beta_1x_1+\ldots+\beta_kx_k}$

Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.