Аналитика / Линейная регрессия, коэффициенты

Коэффициент детерминации R-squared

R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.

Опубликовано: Обновлено:

Формула

$$R^2=1-\frac{SS_{res}}{SS_{tot}}$$

Обозначения

$SS_{res}$
сумма квадратов остатков модели, квадрат единицы y
$SS_{tot}$
полная сумма квадратов отклонений y от среднего, квадрат единицы y
$R^2$
коэффициент детерминации, безразмерная доля

Условия применения

  • R² считается для той же целевой переменной и выборки, на которой получены остатки модели.
  • SS_tot рассчитан относительно среднего факта, а SS_res - по прогнозам именно этой регрессии.
  • При сравнении моделей учитывают число факторов, потому что добавление переменных почти всегда не снижает R².

Ограничения

  • Высокий R² может появиться из-за лишних факторов, тренда или утечки данных.
  • Метрика не говорит, значимы ли отдельные коэффициенты и насколько велики ошибки прогноза.
  • R² нельзя напрямую сравнивать для разных целевых переменных и выборок.

Подробное объяснение

Коэффициент детерминации R-squared связывает исходные наблюдения с итоговой метрикой через запись R^2=1-\frac{SS_{res}}{SS_{tot}}. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для R-squared итог читают как доля разброса целевой величины, объясненная моделью, а не как самостоятельный приговор модели.

Регрессионные формулы работают с двумя уровнями: с моделью, которая описывает среднюю зависимость, и с остатками, которые показывают несовпадение модели с наблюдениями. Поэтому численный результат всегда связан с выбранной спецификацией: набором признаков, формой зависимости, шкалой переменных и способом оценки параметров.

Если изменить масштаб признака, добавить важную переменную или убрать выброс, значение метрики может заметно измениться. Это не делает формулу слабой: наоборот, она дисциплинирует анализ и показывает, какие выводы зависят от данных. Для коэффициентов важны знак, размер, стандартная ошибка и связь с предметной задачей.

В прикладной работе регрессионную формулу применяют не только для получения ответа, но и для диагностики. После расчета смотрят остатки, проверяют разумность коэффициентов, сравнивают модель с более простой базой и отдельно оценивают, насколько вывод устойчив на новых данных или соседних периодах.

Перед подстановкой нужно убедиться, что все наблюдения относятся к одной выборке и одной цели. Нельзя смешивать обучающие и проверочные строки, менять единицы измерения внутри столбца или трактовать статистическую связь как доказанную причину. Формула дает ясный расчет, а качество вывода зависит от постановки модели.

Как пользоваться формулой

  1. Зафиксируйте целевую переменную, признаки и набор наблюдений.
  2. Проверьте единицы измерения, пропуски и явные выбросы.
  3. Оцените модель или нужную статистику по одной выбранной спецификации.
  4. Подставьте значения в формулу без раннего округления.
  5. Сопоставьте итог с остатками, предпосылками и предметным смыслом.

Историческая справка

Регрессионные формулы формировались с начала XIX века, когда Лежандр и Гаусс описали метод наименьших квадратов для астрономических и геодезических наблюдений. Позже Фрэнсис Гальтон и Карл Пирсон развили язык корреляции и регрессии, а Рональд Фишер связал оценивание параметров с дисперсионным анализом, стандартными ошибками и проверкой гипотез.

В XX веке регрессия стала универсальным инструментом прикладной статистики, эконометрики и машинного обучения. Современные записи коэффициентов, остатков, t-статистик и вероятностей не принадлежат одному человеку в бытовом смысле: они сложились в учебной и исследовательской традиции, где важны не только формулы, но и диагностика предпосылок, качество данных и осторожная интерпретация связи.

Для «Коэффициент детерминации R-squared» корректная атрибуция такова: Pearson, Fisher, regression diagnostics.

Историческая линия формулы

Формулу «Коэффициент детерминации R-squared» лучше связывать не с единственным автором, а с развитием темы regression-analysis и практикой статистической проверки моделей. Pearson, Fisher, regression diagnostics. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.

Пример

Дано: нужно проверить расчет для материала «Коэффициент детерминации R-squared». Берем небольшой набор, где легко проследить каждую строку: SSres=18, SStot=120 для проверяемой регрессии. Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: R^2=1-18/120=0,85. Ответ: R-squared = 0,85. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.

Частая ошибка

В расчетах по R-squared часто путают оценку модели с доказательством причинности. Даже аккуратная формула описывает связь в выбранных данных, но не заменяет дизайн исследования. Еще одна ошибка - сравнивать модели с разными наборами наблюдений: тогда меняется база, а не только качество. Также опасно игнорировать выбросы и масштаб признаков. Исправление начинается с проверки выборки, единиц, числа параметров и остатков, а затем уже выполняется численная подстановка.

Практика

Задачи с решением

Контрольная подстановка

Условие. Для формулы «Коэффициент детерминации R-squared» даны учебные значения из примера. Выполните расчет и укажите итог.

Решение. Используем ту же подстановку: R^2=1-18/120=0,85. Промежуточные значения не округляем до финального шага.

Ответ. R-squared = 0,85

Проверка интерпретации

Условие. Что нужно проверить перед сравнением значения R-squared для двух моделей?

Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.

Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.

Дополнительные источники

  • Draper, Smith. Applied Regression Analysis.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning.
  • NIST/SEMATECH e-Handbook of Statistical Methods, regression and model diagnostics sections.

Связанные формулы

Аналитика

Линейная регрессия по методу наименьших квадратов

$\hat{\beta}_1=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2},\quad \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}$

OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.

Аналитика

Стандартная ошибка регрессии

$s=\sqrt{\frac{SS_{res}}{n-p}}$

Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.

Аналитика

t-статистика коэффициента регрессии

$t=\frac{\hat{\beta}_j-\beta_{j,0}}{SE(\hat{\beta}_j)}$

t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.

Аналитика

Логистическая функция вероятности

$p=\frac{1}{1+e^{-z}},\quad z=\beta_0+\beta_1x_1+\ldots+\beta_kx_k}$

Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.