Аналитика / Линейная регрессия, коэффициенты
Коэффициент детерминации R-squared
R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.
Формула
Обозначения
- $SS_{res}$
- сумма квадратов остатков модели, квадрат единицы y
- $SS_{tot}$
- полная сумма квадратов отклонений y от среднего, квадрат единицы y
- $R^2$
- коэффициент детерминации, безразмерная доля
Условия применения
- R² считается для той же целевой переменной и выборки, на которой получены остатки модели.
- SS_tot рассчитан относительно среднего факта, а SS_res - по прогнозам именно этой регрессии.
- При сравнении моделей учитывают число факторов, потому что добавление переменных почти всегда не снижает R².
Ограничения
- Высокий R² может появиться из-за лишних факторов, тренда или утечки данных.
- Метрика не говорит, значимы ли отдельные коэффициенты и насколько велики ошибки прогноза.
- R² нельзя напрямую сравнивать для разных целевых переменных и выборок.
Подробное объяснение
Коэффициент детерминации R-squared связывает исходные наблюдения с итоговой метрикой через запись R^2=1-\frac{SS_{res}}{SS_{tot}}. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для R-squared итог читают как доля разброса целевой величины, объясненная моделью, а не как самостоятельный приговор модели.
Регрессионные формулы работают с двумя уровнями: с моделью, которая описывает среднюю зависимость, и с остатками, которые показывают несовпадение модели с наблюдениями. Поэтому численный результат всегда связан с выбранной спецификацией: набором признаков, формой зависимости, шкалой переменных и способом оценки параметров.
Если изменить масштаб признака, добавить важную переменную или убрать выброс, значение метрики может заметно измениться. Это не делает формулу слабой: наоборот, она дисциплинирует анализ и показывает, какие выводы зависят от данных. Для коэффициентов важны знак, размер, стандартная ошибка и связь с предметной задачей.
В прикладной работе регрессионную формулу применяют не только для получения ответа, но и для диагностики. После расчета смотрят остатки, проверяют разумность коэффициентов, сравнивают модель с более простой базой и отдельно оценивают, насколько вывод устойчив на новых данных или соседних периодах.
Перед подстановкой нужно убедиться, что все наблюдения относятся к одной выборке и одной цели. Нельзя смешивать обучающие и проверочные строки, менять единицы измерения внутри столбца или трактовать статистическую связь как доказанную причину. Формула дает ясный расчет, а качество вывода зависит от постановки модели.
Как пользоваться формулой
- Зафиксируйте целевую переменную, признаки и набор наблюдений.
- Проверьте единицы измерения, пропуски и явные выбросы.
- Оцените модель или нужную статистику по одной выбранной спецификации.
- Подставьте значения в формулу без раннего округления.
- Сопоставьте итог с остатками, предпосылками и предметным смыслом.
Историческая справка
Регрессионные формулы формировались с начала XIX века, когда Лежандр и Гаусс описали метод наименьших квадратов для астрономических и геодезических наблюдений. Позже Фрэнсис Гальтон и Карл Пирсон развили язык корреляции и регрессии, а Рональд Фишер связал оценивание параметров с дисперсионным анализом, стандартными ошибками и проверкой гипотез.
В XX веке регрессия стала универсальным инструментом прикладной статистики, эконометрики и машинного обучения. Современные записи коэффициентов, остатков, t-статистик и вероятностей не принадлежат одному человеку в бытовом смысле: они сложились в учебной и исследовательской традиции, где важны не только формулы, но и диагностика предпосылок, качество данных и осторожная интерпретация связи.
Для «Коэффициент детерминации R-squared» корректная атрибуция такова: Pearson, Fisher, regression diagnostics.
Историческая линия формулы
Формулу «Коэффициент детерминации R-squared» лучше связывать не с единственным автором, а с развитием темы regression-analysis и практикой статистической проверки моделей. Pearson, Fisher, regression diagnostics. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.
Пример
Дано: нужно проверить расчет для материала «Коэффициент детерминации R-squared». Берем небольшой набор, где легко проследить каждую строку: SSres=18, SStot=120 для проверяемой регрессии. Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: R^2=1-18/120=0,85. Ответ: R-squared = 0,85. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.
Частая ошибка
В расчетах по R-squared часто путают оценку модели с доказательством причинности. Даже аккуратная формула описывает связь в выбранных данных, но не заменяет дизайн исследования. Еще одна ошибка - сравнивать модели с разными наборами наблюдений: тогда меняется база, а не только качество. Также опасно игнорировать выбросы и масштаб признаков. Исправление начинается с проверки выборки, единиц, числа параметров и остатков, а затем уже выполняется численная подстановка.
Практика
Задачи с решением
Контрольная подстановка
Условие. Для формулы «Коэффициент детерминации R-squared» даны учебные значения из примера. Выполните расчет и укажите итог.
Решение. Используем ту же подстановку: R^2=1-18/120=0,85. Промежуточные значения не округляем до финального шага.
Ответ. R-squared = 0,85
Проверка интерпретации
Условие. Что нужно проверить перед сравнением значения R-squared для двух моделей?
Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.
Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.
Дополнительные источники
- Draper, Smith. Applied Regression Analysis.
- Hastie, Tibshirani, Friedman. The Elements of Statistical Learning.
- NIST/SEMATECH e-Handbook of Statistical Methods, regression and model diagnostics sections.
Связанные формулы
Аналитика
Линейная регрессия по методу наименьших квадратов
OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.
Аналитика
Стандартная ошибка регрессии
Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.
Аналитика
t-статистика коэффициента регрессии
t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.
Аналитика
Логистическая функция вероятности
Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.