Аналитика / Линейная регрессия, коэффициенты

Логистическая функция вероятности

Логистическая функция переводит линейный скор в вероятность от 0 до 1 по S-образной кривой. В аналитике бинарных событий она связывает факторы с шансом наступления класса и помогает выбрать порог решения.

Опубликовано: Обновлено:

Формула

$$p=\frac{1}{1+e^{-z}},\quad z=\beta_0+\beta_1x_1+\ldots+\beta_kx_k}$$

Обозначения

$z$
линейный скоринг или логит, безразмерная величина
$p$
оцененная вероятность положительного класса, доля
$e$
основание натурального логарифма, безразмерная константа

Условия применения

  • Линейный скор z рассчитан по тем же признакам, что использовались при обучении логистической модели.
  • Кодировка положительного класса зафиксирована, иначе вероятность будет относиться к другому событию.
  • Порог решения отделен от самой вероятности: функция только переводит z в диапазон 0..1.

Ограничения

  • Логистическая функция сжимает скор к 0 и 1, поэтому крайние вероятности могут выглядеть чрезмерно уверенно.
  • Коэффициенты логит-модели читаются в логарифмах шансов, а не как прямое изменение вероятности.
  • Калибровка вероятностей требует отдельной проверки на отложенной выборке.

Подробное объяснение

Логистическая функция вероятности связывает исходные наблюдения с итоговой метрикой через запись p=\frac{1}{1+e^{-z}},\quad z=\beta_0+\beta_1x_1+\ldots+\beta_kx_k}. Главная польза такой записи в том, что она отделяет сам расчет от обсуждения модели: сначала ясно, какие числа входят в формулу, затем уже оценивается смысл результата. Для logistic probability итог читают как перевод линейного скоринга в вероятность от 0 до 1, а не как самостоятельный приговор модели.

Регрессионные формулы работают с двумя уровнями: с моделью, которая описывает среднюю зависимость, и с остатками, которые показывают несовпадение модели с наблюдениями. Поэтому численный результат всегда связан с выбранной спецификацией: набором признаков, формой зависимости, шкалой переменных и способом оценки параметров.

Если изменить масштаб признака, добавить важную переменную или убрать выброс, значение метрики может заметно измениться. Это не делает формулу слабой: наоборот, она дисциплинирует анализ и показывает, какие выводы зависят от данных. Для коэффициентов важны знак, размер, стандартная ошибка и связь с предметной задачей.

В прикладной работе регрессионную формулу применяют не только для получения ответа, но и для диагностики. После расчета смотрят остатки, проверяют разумность коэффициентов, сравнивают модель с более простой базой и отдельно оценивают, насколько вывод устойчив на новых данных или соседних периодах.

Перед подстановкой нужно убедиться, что все наблюдения относятся к одной выборке и одной цели. Нельзя смешивать обучающие и проверочные строки, менять единицы измерения внутри столбца или трактовать статистическую связь как доказанную причину. Формула дает ясный расчет, а качество вывода зависит от постановки модели.

Как пользоваться формулой

  1. Зафиксируйте целевую переменную, признаки и набор наблюдений.
  2. Проверьте единицы измерения, пропуски и явные выбросы.
  3. Оцените модель или нужную статистику по одной выбранной спецификации.
  4. Подставьте значения в формулу без раннего округления.
  5. Сопоставьте итог с остатками, предпосылками и предметным смыслом.

Историческая справка

Регрессионные формулы формировались с начала XIX века, когда Лежандр и Гаусс описали метод наименьших квадратов для астрономических и геодезических наблюдений. Позже Фрэнсис Гальтон и Карл Пирсон развили язык корреляции и регрессии, а Рональд Фишер связал оценивание параметров с дисперсионным анализом, стандартными ошибками и проверкой гипотез.

В XX веке регрессия стала универсальным инструментом прикладной статистики, эконометрики и машинного обучения. Современные записи коэффициентов, остатков, t-статистик и вероятностей не принадлежат одному человеку в бытовом смысле: они сложились в учебной и исследовательской традиции, где важны не только формулы, но и диагностика предпосылок, качество данных и осторожная интерпретация связи.

Для «Логистическая функция вероятности» корректная атрибуция такова: Verhulst, Berkson, Cox.

Историческая линия формулы

Формулу «Логистическая функция вероятности» лучше связывать не с единственным автором, а с развитием темы regression-analysis и практикой статистической проверки моделей. Verhulst, Berkson, Cox. Конкретные имена в источниках задают исторический контекст, но современная запись является результатом коллективной учебной и прикладной традиции.

Пример

Дано: нужно проверить расчет для материала «Логистическая функция вероятности». Берем небольшой набор, где легко проследить каждую строку: линейный скоринг z=1,2 для заявки. Требуется получить итоговую метрику и понять, не нарушены ли единицы измерения. Подстановка: p=1/(1+e^{-1,2})=1/(1+0,301)=0,769. Ответ: p = 0,769 или 76,9%. Проверка: исходные значения относятся к одной выборке, промежуточные действия не округлялись раньше времени, а итог имеет ожидаемый масштаб. Если увеличить ошибку или число неверных решений, значение метрики изменится в понятную сторону; если вернуть исходные данные в таблицу, сумма и знаменатель совпадают с условием.

Частая ошибка

В расчетах по logistic probability часто путают оценку модели с доказательством причинности. Даже аккуратная формула описывает связь в выбранных данных, но не заменяет дизайн исследования. Еще одна ошибка - сравнивать модели с разными наборами наблюдений: тогда меняется база, а не только качество. Также опасно игнорировать выбросы и масштаб признаков. Исправление начинается с проверки выборки, единиц, числа параметров и остатков, а затем уже выполняется численная подстановка.

Практика

Задачи с решением

Контрольная подстановка

Условие. Для формулы «Логистическая функция вероятности» даны учебные значения из примера. Выполните расчет и укажите итог.

Решение. Используем ту же подстановку: p=1/(1+e^{-1,2})=1/(1+0,301)=0,769. Промежуточные значения не округляем до финального шага.

Ответ. p = 0,769 или 76,9%

Проверка интерпретации

Условие. Что нужно проверить перед сравнением значения logistic probability для двух моделей?

Решение. Нужно убедиться, что использованы одна выборка, одинаковое правило подготовки данных, одинаковый горизонт или порог и одна трактовка положительного класса или ошибки.

Ответ. Сравнение допустимо только при одинаковой базе расчета и одинаковых правилах.

Дополнительные источники

  • Draper, Smith. Applied Regression Analysis.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning.
  • NIST/SEMATECH e-Handbook of Statistical Methods, regression and model diagnostics sections.

Связанные формулы

Аналитика

Линейная регрессия по методу наименьших квадратов

$\hat{\beta}_1=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2},\quad \hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}$

OLS подбирает коэффициенты линейной регрессии так, чтобы сумма квадратов остатков была минимальной. Формула нужна, чтобы оценить связь факторов с числовой целью и получить воспроизводимый линейный прогноз.

Аналитика

Коэффициент детерминации R-squared

$R^2=1-\frac{SS_{res}}{SS_{tot}}$

R² показывает, какая доля разброса целевой переменной объяснена регрессионной моделью по сравнению с ее средним уровнем. Метрика полезна для одной выборки и спецификации, но сама по себе не доказывает причинность.

Аналитика

Стандартная ошибка регрессии

$s=\sqrt{\frac{SS_{res}}{n-p}}$

Стандартная ошибка регрессии оценивает типичный разброс остатков вокруг линии модели в единицах целевой переменной. Ее используют рядом с R², чтобы видеть не только долю объясненной вариации, но и размер промаха.

Аналитика

t-статистика коэффициента регрессии

$t=\frac{\hat{\beta}_j-\beta_{j,0}}{SE(\hat{\beta}_j)}$

t-статистика делит коэффициент регрессии на его стандартную ошибку и показывает, насколько оценка далека от нуля в масштабе неопределенности. Ее читают с учетом степеней свободы, p-value и спецификации модели.