Математика / Вероятность и статистика

Коэффициент корреляции Пирсона

Формула «Коэффициент корреляции Пирсона» задает численную характеристику вероятностной модели. Она переводит исходы, вероятности или наблюдения в показатель, который удобно считать, сравнивать и проверять.

Опубликовано: Обновлено:

Формула

$$r=\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum (x_i-\bar x)^2\sum (y_i-\bar y)^2}}$$

Обозначения

X, Y
случайные величины или признаки, единицы исходной шкалы
$x_i, y_i, k$
значения исходов или наблюдений, единицы величины
$p_i, p$
вероятность исхода или успеха, доля единицы
$n$
число испытаний, гипотез или наблюдений, штуки
$M(X), D(X), sigma$
среднее, дисперсия и стандартное отклонение, зависит от величины

Условия применения

  • Коэффициент корреляции Пирсона применяют, когда две числовые переменные измерены попарно, а связь предполагается близкой к линейной.
  • Перед расчетом проверяют масштаб данных: числитель и знаменатель имеют одинаковую размерность, поэтому r безразмерен и лежит от -1 до 1.
  • Ключевое условие модели: наблюдения независимы как пары, а экстремальные выбросы не определяют весь результат.

Ограничения

  • Формула дает ненадежный вывод, если связь нелинейна, ранговая или определяется несколькими выбросами.
  • Результат особенно чувствителен к выбросам, суженному диапазону данных и смешению разных групп, поэтому исходные данные нужно проверять до округления.
  • Для вывода по реальным данным одной формулы обычно мало: нужны проверка предпосылок, размер выборки и понятный способ получения вероятностей или денежных ставок.

Подробное объяснение

Коэффициент корреляции Пирсона превращает вероятностную модель в число, с которым можно работать дальше. Результатом становится средний исход, мера разброса, сила линейной связи, вероятность события или стандартизованная величина.

Идея формулы опирается на взвешивание. Исходы с большей вероятностью дают больший вклад, отклонения от среднего учитываются через знак или квадрат, а условные вероятности связывают событие с гипотезами.

Поведение результата проверяют предельными случаями. Если вероятности сдвигаются к одному исходу, среднее приближается к нему. Если разброс исчезает, дисперсия и стандартное отклонение становятся нулевыми.

В типовых задачах сначала описывают исходы и вероятности, затем проверяют полноту модели, и только после этого выполняют подстановку. Для выборочных формул дополнительно проверяют объем наблюдений и независимость.

Формула r=\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum (x_i-\bar x)^2\sum (y_i-\bar y)^2}} лучше читается рядом с родственными показателями. Среднее без дисперсии не показывает риск, а корреляция без диаграммы рассеяния может скрыть нелинейную связь.

Как пользоваться формулой

  1. Определите величины, которые входят в формулу.
  2. Приведите вероятности или ставки к десятичной форме.
  3. Согласуйте единицы измерения и период расчета.
  4. Подставьте значения без раннего округления.
  5. Запишите ответ с единицами и короткой проверкой смысла.

Историческая справка

Формулы вероятности и статистики формировались от задач о шансах и ошибках измерения к строгой математической теории. В XVII-XIX веках появились правила сложения вероятностей, ожидание, дисперсия и нормальный закон; в XX веке они стали стандартным языком статистических выводов.

Коэффициент корреляции связан с работами Фрэнсиса Гальтона, Карла Пирсона и развитием биометрии в конце XIX века. Он стал стандартной нормированной мерой линейной связи в статистике. В записи r=\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum (x_i-\bar x)^2\sum (y_i-\bar y)^2}} эта историческая идея сведена к короткой операции, но за ней стоит конкретная модель данных и способ измерения неопределенности или стоимости денег.

Для страницы «Коэффициент корреляции Пирсона» важно показывать не только итоговую дробь или сумму, но и условия, при которых она имеет смысл. Сегодня эта запись служит учебным и прикладным инструментом: она помогает связать таблицу данных, модель случайности и проверяемый числовой ответ. При работе с реальными данными формулу дополняют диагностикой предпосылок и анализом чувствительности.

Историческая линия формулы

Формула «Коэффициент корреляции Пирсона» в современной записи не сводится к одному источнику: она закреплена учебной традицией, стандартными обозначениями и практикой расчетов. В вероятностных формулах имя автора указывают только там, где связь исторически устойчива; многие записи являются результатом развития целой математической традиции. Поэтому атрибуцию лучше читать как исторический ориентир, а не как утверждение о единственном изобретателе.

Пример

Дано: величина X принимает значения 0, 1 и 3 с вероятностями 0,20; 0,50; 0,30. Для темы «Коэффициент корреляции Пирсона» сначала проверяем сумму вероятностей: 0,20+0,50+0,30=1. Подстановка в основную идею взвешивания: 0·0,20+1·0,50+3·0,30=1,40. Ответ: опорное среднее значение равно 1,4 единицы, а дальнейшая формула r=\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum (x_i-\bar x)^2\sum (y_i-\bar y)^2}} использует его, если нужны отклонения, нормировка или условный пересчет. Проверка: результат лежит между 0 и 3; единицы не теряются, вероятность остается безразмерной долей.

Частая ошибка

Частые ошибки для расчета «Коэффициент корреляции Пирсона»: трактуют корреляцию как причинность; считают r по несопоставленным строкам; игнорируют диаграмму рассеяния перед выводом. Также опасно переносить формулу на данные другого типа только потому, что запись похожа: сначала проверяют модель, затем единицы и только потом выполняют подстановку. Если результат выглядит правдоподобно, его все равно стоит проверить предельным случаем или смыслом знака.

Практика

Задачи с решением

Проверка исходных данных

Условие. Вероятности 0,25; 0,35; 0,40 или ставка 6% заданы для одного периода. Проверьте готовность к подстановке.

Решение. Вероятности дают сумму 1; ставка записывается как 0,06. Данные можно использовать после согласования периода.

Ответ. данные согласованы

Короткая подстановка

Условие. Возьмите значение 4 и вес 0,30 либо сумму 50 000 руб. и ставку 6%. Найдите первый вклад.

Решение. Вероятностный вклад: 4·0,30=1,20. Финансовый множитель периода: 1+0,06=1,06.

Ответ. 1,20 или множитель 1,06

Дополнительные источники

  • William Feller. An Introduction to Probability Theory and Its Applications, том 1
  • A. N. Kolmogorov. Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933
  • Sheldon Ross. A First Course in Probability
  • OpenStax Introductory Statistics: probability distributions and inference

Связанные формулы

Математика

Формула полной вероятности

$P(A)=\sum_iP(H_i)P(A\mid H_i)$

Формула «Формула полной вероятности» задает численную характеристику вероятностной модели. Она переводит исходы, вероятности или наблюдения в показатель, который удобно считать, сравнивать и проверять.

Математика

Формула Байеса для условных вероятностей

$P(H_k\mid A)=\frac{P(H_k)P(A\mid H_k)}{\sum_iP(H_i)P(A\mid H_i)}$

Формула «Формула Байеса для условных вероятностей» задает численную характеристику вероятностной модели. Она переводит исходы, вероятности или наблюдения в показатель, который удобно считать, сравнивать и проверять.

Математика

Ковариация двух случайных величин

$\operatorname{Cov}(X,Y)=M[(X-MX)(Y-MY)]$

Формула «Ковариация двух случайных величин» задает численную характеристику вероятностной модели. Она переводит исходы, вероятности или наблюдения в показатель, который удобно считать, сравнивать и проверять.

Математика

Вероятность в биномиальном распределении

$P(X=k)=C_n^kp^k(1-p)^{n-k}$

Формула «Вероятность в биномиальном распределении» задает численную характеристику вероятностной модели. Она переводит исходы, вероятности или наблюдения в показатель, который удобно считать, сравнивать и проверять.