статистика, анализ данных, вычислительная математика

Джон Тьюки

Джон Тьюки дал анализу данных практичный язык разведочного взгляда на выборку. Его имя особенно хорошо ложится рядом с квартилями, межквартильным размахом и выбросами, где сначала нужно увидеть структуру данных.

Стилизованный портрет: Джон Тьюки. Фон и детали отсылают к области «статистика, анализ данных, вычислительная математика» и к формулам, связанным с его научной традицией.

Биография

Джон Тьюки (1915-2000) работал в статистике, вычислениях и прикладном анализе данных. Он продвигал exploratory data analysis - подход, где графики, устойчивые характеристики и проверка странных наблюдений идут до окончательных выводов. Джон Тьюки дал анализу данных практичный язык разведочного взгляда на выборку. Его имя особенно хорошо ложится рядом с квартилями, межквартильным размахом и выбросами, где сначала нужно увидеть структуру данных.

Квартили, межквартильный размах и правило выбросов по IQR хорошо передают этот стиль. Вместо того чтобы сразу доверять среднему, Тьюки предлагал смотреть на распределение, устойчивость центра и точки, которые могут изменить интерпретацию выборки.

Связь с Тьюки не означает автоматического исключения всех выбросов. Его подход аккуратнее: сначала понять, почему наблюдение выделяется, и только потом решать, ошибка это, редкое событие или важный сигнал.

Для связки с формулами рядом с именем «Джон Тьюки» выбраны медиана, квартили и межквартильный размах, правило выбросов по IQR, размах вариации и z-оценка. Такой набор не подменяет биографию перечнем ссылок: он показывает, какие понятия лучше читать рядом, чтобы историческое имя помогало понять условия применения, величины и границы модели.

Исторический контекст

Во второй половине XX века статистика стала работать с большими прикладными наборами данных и вычислительными инструментами.

Тьюки помог оформить культуру анализа, где таблица чисел сначала изучается визуально и устойчивыми характеристиками, а не только одним средним значением.

При таком чтении биография не превращается в набор дат. Она показывает, какая задача заставила уточнять понятия, выбирать обозначения и проверять условия. Поэтому связанные формулы даны не ради количества, а как соседние узлы той же темы: они помогают отличить историческое происхождение идеи от современной учебной записи.

Вклад в формулы

Формульная связь Тьюки проходит через квартильные меры и первичную диагностику данных.

Рядом стоят медиана, квартили, IQR, правило выбросов и z-оценка, чтобы сопоставить устойчивый и нормированный взгляд на наблюдения.

В расчетах это означает простой порядок: сначала определить величины и область применения, затем выбрать формулу, проверить условия и только после этого подставлять числа. Исторический автор здесь работает как ориентир к смыслу метода, а не как украшение к названию. Такая связь помогает различать именную формулу, тематическое влияние и современную учебную запись.

Связь с формулами

С этим именем связано 5 формул: Квартили и межквартильный размах, Правило выбросов по IQR, Медиана и еще 2. Ниже можно открыть каждую формулу, посмотреть обозначения, пример и историческую справку.

Библиография

Связанные формулы

Квартили и межквартильный размах

Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.

$IQR=Q_3-Q_1$

Правило выбросов по IQR

Правило 1,5 IQR помечает значения как возможные выбросы, если они лежат ниже Q1−1,5·IQR или выше Q3+1,5·IQR, без предположения о нормальности.

$x<Q_1-1.5\cdot IQR\quad\text{или}\quad x>Q_3+1.5\cdot IQR$

Медиана

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.

$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$

Размах вариации

Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.

$R=x_{max}-x_{min}$

Z-оценка

Z-оценка показывает, на сколько стандартных отклонений наблюдение находится выше или ниже среднего значения, и помогает сравнивать разные шкалы.

$z=\frac{x-\bar{x}}{s}$