Математика / Матрицы, определители

Критерий наименьших квадратов

Критерий наименьших квадратов измеряет суммарную квадратичную ошибку между наблюдаемым вектором b и моделью Ax, поэтому превращает переопределенную систему в задачу минимизации.

Опубликовано: Обновлено:

Формула

$$\hat x_{\mathrm{LS}}=\arg\min_{x\in\mathbb R^n} \|Ax-b\|_2^2 = \arg\min_x (Ax-b)^\top (Ax-b).$$
table Цель задачи МНК

Сравнение значения F(x) для разных x на одном эксперименте.

Оптимум достигается на x, минимизирующем квадрат невязки.

Обозначения

$A$
матрица наблюдений, m×n матрица
$x$
вектор неизвестных параметров, вектор
$b$
вектор измерений, вектор
$\hat x_{\mathrm{LS}}$
решение метода наименьших квадратов, вектор

Условия применения

  • Матрица A задана как A\in\mathbb R^{m\times n}.
  • Обычно требуется m\ge n для уникального смыслового решения.
  • Норма понимается как евклидова: \|v\|_2=\sqrt{v^\top v}.

Ограничения

  • Без условия ранга решение может быть неединственным.
  • Чувствительность к выбросам в b зависит от распределения ошибок.
  • Если измерения сильно ошибочны в масштабе, нужна регуляризация.

Подробное объяснение

В переопределенной системе Ax=b точного решения обычно нет: вектор b не лежит в пространстве столбцов матрицы A. Тогда ищут не равенство Ax=b, а ближайший к b вектор вида Ax. Критерий ||Ax-b||^2 является квадратом евклидовой длины остатка и имеет удобные алгебраические свойства: он неотрицателен, дифференцируем и приводит к линейным нормальным уравнениям. Геометрически задача означает ортогональное проектирование b на подпространство, натянутое на столбцы A. Если столбцы линейно независимы, минимум единственен; если зависимы, минимум может достигаться на нескольких x, и тогда выбирают дополнительный критерий, например решение минимальной нормы через псевдообратную. Важно видеть эту формулу в общей цепочке: исходные данные задают матрицу наблюдений A и правую часть b, затем выбирается способ приблизить b в пространстве столбцов A. Критерий наименьших квадратов отвечает за прикладная задача наименьших квадратов, поэтому она не существует отдельно от ранга матрицы, ортогональности остатка и устойчивости вычислений. Если столбцы A хорошо различимы и данные имеют умеренный шум, нормальные уравнения могут дать понятный ручной путь. Если столбцы почти зависимы, лучше пользоваться QR или SVD, потому что они меньше усиливают ошибки округления. После вычисления результата полезно проверить три вещи: размерности всех матриц, величину остатка и связь с соседними формулами раздела. Такой подход превращает формулу из механической записи в рабочий инструмент анализа данных, регрессии, инженерных измерений и численной математики.

Как пользоваться формулой

  1. Сформируйте нормальную систему A и вектор b из данных.
  2. Запишите цель \|Ax-b\|_2^2.
  3. Найдите \hat x_{\mathrm{LS}} через производную градиента или устойчивые методы.
  4. Проверьте оптимальность через остаток: он должен быть ортогонален столбцам A или, в QR-записи, давать Q^T r=0.

Историческая справка

Метод наименьших квадратов сформировался на рубеже XVIII и XIX веков в астрономии и геодезии, где наблюдения неизбежно содержали ошибки. Адриен-Мари Лежандр опубликовал метод в 1805 году, а Карл Фридрих Гаусс утверждал, что применял его ранее при обработке астрономических наблюдений. Позже МНК стал базовым языком статистики, регрессии, численных методов и инженерной обработки измерений. В XX веке эта тема стала частью стандартной численной линейной алгебры: вычислительные машины сделали возможной массовую обработку переопределенных систем, но одновременно показали, что алгебраически эквивалентные формулы могут вести себя по-разному из-за округления. Поэтому учебники начали разделять теоретический вывод МНК, геометрическое объяснение через проекции и практические алгоритмы QR, Холецкого и SVD. Такой исторический сдвиг важен для пользователя: он объясняет, почему на странице рядом стоят не только “красивая формула”, но и условия применимости, ограничения и типичные ошибки.

Историческая линия формулы

Критерий связан прежде всего с работами Лежандра и Гаусса; современная линейно-алгебраическая запись через матрицу A и норму остатка стала стандартной уже в XX веке в численной линейной алгебре. Современная запись является результатом развития метода наименьших квадратов, матричной алгебры и численных методов; поэтому атрибуция здесь распределенная: классические идеи связаны с Гауссом и Лежандром, а устойчивые вычислительные формы — с более поздней численной линейной алгеброй.

Пример

Пусть модель y = a + bt строится по точкам (0,1), (1,2), (2,2). Матрица A имеет строки [1,0], [1,1], [1,2], вектор b=(1,2,2)^T, а неизвестный x=(a,b)^T. Для пробного x=(1,0.5)^T получаем Ax=(1,1.5,2)^T, остаток r=b-Ax=(0,0.5,0)^T и критерий ||r||^2=0.25. Если взять x=(1.1,0.45)^T, остатки изменятся, и значение критерия покажет, стало ли приближение лучше. Поэтому сама формула не “решает” задачу, а задает меру качества, которую дальше минимизируют нормальными уравнениями, QR-разложением или другим устойчивым методом.

Частая ошибка

Частая ошибка — минимизировать сумму самих остатков, где положительные и отрицательные ошибки могут взаимно уничтожаться. В МНК минимизируется сумма квадратов, поэтому большие отклонения получают больший вес. Еще одна ошибка — забывать, что масштаб столбцов A влияет на численную устойчивость и интерпретацию параметров.

Практика

Задачи с решением

Оценить целевое значение для кандидатного x

Условие. A=\begin{bmatrix}1&1\\1&2\\1&3\end{bmatrix}, b=(1,2,3)^\top, x=(1,0)^\top.

Решение. r=Ax-b=(-1,0,0)^\top, \|r\|_2^2=1.

Ответ. \|Ax-b\|_2^2 = 1.

Сравнить два кандидата

Условие. A=\begin{bmatrix}1&0\\1&1\end{bmatrix}, b=(1,2)^\top, x_1=(0,0)^\top, x_2=(1,2)^\top.

Решение. F(x_1)=5,\ F(x_2)=0.

Ответ. Лучшее значение даёт x_2=(1,2)^\top.

Дополнительные источники

  • Golub, Van Loan, Matrix Computations, Ch. 5
  • Strang, Linear Algebra and Its Applications, §Least Squares
  • NIST/SEMATECH e-Handbook, Least squares

Связанные формулы

Математика

Наименьшие квадраты через QR

$\hat{x}=R^{-1}Q^{\top}b,\quad A=QR$

После QR-раскладывания задача минимизации сводится к решению треугольной системы. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.

Математика

Нормальные уравнения в QR-форме

$A^T A x = A^T b,\quad R^T R x = R^T Q^T b$

Из A=QR получаем эквивалентное равенство через R, сохраняя идею нормальных уравнений. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.

Математика

Остаток в задаче ЛС и его ортогональность

$r=b-A\hat{x},\quad A^T r=0,\quad Q^T r=0$

Оптимальный LS-решение дает остаток, перпендикулярный всем столбцам A (и столбцам Q). Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.