Проецирование на пространство столбцов Q удобно через матрицу QQ^T. Эта формула относится к ортогонализации столбцов матрицы и объясняет, как заменить исходный набор векторов ортонормированным базисом с верхнетреугольными коэффициентами перехода.
$P=QQ^{\top},\quad P^2=P,\quad P^{\top}=P$
После QR-раскладывания задача минимизации сводится к решению треугольной системы. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.
$\hat{x}=R^{-1}Q^{\top}b,\quad A=QR$
Из A=QR получаем эквивалентное равенство через R, сохраняя идею нормальных уравнений. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.
$A^T A x = A^T b,\quad R^T R x = R^T Q^T b$
Оптимальный LS-решение дает остаток, перпендикулярный всем столбцам A (и столбцам Q). Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.
$r=b-A\hat{x},\quad A^T r=0,\quad Q^T r=0$
Любая квадратичная форма задаётся симметричной (или эквивалентно любая) матрицей A через скалярное произведение вектора x с образом A x.
$q(x)=x^T A x = \sum_{i=1}^{n}\sum_{j=1}^{n} a_{ij}x_i x_j, \quad x \in \mathbb R^n.$
В x^T A x участвуют только симметричные коэффициенты, поэтому любую матрицу A можно заменить симметричной частью без изменения квадратичной формы.
$x^T A x = x^T \frac{A+A^T}{2} x = x^T A_{\mathrm{sym}} x.$
Любую квадратичную форму двух- и трёхпеременных можно записать через матрицу, где коэффициенты при смешанных членах делятся пополам и переносятся в симметричные ячейки.
$q(x,y,z)=a x^2+2bxy+2cxz+d y^2+2eyz+f z^2=\begin{bmatrix}x&y&z\end{bmatrix}\begin{bmatrix}a&b&c\\ b&d&e\\ c&e&f\end{bmatrix}\begin{bmatrix}x\\y\\z\end{bmatrix}.$
При обратимой линейной замене x = S y матрица формы меняется по сопряжённому преобразованию, а сама квадратичная форма остаётся той же величиной.
$x=S y, \quad Q(y)=x^T A x = y^T (S^T A S) y = y^T B y.$
Если у квадратичной формы есть линейная часть, её удобно убрать сдвигом переменных x→x+x₀ и затем сводить оставшуюся чистую квадратичную часть к главным осям.
$x^T A x+2b^T x+c=(x+x_0)^T A (x+x_0)+c-b^T A^{-1} b, \quad x_0=-A^{-1}b, \ (A \text{ nonsingular}).$
В плоскости поворот координат на θ (u,v) убирает смешанный член q. Главные оси соответствуют направлениям, где кросс-термин исчезает.
$q(x,y)=ax^2+2bxy+cy^2, \quad \tan 2\theta=\frac{2b}{a-c}, \quad q = \lambda_1 u^2 + \lambda_2 v^2.$
Для симметричной A всегда существует ортогональная матрица собственных векторов, которая переводит квадратичную форму в диагональный вид и задаёт главные оси.
$A=Q\Lambda Q^T, \quad Q^TQ=I, \quad Q=[q_1\dots q_n], \; q(x)=x^T A x=(Q^Tx)^T \Lambda (Q^Tx).$
В координатах главных осей квадратичная форма становится суммой квадратов с весами-коэффициентами λ_i, что упрощает классификацию многообразий.
$q(x)=x^T A x = z^T\Lambda z = \sum_{i=1}^{n}\lambda_i z_i^2, \quad x=Qz.$
Критерий Сильвестра даёт практичный способ определить знак квадратичной формы через детерминанты ведущих главных миноров симметрической матрицы.
$A\succ 0 \iff \Delta_k>0 \ \forall k, \quad \Delta_k=\det(A_k), \quad A_k \in \mathbb R^{k\times k}.$
На единичной сфере максимум и минимум квадратичной формы достигаются на собственных векторах, соответствующих λ_max и λ_min.
$\lambda_{\min} \le \frac{x^T A x}{x^T x} \le \lambda_{\max}, \quad A=A^T.$
Критерий наименьших квадратов измеряет суммарную квадратичную ошибку между наблюдаемым вектором b и моделью Ax, поэтому превращает переопределенную систему в задачу минимизации.
$\hat x_{\mathrm{LS}}=\arg\min_{x\in\mathbb R^n} \|Ax-b\|_2^2 = \arg\min_x (Ax-b)^\top (Ax-b).$
Нормальные уравнения A^T A x = A^T b задают стационарное условие задачи МНК и позволяют найти параметры, при которых остаток ортогонален всем столбцам матрицы A.
$A^\top A\,\hat x = A^\top b.$
Ортогональность невязки означает, что в оптимальном МНК-решении остаток r=b-Ax перпендикулярен каждому столбцу A и не содержит направления, которое можно еще улучшить моделью.
$r=b-A\hat x,\quad A^\top r=0.$
Если столбцы A линейно независимы, решение МНК можно записать явно как x=(A^T A)^{-1}A^T b, потому что матрица A^T A становится обратимой.
$\hat x=(A^\top A)^{-1}A^\top b,\qquad A^\top A\ \text{невырождена}.$
Разложение Холецкого применяет положительную определенность A^T A и заменяет решение нормальных уравнений двумя треугольными системами.
$A^\top A = LL^\top,\; L y=A^\top b,\; L^\top \hat x = y.$
При переходе к нормальным уравнениям число обусловленности фактически возводится в квадрат, поэтому ошибки округления и шум в данных могут заметно усилиться.
$\kappa_2(A^\top A)=\frac{\sigma_{\max}^2}{\sigma_{\min}^2}=\kappa_2(A)^2.$
QR-разложение решает задачу МНК без формирования A^T A: если A=QR, то параметры находятся из треугольной системы R x = Q^T b.
$A=QR,\quad Q^\top Q=I,\quad \|Ax-b\|_2^2=\|Rx-Q^\top b\|_2^2+\|Q_\perp^\top b\|_2^2.$
Псевдообратная матрица A^+ записывает МНК-решение как x=A^+b и обобщает обратную матрицу на прямоугольные и вырожденные системы.
$\hat x=A^+b,\qquad A^+=(A^\top A)^{-1}A^\top\ (\operatorname{rank}(A)=n).$
Матрица P=A(A^T A)^{-1}A^T проецирует b на пространство столбцов A, а вектор Pb является предсказанием модели МНК. Эта запись важна не как отдельный трюк, а как часть практического языка линейных моделей и обработки измерений.
$\hat b = A\hat x = A A^+ b,\qquad P=AA^+,\ P^\top=P,\ P^2=P.$
Малую систему нормальных уравнений 2×2 можно решить вручную через определитель или исключение, не строя полную обратную матрицу.
$\begin{aligned} \begin{bmatrix}c_{11} & c_{12}\\ c_{12} & c_{22}\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}d_1\\d_2\end{bmatrix},\;\Delta=c_{11}c_{22}-c_{12}^2,\\ x_1=\frac{c_{22}d_1-c_{12}d_2}{\Delta},\quad x_2=\frac{-c_{12}d_1+c_{11}d_2}{\Delta}. \end{aligned}$
Сингулярное разложение представляет матрицу как произведение двух ортогональных матриц и диагональной матрицы сингулярных чисел. Это универсальная форма разложения, которая работает для прямоугольных матриц и показывает главные направления действия линейного отображения.
$A=U\Sigma V^T,\quad U^TU=I,\quad V^TV=I$
Ранг матрицы равен количеству ненулевых сингулярных чисел. Эта формула связывает алгебраическое понятие размерности образа с численной диагностикой зависимости строк и столбцов.
$\operatorname{rank}(A)=\#\{i:\sigma_i>0\}$
Спектральная норма матрицы равна ее наибольшему сингулярному числу. Она показывает максимальный коэффициент растяжения вектора при действии линейного отображения.
$\|A\|_2=\sigma_{\max}(A)=\sqrt{\lambda_{\max}(A^TA)}$
Квадрат нормы Фробениуса равен следу матрицы A^T A, сумме квадратов всех элементов и сумме квадратов сингулярных чисел. Это удобная мера общего размера матрицы.
$\|A\|_F^2=\operatorname{tr}(A^TA)=\sum_{i,j}a_{ij}^2=\sum_k\sigma_k^2$
След произведения матриц не меняется при циклической перестановке множителей, если все произведения определены. Это свойство помогает упрощать доказательства, производные матричных функций и выражения с нормами.
$\operatorname{tr}(AB)=\operatorname{tr}(BA),\quad \operatorname{tr}(ABC)=\operatorname{tr}(BCA)=\operatorname{tr}(CAB)$
Дополнение Шура выражает эффективный блок матрицы после исключения другого блока. Оно появляется при блочном обращении матриц, решении систем, вычислении определителей и условных распределениях в статистике.
$S=D-CA^{-1}B$
Формула обращает блочную матрицу через обратный блок A и обратное дополнение Шура. Она показывает, как получить обратную матрицу без обращения всей матрицы целиком.
$\begin{pmatrix}A&B\\C&D\end{pmatrix}^{-1}=\begin{pmatrix}A^{-1}+A^{-1}BS^{-1}CA^{-1}&-A^{-1}BS^{-1}\\-S^{-1}CA^{-1}&S^{-1}\end{pmatrix},\quad S=D-CA^{-1}B$
Лемма об определителе показывает, как меняется определитель обратимой матрицы при ранговом обновлении uv^T. Вместо пересчета всего определителя достаточно вычислить один скаляр.
$\det(A+uv^T)=\det(A)\left(1+v^TA^{-1}u\right)$
Формула Шермана-Моррисона дает обратную матрицу после рангового обновления A+uv^T. Она позволяет обновить уже известную обратную матрицу без полного повторного обращения.
$(A+uv^T)^{-1}=A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}$
Формула Вудбери обобщает обновление обратной матрицы на добавку малого ранга UCV. Она позволяет заменить обращение большой матрицы обращением меньшей матрицы.
$(A+UCV)^{-1}=A^{-1}-A^{-1}U(C^{-1}+VA^{-1}U)^{-1}VA^{-1}$