FSO的数学原理简要描述如下（Baker，2000）。在一个循环资料同化预报系统中，当前分析时刻的分析场一般由前一个时刻分析场产生的短时预报场经过当前观测修正而得到。令 :math:`x_a` 表示分析时刻 :math:`t=0` 的分析场，而 :math:`x_b` 表示前一个同化预报循环产生的短期预报背景场。则观测对分析的影响可以表示为:

    .. math::
        :label: e1

        x_a = x_b + \mathrm{K} \delta y \; ;\; \delta y = y - H(x_b)
        
式 :eq:`e1` 中 :math:`x_a` 为分析场，:math:`x_b` 为背景场，:math:`y` 为观测值，:math:`\mathrm{K}` 为 *Kalman* 增益矩阵，:math:`H` 为观测算子，:math:`\delta y` 为更新变量。从 :eq:`e1` 可以推导出分析场对观测和背景场的敏感梯度可写为：

    .. math::
        :label: e2

        \frac{\partial x_a}{\partial y} = \mathrm{K}^\intercal \; ; \; \frac{\partial x_a}{\partial x_b} = \mathbf{I} - \mathrm{H}^\intercal \mathrm{K}^\intercal \; ; \; \mathrm{H} = \frac{\partial x_a}{\partial x_b} 

式 :eq:`e2` 中 :math:`\mathrm{H}` 为切线性观测算子,上标 :math:`\intercal` 代表矩阵转置，:math:`\mathrm{K}^\intercal` 代表了同化系统的伴随系统。

考虑一个预报，其预报方程可以写为:

    .. math::
        :label: e3

        x^f = M(x^0)

式 :eq:`e3` 中 :math:`x^f` 为模式预报场，:math:`x^0` 为模式初始场，:math:`M` 为非线性数值预报模式。

定义在某时刻的一个模式预报误差函数:

    .. math::
        :label: e4
      
        J = \frac{1}{2} ( x^f - x^t )^\intercal \mathrm{C} ( x^f - x^t )

式 :eq:`e4` 中，:math:`\mathrm{C}` 为权重矩阵，一般为对角矩阵。从 :eq:`e4` 中可以推导出预报误差函数 :math:`J` 对初始场（如果经过了同化分析，初始场就是同化系统中的分析场，:math:`x^0` 即为 :math:`x_a` ）的敏感性梯度：

    .. math::
        :label: e5

        \frac{\partial J}{\partial x_a} = \frac{\partial x^f}{\partial x_a} \mathrm{C} ( x^f - x^t ) = \frac{\partial M(x_a)}{\partial x_a} \mathrm{C} ( x^f - x^t ) = \mathrm{M}^\intercal \mathrm{C} ( x^f - x^t )

式 :eq:`e5` 中 :math:`x^t` 为真值，:math:`\mathrm{M}` 为非线性模式的切线性模式，:math:`\mathrm{M}^\intercal` 为 :math:`\mathrm{M}` 模式的伴随模式。联合式 :eq:`e1`，:eq:`e4`, :eq:`e5` 可推导出模式预报误差函数 :math:`J` 对观测的敏感梯度：

    .. math::
        :label: e6
        
        \frac{\partial J}{\partial y} = \frac{\partial x_a}{\partial y} \frac{\partial J}{\partial x_a} = \mathrm{K}^\intercal \frac{\partial J}{\partial x_a} = \mathrm{K}^\intercal \mathrm{M}^\intercal \mathrm{C} ( x^f - x^t )

因此，从式中可以看到，预报误差对观测的敏感性梯度需要计算模式的伴随和同化系统的伴随。在同化系统中，观测资料对预报误差的贡献（Observation impacts）一级近似为：

    .. math::
        :label: e7

        \delta J = \langle \frac{\partial J}{\partial y}\, , \delta y \rangle = \langle \mathrm{K}^\intercal \frac{\partial J}{\partial x_a }\, , y - H(x_b) \rangle= \langle \frac{\partial J}{\partial x_a} \, , \mathrm{K} ( y - H(x_b)) \rangle = \langle \frac{\partial J}{\partial x_a} \, , \delta x_a \rangle   

式 :eq:`e7` 中，:math:`\langle \, , \rangle` 为内积算符。

由式 :eq:`e7` 可知，观测对于预报的影响可以解释为：:math:`\delta y = y- H(x_b)` 在预报误差对于观测敏感性梯度上的投影；或是，分析增量在预报对于初值的敏感性的投影。从式 :eq:`e7` 可以看出，当误差改变为负值时，预报误差减少，同化观测提高预报能力；当 :math:`\delta e` 为正值时，预报误差增大，同化观测降低预报能力。具体实现上，在四维变分同化系统中，可以利用既有的伴随模式及隐式求解增益矩阵 来评估分析增量及每种观测的对于预报误差的贡献。

在实际的同化系统中，同化资料后主要考察在背景场的基础上同化资料对预报误差的贡献。由背景场作为初始场的预报误差和分析场作为初始场的预报误差分别为:

    .. math::
        :label: e8

        e_b = \frac{1}{2} (x_b^f - x^t)^\intercal \mathrm{C} (x_b^f - x^t) = \frac{1}{2} \langle (x_b^f - x^t) , (x_b^f - x^t) \rangle

    .. math::
        :label: e9

        e_a = \frac{1}{2} (x_a^f - x^t)^\intercal \mathrm{C} (x_a^f - x^t) = \frac{1}{2} \langle (x_a^f - x^t) , (x_a^f - x^t) \rangle

定义 :math:`e_a` 和 :math:`e_b` 的差为：

    .. math::
        :label: e10

        \delta e = e_a - e_b

从式 :eq:`e8` ，:eq:`e9` 可以得到一阶偏导数：

    .. math::
        :label: e11

        \frac{\partial e_a}{\partial x_a^f} = \mathrm{C} (x_a^f - x^t)

    .. math::
        :label: e12

        \frac{\partial e_a}{\partial x_a^f} = \mathrm{C} (x_a^f - x^t)

所以

    .. math::
        :label: e13

        \delta e = \langle \frac{\partial e_a}{\partial x_a^f} , (x_a^f - x^t) \rangle - \langle \frac{\partial e_b}{\partial x_b^f} , (x_b^f - x^t) \rangle

利用 :eq:`e11` 、:eq:`e12` 和 :eq:`e13` 可得:

    .. math::
        :label: e14

        \delta e = \langle (x_a^f - x_b^f) , \frac{\partial e_a}{\partial x_a^f} + \frac{\partial e_b}{\partial x_b^f} \rangle = \langle (x_a - x_b) , \frac{\partial e_a}{\partial x_a} + \frac{\partial e_b}{\partial x_b} \rangle

式 :eq:`e14` 利用式 :eq:`e5` :math:`x_a^f-x_b^f` 可以近似展开 :eq:`e15` 可以推导出右边的表达式

    .. math::
        :label: e15

        x_a^f - x_b^f = \mathrm{M}_b^\intercal (x_a -x_b) = \mathrm{M}_a^\intercal (x_a - x_b)

因此采用不同的近似，:eq:`e14` 有不同的表达形式。Gelaro等（2007）给出了5种不同的表达形式：

    .. math::
        :label: e16
  
        \delta e_1 = 2(x_a - x_b^\intercal \mathrm{M}_b^\intercal \mathrm{C} (x_a^f - x^t)

    .. math::
        :label: e17

        \delta e_2 = (x_a - x_b)^\intercal [\mathrm{M}_b^\intercal \mathrm{C} (x_a^f - x^t) + \mathrm{M}_a^\intercal \mathrm{C} (x_b^f - x^t)]

    .. math::
        :label: e18

        \delta e_3 = (x_a - x_b)^\intercal [\mathrm{M}_b^\intercal \mathrm{C} (x_b^f - x^t) + \mathrm{M}_a^\intercal \mathrm{C} (x_a^f - x^t)]

    .. math::
        :label: e19

        \delta e_4 = (x_a - x_b)^\intercal [\mathrm{M}_a^\intercal \mathrm{C} (x_a^f - x^t) + \mathrm{M}_a^\intercal \mathrm{C} (x_b^f - x^t)]

    .. math::
        :label: e20

        \delta e_5 = (x_a - x_b)^\intercal [\mathrm{M}_b^\intercal \mathrm{C} (x_b^f - x^t) + \mathrm{M}_b^\intercal \mathrm{C} (x_a^f - x^t)]

以式 :eq:`e16` 为例，将 :eq:`e1` 代入 :eq:`e16` :

    .. math::
        :label: e21

        \delta e_1 = 2 \delta y^\intercal \mathrm{K}^\intercal \mathrm{M}_b^\intercal \mathrm{C} (x_a^f - x^t)

基于集合的FSO，关键在于利用一组集合扰动的线性组合来近似表示扰动的时间演变，进而省略非线性模式的切线性与伴随模式。在集合预报系统中，已知分析扰动与预报扰动的前提下，式 :eq:`e6` - :eq:`e7` 中，增益矩阵及线性模式与增益矩阵的组合可以表示为 (Kalnay 等，2012):

    .. math::
        :label: e22

        \mathrm{K} = \frac{1}{K-1} \mathrm{X}_0^a {\mathrm{X}_0^a}^\intercal \mathrm{H}^\intercal \mathrm{R}^{-1}

    .. math::
        :label: e23

        \mathrm{M} \mathrm{K} = \frac{1}{K-1} \mathrm{M} \mathrm{X}_0^a {\mathrm{X}_0^a}^\intercal \mathrm{H}^\intercal \mathrm{R}^{-1} \approx \frac{1}{K-1} \mathrm{X}_{t|0}^f {\mathrm{Y}_0^a}^\intercal \mathrm{R}^{-1}


    .. math::
        :label: e24

        \bigtriangleup e^2 \approx \frac{1}{K-1} \delta y_0^\intercal \mathrm{R}^{-1} \mathrm{Y}_0^a \mathrm{X}_{t|0}^{f^\intercal} \mathrm{C} (e_{t|0} + e_{t|-6})
        
其中：:math:`\mathrm{Y}_0^a = \mathrm{H} \mathrm{X}_0^a` 为分析扰动在观测空间的表示。