3.9 【拓展】深度展开网络与数据-模型混合驱动范式

阅读前提示：本节为拓展内容，建议对经典算法的工作流程（尤其是 MUSIC 的协方差矩阵-特征值分解-谱搜索流程，以及稀疏重建类方法的迭代结构）有一定了解后再阅读，理解会更顺畅。如果对这些背景还不熟悉，可以先回顾第二章的 2.1—2.3 节再来。

回头看看我们在第三章已经走过的路：从纯粹数据驱动的 CNN 分类、LSTM 回归，到 3.8 节将两类方法做系统对比，我们始终在"经典方法"和"深度学习"这两个极端之间来回切换。但实践中，有一类方法站在两者之间：它既保留了经典算法的物理结构和可解释性，又通过数据学习克服了经典方法对理想条件的严苛依赖。这就是本节要介绍的深度展开网络（Deep Unfolding Networks）和更广泛的数据-模型混合驱动范式（Model-Based Deep Learning）。

3.9.1 两个范式，一个统一的困境

先说困境，再说解法。

经典 DOA 算法的底层逻辑是"推导"：先建立精确的物理模型，再从模型出发用数学推导出算法。MUSIC、ESPRIT、Capon 都遵循这条路线，它们的正确性和最优性在理想条件下有严格的理论保证。但"理想条件"是个苛刻的前提——阵列完全均匀、噪声是白噪声、信源不相干、快拍数充足……任何一条被违反，推导的基础就动摇了，性能就可能崩溃。

深度学习的底层逻辑是"拟合"：用神经网络逼近"输入到输出"的映射，不关心物理过程，只关心输入输出的统计规律。它的鲁棒性来自数据覆盖，不依赖手工推导的物理假设。但代价同样明显：黑盒，不可解释，泛化边界由训练集决定，而且完全抛弃了经典方法里蕴藏了几十年工程智慧的物理结构。

这两条路各自走向了一个极端。在实践中，工程师面对的问题往往是："我知道 MUSIC 在理想条件下是对的，但我的实际场景不理想——能不能既不完全放弃 MUSIC，又让它在困难条件下工作得更好？"

深度展开与混合驱动范式，正是对这个问题的一类系统性回答。

3.9.2 什么是深度展开：从迭代算法到神经网络层

"深度展开"（Deep Unfolding，也称算法展开 Algorithm Unrolling）的思想，可以用一句话概括：把经典迭代算法的每一轮迭代，展开成神经网络的一个层，并让原本需要手动调节的超参数变成可学习的参数。

为了理解这句话，先想想迭代算法是什么样的。很多信号处理算法的结构是这样的：给定初始值，反复执行一套固定的更新规则，每次更新依赖若干超参数（步长、惩罚系数、阈值……），直到收敛：

x^(0) = 初始值
x^(1) = f(x^(0); ρ, ξ, ...)
x^(2) = f(x^(1); ρ, ξ, ...)
⋮
x^(T) = f(x^(T-1); ρ, ξ, ...)  → 输出

超参数 $\rho$ 、 $\xi$ 通常对最终性能非常敏感，却没有简单的理论指导，只能靠经验或网格搜索来调节。更麻烦的是，不同迭代步可能需要不同的超参数值，而传统算法往往将它们设为固定常数，这限制了算法的表达能力。

深度展开做的事情，就是把上述结构"直立"起来：把 $T$ 轮迭代变成 $T$ 层网络，每层的计算操作照搬迭代公式，但超参数 $\rho^{(i)}$ 、 $\xi^{(i)}$ 在不同层可以取不同的值，且全部通过端到端的梯度下降来训练：

输入 y
  │
  ▼ 第 1 层（参数 ρ^(1), ξ^(1)）：和第 1 次迭代相同的计算
  │
  ▼ 第 2 层（参数 ρ^(2), ξ^(2)）：和第 2 次迭代相同的计算
  ⋮
  ▼ 第 T 层（参数 ρ^(T), ξ^(T)）
  │
输出 x̂

这样做有几个直接好处。第一，超参数不再需要手动调节，训练数据会自动找到最优值。第二，不同层的参数可以各不相同，比固定参数的迭代算法有更大的表达自由度。第三，层数（对应迭代次数）可以比传统算法收敛所需的轮数少得多，推理更快。第四，每一层的计算结构源于物理公式，意义明确，不是黑盒。

这就是深度展开的本质：算法的结构来自物理推导，参数的数值来自数据学习。它站在经典方法和纯数据驱动之间，兼具两者的优点。

3.9.3 什么是数据-模型混合驱动：比深度展开更广的框架

深度展开是数据-模型混合驱动范式的一个典型例子，但这个范式的边界比深度展开更宽。

更一般地，数据-模型混合驱动（Model-Based Deep Learning）的核心思想是：保留经典算法中有价值的物理结构，用神经网络替换其中容易受模型误差影响或难以手工设计的环节。被替换的部分，不一定是迭代超参数，也可以是某个中间计算步骤，例如协方差矩阵的估计、子空间的划分，或峰值位置的提取。

一个有用的比喻：想象经典算法是一台精密仪器，混合驱动的做法是找出仪器里最容易被灰尘堵塞的零件，换成能自我清洁的智能零件——其他零件照用，整台仪器的工作原理不变，只是在最脆弱的地方做了加固。

与端到端黑盒方法相比，混合驱动方法的优势体现在三个方面：

参数效率更高。黑盒方法需要学习完整的输入输出映射，参数量可能很大。混合方法只需学习经典算法里那几个"脆弱环节"，其余部分由物理先验直接给定，参数量往往小一到两个数量级，对训练数据的需求也相应降低。

可解释性得到保留。由于算法的骨架结构保留了，中间计算步骤的物理意义仍然清晰。例如，一个混合驱动的 MUSIC 变体仍然能输出可视化的伪谱，工程师可以直接观察谱的形状来判断算法是否正常工作——这是纯黑盒方法完全做不到的。

泛化性能更好。物理先验相当于一种强归纳偏置（inductive bias），它告诉网络"什么样的解是合理的"，从而在数据量有限时仍能给出合理的结果，而不像黑盒方法那样容易过拟合到训练集的统计规律。

3.9.4 一个贯穿后续小节的核心问题

有了这两个概念的铺垫，我们可以更清晰地看到接下来要介绍的三种方法各自在解决什么问题。

经典 DOA 算法有一个共同的结构特点：它们都是分步推进的。MUSIC 算法的流程是"估计协方差矩阵 → 特征值分解 → 划分子空间 → 谱搜索"；稀疏重建类方法（如 ADMM）则通过多轮迭代逐步收敛到稀疏解，每轮更新依赖若干手动调节的超参数。

这两类算法各有一个痛点：MUSIC 的前提是样本协方差矩阵 $\hat{\mathbf{R}}$ 能够准确估计真实协方差，而这在相干信号、宽带信号、快拍数极少、阵列误差等条件下都会失效；稀疏重建类方法的超参数对性能极其敏感，使用者往往难以调到合适的值，而且在单快拍场景下计算开销可能很高。

带着这两个痛点，我们来看三个具体工作：

ADMM-Net：把 ADMM 稀疏重建的迭代超参数变成可学习的，解决单快拍场景下的参数调节问题；
DA-MUSIC：识别 MUSIC 中协方差估计和峰值检测这两个脆弱环节，用神经网络模块替换，保留特征值分解和谱搜索的完整结构；
SubspaceNet：训练一个网络输出"更好的协方差矩阵"，使得下游任意子空间方法（MUSIC、ESPRIT、MVDR）都能在困难条件下正常工作。

3.9.5 ADMM-Net：稀疏重建算法的展开

稀疏重建 DOA 估计的基本思路

在介绍 ADMM-Net 之前，先把稀疏重建 DOA 估计的思路说清楚。

单快拍场景下（ $N = 1$ ），只有一个观测向量 $\mathbf{y} \in \mathbb{C}^M$ ，无法计算协方差矩阵，MUSIC 和 ESPRIT 完全失效。但如果对角度空间做密集离散化，得到 $D$ 个候选方向 $\{\phi_1, \phi_2, \ldots, \phi_D\}$ ，则可以把观测模型写成：

\mathbf{y} = \mathbf{A}_{\text{dic}}\,\mathbf{s} + \mathbf{n}

其中 $\mathbf{A}_{\text{dic}} = [\mathbf{a}(\phi_1), \mathbf{a}(\phi_2), \ldots, \mathbf{a}(\phi_D)] \in \mathbb{C}^{M \times D}$ 是过完备字典（ $D \gg M$ ）， $\mathbf{s} \in \mathbb{C}^D$ 是角度域的稀疏幅度向量——它的非零位置恰好对应真实 DOA 所在的格点。DOA 估计由此转化为一个**稀疏恢复（Sparse Recovery, SR）**问题：在 $\mathbf{s}$ 稀疏的先验下，从 $\mathbf{y}$ 恢复 $\mathbf{s}$ 。

**交替方向乘子法（ADMM）**是求解此类约束优化问题的经典迭代算法。在 DOA 的稀疏重建场景下，ADMM 的每轮迭代包含三步：

\mathbf{s}^{(i)} = \left(\mathbf{A}^H \mathbf{A} + \rho^{(i)} \mathbf{I}\right)^{-1} \mathbf{A}^H \left(\mathbf{y} + \rho^{(i)}(\mathbf{z}^{(i-1)} - \mathbf{u}^{(i-1)})\right)

\mathbf{z}^{(i)} = \mathcal{S}_{\xi^{(i)}}\!\left(\mathbf{s}^{(i)} + \mathbf{u}^{(i-1)}\right)

\mathbf{u}^{(i)} = \mathbf{u}^{(i-1)} + \mu^{(i)}\left(\mathbf{s}^{(i)} - \mathbf{z}^{(i)}\right)

第一步是带正则化的最小二乘重建，第二步是软阈值收缩（ $\mathcal{S}_\xi$ 是阈值为 $\xi$ 的软阈值函数，用于施加稀疏性），第三步更新拉格朗日乘子。这三步反复迭代 $I_s$ 轮后收敛。

每一步中的 $\rho^{(i)}$ 、 $\xi^{(i)}$ 、 $\mu^{(i)}$ 都是需要手动设置的超参数，而且不同的 $i$ 可能需要不同的值——这正是传统 ADMM 难以调参的根源。

ADMM-Net：把迭代展开成网络层

ADMM-Net 直接应用 3.9.2 节介绍的深度展开思想：将 $I_s$ 轮 ADMM 迭代展开为 $I_s$ 层神经网络，每层的计算操作完全保持 ADMM 的公式结构不变，只把原先手动设置的超参数 $\{\rho^{(i)}, \xi^{(i)}, \mu^{(i)}\}$ 变成可学习的参数，通过端到端训练来自动优化：

\boldsymbol{\Theta} = \left\{\rho^{(i)}, \xi^{(i)}, \mu^{(i)}\right\}_{i=1}^{I_s}

网络的输入是观测向量 $\mathbf{y}$ ，输出是稀疏幅度向量 $\hat{\mathbf{s}}$ ，训练标签是真实信号在角度域的幅度分布。损失函数用 MSE：

E(\boldsymbol{\Theta}) = \frac{1}{N_c} \sum_{(\mathbf{y}, \mathbf{s}^{\text{gt}}) \in \mathcal{T}} \|\hat{\mathbf{s}}(\mathbf{y}, \boldsymbol{\Theta}) - \mathbf{s}^{\text{gt}}\|_2^2

通过反向传播，网络自动学习到每一迭代层的最优超参数组合。ADMM-Net 相比传统 ADMM 有几个直接优势：不需要手动调参；层数（对应迭代次数）可以远少于传统 ADMM 收敛所需的轮数，推理速度更快；不同层的参数各不相同，给了模型更大的表达自由度。

更重要的是，这个网络对每个计算步骤的意义是清晰的——第 $i$ 层的重建层做的就是带正则化的最小二乘，收缩层做的就是稀疏投影，可解释性远优于黑盒 CNN。

3.9.6 DA-MUSIC：把神经网络插入 MUSIC 的关键环节

ADMM-Net 是对稀疏重建类算法的展开，DA-MUSIC（Deep Augmented MUSIC）则是另一条路——它不展开 MUSIC 的迭代结构，而是识别出 MUSIC 算法中最容易被模型误差破坏的环节，用神经网络替换这些环节，其余部分保持原样。这是 3.9.3 节介绍的混合驱动范式的典型体现。

MUSIC 的弱点在哪里

回顾 MUSIC 的完整流程：

\hat{\mathbf{R}} = \frac{1}{N}\mathbf{X}\mathbf{X}^H \xrightarrow{\text{EVD}} \hat{\mathbf{U}}_n \xrightarrow{\text{谱搜索}} P_{\text{MUSIC}}(\theta) \xrightarrow{\text{峰值检测}} \hat{\boldsymbol{\theta}}

这里存在两个脆弱环节。第一个是样本协方差矩阵 $\hat{\mathbf{R}}$ 的估计——当信号相干、快拍不足、阵列有误差时， $\hat{\mathbf{R}}$ 无法被分解为有意义的信号子空间与噪声子空间，整个 MUSIC 流程因此崩溃。第二个是峰值检测——谱搜索的分辨率受网格密度限制，且对谱形状的噪声敏感。

DA-MUSIC 的设计思路就是针对这两个弱点：

用 GRU（门控循环单元）替代协方差矩阵估计：把原始快拍序列 $\mathbf{x}(1), \mathbf{x}(2), \ldots, \mathbf{x}(T)$ 逐步送入一个 GRU，由网络自动学习如何从时域数据中提取出一个"代理协方差矩阵" $\tilde{\mathbf{K}}$ ，使其具有良好的信号-噪声子空间可分离性。这个 $\tilde{\mathbf{K}}$ 不需要是统计意义上的真实协方差，只需要满足特征值分解后能得到清晰的子空间划分。

用 MLP 替代峰值检测：将谱搜索得到的空间谱 $P(\psi)$ 的离散化采样值送入一个小型多层感知机，由网络直接预测 DOA 角度，绕开了谱搜索分辨率的限制。

整个 DA-MUSIC 的数据流如下：

原始快拍序列 x(1),...,x(T)
      │
      ▼  GRU（学习代理协方差，替换传统协方差估计）
  代理协方差矩阵 K̃
      │
      ▼  特征值分解（保留 MUSIC 的核心结构，不做修改）
  信号子空间 / 噪声子空间
      │
      ▼  代入 MUSIC 谱搜索公式（固定，非学习）
  空间谱 P(ψ)
      │
      ▼  MLP（学习从谱到 DOA 的映射，替换传统峰值检测）
  DOA 估计值 θ̂

关键在于：特征值分解和谱搜索这两个步骤原封不动保留，MUSIC 的核心逻辑和物理意义完全没有丢失。被替换的只有两个纯粹"统计估计"的环节。这使得 DA-MUSIC 在输出端仍然能给出标准的 MUSIC 伪谱，工程师可以直接用肉眼检查谱形是否合理，可解释性得到保留。

DA-MUSIC 能解决什么问题

DA-MUSIC 的实验结果显示，它能够有效克服经典 MUSIC 的以下限制：

相干信号：由于 GRU 学习的代理协方差不依赖统计独立性假设，DA-MUSIC 在完全相干信号条件下的定位精度显著优于传统 MUSIC，也优于基于空间平滑的 SS-MUSIC 变体。

宽带信号：GRU 在时域直接处理快拍序列，本质上能学习到频率聚焦操作，使 DA-MUSIC 在多频段场景下无需额外的宽带扩展处理就能工作。

少快拍与低 SNR：仅有 $T = 2$ 个快拍时，传统 MUSIC 已经无法工作，而 DA-MUSIC 仍能给出有意义的估计，这来源于 GRU 对时域信息的端到端学习能力。

阵列失配：GRU 在训练过程中见过各种阵列误差的样本，自然学到了对这类误差的抵抗能力，而无需任何显式的校准步骤。

3.9.7 SubspaceNet：用网络学习"更好的协方差矩阵"

如果说 DA-MUSIC 是在 MUSIC 的流程内部"打补丁"，SubspaceNet 则走了一条更简洁的路——用一个专门设计的神经网络学习从观测数据到代理协方差矩阵的映射，让这个代理协方差矩阵在任何条件下都能被正确分解为信号子空间与噪声子空间。

SubspaceNet 的核心洞察是：MUSIC、Root-MUSIC、ESPRIT 等所有子空间方法的失效，根源都在于协方差矩阵估计的不准。那么，只要有一个网络能在各种困难条件下输出一个"可被正确分解"的协方差矩阵，下游的所有子空间方法就都能正常工作，各自保持其原有的物理意义和可解释性。

这个思路可以用一个工程直觉来理解：SubspaceNet 相当于给整个子空间方法家族安装了一个"预处理适配器"——来什么样的脏数据，适配器先把它清洗成子空间方法能够处理的干净格式，下游的 MUSIC、Root-MUSIC、ESPRIT 等完全不用修改，照常工作。

设计的巧妙之处在于训练方式：SubspaceNet 被训练为 Root-MUSIC 算法的一部分——把 Root-MUSIC 的多项式求根步骤转化为可微的计算图，整个"SubspaceNet → 特征值分解 → Root-MUSIC 求根"的流水线端到端地用 DOA 估计误差来监督训练，而不需要提供"真实协方差矩阵"作为中间监督信号。训练完成后，SubspaceNet 输出的代理协方差可以插入任意子空间方法（MUSIC、Root-MUSIC、ESPRIT、MVDR），作为通用的协方差替换件。

SubspaceNet 在多个严苛场景下展示了出色的性能：完全相干信源、宽带 OFDM 信号、快拍数低至 $T = 2$ 的极端情形，以及阵列方向向量失配。在相干信源场景下，SubspaceNet 使得子空间方法能够清晰地分离出对应三个信源的三个主导特征值，而传统协方差估计只能看到一个主导特征值。这意味着 SubspaceNet 提供的代理协方差质量，从统计意义上来说比样本协方差更接近理论协方差。

SubspaceNet 并不是一个与经典方法竞争的黑盒网络，而是一个增强经典方法能力的"前处理模块"，与子空间方法之间是协作而非替代的关系。

3.9.8 三种方法的对比与共同逻辑

把本节介绍的三种方法放在一起，可以看到一条清晰的设计演进谱系，它们在"用学习替换哪一部分"这个问题上给出了不同的答案：

方法	哪部分用学习	哪部分保留经典结构	主要解决的问题
ADMM-Net	迭代超参数 $\{\rho, \xi, \mu\}$	ADMM 迭代操作结构	单快拍稀疏重建的参数调节
DA-MUSIC	协方差估计（GRU）+ 峰值检测（MLP）	特征值分解、谱搜索公式	相干信号、宽带、少快拍
SubspaceNet	协方差矩阵映射（深度自相关网络）	完整子空间方法（MUSIC/ESPRIT/MVDR）	通用子空间方法的协方差增强

尽管具体设计不同，三者共享一套核心逻辑：识别出经典算法中对模型假设最敏感的环节，用神经网络替换这些环节，而让算法的骨架结构保持不变。这是数据-模型混合驱动范式的精髓，也是它与 3.3—3.6 节介绍的端到端黑盒方法的根本区别。

端到端黑盒方法把整个"输入到角度"的映射都交给网络，追求的是最高的表达能力和性能上限；混合驱动方法则在网络容量与可解释性之间取得平衡，用更少的参数在更困难的场景下保持经典方法的可解释框架。两条路没有绝对的优劣，选择取决于任务对可解释性的要求，以及可用的训练数据量。

3.9.9 进一步阅读的建议

本节的介绍停留在思路层面，没有深入推导数学细节和代码实现，这是有意为之的——读懂本节的目的是建立概念认知和阅读原始论文的背景，而不是复现全部细节。有兴趣深入的读者，可以沿以下路径推进：

ADMM-Net 的推导相对友好，对压缩感知有基本了解的读者可以直接阅读原文（Wang et al., 2024，参考文献 [14]），代码结构也较为清晰，可以作为"第一个动手实现的深度展开网络"。

DA-MUSIC（参考文献 [10]）和 SubspaceNet（参考文献 [9]）在思路上更接近，但 SubspaceNet 对 Root-MUSIC 的可微化处理是理解其训练机制的关键，建议先熟悉 Root-MUSIC 多项式求根的数学形式（2.3 节有简介），再阅读原文的 Section III。

更广泛的数据-模型混合驱动框架可参考 Shlezinger 等人（2023）的综述文章，它系统梳理了从 LISTA 到 SubspaceNet 等一系列工作的统一视角，是该方向入门的极好参考。

3.9.10 小结

本节从两个层面介绍了深度展开与数据-模型混合驱动范式。

概念层面：深度展开把经典迭代算法的每一轮展开成网络的一层，让超参数从手动设置变成数据学习，同时保留算法的物理结构；更广泛的混合驱动范式则识别经典算法中最脆弱的环节，用神经网络模块做替换，其余部分保持不变。两者的共同价值是：比纯数据驱动方法更节省数据、更可解释、泛化更好；比纯经典方法更鲁棒、适应性更强。

方法层面：ADMM-Net 通过展开学习单快拍稀疏重建的超参数；DA-MUSIC 用 GRU 和 MLP 替换协方差估计与峰值检测两个脆弱环节，保留 MUSIC 的子空间分解结构；SubspaceNet 训练一个通用的协方差代理模块，让整个子空间方法家族都能在困难条件下正常工作。

这个范式目前还在快速发展之中，是 DOA 估计领域最活跃的研究前沿之一。至此，第三章的全部内容已经完整呈现：从深度学习 DOA 估计的动机（3.1 节），到三种任务形式（3.2—3.6 节），到完整的代码框架（3.7 节），到与经典方法的系统对比（3.8 节），最后到数据-模型混合驱动这一前沿方向（3.9 节）。第四章将把视线从算法层面转向工程场景：一篇真实论文的复现、毫米波雷达信号处理的完整流程，以及仿真与实测之间那道真实存在的鸿沟。

3.9.1 两个范式，一个统一的困境​

3.9.2 什么是深度展开：从迭代算法到神经网络层​

3.9.3 什么是数据-模型混合驱动：比深度展开更广的框架​

3.9.4 一个贯穿后续小节的核心问题​

3.9.5 ADMM-Net：稀疏重建算法的展开​

稀疏重建 DOA 估计的基本思路​

ADMM-Net：把迭代展开成网络层​

3.9.6 DA-MUSIC：把神经网络插入 MUSIC 的关键环节​

MUSIC 的弱点在哪里​

DA-MUSIC 能解决什么问题​

3.9.7 SubspaceNet：用网络学习"更好的协方差矩阵"​

3.9.8 三种方法的对比与共同逻辑​

3.9.9 进一步阅读的建议​

3.9.10 小结​