PREP pipeline：大规模脑电图分析的标准化预处理

文献：Bigdely-Shamlo, N., Mullen, T., Kothe, C., Su, K.-M., & Robbins, K. A. (2015). The PREP pipeline: standardized preprocessing for large-scale EEG analysis. Frontiers in Neuroinformatics, 9. https://doi.org/10.3389/fninf.2015.00016

原文

1.早期预处理 ¶

PREP 管道的理念是执行将数据标准化为对各种应用程序有用的形式所需的预处理，同时尽可能多地保留信号。

在不进行过滤策略的情况下去除线路噪声。
相对于“真实”平均参考的估计值来稳健地参考信号。
检测并插入与此参考相关的不良通道。
保留足够的信息以允许用户使用另一种方法重新引用或撤消特定通道的插值。

1.去除线路噪声 ¶

许多分析师会自动执行 60 Hz 的陷波滤波器以消除线路噪声。此类陷波滤波器通常使用 10Hz 或更大的陷波宽度，导致 50 至 70Hz 频率的信号严重失真。对信号应用低通滤波器（例如 40 Hz）的分析，可能会排除某些高频信号的研究。一些研究还表明，非可塑低通滤波可以显著改变 ERP 的开始时间。此外，Barnett 和 Seth (2011) 表明，滤波，尤其是低通滤波，会对格兰杰因果关系（Granger causality ）和其他连通性计算产生破坏性影响。

Mitra 和 Pesaran (1999) 提出了一种多锥度分解方法，用于识别和去除线路噪声分量，同时最大限度地减少背景信号失真。

Mullen (2012) 开发的 cleanline EEGLAB 插件，此方法使用短滑动窗口（默认为 4 秒，滑动 1 秒）遍历数据。

cleanline 方法拟合频域回归模型，以估计嵌入在局部白噪声中的指定频率的确定性正弦曲线的幅度和相位。这是相位和幅度未知的正弦线噪声的理想模型。 Thompson F 检验评估复振幅是否显著非零。如果幅度显著（p < 0.01），则该方法为线路噪声频率重建时域正弦曲线。该方法使用平滑参数 tau（默认为 100）指定的 sigmoidal 加权平均值将连续重叠窗口的结果缝合在一起。最后，该方法从数据中减去该拟合信号。重复这个过程（默认情况下最多 10 次迭代），直到指定频率的正弦波幅度与背景没有显著差异。

2.高通滤波和线路噪声去除交互 ¶

高通滤波对 ERP 和连通性分析存在影响。最好在不采用特定高通滤波策略的情况下执行线路噪声去除以及参考和不良通道插值。

PREP 管道使用 EEGLAB pop_eegfiltnew 函数。使用默认滤波器设置和 1 Hz 高通。双精度计算是必不可少的，因为单精度四舍五入会迅速破坏线性运算的任何自然交换性。许多 EEGLAB 函数例行调用 EEGLAB eeg_checkset 函数，该函数默认将 EEG 数据转换为单精度。用户可以通过使用 pop_editoptions 函数将 option_single 设置为 false 来覆盖这些默认值。 PREP 库中的顶级函数自动将 option_single 设置为 false 并始终保持双精度计算。

3.重参考 ¶

一些 EEG 设备（例如 Neuroscan）使用直接应用共模抑制的放大器，而其他设备（例如 Biosemi）则要求研究人员在后处理中减去参考以实现最佳信号。参考信号的常见选择包括特定通道的信号、乳突通道、两个乳突通道的平均值或整体信号平均值。所有这些选择都是有问题的。对于乳突或普通平均参考，EEG 传感器的接触不良会相对于其他通道将相应的信号方差增加几个数量级，从而污染整个数据集。去除所有通道的平均值在一定程度上减轻了这种影响，但并不能消除问题。单个异常值可能会严重扭曲平均值。

由于多种原因，使用乳突参考对于大规模分析是有问题的。许多研究人员根本不记录乳突，实际记录位置可能因记录乳突的实验而异。此外，使用乳突参考会引入单点故障——在实验期间的任何时间点松动的乳突都会引入巨大的伪迹。平均参考产生的数据与乳突参考产生的统计数据不同。这些差异会影响后续操作的一致性。

为了减轻参考和不良通道之间的相互作用，引入了一种强大的参考算法。稳健参考的前提是，当预处理在不良通道检测之前应用平均参考时，噪声通道会不可恢复地污染信号。为了获得一致的参考并统一检测不良通道，必须在没有不良通道时估计真正的平均参考。

4.参考过程概述 ¶

稳健参考的前提是，应在数据参考与信号的真实平均值最大相似的参考信号后计算不良通道。这种方法允许算法一致地应用阈值（主要基于 z 分数），而不会受到低记录 SNR 信号的污染。该算法分两个阶段进行：估计真实信号均值并使用此均值引用的信号来查找“真实”坏通道并进行插值。总结参考过程：

阶段1:估计真实信号均值

EEGTemp = EEG – initial robust estimate of mean (median by default)
badChannels = [];
iterations = 0;
repeat

%使用 findNoisyChannels 检测 EEGTemp 的不良通道 如果 badChannels 未更改或满足迭代条件，则将任何新检测到的不良通道添加到 badChannels 中断循环%

newMean = mean of EEG with all current badChannels interpolated
EEGTemp = EEG − newMean
iterations = iterations + 1;
end repeat
referenceSignal = mean of EEG with current list of bad channels interpolated

阶段2: 找到与真实均值相关的不良通道并进行插值

EEG = EEG – referenceSignal
Detect bad channels for EEG using findNoisyChannels 
EEG = EEG with bad channels interpolated in EEG
referenceCorrection = mean EEG
EEG = EEG – referenceCorrection
referenceSignal = referenceSignal + referenceCorrection

对于大多数 EEG 数据集，阶段 1 的迭代是不必要的，因为该算法在第一步中插入了所有坏通道。然而，极度嘈杂的通道甚至可能会扭曲算法中使用的初始稳健统计数据，并且一旦算法插入极端通道，z 分数就会调整。算法的第二阶段允许“通道遗忘”，因为算法究竟将哪些信道累积为坏可能取决于参考的初始估计是什么。检测与“真实均值”相关的不良通道可以采用更加统一的方法来设置自动处理所需的阈值。

5.检测嘈杂或异常通道 ¶

管道的几个阶段需要检测不良或异常通道。当前版本的噪声通道检测器使用四个主要措施：极端幅度（偏差标准）、与任何其他通道缺乏相关性（相关性标准）、其他通道缺乏可预测性（可预测性标准）和异常高频噪声（噪声标准）。一些标准使用稳健的 z 分数，用中位数代替平均值，用稳健的标准差（0.7413 倍四分位距）代替标准差。该算法还检测包含任何 NaN（非数字）数据或具有恒定值或非常小的值的重要周期的通道。

偏差标准计算每个通道的稳健标准偏差的稳健 z 分数。被指定为bad-by-deviation 的通道具有大于5 的稳健z 分数。该策略解释了数据集间幅度的差异，并且没有将捕获眨眼和大多数肌肉活动的通道识别为噪声。使用 z 分数计算中的整体稳健中值和整体稳健标准偏差，在小的非重叠时间窗口（默认为 1 秒）中计算每个通道的稳健幅度调整 z 分数。保留窗口值以供后续在报告函数中使用。

使用 RANSAC（随机样本一致性）方法（Fischler 和 Bolles，1981）来选择（到目前为止）良好通道的随机子集，以预测每个（从子集中排除）通道在小的非重叠时间窗口（默认5秒）。该实现基于 BCILAB 中的函数（Kothe 和 Makeig，2013 年）。

6.差值坏导 ¶

PREP 管道使用 EEGLAB eeg_interp 函数的spherical选项进行通道插值。该函数使用了 7 次以上的勒让德多项式（Legendre polynomials）。为了测试这种选择，将这种插值方法与 v4 选项和其他两个球面插值函数（包括 RANSAC 中使用的一个）进行了比较。对插值通道与实际通道的相关性进行了秩和检验，发现三种球面插值方法之间没有显著差异。 v4 选项的性能明显更差。结果对于是否在坏通道附近移除了一个通道块或是否在 ICA 空间中进行插值并向后投影不敏感。正如预期的那样，帽边缘插值通道的相关性不如内部通道的相关性好。

7.例子 ¶

8.总结 ¶

PREP 管道的一个目标是生成快速汇总措施，使分析师能够快速确定特定数据集是否可能存在问题。开发了几种有用的启发式方法来检测数据中的问题。提供单个数据集和集合摘要，使研究人员能够查明大型数据集和数据集集合中的问题。 runStatistics 读取已处理数据集的集合并创建统计结构和问题报告。

目前用来标记存在严重问题的数据集的标准包括：

如果最初不在区间内，稳健参考不会使中值最大通道相关性的平均值更接近 [0.80, 0.91]。
最大通道相关性的平均值在0.91 以上，最大通道相关性的中值在稳健参考后大于0.95。
稳健参考插值超过 25% 的参考通道。
乳突引用的统计数据与平均引用或稳健引用有很大不同。
在乳突参考中，平均最大窗口相关性通常较高，偏差的 SDR/MED 比率通常较低。
稳健引用和平均参考具有相似的统计数据，前提是没有非常糟糕的通道。跨集合的稳健参考的比较显示相关性或比率测量没有统计差异，并且通道偏差测量有一些差异。
最初执行乳突参考，然后使用平均或稳健参考进行参考，产生与没有进行乳突参考的结果基本相同的结果。
相对于滤波和线路噪声去除执行乳突参考的顺序基本上没有区别。

http://eegstudy.org/prepcode