在蛋白质组学质谱鉴定中,假阳性率(False Positive
Rate)的控制是确保数据可靠性的核心环节。由于质谱数据量大、噪音高且涉及多重假设检验,若不严格控制,鉴定结果中将充斥大量错误匹配。
操作步骤与参数优化
1. 诱饵库生成的注意事项
避免同源干扰:生成的 Decoy 序列不能意外匹配到真实存在的生物序列(反向法通常能较好避免)。
长度与酶切位点保留:Decoy 序列应保留与 Target 序列相同的长度分布和酶切位点(如 Trypsin 的 K/R
位点),以确保搜索空间的统计学一致性。若 Decoy 库过于容易或难以被酶切,会导致 FDR 估算偏差。
2. 打分阈值动态截断 (Cutoff Determination)
软件会根据设定的 FDR 阈值(如 1%),自动计算出一个打分临界值 (Score Cutoff)。
所有得分低于该临界值的 PSM/Peptide/Protein 均被剔除。
Q-value:每个鉴定结果都会分配一个 Q-value,表示将该结果纳入列表时的z小 FDR。筛选时直接取 Q-value < 0.01
即可。
3. 两级 FDR 控制 (Two-stage FDR)
对于复杂样本,建议先在 PSM 级别控制 FDR,再在 Protein 级别二次控制。
Protein Inference (蛋白推导):使用 Occam's Razor
原则(奥卡姆剃刀),用z少的蛋白解释z多的肽段,解决共享肽段带来的假阳性蛋白推断问题。工具如 ProteinProphet, EpicFDR。
来源:网络