解析DARTS:
海量数据训练和新样本特征的综合
“从计算方法设计的策略和概念角度而言,此工作的最大亮点是充分利用海量公有数据如ENCODE,但模型本身又不完全依赖于这些公有数据。”马坚点评道,换言之,DARTS的整体思想是用深度神经网络从现有海量数据中找出通用的有用信息作为先验,然后用贝叶斯假设检验结合来自样本本身的RNA-seq数据信息,做可变剪接的预测,“这有效综合了海量数据的训练以及新样本的特殊性”。
马坚解释说,从模型本身的技术角度而言,DARTS有效利用了深度神经网络对异质数据特征的整合,并且整个计算方法的评测和方法都比较“明智而审慎”。他举例说,比如DARTS的深度神经网络部分结合了剪接位置附近的序列信息、进化信息、可变剪接产生的RNA二级结构信息等;同时DARTS还巧妙地利用深度神经网络预测的结果来作为贝叶斯假设检验中的先验数据,结合样本本身的RNA-seq序列信息实现了更可靠的可变剪接预测。
马坚将基因组学形容为一个“存在太多未知和容易迷失的领域”,因此他认为,有效深度学习的使用需要有强大的领域知识作为支撑。而DARTS工作恰恰体现了邢毅实验室多年以来对可变剪接机理的研究和计算方法创新的积累。“由深入的领域知识和经验作为指导,是一个有效利用不同计算模型和深度学习方法的优势实现基因组学新发现的经典工作。”
张强锋也直指“巧妙利用公开的RNA-seq大数据样本、使用深度神经网络学习得到了外显子差异剪接的贝叶斯假设检验统计模型的准确先验概率分布”是DARTS在方法上最大的特色。同时他也表示,该计算框架使用深度神经网络通过顺式序列和反式因子RBP表达丰度进行差异剪接预测的思路也值得借鉴。
此外,马坚认为论文中其他对于机器学习方法的评测同样可圈可点。例如,对常见的正负样本不均衡的问题对模型训练和评测可能带来的偏差有细致的控制。另外,该计算框架对模型中每个模块的贡献也做了详细分析。
“随着RNA-seq数据的不断积累,相信DARTS会有广泛的应用,尤其是在RNA-seq测序深度并不高的实验情况下。”马坚说,这个计算工具对进一步理解可变剪接在不同细胞状态下的调控机理有深远的意义。
歡迎光臨 比思論壇 (http://184.95.51.82/) | Powered by Discuz! X2.5 |