牛遗传育种创新团队开发系列机器学习算法提高基因组预测速度和准确度

作者：陈燕高会江安炳星来源：牛遗传育种创新团队发布时间：2021-05-24

分享到微信 ×

打开微信，点击底部的“发现”，使用“扫一扫”即可将网页分享至微信。

　　近日，牛遗传育种创新团队开发了两种基础学习器的整合框架和一种改进算法并应用于肉牛基因组预测，提高了基因组估计育种值（GEBV）预测准确性和运算效率，为畜禽及其他物种的基因组选择提供了方法参考。相关成果相继发表在《Journal of Animal Breeding and Genetics（动物育种和遗传）》、《Frontiers in Genetics（遗传前沿）》和《Briefings in Bioinformatics（生物信息学简讯）》。

　　据团队首席李俊雅研究员介绍，非参数的机器学习算法相较传统线性回归模型有一定优势，在肉牛真实数据中支持向量机（SVR）、核岭回归（KRR）和随机森林（RF）分别比基因组最佳线性无偏预测（GBLUP）预测准确性提高了12.8%、14.9%和5.4%。搭建多种单一学习算法的整合框架集成学习（Ensemble Learning）是进一步提升预测准确性的策略之一。结果显示，在肉牛宰前活重、胴体重和眼肌面积性状的预测中，Adaboost.RT和Stacking集成框架的准确性分别比GBLUP提高了14.4%和7.7%。

　　研究人员基于整合框架集成学习研究，同时受Cosine kernel在人脸识别领域优秀的预测精度和计算效率启发，进一步开发了基于Cosine kernel的KRR，即K_CRR，定义基因组Cosine相似矩阵（CS-matrix），并与传统G-matrix进行了预测性能比较。结果表明，K_CRR在多个物种的预测性能表现稳定，具有广泛的遗传结构适应性。在预测准确性方面，K_CRR比GBLUP平均提高4.82％，特别是在肉牛数据中提高了13.09％；在运算效率方面，K_CRR比GBLUP和BayesB快20~4000倍，在样本量少和SNP密度低的火炬松数据中提升最为明显；CS-matrix与G-matrix结构相似，但构建速度比G-matrix平均快20倍，在肉牛高密度基因分型芯片数据中表现最为突出。

　　以上研究拓展了肉牛全基因组选择技术体系发展的新维度，开发了系列有较高预测准确性的基因组选择方案，也为机器学习算法在畜禽基因组预测方面的应用提出了新的思路。

　　图1Adaboost.RT算法

　　图2Stacking集成框架

图3 CS-matrix的构建

　　相关研究得到国家肉牛牦牛产业技术体系、国家自然科学基金项目、院科技创新工程重大科研任务的资助。

　　原文链接：https://pubmed.ncbi.nlm.nih.gov/33089920/

　　https://pubmed.ncbi.nlm.nih.gov/33747037/

　　https://pubmed.ncbi.nlm.nih.gov/33963831/

牛遗传育种创新团队开发系列机器学习算法 提高基因组预测速度和准确度

牛遗传育种创新团队开发系列机器学习算法提高基因组预测速度和准确度