学术讲座｜鲍一明博士生命健康和AI的组学大数据支撑-国家基因组科学数据中心资源体系介绍

2025年04月17日

2025年4月17日，昌平实验室主任、基因组与衰老研究部召集人谢晓亮主持召开基因组与衰老研究部学术讲座，本次讲座邀请到中国科学院北京基因组研究所鲍一明博士进行了题为“生命健康和AI的组学大数据支撑-国家基因组科学数据中心资源体系介绍”的学术报告，对国家基因组科学数据中心的总体情况和资源体系进行了介绍。

图片1.png

学部召集人谢晓亮主持

鲍一明博士现任中国科学院北京基因组研究所（国家生物信息中心）国家基因组科学数据中心主任、二级研究员，博士生导师，中国科学院“百人计划”及特聘核心研究员。鲍博士主要从事生物信息大数据汇交、整合、管理、共享与挖掘，病毒基因组注释和病毒进化与分类等方面研究，领导国家基因组科学数据中心与世界前沿接轨，在较短时间内使中心发展成为国际主要生物数据中心之一，打破了国外生物数据库的垄断，初步解决了多年来我国生物组学数据汇交和获取严重依赖国外主要生物数据库的局面。

图片2.png

鲍一明博士分享报告

讲座背景：

随着生命科学研究进入大数据时代，测序技术与信息技术的深度融合推动科学范式变革，生物数据呈现爆炸式增长。在此背景下，国家基因组科学数据中心（NGDC）通过构建综合性数据资源体系，为我国科研攻关和国际合作提供了关键支撑。

讲座内容：

鲍一明博士指出AI技术的快速发展依赖数据、算力和算法三大要素，其中数据具有不可替代性。尽管DeepSeek等技术的出现降低了对算力的依赖，但高质量数据仍是核心资源。国际三大生物数据库（NCBI、EBI、DDBJ）在国家级资助下形成国际核苷酸序列数据库联盟（INSDC），主导全球数据标准。然而，我国长期缺乏国家级数据中心，数据流失、缺失和丢失等问题亟待解决。2025年4月，美国NIH宣布对华关闭dbGaP、TCGA等受控访问数据库，进一步凸显自主数据体系的紧迫性。对此，我国出台科技计划项目数据强制汇交政策，并批复建设“国家生物信息中心”，由NGDC承接国家人类遗传资源信息管理备份平台建设，初步扭转了被动局面。

目前，NGDC已建成涵盖底层核心数据库、特色资源库、在线工具和文献资料的综合性体系。其中，基因组序列归档系统（GSA）被国际主流期刊认可，国人数据提交比例逐步提高，数据存量逐步提升，持续推进国际生物数据的战略备份与本地化服务。在应用层面，NGDC构建了新冠病毒与猴痘病毒信息库，研发变异株精准预警生信新方法；推出跨库搜索引擎BIG Search，整合数十个国内外数据库；提供BLAST序列比对工具和生命科学文献库，覆盖数百种物种参考数据。

在AI赋能科研领域，NGDC取得多项突破：提供严格质控的AI-ready数据，支持基因组注释和多组学数据关联；开发癌症剪接智能体（SpiceAgent），实现智能审编、问答与分析；构建ViralBERT核酸语言模型，优化病毒宏基因组分析。目前，NGDC已跻身全球主要数据中心，推动国际生物多样性与健康大数据联盟成立。

NGDC未来将聚焦构建一体化数据平台、加强数据汇交制度建设、探索受控数据共享机制和深化国际合作。

科研人员提问与交流

鲍一明博士此次讲座吸引了基因组学及相关领域科学家、科研人员及学生参会。在讲座内容结束后，鲍博士与参会人员就国际数据库本地化、临床数据与Biobank布局、技术更新与数据淘汰等方面展开了热烈讨论。

昌平实验室开展学术讲座系列活动，邀请知名学者专家开展专题讲座，努力打造特色化、专业化、品牌化学术交流活动，为打造世界一流生命科学创新高地提供良好学术平台。

新闻中心

学术讲座｜鲍一明博士 生命健康和AI的组学大数据支撑-国家基因组科学数据中心资源体系介绍

2025年04月17日

最新动态

学术讲座｜鲍一明博士生命健康和AI的组学大数据支撑-国家基因组科学数据中心资源体系介绍