京公网安备 11010802034615号
经营许可证编号:京B2-20210330
精准医学之贝瑞和康基因组“大数据之路”
自基因测序技术被发明以来,建设人类基因组数据库一直是各国基因组研究中心的核心内容之一,人类基因组数据库的宗旨是为从事人类基因组研究的科学家和医护人员提供人类基因组信息。目前国际上人类基因组数据大多来源于西方白种人,然而不同人种的进化差异会导致明显的易感基因差异、特异性位点突变频率不同、基因突变表观差异等,因此在我国分子诊断与精准医学飞速发展的背景下,建立高质量的中国人群基因组数据库已经成为当下制约分子医学发展的重要壁垒。今年两会上,委员也建议应尽快建立精准医学资源库,整合共享医疗大数据,促进精准医学更好的发展。
贝瑞和康作为致力于将高通量测序技术实现临床转化的行业领导者,早在2015年8月14日宣布与云计算服务平台提供商阿里云达成合作,共同打造以海量的中国人群基因组数据为核心的数据云,实现对个人基因组数据的精准解读。该项目由美国贝勒医学院、现任职贝瑞和康CIO的于福利教授牵头,参与“神州基因组数据云”项目的研究人员达到了100多人,由医学、分子生物学、遗传学、计算机编程等研究领域的博士组成。项目组分成三个团队,一个是贝瑞和康的研究团队,一个是于福利在贝勒实验室的团队,另外一个则是专门做高性能运算的阿里云团队。
神州基因组数据云,是一个知识密集型项目。
阿里云拥有批量计算服务的强大能力,贝瑞和康则深耕基因检测多年已积累超过百万人群基因组数据,此次选取其中四十万人份数据作为“神州基因组数据云”项目的第一阶段数据,旨在借助云计算对该数据资源进行深入挖掘,进一步揭示中国人群遗传突变分布,提升中国人遗传疾病诊断的效率和精准程度。
当基因测序成本迅速下降以后,拥有数据量的多少不再是行业里唯一的竞争优势,而是否能够将海量的大数据进行解读,转换成具体能够应用的有效信息,才是测序企业发展的核心竞争力。光有云计算能力和基因组数据还不够,分析和注释技术是能否达成项目目标的内在核心驱动力。该项目发布一年后,也即2016年8月24日贝瑞和康公布了为基因数据分析开发的两大核心专利技术:Verita Trekker®变异位点检测系统和Enliven®变异位点注释系统。
Verita Trekker®经过严格的基因型质量控制,SNP 检测的灵敏度达99.00%,特异性达99.99%,真阳性率达99.90%;Indel 检测的真阳性率达88.00%;家系样本基因型真阳性率大于99.90%;各项指标均属国际业界一流水平。而Enliven®则通过统计学计算和文本挖掘方法整合国际权威的超过50个数据库和预测算法,其中也包括“神州基因组数据云”项目所产生的中国人特有基因信息数据库。同时,支持千万篇文献的即时查找,全面覆盖基因、变异、表型、疾病信息,参考权威文献、美国医学遗传学学会(ACMG)标准与实际基因型-表型对应,在这样完善的体系和先进的算法的保障下,能够出具可靠的变异致病性结果,为科研工作者和临床医生更好的研究和制定精准医疗方案提供帮助。
在Verita Trekker®和Enliven®两大核心技术共同驱动下的“神州基因组数据云”项目取得了阶段性的重要成果。2016年9月8日,贝瑞和康已完成世界首个中国人群基因组数据库建设,填补了国际基因数据库中缺少中国人群特有基因组数据信息的空白。
同年9月23日,在第十九届全国临床肿瘤学大会暨CSCO学术年会上,贝瑞和康进一步展示了该项目的重要成果应用。这其中包括与北京大学肿瘤医院解云涛教授合作的“中国人遗传性乳腺癌基因突变图谱项目”,以及中国40万人基因组大数据项目在临床应用层面上所取得的阶段性成果,结果显示中国人乳腺癌基因突变和其他人种相比具有显著性差异。
项目由解云涛教授和于福利教授共同展示,可以看到采用Enliven®变异位点注释系统对美国国家卫生研究院的相关项目中的BRCA1、BRCA2基因的2152个位点进行注释,将注释结果与以往报告结果对比,PPV(阳性预测值)达到99.3%,充分验证了Enliven®注释和解读能力的准确性。在此基础上,贝瑞和康将自建的中国人基因组数据库与万例妇科肿瘤患者的基因数据进行整合,建设成为全球最大的妇科肿瘤基因组数据库。
现在,神州基因组数据云项目仍在进行中,中国人群的基因组大数据正在成倍累积增长。受益于测序成本下降,降低获得大量数据的难度,因此只要在数据解读能力上快速突破,中国非常有可能在生物基因信息解读这一领域实现弯道超车。
“神州基因组数据云”项目的另一层意义则与我国医疗政策中正在力推的分级诊疗政策息息相关。通过与专家合作,大数据体系为90%以上的医院提供解读能力,这将对基层临床产生重要的指导意义。可以想象,在三四线城市,医生利用该数据云平台分析基因测序数据,在当地可以获得同样质量的检测分析,获得和在大城市大医院同等质量的报告,就能够进一步促进实现分级诊疗。于福利教授展望道。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13