京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘 与 虚拟医药科研
一些数据挖掘的实践应用。我们说数据挖掘的应用很广泛,在某些领域也已很成熟,实用价值很高。其中数据挖掘在医药学领域就有一些比较成熟可靠的应用了。但有时,我们也听说有些人将数据挖掘在某些领域的应用说成是“讲故事”。这实际上是反映了这些案例的开发和应用很不成熟,可信度很低。成熟的数据挖掘应用绝不是“讲故事”。本人在北美工作了多年,从来没有听说过数据挖掘是“讲故事”(也许是我见不多、识不广吧)。
今天,我们就谈一谈数据挖掘与虚拟医药科研的话题。
1. 基于大数据挖掘的虚拟医药科研案例
数据挖掘发展到今天,按照时下的概念应该到了“大”数据挖掘的时代了。我们还是先从几个相关案例开始吧。
1.1 虚拟临床试验-大数据采集
我们首先来看这样一个案例。2011年06月,辉瑞制药有限公司宣布开展一项“虚拟”临床研究,该项研究是一个得到美国食品和药物管理局批准的试点项目,首字母缩写为“REMOTE”。“REMOTE”项目是在美国开展的第一项病人只需使用手机和互联网、而不用重复跑医院的临床研究,该项目的目标是要确定此类“虚拟”临床研究能否产生和传统临床研究一样的结果。而传统的临床研究要求病人住在医院附近,并且定期前往医院或诊所进行初次检查和多次后续检查。如果这一项目有效,那它可能意味着全美国的病人都能参加今后的许多医学研究。这样一来,原先的科研项目中未得到充分代表的群体将得以参加,数据收集速度将大大加快,而且成本也很可能会大幅下降,参与者退出的几率也很可能会降低不少。
从上例中,我们可以看到,利用互联网可以收集远远大于传统临床科研样本数目的超大量病人的临床数据,而且其中有些临床数据可能来自于更加便捷的可穿戴健康监测设备。如果这样的研究,在科研设计严谨、质量标准得到有效执行、各种误差得到有效控制的情况下,科研的效率和成果的可信度可以显著提高。正如辉瑞公司首席医疗官弗蕾达·刘易斯-霍尔所说的:“让更多样化的人群得以参与研究有可能会推动医学进步,并为更多的病人带来更好的疗效。”
1.2 虚拟药物临床试验-大数据挖掘
我们再来看另外一个案例。1992年,抗抑郁药物帕罗西汀(Paxil)获准上市;1996年,降胆固醇药物普拉固(Pravachol)正式开售。两种药品生产企业的研究证明:每种药物在单独服用时是有效且安全的。可是,患者要是同时服用两种药是否安全,没有人知道,甚至很少有人想过。美国斯坦福大学的研究人员应用数据挖掘技术分析了数万例患者的电子病历后,很快发现了一个出人意料的答案:同时服用两种药物的患者血糖含量较高。这对于糖尿病患者来说影响很大,过多的血糖对他们来说是一种严重的健康威胁!科学家还通过分析血糖检测结果和药物处方,来寻找隐藏的规律。
对于单个医生来说,他所经历的同时服用这两种药物的病人是很有限的,虽然其中可能有少数的糖尿病患者莫名其妙地血糖升高了,但医生很难意识到这是由于病人同时服用了Paxil和Pravachol造成的。因为这是一种掩藏在大数据中的隐含规律,如果不是有人有目的地专门研究Paxil和Pravachol联合用药的安全性的话,个体医生是很难揭示这个规律的。但是,临床药品成千上万,我们怎么可能对任意组合的两、三种药联合应用的安全性和有效性进行逐一研究呢?数据挖掘很可能是一种有效的、快速的、主动式的探索多种药联合应用问题的方法!
研究者不必再召集患者去做临床试验,那样做的话花费太大了。电子病历及其计算机应用的普及为医疗数据挖掘提供了新的机遇。科学家不再局限于通过召集志愿者来开展传统的课题研究,而是更多地从现实生活中的实验中,如日常的大量的临床案例中筛选数据并开展虚拟科研,这些并非来自计划的课题立项的实验数据保存在许多医院的医疗记录中。
类似本案例,应用数据技术使得研究人员可以找出在药物批准上市时无法预见的问题,例如一种药物可能对特定人群产生怎样的影响。另外,对医疗记录的数据挖掘不仅将为研究带来好处,还会提高医疗服务系统的效率。
1.3 虚拟药物靶标发现-知识发现
我们再看看这样的一类研究。通常新药研发的过程都比较漫长,投入巨大,风险也很高。有数据表明,新药研发的平均时间长达15年,平均耗费超过8亿美元。但是,由于药物疗效的不佳和毒副作用太高,使得许多药物的研发经常在临床阶段就失败了,造成了巨大的经济损失。作为药物研发的源头,药物靶标的发现和识别对药物的研发成功率具有举足轻重性的作用。随着生物信息技术的不断发展,以及蛋白质组学数据、化学基因组学数据的日益增长,应用数据挖掘技术结合传统生物实验技术,可为药物新靶标的发现提供新的技术手段,为靶标识别预测提供新的方法。构建药物靶标数据库,利用智能计算技术和数据挖掘技术对现有的药物靶标数据开展深入探索,以期发现新的药物靶标正是这样一类研究,我们也称之为药物靶标的知识发现。
传统的药物靶标的发现,通常大都是通过大量的、反复的生物化学实验来实现的,不仅成本高、效率低,成功率也很低,犹如瞎子摸象一样,不好掌握方向。而应用数据挖掘这一自动的、主动的、高效的探索技术,可以开展虚拟药物靶标发现,不仅大大加快了药物靶标发现的进程,而且大幅减少了生物化学实验的次数和成本,同时也提高了传统生化实验的成功率。
2. 数据挖掘在虚拟医药科研上的应用
大数据时代,医药研发面临更多的挑战和机遇,为了更好的节约研发成本,提高新药研发成功率,研发出更有竞争力的新药,可以应用数据挖掘技术开展虚拟医学科研和药物研究。数据挖掘在虚拟医药科研上的应用,可以总结为如下几个方面。
2.1 通过预测建模帮助制药公司降低研发成本提高研发效率。
模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集,尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本,在通过数据建模和分析预测药物临床结果后,可以暂缓研究次优的药物,或者停止在次优药物上的昂贵的临床试验。
2.2 通过挖掘病人数据,评估招募患者是否符合试验条件,从而加快临床试验进程,提出更有效的临床试验设计建议。例如: 通过聚类方法对患者群体进行聚类,寻找年龄、性别、病情、化验指标等方面的特征,判定是否满足试验条件,也可以根据这些特征更好的设立对照组。
2.3 分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后,可以对药物进行重新定位,或者实现针对其他适应症的营销。通过关联分析等方法对试验数据进行挖掘可能会发现事先想不到一些成果,大大提高数据的利用程度。
2.4 实时或者近乎实时地收集不良反应报告可以促进药物警戒。药物警戒是上市药品的安全保障体系,对药物不良反应进行监测、评价和预防。通过聚类、关联等大数据挖掘手段分析药品不良反应的情况,用药、疾病、不良反应的表现,是否跟某种化学成分有关等。例如不良反应症状的聚类分析,化学成分与不良反应症状的关联分析等。另外在一些情况下,临床实验暗示出了一些情况但没有足够的统计数据去证明,现在基于临床试验大数据的分析可以给出证据。
2.5 针对性药物研发:通过对大型数据集(例如基因组数据)的分析发展个性化药物。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系,然后在药物研发和用药过程中考虑个人的遗传变异因素。很多情况下,病人用同样的用药方案但是疗效却不一样,部分原因是遗传变异。针对同病种的不同的患者研发不同的用药,或者给出不同的用法。
2.6 对药物化学成分的组合和药理进行挖掘,激发研发人员的灵感。例如针对于中医药物研发,用数据挖掘手段对于中药方剂和症候进行分析研究,探讨方剂和针对症状之间的联系,从功效、归经、药性和药味等方面进行分类特征分析
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16