大数据挖掘与虚拟医药科研-CDA数据分析师官网

热线电话：13121318867

大数据挖掘与虚拟医药科研

2015-11-06

大数据挖掘与虚拟医药科研

一些数据挖掘的实践应用。我们说数据挖掘的应用很广泛，在某些领域也已很成熟，实用价值很高。其中数据挖掘在医药学领域就有一些比较成熟可靠的应用了。但有时，我们也听说有些人将数据挖掘在某些领域的应用说成是“讲故事”。这实际上是反映了这些案例的开发和应用很不成熟，可信度很低。成熟的数据挖掘应用绝不是“讲故事”。本人在北美工作了多年，从来没有听说过数据挖掘是“讲故事”(也许是我见不多、识不广吧)。

今天，我们就谈一谈数据挖掘与虚拟医药科研的话题。

1. 基于大数据挖掘的虚拟医药科研案例

数据挖掘发展到今天，按照时下的概念应该到了“大”数据挖掘的时代了。我们还是先从几个相关案例开始吧。

1.1 虚拟临床试验-大数据采集

我们首先来看这样一个案例。2011年06月，辉瑞制药有限公司宣布开展一项“虚拟”临床研究，该项研究是一个得到美国食品和药物管理局批准的试点项目，首字母缩写为“REMOTE”。“REMOTE”项目是在美国开展的第一项病人只需使用手机和互联网、而不用重复跑医院的临床研究，该项目的目标是要确定此类“虚拟”临床研究能否产生和传统临床研究一样的结果。而传统的临床研究要求病人住在医院附近，并且定期前往医院或诊所进行初次检查和多次后续检查。如果这一项目有效，那它可能意味着全美国的病人都能参加今后的许多医学研究。这样一来，原先的科研项目中未得到充分代表的群体将得以参加，数据收集速度将大大加快，而且成本也很可能会大幅下降，参与者退出的几率也很可能会降低不少。

从上例中，我们可以看到，利用互联网可以收集远远大于传统临床科研样本数目的超大量病人的临床数据，而且其中有些临床数据可能来自于更加便捷的可穿戴健康监测设备。如果这样的研究，在科研设计严谨、质量标准得到有效执行、各种误差得到有效控制的情况下，科研的效率和成果的可信度可以显著提高。正如辉瑞公司首席医疗官弗蕾达·刘易斯-霍尔所说的：“让更多样化的人群得以参与研究有可能会推动医学进步，并为更多的病人带来更好的疗效。”

1.2 虚拟药物临床试验-大数据挖掘

我们再来看另外一个案例。1992年，抗抑郁药物帕罗西汀(Paxil)获准上市;1996年，降胆固醇药物普拉固(Pravachol)正式开售。两种药品生产企业的研究证明：每种药物在单独服用时是有效且安全的。可是，患者要是同时服用两种药是否安全，没有人知道，甚至很少有人想过。美国斯坦福大学的研究人员应用数据挖掘技术分析了数万例患者的电子病历后，很快发现了一个出人意料的答案：同时服用两种药物的患者血糖含量较高。这对于糖尿病患者来说影响很大，过多的血糖对他们来说是一种严重的健康威胁!科学家还通过分析血糖检测结果和药物处方，来寻找隐藏的规律。

对于单个医生来说，他所经历的同时服用这两种药物的病人是很有限的，虽然其中可能有少数的糖尿病患者莫名其妙地血糖升高了，但医生很难意识到这是由于病人同时服用了Paxil和Pravachol造成的。因为这是一种掩藏在大数据中的隐含规律，如果不是有人有目的地专门研究Paxil和Pravachol联合用药的安全性的话，个体医生是很难揭示这个规律的。但是，临床药品成千上万，我们怎么可能对任意组合的两、三种药联合应用的安全性和有效性进行逐一研究呢?数据挖掘很可能是一种有效的、快速的、主动式的探索多种药联合应用问题的方法!

研究者不必再召集患者去做临床试验，那样做的话花费太大了。电子病历及其计算机应用的普及为医疗数据挖掘提供了新的机遇。科学家不再局限于通过召集志愿者来开展传统的课题研究，而是更多地从现实生活中的实验中，如日常的大量的临床案例中筛选数据并开展虚拟科研，这些并非来自计划的课题立项的实验数据保存在许多医院的医疗记录中。

类似本案例，应用数据技术使得研究人员可以找出在药物批准上市时无法预见的问题，例如一种药物可能对特定人群产生怎样的影响。另外，对医疗记录的数据挖掘不仅将为研究带来好处，还会提高医疗服务系统的效率。

1.3 虚拟药物靶标发现-知识发现

我们再看看这样的一类研究。通常新药研发的过程都比较漫长,投入巨大，风险也很高。有数据表明，新药研发的平均时间长达15年,平均耗费超过8亿美元。但是,由于药物疗效的不佳和毒副作用太高，使得许多药物的研发经常在临床阶段就失败了，造成了巨大的经济损失。作为药物研发的源头,药物靶标的发现和识别对药物的研发成功率具有举足轻重性的作用。随着生物信息技术的不断发展,以及蛋白质组学数据、化学基因组学数据的日益增长,应用数据挖掘技术结合传统生物实验技术,可为药物新靶标的发现提供新的技术手段,为靶标识别预测提供新的方法。构建药物靶标数据库，利用智能计算技术和数据挖掘技术对现有的药物靶标数据开展深入探索，以期发现新的药物靶标正是这样一类研究，我们也称之为药物靶标的知识发现。

传统的药物靶标的发现，通常大都是通过大量的、反复的生物化学实验来实现的，不仅成本高、效率低，成功率也很低，犹如瞎子摸象一样，不好掌握方向。而应用数据挖掘这一自动的、主动的、高效的探索技术，可以开展虚拟药物靶标发现，不仅大大加快了药物靶标发现的进程，而且大幅减少了生物化学实验的次数和成本，同时也提高了传统生化实验的成功率。

2. 数据挖掘在虚拟医药科研上的应用

大数据时代，医药研发面临更多的挑战和机遇，为了更好的节约研发成本，提高新药研发成功率，研发出更有竞争力的新药，可以应用数据挖掘技术开展虚拟医学科研和药物研究。数据挖掘在虚拟医药科研上的应用，可以总结为如下几个方面。

2.1 通过预测建模帮助制药公司降低研发成本提高研发效率。

模型基于药物临床试验阶段之前的数据集及早期临床阶段的数据集，尽可能及时地预测临床结果。评价因素包括产品的安全性、有效性、潜在的副作用和整体的试验结果。通过预测建模可以降低医药产品公司的研发成本，在通过数据建模和分析预测药物临床结果后，可以暂缓研究次优的药物，或者停止在次优药物上的昂贵的临床试验。

2.2 通过挖掘病人数据，评估招募患者是否符合试验条件，从而加快临床试验进程，提出更有效的临床试验设计建议。例如: 通过聚类方法对患者群体进行聚类，寻找年龄、性别、病情、化验指标等方面的特征，判定是否满足试验条件，也可以根据这些特征更好的设立对照组。

2.3 分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后，可以对药物进行重新定位，或者实现针对其他适应症的营销。通过关联分析等方法对试验数据进行挖掘可能会发现事先想不到一些成果，大大提高数据的利用程度。

2.4 实时或者近乎实时地收集不良反应报告可以促进药物警戒。药物警戒是上市药品的安全保障体系，对药物不良反应进行监测、评价和预防。通过聚类、关联等大数据挖掘手段分析药品不良反应的情况，用药、疾病、不良反应的表现，是否跟某种化学成分有关等。例如不良反应症状的聚类分析，化学成分与不良反应症状的关联分析等。另外在一些情况下，临床实验暗示出了一些情况但没有足够的统计数据去证明，现在基于临床试验大数据的分析可以给出证据。

2.5 针对性药物研发：通过对大型数据集(例如基因组数据)的分析发展个性化药物。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系，然后在药物研发和用药过程中考虑个人的遗传变异因素。很多情况下，病人用同样的用药方案但是疗效却不一样，部分原因是遗传变异。针对同病种的不同的患者研发不同的用药，或者给出不同的用法。

2.6 对药物化学成分的组合和药理进行挖掘，激发研发人员的灵感。例如针对于中医药物研发，用数据挖掘手段对于中药方剂和症候进行分析研究，探讨方剂和针对症状之间的联系，从功效、归经、药性和药味等方面进行分类特征分析

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据挖掘大数据特征数据建模

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据时代的“时光机” 瑞星备份恢复系统

下一篇大数据带来大智慧

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据挖掘与虚拟医药科研

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据挖掘 与 虚拟医药科研

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据挖掘与虚拟医药科研