京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据在食品安全中的应用
时至今日,科学技术的发展能够处理大量不同来源的结构化和非结构化数据。这些技术常常被称作大数据,其开启了新的研究和应用领域,也将会对当今社会逐渐产生影响力。本文评价了应用在食品安全领域的大数据及其潜在发展趋势。在世界的各个地方,各国政府激励源于公共资助研究项目的互联网大数据发表。对于企业利益相关者如何处理食品安全和提出问题,这项政策迎来了新的发展机遇,这在以前是根本无法实现的。由于大数据新的发展,应用手机作为食品安全检测设备和利用社交媒体为食品安全问题预警也将成为可能。
一、引言
在全球化进程的影响下,社会企业产生大量的数据,这些数据包括商业,政府,健康保健和各研究学科,比如天然科学、生命科学、工程学、人类学和社会科学。这些大数据越来越可利用化,可以被用来开拓视野,提高决策,并且提高产品和服务的质量。但是,大数据的聚集和加速产生,需要相关数据的有效收集、储存和处理来战胜挑战。大数据的应用趋于多元化,比如来源于亚马逊网站的推荐系统,可以实时预测流感的爆发。另外还有一些文章研究了大数据潜在的应用。
“大数据”一词很少应用在食品安全相关领域,主要是因为食品安全数据和信息过于分散,主要集中于食品、健康和农业企业。食品安全领域大数据的应用需要内部操作标准的建立和实施,以及保密性保护。传统食品安全数据,例如全国调控数据,数量相对有限,虽然在区域之间不能达到和谐,但是具有很好的结构化。为了考察大数据方法如何能够有利于食品安全,本文作者分析了食品安全工具的应用,发展于不同阶段的大数据研究(例如数据收集、数据储存和转移、数据分析和数据可视化)。此外,作者分析了某些大数据在食品安全中是否以及如何扮演重要的作用,同时提供了一些范例来探讨未来的发展和机会。
二、大数据的定义
关于大数据的的定义有很多种。世界卫生组织使用的定义是:新兴应用的快速收集的、复杂的数据,这些数据以不可定量的兆字节,拍字节,甚至泽字节的储存形式存在。Gartner教授在2012年描述了对于大数据的数据管理挑战,具有三维特性:大数据具有高容量、高速和高多样性信息组,同时需要新的处理形式来提高决策,发掘观点和过程优化。欧委会于2014年发布了相似的定义:3V,即容量、速度和多样性。大数据指以高速产生的大量的不同字节的数据,其具有大量不同的字节来源。处理今天的大量和实时的数据组需要新的工具和方法,例如强有力的处理器、软件和运算法则。2015年,De Mauro教授提出大家一致同意的定义:大数据代表具有高容量,高速和多样性三大特性的信息组,同时需要通过特殊的技术和分析方法来使其转换为价值所在。
三、食品安全中大数据应用
最近世界卫生组织提出采用大数据方法来支持食品安全中面临的决策问题,产生了一个食品安全平台“FOSCOLLAB”,对来源于不同的学科进行整合。在这个平台中,来源于多个企业中的结构化和非结构化数据,例如农业、食品、公共卫生和经济指数被整合,通过专用设施,能够被使用者所应用。
(一)食品安全的数据收集
通过包含和产生食品安全有效信息,来区别不同类型来源,例如(在线)数据库、互联网、组学分析、手机和社交媒体。
1. 在线数据库
为了监测食品中有害成分的数据,产生了许多数据库。世界卫生组织于2015年发布的全球环境监测系统数据库包含数以万计的全球监测数据入口。考虑到其入口相对数量多,因此数据以一种逻辑化方式所结构化,并且容易获取。关于化学试剂性质信息,微生物生长条件和天气报告,在食品安全研究中占有重要地位。也可以使用模型来预测某些有害成分的存在,比如小麦中的真菌毒素。这些天气状况报告包含许多高速产生的数据,这些数据被收集在农业和供应链。不仅结构化数据库会收集食品安全事件,而且也可以通过国际食品安全权威机构的网站和媒体报道来查看。而后者的数据来源是非结构化的,并且分散在网络中,很难获取。一个相似的例子是食品污染物突发事件的登记(通过疾控中心)。这些事件也可以在网络和社交媒体中找到。
2. 互联网
因为互联网包含大量的信息来源,可以通过开发互联网来辅助风险经理人和风险技术顾问应对食品安全问题。开发网络信息采集系统用于在互联网上查询与食品安全相关的论文报告。这种系统的一个典型例子是MedISys,它属于欧委会联合研究中心开发的欧洲媒体监测系统。
3. 在线功能基因组学数据目录
“组学”一词覆盖许多学科,包括基因组学(研究核苷酸变异对基因的影响)、转录组学(mRNA表达)、代谢组学(代谢物水平)和蛋白组学(多肽和蛋白质水平)。为化学安全所开发的基于毒理基因组学的预测实验的主要方法,尤其是为了达到鉴定危险物的目的,包含大规模的基因组学数据库,这些数据库采集于细胞或动物的有毒物质的暴露。毒理基因组学的目的是阐明有毒物质表达的分子机制和分子表达类型(比如分子生物标记),同时能够使用“基于动物”和体外(细胞)模型来预测体外和体内毒性。
4. 手机
使用手机变得越来越广泛,新的应用快速发展,包括食品安全和健康相关的应用。报道显示联合使用智能手机和便携式设备可以监测 (1)水质中汞污染,(2)啤酒中赭曲霉毒素A污染,(3)食品中多种过敏原污染,以及(4)水质和食品中微生物(大肠杆菌)污染。在手机上收集得到的数据不仅可以通过无线连接个人计算机,而且能够转移到数据云或其他数据中心。
(二)数据储存和转移
通常来讲,通过数据管理系统能够达到数据储存,例如MySQL, Oracle和PostgreSQL。但是,这些系统不足以用来支持大数据处理。对于大数据而言,需要由比传统系统所能提供的更快的速度、更好的机动性和可实现性。因此,下一代数据库会发展非关联的,开放源模式和水平可伸缩性,也就是NoSQL。这些系统很好例子有MongoDB, Cassandra和HBase等等。
(三)数据分析
在NoSQL中,随着数据储存和转移到处理单元之后,接下来就是数据分析。使用最广泛的大数据分析方法分为以下两大类::(1)推荐系统;(2)机器学习。
(四)可视化
不同的可视化工具用来分析和总结大数据,这些工具有利有弊。最常见的是R和Cicos. R,这是一种通过使用在数据中的开放源程序语言,来可视化和分析数据的工具,并提供图功能和网络图功能。Circos允许在循环布局中可视化数据,同时开发目标物和位置之间的关系。该软件成为了可视化染色体的标准。对于商业可视化软件而言,不需要编程技能,IBM公司开发的在线可视化处理工具 Many Eyes和Tableau都是很好的选择。
四、食品安全大数据实例
(一)农业链和食品供应链
在农业链,大数据可以通过有关环境因素的链接信息来预测病原体或污染物存在。例如,通过监测田间作物条件,可以达到在进入食品链之前,鉴定黄曲霉毒素污染增加的面积。在另一研究中,研究者以欧洲西北部的小麦为对象,通过使用大量的模型和数据库(包括天气数据),开发出定量模型,从而预测小麦真菌毒素的污染。
(二)突发事件和来源鉴定
在食品安全性突发事件产生过程中,大量的样品被收集和分析,产生大量的数据和信息,这些数据和信息被用来鉴定突发事件的来源。快速筛选病原体基因技术(全集因序列和下代序列)的发展,导致专一基因信息的收集和病原株或亚型的出现。例如,2011年,在德国发生的病原体“肠出血性大肠杆菌”事件,在不同面积,细菌存在的信息被收集到。健康个体的家能够用来筛选庇护病原体,通过监测每个家庭来筛选二级感染。在初级阶段,这些监测信息帮助检测问题,允许及时地提供防护性措施,最终阻止突发事件的发生。
(三)鉴定突发事件采用可选择性数据来源
除了基因信息,其他因素也用来建立污染来源。2011年,Gardy教授等学者从肺结核突发事件中得出结论:基因类型和单独联系溯源不能够确切地获取突发事件的真正动力学。作者采用社会环境信息与全基因序列结合,来检测突发事件爆发的来源和原因。虽然数据样本不足够大,但是通过应用社会网络,数据的多样性大大增加。
五、食品安全大数据的未来
在欧洲,欧委会发布了一项大数据策略,用来支持数据驱使化的经济发展。他们支持开放式数据获取,例如,免费在线获取欧盟资助项目的研究结果,包括科学论文和研究数据。这些欧盟资助项目包含 (1)发展中国家的作物监测,(2)全部产品生命周期监测,(3)提高产品开发过程的效率和质量。并且欧洲各国政府,例如荷兰政府激励公共-私人项目来开发大数据潜力。在美国,奥巴马政府发布了“大数据研究和开发倡议”,以便更大程度的提高可获取,组织和收集发现大量数字数据的工具和技术。这项倡议增加了政府支持,加速了联邦机构从大量复杂数据中提取有效数据的能力。同时也鼓励私营公司、学术机构、当地政府和基金之间关于新大数据项目的合作,比如2013年发布的“数据-知识-行动”项目。
六、结论
在全球范围内,随着大量数据的产生,这些数据与食品安全直接或者间接关联。当前,在食品安全大数据领域,只开发出有限数量的方法。源于互联网,从公共资助研究项目中获得数据的发展趋势,对处理食品安全的利益相关者来说,开启了新的机遇。尤其是在食品安全监测中,手机、高级溯源系统和社交媒体的使用,需要比以前具有更多大数据特点的工具和基础设施。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27