
大数据重构安防系统安防大数据的挑战
据IDC预测,2020年全球的数据总量将达到35ZB,并以每两年翻一番的速度在急速的增长。大数据时代的数据不仅仅是数据总量的庞大,同时也是种类的庞大。安防行业有着海量的视频、图片数据,一个大型城市每天产生的数据就可以达到1PB,同时还有飞速增长的特征数据,包括卡口过车数据、人脸抓拍数据、报警数据等等。繁多的数据种类、PB级的数据量、低价值密度的视频数据、快速的数据更新处理需求,这些特性都预示着安防行业已经进入大数据时代。
从安防行业数据处理流程上看,数据经历了采集->传输->存储->处理这几个过程,存储和处理需要大量的服务器,占用了安防系统80%以上的服务器资源,也是安防企业需要重点考虑的问题。传统的安防系统架构比较混杂,各个厂家各个时期的设备,各种技术方案,各种平台系统交织在一起,没有清晰的层次,而且都是以业务为中心,数据的存储和处理水平还比较低,发展已经遇到一定瓶颈。云计算和云存储无疑是安防大数据的存储和处理过程最强有力的技术支撑,这两种技术的出发点,就是通过分布式技术,把商业级的计算和存储资源组成一个集群,实现低成本,高可靠,弹性扩展,易于管理和使用的解决方案,替代传统的小型机、关系型数据库、高端磁盘阵列组成的方案。
其中,云计算是一种大数据处理技术,也是一种按使用量付费的模式,它提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,资源包括网络,服务器,存储,应用软件,服务等类型,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算通常意味着超大规模、虚拟化。云存储则是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储对使用者来讲,不是指某一个具体的设备或服务器,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,实际上用的是整个云存储系统带来的一种数据访问服务。
按照Gartner技术成熟曲线勾勒的趋势,云计算和云存储技术已经进入了成熟期,互联网巨头已经搭建了各种超大规模的数据中心,并开始影响人们生活的方方面面,而在安防行业的应用才刚刚开始。考虑现有安防系统存在的问题和大数据的涌现,我们认为云计算和云存储技术完全有潜力解决这些问题,帮助企业和用户一起应对大数据的挑战,并实现安防系统的重构。
大数据存储关键技术
随着安防行业的不断发展,日益丰富的信息采集途径,多样化的业务需求,以及各种行业各种外围业务系统,都要求安防云存储系统具有多业务支撑能力,云存储是最好的解决方案。云存储的核心是分布式文件系统,实现统一的命名空间、负载均衡、数据容错、灵活扩展、高性能的读写能力等。云存储可以将所有业务系统的存储模块统一到同一个存储平台上,支撑各种业务需求,提供了高度的数据共享能力,避免了存储和应用的耦合,降低了重复投资的风险。
随着IP化、高清化、智能化的不断演进,系统存储空间需求日益膨胀,存储的可靠性和成本也成为最重要的考量,在这两个方面,用于数据容错的Erasure Code算法都给出了满意的回答,是公认的下一代容错算法机制,可以代替传统的RAID方式和副本方式,一些主流的公有云存储系统都已经开始采用EC算法。EC算法可以让云存储系统容忍多台设备或者多块硬盘的同时损坏,从而大大加强了系统的可靠性,同时可以做到和RAID5,RAID6同一个级别的空间效率。Erasure Code技术在安防行业云存储的应用,意味着更高的数据可靠性,更好的成本控制。
系统规模变大之后,其管理也需要投入很多资源。对于一个有着成千上万台设备的系统而言,配置管理、扩展和出错处理的自动化显得非常重要。云存储系统可以很好的解决此类问题,以EMC Isilon为例,1分钟就可以完成系统扩展,10分钟完成系统初始化安装和配置。出错处理亦是如此,在设备损坏后,云存储可以保证业务不受任何影响,只需将损坏的设备更换掉即可,后台的数据迁移全部由系统自动处理。
在大量数据读写的时候,还需要考虑到系统的性能能否足够支持上层各种数据业务,比如录像,抓图,回放,视频分析等等,特别是视频分析,需要以最快的速度读出原始视频数据,从海量数据中发掘极低密度的价值,对存储系统是一个很大的考验。云存储系统有着天然的带宽聚合的能力。在数据写入时,用户的数据被系统打散之后存在众多的存储节点中,整个系统的网络带宽和磁盘IO都可以得到充分利用。通过带宽聚合带来的高性能,可以实现文件的高速访问,极大提升智能分析等上层业务的数据处理能力。
当前市面上有一些所谓的监控云存储系统,一般都只存储视频或图像业务相关的数据,和业务是紧密耦合的,数据可靠性和访问速度也得不到保证。在旧的时期,这种系统满足了基本的数据存储需求,但长远来看,是无法适应安防大数据的应用需求的。这类系统没有核心的分布式文件系统支持,不是真正的云存储系统,云存储是实现安防大数据有效存储的必由之路。
大数据实时处理框架
安防系统有大量的视频图像数据,传统的使用方式都是事后靠人工来查阅,效率极低。安防系统的终极目标应该是及时制止犯罪,实现公共安全,所以需要对数据做到实时处理,甚至能建立预测模型,云计算就是实现这种目标的工具。举几个例子,美国洛杉矶警察局运用云计算技术,对历史卷宗的分析,形成了预测犯罪发生地的模型;微软运用云计算技术,将911的历史数据和监控视频相结合,可以成功预测某地的犯罪。
云计算系统可以划分为IaaS,PaaS,SaaS几个层次。IaaS主要完成了物理资源虚拟化工作,解除了业务和物理设备的关联,使得业务专注于业务本身,将资源管理交给了云计算平台。虚拟化的作用是显而易见的,它可以将业务变得弹性化,可以根据业务需求,虚拟出相应的计算资源给相应的应用。比如某体育馆有演唱会,即可对体育馆周边的视频数据进行重点智能化分析,白天可对交通十字路口的视频数据实时处理,晚上则可重点处理娱乐场所周边的视频数据。
但是,IaaS只是一个基础,安防行业云计算的核心价值体现在SaaS层。它需要按照分布式的思维,重新实现安防大数据处理的业务逻辑,一方面要对业务进行解构,另一方面要和底层的IaaS,PaaS紧密结合,形成相对垂直的系统形态。在云计算服务化之后,还可以体现出很好的规模效应。比如,目前的交通系统,由于通信系统和发布系统一般都是独立的专用系统,成本高并且整个系统相对封闭,影响了智能交通系统的普及。采用云计算模式以后,对于一些周边地区而言,只需要租用相应的智能交通云计算服务即可。这样就可以大大降低智能交通系统的建设门槛,有利于智能交通系统的普及。随着更多用户的加入, 进一步摊薄系统的建设成本,成本的降低又会带来更多的用户,通过这种良性循环,就可以加快智能交通系统的普及。
在多种安防大数据处理业务形态中,智能交通安防大数据是目前比较热门的方向。一个大型城市3个月的过车历史记录就达到1800亿条,每天20亿条记录。如此庞大的数据量给传统的数据存储和分析计算都带来了巨大的压力。传统系统难以支撑,容量有限,处理速度有限,扩展困难。云计算系统可以很好的解决这个问题,实现性能和设备数量线性扩展,从而实现千亿级数据秒级查询的能力。这种高速检索能力,给刑侦、交通服务都带来了巨大的好处,使得类似套牌车等大数据量查询运算的应用变得有可能。
不管是何种安防业务,其大数据的处理流程是比较类似的,可以提炼出如图中所描述的处理框架。首先通过云存储将大量的图片、视频等非结构化数据存储起来,并提供统一的访问形式,数据共享的能力。然后运用云计算的视频摘要分析能力,从视频图像数据中提取人和车等元数据信息,变成结构化数据存储在分布式数据库中。通过快速检索技术,可以提供秒级检索能力,为实时决策提供数据支撑。通过离线分析在结构化数据上进行数据挖掘,将数据进行聚类,并最终形成数据模型,对未来的事情进行预测。同时云计算的实时计算又能根据模型来提供实时告警。以上就是安防大数据完整的数据流。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10