
重构数据处理架构 让大数据更智能
智慧城市的管理中,视频监控发挥着越来越重要的作用。随着视频监控数据量的飞速增长,工作人员在用传统方式对视频进行分析和检索的时候遇到了很大的挑战。而大数据技术可以重构传统视频数据处理的架构,让人们可以更快速、更智能地分析和应用视频监控的大数据。
我国智慧城市战略已经实施了多年,全面提升了城市的管理和服务能力。而从数据上来看,市民感受城市最直接的变化就是摄像头密集度越来越高。而且,很多城市都已经开始实施“天眼工程”,为的就是实现对城市全方位无死角的监控。密集分布的摄像头网络组成了城市的公共安全视频监控系统,也提升了一个城市治安、交通、消防、市政、城管等各部门的整体管理和服务水平。
海量视频数据带来的挑战
随着视频监控数据量的快速增长,以及摄像头高清化、超高清化的趋势加强,视频监控数据规模将以更快的指数级别增长。以一个部署了1万个摄像头的中等城市为例,假定每个摄像头每秒压缩视频数据量为1Mb(比特),则一天共产生108TB的视频录像,一个月共产生约3PB的视频录像。
现在,新的问题出来了,摄像头7×24小时地录制视频,让每个城市都产生了大量的视频监控文件。但是,当公安部门或交通部门希望快速搜索某时间或某些特征的视频段时,这个看似简单的想法,操作起来却犹如大海捞针。
与通常的结构化数据不同,视频监控业务产生的数据绝大多数以非结构化的数据为主,必须经过复杂繁重的分析处理才能提取出文本结构化的数据进行下一步处理。这些都给传统视频监控体系架构、数据的管理方式、数据分析,以及视频监控数据的传输、存储和计算带宽等带来了极大的挑战。
挑战一:数据量的急剧扩大和IT投资之间的矛盾。按照IT产业的法则:在满足客户需求的前提之下,往往技术成本越低,其生命力越强。由于数据量的急速扩大,以及随之而来的大规模计算的需求越来越多,一味采用高配硬件,使得硬件投资成为客户不可承受之重,客户越来越希望在满足需求的前提下,用中低端的硬件来替换高配硬件。
挑战二:海量数据和有效数据之间的矛盾。摄像头7×24小时地工作如实记录镜头覆盖范围内所发生的一切。但是,大部分视频监控信息是无效的,有效信息可能只分布在一个较短的时间段内,按照数学统计的说法,信息是呈现幂律分布的,也称之为信息的密度,往往越高密度的信息对客户价值越大。
挑战三:资源利用和效率之间的矛盾。随着视频监控数据量的增加,哪怕对TB级别的数据进行视频内容的数据分析和检索,采用传统方式都可能需要花费数小时的计算,这远远不能胜任时效性的需求。视频的分析和检索,不能依赖于传统的手段,视频智能分析必须寻找新的突破。
因此,想要从如此海量的视频监控文件检索到所需的视频信息,必须借助特殊的技术帮忙。
改造传统数据处理架构
大数据理念和开源生态系统Hadoop的诞生,激活了各行业的思路。IT领域开始采用基于Hadoop的大数据技术框架对视频文件进行存储和计算,使得城市各部门的工作人员可以实现对视频的快速检索和智能分析。
视频监控的大数据平台一般以分布式集群的方式进行建设。分布式集群能够对数据处理进行负载均衡,同时,也便于未来一段时间进行扩展。而扩展的过程也无需重新部署系统,只需增加集群节点即可提升大数据平台的整体性能。
视频监控的大数据平台采用分布式计算,同时结合内存加速、负载均衡、本地处理,以提供高效的数据分析和挖掘能力。视频监控大数据处理过程中的存储则采用了分布式存储方式,以提高读写速度和扩大存储容量。在数据存储方面,大数据平台需要考虑以下3个方面:一是哪些数据需要保存到大数据平台上;二是如何对原有系统进行改造,原有系统中已存在的数据该如何处理;三是如何保证数据的可靠性。
实践证明,基于大数据框架改造的传统视频处理系统架构能焕发出新的活力。首先,架构更加灵活,伸缩弹性更大。一些城市的中大型项目,由于起点的差异,缺乏视频监控架构的顶层设计,为后期的扩容升级增大了难度。在建设初期,IT规划者如果能引入基于大数据的架构,就会为未来的扩张打开通路。
其次,可以以廉价通用的硬件产品应对视频监控数据的爆发性增长。在面向大数据的架构中,IT规划者后期可以根据视频监控业务的部署需要,设立多个HDFS(Hadoop分布式文件系统)集群,采集的流数据会被划分成段,并分布于各个数据节点上。更为重要的是,这些数据节点可以采用廉价通用型的硬件,由软件技术保证其高可靠性。这种方式避免采用传统高端硬件模式,大大降低了大数据平台的后续运维成本。
最后,可以通过高速并行计算实现智能分析和数据挖掘。对于城市管理者来说,面对海量的视频监控数据,传统人工和串行的数据筛选方式已不能满足搜索和分析要求。基于大数据的架构就是将海量数据分解为较小的更易访问的批量数据,在多台服务器上并行分析处理,从而大大加快视频数据的处理进程。
视频大数据的智能应用
以2012年在南京发生的“1·6”抢劫案为例,在案件侦破过程中,南京警方从全市1万多个摄像头共提取了近2000TB的视频数据,为了处理这些视频,调动1500多名公安干警查阅搜索视频线索,共耗时一个多月的时间。很显然,通过人工查看模式,一段视频往往需要数倍于视频时间才能审看完,因此需要大量工作人员连续加班进行视频的审查,就不足为奇。
即便如此,人海战术仍然会影响公安部门破案的进度和效率,而且也使得工作人员把过多的精力耗费在查找视频线索上来。如果这时候,有一个视频监控的大数据平台就可以在短时间内对视频中运动的物体进行检索和排除,从而大大提高公安部门的办案效率。
时至今日,视频监控的大数据平台已经被成熟地应用于智能交通,可以轻松监控摄像覆盖范围内的所有车辆的行驶状态、运行轨迹,快速分析出其是否违章。2015年1月8日上午,在宁连高速上,一辆白色轿车飞速行驶,车内仪表盘上的时速指针已接近200公里/小时。
与此同时,南京市高速七大队指挥室内,执勤的交警正在通过大屏幕监控着过往的车辆。当这辆白色轿车飞驰而过时,路边的测速设备捕捉到这辆车的时速已达到180公里/小时。交警利用监控探头锁定了这辆车,当车接近收费站时,司机将车停了下来,绕到车尾将号牌上一个蓝色东西撕下,随后继续往收费站驶去。
几分钟后,当这辆白车进入了收费站时,早已在此等候的交警立即上前将车拦截。当交警递上了车辆超速照片,司机指着车牌刚想狡辩,交警又递上另一张这位司机正在撕号牌贴的照片。顿时,这位司机哑口无言,乖乖认罚。
据了解,南京市交管部门全面升级警务系统,启用视频巡查机制,利用现代化的高科技手段,将交通管理搬上网络视频大数据平台,利用布控在全城的道路监控系统,实现日常事务的智慧化管理。
同时,在智能交通领域,视频监控的大数据平台还可以落地很多以前无法实现的操作。例如,实时交通状况分析,通过视频实时分析道路交通流量,然后综合分析统计出全城市的交通状况;汽车套牌的行为,通过视频进行车牌识别,按照一定的规则在全城检索相同车牌的汽车;犯罪嫌疑车辆追查,输入嫌疑车的照片或颜色车型等相关特征在所有视频中寻找;犯罪嫌疑人追查,通过输入嫌疑人照片进行人脸特征识别并在所有视频中寻找该人脸;人车物的轨迹分析,在所有视频中按照特征查找指定的人车物并绘制其时空轨迹等。
显然,视频监控的大数据框架是一种革命性的技术,特别在实时智能分析和数据挖掘方面,让视频监控从人工抽检进步到高效事前预警和事后分析,实现智能化的信息分析和预测,为视频监控领域业务带来深刻的变革。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14