
CDA数据分析师 出品
编译:Mika
十年前,研究人员认为让计算机来区分猫和狗几乎是不可能的。如今,计算机视觉识别的准确率已超过99%。Joseph Redmon通过一个叫YOLO的开源目标检测方法,可以迅速识别图像和视频中的目标。
10年前,计算机视觉研究者认为,要让一台电脑去分辨出一只猫和狗的不同之处,这几乎是不可能的,即便是在当时人工智能已经取得了重大突破的情况下。
Joseph Redmon家养的猫
Joseph Redmon家养的狗
但如今我们已经可以做到让它的正确率在99%以上。这个方法叫做图像分类,给它一张图,再给这张图贴上标签。通过这种方式,计算机就可以知道数千种的分类。
我是华盛顿大学的一名研究生,我正致力于一个名叫Darknet的项目,这是一个用来训练和测试计算机视觉模型的神经网络结构。
Joseph Redmon所进行的Darknet项目
让我们来看看Darknet是如何看待这张图片。
当我们在这张图片上运行识别器时,我们注意到,它不仅能判断出图片上是猫是狗,还能给出它是哪个品种的预测。这就是我们目前所达到的粒度级别。
它的预测是正确的,我的狗的确是一只阿拉斯加雪橇犬。
很明显,我们在图像识别上取得了惊人的进步。但是如果我们对这样一张图片运行识别器,会如何呢?
看一下,我们看到识别器给出了一个非常相似的预测。而且是正确的,图中是有一只阿拉斯加雪橇犬。但只使用这一个标签,我们并不能真正的了解这张图片,我们需要更强大的检测器。
我正在研究一个叫做目标检测的问题,也就是尝试将一张图上的所有目标物都找出来,然后将它们分别框起来,再加上标注。
这就是我们对这张照片运行检测器时所发生的。基于这样的结果,我们可以用计算机视觉算法做更多的事情。
我们发现,它知道这里有一只猫和一只狗。知道它们的相对位置,它们的大小,甚至还知道一些额外的信息,例如背景里有一本书。
如果你想建立一个基于计算机视觉的系统,比如说无人驾驶汽车或者机器人系统,这就是你想要得到的信息。你需要一个能与物质世界互动的系统。
当我最开始开展目标检测项目时,它要花20秒去处理一张图片。
为了理解为什么速度在这个领域是如此重要。举一个例子,这是一个2秒钟就能处理一张图片的检测器。这个检测器的速度要比处理每张图需要20秒的检测器快10倍。可以看到在它做出预测的时候,被检测的世界已经发生变化了。这对于一个应用来说是没有多大用处的。
每2秒处理一张图
如果我们将它的速度再提升10倍,这个检测器每秒可处理5张画面,这就好很多了。
每秒处理5张图
但是,举个例子。如果有任何重大的移动,它就反应不过来了。我可不想让这样的一个系统来驾驶我的汽车。
这是在我电脑上运行的实时检测系统。当我在移动时,它能顺利地追踪我。而且它强大到能适应不同的物体大小、姿势、向前、向后的改变,很了不起。
实时检测系统
如果我们想要建造一个基于计算机视觉的系统,那么这就是我们真正需要的。
仅仅是几年的时间,我们就从每张图20秒提升到了每张图20毫秒,速度提高了1000倍。我们是如何做到的呢?
过去,目标检测系统会将这张图片分成很多小区域,然后在每一块区域运行一下识别器。在识别器中获得最高分数的输出就会被认为是这张图片的检测结果。这涉及到要在一张图片上运行数千次识别器,以及数千次的神经网络评估才能获得检测结果。
而现在,我们训练了可以做出所有检测的单一网络,它能同时生成边界盒和类别概率。
使用我们的系统,不需要为了生成检测结果去重复上千数次地看同一张图片,只看一次就行了。这也是为什么我们称之为,目标检测的"YOLO(you only look once)法"(只看一次)。
有了这个速度,我们就不仅限于识别图像了,还可以实时处理视频。现在我们不仅看到了猫和狗,还能看到它们走来走去,互相嘻戏。
这是一个我们在微软的COCO数据库上,用80种不同种类的物品训练过的检测器。包含了各种东西,像勺子、叉子、碗等常见物品。
还有各种奇特的东西,动物、汽车、斑马、长颈鹿。
现在我们要做点儿有趣的事情,我们的摄像头将要对准观众区看看能检测出什么。
我们把检测阀值调低一点,这样就可以找出更多的观众。看下我们能不能找出这些停车标志,我们发现了一些背包。所有这些都是在电脑上实时处理的。
请大家记住,这是一个通用的目标检测系统。因此我们可以将它训练用于任何领域的图像识别。
我们在无人驾驶汽车中,用来发现停车标志 行人和自行车的代码,同样可以用于在组织活检中找出癌细胞。全球已经有很多研究者正在利用这一技术在医学、机器人学等方面取得了进展。
今天早上,我刚读到一篇文章,人们在内罗毕国家公园对动物数量进行普查,使用了YOLO作为检测系统的一部分。因为Darknet是一个开源项目,在公共领域任何人都可以免费使用。
但是我们想要让检测器能被更多人使用,也更好用因此通过结合模型优化,网络二值化和近似法,我们实际上已经可以在手机上进行目标检测了。
我真的很激动,因为我们在初级计算机视觉问题上有了强大的解决方案,同时任何人都可以使用它来做些什么。
接下来就看所有在座的各位,以及世界上所有能够使用这个软件的人了。我已经等不及想要看看,人们会用这一技术创造出什么来了,谢谢大家。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术》一书中指出:AI思维, ...
2025-07-17数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17Pandas 写入指定行数据:数据精细化管理的核心技能 在数据处理的日常工作中,我们常常需要面对这样的场景:在庞大的数据集里精 ...
2025-07-17解码 CDA:数据时代的通行证 在数字化浪潮席卷全球的今天,当企业决策者盯着屏幕上跳动的数据曲线寻找增长密码,当科研人员在 ...
2025-07-17CDA 精益业务数据分析:数据驱动业务增长的实战方法论 在企业数字化转型的浪潮中,“数据分析” 已从 “加分项” 成为 “必修课 ...
2025-07-16MySQL 中 ADD KEY 与 ADD INDEX 详解:用法、差异与优化实践 在 MySQL 数据库表结构设计中,索引是提升查询性能的核心手段。无论 ...
2025-07-16解析 MySQL Update 语句中 “query end” 状态:含义、成因与优化指南 在 MySQL 数据库的日常运维与开发中,开发者和 DBA 常会 ...
2025-07-16如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-15CDA 精益业务数据分析:驱动企业高效决策的核心引擎 在数字经济时代,企业面临着前所未有的数据洪流,如何从海量数据中提取有 ...
2025-07-15MySQL 无外键关联表的 JOIN 实战:数据整合的灵活之道 在 MySQL 数据库的日常操作中,我们经常会遇到需要整合多张表数据的场景 ...
2025-07-15Python Pandas:数据科学的瑞士军刀 在数据驱动的时代,面对海量、复杂的数据,如何高效地进行处理、分析和挖掘成为关键。 ...
2025-07-15用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10