京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的认知存在挑战 聚类成大数据认知突破口__数据分析师考试
大数据作为网络时代的一种客观存在,是网络时代人类社会的重要资产,尽管目前对于大数据的认知存在挑战,但聚类将会成为大数据认知的突破口。
大数据聚类将成行业核心竞争力
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
大数据本身既不是科学,也不是技术。它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战。
“物以类聚,人以群分”,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为“学科的学科”要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果,因此,数据分析和挖掘的首要问题是聚类,这种聚类是跨学科、跨领域、跨媒体的。大数据聚类是数据密集型科学的基础性、普遍性问题。
以汽车保险为例,作为一个很传统的行业,保险是基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的,要做到这样的聚类,保险公司就要获得客户的相关数据。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体。每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝。总之根据大数据聚类保险公司能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。我认为将来大数据聚类成为很多行业的核心竞争力。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科或者传统的行业,其公理、原理和定理组成的语境,遇到互联网+的挑战之后,都将成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据。
创新也会相应的发生变化,应该是创造一个新的语境、新的坐标系,在这个坐标系下研究大数据,否则难以有新的发现。
实践中的研究也要由下而上地深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,要更多地关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,还要充分认识大数据中的不确定性和价值的隐蔽性。
机器人是大数据认知的典型代表
智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物也是大数据的推动者,机器人是大数据的认知的典型代表。而在目前,无论是搬运、码垛、研磨、抛光、挖掘等灰头土脸的工业机器人还是微电子产品生产线上精细灵巧大的机器人,机器人在我们的生产生活中已经随处可见。
机器人革命是世界性的、时代性的,机器人替换的首先不是理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也将是我国抓住历史机遇的又一次崛起。
此外,机器人还将进一步刮起“穿戴风”。苹果推出了自己的手表,并发表了5个有关医疗的App,启动全新医疗应用。试想如果有一天手机或手表将会成为医疗诊断的工具,用于慢性管理的医患视频互动平台,医疗互联网个人健康与医疗的数据发生器,这将是远程诊疗的开始,并继而成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。
同时我们也可以期待未来的生物机器人,如果器官移植越来越发达,那么“移花接木”就屡见不鲜。改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢……
人脑是很复杂的,科学界现在正把脑科学和认知科学作为当前的重大研究领域,我们也在热切期待生物脑的出现。
当然认知科学不仅是研究生物脑的自然属性,社会属性研究也很重要。我们各种高端生物都会有语言、文字,有了文字,才会有文明。因此我们要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。
人的智能除了记忆之外,在学习和思维上,概括地说有两点:一个是逻辑思维,一个是形象思维,形象思维最主要的是类比和联想。
从我的技术观点来看,如果人脑的认知能力不能够全部、完整、统一地形式化,那么我们可以在特定的情境下使认知能力局部形式化,如算术运算、简单游戏、博弈、定点开车等。
在未来,我还想做一个机器驾驶脑,这个驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。
目前,中国脑计划马上要启动了,我个人认为是要将各项研究同步进行,用大数据来认识脑袋、保护脑、模拟脑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21