京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的认知存在挑战 聚类成大数据认知突破口__数据分析师考试
大数据作为网络时代的一种客观存在,是网络时代人类社会的重要资产,尽管目前对于大数据的认知存在挑战,但聚类将会成为大数据认知的突破口。
大数据聚类将成行业核心竞争力
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
大数据本身既不是科学,也不是技术。它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战。
“物以类聚,人以群分”,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为“学科的学科”要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果,因此,数据分析和挖掘的首要问题是聚类,这种聚类是跨学科、跨领域、跨媒体的。大数据聚类是数据密集型科学的基础性、普遍性问题。
以汽车保险为例,作为一个很传统的行业,保险是基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的,要做到这样的聚类,保险公司就要获得客户的相关数据。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体。每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝。总之根据大数据聚类保险公司能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。我认为将来大数据聚类成为很多行业的核心竞争力。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科或者传统的行业,其公理、原理和定理组成的语境,遇到互联网+的挑战之后,都将成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据。
创新也会相应的发生变化,应该是创造一个新的语境、新的坐标系,在这个坐标系下研究大数据,否则难以有新的发现。
实践中的研究也要由下而上地深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,要更多地关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,还要充分认识大数据中的不确定性和价值的隐蔽性。
机器人是大数据认知的典型代表
智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物也是大数据的推动者,机器人是大数据的认知的典型代表。而在目前,无论是搬运、码垛、研磨、抛光、挖掘等灰头土脸的工业机器人还是微电子产品生产线上精细灵巧大的机器人,机器人在我们的生产生活中已经随处可见。
机器人革命是世界性的、时代性的,机器人替换的首先不是理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也将是我国抓住历史机遇的又一次崛起。
此外,机器人还将进一步刮起“穿戴风”。苹果推出了自己的手表,并发表了5个有关医疗的App,启动全新医疗应用。试想如果有一天手机或手表将会成为医疗诊断的工具,用于慢性管理的医患视频互动平台,医疗互联网个人健康与医疗的数据发生器,这将是远程诊疗的开始,并继而成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。
同时我们也可以期待未来的生物机器人,如果器官移植越来越发达,那么“移花接木”就屡见不鲜。改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢……
人脑是很复杂的,科学界现在正把脑科学和认知科学作为当前的重大研究领域,我们也在热切期待生物脑的出现。
当然认知科学不仅是研究生物脑的自然属性,社会属性研究也很重要。我们各种高端生物都会有语言、文字,有了文字,才会有文明。因此我们要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。
人的智能除了记忆之外,在学习和思维上,概括地说有两点:一个是逻辑思维,一个是形象思维,形象思维最主要的是类比和联想。
从我的技术观点来看,如果人脑的认知能力不能够全部、完整、统一地形式化,那么我们可以在特定的情境下使认知能力局部形式化,如算术运算、简单游戏、博弈、定点开车等。
在未来,我还想做一个机器驾驶脑,这个驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。
目前,中国脑计划马上要启动了,我个人认为是要将各项研究同步进行,用大数据来认识脑袋、保护脑、模拟脑。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07