
网络数据挖掘应用与限制
我们的社会,有两个舆论场——即官方和民间。意思就是说官方舆论场是铁板一块,民间舆论场对于官方的舆论场,又是铁板一块,我对这个很好奇。难道民间舆论场都是一样的吗?这个舆论场里面有没有差异?关于舆论场上的网民是怎么样分类的,我们尽管有各种各样的说法,但是没有一个让人信服的说法,所以我想探讨这个问题。
所以我就想来探讨这么一个问题,就是说我们的网民类型是如何分布的。社交舆论整个是一个结构,但是,它是不是我们所想象的这么一个结构。这是我想探讨的这么一个最早我最初的一个命题,是一周前我根据参考数据做出来的。
第二个问题,我想做的是我们现在都在说谣言,媒介内容里有很多的谣言。社交媒体上有很多的谣言,那么这个谣言究竟是怎么样的、哪一种、是不是所有的民众对所有的信息都能完全一样的相信,还是对不同类型的信息有不同的判断力。这个就涉及到一个概念,就是说媒介素养。简单说,就是民众面对媒介内容的选择、质疑、理解、评估的能力。
我提出这么一个问题,就是说网民的媒介素养的信息的辨别力,究竟是什么样的;此外,我想研究第二个问题,就是说网民的媒介素养和信息的辨别力,是怎么样来辨别的,人们对于不同的类型谣言的辨别力有多高。
我想探讨的第三个问题是,不同类型的网民的信息辨别力。刚才我讲的第一个问题是,网民有不同的类型,不同的类型的网民对信息的辨别力的水平是怎么样的,是哪一种类型的网民的信息辨别力更高。
这里我想知道我们传统媒体,电视广播和是一面理,在微博里面我们经常捕捉到不同的信息,那是两面理。这样来说,网民接触的不同的媒介,对他的信息的辨别力是怎么样的。
我想探讨四个问题。对此,我用一个全景的调研助手,做了一个网络流量的截取的样本,我采集的北京、上海、广州、四川地区共3696份样本,来探讨以下问题。
第一个是网民的类型。我们做了这么一个二维划分。我用信任度和活跃度把网民分为两类。活跃度是指网民在社交媒体如论坛、微博、QQ、微信的活跃情况。我的纵坐标是信任度,这是指对政府的信任程度。这样的话我们把整个的网民切分为四类。
在第一象限和第四象限的网民就是活跃者,即活跃的拥政者和批政者。很信任政府、又很活跃的用户就是活跃的拥政者;很活跃、又不相信政府就是活跃的批评者。第二象限和第三象限均是沉默的拥政者,另外是我不相信政府我不表达,沉默的批评者。这四个维度我来测量,考虑用户们在网络上发微博,写评论,然后发朋友圈,然后微信中发言,发QQ空间,QQ群发言,论坛发帖,博客。所有的网民,主要能够在网上表达语言的渠道,我们把这个测量体系作为一个指标进行合总。我们从刻度来看,从高到低,网民是怎么样的来分布的。
第一个我做了一个横坐标是网民的活跃度。第二个是对政府的信任度。那么关于政府的信任度我就做了两个指标,第一个是对政府的信任,第二个是对政府官员的信任。因为我们对政府的信任和对政府官员的信任往往是不一样的。我们曾经在区伯长沙嫖娼的时候,做过有关于网民对政府的信任度的调查,发现大家对中央和地方的政府的信任度不一样,对政府官员的信任度也是不一样的。所以,我们就是两个维度,一个是对政府的信任度,对政府官员的信任度,把两个指标合在一起,作为我们的纵坐标,这样以后得到这么一个数据。
活跃的拥政者是17.4%,活跃的批评者23.4%,就是说明批评者比拥政者更多。我们沉默的大多数是60%,不管是批评还是说支持政府,沉默的人是60%,我们有40%是活跃的,这是我们整个的网民的结构。总的来说40%里面批评政府的更多一点,更活跃一点,这是我们第一个数据。
我们看看四个地区的比较,在四川、北京、广东、上海怎么样?我们发现四川和北京批评的比较高的,是30%,上海最低,24%。这是有很多的解释,文化、政治、经济学等不同的学者都来解释,而我们做的,只是提出来这个现象。
这是第一个问题,我们可以把网民划分为四个维度,这四个维度的结构是怎么样。而我想研究的第二个问题,即是网民对于信息的辨别力。
我们用了十个谣言作为选题,比如说马航M370找到了,淘宝衣服来自于藏尸间等等,这样真真假假的新闻来让网民做判断,你认为哪一个是真的,哪一个是假的,你答对一道题得一分,答错了零分,我们把这四道题合起来是十分,最低是零分,我们连起来测量信息的辨别力多高。测完了以后我们发现这样一个现象:就是说环境的相关问题,比如说雾霾。雾霾多半是因为污染,网民在环境的问题上的辨别力是最高的。但是对于”马航M370被找到”信息的辨别力是最低的,只有15.2%;还有对“淘宝衣服”的辨别力都是很低的。
就是说的信息辨别力并不是铁板一块,也是有高有低的。我们也会做信息对称的分别,我们会关注哪一种类型是高的,哪一种类型是低的。
在总的得分上,受访者对于十道题的平均分是4.5分。就是说整个网民的信息的辨别力不是很高。
这里还有一个问题,区域的差异。我们来看看北京和上海,大城市的信息辨别力是较高的,而四川和广东最低。北京和上海是平均4.96,四川和广东是4.68和4.65。
第三个问题我想探讨的是不同类型的网民的信息辨别力。我们把这个沉默这部分人做了一个亚变量,我们把批评者作为一个虚拟变量来测量。我们发现这两个之间是有显著的,都是辨别力的变量是显著的负关系,也就是说越是活跃的批评者,越是活跃的拥政者,他们对信息的辨别力都是低的。那么低到什么程度,我们来看,你看沉默者,两个沉默者都是明显的高的,沉默的批评者是最高的,达到4.94;对信息的判断力,沉默的拥政者是4.98,活跃的拥政者对信息的判断力是最低的,这要引起我们的注意。活跃者总体是低的,而沉默者在互联网里边是高的,这是整个的信息的判断。这是一个有趣的问题。
我想探讨的是第三个问题,如果我们把沉默者和拥政者的类型控制住以后,我们来看媒体的使用会怎么样,是不是会影响它的判断。我们来看媒介的使用。
于是把报纸、电视、博客、微博、微信、QQ空间和论坛,新闻论坛,翻墙等变量拉进去以后,我们发现微博对于信息的判断和辨别力有明显的正影响。而我们的QQ空间是负影响,翻墙是负影响,负关系。换句话说,我们报纸、电视传统媒体对我们信息的辨别力没有显著性的帮助,微信也没有帮助,微信也不显著,论坛、新闻网站都不显著。所以这里特别有趣的是微博和我们QQ空间和翻墙,一个是正相关的,两个是负相关。还有文化程度我们是显著性的相关,很简单,文化程度越高对信息的辨别力就越高,这个和收入也没有关系。这是我们这样一个结果。微博是有显著性的关系,而论坛和翻墙我们是负相关,这样的一个结果。这里是我们的一个研究的这么一个发现,我们发现有这么一件事,这里边我想特别来看看这个结论。
结果讨论,第一社交媒体的网民,不是一个恐惧的整体,活跃的不是政府的,是近四分之一的,活跃的政府的比例也有近两成,近十七点几。这是一个相对均衡的点。
第二点我们想说的是网民对信息的辨别力的差异是很大的,我们想做的可能是对我们的环境污染等等的信息我们的辨别力很高,但是对于国际新闻,或者是说离我们距离远的新闻我们辨别力很弱,这个方面的地理位置的接近性在生物学里面以前有很多的文献,在英文里面也做过信息的辨别力的影响,这一块里面也是一样的,这是差不多的。
第三个问题我想探讨的是活跃的网民总体上比不活跃的网民辨别力低,我不知道是什么原因,也就是说网民越活跃,活跃的网民比沉默的网民对信息的辨别力是低的,这个原因是什么,在我们研究里面没有解释,下一步我们会探讨为什么会这样。
第四个问题是文化程度是网络信息辨别力一个重要的正影响的变量,这个是非常好理解的,文化程度越高的人,对信息的辨别力是越高的。我们经常看到微信的朋友圈里,很多的谣言,对此传得最厉害的是我的表哥和表弟,他们在老家,小学毕业文化,我总是批评他们,他们就说这都是真的。这就是一个信息辨别力的问题。
这里还有一个QQ空间和境外网站的解除对辨别力是负影响,但是两者背后的原因是不一样的,我觉得这是我在这里抛砖引玉,也是一个命题,怎么会不一样。QQ空间可能是年轻人的,为什么它的使用和境外的网站都是负影响,但是背后的原因是不一样的。特别我想提出下面一个问题,微博的借助对信息的辨别力存在显著性的正影响。
一定意义上讲,微博是谣言的粉碎机。也就是说我们的微博有自清功能和手电功能。就是说微博的使用对谣言有验证机制的。关于解释,我们可以做更多的验证,而且我们数据里面非常有显著性的。
我想思考的最后一点,是微信对于网民的信息辨别力没有影响。也就是说微信是一个封闭的群体。这个群体里面信者恒信,不信者恒不信。这是按照现实的交往关系结成的关系。我们去年做过微信的社会资本研究。我们提出,微信朋友圈显示的是社会关系的一种搬迁,其实并没有更多的实现我们虚拟空间的社会关系的建构。这种搬迁将我们的现实,物以类聚,人以群分。我们用的最多的是同事圈,朋友,同学圈,我们家庭圈应付一下,很多年发一个红包或者是发一个照片:“我很安好”。这样的事情,我们交流的时候还是现实里面的人群结构转移到上面去的,他们没有真正的是一种很重要的虚拟的社会责任。
这就提出一个问题,微信圈里面低学历者,他们对信息的判断和辨别力,反而有一种群体效应,每个人在发假信息的时候,反而互相都信任,互相形成一个气场
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28