京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据应用于行业研究_数据分析师考试
国际知名的咨询公司麦肯锡认为,企业的发展战略制定流程可以分为七步(如图1),包括设定战略目标、定义经营单元、进行行业分析、产生战略选择、测试动态影响并选择、设计细节并实施和监控结果七大方面,可见,进行行业分析是企业制定战略相关决策的重要环节。而我们已经进入互联网和大数据时代,行业分析的方法可以结合大数据有更好的创新和突破。本文将大数据如何更好的帮助进行行业分析,从而更加有效的辅助战略决策。
图1:战略规划的流程
企业的发展受多种力量影响(如图2),进行行业分析的时候,需要要分析这些力量的影响,这些影响都作为战略决策的重要依据。企业所处的最外层的环境受四种力量影响,包括政府政策(Politics)、经济环境(Economics)、社会(Society)和科技(Technology)四大方面,构成宏观环境分析的PEST模型;企业还受产业的五种力量影响,包括同行竞争者、潜在进入者、替代品、供应商和顾客(用户)所影响,构成产业分析的波特五力模型。本文将介绍如何通过大数据的手段对影响企业发展的各种力量进行监测,以辅助战略分析师以及相关的决策者更好的决策。
图2:企业发展所处的生态环境
大数据应用于行业研究采用基于大数据的网络信息抓取和挖掘方法(如图3)。总的来看,此方法分为四大步骤,包括智能数据采集、数据预处理、数据分析与挖掘以及数据展现。在智能数据采集方面,利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息。网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好。第二步是对抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数。第三步是对这些预处理后的数据进行数据分析和挖掘,实现有用信息的提炼和发现,包括使用文本分类和聚类方法发现热点事件,结合信息的规模度和离散度等维度来发现敏感信息,通过算法和人工手段对指定关键词的进行专题的侦测,通过数据的走势来判断信息的趋势等。第四步为数据展示,即通过主题的方式和图表的方式来展示,或者通过计算机对信息进行更高层次的提炼,形成信息简报。
图3:基于大数据的网络信息抓取与挖掘
大数据应用于宏观环境分析
我们可以利用基于大数据的网络信息抓取与挖掘方法对行业产生影响的相关因素进行监测。在行业分析中最经典的宏观环境分析模型为PEST模型,PEST即分别对应政策、经济环境、社会和科技信息。以互联网企业为例,影响互联网行业的相关政策因素包括互联网信息内容管理、网站备案管理、网络安全交易环境、电子商务平台服务规范、知识产权维护和个人信息保护等方面;影响互联网行业的经济环境包括国内宏观经济运行情况相关数据、国内金融运行情况相关数据以及国际宏观经济运行相关数据等。影响互联网行业的社会因素包括社会环境的包括人口规模、年龄结构、种族结构、收入分布、消费结构和水平、人口流动性等,其中人口规模直接影响着一个国家或地区市场的容量,年龄结构则决定互联网服务的发展方向及推广方式;影响互联网行业的技术因素包括网络技术、云计算技术、安全技术、软件技术、数据库技术、动画视频多媒体技术等,近年来,互联网新技术加快创新发展,不断催生新的产品。以移动互联网、云计算、大数据等为代表的互联网技术及应用,带动了相关互联网的创新发展。
对于互联网行业,我们可以从特定类型的网站抓取相关政府政策、经济环境、社会和科技信息。我们可以抓取相关政府机构网站如国务院网站、工信部网站、文化部网站、商务部网站、新闻出版总署网站、国家工商总局网站、相关协会网站如中国互联网协会、相关研究机构网站如第三方互联网研究机构网站艾瑞网以及国家统计局等网站。对抓取后的内容进行主题分类,分为政策主题、经济主题、社会主题和科技主题,以便于分析师或者相关的决策者作为参考。
大数据应用于市场分析
行业市场分析一般从行业市场规模、市场成长速度预测以及产业集中度、该市场的细分市场分析以及行业发展趋势等角度来分析。以互联网行业为例,互联网行业会比较关注市场的用户规模和营收规模以及未来的增长速度。产业集中度是用于衡量产业竞争性和垄断性的最常用指标,产业集中度也叫市场集中度,是指市场上的某种行业内少数企业的生产量、销售量等方面对某一行业的支配程度,它一般是用这几家企业的某一指标(大多数情况下用销售额指标)占该行业总量的百分比来表示,该比例越高,市场的垄断程度越高。
对于行业市场分析中相关的行业市场规模、增速速度预测、产业集中度的分析、细分市场的分析以及行业发展趋势等方向,我们可以通过基于大数据的网络信息抓取与挖掘方法在网络上抓取相关的信息。我们可以通过爬虫技术抓取财经类网站如金融界、证券公司网站、第三方市场研究公司网站、投资机构网站等抓取相关市场分析的有用信息,以辅助分析师进行行业市场分析。
大数据应用于竞争分析
企业需要分析竞争者的优势与劣势以及竞争对手在各方面的动态,做到知己知彼,才能有针对性地制定正确的市场竞争战略。竞争对手分析的内容包括以下方面:(1)产品构成和新产品情况。竞争企业的产品构成、产品的新功能和新产品的研发情况等。(2)产品的价格变动情况,价格策略;(3)营销和促销行为。竞争对手的广告和促销行为的监测信息可以用来分析竞争对手的战术层面的情况。及时了解到这些情况,比较有利利于企业进行及时的反击;(4)研发能力和专利申请情况。我们需要了解竞争企业内部在产品研究、技术和基础研究、以及专利等方面的情况,有利于企业在研发方向制定相应的竞争策略;(5)组织结构和人力资源变动情况。组织结构和人力资源的变动较为容易透漏竞争企业的一些战略行动,比如如果竞争对手招聘一位全新产品的总负责人,侧面反映该企业在这个新产品上有规划和行动;(6)生产与经营。这方面我们需要掌握竞争企业的生产规模与生产成本水平、设施与设备的技术先进性与灵活性;生产能力的扩展;原材料的来源与成本等。
以上竞争对手情况可以通过大数据手段来辅助抓取和挖掘。关于产品构成以及新产品相关的情况,我们可以抓取竞争对手的网站、微博、产品发布的一些常见网站和网络渠道来获得;关于产品的价格以及促销行为情况,我们可以抓取产品的官方网站、电商网站等来获得;研发能力和专利情况也可以通过抓取企业官方网站、相关的技术网站和论坛、专利查询网站等渠道来获取;组织结构和人力资源变动情况可以通过抓取其企业官方网站、主流的招聘网站或者高端人才的猎聘类等网站;生产和经营情况这方面的网上资料可能偏少,如果是上市企业,可以通过财经类的网站、上市公司财报等渠道获取。相对于宏观环境分析、行业市场分析,大数据在企业竞争分析所起到的作用更为关键,对企业的用处也更为直接。企业需要高度重视这个方向,以通过大数据的手段获得更为及时和有效的竞争情报。
大数据用于发现快速成长的企业
业务发展速度较快或者用户量增长速度较快的企业,往往在产品或者服务创新或者微创新等方面有所建树,因此值得我们关注。我们可以通过利用大数据可以辅助发现业务增长或者用户量增长较快的企业,监测的维度包括:(1)用户或者客户的增长速度;(2)用户在社区或者微博上正面口碑量增长较快的企业或者产品;(3)网站的访问量增长速度较快的企业或者产品;(4)股价增长速度较快的企业。以移动互联网企业为例,我们可以利用大数据手段来抓取应用下载市场的下载量以及计算下载量的增长速度或者应用下载的排名变化情况;利用大数据手段来抓取微博上正面口碑增长速度较快的应用;或者运用电信运营商的流量数据来掌握应用使用规模的增长情况。
总之,我们可以通过大数据的手段更好的辅助行业研究,监测企业所处的行业环境、竞争对手的动态以及发现成长快的企业。对于行业环境和竞争对手监测,我们更多的是运用基于大数据的网络信息抓取和挖掘方法,利用网络爬虫技术抓取和分析相关的网络信息,在这个过程中,除了要重视爬虫技术、自然语言处理技术以外,我们还要重视抓取的网站对象的选取,选取合适的抓取对象会事半功倍。对于发现成长快的企业,运营商的流量数据是比较好的信息来源,当然也可以通过其他渠道如应用下载市场来获取。以上通过大数据手段所获取的信息,还需要结合分析师进行进一步的分析,以提取有用的决策信息。在行业研究中,大数据不能取代分析师,但可以更好的辅助分析师进行更为全面和及时有效信息获取,节省分析师在信息获取的时间,让分析师更好的聚焦在信息分析和提出企业发展的建议上。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27