
大数据应用于行业研究_数据分析师考试
国际知名的咨询公司麦肯锡认为,企业的发展战略制定流程可以分为七步(如图1),包括设定战略目标、定义经营单元、进行行业分析、产生战略选择、测试动态影响并选择、设计细节并实施和监控结果七大方面,可见,进行行业分析是企业制定战略相关决策的重要环节。而我们已经进入互联网和大数据时代,行业分析的方法可以结合大数据有更好的创新和突破。本文将大数据如何更好的帮助进行行业分析,从而更加有效的辅助战略决策。
图1:战略规划的流程
企业的发展受多种力量影响(如图2),进行行业分析的时候,需要要分析这些力量的影响,这些影响都作为战略决策的重要依据。企业所处的最外层的环境受四种力量影响,包括政府政策(Politics)、经济环境(Economics)、社会(Society)和科技(Technology)四大方面,构成宏观环境分析的PEST模型;企业还受产业的五种力量影响,包括同行竞争者、潜在进入者、替代品、供应商和顾客(用户)所影响,构成产业分析的波特五力模型。本文将介绍如何通过大数据的手段对影响企业发展的各种力量进行监测,以辅助战略分析师以及相关的决策者更好的决策。
图2:企业发展所处的生态环境
大数据应用于行业研究采用基于大数据的网络信息抓取和挖掘方法(如图3)。总的来看,此方法分为四大步骤,包括智能数据采集、数据预处理、数据分析与挖掘以及数据展现。在智能数据采集方面,利用网络爬虫技术对相关网站进行信息抓取,形成半结构化以及非结构化的信息。网络信息抓取的时候,一开始指定的抓取对象非常重要,如对于行业政策,指定抓取相关的政府官方网站、行业协会网站会使得抓取的效果更好。第二步是对抓取下来的信息进行数据预处理,包括页面信息解析、数据清洗和内容提取,对重复文章信息进行去重,并进行文本分词、特征提取以及关键词提取,以从噪音数据中分离出有用的信息以及减少数据的维数。第三步是对这些预处理后的数据进行数据分析和挖掘,实现有用信息的提炼和发现,包括使用文本分类和聚类方法发现热点事件,结合信息的规模度和离散度等维度来发现敏感信息,通过算法和人工手段对指定关键词的进行专题的侦测,通过数据的走势来判断信息的趋势等。第四步为数据展示,即通过主题的方式和图表的方式来展示,或者通过计算机对信息进行更高层次的提炼,形成信息简报。
图3:基于大数据的网络信息抓取与挖掘
大数据应用于宏观环境分析
我们可以利用基于大数据的网络信息抓取与挖掘方法对行业产生影响的相关因素进行监测。在行业分析中最经典的宏观环境分析模型为PEST模型,PEST即分别对应政策、经济环境、社会和科技信息。以互联网企业为例,影响互联网行业的相关政策因素包括互联网信息内容管理、网站备案管理、网络安全交易环境、电子商务平台服务规范、知识产权维护和个人信息保护等方面;影响互联网行业的经济环境包括国内宏观经济运行情况相关数据、国内金融运行情况相关数据以及国际宏观经济运行相关数据等。影响互联网行业的社会因素包括社会环境的包括人口规模、年龄结构、种族结构、收入分布、消费结构和水平、人口流动性等,其中人口规模直接影响着一个国家或地区市场的容量,年龄结构则决定互联网服务的发展方向及推广方式;影响互联网行业的技术因素包括网络技术、云计算技术、安全技术、软件技术、数据库技术、动画视频多媒体技术等,近年来,互联网新技术加快创新发展,不断催生新的产品。以移动互联网、云计算、大数据等为代表的互联网技术及应用,带动了相关互联网的创新发展。
对于互联网行业,我们可以从特定类型的网站抓取相关政府政策、经济环境、社会和科技信息。我们可以抓取相关政府机构网站如国务院网站、工信部网站、文化部网站、商务部网站、新闻出版总署网站、国家工商总局网站、相关协会网站如中国互联网协会、相关研究机构网站如第三方互联网研究机构网站艾瑞网以及国家统计局等网站。对抓取后的内容进行主题分类,分为政策主题、经济主题、社会主题和科技主题,以便于分析师或者相关的决策者作为参考。
大数据应用于市场分析
行业市场分析一般从行业市场规模、市场成长速度预测以及产业集中度、该市场的细分市场分析以及行业发展趋势等角度来分析。以互联网行业为例,互联网行业会比较关注市场的用户规模和营收规模以及未来的增长速度。产业集中度是用于衡量产业竞争性和垄断性的最常用指标,产业集中度也叫市场集中度,是指市场上的某种行业内少数企业的生产量、销售量等方面对某一行业的支配程度,它一般是用这几家企业的某一指标(大多数情况下用销售额指标)占该行业总量的百分比来表示,该比例越高,市场的垄断程度越高。
对于行业市场分析中相关的行业市场规模、增速速度预测、产业集中度的分析、细分市场的分析以及行业发展趋势等方向,我们可以通过基于大数据的网络信息抓取与挖掘方法在网络上抓取相关的信息。我们可以通过爬虫技术抓取财经类网站如金融界、证券公司网站、第三方市场研究公司网站、投资机构网站等抓取相关市场分析的有用信息,以辅助分析师进行行业市场分析。
大数据应用于竞争分析
企业需要分析竞争者的优势与劣势以及竞争对手在各方面的动态,做到知己知彼,才能有针对性地制定正确的市场竞争战略。竞争对手分析的内容包括以下方面:(1)产品构成和新产品情况。竞争企业的产品构成、产品的新功能和新产品的研发情况等。(2)产品的价格变动情况,价格策略;(3)营销和促销行为。竞争对手的广告和促销行为的监测信息可以用来分析竞争对手的战术层面的情况。及时了解到这些情况,比较有利利于企业进行及时的反击;(4)研发能力和专利申请情况。我们需要了解竞争企业内部在产品研究、技术和基础研究、以及专利等方面的情况,有利于企业在研发方向制定相应的竞争策略;(5)组织结构和人力资源变动情况。组织结构和人力资源的变动较为容易透漏竞争企业的一些战略行动,比如如果竞争对手招聘一位全新产品的总负责人,侧面反映该企业在这个新产品上有规划和行动;(6)生产与经营。这方面我们需要掌握竞争企业的生产规模与生产成本水平、设施与设备的技术先进性与灵活性;生产能力的扩展;原材料的来源与成本等。
以上竞争对手情况可以通过大数据手段来辅助抓取和挖掘。关于产品构成以及新产品相关的情况,我们可以抓取竞争对手的网站、微博、产品发布的一些常见网站和网络渠道来获得;关于产品的价格以及促销行为情况,我们可以抓取产品的官方网站、电商网站等来获得;研发能力和专利情况也可以通过抓取企业官方网站、相关的技术网站和论坛、专利查询网站等渠道来获取;组织结构和人力资源变动情况可以通过抓取其企业官方网站、主流的招聘网站或者高端人才的猎聘类等网站;生产和经营情况这方面的网上资料可能偏少,如果是上市企业,可以通过财经类的网站、上市公司财报等渠道获取。相对于宏观环境分析、行业市场分析,大数据在企业竞争分析所起到的作用更为关键,对企业的用处也更为直接。企业需要高度重视这个方向,以通过大数据的手段获得更为及时和有效的竞争情报。
大数据用于发现快速成长的企业
业务发展速度较快或者用户量增长速度较快的企业,往往在产品或者服务创新或者微创新等方面有所建树,因此值得我们关注。我们可以通过利用大数据可以辅助发现业务增长或者用户量增长较快的企业,监测的维度包括:(1)用户或者客户的增长速度;(2)用户在社区或者微博上正面口碑量增长较快的企业或者产品;(3)网站的访问量增长速度较快的企业或者产品;(4)股价增长速度较快的企业。以移动互联网企业为例,我们可以利用大数据手段来抓取应用下载市场的下载量以及计算下载量的增长速度或者应用下载的排名变化情况;利用大数据手段来抓取微博上正面口碑增长速度较快的应用;或者运用电信运营商的流量数据来掌握应用使用规模的增长情况。
总之,我们可以通过大数据的手段更好的辅助行业研究,监测企业所处的行业环境、竞争对手的动态以及发现成长快的企业。对于行业环境和竞争对手监测,我们更多的是运用基于大数据的网络信息抓取和挖掘方法,利用网络爬虫技术抓取和分析相关的网络信息,在这个过程中,除了要重视爬虫技术、自然语言处理技术以外,我们还要重视抓取的网站对象的选取,选取合适的抓取对象会事半功倍。对于发现成长快的企业,运营商的流量数据是比较好的信息来源,当然也可以通过其他渠道如应用下载市场来获取。以上通过大数据手段所获取的信息,还需要结合分析师进行进一步的分析,以提取有用的决策信息。在行业研究中,大数据不能取代分析师,但可以更好的辅助分析师进行更为全面和及时有效信息获取,节省分析师在信息获取的时间,让分析师更好的聚焦在信息分析和提出企业发展的建议上。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13