京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。。
为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。
大数据为企业的发展带来了巨大商机,在各个企业中都发挥了良好的应用,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据应用篇。
以下为历届中国大数据技术大会PPT精粹的大数据的应用篇:
腾讯精准推荐中心广告推荐负责人薛伟:腾讯广点通——大数据之上的实时精准推荐
PPT下载 ——2013年第七届BDTC
广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台海量用户积累的基础上,运用大数据技术,进行以人为核心的数据挖掘,实现精准的广告推荐。腾讯精准推荐平台是广点通背后的支撑系统之一,具有数据海量、系统实时和算法精准的特点。薛伟从数据、算法、系统等几个方面对广点通进行了介绍。广点通从推荐的视角看数据,形成用户、物品和推荐位之间的交叉效应;推荐本质上是一种个性化排序,针对不同的推荐场景,采用不同的数据和不同的算法策略,其中算法包括规则算法、基于内容的算法、协同过滤算法、图算法和分类算法等;关于系统方面,采用了腾讯分布式数据仓库和腾讯实时计算平台,借助实时系统助力精准推荐。
淘宝核心系统存储系统研发专家杨志丰:OceanBase——淘宝结构化大数据解决之道
PPT下载 ——2012年第六届BDTC
杨志丰表示淘宝每天大约有6000万用户登录以及20亿PV。淘宝数据库对于淘宝来说非常重要。几乎所有淘宝业务都依赖淘宝数据库。淘宝数据库具备数以千计的数据库服务器,需要同时应对单表几亿至几百亿条的记录以及每天几亿至几百亿次访问。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbase、MongoDB等数据库,并使用普通PC服务器。杨志丰表示OceanBase可扩展数千亿条记录、数百TB数据、数十万QPS以及数万TPS。同时具备实时容错、自动故障恢复和99.999%高可用性。
奇虎360高级软件工程师肖康:Storm在实时网络攻击检测和分析的应用与改进
PPT下载 ——2013年第七届BDTC
肖康从业务需求、解决方案、问题与改进三个方面介绍了对访问360的服务进行实时统计和攻击检测的Storm平台。使用storm主要是从实时、扩展、容错和灵活四方面考虑,能够有效的提高时效性(10秒内可以检测到异常访问)、吞吐(单机群一个topology每个bolt10个并发,处理10Gb/s)、对业务影响(流量走光纤旁路给storm处理,对业务逻辑没有影响,不需要做任何修改),但是storm在稳定性、可用性和易用性方面仍存在着一些问题。肖康列举了其中的8个问题,并相应的给出了其改进方法,并提出了公司的未来工作。
小米软件开发工程师冯宏华:HBase在小米的应用与扩展
PPT下载——2013年第七届BDTC
冯宏华主要介绍了HBase在小米的应用现状、小米对HBase已做的改进和扩展以及进行中/计划中的改进与扩展。HBase目前的集群规模为15个HBase集群,包括9个在线集群、2个离线处理集群和4个测试集群,服务于小米内部的十多个不同业务,具有几百台机器,每个数据节点为24TB。主要应用场景为小米云服务、米聊消息全存储、小米推送服务、MIUI离线分析和多看离线分析;小米对HBase已做的改进包括Delete的语义校正、可控粒度跨机房备份、写吞吐性能优化等多方面;计划的改进与扩展包括Compact优化、Failover优化、Master重构、多租户等方面。
中国移动通信研究院技术经理徐萌:中国移动大数据应用实践
PPT下载——2013年第七届BDTC
她表示中移动移动互联网用户流量激增,手机数据化、宽带化趋势明显,亟需深挖大数据的价值。这与中国智能交通协会理事长吴忠泽在会上的观点不谋而合。中国移动网络规模和拥有用户数全球第一。在用户流量激增时,手机数据化、宽带化趋势很明显。而在这样的发展趋势下,大数据处理核心基础转变很明显。在传统数据分析处理时代,所用的硬件和软件都不再适应。所以大数据处理的时代,要尤其关注MPP DW+Hadoop的应用。在实践中,中国移动也发现关于使用Hadoop的一些问题:版本不一,缺乏规划;调优复杂,门槛较高;自有人员不足,控制力弱。为此,中国移动将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!
中科院计算所副研究员查礼:大数据技术如何用于传统信息系统
PPT下载——2013年第七届BDTC
通信、网络、存储、传感器等电子信息技术的飞速发展导致了数据规模的极大增加,传统的存储并处理这些数据的技术手段遇到了瓶颈,同时,数据爆炸对数据存储与处理效能提出了挑战。高速发展的数据型互联网企业需要连续的系统扩展能力,这需要解决数据快速增长与数据中心扩容周期缓慢的矛盾;如何维持低成本曲线和高性能曲线是现实问题,这是数据业务深度的不断加强和数据处理性能现状的矛盾。数据计算技术呈现规模大、计算快和检索准的发展态势,Hadoop这样的大数据技术源于互联网应用,需求和游戏规则的不同导致必须经过改造才能适用于传统信息系统应用。
Teredata天睿公司大中华区Aster事业部总监孔宇华:驾驭大数据——如何实现大数据的应用性
PPT下载——2012年第六届BDTC
孔宇华主要讲述了如何来让大数据更加地平民化、更加大众化。他表示,大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程方面都需要注意。在大数据方面,从应用看企业需求,从易用看维护,从速度看如何实现数据精华。企业在开发新的大数据平台、大数据产品的时候要考虑到易用,要考虑到你的用户和后端的人员是哪些人,他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题以及哪方面的问题,之后再从这个应用的需求方面再推断大数据平台和技术上的需求。
人云科技创始人兼总经理吴朱华:中小企业Big Data解决之道
PPT下载——2012年第六届BDTC
吴朱华表示海量数据呈现“4V + 1C”的特点。即Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。他认为中小企业面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程。另外,他还介绍了自家的YunTable。这是在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
凯备份技术总监兼高级架构师卢亿雷:Hadoop在网盘和在线备份的应用与挑战
PPT下载——2012年第六届BDTC
凯备份(Carbonite China)技术总监兼高级架构师卢亿雷阐述了HDFS和HBase在网盘和在线备份的应用、大数据的挖掘与处理、小文件的存储、备份文件至云端、文件全路径存放方式以及Namespace的管理等方面的问题。他还谈到MongoDB的经验分享:尽量创建索引;限定返回结果条数;Filter只返回需要的数据;优化主键,尽量自己控制主健ID;UUID主键使用BinaryData数据类型存储;注意文件大小不超过16M。最后,他补充道,用什么技术不是关键,关键是怎么用:明确需求,找准关注点;选择方法,要成熟技术,均衡复杂度;高效运营。
精诚资讯云中心Big Data事业部首席顾问陈昭宇:企业应用Hadoop的最佳模式
PPT下载——2012年第六届BDTC
企业使用大数据面临着存储、计算、管理和分析等方面的挑战,Hadoop作为大数据处理的最佳工具,企业在应用时仍然面临着部署、应用和运维等众多方面的挑战,陈昭宇用具体实例介绍了使用Etu Appliance的优势,这也是企业搭建Hadoop平台的最佳模式。相比自建Hadoop集群,采用Etu一体机,技术门槛低、人才招聘容易、上线时间迅速预计系统性能良好。同时,它还具有快速部署、性能优化、水平扩展、容错机制、安全简便等特性,特别适合海量数据处理。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28