京公网安备 11010802034615号
经营许可证编号:京B2-20210330
从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。。
为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。
大数据为企业的发展带来了巨大商机,在各个企业中都发挥了良好的应用,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据应用篇。
以下为历届中国大数据技术大会PPT精粹的大数据的应用篇:
腾讯精准推荐中心广告推荐负责人薛伟:腾讯广点通——大数据之上的实时精准推荐
PPT下载 ——2013年第七届BDTC
广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台海量用户积累的基础上,运用大数据技术,进行以人为核心的数据挖掘,实现精准的广告推荐。腾讯精准推荐平台是广点通背后的支撑系统之一,具有数据海量、系统实时和算法精准的特点。薛伟从数据、算法、系统等几个方面对广点通进行了介绍。广点通从推荐的视角看数据,形成用户、物品和推荐位之间的交叉效应;推荐本质上是一种个性化排序,针对不同的推荐场景,采用不同的数据和不同的算法策略,其中算法包括规则算法、基于内容的算法、协同过滤算法、图算法和分类算法等;关于系统方面,采用了腾讯分布式数据仓库和腾讯实时计算平台,借助实时系统助力精准推荐。
淘宝核心系统存储系统研发专家杨志丰:OceanBase——淘宝结构化大数据解决之道
PPT下载 ——2012年第六届BDTC
杨志丰表示淘宝每天大约有6000万用户登录以及20亿PV。淘宝数据库对于淘宝来说非常重要。几乎所有淘宝业务都依赖淘宝数据库。淘宝数据库具备数以千计的数据库服务器,需要同时应对单表几亿至几百亿条的记录以及每天几亿至几百亿次访问。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbase、MongoDB等数据库,并使用普通PC服务器。杨志丰表示OceanBase可扩展数千亿条记录、数百TB数据、数十万QPS以及数万TPS。同时具备实时容错、自动故障恢复和99.999%高可用性。
奇虎360高级软件工程师肖康:Storm在实时网络攻击检测和分析的应用与改进
PPT下载 ——2013年第七届BDTC
肖康从业务需求、解决方案、问题与改进三个方面介绍了对访问360的服务进行实时统计和攻击检测的Storm平台。使用storm主要是从实时、扩展、容错和灵活四方面考虑,能够有效的提高时效性(10秒内可以检测到异常访问)、吞吐(单机群一个topology每个bolt10个并发,处理10Gb/s)、对业务影响(流量走光纤旁路给storm处理,对业务逻辑没有影响,不需要做任何修改),但是storm在稳定性、可用性和易用性方面仍存在着一些问题。肖康列举了其中的8个问题,并相应的给出了其改进方法,并提出了公司的未来工作。
小米软件开发工程师冯宏华:HBase在小米的应用与扩展
PPT下载——2013年第七届BDTC
冯宏华主要介绍了HBase在小米的应用现状、小米对HBase已做的改进和扩展以及进行中/计划中的改进与扩展。HBase目前的集群规模为15个HBase集群,包括9个在线集群、2个离线处理集群和4个测试集群,服务于小米内部的十多个不同业务,具有几百台机器,每个数据节点为24TB。主要应用场景为小米云服务、米聊消息全存储、小米推送服务、MIUI离线分析和多看离线分析;小米对HBase已做的改进包括Delete的语义校正、可控粒度跨机房备份、写吞吐性能优化等多方面;计划的改进与扩展包括Compact优化、Failover优化、Master重构、多租户等方面。
中国移动通信研究院技术经理徐萌:中国移动大数据应用实践
PPT下载——2013年第七届BDTC
她表示中移动移动互联网用户流量激增,手机数据化、宽带化趋势明显,亟需深挖大数据的价值。这与中国智能交通协会理事长吴忠泽在会上的观点不谋而合。中国移动网络规模和拥有用户数全球第一。在用户流量激增时,手机数据化、宽带化趋势很明显。而在这样的发展趋势下,大数据处理核心基础转变很明显。在传统数据分析处理时代,所用的硬件和软件都不再适应。所以大数据处理的时代,要尤其关注MPP DW+Hadoop的应用。在实践中,中国移动也发现关于使用Hadoop的一些问题:版本不一,缺乏规划;调优复杂,门槛较高;自有人员不足,控制力弱。为此,中国移动将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!
中科院计算所副研究员查礼:大数据技术如何用于传统信息系统
PPT下载——2013年第七届BDTC
通信、网络、存储、传感器等电子信息技术的飞速发展导致了数据规模的极大增加,传统的存储并处理这些数据的技术手段遇到了瓶颈,同时,数据爆炸对数据存储与处理效能提出了挑战。高速发展的数据型互联网企业需要连续的系统扩展能力,这需要解决数据快速增长与数据中心扩容周期缓慢的矛盾;如何维持低成本曲线和高性能曲线是现实问题,这是数据业务深度的不断加强和数据处理性能现状的矛盾。数据计算技术呈现规模大、计算快和检索准的发展态势,Hadoop这样的大数据技术源于互联网应用,需求和游戏规则的不同导致必须经过改造才能适用于传统信息系统应用。
Teredata天睿公司大中华区Aster事业部总监孔宇华:驾驭大数据——如何实现大数据的应用性
PPT下载——2012年第六届BDTC
孔宇华主要讲述了如何来让大数据更加地平民化、更加大众化。他表示,大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程方面都需要注意。在大数据方面,从应用看企业需求,从易用看维护,从速度看如何实现数据精华。企业在开发新的大数据平台、大数据产品的时候要考虑到易用,要考虑到你的用户和后端的人员是哪些人,他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题以及哪方面的问题,之后再从这个应用的需求方面再推断大数据平台和技术上的需求。
人云科技创始人兼总经理吴朱华:中小企业Big Data解决之道
PPT下载——2012年第六届BDTC
吴朱华表示海量数据呈现“4V + 1C”的特点。即Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。他认为中小企业面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程。另外,他还介绍了自家的YunTable。这是在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
凯备份技术总监兼高级架构师卢亿雷:Hadoop在网盘和在线备份的应用与挑战
PPT下载——2012年第六届BDTC
凯备份(Carbonite China)技术总监兼高级架构师卢亿雷阐述了HDFS和HBase在网盘和在线备份的应用、大数据的挖掘与处理、小文件的存储、备份文件至云端、文件全路径存放方式以及Namespace的管理等方面的问题。他还谈到MongoDB的经验分享:尽量创建索引;限定返回结果条数;Filter只返回需要的数据;优化主键,尽量自己控制主健ID;UUID主键使用BinaryData数据类型存储;注意文件大小不超过16M。最后,他补充道,用什么技术不是关键,关键是怎么用:明确需求,找准关注点;选择方法,要成熟技术,均衡复杂度;高效运营。
精诚资讯云中心Big Data事业部首席顾问陈昭宇:企业应用Hadoop的最佳模式
PPT下载——2012年第六届BDTC
企业使用大数据面临着存储、计算、管理和分析等方面的挑战,Hadoop作为大数据处理的最佳工具,企业在应用时仍然面临着部署、应用和运维等众多方面的挑战,陈昭宇用具体实例介绍了使用Etu Appliance的优势,这也是企业搭建Hadoop平台的最佳模式。相比自建Hadoop集群,采用Etu一体机,技术门槛低、人才招聘容易、上线时间迅速预计系统性能良好。同时,它还具有快速部署、性能优化、水平扩展、容错机制、安全简便等特性,特别适合海量数据处理。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27