
从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。。
为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。
大数据为企业的发展带来了巨大商机,在各个企业中都发挥了良好的应用,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据应用篇。
以下为历届中国大数据技术大会PPT精粹的大数据的应用篇:
腾讯精准推荐中心广告推荐负责人薛伟:腾讯广点通——大数据之上的实时精准推荐
PPT下载 ——2013年第七届BDTC
广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台海量用户积累的基础上,运用大数据技术,进行以人为核心的数据挖掘,实现精准的广告推荐。腾讯精准推荐平台是广点通背后的支撑系统之一,具有数据海量、系统实时和算法精准的特点。薛伟从数据、算法、系统等几个方面对广点通进行了介绍。广点通从推荐的视角看数据,形成用户、物品和推荐位之间的交叉效应;推荐本质上是一种个性化排序,针对不同的推荐场景,采用不同的数据和不同的算法策略,其中算法包括规则算法、基于内容的算法、协同过滤算法、图算法和分类算法等;关于系统方面,采用了腾讯分布式数据仓库和腾讯实时计算平台,借助实时系统助力精准推荐。
淘宝核心系统存储系统研发专家杨志丰:OceanBase——淘宝结构化大数据解决之道
PPT下载 ——2012年第六届BDTC
杨志丰表示淘宝每天大约有6000万用户登录以及20亿PV。淘宝数据库对于淘宝来说非常重要。几乎所有淘宝业务都依赖淘宝数据库。淘宝数据库具备数以千计的数据库服务器,需要同时应对单表几亿至几百亿条的记录以及每天几亿至几百亿次访问。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbase、MongoDB等数据库,并使用普通PC服务器。杨志丰表示OceanBase可扩展数千亿条记录、数百TB数据、数十万QPS以及数万TPS。同时具备实时容错、自动故障恢复和99.999%高可用性。
奇虎360高级软件工程师肖康:Storm在实时网络攻击检测和分析的应用与改进
PPT下载 ——2013年第七届BDTC
肖康从业务需求、解决方案、问题与改进三个方面介绍了对访问360的服务进行实时统计和攻击检测的Storm平台。使用storm主要是从实时、扩展、容错和灵活四方面考虑,能够有效的提高时效性(10秒内可以检测到异常访问)、吞吐(单机群一个topology每个bolt10个并发,处理10Gb/s)、对业务影响(流量走光纤旁路给storm处理,对业务逻辑没有影响,不需要做任何修改),但是storm在稳定性、可用性和易用性方面仍存在着一些问题。肖康列举了其中的8个问题,并相应的给出了其改进方法,并提出了公司的未来工作。
小米软件开发工程师冯宏华:HBase在小米的应用与扩展
PPT下载——2013年第七届BDTC
冯宏华主要介绍了HBase在小米的应用现状、小米对HBase已做的改进和扩展以及进行中/计划中的改进与扩展。HBase目前的集群规模为15个HBase集群,包括9个在线集群、2个离线处理集群和4个测试集群,服务于小米内部的十多个不同业务,具有几百台机器,每个数据节点为24TB。主要应用场景为小米云服务、米聊消息全存储、小米推送服务、MIUI离线分析和多看离线分析;小米对HBase已做的改进包括Delete的语义校正、可控粒度跨机房备份、写吞吐性能优化等多方面;计划的改进与扩展包括Compact优化、Failover优化、Master重构、多租户等方面。
中国移动通信研究院技术经理徐萌:中国移动大数据应用实践
PPT下载——2013年第七届BDTC
她表示中移动移动互联网用户流量激增,手机数据化、宽带化趋势明显,亟需深挖大数据的价值。这与中国智能交通协会理事长吴忠泽在会上的观点不谋而合。中国移动网络规模和拥有用户数全球第一。在用户流量激增时,手机数据化、宽带化趋势很明显。而在这样的发展趋势下,大数据处理核心基础转变很明显。在传统数据分析处理时代,所用的硬件和软件都不再适应。所以大数据处理的时代,要尤其关注MPP DW+Hadoop的应用。在实践中,中国移动也发现关于使用Hadoop的一些问题:版本不一,缺乏规划;调优复杂,门槛较高;自有人员不足,控制力弱。为此,中国移动将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!
中科院计算所副研究员查礼:大数据技术如何用于传统信息系统
PPT下载——2013年第七届BDTC
通信、网络、存储、传感器等电子信息技术的飞速发展导致了数据规模的极大增加,传统的存储并处理这些数据的技术手段遇到了瓶颈,同时,数据爆炸对数据存储与处理效能提出了挑战。高速发展的数据型互联网企业需要连续的系统扩展能力,这需要解决数据快速增长与数据中心扩容周期缓慢的矛盾;如何维持低成本曲线和高性能曲线是现实问题,这是数据业务深度的不断加强和数据处理性能现状的矛盾。数据计算技术呈现规模大、计算快和检索准的发展态势,Hadoop这样的大数据技术源于互联网应用,需求和游戏规则的不同导致必须经过改造才能适用于传统信息系统应用。
Teredata天睿公司大中华区Aster事业部总监孔宇华:驾驭大数据——如何实现大数据的应用性
PPT下载——2012年第六届BDTC
孔宇华主要讲述了如何来让大数据更加地平民化、更加大众化。他表示,大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程方面都需要注意。在大数据方面,从应用看企业需求,从易用看维护,从速度看如何实现数据精华。企业在开发新的大数据平台、大数据产品的时候要考虑到易用,要考虑到你的用户和后端的人员是哪些人,他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题以及哪方面的问题,之后再从这个应用的需求方面再推断大数据平台和技术上的需求。
人云科技创始人兼总经理吴朱华:中小企业Big Data解决之道
PPT下载——2012年第六届BDTC
吴朱华表示海量数据呈现“4V + 1C”的特点。即Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。他认为中小企业面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程。另外,他还介绍了自家的YunTable。这是在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
凯备份技术总监兼高级架构师卢亿雷:Hadoop在网盘和在线备份的应用与挑战
PPT下载——2012年第六届BDTC
凯备份(Carbonite China)技术总监兼高级架构师卢亿雷阐述了HDFS和HBase在网盘和在线备份的应用、大数据的挖掘与处理、小文件的存储、备份文件至云端、文件全路径存放方式以及Namespace的管理等方面的问题。他还谈到MongoDB的经验分享:尽量创建索引;限定返回结果条数;Filter只返回需要的数据;优化主键,尽量自己控制主健ID;UUID主键使用BinaryData数据类型存储;注意文件大小不超过16M。最后,他补充道,用什么技术不是关键,关键是怎么用:明确需求,找准关注点;选择方法,要成熟技术,均衡复杂度;高效运营。
精诚资讯云中心Big Data事业部首席顾问陈昭宇:企业应用Hadoop的最佳模式
PPT下载——2012年第六届BDTC
企业使用大数据面临着存储、计算、管理和分析等方面的挑战,Hadoop作为大数据处理的最佳工具,企业在应用时仍然面临着部署、应用和运维等众多方面的挑战,陈昭宇用具体实例介绍了使用Etu Appliance的优势,这也是企业搭建Hadoop平台的最佳模式。相比自建Hadoop集群,采用Etu一体机,技术门槛低、人才招聘容易、上线时间迅速预计系统性能良好。同时,它还具有快速部署、性能优化、水平扩展、容错机制、安全简便等特性,特别适合海量数据处理。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14