SAS—HASH对象的应用-CDA数据分析师官网

热线电话：13121318867

SAS—HASH对象的应用

2017-06-04

SAS—HASH对象的应用

HASH table原理

先介绍下hash的原理吧。hash table其实就是散列表，也叫哈希表，根据关Key-value键值对而直接进行访问的数据结构。它通过把key-value映射到表中一个位置来访问记录，不用扫描整张表以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做哈希表。

在数据装载时，根据F（key）=内存地址将表存到内存中指定的地址。

比如我最爱的杰伦，根据散列函数F(周杰伦) = 18 就可找到对应的value为87啦。

sas hash table 的优点

hash table是 SAS 查找技术中最为常用的技术啦，性能表现经评测也比较上乘，在SAS 产品中已被广泛使用，同时也深受国外SAS程序员的喜爱，但在国内大家好像并不怎么常用。但是想想可以用sas hash提高下数据查询的效率，是不是在小伙伴面前有些小逼格呢!?

下面呢就介绍下sas hash table的优点：

1.hash table 可以根据 K-V 定位数据，直接得到变量的存储地址，可以减少查询的次数；

2.hash table的变量查找是在内存中进行的，可以提高性能；

3.hash table可以在data步运行时的动态地添加、更新、删除等操作；

4.hash 可以做一些merge 和 proc sql 难以实现的数据集合并，并在细节上可以有更多的控制。

当然，因为sas hash是在内存中运行，所以如果数据太大，还是不要用hash对象了。

sas 定义hash对象

Hash对象的最基本的要点有三个：

（1）要放入内存中的表

（2）用来通过hash函数建立与内存对应存储地址的KEY值（可以是数值、字符或者两者的混合，最好是表的主键否则只有第一条记录有效，因为key值相同通过F（key）只会指向一个地址）。

（3）要调入内存中与key值一起构成数组的变量.

在SAS中分别通过以下步骤来完成上述三个要点：

hash的使用实例

（1）通过hash可以实现表与表的高效关联

（2）可以对hash表中的数据进行控制设计巧妙的算法。下边是一些具体的例子：

使用hash对象来筛选数据

/*新入职员工信息*/

data id_newly;

input id $ epl_ym;

cards

;

1101 201201

1102 201201

1123 201203

1105 201202

1104 201202

1105 201202

;

run;

如下图所示：

/*创建每位员工的销售级别及销售额*/

data sales_all;

input id $ grade $ amt;

cards

;

1001 a 561

1101 c 256

1002 b 421

1003 a 691

1005 a 555

1004 b 398

1015 a 402

1102 c 128

1123 d 96

1105 c 196

1104 d 89

1086 b 632

1093 a 701

1115 c 221

;

run;

如下图所示：

/*使用hash对象筛选新员工的销售额*/

data sales_newly;

length id $8. epl_ym 8.;/*定义数据变量id、epl_ym类型和长度，此处将变量类型和长度写死在程序里，这样当查找表的数据结构发生变化时还要重写代码。以后会单独介绍一下hash 对象处理的技巧。

if _n_ = 1 then do;

declare hash newly(dataset:'id_newly');/*使用数据集id_newly定义hash对象*/

newly.definekey('id');/*其中定义id为主键*/

newly.definedata('epl_ym');/*定义epl_ym为信息变量*/

newly.definedone();/*结束hash对象的初始化*/

end;

set sales_all;

rc = newly.find(key:id);/*调用find方法检索数据集sales_all中的变量id的值是否出现在hash对象的主键中*/

if rc = 0;/*此处注意，find()找到匹配的值返回的是0，这个和其他语言不同。*/

run;

所得结果如下：

2.使用hash对象拼接数据

/*创建销售等级对应的佣金比例数据集*/

data grade;

input grade $ rate;

cards

;

a 0.20

b 0.18

c 0.15

d 0.10

e 0.05

;

run;

结果如下：

/*计算佣金*/

data csm_amt;

if _n_ = 0 then do;

set id_newly grade;

end;

else if _n_ = 1 then do;

declare hash newly(dataset:'id_newly');

newly.definekey('id');

newly.definedata('epl_ym');

newly.definedone();

declare hash grd(dataset:'grade');

grd.definekey('grade');

grd.definedata('rate');

grd.definedone();

end;

call missing (of _all_);

set sales_all;

rc1 = newly.find(key:id);

rc2 = grd.find(key:grade);

if rc1 = 0 then csm_amt = amt*rate;

run;

3.调用definedata 时使用all选项

/*小组信息*/

data team_info;

input team $ open_ym grade employees;

cards

;

a 201201 12 6

b 201202 11 9

c 201205 9 12

d 201506 7 20

e 201205 8 9

f 201206 10 23

;

run;

所得数据集如下：

data employ_new;

input id $ team $;

cards

;

2001 c

2036 d

;

run;

data newly_info;

if _n_ = 0 then do;

set team_info;

end;

else if _n_ = 1 then do;

declare hash t(dataset:'team_info');

t.definekey('team');

t.definedata(all:'yes');

t.definedone();

end;

call missing(of _all_ );

set employ_new;src = t.find();

run;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SAS—HASH对象的应用

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Pandas 选取特定值所在行：6 类核心方法 ...

【CDA干货】球面卷积神经网络（SCNN） ...

CDA 数据分析师：读懂时间序列，让历史数据成为业务 ...

【CDA干货】Excel 能做聚类分析吗？基础方法、进阶 ...

【CDA干货】XGBoost 决策树：原理、优化与工业级实 ...

CDA 数据分析师：精通标签加工方式，让数据标签从 ...

【CDA干货】Excel 数据透视表折叠功能：空白列添加 ...

【CDA干货】Pandas quoting 详解：掌控文本文件读写 ...

CDA 数据分析师：以 SQL 为刃，劈开数据查询与分析 ...

【CDA干货】Cox 模型时间依赖性检验：原理、方法与 ...

【CDA干货】检测因子类型的影响程度大小：评估标准 ...

CDA 数据分析师：以数据库为基石，筑牢数据驱动的 ...

【CDA干货】线性相关点分布的四种基本类型：特征、 ...

【CDA干货】深度神经网络神经元个数确定指南：从原 ...

CDA 数据分析师：搭建指标体系，让数据从 “零散监 ...

【CDA干货】MySQL 服务器内存碎片：成因、检测与内 ...

【CDA干货】人工智能重塑工程质量检测：核心应用、 ...

CDA 数据分析师：驾驭通用与场景指标，解锁数据驱动 ...

【CDA干货】AB 实验系统与业务系统的联动机制：从实 ...

【CDA干货】CDA 业务数据分析：6 步闭环，让数据驱 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载