SQL Server中存储过程比直接运行SQL语句慢的原因-CDA数据分析师官网

热线电话：13121318867

SQL Server中存储过程比直接运行SQL语句慢的原因

2016-12-13

SQL Server中存储过程比直接运行SQL语句慢的原因

在很多的资料中都描述说SQLSERVER的存储过程较普通的SQL语句有以下优点：

存储过程只在创造时进行编译即可，以后每次执行存储过程都不需再重新编译，而我们通常使用的SQL语句每执行一次就编译一次,所以使用存储过程可提高数据库执行速度。

经常会遇到复杂的业务逻辑和对数据库的操作，这个时候就会用SP来封装数据库操作。当对数据库进行复杂操作时(如对多个表进行 Update,Insert,Query,Delete时），可将此复杂操作用存储过程封装起来与数据库提供的事务处理结合一起使用。可以极大的提高数据库的使用效率，减少程序的执行时间，这一点在较大数据量的数据库的操作中是非常重要的。在代码上看，SQL语句和程序代码语句的分离，可以提高程序代码的可读性。

存储过程可以设置参数，可以根据传入参数的不同重复使用同一个存储过程，从而高效的提高代码的优化率和可读性。

安全性高,可设定只有某此用户才具有对指定存储过程的使用权存储过程的种类：

系统存储过程：以sp_开头,用来进行系统的各项设定.取得信息.相关管理工作,如 sp_help就是取得指定对象的相关信息。

扩展存储过程以XP_开头,用来调用操作系统提供的功能

exec master..xp_cmdshell ‘ping 10.8.16.1’

用户自定义的存储过程,这是我们所指的存储过程常用格式

模版：Create procedure procedue_name [@parameter data_type][output]
[with]{recompile|encryption} as sql_statement

解释：output：表示此参数是可传回的

with {recompile|encryption} recompile:表示每次执行此存储过程时都重新编译一次;encryption:所创建的存储过程的内容会被加密。

但是最近我们项目组中有人写了一个存储过程,其计算时间为1个小时47分钟,而有的时候运行时间都超过了两个小时,同事描述说如果将存储过程中的语句拿出来直接运行也就10分钟左右就运行完毕，我没当回事，但是今天我自己写的存储过程也遇到了这个问题，在查找资料后原因终于找到了原因，原来是Parameter sniffing问题。

下面看我是如何将运行一个小时以上的存储过程优化成在一分钟之内完成的：

原存储过程

CREATE PROCEDURE [dbo].[pro_ImAnalysis_daily]

@THEDATE VARCHAR(30)

BEGIN

IF @THEDATE IS NULL

BEGIN

SET @THEDATE=CONVERT(VARCHAR(30),GETDATE()-1,112);

END

DELETE FROM RPT_IM_USERINFO_DAILY WHERE THEDATE=@THEDATE;

INSERT RPT_IM_USERINFO_DAILY (THEDATE,ALLUSER,NEWUSER)

SELECT AA.THEDATE,ALLUSER,NEWUSER

FROM

( ( SELECT THEDATE,COUNT(DISTINCT USERID) ALLUSER

FROM FACT

WHERE THEDATE=@THEDATE

GROUP BY THEDATE

) AA

LEFT JOIN

(SELECT THEDATE,COUNT(DISTINCT USERID) NEWUSER

FROM FACT T1

WHERE NOT EXISTS(

SELECT 1

FROM FACT T2

WHERE T2.THEDATE<@THEDATE

AND T1.USERID=T2.USERID)

AND T1.THEDATE=@THEDATE

GROUP BY THEDATE

) BB

ON AA.THEDATE=BB.THEDATE);

每日执行:exec pro_ImAnalysis_daily @thedate=null
耗时：1小时47分~2小时13分

经过查找资料，原因如下(由于源文是一篇英文，有些地方写的我不是特别清楚，原文见http://groups.google.com/group/microsoft.public.sqlserver.server/msg/ad37d8aec76e2b8f?hl=en&lr=&ie=UTF-8&oe=UTF-8)：

在SQL Server中有一个叫做 “Parameter sniffing”的特性。SQL Server在存储过程执行之前都会制定一个执行计划。在上面的例子中，SQL在编译的时候并不知道@thedate的值是多少，所以它在执行执行计划的时候就要进行大量的猜测。假设传递给@thedate的参数大部分都是非空字符串，而FACT表中有40%的thedate字段都是null，那么SQL Server就会选择全表扫描而不是索引扫描来对参数@thedate制定执行计划。全表扫描是在参数为空或为0的时候最好的执行计划。但是全表扫描严重影响了性能。

假设你第一次使用了Exec pro_ImAnalysis_daily @thedate=’20080312’那么SQL Server就会使用20080312这个值作为下次参数@thedate的执行计划的参考值，而不会进行全表扫描了，但是如果使用@thedate=null,则下次执行计划就要根据全表扫描进行了。

有两种方式能够避免出现“Parameter sniffing”问题：

(1)通过使用declare声明的变量来代替参数：使用set @variable=@thedate的方式，将出现@thedate的sql语句全部用@variable来代替。

(2) 将受影响的sql语句隐藏起来，比如：

a) 将受影响的sql语句放到某个子存储过程中，比如我们在@thedate设置成为今天后再调用一个字存储过程将@thedate作为参数传入就可以了。数据分析培训

b) 使用sp_executesql来执行受影响的sql。执行计划不会被执行，除非sp_executesql语句执行完。

c) 使用动态sql（”EXEC(@sql)”来执行受影响的sql。

采用（1）的方法改造例子中的存储过程，如下：

ALTER PROCEDURE [dbo].[pro_ImAnalysis_daily]

@var_thedate VARCHAR(30)

BEGIN

declare @THEDATE VARCHAR(30)

IF @var_thedate IS NULL

BEGIN

SET @var_thedate=CONVERT(VARCHAR(30),GETDATE()-1,112);

END

SET @THEDATE=@var_thedate;

DELETE FROM RPT_IM_USERINFO_DAILY WHERE THEDATE=@THEDATE;

INSERT RPT_IM_USERINFO_DAILY (THEDATE,ALLUSER,NEWUSER)

SELECT AA.THEDATE,ALLUSER,NEWUSER

FROM

( ( SELECT THEDATE,COUNT(DISTINCT USERID) ALLUSER

FROM FACT

WHERE THEDATE=@THEDATE

GROUP BY THEDATE

) AA

LEFT JOIN

(SELECT THEDATE,COUNT(DISTINCT USERID) NEWUSER

FROM FACT T1

WHERE NOT EXISTS(

SELECT 1

FROM FACT T2

WHERE T2.THEDATE<@THEDATE

AND T1.USERID=T2.USERID)

AND T1.THEDATE=@THEDATE

GROUP BY THEDATE

) BB

ON AA.THEDATE=BB.THEDATE);

测试执行速度为10分钟，我又检查了一下这个SQL，发现这个SQL有问题，这个SQL使用了not exists，在一个大表里面使用not exists是不太明智的，所以，我又对这个sql进行了改进，改成如下：

ALTER PROCEDURE [dbo].[pro_ImAnalysis_daily]

@var_thedate VARCHAR(30)

BEGIN

declare @THEDATE VARCHAR(30)

IF @var_thedate IS NULL

BEGIN

SET @var_thedate=CONVERT(VARCHAR(30),GETDATE()-1,112);

END

SET @THEDATE=@var_thedate;

DELETE FROM RPT_IM_USERINFO_DAILY WHERE THEDATE=@THEDATE;

INSERT RPT_IM_USERINFO_DAILY(THEDATE,ALLUSER,NEWUSER)

select @thedate as thedate,

count(distinct case when today>0 then userid else null end) as alluser,

count(distinct case when dates=0 then userid else null end) as newuser

from

(

select userid,

count(CASE WHEN thedate>=@thedate then null else thedate end) as dates,

count(case when thedate=@thedate then thedate else null end) as today

from FACT

group by userid

)as fact

测试结果为30ms以下。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL 字段数据分析大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SQL Server中存储过程比直接运行SQL语句慢的原因

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载