Rss订阅

首页 »数据库 » 数据库查询语句:海量数据库的查询优化及分页算法方案 2 的改良SQL语句 »正文

数据库查询语句:海量数据库的查询优化及分页算法方案 2 的改良SQL语句

来源: 发布时间:星期二, 2008年12月23日浏览:2次评论:0

2、改善SQL语句
　　很多人不知道SQL语句在SQL SERVER中是如何执行

他们担心自己所写

SQL语句会被SQL SERVER误解

比如:
select * from table1 where name=’zhangsan’ and tID > 10000
　　和执行:
select * from table1 where tID > 10000 and name=’zhangsan’
　　

些人不知道以上两条语句

执行效率是否

样

如果简单

从语句先后上看

这两个语句

确是不

样

如果tID是

个聚合索引

那么后

句仅仅从表

10000条以后

记录中查找就行了；而前

句则要先从全表中查找看有几个name=’zhangsan’

而后再根据限制条件条件tID>10000来提出查询结果

　　事实上

这样

担心是不必要

SQL SERVER中有

个“查询分析优化器”

它可以计算出where子句中

搜索条件并确定哪个索引能缩小表扫描

搜索空间

也就是说

它能实现自动优化

　　虽然查询优化器可以根据where子句自动

进行查询优化

但大家仍然有必要了解

下“查询优化器”

工作原理

如非这样

有时查询优化器就会不按照您

本意进行快速查询

　　在查询分析阶段

查询优化器查看查询

每个阶段并决定限制需要扫描

数据量是否有用

如果

个阶段可以被用作

个扫描参数(SARG)

那么就称的为可优化

并且可以利用索引快速获得所需数据

　　SARG

定义:用于限制搜索

个操作

它通常是指

个特定

匹配

个值得范围内

匹配或者两个以上条件

AND连接

形式如下:
列名操作符 <常数或变量>
或
<常数或变量> 操作符列名
　　列名可以出现在操作符

边

而常数或变量出现在操作符

另

边

如:
Name='张 3'
价格>5000
5000<价格
Name='张 3' and 价格>5000
　　如果

个表达式不能满足SARG

形式

那它就无法限制搜索

范围了

也就是SQL SERVER必须对每

行都判断它是否满足WHERE子句中

所有条件

所以

个索引对于不满足SARG形式

表达式来说是无用

　　介绍完SARG后

我们来整理总结

下使用SARG以及在实战中遇到

和某些资料上结论区别

经验:
　　1、Like语句是否属于SARG取决于所使用

通配符

类型
　　如:name like ‘张%'

这就属于SARG
　　而:name like ‘%张' ,就不属于SARG

　　原因是通配符%在

串

开通使得索引无法使用

　　2、or 会引起全表扫描
Name='张 3' and 价格>5000 符号SARG

而:Name='张 3' or 价格>5000 则不符合SARG

使用or会引起全表扫描

　　3、非操作符、

引起

不满足SARG形式

语句
　　不满足SARG形式

语句最典型

情况就是包括非操作符

语句

如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等

另外还有

下面就是几个不满足SARG形式

例子:
ABS(价格)<5000
Name like ‘% 3'
　　有些表达式

如:
WHERE 价格*2>5000
　　SQL SERVER也会认为是SARG

SQL SERVER会将此式转化为:
WHERE 价格>2500/2
　　但我们不推荐这样使用

有时SQL SERVER不能保证这种转化和原始表达式是完全等价

　　4、IN

作用相当和OR
　　语句:
Select * from table1 where tid in (2,3)
　　和
Select * from table1 where tid=2 or tid=3
　　是

样

都会引起全表扫描

如果tid上有索引

其索引也会失效

　　5、尽量少用NOT
　　6、exists 和 in

执行效率是

样

　　很多资料上都显示说

exists要比in

执行效率要高

同时应尽可能

用not exists来代替not in

但事实上

我试验了

下

发现 2者无论是前面带不带not

2者的间

执行效率都是

样

涉及子查询

我们试验这次用SQL SERVER自带

pubs数据库

运行前我们可以把SQL SERVER

statistics I/O状态打开

　　(1)select title,price from titles where title_id in (select title_id from sales where qty>30)
　　该句

执行结果为:
　　表 ’sales’

扫描计数 18

逻辑读 56 次

物理读 0 次

预读 0 次

　　表 ’titles’

扫描计数 1

逻辑读 2 次

物理读 0 次

预读 0 次

　　(2)select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)
　　第 2句

执行结果为:
　　表 ’sales’

扫描计数 18

逻辑读 56 次

物理读 0 次

预读 0 次

　　表 ’titles’

扫描计数 1

逻辑读 2 次

物理读 0 次

预读 0 次

　　我们从此可以看到用exists和用in

执行效率是

样

　　7、用

charindex

和前面加通配符%

LIKE执行效率

样
　　前面

我们谈到

如果在LIKE前面加上通配符%

那么将会引起全表扫描

所以其执行效率是低下

但有

资料介绍说

用

charindex

来代替LIKE速度会有大

提升

经我试验

发现这种介绍说明也是

:
select gid,title,fariqi,reader from tgongwen where charindex(’刑侦支队’,reader)>0 and fariqi>’2004-5-5’
　　用时:7秒

另外:扫描计数 4

逻辑读 7155 次

物理读 0 次

预读 0 次

select gid,title,fariqi,reader from tgongwen where reader like ’%’ + ’刑侦支队’ + ’%’ and fariqi>’2004-5-5’
　　用时:7秒

另外:扫描计数 4

逻辑读 7155 次

物理读 0 次

预读 0 次

　　8、union并不绝对比or

执行效率高
　　我们前面已经谈到了在where子句中使用or会引起全表扫描

般

我所见过

资料都是推荐这里用union来代替or

事实证明

这种说法对于大部分都是适用

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or gid>9990000
　　用时:68秒

扫描计数 1

逻辑读 404008 次

物理读 283 次

预读 392163 次

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000
　　用时:9秒

扫描计数 8

逻辑读 67489 次

物理读 216 次

预读 7499 次

　　看来

用union在通常情况下比用or

效率要高

多

　　但经过试验

笔者发现如果or两边

查询列是

样

话

那么用union则反倒和用or

执行速度差很多

虽然这里union扫描

是索引

而or扫描

是全表

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or fariqi=’2004-2-5’
　　用时:6423毫秒

扫描计数 2

逻辑读 14726 次

物理读 1 次

预读 7176 次

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-2-5’
　　用时:11640毫秒

扫描计数 8

逻辑读 14806 次

物理读 108 次

预读 1144 次

　　9、字段提取要按照“需多少、提多少”

原则

避免“select *”
　　我们来做

个试验:
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
　　用时:4673毫秒
select top 10000 gid,fariqi,title from tgongwen order by gid desc
　　用时:1376毫秒
select top 10000 gid,fariqi from tgongwen order by gid desc
　　用时:80毫秒
　　由此看来

我们每少提取

个字段

数据

提取速度就会有相应

提升

速度还要看您舍弃

字段

大小来判断

　　10、count(*)不比count(字段)慢
　　某些资料上说:用*会统计所有列

显然要比

个世界

列名效率低

这种说法其实是没有根据

我们来看:
select count(*) from Tgongwen
　　用时:1500毫秒
select count(gid) from Tgongwen
　　用时:1483毫秒
select count(fariqi) from Tgongwen
　　用时:3140毫秒
select count(title) from Tgongwen
　　用时:52050毫秒
　　从以上可以看出

如果用count(*)和用count(主键)

速度是相当

而count(*)却比其他任何除主键以外

字段汇总速度要快

而且字段越长

汇总

速度就越慢

我想

如果用count(*)

SQL SERVER可能会自动查找最小字段来汇总

当然

如果您直接写count(主键)将会来

更直接些

　　11、order by按聚集索引列排序效率最高
　　我们来看:(gid是主键

fariqi是聚合索引列)
select top 10000 gid,fariqi,reader,title from tgongwen
　　用时:196 毫秒

扫描计数 1

逻辑读 289 次

物理读 1 次

预读 1527 次

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc
　　用时:4720毫秒

扫描计数 1

逻辑读 41956 次

物理读 0 次

预读 1287 次

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
　　用时:4736毫秒

扫描计数 1

逻辑读 55350 次

物理读 10 次

预读 775 次

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc
　　用时:173毫秒

扫描计数 1

逻辑读 290 次

物理读 0 次

预读 0 次

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc
　　用时:156毫秒

扫描计数 1

逻辑读 289 次

物理读 0 次

预读 0 次

　　从以上我们可以看出

不排序

速度以及逻辑读次数都是和“order by 聚集索引列”

速度是相当

但这些都比“order by 非聚集索引列”

查询速度是快得多

　　同时

按照某个字段进行排序

时候

无论是正序还是倒序

速度是基本相当

　　12、高效

TOP
　　事实上

在查询和提取超大容量

数据集时

影响数据库响应时间

最大原因不是数据查找

而是物理

I/0操作

如:
select top 10 * from (
select top 10000 gid,fariqi,title from tgongwen
where neibuyonghu=’办公室’
order by gid desc) as a
order by gid asc
　　这条语句

从理论上讲

整条语句

执行时间应该比子句

执行时间长

但事实相反

子句执行后返回

是10000条记录

而整条语句仅返回10条语句

所以影响数据库响应时间最大

原因是物理I/O操作

而限制物理I/O操作此处

最有效思路方法的

就是使用TOP关键词了

TOP关键词是SQL SERVER中经过系统优化过

个用来提取前几条或前几个百分比数据

词

经笔者在实战中

应用

发现TOP确实很好用

效率也很高

但这个词在另外

个大型数据库ORACLE中却没有

这不能说不是

个遗憾

虽然在ORACLE中可以用其他思路方法(如:rownumber)来解决

在以后

有关“实现千万级数据

分页显示存储过程”

讨论中

我们就将用到TOP这个关键词

　　到此为止

我们上面讨论了如何实现从大容量

数据库中快速地查询出您所需要

数据思路方法

当然

我们介绍

这些思路方法都是“软”思路方法

在实战中

我们还要考虑各种“硬”原因

如:网络性能、服务器

性能、操作系统

性能

甚至网卡、交换机等

标签：数据库修改语句数据库sql语句数据库语句数据库查询语句

下载文章的 PDF文档电子版离线看

顶一下

2008-12-23 数据库查询语句:Sql Server 和 Access 操作数据库结构Sql语句小结
2008-12-19 oracle数据库语句:oracle中的sql语句对数据库的完全操作
2008-12-17 sql数据库常用语句:SQL Server 数据库管理常用的SQL和T-SQL语句
2008-12-17 sql语句创建数据库:通用SQL数据库查询语句精华使用介绍
2008-12-4 sql语句创建数据库:在MySQL数据库中使用C执行SQL语句
2008-12-17 数据库语句:监控数据库性能的语句
2008-9-26 空间数据库:查询数据库中每个表的空间大小
2008-9-26 入侵指定网站数据库:查询指定的表在那些数据库中存在
2008-9-26 数据库查询:查询数据库中,表结构的详细信息
2008-9-26 数据库查询语句:常见数据库的分页语句

读者评论

共0条分0页

专注于互联网--专注于架构

首页 »数据库 » 数据库查询语句:海量数据库的查询优化及分页算法方案 2 的改良SQL语句 »正文

数据库查询语句:海量数据库的查询优化及分页算法方案 2 的改良SQL语句

相关文章

读者评论

发表评论

热门标签

精华推荐

Dig排行

阅读排行

评论排行

专注于互联网--专注于架构

首页 »数据库 » 数据库查询语句:海量数据库的查询优化及分页算法方案 2 的 改良SQL语句 »正文

数据库查询语句:海量数据库的查询优化及分页算法方案 2 的 改良SQL语句

相关文章

读者评论

发表评论

热门标签

精华推荐

Dig排行

阅读排行

评论排行

首页 »数据库 » 数据库查询语句:海量数据库的查询优化及分页算法方案 2 的改良SQL语句 »正文

数据库查询语句:海量数据库的查询优化及分页算法方案 2 的改良SQL语句