数据库结构与算法:海量数据库的查询优化及分页算法方案疯狂代码！

海量数据库

查询优化及分页算法方案
原出处不详
摘自:www.21php.com
随着“金盾工程”建设

逐步深入和公安信息化

高速发展

公安计算机应用系统被广泛应用在各警种、各部门

和此同时

应用系统体系

核心、系统数据

存放地――数据库也随着实际应用而急剧膨胀

些大规模

系统

如人口系统

数据甚至超过了1000万条

可谓海量

那么

如何实现快速地从这些超大容量

数据库中提取数据(查询)、分析、统计以及提取数据后进行数据分页已成为各地系统管理员和数据库管理员亟待解决

难题

在以下

文章中

我将以“办公自动化”系统为例

探讨如何在有着1000万条数据

MS SQL SERVER数据库中实现快速

数据提取和数据分页

以下代码介绍说明了我们例子中数据库

“红头文件”

表

部分数据结构:
CREATE TABLE [dbo].[TGongwen] ( --TGongwen是红头文件表名
[Gid] [

] IDENTITY (1, 1) NOT NULL ,
--本表

id号

也是主键
[title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,
--红头文件

标题
[fariqi] [datetime] NULL ,
--发布日期
[neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,
--发布用户
[reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,
--需要浏览

用户

每个用户中间用分隔符“,”分开
) _disibledevent=>while @i<=250000
begin
insert

o Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队, 户政科,治安支队,外事科','这是最先

25万条记录')

@i=@i+1
end
GO
declare @i

@i=1
while @i<=250000
begin
insert

o Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','办公室','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是中间

25万条记录')

@i=@i+1
end
GO
declare @h

@h=1
while @h<=100
begin
declare @i

@i=2002
while @i<=2003
begin
declare @j

@j=0
while @j<50
begin
declare @k

@k=0
while @k<50
begin
insert

o Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as varchar(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信科','办公室,通信科,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队,户政科,外事科','这是最后

50万条记录')

@k=@k+1
end

@j=@j+1
end

@i=@i+1
end

@h=@h+1
end
GO
declare @i

@i=1
while @i<=9000000
begin
insert

o Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','通信科','通信科,办公室,王局长,刘局长,张局长,admin,刑侦支队,特勤支队,交巡警支队,经侦支队, 户政科,治安支队,外事科','这是最后添加

900万条记录')

@i=@i+1000000
end
GO
通过以上语句

我们创建了25万条由通信科于2004年2月5日发布

记录

25万条由办公室于2004年9月6日发布

记录

2002年和 2003年各100个2500条相同日期、区别分秒

由通信科发布

记录(共50万条)

还有由通信科于2004年5月5日发布

900万条记录

合计 1000万条

、因情制宜

建立“适当”

索引
建立“适当”

索引是实现查询优化

首要前提

索引(index)是除表的外另

重要

、用户定义

存储在物理介质上

数据结构

当根据索引码

值搜索数据时

索引提供了对数据

快速访问

事实上

没有索引,数据库也能根据SELECT语句成功地检索到结果

但随着表变得越来越大

使用“适当”

索引

效果就越来越明显

注意

在这句话中

我们用了“适当”这个词

这是

如果使用索引时不认真考虑其实现过程

索引既可以提高也会破坏数据库

工作性能

(

)深入浅出理解索引结构
实际上

您可以把索引理解为

种特殊

微软

SQL SERVER提供了两种索引:聚集索引(clustered index

也称聚类索引、簇集索引)和非聚集索引(nonclustered index

也称非聚类索引、非簇集索引)

下面

我们举例来介绍说明

下聚集索引和非聚集索引

区别:
其实

我们

汉语字典

正文本身就是

个聚集索引

比如

我们要查“安”字

就会很自然地翻开字典

前几页

“安”

拼音是“an”

而按照拼音排序汉字

字典是以英文字母“a”开头并以“z”结尾

那么“安”字就自然地排在字典

前部

如果您翻完了所有以“a”开头

部分仍然找不到这个字

那么就介绍说明您

字典中没有这个字；同样

如果查“张”字

那您也会将您

字典翻到最后部分

“张”

拼音是“zhang”

也就是说

字典

正文部分本身就是

个目录

您不需要再去查其他目录来找到您需要找

内容

我们把这种正文内容本身就是

种按照

定规则排列

目录称为“聚集索引”

如果您认识某个字

您可以快速地从自动中查到这个字

但您也可能会遇到您不认识

字

不知道它

发音

这时候

您就不能按照刚才

思路方法找到您要查

字

而需要去根据“偏旁部首”查到您要找

字

然后根据这个字后

页码直接翻到某页来找到您要找

字

但您结合“部首目录”和“检字表”而查到

字

排序并不是真正

正文

排序思路方法

比如您查“张”字

我们可以看到在查部首的后

检字表中“张”

页码是672页

检字表中“张”

上面是“驰”字

但页码却是63页

“张”

下面是“弩”字

页面是390页

很显然

这些字并不是真正

分别位于“张”字

上下方

现在您看到

连续

“驰、张、弩” 3字实际上就是他们在非聚集索引中

排序

是字典正文中

字在非聚集索引中

映射

我们可以通过这种方式来找到您所需要

字

但它需要两个过程

先找到目录中

结果

然后再翻到您所需要

页码

正文纯粹是正文

排序方式称为“非聚集索引”

通过以上例子

我们可以理解到什么是“聚集索引”和“非聚集索引”

进

步引申

下

我们可以很容易

理解:每个表只能有

个聚集索引

目录只能按照

种思路方法进行排序

( 2)何时使用聚集索引或非聚集索引
下面

表整理总结了何时使用聚集索引或非聚集索引(很重要)

动作描述
使用聚集索引
使用非聚集索引
列经常被分组排序
应
应
返回某范围内

数据
应
不应

个或极少区别值
不应
不应
小数目

区别值
应
不应
大数目

区别值
不应
应
频繁更新

列
不应
应
外键列
应
应
主键列
应
应
频繁修改索引列
不应
应
事实上

我们可以通过前面聚集索引和非聚集索引

定义

例子来理解上表

如:返回某范围内

数据

项

比如您

某个表有

个时间列

恰好您把聚合索引建立在了该列

这时您查询2004年1月1日至2004年10月1日的间

全部数据时

这个速度就将是很快

您

这本字典正文是按日期进行排序

聚类索引只需要找到要检索

所有数据中

开头和结尾数据即可；而不像非聚集索引

必须先查到目录中查到每

项数据对应

页码

然后再根据页码查到具体内容

( 3)结合实际

谈索引使用

误区
理论

目

是应用

虽然我们刚才列出了何时应使用聚集索引或非聚集索引

但在实战中以上规则却很容易被忽视或不能根据实际情况进行综合分析

下面我们将根据在实战中遇到

实际问题来谈

下索引使用

误区

以便于大家掌握索引建立

思路方法

1、主键就是聚集索引
这种想法笔者认为是极端

是对聚集索引

种浪费

虽然SQL SERVER默认是在主键上建立聚集索引

通常

我们会在每个表中都建立

个ID列

以区分每条数据

并且这个ID列是自动增大

步长

般为1

我们

这个办公自动化

例子中

列Gid就是如此

此时

如果我们将这个列设为主键

SQL SERVER会将此列默认为聚集索引

这样做有好处

就是可以让您

数据在数据库中按照ID进行物理排序

但笔者认为这样做意义不大

显而易见

聚集索引

优势是很明显

而每个表中只能有

个聚集索引

规则

这使得聚集索引变得更加珍贵

从我们前面谈到

聚集索引

定义我们可以看出

使用聚集索引

最大好处就是能够根据查询要求

迅速缩小查询范围

避免全表扫描

在实际应用中

ID号是自动生成

我们并不知道每条记录

ID号

所以我们很难在实战中用ID号来进行查询

这就使让ID号这个主键作为聚集索引成为

种资源浪费

其次

让每个ID号都区别

字段作为聚集索引也不符合“大数目

区别值情况下不应建立聚合索引”规则；当然

这种情况只是针对用户经常修改记录内容

特别是索引项

时候会负作用

但对于查询速度并没有影响

在办公自动化系统中

无论是系统首页显示

需要用户签收

文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段

是“日期”还有用户本身

“用户名”

通常

办公自动化

首页会显示每个用户尚未签收

文件或会议

虽然我们

where语句可以仅仅限制当前用户尚未签收

情况

但如果您

系统已建立了很长时间

并且数据量很大

那么

每次每个用户打开首页

时候都进行

次全表扫描

这样做意义是不大

绝大多数

用户1个月前

文件都已经浏览过了

这样做只能徒增数据库

开销而已

事实上

我们完全可以让用户打开系统首页时

数据库仅仅查询这个用户近3个月来未阅览

文件

通过“日期”这个字段来限制表扫描

提高查询速度

如果您

办公自动化系统已经建立

2年

那么您

首页显示速度理论上将是原来速度8倍

甚至更快

在这里的所以提到“理论上” 3字

是

如果您

聚集索引还是盲目地建在ID这个主键上时

您

查询速度是没有这么高

即使您在“日期”这个字段上建立

索引(非聚合索引)

下面我们就来看

下在1000万条数据量

情况下各种查询

速度表现(3个月内

数据为25万条):
(1)仅在主键上建立聚集索引

并且不划分时间段:
Select gid,fariqi,neibuyonghu,title from tgongwen
用时:128470毫秒(即:128秒)
(2)在主键上建立聚集索引

在fariq上建立非聚集索引:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate

)
用时:53763毫秒(54秒)
(3)将聚合索引建立在日期列(fariqi)上:
select gid,fariqi,neibuyonghu,title from Tgongwen
where fariqi> dateadd(day,-90,getdate

)
用时:2423毫秒(2秒)
虽然每条语句提取出来

都是25万条数据

各种情况

差异却是巨大

特别是将聚集索引建立在日期列时

差异

事实上

如果您

数据库真

有 1000万容量

话

把主键建立在ID列上

就像以上

第1、2种情况

在网页上

表现就是超时

根本就无法显示

这也是我摒弃ID列作为聚集索引

个最重要

原因

得出以上速度

思路方法是:在各个select语句前加:declare @d datetime

@d=getdate

并在select语句后加:
select [语句执行花费时间(毫秒)]=dated

f(ms,@d,getdate

)
2、只要建立索引就能显著提高查询速度
事实上

我们可以发现上面

例子中

第2、3条语句完全相同

且建立索引

字段也相同；区别

仅是前者在fariqi字段上建立

是非聚合索引

后者在此字段上建立

是聚合索引

但查询速度却有着天壤的别

所以

并非是在任何字段上简单地建立索引就能提高查询速度

从建表

语句中

我们可以看到这个有着1000万数据

表中fariqi字段有5003个区别记录

在此字段上建立聚合索引是再合适不过了

在现实中

我们每天都会发几个文件

这几个文件

发文日期就相同

这完全符合建立聚集索引要求

:“既不能绝大多数都相同

又不能只有极少数相同”

规则

由此看来

我们建立“适当”

聚合索引对于我们提高查询速度是非常重要

3、把所有需要提高查询速度

字段都加进聚集索引

以提高查询速度
上面已经谈到:在进行数据查询时都离不开字段

是“日期”还有用户本身

“用户名”

既然这两个字段都是如此

重要

我们可以把他们合并起来

建立

个复合索引(compound index)

很多人认为只要把任何字段加进聚集索引

就能提高查询速度

也有人感到迷惑:如果把复合

聚集索引字段分开查询

那么查询速度会减慢吗？带着这个问题

我们来看

下以下

查询速度(结果集都是25万条数据):(日期列fariqi首先排在复合聚集索引

起始列

用户名neibuyonghu排在后列)
(1)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5'
查询速度:2513毫秒
(2)select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5' and neibuyonghu='办公室'
查询速度:2516毫秒
(3)select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='办公室'
查询速度:60280毫秒
从以上试验中

我们可以看到如果仅用聚集索引

起始列作为查询条件和同时用到复合聚集索引

全部列

查询速度是几乎

样

甚至比用上全部

复合索引列还要略快(在查询结果集数目

样

情况下)；而如果仅用复合聚集索引

非起始列作为查询条件

话

这个索引是不起任何作用

当然

语句1、2

查询速度

样是

查询

条目数

样

如果复合索引

所有列都用上

而且查询结果少

话

这样就会形成“索引覆盖”

因而性能可以达到最优

同时

请记住:无论您是否经常使用聚合索引

其他列

但其前导列

定要是使用最频繁

列

( 4)其他书上没有

索引使用经验整理总结
1、用聚合索引比用不是聚合索引

主键速度快
下面是例子语句:(都是提取25万条数据)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
使用时间:3326毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000
使用时间:4470毫秒
这里

用聚合索引比用不是聚合索引

主键速度快了近1/4

2、用聚合索引比用

般

主键作order by时速度快

特别是在小数据量情况下
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi
用时:12936
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid
用时:18843
这里

用聚合索引比用

般

主键作order by时

速度快了3/10

事实上

如果数据量很小

话

用聚集索引作为排序列要比使用非聚集索引速度快得明显

多；而数据量如果很大

话

如10万以上

则 2者

速度差别不明显

3、使用聚合索引内

时间段

搜索时间会按数据占整个数据表

百分比成比例减少

而无论聚合索引使用了多少个
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1'
用时:6343毫秒(提取100万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-6-6'
用时:3170毫秒(提取50万条)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
用时:3326毫秒(和上句

结果

模

样

如果采集

数量

样

那么用大于号和等于号是

样

)
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' and fariqi<'2004-6-6'
用时:3280毫秒
4 、日期列不会

有分秒

输入而减慢查询速度
下面

例子中

共有100万条数据

2004年1月1日以后

数据有50万条

但只有两个区别

日期

日期精确到日；的前有数据50万条

有5000个区别

日期

日期精确到秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' order by fariqi
用时:6390毫秒
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi<'2004-1-1' order by fariqi
用时:6453毫秒
( 5)其他注意事项
“水可载舟

亦可覆舟”

索引也

样

索引有助于提高检索性能

但过多或不当

索引也会导致系统低效

用户在表中每加进

个索引

数据库就要做更多

工作

过多

索引甚至会导致索引碎片

所以说

我们要建立

个“适当”

索引体系

特别是对聚合索引

创建

更应精益求精

以使您

数据库能得到高性能

发挥

当然

在实战中

作为

个尽职

数据库管理员

您还要多测试

些方案

找出哪种方案效率最高、最为有效

2、改善SQL语句
很多人不知道SQL语句在SQL SERVER中是如何执行

他们担心自己所写

SQL语句会被SQL SERVER误解

比如:
select * from table1 where name='zhangsan' and tID > 10000
和执行:
select * from table1 where tID > 10000 and name='zhangsan'

些人不知道以上两条语句

执行效率是否

样

如果简单

从语句先后上看

这两个语句

确是不

样

如果tID是

个聚合索引

那么后

句仅仅从表

10000条以后

记录中查找就行了；而前

句则要先从全表中查找看有几个name='zhangsan'

而后再根据限制条件条件 tID>10000来提出查询结果

事实上

这样

担心是不必要

SQL SERVER中有

个“查询分析优化器”

它可以计算出where子句中

搜索条件并确定哪个索引能缩小表扫描

搜索空间

也就是说

它能实现自动优化

虽然查询优化器可以根据where子句自动

进行查询优化

但大家仍然有必要了解

下“查询优化器”

工作原理

如非这样

有时查询优化器就会不按照您

本意进行快速查询

在查询分析阶段

查询优化器查看查询

每个阶段并决定限制需要扫描

数据量是否有用

如果

个阶段可以被用作

个扫描参数(SARG)

那么就称的为可优化

并且可以利用索引快速获得所需数据

SARG

定义:用于限制搜索

个操作

它通常是指

个特定

匹配

个值得范围内

匹配或者两个以上条件

AND连接

形式如下:
列名操作符 <常数或变量>
或
<常数或变量> 操作符列名
列名可以出现在操作符

边

而常数或变量出现在操作符

另

边

如:
Name='张 3'
价格>5000
5000<价格
Name='张 3' and 价格>5000
如果

个表达式不能满足SARG

形式

那它就无法限制搜索

范围了

也就是SQL SERVER必须对每

行都判断它是否满足WHERE子句中

所有条件

所以

个索引对于不满足SARG形式

表达式来说是无用

介绍完SARG后

我们来整理总结

下使用SARG以及在实战中遇到

和某些资料上结论区别

经验:
1、Like语句是否属于SARG取决于所使用

通配符

类型
如:name like ‘张%'

这就属于SARG
而:name like ‘%张' ,就不属于SARG

原因是通配符%在

串

开通使得索引无法使用

2、or 会引起全表扫描
Name='张 3' and 价格>5000 符号SARG

而:Name='张 3' or 价格>5000 则不符合SARG

使用or会引起全表扫描

3、非操作符、

引起

不满足SARG形式

语句
不满足SARG形式

语句最典型

情况就是包括非操作符

语句

如:NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等

另外还有

下面就是几个不满足SARG形式

例子:
ABS(价格)<5000
Name like ‘% 3'
有些表达式

如:
WHERE 价格*2>5000
SQL SERVER也会认为是SARG

SQL SERVER会将此式转化为:
WHERE 价格>2500/2
但我们不推荐这样使用

有时SQL SERVER不能保证这种转化和原始表达式是完全等价

4、IN

作用相当和OR
语句:
Select * from table1 where tid in (2,3)
和
Select * from table1 where tid=2 or tid=3
是

样

都会引起全表扫描

如果tid上有索引

其索引也会失效

5、尽量少用NOT
6、exists 和 in

执行效率是

样

很多资料上都显示说

exists要比in

执行效率要高

同时应尽可能

用not exists来代替not in

但事实上

我试验了

下

发现 2者无论是前面带不带not

2者的间

执行效率都是

样

涉及子查询

我们试验这次用SQL SERVER自带

pubs数据库

运行前我们可以把SQL SERVER

statistics I/O状态打开

(1)select title,price from titles where title_id in (select title_id from sales where qty>30)
该句

执行结果为:
表 'sales'

扫描计数 18

逻辑读 56 次

物理读 0 次

预读 0 次

表 'titles'

扫描计数 1

逻辑读 2 次

物理读 0 次

预读 0 次

(2)select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)
第 2句

执行结果为:
表 'sales'

扫描计数 18

逻辑读 56 次

物理读 0 次

预读 0 次

表 'titles'

扫描计数 1

逻辑读 2 次

物理读 0 次

预读 0 次

我们从此可以看到用exists和用in

执行效率是

样

7、用

charindex

和前面加通配符%

LIKE执行效率

样
前面

我们谈到

如果在LIKE前面加上通配符%

那么将会引起全表扫描

所以其执行效率是低下

但有

资料介绍说

用

charindex

来代替LIKE速度会有大

提升

经我试验

发现这种介绍说明也是

:
select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader)>0 and fariqi>'2004-5-5'
用时:7秒

另外:扫描计数 4

逻辑读 7155 次

物理读 0 次

预读 0 次

select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队' + '%' and fariqi>'2004-5-5'
用时:7秒

另外:扫描计数 4

逻辑读 7155 次

物理读 0 次

预读 0 次

8、union并不绝对比or

执行效率高
我们前面已经谈到了在where子句中使用or会引起全表扫描

般

我所见过

资料都是推荐这里用union来代替or

事实证明

这种说法对于大部分都是适用

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or gid>9990000
用时:68秒

扫描计数 1

逻辑读 404008 次

物理读 283 次

预读 392163 次

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000
用时:9秒

扫描计数 8

逻辑读 67489 次

物理读 216 次

预读 7499 次

看来

用union在通常情况下比用or

效率要高

多

但经过试验

笔者发现如果or两边

查询列是

样

话

那么用union则反倒和用or

执行速度差很多

虽然这里union扫描

是索引

而or扫描

是全表

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or fariqi='2004-2-5'
用时:6423毫秒

扫描计数 2

逻辑读 14726 次

物理读 1 次

预读 7176 次

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'
union
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-2-5'
用时:11640毫秒

扫描计数 8

逻辑读 14806 次

物理读 108 次

预读 1144 次

9、字段提取要按照“需多少、提多少”

原则

避免“select *”
我们来做

个试验:
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4673毫秒
select top 10000 gid,fariqi,title from tgongwen order by gid desc
用时:1376毫秒
select top 10000 gid,fariqi from tgongwen order by gid desc
用时:80毫秒
由此看来

我们每少提取

个字段

数据

提取速度就会有相应

提升

速度还要看您舍弃

字段

大小来判断

10、count(*)不比count(字段)慢
某些资料上说:用*会统计所有列

显然要比

个世界

列名效率低

这种说法其实是没有根据

我们来看:
select count(*) from Tgongwen
用时:1500毫秒
select count(gid) from Tgongwen
用时:1483毫秒
select count(fariqi) from Tgongwen
用时:3140毫秒
select count(title) from Tgongwen
用时:52050毫秒
从以上可以看出

如果用count(*)和用count(主键)

速度是相当

而count(*)却比其他任何除主键以外

字段汇总速度要快

而且字段越长

汇总

速度就越慢

我想

如果用count(*)

SQL SERVER可能会自动查找最小字段来汇总

当然

如果您直接写count(主键)将会来

更直接些

11、order by按聚集索引列排序效率最高
我们来看:(gid是主键

fariqi是聚合索引列)
select top 10000 gid,fariqi,reader,title from tgongwen
用时:196 毫秒

扫描计数 1

逻辑读 289 次

物理读 1 次

预读 1527 次

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc
用时:4720毫秒

扫描计数 1

逻辑读 41956 次

物理读 0 次

预读 1287 次

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc
用时:4736毫秒

扫描计数 1

逻辑读 55350 次

物理读 10 次

预读 775 次

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc
用时:173毫秒

扫描计数 1

逻辑读 290 次

物理读 0 次

预读 0 次

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc
用时:156毫秒

扫描计数 1

逻辑读 289 次

物理读 0 次

预读 0 次

从以上我们可以看出

不排序

速度以及逻辑读次数都是和“order by 聚集索引列”

速度是相当

但这些都比“order by 非聚集索引列”

查询速度是快得多

同时

按照某个字段进行排序

时候

无论是正序还是倒序

速度是基本相当

12、高效

TOP
事实上

在查询和提取超大容量

数据集时

影响数据库响应时间

最大原因不是数据查找

而是物理

I/0操作

如:
select top 10 * from (
select top 10000 gid,fariqi,title from tgongwen
where neibuyonghu='办公室'
order by gid desc) as a
order by gid asc
这条语句

从理论上讲

整条语句

执行时间应该比子句

执行时间长

但事实相反

子句执行后返回

是10000条记录

而整条语句仅返回10 条语句

所以影响数据库响应时间最大

原因是物理I/O操作

而限制物理I/O操作此处

最有效思路方法的

就是使用TOP关键词了

TOP关键词是SQL SERVER中经过系统优化过

个用来提取前几条或前几个百分比数据

词

经笔者在实战中

应用

发现TOP确实很好用

效率也很高

但这个词在另外

个大型数据库ORACLE中却没有

这不能说不是

个遗憾

虽然在ORACLE中可以用其他思路方法(如:rownumber)来解决

在以后

有关“实现千万级数据

分页显示存储过程”

讨论中

我们就将用到TOP这个关键词

到此为止

我们上面讨论了如何实现从大容量

数据库中快速地查询出您所需要

数据思路方法

当然

我们介绍

这些思路方法都是“软”思路方法

在实战中

我们还要考虑各种“硬”原因

如:网络性能、服务器

性能、操作系统

性能

甚至网卡、交换机等

3、实现小数据量和海量数据

通用分页显示存储过程
建立

个web 应用

分页浏览功能必不可少

这个问题是数据库处理中十分常见

问题

经典

数据分页思路方法是:ADO 纪录集分页法

也就是利用ADO自带

分页功能(利用游标)来实现分页

但这种分页思路方法仅适用于较小数据量

情形

游标本身有缺点:游标是存放在内存中

很费内存

游标

建立

就将相关

记录锁住

直到取消游标

游标提供了对特定集合中逐行扫描

手段

般使用游标来逐行遍历数据

根据取出数据条件

区别进行区别

操作

而对于多表和大表中定义

游标(大

数据集合)循环很容易使

进入

个漫长

等待甚至死机

更重要

是

对于非常大

数据模型而言

分页检索时

如果按照传统

每次都加载整个数据源

思路方法是非常浪费资源

现在流行

分页思路方法

般是检索页面大小

块区

数据

而非检索所有

数据

然后单步执行当前行

最早较好地实现这种根据页面大小和页码来提取数据

思路方法大概就是“俄罗斯存储过程”

这个存储过程用了游标

由于游标

局限性

所以这个思路方法并没有得到大家

普遍认可

后来

网上有人改造了此存储过程

下面

存储过程就是结合我们

办公自动化例子写

分页存储过程:
CREATE procedure pagination1
(@pagesize

, --页面大小

如每页存储20条记录
@pageindex

--当前页码
)
as

nocount _disibledevent=>

@PageUpperBound=@PageLowerBound+@pagesize

rowcount @PageUpperBound
insert

o @indextable(nid) select gid from TGongwen where fariqi >dateadd(day,-365,getdate

) order by fariqi desc
select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t where O.gid=t.nid
and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id
end

nocount off
以上存储过程运用了SQL SERVER

最新技术――表变量

应该说这个存储过程也是

个非常优秀

分页存储过程

当然

在这个过程中

您也可以把其中

表变量写成临时表: CREATE TABLE #Temp

但很明显

在SQL SERVER中

用临时表是没有用表变量快

所以笔者刚开始使用这个存储过程时

感觉非常

不错

速度也比原来

ADO

好

但后来

我又发现了比此思路方法更好

思路方法

笔者曾在网上看到了

篇小短文

从数据表中取出第n条到第m条

记录

思路方法

全文如下:
从publish 表中取出第 n 条到第 m 条

记录:
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN
　　　　(SELECT TOP n-1 id
　　　　 FROM publish))
id 为publish 表

关键字
我当时看到这篇文章

时候

真

是精神为的

振

觉得思路非常得好

等到后来

我在作办公自动化系统(ASP.NET+ C#＋SQL SERVER)

时候

忽然想起了这篇文章

我想如果把这个语句改造

下

这就可能是

个非常好

分页存储过程

于是我就满网上找这篇文章

没想到

文章还没找到

却找到了

篇根据此语句写

个分页存储过程

这个存储过程也是目前较为流行

种分页存储过程

我很后悔没有争先把这段文字改造成存储过程:
CREATE PROCEDURE pagination2
(
@SQL nVARCHAR(4000), --不带排序语句

SQL语句
@Page

, --页码
@RecsPerPage

, --每页容纳

记录数
@ID VARCHAR(255), --需要排序

不重复

ID号
@Sort VARCHAR(255) --排序字段及规则
)
AS
DECLARE @Str nVARCHAR(4000)
SET @Str='SELECT TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM ('+@SQL+') T WHERE T.'+@ID+'NOT IN
(SELECT TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+' '+@ID+' FROM ('+@SQL+') T9 ORDER BY '+@Sort+') ORDER BY '+@Sort
PRINT @Str
EXEC sp_ExecuteSql @Str
GO
其实

以上语句可以简化为:
SELECT TOP 页大小 *
FROM Table1
WHERE (ID NOT IN
(SELECT TOP 页大小*页数 id
FROM 表
ORDER BY id))
ORDER BY ID
但这个存储过程有

个致命

缺点

就是它含有NOT IN字样

虽然我可以把它改造为:
SELECT TOP 页大小 *
FROM Table1
WHERE not exists
(select * from (select top (页大小*页数) * from table1 order by id) b where b.id=a.id )
order by id
即

用not exists来代替not in

但我们前面已经谈过了

2者

执行效率实际上是没有区别

既便如此

用TOP 结合NOT IN

这个思路方法还是比用游标要来得快

些

虽然用not exists并不能挽救上个存储过程

效率

但使用SQL SERVER中

TOP关键字却是

个非常明智

选择

分页优化

最终目

就是避免产生过大

记录集

而我们在前面也已经提到了TOP

优势

通过TOP 即可实现对数据量

控制

在分页算法中

影响我们查询速度

关键原因有两点:TOP和NOT IN

TOP可以提高我们

查询速度

而NOT IN会减慢我们

查询速度

所以要提高我们整个分页算法

速度

就要彻底改造NOT IN

同其他思路方法来替代它

我们知道

几乎任何字段

我们都可以通过max(字段)或min(字段)来提取某个字段中

最大或最小值

所以如果这个字段不重复

那么就可以利用这些不重复

字段

max或min作为分水岭

使其成为分页算法中分开每页

参照物

在这里

我们可以用操作符“>”或“<”号来完成这个使命

使查询语句符合SARG形式

如:
Select top 10 * from table1 where id>200
于是就有了如下分页方案:
select top 页大小 *
from table1
where id>
(select max (id) from
(select top ((页码-1)*页大小) id from table1 order by id) as T
)
order by id
在选择即不重复值

又容易分辨大小

列时

我们通常会选择主键

下表列出了笔者用有着1000万数据

办公自动化系统中

表

在以GID(GID是主键

但并不是聚集索引

)为排序列、提取gid,fariqi,title字段

分别以第1、10、100、500、1000、1万、10万、25万、 50万页为例

测试以上 3种分页方案

执行速度:(单位:毫秒)
页码
方案1
方案2
方案3
1
60
30
76
10
46
16
63
100
1076
720
130
500
540
12943
83
1000
17110
470
250
1万
24796
4500
140
10万
38326
42283
1553
25万
28140
128720
2330
50万
121686
127846
7168
从上表中

我们可以看出

3种存储过程在执行100页以下

分页命令时

都是可以信任

速度都很好

但第

种方案在执行分页1000页以上后

速度就降了下来

第 2种方案大约是在执行分页1万页以上后速度开始降了下来

而第 3种方案却始终没有大

降势

后劲仍然很足

在确定了第 3种分页方案后

我们可以据此写

个存储过程

大家知道SQL SERVER

存储过程是事先编译好

SQL语句

它

执行效率要比通过WEB页面传来

SQL语句

执行效率要高

下面

存储过程不仅含有分页方案

还会根据页面传来

参数来确定是否进行数据总数统计

-- 获取指定页

数据
CREATE PROCEDURE pagination3
@tblName varchar(255), -- 表名
@strGetFields varchar(1000) = '*', -- 需要返回

列
@fldName varchar(255)='', -- 排序

字段名
@PageSize

= 10, -- 页尺寸
@PageIndex

= 1, -- 页码
@doCount bit = 0, -- 返回记录总数, 非 0 值则返回
@OrderType bit = 0, -- 设置排序类型, 非 0 值则降序
@strWhere varchar(1500) = '' -- 查询条件 (注意: 不要加 where)
AS
declare @strSQL varchar(5000) -- 主语句
declare @strTmp varchar(110) -- 临时变量
declare @strOrder varchar(400) -- 排序类型

@doCount != 0
begin

@strWhere !=''

@strSQL = "select count(*) as Total from [" + @tblName + "] where "+@strWhere

@strSQL = "select count(*) as Total from [" + @tblName + "]"
end
--以上代码

意思是如果@doCount传递过来

不是0

就执行总数统计

以下

所有代码都是@doCount为0

情况

begin

@OrderType != 0
begin

@strTmp = "<(select min"

@strOrder = " order by [" + @fldName +"] desc"
--如果@OrderType不是0

就执行降序

这句很重要！
end

begin

@strTmp = ">(select max"

@strOrder = " order by [" + @fldName +"] asc"
end

@PageIndex = 1
begin

@strWhere != ''

@strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from [" + @tblName + "] where " + @strWhere + " " + @strOrder

@strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["+ @tblName + "] "+ @strOrder
--如果是第

页就执行以上代码

这样会加快执行速度
end

begin
--以下代码赋予了@strSQL以真正执行

SQL代码

@strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "] from [" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder

@strWhere != ''

@strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where [" + @fldName + "]" + @strTmp + "(["
+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["
+ @fldName + "] from [" + @tblName + "] where " + @strWhere + " "
+ @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder
end
end
exec (@strSQL)
GO
上面

这个存储过程是

个通用

存储过程

其注释已写在其中了

在大数据量

情况下

特别是在查询最后几页

时候

查询时间

般不会超过9秒；而用其他存储过程

在实战中就会导致超时

所以这个存储过程非常适用于大容量数据库

查询

笔者希望能够通过对以上存储过程

解析

能给大家带来

定

启示

并给工作带来

定

效率提升

同时希望同行提出更优秀

实时数据分页算法

4、聚集索引

重要性和如何选择聚集索引
在上

节

标题中

笔者写

是:实现小数据量和海量数据

通用分页显示存储过程

这是

在将本存储过程应用于“办公自动化”系统

实战中时

笔者发现这第 3种存储过程在小数据量

情况下

有如下现象:
1、分页速度

般维持在1秒和3秒的间

2、在查询最后

页时

速度

般为5秒至8秒

哪怕分页总数只有3页或30万页

虽然在超大容量情况下

这个分页

实现过程是很快

但在分前几页时

这个1－3秒

速度比起第

种甚至没有经过优化

分页思路方法速度还要慢

借用户

话说就是“还没有ACCESS数据库速度快”

这个认识足以导致用户放弃使用您开发

系统

笔者就此分析了

下

原来产生这种现象

症结是如此

简单

但又如此

重要:排序

字段不是聚集索引！
本篇文章

题目是:“查询优化及分页算法方案”

笔者只所以把“查询优化”和“分页算法”这两个联系不是很大

论题放在

起

就是

2者都需要

个非常重要

东西――聚集索引

在前面

讨论中我们已经提到了

聚集索引有两个最大

优势:
1、以最快

速度缩小查询范围

2、以最快

速度进行字段排序

第1条多用在查询优化时

而第2条多用在进行分页时

数据排序

而聚集索引在每个表内又只能建立

个

这使得聚集索引显得更加

重要

聚集索引

挑选可以说是实现“查询优化”和“高效分页”

最关键原因

但要既使聚集索引列既符合查询列

需要

又符合排序列

需要

这通常是

个矛盾

笔者前面“索引”

讨论中

将fariqi

即用户发文日期作为了聚集索引

起始列

日期

精确度为“日”

这种作法

优点

前面已经提到了

在进行划时间段

快速查询中

比用ID主键列有很大

优势

但在分页时

由于这个聚集索引列存在着重复记录

所以无法使用max或min来最为分页

参照物

进而无法实现更为高效

排序

而如果将ID主键列作为聚集索引

那么聚集索引除了用以排序的外

没有任何用处

实际上是浪费了聚集索引这个宝贵

资源

为解决这个矛盾

笔者后来又添加了

个日期列

其默认值为getdate

用户在写入记录时

这个列自动写入当时

时间

时间精确到毫秒

即使这样

为了避免可能性很小

重合

还要在此列上创建UNIQUE约束

将此日期列作为聚集索引列

有了这个时间型聚集索引列的后

用户就既可以用这个列查找用户在插入数据时

某个时间段

查询

又可以作为唯

列来实现max或min

成为分页算法

参照物

经过这样

优化

笔者发现

无论是大数据量

情况下还是小数据量

情况下

分页速度

般都是几十毫秒

甚至0毫秒

而用日期段缩小范围

查询速度比原来也没有任何迟钝

聚集索引是如此

重要和珍贵

所以笔者整理总结了

下

定要将聚集索引建立在:
1、您最频繁使用

、用以缩小查询范围

字段上；
2、您最频繁使用

、需要排序

字段上

结束语:
本篇文章汇集了笔者近段在使用数据库方面

心得体会

是在做“办公自动化”系统时实战经验

积累

希望这篇文章不仅能够给大家

工作带来

定

帮助

也希望能让大家能够体会到分析问题

思路方法；最重要

是

希望这篇文章能够抛砖引玉

掀起大家

学习和讨论

兴趣

以共同促进

共同为公安科技强警事业和金盾工程做出自己最大

努力

最后需要介绍说明

是

在试验中

我发现用户在进行大数据量查询

时候

对数据库速度影响最大

不是内存大小

而是CPU

在我

P4 2.4机器上试验

时候

查看“资源管理器”

CPU经常出现持续到100%

现象

而内存用量却并没有改变或者说没有大

改变

即使在我们

HP ML 350 G3服务器上试验时

CPU峰值也能达到90%

般持续在70%左右

本文

试验数据都是来自我们

HP ML 350服务器

服务器配置:双Inter Xeon 超线程 CPU 2.4G

内存1G

操作系统Windows Server 2003 Enterprise Edition

数据库SQL Server 2000 SP3

Tags: 数据库优化数据库查询算法数据库算法数据库结构与算法

数据库结构与算法:海量数据库的查询优化及分页算法方案

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注