成本算法:浅析SQL Server 3大算法的I/O成本

on 2009-2-17 in 数据库 | 0 Comment

="t18">本文作者先对SQL Server 3大算法

IO成本进行分析

然后提出优化原则

希望可以给读者带来帮助

1. Nested Loop Join(嵌套循环联结)

算法:

其思路相当

简单和直接:对于关系R

每个元组 r 将其和关系S

每个元组 s 在JOIN条件

字段上直接比较并筛选出符合条件

元组

写成伪代码就是:

代价:

被联结

表所处内层或外层

顺序对磁盘I/O开销有着非常重要

影响

而CPU开销相对来说影响较小

主要是元组读入内存以后(in-memory)

开销

是 O (n * m)

对于I/O开销

根据 page-at-a-time

前提条件

I/O cost = M + M * N

翻译

下就是 I/O

开销 = 读取M页

I/O开销 + M次读取N页

I/O开销

2. Sort-Merge Join (排序合并联结)

Nested Loop

般在两个集合都很大

情况下效率就相当差了

而Sort-Merge在这种情况下就比它要高效不少

尤其是当两个集合

JOIN字段上都有聚集索引(clustered index)存在时

Sort-Merge性能将达到最好

算法:

基本思路也很简单(复习

下数据结构中

合并排序吧)

主要有两个步骤:

a.按JOIN字段进行排序

b.对两组已排序集合进行合并排序

从来源端各自取得数据列后加以比较(需要根据是否在JOIN字段有重复值做特殊

“分区”处理)

代价:(主要是I/O开销)

有两个原因左右Sort-Merge

开销:JOIN字段是否已排序以及 JOIN字段上

重复值有多少

◆最好情况下(两列都已排序且至少有

列没有重复值):O (n + m) 只需要对两个集合各扫描

遍

(这里

m

n如果都能用到索引那就更好了)

◆最差情况下(两列都未排序且两列上

所有值都相同):O (n * log n + m * log m + n * m) 两次排序以及

次全部元组间

笛卡尔乘积

3. Hash Join (哈希联结)

Hash Join在本质上类似于两列都有重复值时

Sort-Merge

处理思想——分区(patitioning)

但它们也有区别:Hash Join通过哈希来分区(每

个桶就是

个分区)而Sort-Merge通过排序来分区(每

个重复值就是

个分区)

值得注意

是

Hash Join和上述两种算法的间

较大区别同时也是

个较大限制是它只能应用于等值联结(equality join)

这主要是由于哈希

及其桶

确定性及无序性所导致

算法:

基本

Hash Join算法由以下两步组成:

同nested loop

在执行计划中build input位于上方

probe input位于下方

hash join操作分两个阶段完成:build(构造)阶段和probe(探测)阶段

a.Build Input Phase: 基于JOIN字段

使用哈希

h2为较小

S集合构建内存中(in-memory)

哈希表

相同键值

以linked list组成

个桶(bucket)

b.Probe Input Phase: 在较大

R集合上对哈希表进行核对以完成联结

代价:

值得注意

是对于大集合R

每个元组 r

hash bucket中对应 r

那个bucket中

每个元组都需要和 r 进行比较

这也是算法最耗时

地方所在

CPU开销是O (m + n * b) b是每个bucket

平均元组数量

整理总结:

3种join思路方法

都是拥有两个输入

优化

基本原则:

1.避免大数据

hash join

(hash join适合低并发情况

他占用内存和io是很大

)；

2.尽量将其转化为高效

merge join、nested loop join

可能使用

手段有表结构设计、索引调整设计、SQL优化

以及业务设计优化

Tags: 加密算法算法导论什么是算法成本算法

延伸阅读

2010-11-24-- 算法的重要性,算法还重要吗?
2010-11-24-- 加密算法,谈谈数据加密的处理--提供各种算法处理
2011-8-1-- paxos,Paxos算法
2011-6-22-- 遗传算法,帮一个朋友征集算法代码，大家都来开动你的脑袋发挥你的智慧参与吧
2011-5-11-- 算法导论,《算法导论》学习总结 — 14. 第13章红黑树(3)
2011-4-10-- 算法导论,《算法导论》学习总结 — 2.第一章 && 第二章 && 第三章
2011-6-14-- 算法导论,《算法导论》学习总结 — 21.第16章贪心算法(1) 基础入门1
2011-6-12-- dp动态规划,《算法导论》学习总结 — 20.第15章动态规划(5) 分析几道DP题
2011-5-7-- 算法导论学习,《算法导论》学习总结 — 12. 第13章红黑树(1)
2010-12-2-- 负面的惩罚,Google 修改算法以惩罚那些拥有更多负面评论的商户排名

最新评论

发表评论