Rss订阅

首页 »数据库 » SQL语句:Group By整理总结 »正文

SQL语句:Group By整理总结

来源: 发布时间:星期三, 2009年1月21日浏览:5次评论:0

1. Group By 语句介绍:

Group By语句从英文

字面意义上理解就是“根据(by)

定

规则进行分组(Group)”

它

作用是通过

定

规则将

个数据集划分成若干个小

区域

然后针对若干个小区域进行数据处理

P.S. 这里真是体会到了

个好

命名

力量

Group By从字面是直接去理解是非常好理解

恩

以后在命名

环节

定要加把劲:)

话题扯远了

2. Group By

使用:

上面已经给出了对Group By语句

理解

基于这个理解和SQL Server 2000

联机帮助

下面对Group By语句

各种典型使用进行依次列举介绍说明

2.1 Group By [Expressions]:

这个恐怕是Group By语句最常见

使用方法了

Group By + [分组字段](可以有多个)

在执行了这个操作以后

数据集将根据分组字段

值将

个数据集划分成各个区别

小组

比如有如下数据集

其中水果名称(FruitName)和出产国家(ProductPlace)为联合主键:

FruitName

ProductPlace

Price

Apple

China

$1.1

Apple

Japan

$2.1

Apple

USA

$2.5

Orange

China

$0.8

Banana

China

$3.1

Peach

USA

$3.0

如果我们想知道每个国家有多少种水果

那么我们可以通过如下SQL语句来完成:

SELECTCOUNT(*)AS水果种类,ProductPlaceAS出产国
FROMT_TEST_FRUITINFO
GROUPBYProductPlace

这个SQL语句就是使用了Group By + 分组字段

方式

那么这句SQL语句就可以解释成“我按照出产国家(ProductPlace)将数据集进行分组

然后分别按照各个组来统计各自

记录数量

”很好理解对吧

这里值得注意

是结果集中有两个返回字段

个是ProductPlace(出产国),

个是水果种类

如果我们这里水果种类不是用Count(*)

而是类似如下写法

话:

SELECTFruitName,ProductPlaceFROMT_TEST_FRUITINFOGROUPBYProductPlace

那么SQL在执行此语句

时候会报如下

类似

:

选择列表中

列'T_TEST_FRUITINFO.FruitName'无效

该列没有包含在聚合

或GROUPBY子句中

这就是我们需要注意

点

如果在返回集字段中

这些字段要么就要包含在Group By语句

后面

作为分组

依据；要么就要被包含在聚合

中

我们可以将Group By操作想象成如下

个过程

首先系统根据SELECT 语句得到

个结果集

如最开始

那个水果、出产国家、单价

个详细表

然后根据分组字段

将具有相同分组字段

记录归并成了

条记录

这个时候剩下

那些不存在于Group By语句后面作为分组依据

字段就有可能出现多个值

但是目前

种分组情况只有

条记录

个数据格是无法放入多个数值

所以这里就需要通过

定

处理将这些多值

列转化成单值

然后将其放在对应

数据格中

那么完成这个步骤

就是聚合

这就是为什么这些

叫聚合

(aggregate functions)了

2.2 Group By All [expressions] :

Group By All + 分组字段, 这个和前面提到

Group By [Expressions]

形式多了

个关键字ALL

这个关键字只有在使用了where语句

且where条件筛选掉了

些组

情况才可以看出效果

在SQL Server 2000

联机帮助中

对于Group By All是这样进行描述

:

如果使用ALL关键字

那么查询结果将包括由GROUPBY子句产生

所有组

即使某些组没有符合搜索条件

行

没有ALL关键字

包含GROUPBY子句

SELECT语句将不显示没有符合条件

行

组

其中有这么

句话“如果使用ALL关键字

那么查询结果将包含由Group By子句产生

所有组...没有ALL关键字

那么不显示不符合条件

行组

”这句话听起来好像挺耳熟

对了

好像和LEFT JOIN 和 RIGHT JOIN 有点像

其实这里是类比LEFT JOIN来进行理解

还是基于如下这样

个数据集:

FruitName

ProductPlace

Price

Apple

China

$1.1

Apple

Japan

$2.1

Apple

USA

$2.5

Orange

China

$0.8

Banana

China

$3.1

Peach

USA

$3.0

首先我们不使用带ALL关键字

Group By语句:

SELECTCOUNT(*)AS水果种类,ProductPlaceAS出产国
FROMT_TEST_FRUITINFO
WHERE(ProductPlace<>'Japan')
GROUPBYProductPlace

那么在最后结果中由于Japan不符合where语句

所以分组结果中将不会出现Japan

现在我们加入ALL关键字:

SELECTCOUNT(*)AS水果种类,ProductPlaceAS出产国
FROMT_TEST_FRUITINFO
WHERE(ProductPlace<>'Japan')
GROUPBYALLProductPlace

重新运行后

我们可以看到Japan

分组

但是对应

“水果种类”不会进行真正

统计

聚合

会根据返回值

类型用默认值0或者NULL来代替聚合

返回值

2.3 GROUP BY [Expressions] WITH CUBE | ROLLUP:

首先需要介绍说明

是Group By All 语句是不能和CUBE 和 ROLLUP 关键字

起使用

首先先说说CUBE关键字

以下是SQL Server 2000联机帮助中

介绍说明:

指定在结果集内不仅包含由GROUPBY提供

正常行

还包含汇总行

在结果集内返回每个可能

组和子组组合

GROUPBY汇总行

GROUPBY汇总行在结果中显示为NULL

但可用来表示所有值

使用GROUPING

确定结果集内

空值是否是GROUPBY汇总值

结果集内

汇总行数取决于GROUPBY子句内包含

列数

GROUPBY子句中

每个操作数(列)绑定在分组NULL下

并且分组适用于所有其它操作数(列)

由于CUBE返回每个可能

组和子组组合

因此不论指定分组列时所使用

是什么顺序

行数都相同

我们通常

Group By语句是按照其后所跟

所有字段进行分组

而如果加入了CUBE关键字以后

那么系统将根据所有字段进行分组

基础上

还会通过对所有这些分组字段所有可能存在

组合形成

分组条件进行分组计算

由于上面举

例子过于简单

这里就再适合了

现在我们

数据集将换

个场景

个表中包含人员

基本信息:员工所在

部门编号(C_EMPLINFO_DEPTID)、员工性别(C_EMPLINFO_SEX)、员工姓名(C_EMPLINFO_NAME)等

那么我现在想知道每个部门各个性别

人数

那么我们可以通过如下语句得到:

SELECTC_EMPLINFO_DEPTID,C_EMPLINFO_SEX,COUNT(*)ASC_EMPLINFO_TOTALSTAFFNUM
FROMT_PERSONNEL_EMPLINFO
GROUPBYC_EMPLINFO_DEPTID,C_EMPLINFO_SEX

但是如果我现在希望知道:

1. 所有部门有多少人(这里相当于就不进行分组了

这里已经对员工

部门和性别没有做任何限制了

但是这

确也是

种分组条件

组合方式)；

2. 每种性别有多人(这里实际上是仅仅根据性别(C_EMPLINFO_SEX)进行分组)；

3. 每个部门有多少人(这里仅仅是根据部门(C_EMPLINFO_DEPTID)进行分组)；那么我们就可以使用ROLLUP语句了

SELECTC_EMPLINFO_DEPTID,C_EMPLINFO_SEX,COUNT(*)ASC_EMPLINFO_TOTALSTAFFNUM
FROMT_PERSONNEL_EMPLINFO
GROUPBYC_EMPLINFO_DEPTID,C_EMPLINFO_SEXWITHCUBE

那么这里你可以看到结果集中多出了很多行

而且结果集中

某

个字段或者多个字段、甚至全部

字段都为NULL

请仔细看

下你就会发现实际上这些记录就是完成了上面我所列举

所有统计数据

展现

使用过SQL Server 2005或者RDLC

朋友们

定对于矩阵

小计和分组功能有印象吧

是不是都可以通过这个得到答案

我想RDLC中对于分组和小计

计算就是通过Group By

CUBE和ROLLUP关键字来实现

(个人意见

未证实)

CUBE关键字还有

个极为相似

兄弟ROLLUP, 同样我们先从这英文入手

ROLL UP是“向上卷”

意思

如果说CUBE

组合是绝对自由

那么ROLLUP

组合就需要有点约束了

我们先来看看SQL Server 2000

联机中对ROLLUP关键字

定义:

指定在结果集内不仅包含由GROUPBY提供

正常行

还包含汇总行

按层次结构顺序

从组内

最低级别到最高级别汇总组

组

层次结构取决于指定分组列时所使用

顺序

更改分组列

顺序会影响在结果集内生成

行数

那么这个顺序是什么呢？对了就是Group By 后面字段

顺序

排在靠近Group By

分组字段

级别高

然后是依次递减

如:Group By Column1, Column2, Column3

那么分组级别从高到低

顺序是:Column1 > Column2 > Column3

还是看我们前面

例子

SQL语句中我们仅仅将CUBE关键字替换成ROLLUP关键字

如:

SELECTC_EMPLINFO_DEPTID,C_EMPLINFO_SEX,COUNT(*)ASC_EMPLINFO_TOTALSTAFFNUM
FROMT_PERSONNEL_EMPLINFO
GROUPBYC_EMPLINFO_DEPTID,C_EMPLINFO_SEXWITHROLLUP

和CUBE相比

数据行数减少了不少

仔细看

下

除了正常

Group By语句后

数据中还包含了:

1. 部门员工数；(向上卷了

次

这次先去掉了员工性别

分组限制)

2. 所有部门员工数；(向上又卷了依次

这次去掉了员工所在部门

分组限制)

在现实

应用中

对于报表

些统计功能是很有帮助

这里还有

个问题需要补充介绍说明

下

如果我们使用ROLLUP或者CUBE关键字

那么将产生

些小计

行

这些行中被剔除在分组原因的外

字段将会被设置为NULL,那么还存在

种情况

比如在作为分组依据

列表中存在可空

行

那么NULL也会被作为

个分组表示出来

所以这里我们就不能仅仅通过NULL来判断是不是小计记录了

下面

例子展示了这里说得到

情况

还是我们前面提到

水果例子

现在我们在每种商品后面增加

个“折扣列”(Discount)

用于显示对应商品

折扣

这个数值是可空

也就是可以通过NULL来表示没有对应

折扣信息

数据集如下所示:

FruitName

ProductPlace

Price

Discount

Apple

China

$1.1

0.8

Apple

Japan

$2.1

0.9

Apple

USA

$2.5

1.0

Orange

China

$0.8

NULL

Banana

China

$3.1

NULL

Peach

USA

$3.0

NULL

现在我们要统计“各种折扣对应有多少种商品

并总计商品

总数

”

那么我们可以通过如下

SQL语句来完成:

SELECTCOUNT(*)ASProductCount,Discount
FROMT_TEST_FRUITINFO
GROUPBYDiscountWITHROLLUP

好了

运行

下

你会发现数据都正常出来了

按照如上

数据集

结果如下所示:

ProductCount

Discount

3

NULL

1

0.8

1

0.9

1

1.0

6

NULL

好了

各种折扣

商品数量都出来了

但是在显示“没有折扣商品”和“商品小计”

时候判断上确存在问题

存在两条Discount为Null

记录

是哪

条呢？通过分析数据我们知道第

条数据(3, Null)应该对应没有折扣商品

数量

而(6,Null)应该对应所有商品

数量

需要判断这两个具有区别意义

Null就需要引入

个聚合

Grouping

现在我们把语句修改

下

在返回值中使用Grouping

增加

列返回值

SQL语句如下:

SELECTCOUNT(*)ASProductCount,Discount,GROUPING(Discount)ASExpr1
FROMT_TEST_FRUITINFO
GROUPBYDiscountWITHROLLUP

这个时候

我们再看看运行

结果:

ProductCount

Discount

Expr1

3

NULL

0

1

0.8

0

1

0.9

0

1

1.0

0

6

NULL

1

对于根据指定字段Grouping中包含

字段进行小计

记录

这里会标记为1

我们就可以通过这个标记值将小计记录从判断那些由于ROLLUP或者CUBE关键字产生

行

Grouping(column_name)可以带

个参数

Grouping就会去判断对应

字段值

NULL是否是由ROLLUP或者CUBE产生

特殊NULL值

如果是那么就在由Grouping聚合

产生

新列中将值设置为1

注意Grouping只会检查Column_name对应

NULL来决定是否将值设置为1

而不是完全由此列是否是由ROLLUP或者CUBE关键字自动添加来决定

2.2Group By 和 Having, Where ,Order by语句

执行顺序:

最后要介绍说明

下

Group By, Having, Where, Order by几个语句

执行顺序

个SQL语句往往会产生多个临时视图

那么这些关键字

执行顺序就非常重要了

你必须了解这个关键字是在对应视图形成前

字段进行操作还是对形成

临时视图进行操作

这个问题在使用了别名

视图尤其重要

以上列举

关键字是按照如下顺序进行执行

:Where, Group By, Having, Order by

首先where将最原始记录中不满足条件

记录删除(所以应该在where语句中尽量

将不符合条件

记录筛选掉

这样可以减少分组

次数)

然后通过Group By关键字后面指定

分组条件将筛选得到

视图进行分组

接着系统根据Having关键字后面指定

筛选条件

将分组视图后不满足条件

记录筛选掉

然后按照Order By语句对视图进行排序

这样最终

结果就产生了

在这 4个关键字中

只有在Order By语句中才可以使用最终视图

列名

如:

SELECTFruitName,ProductPlace,Price,IDASIDE,Discount
FROMT_TEST_FRUITINFO
WHERE(ProductPlace=N'china')
ORDERBYIDE

这里只有在ORDER BY语句中才可以使用IDE

其他条件语句中如果需要引用列名则只能使用ID

而不能使用IDE

标签：

下载文章的 PDF文档电子版离线看

顶一下

读者评论

共0条分0页

专注于互联网--专注于架构

首页 »数据库 » SQL语句:Group By整理总结 »正文

SQL语句:Group By整理总结

相关文章

读者评论

发表评论

热门标签

精华推荐

Dig排行

阅读排行

评论排行