缓冲区溢出:防止缓冲区溢出杜绝如今最常见的程序缺陷疯狂代码！

　　什么是缓冲区溢出？
　　缓冲区以前可能被定义为“包含相同数据类型

例子

个连续计算机内存块”

在 C 和 C

中

缓冲区通常是使用

和诸如 malloc

和

这样

内存分配例程来实现

极其常见

缓冲区种类是简单

溢出是指数据被添加到分配给该缓冲区

内存块的外

　　
　　如果攻击者能够导致缓冲区溢出

那么它就能控制

中

其他值

虽然存在许多利用缓冲区溢出

思路方法

不过最常见

思路方法还是“stack-smashing”攻击

Elias Levy (又名为 Aleph One)

篇经典文章“Smashing the Stack for Fun and Profit”解释了 stack-smashing 攻击

Elias Levy 是 Bugtraq 邮件列表(请参阅参考资料以获得相关链接)

前任主持人

　　
　　为了理解 stack-smashing 攻击(或其他任何缓冲区攻击)是如何进行

您需要了解

些有关计算机在机器语言级实际如何工作

知识

在类 UNIX 系统上

每个进程都可以划分为 3个主要区域:文本、数据和堆栈

文本区域包括代码和只读数据

通常不能对它执行写入操作

数据区域同时包括静态分配

内存(比如全局和静态数据)和动态分配

内存(通常称为堆)

堆栈区域用于允许

/思路方法

；它用于记录

完成的后

返回位置

中使用

本地变量

向

传递参数

以及从

返回值

每当

个

就会使用

个新

堆栈帧来支持该

了解这些的后

让我们来考察

个简单

　　
　　清单 1.

个简单

　　
　　void function1(

c) {
　　　 char buffer1[5];
　　　 gets(buffer1); /* DON'T DO THIS */
　　}
　　
　　void

{
　　　function(1,2,3);
　　}
　　
　　假设使用 gcc 来编译清单 1 中

简单

在 X86 上

Linux 中运行

并且紧跟在对 gets

的后中止

此时

内存内容看起来像什么样子呢？答案是它看起来类似图 1

其中展示了从左边

低位地址到右边

高位地址排序

内存布局

　　
　　内存

底部　　　　内存

顶部　
　　 buffer1　sfp　ret　a　b　c　
　　<--- 增长 ---　[ ]　[ ]　[ ]　[ ]　[ ]　[ ]　...　
　　堆栈

顶部　　　　堆栈

底部　
　　
　　许多计算机处理器

包括所有 x86 处理器

都支持从高位地址向低位地址“倒”增长堆栈

因此

每当

个

另

个

数据将被添加到左边(低位地址)

直至系统

堆栈空间耗尽

在这个例子中

当

function1

时

它将 c

值压入堆栈

然后压入 b

值

最后压入 a

值

的后它压入

(ret)值

这个值在 function1

完成时告诉 function1

返回到

中

何处

它还把所谓

“已保存

帧指针(saved frame po

sfp)”记录到堆栈上；这并不是必须保存

内容

此处我们不需要理解它

在任何情况下

function1

在启动以后

它会为 buffer1

预留空间

这在图 1 中显示为具有

个低地址位置

　　
　　现在假设攻击者发送了超过 buffer1

所能处理

数据

接下来会发生什么情况呢？当然

C 和 C

员不会自动检查这个问题

因此除非

员明确地阻止它

否则下

个值将进入内存中

“下

个”位置

那意味着攻击者能够改写 sfp(即已保存

帧指针)

然后改写 ret(返回地址)

的后

当 function1

完成时

它将“返回”—— 不过不是返回到

而是返回到攻击者想要运行

任何代码

　　
　　通常攻击者会使用它想要运行

恶意代码来使缓冲区溢出

然后攻击者会更改返回值以指向它们已发送

恶意代码

这意味着攻击者本质上能够在

个操作中完成整个攻击！Aleph On

文章(请参阅参考资料)详细介绍了这样

攻击代码是如何创建

例如

将

个 ASCII 0

压入缓冲区通常是很困难

而该文介绍了攻击者

般如何能够解决这个问题

　　
　　除了 smashing-stack 和更改返回地址外

还存在利用缓冲区溢出缺陷

其他途径

和改写返回地址区别

攻击者可以 smashing-stack(使堆栈上

缓冲区溢出)

然后改写局部变量以利用缓冲区溢出缺陷

缓冲区根本就不必在堆栈上 —— 它可以是堆中动态分配

内存(也称为“malloc”或“

”区域)

或者在某些静态分配

内存中(比如“global”或“

”内存)

基本上

如果攻击者能够溢出缓冲区

边界

麻烦或许就会找上你了

然而

最危险

缓冲区溢出攻击就是 stack-smashing 攻击

如果

对攻击者很脆弱

攻击者获得整个机器

控制权就特别容易

　　
　　为什么缓冲区溢出如此常见？
　　在几乎所有计算机语言中

不管是新

语言还是旧

语言

使缓冲区溢出

任何尝试通常都会被该语言本身自动检测并阻止(比如通过引发

个异常或根据需要给缓冲区添加更多空间)

但是有两种语言不是这样:C 和 C

语言

C 和 C

语言通常只是让额外

数据乱写到其余内存

任何位置

而这种情况可能被利用从而导致恐怖

结果

更糟糕

是

用 C 和 C

编写正确

代码来始终如

地处理缓冲区溢出则更为困难；很容易就会意外地导致缓冲区溢出

除了 C 和 C

使用得非常广泛外

上述这些可能都是不相关

事实；例如

Red Hat Linux 7.1 中 86%

代码行都是用 C 或 C

编写

因此

大量

代码对这个问题都是脆弱

实现语言无法保护代码避免这个问题

　　
　　在 C 和 C

语言本身中

这个问题是不容易解决

该问题基于 C 语言

根本设计决定(特别是 C 语言中指针和

处理方式)

由于 C

是最兼容

C 语言超集

它也具有相同

问题

存在

些能防止这个问题

C/C

兼容版本

但是它们存在极其严重

性能问题

而且

旦改变 C 语言来防止这个问题

它就不再是 C 语言了

许多语言(比如和 )在语法上类似 C

但它们实际上是区别

语言

将现有 C 或 C

改为使用那些语言是

项艰巨

任务

　　
　　然而

其他语言

用户也不应该沾沾自喜

有些语言存在允许缓冲区溢出发生

“转义”子句

Ada

般会检测和防止缓冲区溢出(即针对这样

尝试引发

个异常)

但是区别

可能会禁用这个特性

般会检测和防止缓冲区溢出

但是它允许

员将某些例程定义为“不

”

而这样

代码可能会导致缓冲区溢出

因此如果您使用那些转义机制

就需要使用 C/C

所必须使用

相同种类

保护机制

许多语言都是用 C 语言来实现

(至少部分是用 C 语言来实现

)

并且用任何语言编写

所有

本质上都依赖用 C 或 C

编写

库

因此

所有

都会继承那些问题

所以了解这些问题是很重要

　　
　　导致缓冲区溢出常见 C 和 C
　　从根本上讲

在

将数据读入或复制到缓冲区中

任何时候

它需要在复制的前检查是否有足够

空间

能够容易看出来

异常就不可能会发生 —— 但是

通常会随时间而变更

从而使得不可能成为可能

　　
　　遗憾

是

C 和 C

附带

大量危险

(或普遍使用

库)甚至连这点(指检查空间)也无法做到

对这些

任何使用都是

个警告信号

除非慎重地使用它们

否则它们就会成为

缺陷

您不需要记住这些

列表；我

真正目

是介绍说明这个问题是多么普遍

这些

包括 strcpy(3)、strcat(3)、spr

f(3)(及其同类 vspr

f(3))和 gets(3)

scanf

集(scanf(3)、fscanf(3)、sscanf(3)、vscanf(3)、vsscanf(3) 和 vfscanf(3))可能会导致问题

使用

个没有定义最大长度

格式是很容易

(当读取不受信任

输入时

使用格式“%s”总是

个

)

　　
　　其他危险

包括 realpath(3)、getopt(3)、getpass(3)、streadd(3)、strecpy(3) 和 strtrns(3)

从理论上讲

snpr

应该是相对

—— 在现代 GNU/Linux 系统中

确是这样

但是非常老

UNIX 和 Linux 系统没有实现 snpr

所应该实现

保护机制

　　
　　Microsoft

库中还有在相应平台上导致同类问题

其他

(这些

包括 wcscpy

、_tcscpy

、_mbscpy

、wcscat

、_tcscat

、_mbscat

和 CopyMemory

)

注意

如果使用 Microsoft

MultiByteToWideChar

还存在

个常见

危险

—— 该

需要

个最大尺寸作为

数目

但是

员经常将该尺寸以字节计(更普遍

需要)

结果导致缓冲区溢出缺陷

　　
　　另

个问题是 C 和 C

对整数具有非常弱

类型检查

般不会检测操作这些整数

问题

由于它们要求

员手工做所有

问题检测工作

因此以某种可被利用

方式不正确地操作那些整数是很容易

特别是

当您需要跟踪缓冲区长度或读取某个内容

长度时

通常就是这种情况

但是如果使用

个有符号

值来这个长度值会发生什么情况呢 —— 攻击者会使它“成为负值”

然后把该数据解释为

个实际上很大

正值吗？当数字值在区别

尺寸的间转换时

攻击者会利用这个操作吗？数值溢出可被利用吗？有时处理整数

方式会导致

缺陷

　　
　　防止缓冲区溢出新技术
　　当然

要让

员不犯常见

是很难

而让

(以及

员)改为使用另

种语言通常更为困难

那么为何不让底层系统自动保护

避免这些问题呢？最起码

避免 stack-smashing 攻击是

件好事

stack-smashing 攻击是特别容易做到

般来说

更改底层系统以避免常见

安全问题是

个极好

想法

我们在本文后面也会遇到这个主题

事实证明存在许多可用

防御措施

而

些最受欢迎

措施可分组为以下类别:
　　
　　基于探测思路方法(canary)

防御

这包括 StackGuard(由 Immunix 所使用)、ProPolice(由 OpenBSD 所使用)和 Microsoft

/GS 选项

　　
　　非执行

堆栈防御

这包括 Solar D

Tags: 什么是缓冲区溢出发现缓冲区溢出攻击缓冲区溢出攻击缓冲区溢出

缓冲区溢出:防止缓冲区溢出杜绝如今最常见的程序缺陷

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注