linux内核:Linux内核的同步机制疯狂代码！

本文详细

介绍了Linux内核中

同步机制:原子操作、信号量、读写信号量和自旋锁

API

使用要求以及

些典型举例

　　、引言

　　在现代操作系统里

同

时间可能有多个内核执行流在执行

因此内核其实象多进程多线程编程

样也需要

些同步机制来同步各执行单元对共享数据

访问

尤其是在多处理器系统上

更需要

些同步机制来同步区别处理器上

执行单元对共享

数据

访问

　　在主流

Linux内核中包含了几乎所有现代

操作系统具有

同步机制

这些同步机制包括:原子操作、信号量(semaphore)、读写信号量(rw_semaphore)、spinlock、BKL(Big Kernel Lock)、rwlock、brlock(只包含在2.4内核中)、RCU(只包含在2.6内核中)和seqlock(只包含在2.6内核中)

　　 2、原子操作

　　所谓原子操作

就是该操作绝不会在执行完毕前被任何其他任务或事件打断

也就说

它

最小

执行单位

不可能有比它更小

执行单位

因此这里

原子实际是使用了物理学里

物质微粒

概念

　　原子操作需要硬件

支持

因此是架构相关

其API和原子类型

定义都定义在内核源码树

/asm/atomic.h文件中

它们都使用汇编语言实现

C语言并不能实现这样

操作

　　原子操作主要用于实现资源计数

很多引用计数(refcnt)就是通过原子操作实现

原子类型定义如下:

typedef struct { volatile

counter; } atomic_t;

　　volatile修饰字段告诉gcc不要对该类型

数据做优化处理

对它

访问都是对内存

访问

而不是对寄存器

访问

　　原子操作API包括:
atomic_read(atomic_t * v);

　　该

对原子类型

变量进行原子读操作

它返回原子类型

变量v

值

atomic_

(atomic_t * v,

i);

　　该

设置原子类型

变量v

值为i

void atomic_add(

i, atomic_t *v);

　　该

给原子类型

变量v增加值i

atomic_sub(

i, atomic_t *v);

　　该

从原子类型

变量v中减去i

atomic_sub_and_test(

i, atomic_t *v);

　　该

从原子类型

变量v中减去i

并判断结果是否为0

如果为0

返回真

否则返回假

void atomic_inc(atomic_t *v);

　　该

对原子类型变量v原子地增加1

void atomic_dec(atomic_t *v);

　　该

对原子类型

变量v原子地减1

atomic_dec_and_test(atomic_t *v);

　　该

对原子类型

变量v原子地减1

并判断结果是否为0

如果为0

返回真

否则返回假

atomic_inc_and_test(atomic_t *v);

　　该

对原子类型

变量v原子地增加1

并判断结果是否为0

如果为0

返回真

否则返回假

atomic_add_negative(

i, atomic_t *v);

　　该

对原子类型

变量v原子地增加I

并判断结果是否为负数

如果是

返回真

否则返回假

atomic_add_

(

i, atomic_t *v);

　　该

对原子类型

变量v原子地增加i

并且返回指向v

指针

atomic_sub_

(

i, atomic_t *v);

　　该

从原子类型

变量v中减去i

并且返回指向v

指针

atomic_inc_

(atomic_t * v);

　　该

对原子类型

变量v原子地增加1并且返回指向v

指针

atomic_dec_

(atomic_t * v);

　　该

对原子类型

变量v原子地减1并且返回指向v

指针

　　原子操作通常用于实现资源

引用计数

在TCP/IP协议栈

IP碎片处理中

就使用了引用计数

碎片队列结构struct ipq描述了

个IP碎片

字段refcnt就是引用计数器

它

类型为atomic_t

当创建IP碎片时(在

ip_frag_create中)

使用atomic_

把它设置为1

当引用该IP碎片时

就使用

atomic_inc把引用计数加1

　　当不需要引用该IP碎片时

就使用

ipq_put来释放该IP碎片

ipq_put使用

atomic_dec_and_test把引用计数减1并判断引用计数是否为0

如果是就释放IP碎片

ipq_kill把IP碎片从ipq队列中删除

并把该删除

IP碎片

引用计数减1(通过使用

atomic_dec实现)

3、信号量(semaphore)

　　Linux内核

信号量在概念和原理上和用户态

IPC机制信号量是

样

但是它绝不可能在内核的外使用

因此它和

IPC机制信号量毫不相干

　　信号量在创建时需要设置

个

值

表示同时可以有几个任务可以访问该信号量保护

共享资源

值为1就变成互斥锁(Mutex)

即同时只能有

个任务可以访问信号量保护

共享资源

个任务要想访问共享资源

首先必须得到信号量

获取信号量

操作将把信号量

值减1

若当前信号量

值为负数

表明无法获得信号量

该任务必须挂起在该信号量

等待队列等待该信号量可用；若当前信号量

值为非负数

表示可以获得信号量

因而可以立刻访问被该信号量保护

共享资源

　　当任务访问完被信号量保护

共享资源后

必须释放信号量

释放信号量通过把信号量

值加1实现

如果信号量

值为非正数

表明有任务等待当前信号量

因此它也唤醒所有等待该信号量

任务

　　信号量

API有:

DECLARE_MUTEX(name)

　　该宏声明

个信号量name并

化它

值为0

即声明

个互斥锁

DECLARE_MUTEX_LOCKED(name)

　　该宏声明

个互斥锁name

但把它

值设置为0

即锁在创建时就处在已锁状态

因此对于这种锁

般是先释放后获得

void sema_init (struct semaphore *sem,

val);

　　该函用于数

化设置信号量

初值

它设置信号量sem

值为val

void init_MUTEX (struct semaphore *sem);

　　该

用于

化

个互斥锁

即它把信号量sem

值设置为1

void init_MUTEX_LOCKED (struct semaphore *sem);

　　该

也用于

化

个互斥锁

但它把信号量sem

值设置为0

即

开始就处在已锁状态

void down(struct semaphore * sem);

　　该

用于获得信号量sem

它会导致睡眠

因此不能在中断上下文(包括IRQ上下文和softirq上下文)使用该

该

将把sem

值减1

如果信号量sem

值非负

就直接返回

否则

者将被挂起

直到别

任务释放该信号量才能继续运行

down_

erruptible(struct semaphore * sem);

　　该

功能和down类似

区别的处为

down不会被信号(signal)打断

但down_

erruptible能被信号打断

因此该

有返回值来区分是正常返回还是被信号中断

如果返回0

表示获得信号量正常返回

如果被信号打断

返回-EINTR

down_trylock(struct semaphore * sem);

　　该

试着获得信号量sem

如果能够立刻获得

它就获得该信号量并返回0

否则

表示不能获得信号量sem

返回值为非0值

因此

它不会导致

者睡眠

可以在中断上下文使用

void up(struct semaphore * sem);

　　该

释放信号量sem

即把sem

值加1

如果sem

值为非正数

表明有任务等待该信号量

因此唤醒这些等待者

　　信号量在绝大部分情况下作为互斥锁使用

下面以console驱动系统为例介绍说明信号量

使用

　　在内核源码树

kernel/pr

k.c中

使用宏DECLARE_MUTEX声明了

个互斥锁console_sem

它用于保护console驱动列表console_drivers以及同步对整个console驱动系统

访问

　　其中定义了

acquire_console_sem来获得互斥锁console_sem

定义了release_console_sem来释放互斥锁console_sem

定义了

try_acquire_console_sem来尽力得到互斥锁console_sem

这 3个

实际上是分别对

down

up和down_trylock

简单包装

　　需要访问console_drivers驱动列表时就需要使用acquire_console_sem来保护console_drivers列表

当访问完该列表后

就

release_console_sem释放信号量console_sem

console_unblank

console_device

console_stop

console_start

register_console和unregister_console都需要访问console_drivers

因此它们都使用

对acquire_console_sem和release_console_sem来对console_drivers进行保护

4、读写信号量(rw_semaphore)

　　读写信号量对访问者进行了细分

或者为读者

或者为写者

读者在保持读写信号量期间只能对该读写信号量保护

共享资源进行读访问

如果

个任务除了需要读

可能还需要写

那么它必须被归类为写者

它在对共享资源访问的前必须先获得写者身份

写者在发现自己不需要写访问

情况下可以降级为读者

读写信号量同时拥有

读者数不受限制

也就说可以有任意多个读者同时拥有

个读写信号量

　　如果

个读写信号量当前没有被写者拥有并且也没有写者等待读者释放信号量

那么任何读者都可以成功获得该读写信号量；否则

读者必须被挂起直到写者释放该信号量

如果

个读写信号量当前没有被读者或写者拥有并且也没有写者等待该信号量

那么

个写者可以成功获得该读写信号量

否则写者将被挂起

直到没有任何访问者

因此

写者是排他性

独占性

　　读写信号量有两种实现

种是通用

不依赖于硬件架构

因此

增加新

架构不需要重新实现它

但缺点是性能低

获得和释放读写信号量

开销大；另

种是架构相关

因此性能高

获取和释放读写信号量

开销小

但增加新

架构需要重新实现

在内核配置时

可以通过选项去控制使用哪

种实现

　　读写信号量

相关API有:

DECLARE_RWSEM(name)

　　该宏声明

个读写信号量name并对其进行

化

void init_rwsem(struct rw_semaphore *sem);

　　该

对读写信号量sem进行

化

void down_read(struct rw_semaphore *sem);

　　读者

该

来得到读写信号量sem

该

会导致

者睡眠

因此只能在进程上下文使用

down_read_trylock(struct rw_semaphore *sem);

　　该

类似于down_read

只是它不会导致

者睡眠

它尽力得到读写信号量sem

如果能够立即得到

它就得到该读写信号量

并且返回1

否则表示不能立刻得到该信号量

返回0

因此

它也可以在中断上下文使用

void down_write(struct rw_semaphore *sem);

　　写者使用该

来得到读写信号量sem

它也会导致

者睡眠

因此只能在进程上下文使用

down_write_trylock(struct rw_semaphore *sem);

　　该

类似于down_write

只是它不会导致

者睡眠

该

尽力得到读写信号量

如果能够立刻获得

就获得该读写信号量并且返回1

否则表示无法立刻获得

返回0

它可以在中断上下文使用

void up_read(struct rw_semaphore *sem);

　　读者使用该

释放读写信号量sem

它和down_read或down_read_trylock配对使用

如果down_read_trylock返回0

不需要

up_read来释放读写信号量

根本就没有获得信号量

void up_write(struct rw_semaphore *sem);

　　写者

该

释放信号量sem

它和down_write或down_write_trylock配对使用

如果down_write_trylock返回0

不需要

up_write

返回0表示没有获得该读写信号量

void downgrade_write(struct rw_semaphore *sem);

　　该

用于把写者降级为读者

这有时是必要

写者是排他性

因此在写者保持读写信号量期间

任何读者或写者都将无法访问该读写信号量保护

共享资源

对于那些当前条件下不需要写访问

写者

降级为读者将

使得等待访问

读者能够立刻访问

从而增加了并发性

提高了效率

　　读写信号量适于在读多写少

情况下使用

在linux内核中对进程

内存映像描述结构

访问就使用了读写信号量进行保护

　　在Linux中

每

个进程都用

个类型为task_t或struct task_struct

结构来描述

该结构

类型为struct mm_struct

字段mm描述了进程

内存映像

特别是mm_struct结构

mmap字段维护了整个进程

内存块列表

该列表将在进程生存期间被大量地遍利或修改

　　因此mm_struct结构就有

个字段mmap_sem来对mmap

访问进行保护

mmap_sem就是

个读写信号量

在proc文件系统里有很多进程内存使用情况

接口

通过它们能够查看某

进程

内存使用情况

命令free、ps和top都是通过proc来得到内存使用信息

proc接口就使用down_read和up_read来读取进程

mmap信息

　　当进程动态地分配或释放内存时

需要修改mmap来反映分配或释放后

内存映像

因此动态内存分配或释放操作需要以写者身份获得读写信号量mmap_sem来对mmap进行更新

系统

brk和munmap就使用了down_write和up_write来保护对mmap

访问

5、自旋锁(spinlock)

　　自旋锁和互斥锁有点类似

只是自旋锁不会引起

者睡眠

如果自旋锁已经被别

执行单元保持

者就

直循环在那里看是否该自旋锁

保持者已经释放了锁

"自旋"

词就是因此而得名

　　由于自旋锁使用者

般保持锁时间非常短

因此选择自旋而不是睡眠是非常必要

自旋锁

效率远高于互斥锁

　　信号量和读写信号量适合于保持时间较长

情况

它们会导致

者睡眠

因此只能在进程上下文使用(_trylock

变种能够在中断上下文使用)

而自旋锁适合于保持时间非常短

情况

它可以在任何上下文使用

　　如果被保护

共享资源只在进程上下文访问

使用信号量保护该共享资源非常合适

如果对共巷资源

访问时间非常短

自旋锁也可以

但是如果被保护

共享资源需要在中断上下文访问(包括底半部即中断处理句柄和顶半部即软中断)

就必须使用自旋锁

　　自旋锁保持期间是抢占失效

而信号量和读写信号量保持期间是可以被抢占

自旋锁只有在内核可抢占或SMP

情况下才真正需要

在单CPU且不可抢占

内核下

自旋锁

所有操作都是空操作

　　跟互斥锁

样

个执行单元要想访问被自旋锁保护

共享资源

必须先得到锁

在访问完共享资源后

必须释放锁

如果在获取自旋锁时

没有任何执行单元保持该锁

那么将立即得到锁；如果在获取自旋锁时锁已经有保持者

那么获取锁操作将自旋在那里

直到该自旋锁

保持者释放了锁

　　无论是互斥锁

还是自旋锁

在任何时刻

最多只能有

个保持者

也就说

在任何时刻最多只能有

个执行单元获得锁

　　自旋锁

API有:

spin_lock_init(x)

　　该宏用于

化自旋锁x

自旋锁在真正使用前必须先

化

该宏用于动态

化

DEFINE_SPINLOCK(x)

　　该宏声明

个自旋锁x并

化它

该宏在2.6.11中第

次被定义

在先前

内核中并没有该宏

SPIN_LOCK_UNLOCKED

　　该宏用于静态

化

个自旋锁

DEFINE_SPINLOCK(x)等同于spinlock_t x = SPIN_LOCK_UNLOCKED spin_is_locked(x)

　　该宏用于判断自旋锁x是否已经被某执行单元保持(即被锁)

如果是

返回真

否则返回假

spin_unlock_wait(x)

　　该宏用于等待自旋锁x变得没有被任何执行单元保持

如果没有任何执行单元保持该自旋锁

该宏立即返回

否则将循环在那里

直到该自旋锁被保持者释放

spin_trylock(lock)

　　该宏尽力获得自旋锁lock

如果能立即获得锁

它获得锁并返回真

否则不能立即获得锁

立即返回假

它不会自旋等待lock被释放

spin_lock(lock)

　　该宏用于获得自旋锁lock

如果能够立即获得锁

它就马上返回

否则

它将自旋在那里

直到该自旋锁

保持者释放

这时

它获得锁并返回

总的

只有它获得锁才返回

spin_lock_irqsave(lock, flags)

　　该宏获得自旋锁

同时把标志寄存器

值保存到变量flags中并失效本地中断

spin_lock_irq(lock)

　　该宏类似于spin_lock_irqsave

只是该宏不保存标志寄存器

值

spin_lock_bh(lock)

　　该宏在得到自旋锁

同时失效本地软中断

spin_unlock(lock)

　　该宏释放自旋锁lock

它和spin_trylock或spin_lock配对使用

如果spin_trylock返回假

表明没有获得自旋锁

因此不必使用spin_unlock释放

spin_unlock_irqrestore(lock, flags)

　　该宏释放自旋锁lock

同时

也恢复标志寄存器

值为变量flags保存

值

它和spin_lock_irqsave配对使用

spin_unlock_irq(lock)

　　该宏释放自旋锁lock

同时

也使能本地中断

它和spin_lock_irq配对应用

spin_unlock_bh(lock)

　　该宏释放自旋锁lock

同时

也使能本地

软中断

它和spin_lock_bh配对使用

spin_trylock_irqsave(lock, flags)

该宏如果获得自旋锁lock

它也将保存标志寄存器

值到变量flags中

并且失效本地中断

如果没有获得锁

它什么也不做

　　因此如果能够立即获得锁

它等同于spin_lock_irqsave

如果不能获得锁

它等同于spin_trylock

如果该宏获得自旋锁lock

那需要使用spin_unlock_irqrestore来释放

spin_trylock_irq(lock)

　　该宏类似于spin_trylock_irqsave

只是该宏不保存标志寄存器

如果该宏获得自旋锁lock

需要使用spin_unlock_irq来释放

spin_trylock_bh(lock)

　　该宏如果获得了自旋锁

它也将失效本地软中断

如果得不到锁

它什么也不做

因此

如果得到了锁

它等同于spin_lock_bh

如果得不到锁

它等同于spin_trylock

如果该宏得到了自旋锁

需要使用spin_unlock_bh来释放

spin_can_lock(lock)

　　该宏用于判断自旋锁lock是否能够被锁

它实际是spin_is_locked取反

如果lock没有被锁

它返回真

否则

返回假

该宏在2.6.11中第

次被定义

在先前

内核中并没有该宏

　　获得自旋锁和释放自旋锁有好几个版本

因此让读者知道在什么样

情况下使用什么版本

获得和释放锁

宏是非常必要

　　如果被保护

共享资源只在进程上下文访问和软中断上下文访问

那么当在进程上下文访问共享资源时

可能被软中断打断

从而可能进入软中断上下文来对被保护

共享资源访问

因此对于这种情况

对共享资源

访问必须使用spin_lock_bh和spin_unlock_bh来保护

　　当然使用spin_lock_irq和spin_unlock_irq以及spin_lock_irqsave和spin_unlock_irqrestore也可以

它们失效了本地硬中断

失效硬中断隐式地也失效了软中断

但是使用spin_lock_bh和spin_unlock_bh是最恰当

它比其他两个快

　　如果被保护

共享资源只在进程上下文和tasklet或timer上下文访问

那么应该使用和上面情况相同

获得和释放锁

宏

tasklet和timer是用软中断实现

　　如果被保护

共享资源只在

个tasklet或timer上下文访问

那么不需要任何自旋锁保护

同

个tasklet或timer只能在

个CPU上运行

即使是在SMP环境下也是如此

实际上tasklet在

tasklet_schedule标记其需要被调度时已经把该tasklet绑定到当前CPU

因此同

个tasklet决不可能同时在其他CPU上运行

　　timer也是在其被使用add_timer添加到timer队列中时已经被帮定到当前CPU

所以同

个timer绝不可能运行在其他CPU上

当然同

个tasklet有两个例子同时运行在同

个CPU就更不可能了

　　如果被保护

共享资源只在两个或多个tasklet或timer上下文访问

那么对共享资源

访问仅需要用spin_lock和spin_unlock来保护

不必使用_bh版本

当tasklet或timer运行时

不可能有其他tasklet或timer在当前CPU上运行

　　如果被保护

共享资源只在

个软中断(tasklet和timer除外)上下文访问

那么这个共享资源需要用spin_lock和spin_unlock来保护

同样

软中断可以同时在区别

CPU上运行

　　如果被保护

共享资源在两个或多个软中断上下文访问

那么这个共享资源当然更需要用spin_lock和spin_unlock来保护

区别

软中断能够同时在区别

CPU上运行

　　如果被保护

共享资源在软中断(包括tasklet和timer)或进程上下文和硬中断上下文访问

那么在软中断或进程上下文访问期间

可能被硬中断打断

从而进入硬中断上下文对共享资源进行访问

因此

在进程或软中断上下文需要使用spin_lock_irq和spin_unlock_irq来保护对共享资源

访问

　　而在中断处理句柄中使用什么版本

需依情况而定

如果只有

个中断处理句柄访问该共享资源

那么在中断处理句柄中仅需要spin_lock和spin_unlock来保护对共享资源

访问就可以了

在执行中断处理句柄期间

不可能被同

CPU上

软中断或进程打断

但是如果有区别

中断处理句柄访问该共享资源

那么需要在中断处理句柄中使用spin_lock_irq和spin_unlock_irq来保护对共享资源

访问

　　在使用spin_lock_irq和spin_unlock_irq

情况下

完全可以用spin_lock_irqsave和spin_unlock_irqrestore取代

那具体应该使用哪

个也需要依情况而定

如果可以确信在对共享资源访问前中断是使能

那么使用spin_lock_irq更好

些

它比spin_lock_irqsave要快

些

但是如果你不能确定是否中断使能

那么使用spin_lock_irqsave和spin_unlock_irqrestore更好

它将恢复访问共享资源前

中断标志而不是直接使能中断

　　当然

有些情况下需要在访问共享资源时必须中断失效

而访问完后必须中断使能

这样

情形使用spin_lock_irq和spin_unlock_irq最好

　　需要特别提醒读者

spin_lock用于阻止在区别CPU上

执行单元对共享资源

同时访问以及区别进程上下文互相抢占导致

对共享资源

非同步访问

而中断失效和软中断失效却是为了阻止在同

CPU上软中断或中断对共享资源

非同步访问

　　参考资料

Kernel Locking Techniques,http://www.linuxjournal.com/article/5833

Redhat 9.0 kernel source tree

kernel.org 2.6.12 source tree

Linux 2.6内核中新

锁机制--RCU(Read-Copy Update),

http://www.ibm.com/developerworks/cn/linux/l-rcu/

Unreliable Guide To Locking.

Tags: linux内核完全注释 linux内核编译深入理解linux内核 linux内核

linux内核:Linux内核的同步机制

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注