memcached:Memcached深度分析疯狂代码！

　　Memcached是danga.com(运营LiveJournal

技术团队(Team))开发

套分布式内存对象缓存Cache系统

用于在动态系统中减少数据库负载

提升性能

有关这个东西

相信很多人都用过

本文意在通过对memcached

实现及代码分析

获得对这个出色

开源软件Software更深入

了解

并可以根据我们

需要对其进行更进

步

优化

末了将通过对BSM_Memcache扩展

分析

加深对memcached

使用方式理解

　　本文

部分内容可能需要比较好

数学基础作为辅助

　　◎Memcached是什么

　　在阐述这个问题的前

我们首先要清楚它“不是什么”

很多人把它当作和SharedMemory那种形式

存储载体来使用

虽然memcached使用了同样

“Key=>Value”方式组织数据

但是它和共享内存、APC等本地缓存Cache有非常大

区别

Memcached是分布式

也就是说它不是本地

它基于网络连接(当然它也可以使用localhost)方式完成服务

本身它是

个独立于应用

或守护进程(Daemon方式)

　　Memcached 使用libevent库实现网络连接服务

理论上可以处理无限多

连接

但是它和Apache区别

它更多

时候是面向稳定

持续连接

所以它实际

并发能力是有限制

在保守情况下memcached

最大同时连接数为200

这和Linux线程能力有关系

这个数值是可以调整

有关 libevent可以参考相关文档

Memcached内存使用方式也和APC区别

APC是基于共享内存和MMAP

memcachd有自己

内存分配算法和管理方式

它和共享内存没有关系

也没有共享内存

限制

通常情况下

每个memcached进程可以管理2GB

内存空间

如果需要更多

空间

可以增加进程数

　　◎Memcached适合什么场合

　　在很多时候

memcached都被滥用了

这当然少不了对它

抱怨

我经常在论坛上看见有人发贴

类似于“如何提高效率”

回复是“用memcached”

至于如何用

用在哪里

用来干什么

句没有

memcached不是万能

它也不是适用在所有场合

　　Memcached 是“分布式”

内存对象缓存Cache系统

那么就是说

那些不需要“分布”

不需要共享

或者干脆规模小到只有

台服务器

应用

memcached不会带来任何好处

相反还会拖慢系统效率

网络连接同样需要资源

即使是UNIX本地连接也

样

在我的前

测试数据中显示

memcached本地读写速度要比直接PHP内存

慢几十倍

而APC、共享内存方式都和直接

差不多

可见

如果只是本地级缓存Cache

使用memcached是非常不划算

　　Memcached在很多时候都是作为数据库前端cache使用

它比数据库少了很多SQL解析、磁盘操作等开销

而且它是使用内存来管理数据

所以它可以提供比直接读取数据库更好

性能

在大型系统中

访问同样

数据是很频繁

memcached可以大大降低数据库压力

使系统执行效率提升

另外

memcached也经常作为服务器的间数据共享

存储媒介

例如在SSO系统中保存系统单点登陆状态

数据就可以保存在memcached中

被多个应用共享

　　需要注意

是

memcached使用内存管理数据

所以它是易失

当服务器重启

或者memcached进程中止

数据便会丢失

所以memcached不能用来持久保存数据

很多人

理解

memcached

性能非常好

好到了内存和硬盘

对比程度

其实memcached使用内存并不会得到成百上千

读写速度提高

它

实际瓶颈在于网络连接

它和使用磁盘

数据库系统相比

好处在于它本身非常“轻”

没有过多

开销和直接

读写方式

它可以轻松应付非常大

数据交换量

所以经常会出现两条千兆网络带宽都满负荷了

memcached进程本身并不占用多少CPU资源

情况

　　◎Memcached

工作方式

　　以下

部分中

读者最好能准备

份memcached

源代码

　　Memcached是传统

网络服务

如果启动

时候使用了-d参数

它会以守护进程

方式执行

创建守护进程由daemon.c完成

这个

只有

个daemon

这个

很简单(如无特殊介绍说明

代码以1.2.1为准):

　　CODE:

# <fcntl.h>
# <stdlib.h>
# <unistd.h>

daemon(nochdir, noclose)
　　 nochdir, noclose;
{
　　 fd;
　　switch (fork) {
　　 -1:
　　 　 (-1);
　　 0:
　　 　;　
　　default:
　　 　_exit(0);
　　}
　　 (sid  -1)
　　 　 (-1);
　　 (!nochdir)
　　 　(void)chdir("/");
　　 (!noclose && (fd = open("/dev/null", O_RDWR, 0)) != -1) {
　　 　(void)dup2(fd, STDIN_FILENO);
　　 　(void)dup2(fd, STDOUT_FILENO);
　　 　(void)dup2(fd, STDERR_FILENO);
　　 　 (fd > STDERR_FILENO)
　　 　 　 (void)close(fd);
　　}
　　 (0);
}

　　这个

fork 了整个进程的后

父进程就退出

接着重新定位 STDIN 、 STDOUT 、 STDERR 到空设备

daemon 就建立成功了

　　Memcached 本身

启动过程

在 memcached.c

中顺序如下:

　　1 、

tings_init

设定

化参数

　　2 、从启动命令中读取参数来设置

ting 值

　　3 、设定 LIMIT 参数

　　4 、开始网络

监听(如果非

path 存在)( 1.2 的后支持 UDP 方式)

　　5 、检查用户身份( Memcached 不允许 root 身份启动)

　　6 、如果有

path 存在

开启 UNIX 本地连接(Sock 管道)

　　7 、如果以 -d 方式启动

创建守护进程(如上

daemon

)

　　8 、

化 item 、 event 、状态信息、 hash 、连接、 slab

　　9 、如设置中 managed 生效

创建 bucket

　　10 、检查是否需要锁定内存页

　　11 、

化信号、连接、删除队列

　　12 、如果 daemon 方式

处理进程 ID

　　13 、event 开始

启动过程结束

进入循环

　　在 daemon 方式中

stderr 已经被定向到黑洞

所以不会反馈执行中

可见

信息

　　memcached.c

主循环

是 drive_machine

传入参数是指向当前

连接

结构指针

根据 state 成员

状态来决定动作

　　Memcached 使用

套自定义

协议完成数据交换

它

protocol 文档可以参考: http://code.sixapart.com/svn/memcached/trunk/server/doc/protocol.txt

　　在API中

换行符号统

为rn

　　◎Memcached

内存管理方式

　　Memcached有

个很有特色

内存管理方式

为了提高效率

它使用预申请和分组

方式管理内存空间

而并不是每次需要写入数据

时候去malloc

删除数据

时候free

个指针

Memcached使用slab->chunk

组织方式管理内存

　　1.1和1.2

slabs.c中

slab空间划分算法有

些区别

后面会分别介绍

　　Slab 可以理解为

个内存块

个slab是memcached

次申请内存

最小单位

在memcached中

个slab

大小默认为1048576字节(1MB)

所以memcached都是整MB

使用内存

每

个slab被划分为若干个chunk

每个chunk里保存

个item

每个item同时包含了item结构体、key和value(注意在memcached中

value是只有

串

)

slab按照自己

id分别组成链表

这些链表又按id挂在

个slab

上

整个结构看起来有点像 2维

slab

长度在1.1中是21

在1.2中是200

　　slab有

个

chunk大小

1.1中是1字节

1.2中是80字节

1.2中有

个factor值

默认为1.25

　　在 1.1中

chunk大小表示为

大小*2^n

n为

即:id为0

slab

每chunk大小1字节

id为1

slab

每 chunk大小2字节

id为2

slab

每chunk大小4字节……id为20

slab

每chunk大小为1MB

就是说id为20

slab里只有

个chunk:

　　CODE:

void slabs_init(size_t limit) {
　　 i;
　　 size=1;
　　mem_limit = limit;
　　for(i=0; i<=POWER_LARGEST; i, size*=2) {
　　 　slab[i].size = size;
　　 　slab[i].perslab = POWER_BLOCK / size;
　　 　slab[i].slots = 0;
　　 　slab[i].sl_curr = slab[i].sl_total = slab[i].slabs = 0;
　　 　slab[i].end_page_ptr = 0;
　　 　slab[i].end_page_free = 0;
　　 　slab[i].slab_list = 0;
　　 　slab[i].list_size = 0;
　　 　slab[i].killing = 0;
　　}
　　/* for the test suite:　faking of how much we've already malloc'd */
　　{
　　 　char *t_initial_malloc = getenv("T_MEMD_INITIAL_MALLOC");
　　 　 (t_initial_malloc) {
　　 　 　 mem_malloced = atol(getenv("T_MEMD_INITIAL_MALLOC"));
　　 　}
　　}
　　/* pre-allocate slabs by default, unless the environment variable
　　 　for testing is  to something non-zero */
　　{
　　 　char *pre_alloc = getenv("T_MEMD_SLABS_ALLOC");
　　 　 (!pre_alloc || atoi(pre_alloc)) {
　　 　 　 slabs_preallocate(limit / POWER_BLOCK);
　　 　}
　　}
}

　　在1.2中

chunk大小表示为

大小*f^n

f为factor

在memcached.c中定义

n为

同时

201个头不是全部都要

化

factor可变

化只循环到计算出

大小达到slab大小

半为止

而且它是从id1开始

即:id为1

slab

每 chunk大小80字节

id为2

slab

每chunk大小80*f

id为3

slab

每chunk大小80*f^2

化大小有

个修正值 CHUNK_ALIGN_BYTES

用来保证n-

排列(保证结果是CHUNK_ALIGN_BYTES

整倍数)

这样

在标准情况下

memcached1.2会

化到id40

这个slab中每个 chunk大小为504692

每个slab中有两个chunk

最后

slab_init

会在最后补足

个id41

它是整块

也就是这个 slab中只有

个1MB大

chunk:

　　CODE:

void slabs_init(size_t limit, double factor) {
　　 i = POWER_SMALLEST - 1;
　　unsigned  size = (item) + tings.chunk_size;
　　/* Factor of 2.0 means use the default memcached behavior */
　　 (factor  2.0 && size < 128)
　　 　size = 128;
　　mem_limit = limit;
　　mem(slab, 0, (slab));
　　while (i < POWER_LARGEST && size <= POWER_BLOCK / 2) {
　　 　/* Make sure items are always n- aligned */
　　 　 (size % CHUNK_ALIGN_BYTES)
　　 　 　 size  CHUNK_ALIGN_BYTES - (size % CHUNK_ALIGN_BYTES);
　　 　slab[i].size = size;
　　 　slab[i].perslab = POWER_BLOCK / slab[i].size;
　　 　size *= factor;
　　 　 (tings.verbose > 1) {
　　 　 　 fprf(stderr, "slab  %3d: chunk size %6d perslab %5dn",
　　 　 　 　 　 　i, slab[i].size, slab[i].perslab);
　　 　}　　 　
　　}
　　power_largest = i;
　　slab[power_largest].size = POWER_BLOCK;
　　slab[power_largest].perslab = 1;
　　/* for the test suite:　faking of how much we've already malloc'd */
　　{
　　 　char *t_initial_malloc = getenv("T_MEMD_INITIAL_MALLOC");
　　 　 (t_initial_malloc) {
　　 　 　 mem_malloced = atol(getenv("T_MEMD_INITIAL_MALLOC"));
　　 　}　　 　
　　}
#ndef DONT_PREALLOC_SLABS
　　{
　　 　char *pre_alloc = getenv("T_MEMD_SLABS_ALLOC");
　　 　 (!pre_alloc || atoi(pre_alloc)) {
　　 　 　 slabs_preallocate(limit / POWER_BLOCK);
　　 　}
　　}
#end
}

　　由上可以看出

memcached

内存分配是有冗余

当

个slab不能被它所拥有

chunk大小整除时

slab尾部剩余

空间就被丢弃了

如id40中

两个chunk占用了1009384字节

这个slab

共有1MB

那么就有39192字节被浪费了

　　Memcached 使用这种方式来分配内存

是为了可以快速

通过item长度定位出slab

有

点类似hash

item

长度是可以计算

比如

个item

长度是300字节

在1.2中就可以得到它应该保存在id7

slab中

按照上面

计算思路方法

id6

chunk大小是252字节

id7

chunk大小是316字节

id8

chunk大小是396字节

表示所有252到316字节

item都应该保存在id7中

同理

在 1.1中

也可以计算得到它出于256和512的间

应该放在chunk_size为512

id9中(32位系统)

　　Memcached

化

时候

会

化slab(前面可以看到

在

中

了slabs_init

)

它会在slabs_init

中检查

个常量 DONT_PREALLOC_SLABS

如果这个没有被定义

介绍说明使用预分配内存方式

化slab

这样在所有已经定义过

slab

中

每

个id创建

个slab

这样就表示

1.2在默认

环境中启动进程后要分配41MB

slab空间

在这个过程里

memcached

第 2个内存冗余发生了

有可能

个id根本没有被使用过

但是它也默认申请了

个slab

每个slab会用掉1MB内存

　　当

个slab用光后

又有新

item要插入这个id

那么它就会重新申请新

slab

申请新

slab时

对应id

slab链表就要增长

这个链表是成倍增长

在

grow_slab_list

中

这个链

长度从1变成2

从2变成4

从4变成8……:

　　CODE:

  grow_slab_list (unsigned  id) {
　　slab_t *p = &slab[id];
　　 (p->slabs  p->list_size) {
　　 　size_t _size =　p->list_size ? p->list_size * 2 : 16;
　　 　void *_list = realloc(p->slab_list, _size*(void*));
　　 　 (_list  0)  0;
　　 　p->list_size = _size;
　　 　p->slab_list = _list;
　　}
　　 1;
}

　　在定位item时

都是使用slabs_clsid

传入参数为item大小

返回值为

由这个过程可以看出

memcached

第 3个内存冗余发生在保存item

过程中

item总是小于或等于chunk大小

当item小于chunk大小时

就又发生了空间浪费

　　◎Memcached

NewHash算法

　　Memcached

item保存基于

个大

hash表

它

实际地址就是slab中

chunk偏移

但是它

定位是依靠对key做hash

结果

在 primary_hashtable中找到

在assoc.c和items.c中定义了所有

hash和item操作

　　Memcached使用了

个叫做NewHash

算法

它

效果很好

效率也很高

1.1和1.2

NewHash有

些区别

主要

实现方式还是

样

1.2

hash

是经过整理优化

适应性更好

些

　　NewHash

原型参考:http://burtleburtle.net/bob/hash/evahash.html

数学家总是有点奇怪

呵呵～

　　为了变换方便

定义了u4和u1两种数据类型

u4就是无符号

长整形

u1就是无符号char(0-255)

　　具体代码可以参考1.1和1.2源码包

　　注意这里

hashtable长度

1.1和1.2也是有区别

1.1中定义了HASHPOWER常量为20

hashtable表长为 hashsize(HASHPOWER)

就是4MB(hashsize是

个宏

表示1右移n位)

1.2中是变量16

即hashtable表长 65536:

　　CODE:

typedef　unsigned long　　ub4;　/* unsigned 4- quantities */
typedef　unsigned　　 　char ub1;　/* unsigned 1- quantities */
# hashsize(n) ((ub4)1<<(n))
# hashmask(n) (hashsize(n)-1)

　　在assoc_init

中

会对primary_hashtable做

化

对应

hash操作包括:assoc_find

、 assoc_expand

、assoc_move_next_bucket

、assoc_insert

、assoc_delete

对应于item

读写操作

其中assoc_find

是根据key和key长寻找对应

item地址

(注意在C中

很多时候都是同时直接传入

串和

串长度

而不是在

内部做strlen)

是item结构指针

它

数据地址在slab中

某个chunk上

　　items.c是数据项

操作

每

个完整

item包括几个部分

在item_make_header

中定义为:

　　key:键

　　nkey:键长

　　flags:用户定义

flag(其实这个flag在memcached中没有启用)

　　n

s:值长(包括换行符号rn)

　　suffix:后缀Buffer

　　nsuffix:后缀长

　　

个完整

item长度是键长＋值长＋后缀长＋item结构大小(32字节)

item操作就是根据这个长度来计算slab

　　hashtable 中

每

个桶上挂着

个双链表

item_init

时候已经

化了heads、tails、sizes 3个

为0

这 3个

大小都为常量 LARGEST_ID(默认为255

这个值需要配合factor来修改)

在每次item_assoc

时候

它会首先尝试从slab中获取

块空闲

chunk

如果没有可用

chunk

会在链表中扫描50次

以得到

个被LRU踢掉

item

将它unlink

然后将需要插入

item插入链表中

　　注意item

refcount成员

item被unlink的后只是从链表上摘掉

不是立刻就被free

只是将它放到删除队列中(item_unlink_q

)

　　item对应

些读写操作

包括remove、update、replace

当然最重要

就是alloc操作

　　item 还有

个特性就是它有过期时间

这是memcached

个很有用

特性

很多应用都是依赖于memcached

item过期

比如session存储、操作锁等

item_flush_expired

就是扫描表中

item

对过期

item执行unlink操作

当然这只是

个回收动作

实际上在get

时候还要进行时间判断:

　　CODE:

/* expires items that are more recent than the oldest_live ting. */
void item_flush_expired {
　　 i;　
　　item *iter, *next;
　　 (! tings.oldest_live)
　　 　;
　　for (i = 0; i < LARGEST_ID; i) {
　　 　/* The LRU is sorted in decreasing time order, and an item's timestamp
　　 　 * is never er than its last access time, so we _disibledevent= 0;
　　}
　　 it;
}

　　Memcached

内存管理方式是非常精巧和高效

它很大程度上减少了直接alloc系统内存

次数

降低

开销和内存碎片产生几率

虽然这种方式会造成

些冗余浪费

但是这种浪费在大型系统应用中是微不足道

　　◎Memcached

理论参数计算方式

　　影响 memcached 工作

几个参数有:

　　常量REALTIME_MAXDELTA 60*60*24*30

memcached:Memcached深度分析

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注