Rss订阅

首页 »PHP教程 » 又拍网架构中的分库设计 »正文

又拍网架构中的分库设计

来源: 发布时间:星期五, 2010年7月16日浏览:21次评论:0

　　又拍网是

个照片分享社区

从2005年6月至今积累了260万用户

1.1亿张照片

目前

日访问量为200多万

5年

发展历程里经历过许多起伏

也积累了

些经验

在这篇文章里

我要介绍

些我们在技术上

积累

　　又拍网和大多数Web2.0站点

样

构建于大量开源软件Software的上

包括MySQL、PHP、nginx、Python、memcached、redis、Solr、Hadoop和RabbitMQ等等

又拍网

服务器端开发语言主要是PHP和Python

其中PHP用于编写Web逻辑(通过HTTP和用户直接打交道)

而Python则主要用于开发内部服务和后台任务

在客户端则使用了大量

Javascript

这里要感谢

下MooTools这个JS框架

它使得我们很享受前端开发过程

另外

我们把图片处理过程从PHP进程里独立出来变成

个服务

这个服务基于nginx

但是是作为nginx

个模块而开放REST API

　　查看原图(大图)

　　图1:开发语言

　　由于PHP

单线程模型

我们把耗时较久

运算和I/O操作从HTTP请求周期中分离出来

交给由Python实现

任务进程来完成

以保证请求响应速度

这些任务主要包括:邮件发送、数据索引、数据聚合和好友动态推送(稍候会有介绍)等等

通常这些任务由用户触发

并且

用户

个行为可能会触发多种任务

执行

比如

用户上传了

张新

照片

我们需要更新索引

也需要向他

朋友推送

条新

动态

PHP通过消息队列(我们用

是RabbitMQ)来触发任务执行

　　查看原图(大图)

　　图2:PHP和Python

协作

　　数据库

向是网站WebSite架构中最具挑战性

瓶颈通常出现在这里

又拍网

照片数据量很大

数据库也几度出现严重

压力问题

因此

这里我主要介绍

下又拍网在分库设计这方面

些尝试

　　分库设计

　　和很多使用MySQL

2.0站点

样

又拍网

MySQL集群经历了从最初

个主库

个从库、到

个主库多个从库、然后到多个主库多个从库

个发展过程

　　查看原图(大图)

　　图3:数据库

进化过程

　　最初是由

台主库和

台从库组成

当时从库只用作备份和容灾

当主库出现故障时

从库就手动变成主库

般情况下

从库不作读写操作(同步除外)

随着压力

增加

我们加上了memcached

当时只用其缓存Cache单行数据

但是

单行数据

缓存Cache并不能很好地解决压力问题

单行数据

查询通常很快

所以我们把

些实时性要求不高

Query放到从库去执行

后面又通过添加多个从库来分流查询压力

不过随着数据量

增加

主库

写压力也越来越大

　　在参考了

些相关产品和其它网站WebSite

做法后

我们决定进行数据库拆分

也就是将数据存放到区别

数据库服务器中

般可以按两个纬度来拆分数据:

　　垂直拆分:是指按功能模块拆分

比如可以将群组相关表和照片相关表存放在区别

数据库中

这种方式多个数据库的间

表结构区别

　　水平拆分:而水平拆分是将同

个表

数据进行分块保存到区别

数据库中

这些数据库中

表结构完全相同

　　拆分方式

　　

般都会先进行垂直拆分

这种方式拆分方式实现起来比较简单

根据表名访问区别

数据库就可以了

但是垂直拆分方式并不能彻底解决所有压力问题

另外

也要看应用类型是否合适这种拆分方式

如果合适

话

也能很好

起到分散数据库压力

作用

比如对于豆瓣我觉得比较适合采用垂直拆分

豆瓣

各核心业务/模块(书籍、电影、音乐)相对独立

数据

增加速度也比较平稳

区别

是

又拍网

核心业务对象是用户上传

照片

而照片数据

增加速度随着用户量

增加越来越快

压力基本上都在照片表上

显然垂直拆分并不能从根本上解决我们

问题

所以

我们采用水平拆分

方式

　　拆分规则

　　水平拆分实现起来相对复杂

我们要先确定

个拆分规则

也就是按什么条件将数据进行切分

般2.0网站WebSite都以用户为中心

数据基本都跟随用户

比如用户

照片、朋友和评论等等

因此

个比较自然

选择是根据用户来切分

每个用户都对应

个数据库

访问某个用户

数据时

我们要先确定他/她所对应

数据库

然后连接到该数据库进行实际

数据读写

　　那么

如何样对应用户和数据库呢？我们有这些选择:

　　按算法对应

　　最简单

算法是按用户ID

奇偶性来对应

将奇数ID

用户对应到数据库A

而偶数ID

用户则对应到数据库B

这个思路方法

最大问题是

只能分成两个库

另

个算法是按用户ID所在区间对应

比如ID在0-10000的间

用户对应到数据库A

ID在10000-20000这个范围

对应到数据库B

以此类推

按算法分实现起来比较方便

也比较高效

但是不能满足后续

伸缩性要求

如果需要增加数据库节点

必需调整算法或移动很大

数据集

比较难做到在不停止服务

前提下进行扩充数据库节点

　　按索引/映射表对应

　　这种思路方法是指建立

个索引表

保存每个用户

ID和数据库ID

对应关系

每次读写用户数据时先从这个表获取对应数据库

新用户注册后

在所有可用

数据库中随机挑选

个为其建立索引

这种思路方法比较灵活

有很好

伸缩性

个缺点是增加了

次数据库访问

所以性能上没有按算法对应好

　　比较的后

我们采用

是索引表

方式

我们愿意为其灵活性损失

些性能

更何况我们还有memcached

索引数据基本不会改变

缘故

缓存Cache命中率非常高

所以能很大程度上减少了性能损失

　　查看原图(大图)

　　图4:数据访问过程

　　索引表

方式能够比较方便地添加数据库节点

在增加节点时

只要将其添加到可用数据库列表里即可

当然如果需要平衡各个节点

压力

话

还是需要进行数据

迁移

但是这个时候

迁移是少量

可以逐步进行

要迁移用户A

数据

首先要将其状态置为迁移数据中

这个状态

用户不能进行写操作

并在页面上进行提示

然后将用户A

数据全部复制到新增加

节点上后

更新映射表

然后将用户A

状态置为正常

最后将原来对应

数据库上

数据删除

这个过程通常会在临晨进行

所以

所以很少会有用户碰到迁移数据中

情况

　　当然

有些数据是不属于某个用户

比如系统消息、配置等等

我们把这些数据保存在

个全局库中

　　问题

　　分库会给你在应用

开发和部署上都带来很多麻烦

　　不能执行跨库

关联查询

　　如果我们需要查询

数据分布于区别

数据库

我们没办法通过JOIN

方式查询获得

比如要获得好友

最新照片

你不能保证所有好友

数据都在同

个数据库里

个解决办法是通过多次查询

再进行聚合

方式

我们需要尽量避免类似

需求

有些需求可以通过保存多份数据来解决

比如User-A和 User-B

数据库分别是DB-1和DB-2

当User-A评论了User-B

照片时

我们会同时在DB-1和DB-2中保存这条评论信息

我们首先在DB-2中

photo_comments表中插入

条新

记录

然后在DB-1中

user_comments表中插入

条新

记录

这两个表

结构如下图所示

这样我们可以通过查询 photo_comments表得到User-B

某张照片

所有评论

也可以通过查询user_comments表获得User-A

所有评论

另外可以考虑使用全文检索工具来解决某些需求

我们使用Solr来提供全站标签检索和照片搜索服务

　　查看原图(大图)

　　图5:评论表结构

　　不能保证数据

致/完整性

　　跨库

数据没有外键约束

也没有事务保证

比如上面

评论照片

例子

很可能出现成功插入photo_comments表

但是插入user_comments表时却出错了

个办法是在两个库上都开启事务

然后先插入 photo_comments

再插入user_comments

然后提交两个事务

这个办法也不能完全保证这个操作

原子性

　　所有查询必须提供数据库线索

　　比如要查看

张照片

仅凭

个照片ID是不够

还必须提供上传这张照片

用户

ID(也就是数据库线索)

才能找到它实际

存放位置

因此

我们必须重新设计很多URL地址

而有些老

地址我们又必须保证其仍然有效

我们把照片地址改成/photos/{username}/{photo_id} /

形式

然后对于系统升级前上传

照片ID

我们又增加

张映射表

保存photo_id和user_id

对应关系

当访问老

照片地址时

我们通过查询这张表获得用户信息, 然后再重定向到新

地址

　　自增ID

　　如果要在节点数据库上使用自增字段

那么我们就不能保证全局唯

这倒不是很严重

问题

但是当节点的间

数据发生关系时

就会使得问题变得比较麻烦

我们可以再来看看上面提到

例子

如果photo_comments表中

comment_id

自增字段

当我们在DB- 2.photo_comments表插入新

评论时

得到

个新

comment_id

假如值为101

而User-A

ID为1

那么我们还需要在DB-1.user_comments表中插入(1, 101 ...)

User-A是个很活跃

用户

他又评论了User-C

照片

而User-C

数据库是DB-3

很巧

是这条新评论

ID也是101

这种情况很用可能发生

那么我们又在DB-1.user_comments表中插入

行像这样(1, 101 ...)

数据

那么我们要如何设置user_comments表

主键呢(标识

行数据)？可以不设啊

不幸

是有

时候(框架、缓存Cache等原因)必需设置

那么可以以 user_id、 comment_id和photo_id为组合主键

但是photo_id也有可能

样(

确很巧)

看来只能再加上photo_owner_id了

但是这个结果又让我们实在有点无法接受

太复杂

组合键在写入时会带来

定

性能影响

这样

自然键看起来也很不自然

所以

我们放弃了在节点上使用自增字段

想办法让这些ID变成全局唯

为此增加了

个专门用来生成ID

数据库

这个库中

表结构都很简单

只有

个自增字段id

当我们要插入新

评论时

我们先在ID库

photo_comments表里插入

条空

记录

以获得

个唯

评论ID

当然这些逻辑都已经封装在我们

框架里了

对于开发人员是透明

为什么不用其它方案呢

比如

些支持incr操作

Key-Value数据库

我们还是比较放心把数据放在MySQL里

另外

我们会定期清理ID库

数据

以保证获取新ID

效率

　　实现

　　我们称前面提到

个数据库节点为Shard

个Shard由两个台物理服务器组成

我们称它们为Node-A和Node-B

Node-A和Node-B的间是配置成Master-Master相互复制

虽然是Master-Master

部署方式

但是同

时间我们还是只使用其中

个

原因是复制

延迟问题

当然在Web应用里

我们可以在用户会话里放置

个A或B来保证同

用户

次会话里只访问

个数据库

这样可以避免

些延迟问题

但是我们

Python任务是没有任何状态

不能保证和PHP应用读写相同

数据库

那么为什么不配置成Master-Slave呢？我们觉得只用

台太浪费了

所以我们在每台服务器上都创建多个逻辑数据库

如下图所示

在Node-A和Node-B上我们都建立了shard_001和shard_002两个逻辑数据库

Node-A上

shard_001和Node-B上

shard_001组成

个Shard

而同

时间只有

个逻辑数据库处于Active状态

这个时候如果需要访问Shard-001

数据时

我们连接

是Node-A上

shard_001

而访问Shard-002

数据则是连接Node-B上

shard_002

以这种交叉

方式将压力分散到每台物理服务器上

以Master-Master方式部署

另

个好处是

我们可以不停止服务

情况下进行表结构升级

升级前先停止复制

升级Inactive

库

然后升级应用

再将已经升级好

数据库切换成Active状态

原来

Active数据库切换成Inactive状态

然后升级它

表结构

最后恢复复制

当然这个步骤不

定适合所有升级过程

如果表结构

更改会导致数据复制失败

那么还是需要停止服务再升级

　　查看原图(大图)

　　图6:数据库布局

　　前面提到过添加服务器时

为了保证负载

平衡

我们需要迁移

部分数据到新

服务器上

为了避免短期内迁移

必要

我们在实际部署

时候

每台机器上部署了8个逻辑数据库

添加服务器后

我们只要将这些逻辑数据库迁移到新服务器就可以了

最好是每次添加

倍

服务器

然后将每台

1/2逻辑数据迁移到

台新服务器上

这样能很好

平衡负载

当然

最后到了每台上只有

个逻辑库时

迁移就无法避免了

不过那应该是比较久远

事情了

　　我们把分库逻辑都封装在我们

PHP框架里了

开发人员基本上不需要被这些繁琐

事情困扰

下面是使用我们

框架进行照片数据

读写

些例子:

<?php　
　　$Photos　=　　ShardedDBTable('Photos',　'yp_photos',　'user_id',　.gif' />(　
　　　　　　　　'photo_id'　　=>　.gif' />('type'　=>　'long',　'primary'　=>　true,　'global_auto_increment'　=>　true),　
　　　　　　　　'user_id'　　　=>　.gif' />('type'　=>　'long'),　
　　　　　　　　'title'　　　　=>　.gif' />('type'　=>　''),　
　　　　　　　　'posted_date'　=>　.gif' />('type'　=>　'date'),　
　　　　　　));　
　
　　$photo　=　$Photos->_object(.gif' />('user_id'　=>　1,　'title'　=>　'Workforme'));　
　　$photo->insert;　
　
　　//　加载ID为10001照片注意第个参数为用户ID　
　　$photo　=　$Photos->load(1,　10001);　
　
　　//　更改照片属性　
　　$photo->title　=　'Database　Sharding';　
　　$photo->update;　
　
　　//　删除照片　
　　$photo->delete;　
　
　　//　获取ID为1用户在2010-06-01的后上传照片　
　　$photos　=　$Photos->fetch(.gif' />('user_id'　=>　1,　'posted_date__gt'　=>　'2010-06-01'));　
?>

　　首先要定义

个ShardedDBTable对象

所有

API都是通过这个对象开放

第

个参数是对象类型名称

如果这个名称已经存在

那么将返回的前定义

对象

你也可以通过get_table('Photos')这个

来获取的前定义

Table对象

第 2个参数是对应

数据库表名

而第 3个参数是数据库线索字段

你会发现在后面

所有API中全部需要指定这个字段

值

第 4个参数是字段定义

其中photo_id字段

global_auto_increment属性被置为true

这就是前面所说

全局自增ID

只要指定了这个属性

框架会处理好ID

事情

　　如果我们要访问全局库中

数据

我们需要定义

个DBTable对象

<?php　
　　$Users　=　　DBTable('Users',　'yp_users',　.gif' />(　
　　　　　　　　'user_id'　=>　.gif' />('type'　=>　'long',　'primary'　=>　true,　'auto_increment'　=>　true),　
　　　　　　　　'username'　=>　.gif' />('type'　=>　''),　
　　　　　　));　
?>

　　DBTable是ShardedDBTable

父类

除了定义时参数有些区别(DBTable不需要指定数据库线索字段)

它们提供

样

API

　　缓存Cache

　　我们

框架提供了缓存Cache功能

对开发人员是透明

<?php　
　　$photo　=　$Photos->load(1,　10001);　
?>

　　比如上面

思路方法

框架先尝试以Photos-1-10001为Key在缓存Cache中查找

未找到

话再执行数据库查询并放入缓存Cache

当更改照片属性或删除照片时

框架负责从缓存Cache中删除该照片

这种单个对象

缓存Cache实现起来比较简单

稍微麻烦

是像下面这样

列表查询结果

缓存Cache

<?php　
　　$photos　=　$Photos->fetch(.gif' />('user_id'　=>　1,　'posted_date__gt'　=>　'2010-06-01'));　
?>

　　我们把这个查询分成两步

第

步先查出符合条件

照片ID

然后再根据照片ID分别查找具体

照片信息

这么做可以更好

利用缓存Cache

第

个查询

缓存CacheKey为Photos-list-{shard_key}-{md5(查询条件SQL语句)}

Value是照片ID列表(逗号间隔)

其中shard_key为user_id

值1

目前来看

列表缓存Cache也不麻烦

但是如果用户修改了某张照片

上传时间呢

这个时候缓存Cache中

数据就不

定符合条件了

所以

我们需要

个机制来保证我们不会从缓存Cache中得到过期

列表数据

我们为每张表设置了

个revision

当该表

数据发生变化时(

insert/update/delete思路方法)

我们就更新它

revision

所以我们把列表

缓存CacheKey改为Photos-list-{shard_key}-{md5(查询条件SQL语句)}-{revision}

这样我们就不会再得到过期列表了

　　revision信息也是存放在缓存Cache里

Key为Photos-revision

这样做看起来不错

但是好像列表缓存Cache

利用率不会太高

我们是以整个数据类型

revision为缓存CacheKey

后缀

显然这个revision更新

非常频繁

任何

个用户修改或上传了照片都会导致它

更新

哪怕那个用户根本不在我们要查询

Shard里

要隔离用户

动作对其他用户

影响

我们可以通过缩小revision

作用范围来达到这个目

所以revision

缓存CacheKey变成Photos-{shard_key}-revision

这样

话当ID为1

用户修改了他

照片信息时

只会更新Photos-1-revision这个Key所对应

revision

全局库没有shard_key

所以修改了全局库中

表

行数据

还是会导致整个表

缓存Cache失效

但是大部分情况下

数据都是有区域范围

比如我们

帮助论坛

主题帖子

帖子属于主题

修改了其中

个主题

个帖子

没必要使所有主题

帖子缓存Cache都失效

所以我们在DBTable上增加了

个叫isolate_key

属性

专注于互联网--专注于架构

首页 »PHP教程 » 又拍网架构中的分库设计 »正文

又拍网架构中的分库设计

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章