非常规的数据库设计方法：Sharding 疯狂代码！

Sharding

Horizontal Partitioning

当你剥离了用于装扮Sharding

许多美妙

修饰的后

你会发现Sharding并不是什么新

或高深

东西

它几乎等同于我们常说

Horizontal Partitioning(水平切分)

我们可以认为他们就是同

个概念

毕竟两个术语都没有确定

严格定义

区分反而容易把我们绕晕了

Sharding是

个非常规

DB设计思路方法
那么正统

思路方法是什么？我们平常规规矩矩用

基本都是

平常我们会自觉

按照范式来设计我们

数据库

负载高点可能考虑使用相关

Replication机制来提高读写

吞吐和性能

这可能已经可以满足很多需求

但这套机制自身

缺陷还是比较显而易见

首先它

有效很依赖于读操作

比例

Master往往会成为瓶颈所在

写操作需要顺序排队来执行

过载

话Master首先扛不住

Slaves

数据同步

延迟也可能比较大

而且会大大耗费CPU

计算能力

write操作在Master上执行以后还是需要在每台slave机器上都跑

次

这时候Sharding可能会成为鸡肋了

Replication搞不定

那么为什么Sharding可以work呢？道理很简单

它可以很好

scale

我们知道每台机器无论配置多么好它都有自身

物理上限

所以当我们应用已经能触及或远远超出单台机器

某个上限

时候

我们惟有寻找别

机器

帮助或者继续升级

我们

硬件

但常见

方案还是横向Scale, 通过添加更多

机器来共同承担压力

我们还得考虑当我们

业务逻辑不断增长

我们

机器能不能通过线性增长就能满足需求？Sharding可以轻松

将计算

存储

I/O并行分发到多台机器上

这样可以充分利用多台机器各种处理能力

同时可以避免单点失败

提供系统

可用性

进行很好

隔离

如何Sharding?

这里可以借鉴MySql partition设计

思想

MySql partition可以算是物理存储层面

sharding了

在某些场景可能适合

但是自身有明显

缺点

虽然我们可以把数据库存储放到SAN等存储网络上

但是还是受到单台机器计算能力等限制

业界更多

是考虑根据自身

业务逻辑来进行手工切分

这样效果可能更好

可以进行细腻度

控制

切分尽量做到每个分片(Shards)都能够很好

独立

彼此的间交互要尽量少

使得

个请求尽量通过

个分片中就能提供服务

你可以根据

个KEY或范围来进行切分

这些key往往是

个确定

小

集合体

例如大众点评网可以考虑将它每个大

城市

数据放在

个单独

数据库里

而

些小城市可以根据某些规则放在

个数据库里

这里

思想和我在做

个Lucene索引时碰到

问题很相似

这里用Lucene实际上算是数据库文本匹配查询

个拓展模块

当时有大概 7 8百万条数据要做index,如果做在

个目录下面

查询性能和index速度都很有问题

我就考虑让每个城市

索引结果放在单独

目录下

最后我

index速度基本上可以达到每秒

千左右个文档了

也可容易地扩展成分布式

搜索

还遇到

个地图

应用

我以前也大概谈到过这次切分<<.Net架构网站WebSite遇到大表该如何办？ >>

在这个应用里我是根据数据

经纬度坐标范围

物理空间特性来进行切分

主要切分

区域是砍掉了中国地图

鸡头鸡尾几个部分后剩下

区域

对这里面

区域进行了进

步细分

像上海

北京

深圳几个地方进行更深层次

切分

这样切分以后我就可以像平常操作基本表那样来动这个大表了

切分过后大部分应用

请求也仅仅会涉及到

个表

边界条件或者其它业务需求才会并发

操作多个表

还可能有些应用你可以通过日期来切分

例如07

08年

每年

订单分拆成单独

数据库

更牛

可能用个hash

思想也很容易理解

不过选择好

hash

倒是不大容易

你要想办法把数据划分均匀了

具体可能还有很多

细节需要考虑

特别是对于某个shard过载如何进

步对他进行切分

但又不违反已有

规则等等

Sharding小结

优点:

l High Availability

l 每个Shard里面维护着常见规模行数

数据

这样容易操作

管理

备份

l 更高

读操作速度和并发量

l 提高写

throughput和性能,消除了很多潜在

write bottleneck

l 读写速度都快了

并发也大了

当然可以承担更多

用户更多

负载了

也就可以挣更多

$了

l ……

缺点:

l 反范式导致潜在数据不

致风险

l 某些shard里

数据更新可能会使得操作很麻烦

更新可能导致应当划分到新

shard中

你就需要删除原来shard中

数据

在新

shard中加上

条

还有很多

致性

问题

l 重新切分某个Shard可能会很麻烦,可能会破坏你很多

已有设计

l 缺乏统

产品

存在

定

项目风险

l Sharding会设计到跨多台机器

多个表

所以统计

分析等操作需要自己实现相应

功能

备份还原也相对比较麻烦

l ……

Tags:

非常规的数据库设计方法：Sharding

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注