Instagram如何扩展支撑25亿用户的基础架构？-服务器专区

Instagram如何扩展支撑25亿用户的基础架构？

作者：Neo Kim 编辑：陶然 2024-07-08 09:55 dbaplus社群

　　前言：本文概述Instagram如何扩展其基础设施，主要基于笔者研究，可能与实际实践情况有所差异。

　　从前，两位斯坦福大学毕业生决定制作一款实现位置签到功能的应用程序。然而，他们注意到，该应用中使用最频繁的功能是“照片共享”，所以他们转而创建了一款照片分享应用，并将其命名为Instagram。

　　随着更多早期用户加入，他们购买硬件来扩大规模，但扩展到一定程度后，垂直扩展的成本就会急剧增加，变得十分昂贵。　　

垂直扩展

　　然而，用户增长飞速，在不到两年时间内，该款应用已具备3000万用户，因此他们通过添加新服务器来扩大规模。　　

水平扩展

　　虽然这种方式暂时解决了可扩展性问题，但超速增长又带来了新的问题。

　　问题包括但不限于：

　　1.资源使用情况

　　配备更多硬件以便规模扩展，但是每台服务器的最大容量并未被充分使用。

　　简而言之，由于服务器吞吐量不高，资源被浪费了。

　　2.数据一致性

　　为了处理大量流量，Instagram在世界各地建立了数据中心。

　　而数据一致性影响着用户体验良好与否，随着数据中心数量增加，确保数据一致性变得越来越困难。

　　3.性能

　　Instagram的应用服务器上运行Python，这意味着由于全局解释器锁（GIL），它们拥有进程而非线程，因而存在一些性能限制。

　　Instagram基础设施

　　机智的Instagram工程师们用简单的方式解决了这些难题，它们提供的极端可扩展性方式如下：

　　1.资源使用情况

　　Python很优雅，但C语言更快，因此它们用Cython和C/C++广泛使用的稳定函数替换了它们，以此减少了CPU的使用率。

　　即使没有购买昂贵的硬件来扩大规模，也减少了完成任务所需的CPU指令。

　　这意味着代码运行良好，从而增加了每台服务器能够处理的用户数量。　　

　　共享内存 VS 私有内存

　　此外，服务器上的Python进程数量受到可用系统内存的限制。同时，每个进程都有一段私有内存和一段可以访问共享内存的权限。

　　这意味着，如果公共数据对象被移动到共享内存，则可以运行更多进程。

　　因此，如果单个副本足够的话，它们就会将数据对象从私有内存移动到共享内存。

　　同时删除未使用的代码，以减少内存中的代码量。

　　2.数据一致性

　　使用Cassandra支持Instagram用户反馈。

　　每个Cassandra节点可以部署在不同的数据中心，并通过最终一致性实现同步。

　　然而，在不同大洲运行Cassandra节点会导致延迟更加严重，实现数据一致性更加困难。　　

使用独立Cassandra集群实现更优数据放置

　　因此，他们没有为全世界运行一个Cassandra集群，而是为各大洲分别设置不同的集群。

　　这意味着欧洲的Cassandra集群将存储欧洲用户的数据。而美国的Cassandra集群将存储美国用户的数据。

　　换句话说，副本的数量并不等同于数据中心的数量。

　　然而，如果每个地区都有独立的Cassandra集群，就存在宕机的风险。　　

将单个副本保存在另一个区域以备灾

　　因此，他们在另一个区域保留了单个副本，并使用法定人数来路由请求，减少额外的延迟。

　　此外，他们还使用Akkio（译者注：由Facebook开发的数据布局服务，即data placement service）来优化数据放置，Akkio将数据分割成具有强定位性的逻辑单元。

　　将Akkio想象成一种服务，它知道何时以及如何移动数据以降低延迟。

　　他们通过全局负载平衡器路由每个用户请求。以下是他们为请求找到合适Cassandra集群的方法：　

根据用户请求查找正确的Cassandra集群

　　用户向应用程序发送请求，但应用程序不知道用户的Cassandra集群

　　应用程序将请求转发给Akkio代理

　　Akkio代理询问缓存层

　　Akkio代理会在缓存未命中时与位置数据库通信。由于数据集较小，因此会在每个区域进行复制

　　Akkio代理将用户的Cassandra集群信息返回给应用程序

　　应用程序根据响应直接访问正确的Cassandra集群

　　应用程序缓存信息以供后续请求

　　Akkio请求大约需要10毫秒，因此额外的延迟是可以忍受的。

　　此外，如果用户搬到另一大洲定居，他们还会迁移用户数据。

　　当用户跨大洲移动时，数据迁移方式如下：　　

当用户迁移到另一大洲时的数据迁移

　　Akkio代理从生成的响应中知道用户的Cassandra集群位置。

　　他们会在访问数据库中维护一个计数器，以此记录了每个用户从特定地区访问的次数。

　　每次请求时，Akkio代理都会递增访问数据库计数器，可以根据IP地址找到用户的确切位置。

　　如果计数器超过限制，Akkio会将用户数据迁移到另一个Cassandra集群。

　　此外，他们还在PostgreSQL中存储用户信息、好友关系和图片元数据。

　　然而，他们收到的读取请求却多于写入请求。　　

扩展PostgreSQL

　　因此，他们在领导者-追随者复制拓扑中运行PostgreSQL，并将写入请求路由到领导者，读取请求则被路由到同一数据中心的跟随者。

　　3.性能

　　应用层是同步的，必须等待外部服务做出响应。

　　这意味着执行的CPU指令会减少，并且服务器资源匮乏。　　

同步执行与异步执行

　　因此，他们使用Python异步IO与外部服务进行异步对话，并且，他们使用Python进程而不是线程。

　　换句话说，如果一个请求需要更长时间才能完成，服务器的容量就会被浪费。

　　因此，如果一个请求的完成时间超过12秒，他们就会终止该请求。

　　此外，他们还使用Memcache来保护PostgreSQL免受大量流量的影响，并将读取请求路由到Memcache。

　　Memcache用作键值存储，每秒可处理数百万个请求。

　　然而为了降低延迟，他们不会跨数据中心复制Memcache。　　

由另一个数据中心的缓存提供的陈旧数据

　　因此存在数据过期的风险。

　　例如，在一个数据中心收到对某张图片的评论，对于另一个数据中心查看同一图片的人来说是看不见的。　　

在更新PostgreSQL时使缓存失效

　　因此，他们不会直接将数据插入Memcache。取而代之的是由一个单独的服务来监视PostgreSQL更新，然后使Memcache失效。

　　这意味着缓存失效后的第一个请求会被路由到PostgreSQL。

　　然而，PostgreSQL存在超载的风险。

　　例如，查找热门图片获得的点赞数可能会变得很昂贵：

　　取而代之的是一个单独的服务，它负责监视PostgreSQL的更新，然后使Memcache失效。

　　这意味着缓存失效后的第一个请求会被路由到PostgreSQL。

　　然而，PostgreSQL有超载的风险。

　　例如，查找热门图片获得的点赞数可能会变得很昂贵：

　　selectcount(*)fromuser_likes_mediawheremedia_id=42；

　　因此，他们创建了非规范化表来处理昂贵的查询：

　　selectcountfrommedia_likeswheremedia_id=42；

　　这样就能以更少的资源消耗提供更快的响应。

　　但是，一次性失效所有缓存可能会给PostgreSQL带来惊群问题（译者注：Thundering herd problem，当事件发生时，大量等待该事件的进程或线程被唤醒，但只有一个进程能够处理该事件，就会发生惊群问题。当进程被唤醒时，他们将各自尝试处理该事件，但只有一个进程会获胜。所有进程都会争夺资源，可能会导致计算机死机，直到群体再次平静下来）。

　　因此，他们使用了Memcache租赁。

　　Memcache租赁工作流程

　　工作原理如下：

　　第一个请求被路由到Memcache。但这不是普通的GET操作，而是租用GET操作。

　　Memcache将请求转发给PostgreSQL，并要求客户端等待。

　　如果第一个请求尚未完成，Memcache会要求第二个请求等待。

　　Memcache提供过期数据作为第二个请求的替代选项。在大多数情况下，例如查找图片的点赞数，这就足够了。

　　对第一个请求的响应会更新Memcache。

　　待处理的和较新的请求从Memcache获取新数据。

　　结语

　　扩展应用程序需要持续努力。

　　每一种架构决策都是一种权衡。

　　而Instagram能够凭借这些技术为25亿用户提供服务，这个例子说明Python和其他成熟的技术足以处理互联网规模的流量。

关注我们