gtxyzz

电商混合云在1号店的运维实践

gtxyzz 运维技术 2022-11-21 421浏览 0

嘉宾介绍

电商混合云在1号店的运维实践

黄哲铿

––– 1号店,技术总监

负责云计算平台、移动分销、互联网金融等领域工作

曾服务于MySteel,曾作为技术合伙人参与龙财网、UFO鞋业等创业项目

2015年出版个人专著《技术管理之巅—如何从零打造高质效互联网技术团队》

个人拥有多项技术发明和专利,在超大型电商系统设计、大型IT团队治理等领域享有盛誉。

热爱生活和摇滚乐,曾接受《芭莎男士》等时尚杂志采访。

专栏介绍

本专栏文章内容,主要节选自我的新书《技术管理之巅—如何从零打造高质效互联网技术团队》。本文是其中第一篇,希望大家喜爱。

在技术开发的整个周期中,运维平台是支撑生意发展最基本的保证。今天跟大家分享混合云在电商中的应用,如何做到成本优化和高效稳定兼顾,下面我们一起来解密1号店的电商混合云。

混合云

融合了公有云和私有云,是近年来云计算的主要模式和发展方向。我们已经知道私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源。

在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。

下面我们跟随1号店的案例,来了解电商企业是如何思考和运用混合云的:

1号店营销带来各种业务高峰

1号店的营销创意常常能够让人眼前一亮,留下深刻印象,引发互联网业界的大范围传播,如下图:

电商混合云在1号店的运维实践

  • “牛奶吉尼斯”活动,目标是冲击“当日销售牛奶盒数最多”的吉尼斯世界记录

  • “11•11属于全人类”活动,是在11月11日当天,包下了纽约时代广场的大屏幕,展示“11•11属于全人类”的文字,喊出了电商人的心声,借此调侃国内某电商巨头想垄断“双11”这个商标的荒唐行径。

如何应对突增的访问压力?

成功的营销带来的是数十倍于平日的访问压力,如何应对这些访问压力?最直接的方式是增加服务器。

然而,我们注意到一个问题,数百台的服务器如果只是为了每年几次的营销活动而准备,利用率是非常低的,对公司而言这样的成本投入是不划算的,所以我们考虑用公有云的服务器来应对营销活动的访问压力。

1号店已经建立起了颇具规模的私有云平台,在此基础上构建了混合云管理平台,混合云的接入和使用过程如图所示。

电商混合云在1号店的运维实践

1.服务器校验

首先,混合云平台对公有云提供的服务器进行校验,校验内容包括IP地址、内存、硬盘等信息是否跟清单匹配,通过校验后,混合云平台把机器配置模板和镜像传输给公有云机器。

2.服务器授权

接着,混合云平台对公有云机器进行授权,通过授权的混合云机器才能够访问私有云网络资源,否则访问会被拒绝访问。

3.公有云初始化

然后,通过之前拷贝过来的配置模板,对公有云机器进行初始化,使公有云机器从一台裸机变成符合生产环境配置要求的生产机器。

#p#

4.部署及回收公有云

最后,通过自动化发布程序,把应用部署到公有云机器上,它就可以对外提供服务了。在使用结束后,混合云平台会对混合云机器的授权进行回收、费用结算等操作。

5.混合云管理平台工作流程

下图是混合云管理平台工作流程图,私有云和公有云是通过混合云管理平台进行整合,共同为业务提供服务。

电商混合云在1号店的运维实践

实施混合云的6项注意

在实施混合云的过程中,需要注意6个方面:成熟的私有云平台、带宽和网络延迟、IO性能、API接口支持、稳定性和安全性

下面我们分别加以叙说。

1.成熟的私有云平台

首先需要强调的是,成熟的私有云平台是实现混合云的前提条件。否则还是少谈混合云的事情,否则顾此失彼,首尾难顾。这是因为:

只有企业自身已具备完善的管理流程、高度自动化的运维管理和监控预警系统,在这基础上,再将公有云的资源纳入到管理体系中,才能够很好的对这些外部资源进行高效管理。

与此同时,企业在发展的过程中,需要逐步进行运维平台的升级,一步步过渡到自动化运维、私有云的阶段,这些都是不断积累和演进的结果。

2.带宽和网络延迟

在业务逻辑复杂的电商系统中,对数据交互、交易事务的完整性要求很高,几十毫秒的数据延迟都可能导致交易失败,混合云的场景下网络延迟是不可避免的,这就必须从应用层面做出规定:

核心交易相关应用不能使用混合云,同时优化应用程序,以减少带宽。

比如,有的开发人员喜欢在一个for循环里进行程序调用,在混合云的架构中开销就太大了,所以必须把循环调用,改成批处理方式去提交作业。

一般而言,能够接受的延迟是10毫秒以内。通过拉专线或光缆,连接私有云和公有云,如果两个IDC在不同的城市,那么距离一般需要控制在200公里左右。

3.IO性能

公有云服商机器的IO性能差别是很大的,在选择供应商的时候要关注IO性能,如果把主从关系的数据库放在公有云上,那对IO的要求是非常高的,许多应用场景中,程序大量读取备库,稍有性能问题,会导致线上事故。

选择使用了SSD硬盘的公有云提供商,是个不错的选择。

4.API接口支持

良好的私有云平台应该有丰富的API接口支持,方便跟公有云对接,提升接入效率,使云服务的费用结算更精确。

比如,当完成了跟公有云的对接后,我们可以随时开通公有云的服务,而且使用了多少机器、使用了多久,都可以实时查到,真正做到像使用“自来水”一样的使用云服务。

5.稳定性

云服务发生故障的概率还是不小的,这需要流量调度机制足够灵活,一旦出现问题可以立即切换回私有云,根据业务特点能够实现秒级、分钟级的切换时效。

另外对公有云要做比较完备的监控、心跳检测等等,一旦发现服务不稳定,可以通过GSLB,把流量切回私有云。

相反的,如果私有云有问题了,也可以把一些流量切换到公有云上,这是混合云平台必须具备的能力。

6.安全性

将公有云与私有云进行整合后,公有云机器相当于进入了企业数据中心,如果公有云的机器没有做好安全管理工作的话,会对企业数据中心造成威胁。因此公有云和私有云的通讯必须做严格的审计和限制,敏感数据不保存在云端。

安全问题,我个人认为主要有两个挑战:

  • 一个是在技术层面,技术问题也许经过一段时间,随着技术的发展会得到解决;

  • 另一个是心理层面,国内企业的老板们对云的安全性都有顾虑。他们觉得“钱放在外人那里,哪有放在我家枕头下安全”,

如果今天你跟你的老板说我的用户我的数据都在公有云里,老板一下子就把你拍死了,你没有机会跟他解释,在技术是如何的有安全保障。

所以,怎么合理规划、站在公司的角度来充分考量整个方案(而不仅仅是技术方案),非常重要。

继续浏览有关 混合云 的文章
发表评论