沪江教育“百日上云”战记


疫情来袭,全国在线。

2月10日是全国复工复产的第一波高峰,散布在国内与国外各个角落的教师与学员,集中涌入网上在线课堂。搁在以往,用户数暴增是好事,但在疫情期间,正常秩序被打乱,按照线下服务器采购、上架、调试等走完全流程,快的话也要十数天,何况是在大多数工厂尚未开工的时候。

但也不是所有在线教育公司都手忙脚乱,选择上云的公司很大程度上流量压力可以交由云厂商来缓解,云计算带来的弹性伸缩能力缓解了流量暴增的麻烦。

“沪江为抗击疫情,通过旗下互加计划、沪江网校等组织向湖北等地区捐赠了大量免费课程并提供直播平台支持。由于受灾地区学校连续推迟复课,捐赠课程带来的潮涌是我们始料不及的。深圳龙岗一所学校的开学第一课在我们平台上直播,差不多全国有24万学生同时在线听课。昨天我们整个平台数万个直播同时进行,单个课程可做到数十万同时在线承载量,同时在线用户是数百万量级。”

抗住了直线上扬的流量压力,沪江教育技术负责人唐小浙于11日“错峰”接受了雷锋网的采访,“我们技术团队跟运维团队春节之后就没怎么休息,全员都以在线协作方式,待命处理各种问题。”

沪江教育也没想到,年前才完成全面上云工作,年后就迎来超出预估的大考,在扩容、扩容再扩容的情况下,用户体验没有受到影响,沪江教育也检验了自己的上云成效。

每家在线教育平台都经历了类似考验,但不是每家平台都提前选择了全面上云。

沪江教育开启“百日上云”行动

成立近19年,沪江教育为何上云?

沪江教育是中国最早一批的在线教育公司,2001年5月,作为中国最早的英语语言学习BBS社区之一,沪江网的前身沪江语林网诞生,2006年,沪江正式走向商业化,成为在线教育行业的拓荒者。

和近两年来新诞生的在线教育公司不同,沪江教育不是天生生长在云上,而是经历了在线教育发展至今的全周期,最多时自有上千台服务器托管在IDC机房,数据中心的服务器使用周期大概在8年左右,越到后期运维工作越重,在服务器成本最大化之后,上云是沪江教育自然的选择。

当然,沪江教育不是单纯的成本节约型上云。我们都知道,越是传统的行业上云越是谨慎,很大程度上就是因为当原来一套稳态的系统迁移上云时,可能会发生难预知的问题,沪江教育既是走在技术前沿的互联网公司,同时又有遗留IT基础,半新半旧之间,沪江教育拥抱云计算。

“沪江教育有很长的历史,上云就像大扫除一样,肯定会碰到这样那样的一些问题。服务器不动不怎么会出事。但是从物理机线下的IDC迁到云上是动态的过程,有一些影响没有办法提前预估,增加了线上故障的几率。”唐小浙说道。

从技术负责人的角度,上云决策往往有一个触发点。2019年,沪江教育上云触发点则是一系列因素的结合,既有出于弹性扩容的考虑,也有成本节约和业务快速试错的考量,其他的诸如将非核心技术外包、少关注底层基础设施等等,都是沪江教育所能看到的上云红利。

如果非要谈一个点,可以总结为沪江教育希望把技术更多的聚焦到业务层面,从这个维度出发,技术团队再思考如何调配资源,完成技术储备与布局。

万事开头难,上云也是如此,很多企业上云疑虑不在于技术层面,而在于认知层面。在采访中,唐小浙反复提到了一个数据:IDC于2019年年中发布的《全球云计算IT基础设施市场预测报告》显示,2019年全球云上的IT基础设施占比首次超过传统数据中心。

拐点已现,2019年9月下旬,沪江教育“百日上云”行动浩浩荡荡拉开帷幕。

“百日全面上云”战记

唐小浙介绍,沪江教育一直关注着云技术和行业动态,2019年上半年已经在做相应调研,8、9月份主要做POC验证,真正全面上云分为三个阶段:

• 第一期:直播工具和课件管理工具于10月16日夜间迁移,沪江教育的CCtalk和OCS系统完成上云;

• 第二期:11月中旬,核心业务站点迁移;

• 第三期:核心数据库在12月中旬提前完成数据库迁移。

由于历史原因,沪江教育和其他教培机构上云不太一样,最早期沪江主要提供的是完全基于线上的产品和服务,技术体系相对比较适合上云。

沪江教育最后一台物理机下线

唐小浙表示,“我们在上云之前,大部分web应用已经基于容器化部署,相对比一般企业上云简单。沪江应用的也是相对互联网化的中间件,像缓存中间件Redis、消息中间件kafka、检索引擎ES,基本在阿里云上能找到相应的支持。”

与此同时,沪江教育也不是一个完全标准化上云的典型案例,上云迁移中相对比较通用的是纯web类应用,行业面临的问题都差不多,有非常多成熟的案例可以参考,难题在于有厂商特性的应用上云。“一个是我们有CCtalk平台的音视频直播技术,另外我们还有一套OCS课件系统,这两套系统在迁移时没有太多可以参考的地方。当然,最终我们还是在阿里云的帮助下,相对比较顺利的完成迁移”,唐小浙总结道。

唐小浙用“给力”来形容合作伙伴阿里云,迁移方案“给力”,技术团队也是“给力”。

雷锋网了解到,阿里云为沪江教育提供了最佳实践方案和最佳实践团队,在上云的不同阶段,比如网络选型、负载均衡选型,都会有相应的最佳实践参考,如前所述,沪江教育web类应用已经用K8S管理,但是上云时还是出现了版本不兼容问题,此时阿里云派出K8S技术团队,解决了沪江的相关问题。

在线教育行业的历史关口

以沪江教育自身作为参考样本,在2009年之前,沪江教育还是个人网站或者叫小型创业公司;2009年之后,金融危机外部环境驱动业务模式变革,沪江网校等面向用户的产品正式推出,沪江找到了一个能够快速发展的需求并将之商业化;再往后是2013年开始的移动互联网时代,CCtalk等产品主要从移动端获客,而这还不足以应对当前快速变化的内外环境。

“原来是部分上云尝试,2019年是全面上云转折”,从学习工具到优质课程平台沪江网校、实时互动在线教育平台CCtalk,沪江教育此时全面上云意义何在,转折又将走向何方?

唐小浙表示,“我们接下来将进入到云端的发展阶段,从公司层面来看也是一个新的发展阶段。”

沪江教育是一家平台型公司,业务重点就是帮助更多的线下机构、学校以及老师转到线上,具备在线教学的能力。这与网校模式有很大不同,网校模式基本上以自营为主,云端模式能够链接更多教育行业各方供需,这就是平台的发展的模式,云计算模式直接助力平台模式。

或许也正是因为如此,沪江教育选择纯公有云而非混合云模式,尽管其还保留一部分IT资源。据了解,沪江教育此前和其他云厂商探索过混合云模式,最终坚定全面走公有云路线也是为了最大化利用好云计算的优势。公有云部署模式、遍及全球的云资源、经过充分实践的技术路线等等,阿里云扮演的是沪江教育平台模式背后的最佳配角。

按照阿里云归纳总结企业上云的四个阶段,基础设施上云、大数据上云、云上中台和云上智能,全面上云的沪江教育正在和阿里云探索云计算助力核心业务的无限可能,比如在人工智能和达摩院的合作,智能语音、NLP自然语言、AI算力等等。

在线教育行业是近几年的风口,但唐小浙并不认为很多风口上的教育类公司已经找到了健康的业务模式,大家都还在探索和解决的过程之中,沪江教育全面上云也是为了更好地保障现有成熟业务以及更好地探索面向未来的平台模式。(雷锋网)

在采访最后唐小浙感慨道,“我们内部交流达成一个共识,这(疫情)不能说是我们发展的一个机会。因为疫情的代价实在是太大了,沪江教育作为教育平台型服务公司,我们能够在这样一个时间段,帮助更多的学校、机构、老师,让他们来上网,能够给学生提供稳定的在线学习服务,一起渡过比较困难的阶段,这是我们现在应该去做的事情。”