javaee论坛

普通会员

225649

帖子

65

回复

79

积分

楼主
发表于 2019-11-14 14:07:23 | 查看: 4 | 回复: 1

整理|唐小引封图|付费下载自视觉中国出品|CSDN(ID:CSDNnews)

腾讯20年,业务发展几经变革。今天,在腾讯Techo开发者大会上,腾讯云副总裁、云架构平台部总经理谢明博士与我们分享了腾讯过往二十年在基础设施上的总体演进与创新,这是腾讯首次全面披露腾讯20年来在基础设施方面的技术积累。

在Techo大会上,谢明博士分享腾讯20年基础设施演进

譬如:

在服务器方面,腾讯为了应对业务进一步的极速爆发,研发了一套大规模上架管理系统,进而到今天,发布了针对云端场景做深度优化的自研服务器「星星海」;

在数据中心方面,按照「高速化、规模化、集约化、智能化」来不断演进;

网络层面,正在基于自研设备和SDN来构建第四代网络架构;

存储方面,腾讯云对象存储引擎YottaStore能够做到真正的按需扩容;

数据库方面,面对数据库性能、成本、扩展性等挑战,腾讯走上了自研数据库的道路,并在今天正式开源了分布式数据库TBase;

……

从2006年加入腾讯以来,谢明博士主力负责海量数据存储及接入业务相关技术的研发,在数据存储、架构方面拥有着非常丰富的经验。在大会现场,谢明博士向CSDN(ID:CSDNnews)回顾了自己在腾讯13年的生涯及对于基础设施建设的思考。

腾讯云副总裁、云架构平台部总经理谢明博士(作者摄于Techo现场)

从社交网络Qzone兴起做分布式存储,定制了国内第一款多盘存储服务器,到QQ农场带来高并发的写入,帮助早期滴滴构建基础建设,再到今天服务涵盖大中小型,谢明博士总结了腾讯在基础设施演进过程中的关键词——「为云而生」。

谢博士这样说道:「以往我们做的很多的技术都是为了海量数据,面向大客户、大业务,动辄上千万、几千亿次的访问,而今天到了云时代,是普惠的,包含中小企业」。并且,「今天所面临的挑战和过去不一样,过去是针对某一个问题单点突破,解决主要矛盾,今天各种问题错综复杂,难度要大很多」。

在这过程中,腾讯从一开始基于开源,到逐渐发现开源软件难以满足业务发展而进行自研,腾讯基础建设能力逐渐形成,当前,腾讯不仅正在探索AI、5G、IoT的融合演进,同时至关重要的是,将逐渐将自己的基础能力开放出来,让更多的开发者及企业受益。

以下为谢明博士在Techo大会的演讲精粹整理:

我想从技术、架构等维度,和大家具体分享一下,过去20年,腾讯在基础设施领域的演进和创新之路。

作为全球最大的互联网公司之一,我们的QQ活跃用户达到8亿,微信超过11亿,同时还有多款亿级App。这些海量业务的背后,离不开强大的基础设施来支撑。

一、服务器

今年5月,腾讯全网服务器总量超过了100万台,成为中国首家服务器超过百万台的互联网公司。

现在回过头来看,其实,最早的时候,腾讯跟很多创业公司一样,用的是通用服务器。

但是,作为ARPU值比较低的互联网服务,需要对服务器成本进行严格控制,因此,我们早在2007年就定制了第一款Twins服务器。

之后,为应对业务进一步的极速爆发,我们开发了一套大规模上架管理系统,这套系统有效支持一天内交付1000台以上设备的能力,帮助我们度过了业务洪峰。

但是,到了云时代,客户对服务器的性能、成本、安全性等有了更高的要求。为应对这样的变化,我们刚刚在成都发布了一款真正为云而生的自研服务器「星星海」,这款服务器最大的特点是针对云端场景做深度优化,实现行业最优单核性能和最优单核TCO,包括云服务实例综合性能提升35%以上,最大负载能效提高50%。

二、数据中心

海量的服务器离不开大规模的数据中心,一个够用、好用的数据中心,已经绝不是「在一个房间放几台服务器,拉上电线网线,旁边放两台空调」这么简单了。

腾讯数据中心整体上是按照「高速化、规模化、集约化、智能化」来不断演进。

在最新的第四代数据中心T-Block建设中,我们通过将IT、电力、空调的产品化,结合腾讯数据中心最佳模型及建设方法论,按照搭积木的方式,实现全数据中心的模块化配置及快速建设。

相比于传统大规模数据中心,现场施工周期减少80%以上。同时,由于率先在行业内采用更高效率的制冷和供配电架构,系统能源使用效率得到有效提升。PUE降低至1.1,以一个拥有30万台服务器的园区为例,一年可节省2.5亿度电。

三、网络

网络方面,今天我们已经与超过100家运营商建立了网络互连,出口带宽也超过了100Tb。

实际上,腾讯前两代网络架构,基本上都是依赖商用路由器,通过人工或者工具的方法来运营和变更。但这种方式很难满足互联网业务快速发展及永不断线的要求。

于是在第三代网络架构中,我们在商用路由器之外,实现了独立的集中式路由控制器来统一管理,进行全局流量调度。比如,7月份某运营商核心设备故障3个小时,腾讯网络3分钟切换出口恢复,类似的调度19年累计完成549次。

到了云时代,尤其是5G的商用,网络也遇到了新挑战,比如管理复杂,10万级别商业网络设备,上百种型号,每种型号设备管理接口不一致。其次是弹性能力,商业路由器无法满足IPV6亿级别路由表项需求。第三是网络质量,用户需要更精细的租户粒度调度能力。

在这个背景下,腾讯基于自研设备和SDN来构建第四代网络架构。

比如,在自研设备上,腾讯自研交换机TCS83支持单芯片100G端口,自研光网络设备OPC-4,单通道转发能力达到业界顶级600G水平。通过自研,网络设备TCO下降20%+。

四、计算

虚拟化技术的成熟,使得在超大规模数据中心和高速互联网络的基础上提供云服务成为了可能,腾讯云主机管控平台Vstation做到了每分钟交付千台虚拟机的能力,使得一个中等规模公司的计算需求可以快速得到满足。

随着云计算的进一步发展,用户对弹性能力要求越来越高,除了CPU和内存以外,将存储和网络也从计算实例解耦出来成了必然选择。现在,腾讯已经通过虚拟网络VPC和软件定义存储SDS做到了内外网IP随意漂移和云盘的灵活挂载,再结合虚拟机的热迁移技术,做到虚拟机在物理母机间的无感迁移,有效满足物理资源升级容错的需求。

五、存储

存储方面,一个标志性事件是,2006年的时候,腾讯两款国民级应用QQ空间(Qzone)及相册业务的突然爆发,让当时的运营商的机位和带宽全线告急,业务在高峰期必须采取限流措施。

为应对每天海量的图片上传需求,我们根据当时最前沿的分布式存储理念,迅速开发出腾讯分布式存储TFS,有效支持了Qzone相册每天亿级别的图片上传。

今天,机械硬盘容量从10年前的500G增长到了16TB,但每GB存储的IOPS能力却下降到了原来的3%。这时候需要一个全新的云时代分布式存储,来充分利用超大规模数据中心中的计算和存储能力。

腾讯云对象存储引擎YottaStore应运而生,并做到了真正的按需扩容,磁盘利用率达到90%以上,单集群理论上可以管理百万级节点,同时大幅降低了运维的人工投入。

六、数据库

数据库的发展也经过了几个阶段,在敏捷开发的Web时代,LAMP技术架构非常流行,以MySQL为代表的开源数据库成为首选。

随着社交业务的迅猛发展,QQ/Qzone活跃账户过亿,Qzone访问峰值达到百万/秒,对数据库的性能、成本和扩展性挑战非常大,腾讯开始走上自研数据库的道路。

首先,在架构上,采用了基于Share-Nothing的分布式计算存储分离架构,让计算、存储的无限扩展成为可能。其次,性能上,在单机上也尝试软硬结合优化,并通过采用多级存储介质,达到最佳的性价比。

到了云时代,技术栈的需要更加立体。我们通过开源托管、商业合作、自研三线齐发,提供超过20种数据库产品,以及数据备份、SQL审计、数据管理、数据迁移等服务等生态工具,让用户获取最佳的上云体验。

七、弹性

通过分析以上我所讲的六大基础技术演进,我们不难发现,云计算的发展正在发生巨大的变革,仅仅能够提供常规的云服务已经远远不够。我认为云已经步入到一个极致弹性时代。那么,极致弹性时代有哪些特征呢,我认为主要有三大层面:

首先就是性能和容量能「上天下海」,做到实例规格的足够大、足够小,既能帮助大客户扛住业务洪峰,又能让小客户不浪费一分钱;

其次,计费模式上需要“payasyougo”,真正按照使用量来计费;

最后是快速的交付能力,秒升秒降,快上快下。

总体来看,极致弹性背后对资源管理粒度、资源调度能力、资源隔离能力以及计算/存储解耦的架构都有强依赖。

八、云基础产品正在朝着极致弹性努力

事实上,腾讯云在基础设施之上,云的基础产品也在朝极致的弹性方向努力。

在计算方面,作为虚拟机、容器后的第三代通用计算平台,无服务函数计算平台能够提供更好的弹性能力,真正意义上做到资源使用率100%,相应成本要下降50%以上。

目前,腾讯无服务函数计算平台使用自研的轻量级虚拟化技术,可以将启动时间缩短至90毫秒,并且使函数冷启动率降低到万分之一以内。

存储产品,我们基于对象存储通过底层的YottaStore存储引擎,对于多数据中心容灾的业务场景,推出了可用性和可靠性更高的多AZ存储。让数据根据用户实际需求,灵活选择,从而达到成本收益最大化。

数据库方面,我们的CynosDB基于计算存储解耦架构,通过存储池化、日志即数据库、可计算存储等技术,单实例可以达到百TB级别,资源利用率可到100%。在降低成本的同时,也提供了秒级别扩展计算能力。

九、未来趋势

云计算基础设置的进化之路还在进行,云除了能够具备提供强大、高效、灵活的产品能力之外,我们认为未来云计算会结合更多的智能来提供更好的服务。

比如,在智能运营方面,数据中心可以通过智能视频和智能机器人来实现智能化管理。

智能服务方面,我们最近研发了一种基于深度强化学习的云数据库自动性能优化系统CDBTune,性能调优结果首次全面超越数据库专家。

此外还有数据的智能分层、计算的智能扩缩等,相信结合智能化的基础设施一定大有可为,这方面可以做的工作还非常多。

总结起来,用云、上云已经成为大势所趋,更有越来越多的产品直接诞生于云中。云计算基础架构,在一切背后,更在一切之前,我们期待跟所有云用户一起成长,共创未来。


普通会员

0

帖子

67

回复

77

积分
沙发
发表于 2019-11-19 09:27:52

楼主说得对

您需要登录后才可以回帖 登录 | 立即注册

触屏版| 电脑版

技术支持 历史网 V2.0 © 2016-2017