一、概述
随着企业数据中心建设的深化进行,企业业务数据集中密度越来越高,服务器存储数量不断增长,网络架构不断扩展,空间布局、系统布线、电力能耗压力不断增加。作为数据中心业务承载的大动脉,基础网络架构层面则直接面临着持续的严格挑战。网络基础技术的快速发展为数据中心变革提供了强大支撑动力,基础网络演进加快。
二、数据中心基础网络的挑战与驱动力
1、高密服务器、存储数据中心
数据中心的物理服务器、存储系统数量快速增长,使得数据中心规模不断扩大。企业数据集中、业务整合的过程,表现为高密应用系统的集中。同时,服务器与存储等IT设备计算处理能力遵循摩尔定律的增长,也使得数据中心的业务处理能力持续增强。
目前1Gbps~8Gbps级别的服务器、存储系统网络接口成为主流,从而使得基础网络系统的千兆接入、万兆互联成为数据中心建设的基本标准。
新一代计算设备已经开始提供万兆接口,多核服务器已具备万兆吞吐能力,多万兆网络接口的服务器、存储系统开始在企业数据中心进行部署,计算能力迅速提升的同时也让面向网络的接入带宽需求过渡到万兆环境。
计算虚拟化的技术革新,使单一高计算能力物理服务器虚拟化成多个逻辑计算单元,极大提高了系统的计算效能以及对存储访问的高速吞吐。而由于等同于将此前的多个服务器应用系统叠加在一个网络接口下,网络流量急速提升,因此对数据中心基础网络提出了相当于传统环境下数倍乃至数十倍的性能要求。
同时,在高密应用集中环境下,基础网络的可靠性要求更为苛刻。局部网络产生的故障,对数据中心提供服务能力的影响比传统环境要更为严重。传统数据中心的局部故障可能只对单一应用造成短时影响,而新的数据中心环境下,则是大量应用密集,故障影响范围扩大化。因此,对于网络变化的快速收敛、更强的故障自愈能力也成为下一代数据中心平台的重要研究课题。
2、数据中心多个独立网络
数据中心发展建设过程中,出于不同的应用连接要求,逐步出现了多个独立网络系统,如图1所示。
¨ 以太网交换网络:用于连接承载终端客户与业务服务器系统的数据访问,强调高速、可靠、安全、远端互联性、开放性,是当前标准化最普遍的基础网络形态。
¨ 服务器高速互联网络:多用于服务器高速集群互联,在大多数条件下使用以太网进行承载;但在某些特殊要求应用环境下,使用Infiniband(简称IB)网络进行集群互联。IB的特点主要是时延小,不丢包。IB的低时延在于转发机制为cut-through模式(传统以太网交换机为store-forwarding模式),可达200纳秒。同时IB通过credit机制进行端到端流控,使得网络突发大流量得到平缓,数据保持在服务器接口而避免流量丢失。
¨ 存储访问网络:用于承载服务器上层应用系统对后端存储的数据操作,存储网络主要用于传送SCSI指令,核心要求是高带宽、不丢包。目前常见的存储网络有FC交换机构建的FC-SAN和以太网交换机构建的IP-SAN。
多套网络的数据中心(图1),不仅增加了投资成本,同时由于技术差异大,需要不同的专业人员进行操作,给数据中心的运行管理带来很多不便及较高的培训成本。随着数据中心规模不断增大,庞大的异构网络也成为影响数据中心TCO的一个重要环节。
图1 数据中心异构网络
3、数据中心流量突发
数据中心基础网络高性能的特点已经为建设者不容置疑,全线速、高带宽是设备选型的核心因素。但是,随着数据中心应用的迅猛增长,网络承载的业务流也不断增长。
图2 网络流量突发性
根据网络观测(图2),以1毫秒为间隔采集到的流量峰值是平均流量的2~3倍。因此在高密应用环境下的数据中心网络中,特别是万兆互联环境下,业务流量突发异常显著,而这样的突发数据流需要网络交换系统进行缓存和排队调度。通常的网络设计虽然是千兆服务器接入、万兆网络骨干,但在网络的骨干层面基本存在一定的带宽收敛设计,如出现多个万兆端口向较少万兆端口突发数据,则存在严重的突发拥塞瓶颈。
当交换系统对流量突发的缓存调度能力有限时,必然导致在集中业务访问引起的流量突发情况下的大量丢包,引起传输层的窗口滑动、重传和流量环境进一步恶化,降低服务响应能力。
传统的交换方式最多只能进行8种流的区分和调度,业务能力有限,难以满足当前数据中心高密应用需求,特别是浪涌突发环境下,粗粒度调度能力、低容量网络缓存无法解决众多关键应用的高吞吐量突发访问业务要求。
三、数据中心基础架构的新发展
1、100G时代来临
以太网技术发展是以10倍速方式跃阶的,如图3所示。当前的千兆接入、万兆骨干已经是普遍构建的网络架构。随着成本的持续下降,万兆技术也开始从网络的核心,推进到网络边缘,推进到服务器、存储设备上。
图3 以太网的快速发展
研究下一代以太网标准的HSSG技术工作组已经结束争论,制定一个包含40Gbps和100Gbps速度的单一标准——IEEE802.3ba,并将在2010年确定。40Gbps主要面向服务器,100Gbps则面向网络汇聚和骨干。每种速度将提供一组物理接口:40Gbps将有1米交换机背板链路、10米铜缆链路和100米多模光纤链路标准;100Gbps将有10米铜缆链路、100米多模光纤链路和10千米、40公里单模光纤链路标准。
基于面向40G/100G下一代超高带宽的发展理念,H3C推出的下一代数据中心级业务调度统一交换平台S12500在架构设计上考虑了对40G/100G的兼容,当前槽位带宽单向180G,已经具备了40G接口和100G接口的支持能力,后续可以通过后端交换矩阵升级到360G槽位带宽,提供高密度40G和100G接口。在802.3ba标准发布后,能够通过技术平滑升级过渡到超高速网络环境,并保持对传统千兆、万兆的兼容性。
2、数据中心的网络浪涌容载能力与业务调度
为解决数据中心高密应用调度、流量浪涌式突发缓冲等关键的性能问题,必然在交换平台的基础架构设计上进行技术革新。
首先是在交换平台上提供硬件化的流量管理能力。大容量缓存匹配密集的硬件调度队列,将调度能力扩展到上万个队列,一旦使上层应用数据流进入相应的硬件队列,则可实现大范围(远超过8个队列)的数据中心级业务调度能力,如图4所示。
图4 大缓存与整体业务调度
另一个技术变革是改变传统交换系统的出端口缓存方式,而采用分布式ingress缓存架构。传统出端口缓存方式,整个系统的业务突发容载能力仅由出端口可分配的缓存大小决定,因此容量是固定的。流量达到一定的突发界限,即瞬时突发数据量超过了出端口缓存大小,整个系统便开始出现丢包。
分布式缓存技术则采用了区别于传统方式的架构,如图5所示。正常转发过程中,出端口是以万兆线速对外转发数据的,当出现多个万兆到一个万兆的突发流量即将超万兆拥塞时,ingress端口缓存根据credit限额开始将突发流量缓存到本地并停止超过出端口速率部分的数据发送,同时出口仍然以万兆线速发送瞬时的突发流量。当出端口解除准拥塞状态后, ingress缓存将保留的数据进行正常转发。
整个分布式缓存机制由硬件进行分布式精确调度,无需软件参与,因而工作在系统时钟级别。而每个ingress缓存大小均要求在万兆全线速条件下达到200毫秒的突发流量缓存能力,因此,在流量突发将引起瞬时拥塞时,N个端口向一个端口转发的缓存能力是N*200毫秒,与传统出端口缓存固定能力相比有本质的提升。而且,经测试观测,缓存能力的实际表现与根据端口缓存大小的理论计算是符合的。
图5 分布式缓存架构
3、数据中心级HA进入毫秒计时
高可用是数据中心基础网络的永恒话题,据有关机构调查,可用性是各行业数据中心各项业务指标排在首位的关注项。
对于当前数据中心密集应用环境,核心基础网络平台的应对故障快速恢复能力已经不是秒级指标能够满足的,快速收敛目标已经设定在毫秒级。因此,毫秒级恢复能力成为数据中心的故障恢复指标。
H3C数据中心交换平台S12500可提供的已测试部分指标数据为:
双引擎主备倒换切换时间 0丢包
单电源模块更换 0丢包
OSPF GR 0丢包
BFD for VRRP <50毫秒
路由学习能力 20000条/秒
4、数据中心统一交换架构
随着以太网技术的进一步发展,新的技术标准不断推动基础平台架构的变化与融合。
万兆交换系统的时延已经降到微妙级别,而且当前已经有技术使得以太网芯片在cut-through方式下达到200~300纳秒级别,逼近Infiniband的低时延水平。对于计算型应用而言,采用以太网互联的微秒级时延已经能够满足大量的计算需求。近几年高性能计算TOP500排名中超过50%的计算网络互联采用了千兆以太网。随着万兆、40G/100G技术的深入发展和终端万兆接口技术成熟,以太网将成为服务器互联计算承载的主流平台。
无丢包以太网技术标准族(802.3Qau、802.1Qbb、802.1Qaz、Data Center Bridging Exchange Protocol)和相关技术即将发布,并在此基础上进一步支持FCoE,使得以太交换网络能够承载FC存储数据流。
数据中心网络发展趋势是融合的统一交换架构,在一个交换平台上有效支撑业务的前端访问、服务器高速互联、存储访问。
对于H3C数据中心方案而言,统一架构的网络平台与业内技术发展是同步的,遵循图6所示的几个阶段。
图6 H3C统一交换架构发展路线
与其他解决方案提供商不同,H3C基于IP-SAN的万兆成熟解决方案的广泛应用,使得H3C数据中心统一交换架构早于FCoE实现存储的融合。
四、结束语
数据中心系统架构的发展和密集的业务需求,要求数据中心交换网络成为高性能、融合业务统一交换的基础平台。S12500作为H3C下一代数据中心核心平台,将不断熔炼新的技术与标准,提供持续的可兼容、可扩展能力,满足数据中心的发展要求。