展会资讯 > 往届展会演讲 > 正文

高效数据中心的运维之道

2013-05-15 14:58:35 来源:企业网D1Net关注官方微博

国内面向政企市场最重要的云计算会展 - CCS云计算高峰论坛 (ccs.d1net.com),于5月15,16日在北京国家会议中心盛大举行。同期举行的还有CENCE中国企业网络通信大会暨展览(cence.d1net.com)。

作为强调实战,重视落地的政企行业的IT盛会,历届CENCE和CCS荟萃了包括中国电信、中国移动、中国联通、法国电信、AT&T、IBM、HP、Dell 、Cisco、Avaya、微软、VMware、Oracle 、华为、中兴、NetApp、Salesforce、阿尔卡特朗讯等许多主流厂商。

今日,知名厂商艾默生 亮相“云计算高峰论坛”,艾默生网络能源DCIM解决方案部总经理叶雷霖 发表精彩主题演讲,主题为“高效数据中心的运维之道”。以下是现场速递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

\

艾默生网络能源DCIM解决方案部总经理叶雷霖 

主持人:下面发言会讲数据中心能源管理方面的问题,能源被证明是数据中心成本部分最重要的一环,今天能源管理的厂商艾默生带来高效数据中心运维之道。

叶雷霖:大家下午好,刚才两位嘉宾,第一位谈到云服务,刚才华为嘉宾谈整个数据中心IT基础架构建设和新标准。下面我的话题从上到下,下面和大家分享一下整个数据中心的运维的这么一个环节。

大家知道我们今天主题是政企私有云和公有云,无论是什么云总要落在一个数据中心上,从运维支撑,公有云架构,比如大家看谷歌他们运维团队非常专业,但如果到私有云环节,可能政府企业来讲整个运维力量就显得不是那么的充分。所以大家可以看到,现在云服务以及数据中心领域有很多第三方服务外包以及运维支撑以及远程托管甚至数据中心远程监控托管,各种服务在帮助整个云更好落地,云落地除了很多技术层面,最重要的是人力层面,在基础架构,基础设施层面做好更多运维和运营工作。我的标题是高效数据中心运维之道。对于云服务很多是运维的概念,对于艾默生我们是一个运维是支撑你的运营和服务的。没有好运维没有很好运营。

在一个很好云平台中需要好的数据中心作为支撑,艾默生是提供整个数据中心基础设施的一个厂商,在这张图大家看到的数据中心所有的从供电、制冷甚至一些IT关控设备,包括ATS,艾默生都提供。这些是组成数据中心以及云服务的一个基础,当然还有一些楼宇,有安防等等。在整个的数据中心基础的概念里,大家可以看到有很多广度,有很多深度。如果是说我们要提供一个很好云服务,大家现在买最多服务是托管服务,托管服务要给你一个SOA比如托管服务里UPS保证什么样的不间断效果,比如99.9%,空调可能用空气制冷同时水制冷是服务一部分,这是最基础服务。可能这个服务连Paas服务算不上,最基层服务需要最基础的运维支撑。这个图里艾默生设备可靠性提供服务基础,这些设备之上关键如何对设备进行有效管理和运维。

我们来看一下,在整个数据中心层面,如果我们从IS这个层面看,分两层面,一个是IT基础设施层面,另外是传统的关键基础设施层面,两个层面是供给和需求关系。在IT这个基础设施层面,我在一个云服务数据中心里部署一个IT设备,我消耗是你关键基础设施的资源或者容量,这两个同样存在供给以及根据供给动态响应关系。这里资源池反应在我们传统的一个设备的一个基础设施身上。当我们在一个很迫切的需求部署一个应用,这个应用需要部署一台刀片时候,我们想到刀片部署在哪个位置合适,对我们环境计件空间有什么影响。这样的话是不是会影响数据中心整个效率等等。我们会产生一系列的问题,这些问题可能对客户而言客户不关心,买云服务客户不关心,但是这些问题解决关系到运营中心和服务效率和成本问题。这个问题同样是对我们云服务非常关键。

在这个时候很多时候我们会有一些做法,比如以前跟很多客户交流,我说你怎么去部署你的一个设施,很多时候是说我们去摸摸机架温度,用手感知,现在有很多地方用一个温感感知,再高级用一个CFD感知模拟。不管怎么样,我们在做任何部署时候会遇到问题,我们这样部署是不是安全,这样的部署是不是符合我们的设计,以及这样的部署是不是符合我们安全定义以及符合我们操作。但是如何把我们实际运营和设计的预料达到平衡?就是说我们需要在整个运维当中考虑整个的一个容量一个效益,以及可靠性之间平衡。

我今天主题是在云数据中心时代里面,我们要考虑需求和供给,资源机械化管理,资源机械化管理不但存在Paas层面,也存在我们的数据中心层面。如果我们数据中心不能提供更精细化运营,我们还去建公有云干嘛,建私有云得了。在整个云时代规模第一,我们通过更大规模实现更好服务。最近在北京、上海、广州越来越多数据中心新建,新建数据中心往往几万平十几万平,甚至出现数据中心产业园等等。规模改变所有的事情。我们现在数据中心以十百倍扩大规模,有点房地产扩展速度,运维是最大问题。因为我们运维人员,我们数据中心人员不能以成百十速度增长,这个时候我们面临着很大的人力资本问题。

我现在和很多客户聊,比如在二线城市武汉或者在成都重庆我们建灾备,在北京、上海这样的城市,人员相对来讲还算比较充分,至少大家可以相互挖,但是在成都重庆这样的城市没有大型数据中心连挖的对象没有。怎么办?可选择的人力资源和你提供的服务之间形成一个强烈的冲突,这个时候大家不知道怎么办。这个时候给他们建议是说用一个很好的工具或者是很好流程,或者是说一个很好的软件去管理,也许会带来一些额外的成本降低。

如果说刚才我们跟大家分享的是一些数据中心运维方面理念和概念。但是现在整个数据中心运维体系里我们有很多工具,根据我们之前一些调整,在一个数据中心运维平台里至少存在几十种或者上百种不同工具,这些工具在不同运维小组以及运维人员手中。比如做数据库的有数据库工具,甚至监控这些机房环境有机房环境的工具,我甚至门禁系统有工具。这些工具分散在不同人不同用户名和口令在不同数据库中,给我们运营产生很大问题。如果用这个工具管理的话其实无法提供有效云服务,甚至可靠性没有办法保证。

在这一块,同时还有一个现实问题,在很多的私有云的环境里,或者说政府企业部门里,他们很多时候在IT管理部门以及数据中心管理部门,相互之间独立的。我很多时候听到有一些部门人去抱怨说,我明明在这个地方设计了一个高热密度的一个区间,去做一些热备份冗余,IT部门的不问意见,产生热点让我们擦屁股,很多问题导致运营服务可靠性降低。

还有一些问题是没有通用标准,现在很多的提供内部云服务或者外部云服务,很多客户在你们用的最多是微软工具,大家喜欢EXCLE,我也喜欢用,我们需要一个可视化界面管理我们面临云服务和数据中心。这个是我们现在存在的问题,我们打一个简单比喻,如果数据中心提供服务是一个汽车的话,可能我们不太希望我们的汽车是这么一个界面,我们希望是这样的界面,很好的导航仪在上面,但这充分吗?如果说我们能把导航仪数据系统和油量系统关联我们可以做很多事情。如果我设定目的地,汽车油料和油量是不是告诉汽油足够,如果说我把导航数据库和我整个的汽车的整个管理系统数据库关联的话会产生很多额外服务额外价值,带来额外可靠性。我上次开到承德没有油了,这样可靠性降低的。

我们同样运营一个汽车或者一个数据中心时候,我们是需要更多把一些数据关联,最好一个数据平台上进行统一管理。我们看数据中心对象,刚才汽车可以采样,我们的油箱可能采样机械系统以及导航仪里的数据库系统,然后得到额外服务。我们看数据中心要管理对象有哪些?比如服务器,服务器的周期是3到5年,服务器是在不断更换在一个数据中心里,网络设备时间长点,5到6年。再下面是空调,制冷系统,可能10年8年。再下面是一些更大机械设备。在上面可能是我们一些虚拟架构,生命周期不断变化,可能从释放产生到最后可能几秒。

在这些对象当中,所有的对象都有自己的生命周期,整个周期运维十几年过程中,每个对象可能换好几遍。比如一个数据中心10年一个服务器至少换三遍,空调可能换一两遍,其他开关可能换好几遍。每换一遍,或者在每个对象生命中每一个轮回其实是一个运维周期。但是以前的运维在不同层面上,比如说我们可以看到在开关运维层面,我们用一套电量监测系统运维,在空调层面可能用机房的系统运维。在网络服务层面有网管系统,虚拟机有虚拟机工具。

艾默生要做的是在做的领域尽量用统一平台,当然我们不可能在网管和服务器系统,我们只是把网络设备和服务器设备当成物理资产生命周期统一管理,这是我们做的事情。

回到刚才话题,整个数据中心服务来讲的话,其实你的资产是最关键的变量,刚才图里大家看到,资产在数据中心不断变化,可能有的资产好几个轮回,属性不断变化。在资产这个概念来讲,其实是一个很大命题。因为有一个资产管理协会,有很多的标准,也有很多工具去支撑整个生命周期资产管理。对艾默生我们资产管理首先是可视化资产管理,这个管理定位于数据中心运维。如果是从这个维度方面看,可以把资产分成几个维度来讲。首先是资产位置,资产位置帮助你快速去定义故障点,因为很多时候网管系统发现服务器网络设备故障,我们进数据中心人工维修花1、2小时找到那个设备,这个时候你能满足吗?资产的位置在于我能通过一个有效建模,第一时间发生故障定位机位。

第二是资产状态。通过远程监控工具获知,包括开关状态,这是我们整个服务运行的基础。资产的连接关系,其实大家都说到这样的通知,比如东直门税务局抢修,哪个小区有影响,这是很简单资产关系,我的管调连接哪些小区,数据中心运维我们做任何变更的时候要清楚知道整个资产之间的连接关系。比如说如果我做一个油机检修,油机要不断重起,否则电池放空,这个时候要不断做油机测试,这个时候有可能影响到油机后面的电路,以及电路的服务器,一连串的配置关系。我们目的是把这些资产以及配置做一个完美记录,当出现运维和变更的时候做到很好预防。

最后是资产容量,大家知道一个资产肯定有属性,比如耗多少电,耗多少能量,以及重量。甚至是说他的二维码都是它的属性。资产容量方面,我们资产做一个部署时候,我们在消耗整个数据中心的容量资源,有供电容量,制冷容量,空间容量,甚至是人员管理的人力资源容量。在这些容量中我们又细分,细分成设计容量,保留容量,可能有的空间机架不能动,给下个月部署一个业务预留,这个容量不能用。所有运维和管理思路和理念我们都需要通过资产管理这个大平台实现。大家可以看到资产管理对我们整个的数据中心运维和数据中心可靠性是非常重要的基础性环节。而现在很多时候,大家很多时候做的时候是通过一个自己开发工具去运行。

刚才我也讲了整个资产管理是非常庞大系统工程,在之间我们可能需要一些工具或者流程来进行打通。只有我们进行每一个可以控制的,可以审计的管理行为之外,我们才能达到数据中心一个效率。很多时候我们大家讲追求数据中心高效,我们设计什么样的数据中心,其实从运维角度效率不是目的,效率只是结果。只有当我这么样一个运维,一个流程,一个工具去实施以后,效率自然有结果,比如省油,当然发动机重要,但是驾驶行为决定的。只有在每个驾驶行为合理合规定汽车才省油,并且要保养。从这个意义上来说,高效运维是手段。数据中心效率运营地我分成三个范畴,第一个范畴就是利用率,另外一个是资源利用率,我的效率利用率怎么样,如果说我们拿汽车打比方,一个汽车我开SUV,油耗10升,但开QQ7升,同样SUV5个人,QQ1个人,我效率还是比你高。对我现有资源得到更大利用率。第三个是整个流程效率。我们通过流程,不同人,不同背景的人进行有效统一管理。这是整个我今天演讲的核心的思想。

在这个基础之上,我们可以构建下一代数据中心运营管理框架,这样才是一个从上到下的很完整一个服务体系。

再回到演讲另外的一个概念DCIM,有一些客户或者各位听说过DCIM,现在国外是一个很时髦的话题,DCIM是对数据中心一个资源效率的一个综合分析利用平台。我归为一个数据中心的ERP系统,中间采用很多大数据技术。对这种云数据中心更有效管理。

IDC做一个调查,希望对DCIM有什么功能?70%多的回答四个功能,环境的动力监控,对电量和冷状态告警,对库存和资产管理,对变更进行计划。就是说大部分调查者希望统一平台对基础设施有效管理,这是IDC调查。其实我们在国内很多客户访谈中也会感觉到这样的问题,大部分客户其实已经做到第一项,就是说我已经都上了,比如门禁、空调等等大部分都上了,没有上的也会上。第二对电量和制冷状态告警,这个可能有很多差异。第三点库存和资产管理,大部分的客户是没有这个工作,或者说没有很有效做这个工作。到第四点容量管理和变更计划没有做。很多在整个IT平台上,比如通过工具进行一些容量管理和变更计划这个有的。但是如果说到数据中心层面,把容量管理和计划延伸到数据中心基础设施,大部分客户没有做。IDC调查也符合国内现实情况。

接下来跟大家介绍艾默生新平台,刚才介绍整个背景以及基于背景出发点是艾默生推出新产品的初衷,艾默生先后收购了一些数据中心管理方面公司,在这些公司收购以后,我们推出新的trellis平台,主要的点是说我们把DCIM和ITSM做整合,大家看到服务交付和服务支撑里包含很多配置、变更管理,很多没有延伸到基础设施层面,在DCIM和ITSM之间有很好管理上结合以及运营上结合,也就是基于这样的一个战略,我们去年也是跟应该是今年3月份和IBM产品线做了一个产品整合,我们整个的艾默生的一个系统会跟它的系统集成。

数据中心数据,比如一些环境数据或者一些容量数据,我们都可以通过我们的trellis推送到IBM平台,这个事情我们已经在做了。随后和其他的IBM厂商有更多集成。帮助他们从IT管理层面延伸到数据中心管理层面。

这是我们和IBM整个联合开发的路线规划图,我们在第一阶段做集成。下一个阶段还会集成。整个软件层面和IBM很好集成,在硬件方面我们有自己独特的技术,在这里我们前年时候,我们设计了一款新的通用处理网关,这个网关中其实是非常创新也是非常超前的概念。我们为什么设计这款产品?是基于刚才对整个管理思路的一个总结,可以看到数据中心生命周期图,有IT产品,有UPS产品,有基础设施产品,这些产品如果我进行统一管理,对数据进行采集,任何管理万变不离其中,是对数据管理。如果数据采集是分散的,后期怎么管理。或者后期通过第三方服务后台整合,相对来说成本很大。我们的思路有通用管理网关做各种数据采集,这个产品基于这个思路设计产生的。我没有看到市面上有和它一样的产品。

他可以采集各种信号量的数据,可以载机各种通用性数据,可以基于英特尔的DCM采集整个服务器数据。这款设备理念要做到数据模型统一数据来源统一,大家修过车知道,车里有类似通用管理网关设备,把电器、液压系统做规整,通过这些数据汇总到开车前面板。所以说在艾默生设计理念,这款产品是一个融合它自己独特管理思想的产品,是做到真正的一个IT设备跟基础设计设备一个采集数据的融合。在这个基础上我们基于这些设备大数据分析,一些数据预测,以及这些预测分析给大家带来价值,我们后续要做这些功课。

因为时间关系,我不想做太多监测。大家可以看可视化东西,如何做到可视化。可视化资产管理什么样,比如说我们在一个机房里面,整个部署机房时候可能有机房设计图为底板,可以大家自己自定义,可以导入。在底板上叠加一个地板,设计不同宽度等等,在地板上会划分租户区域,大家也知道,同样在政府里面可能是说我不同政府部门有不同区域,比如说公安系统可能有维稳的有监听的,不同区域需要不同信息安全等级,公有云也存在不同区域问题。

在区域当中我们会进行各种资产设备分析,比如IT设备资产,以及机柜资产位置呈现。甚至说在每个位每个框架每个框位上资产分析。最后通过资产的一个属性的自定义,或者是通过自带的一些属性来完成整个资产部署过程。进行资产连接关系配置,在整个资产的框里大家可以看到,我们中间是一个PDU,这是一个资产,我们可以通过这个资产连接工具进行配置。这样的话我们整个完整机房平面可以呈现在大家面前。这个平面和拓扑是我们运维工作的基础,这个平台的话,无论是IT运维人员,还是整个服务器管理人员都是很好信息共享平台,以及协作工具。

另外一个特性是整个数据的运维管理一个重要的是变更,数据中心每天不变是变更,我们做各种变更,拿变更单给不同领导签字,需要拿变更单录入某系统。这些管理以及变更工作不是可以在统一平台进行?通过这个平台我们可以有一个变更管理模块帮助大家运行。比如可以在当中去录入变更项目以及之间的时间跨度以及变更之间的关系。

可以看一下,如何去创建一个变更,并且把这个变更记录下来,交给相应运维人员实施,这样好处在于当我没有很高水平的运维人员时候,可以通过高水平运维人员记录传递给一些相对来说水平比较低的运维人员操作,对整个运维队伍成本有一个很大帮助。不用再雇这些高学历人做运维。

比如我们首先进入变更模式,建立统一部署规划,在规划当中我们把整个的一个不项目进行统一管理,同时我们可以看到整个项目的一个实施的蓝图,在整个蓝图当中我们看到如果这个项目实施了,对我整个机架和对数据资源是什么占用经过,并且这个情况可以回顾的。这个好比我们做审计时候,看到这个部门机架去年什么状况,我们可以预测,如果按照这样的项目部署,这个机架明年什么状况。这个有点类似于我们现在做的推演的软件,同样如果在我们整个项目规划变更完以后,资源什么状况,我们可以重新来看。

给大家演示是可视化变更管理过程,以及变更管理计划对整个资源状况影响。基于可视化平台进行的。另外一个可视化是我们在做的,这个可视化跟我之前讲的一样,任何上端变动对下端造成很大影响,这是DCIM的信号范畴。

另外一个新的方面是通过一些移动可视化工具,比如通过IPAD我们可以令数据中心资产快速录入,扫描,定位,进行图像识别。大家知道在数据中心做一些有的资产定位时候,二维码可能看不清楚,甚至型号看不清楚,怎么办?我们可能要去把它的图像拍一个照片,然后到网上找,这个照片比较相似可能这个型号,我也这么干过。但是通过这种IPAD应用的话有一种技术,我们可以拍它的一个资产的全面面板照片,内部进行识别,并且弹出资产信息。就是这是很智能图像识别系统,是我们DCIM一个应用组成部分。在我们DCIM套件里包含资产管理,变更管理,移动应用,供电管理以及流程管理和能耗管理等等。

在整个一个大管理平台里面,我们会帮助大家想如何去采用一些集成化,灵活化管理工具来提升大家的效率。

最后总结下整个今天的一个演讲内容,虽然比较分散,因为我讲的比较分散。总结一下四点。可用性,可管理性和效益是下一代运维系统要求。基于可用性容量管理以及资产管理,因为资产管理是容量管理前提,任何管理是基于数据管理,我们通过数据采集分析,这个是我们所有智能管理的基础。最后一点是数据模型统一和定义是我们持续管理的一个关键。我们希望所有的数据都用同一个语言说话,并且被同一个平台分析,最后用同一套系统进行运维管理,并且达到整个数据中心以及云服务运维的高效。谢谢大家。

(责任编辑:com198 )
关键词:高效 数据中心
分享到: 0

展会早知道

输入电子邮箱,了解最新展会动态:

CIO-CRM-ERP-IM-IPV6-IP电话-IP语音-OA-UC-VPN-安全-测试-存储-电源-多媒体通信-服务器-呼叫中心-交换机-联络中心-路由器-企业通信-企业网-企业信息化-企业业务-企业应用软件-渠道商-融合通信-视频会议-视频监控-数据通信-数据中心-统一通信-网真-协作--虚拟化-移动办公-应用交付-远真-运营商-运营商政企/集客业务-增值业务-智真-IAAS-PAAS-OA-ERP-容灾备份-Virtualization-虚拟化-大数据-公有云-混合云-云安全-云平台-云应用-绿色IT-运营商政企/集客业务-物联网-移动互联网