展会资讯 > 往届展会演讲 > 正文

云时代的大数据

2012-09-14 11:18:56 来源:企业网D1Net关注官方微博

2012 第五届CCS云计算高峰论坛暨展览吸引了近3000名来自运营商、政府部门、金融、保险、电力、能源、医疗 、公安、军队、教育、制造等行业的企业IT、信息部门主管及专家学者积极参与,深度探讨政企私有云应用现状及发展趋势,分享与交流云计算的优秀案例。该盛会于9月13日、14日在上海浦东展览馆隆重举行,60多家国内外知名厂商以云计算高峰论坛为平台展示了其最新的产品及解决方案,成为众多线上线下观众的关注的焦点。

“VMmware”亮相“云计算高峰论坛”并发表精彩主题演讲,其演讲主题为“云时代的大数据”。以下是现场快递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

主持人: 谈到云计算,不能不谈到VMware. 在虚拟化市场的领导地位,使得VMware的触角几乎到达了云计算的各个领域,包括大数据。接下来,来自Vmware 的董波,将为我们带来:云时代的大数据。掌声有请!

\

VMmware高级产品经理董波

董波:大家好!欢迎大家来这里参与大会,我是VMware的董波,今天我想跟大家分享的话题,就是云时代的大数据。大数据在近些年来不断的火热起来,而云计算也是在更早的时间就开始火热,如何把云计算和大数据这两个技术能够整合起来?结合起来?让企业更快从大数据当中获利,是我们所思考的一个方向。

近些年随着互联网、移动互联网、物联网等等各种技术的发展,不断产生各种各样的新的应用。比如说存储视频的应用,比如说有移动互联网的应用等等。这些应用,对于数据的管理,都不断提出了新的要求。不再象以前那样只需要处理结构化的数据,同时也要处理非结构化的数据访问的时候也需要满足用户随时随地实时的访问要求。

新的应用对于数据管理就提出了新的挑战和要求,我们可以分为四个方面。第一个方面是大数据,刚才前面几位嘉宾都讲到了,随着现代的发展,会有越来越多的数据出现,企业要处理越来越多的数据,从这些数据里面,企业能够获得商业洞察力,能够改善自己的产品,支持更多的商业模式等等。另外一点,在处理大数据的时候,还有一个就是费用问题。如何能够在廉价的服务器上,能够使用大数据,能够让每个企业都能够从大数据中,获得它的好处,这是关于大数据方面的要求。

数据量大了以后,大家对于实时性的要求并没有降低,你再处理大量数据的同时还要满足高并发情况下的响应速度,用户不可能等很长时间来得到一个结果,就因为你说后面的数据量很大,还有你改善自己业务的时候,比如说你做推荐引擎不可能等几天的时间再给用户推荐一个结果,需要有很快的数据处理能力。

第三方面就是灵活的数据,现在对于企业来讲,除了以往的结构化数据以外,还要处理视频、图片、用户对于互联网访问的日志等等所有的数据,这些所有的数据都是多结构化这样一种描述。

第四个方面就是如果企业需要有一个云计算的环境在这儿使用所有上面对于数据的要求。云计算可以帮助用户去整合,整个IT系统的环境,提高管理的效率,降低成本,甚至还有绿色环保等等节能的好处。这里就不一一提出。

在国内现在开始有越来越多的企业开始采用云计算的技术,作为业内最为成熟的私有云的解决方案在国内有大量企业开始使用它。

从大数据的领域来看,大数据统一分析平台,其中整合了有HADOOP和一个MPP的数据库,这个MPP的数据库不仅可以处理它关系源数据库的内容还可以访问HADOOP里面的两者结合起来进行分析。我们所在的部门看到大家在使用HADOOP的时候会面临很多的问题,有很多的难度,今年六月份的时候发布了一个开源项目,这个项目是帮助企业很方便很快捷的管理HADOOP集群。关于大数据管理方面,VMware新收购了一家公司,企业可以很方便的把它的各种各样的数据上传到CETAS的平台上,然后浏览这些数据,并且产生各种各样的数据汇总和报表。快速数据方面,垂直的扩张总是有限的,就要求数据库水平的扩张,在VMware有两个产品是SQLfire和Gemfire,这个数据库可以很方便的进行横向的扩展在并发量大的时候提高它的处理能力。SQLfireGemfire结合起来就可以处理高并发下的数据处理要求。灵活方面来讲,你要保存图片和文件有OBJECT的数据库,有REDIS的KEY  VALUE的数据库还有OSS  Relational的数据库,所有的系统都是在VMware的平台上进行相应的优化,从而使他们在VMware的平台深很好的运行,并且可以运用VMware相关的技术来提高它的管理效率。管理的方面,我们有用户可以在这个产品内以自助的方式来创建部署甚至进行数据库的整个生命周期管理。现在也没有把这个产品更多的扩展,支持更多的数据库支持Fast和Flexible,数据云的基础上提高开发的效率和提高管理的效率。

刚才提到了这么多的产品,以HADOOP为例,看一看在VMware这样的云计算平台里面,用户怎么能够很方便很好的使用HADOOP这个技术。

HADOOP是一个来源于互联网企业的一个技术,我们可以看到,象雅虎、象Facebook,在国内的腾讯、淘宝这样企业已经非常熟悉这样的技术,而对于一般的企业来讲,甚至是说有不少的互联网企业来讲对于HADOOP技术还不甚了解。企业试用HADOOP这个过程中,我们通过与客户的交谈,了解到,一般可以分为几个阶段。这几个阶段,分别有两个纬度的特征来进行描述,企业使用HADOOP集成的规模,这是一个规模。另外就是HADOOP的技术与这个企业其他信息系统当中的整合程度。我们可以看到这么三个阶段,当然这三个阶段也不是泾渭分明,也是逐渐过渡的过程。在第一个阶段,企业最开始尝试使用HADOOP的阶段,这个时候一般是由企业的业务部门,他听说到HADOOP这个技术,能够帮助他们就改善业务能够有新的洞察力,于是就要求来看怎么能够使用这个技术。它是由业务部门来发起的。但实际执行的时候是由IT部门来执行,这个时候他们会选一到两个很小的案例,我们从中可以获得什么价值。很典型一个案例,从一个企业用户访问这个企业的网络应用一个典型的日志看有什么样的访问模型,他有什么样的倾向,我们应该重点在哪个方面发力等等。企业的一个需求,就是要快速的得到一个验证,在这个阶段,一般企业会投入很少的资源来做这个事情。包括资金资源和人力资源,一般在这里,他们都会在20个节点以内就满足它的要求,其实更少,我们看到基本就是几个HADOOP就可以满足它的要求。一旦第一个阶段它的应用的案例得到了验证他们很快进入到第二个阶段,第一个阶段当中已经验证过的那些案例把它固化下来,原先是简单的脚本,现在把它变成了定时执行的任务,执行起来,然后为企业的决策者提供相关的决策信息。在这个阶段我们看到的一个特点是什么?就是HADOOP集群规模的急剧扩张。为什么出现这个现象?因为企业已经了解到HADOOP可以给他们带来价值,在这个企业内部会有越来越多的人希望使用HADOOP的技术,会有越来越多的技术放这个集群中,我们可以看到从十几个节点的HADOOP集群,迅速扩展到更大的规模甚至上百的节点的情况。因为HADOOP已经成为企业运营的一部分,它是生产环境,企业就要考虑保证它这个HADOOP集群运行的延续性,会有专门的HADOOP管理员来管理HADOOP集群。到了第三个阶段,对于大部分的企业来讲还并没有发展到这个阶段。就是HADOOP的使用在这个企业内部非常普遍,而且HADOOP也已经整合到企业运作的方方面面,会与企业的各个系统整合在一起,比如说它在线运营系统,原先的RO系统,这个时候HADOOP的应用成为一个关键的应用,而且还会和非关性数据库,技术数据库并成一起来服务于企业。这个时候就像雅虎和Facebook这样的企业,他们会有甚至上千个节点的集群运行,并且支持他们每天的业务发展。

企业在使用HADOOP的时候会走过这么三个过程,每个过程中,企业所面临的问题也是不一样的,在第一个阶段,也就是说试用阶段,尝试阶段,他们主要两个需求,第一要快,他们没有办法等很长时间去采购一些硬件,也没有办法去等技术人员去需要很长的时间,因为HADOOP是开源技术相当复杂,他们希望尽快开使用。第二个是要简单,让数据可以很简单的放在HADOOP的集群里面,很简单的实现各种各样的算法,验证他们的想法。

在这个阶段,其实VMware的技术恰恰可以帮助他们做到这些,因为在VMware上面我们可以并多种工作任务,完成资源的隔离,保证我们在试用HADOOP的同时不会影响其他企业的业务。

在快速部署方面我们今年六月份在HADOOP上发布了Serengeti的项目,用户在使用Serengeti的时候成本最低,如果了解VMware的环境很快就布置上去Serengeti,一旦有了Serengeti三分钟内就会部署一个HADOOP的集群,而且HADOOP集群可以按照他的区域去横向扩展。部署出来的集群不仅仅包含了HDMS,都是一些非常有用的帮助客户快速的获得Insight。我们做Serengeti的时候,并没有仅支持一个HADOOP,我们把这个选择的自由度留给了用户。现在为止我们可以支持,Hot  Works的,用户也可以尝试阶段,选择它所喜欢的一个HADOOP发布版来决定他今后的使用。

部署完HADOOP用户真正开始使用的时候,可以安装一个很简单的小的应用在这里可以很方便的把数据从它的机器或者是其他的机器上传到HADOOP集群里面,而且还可以运行PK脚本,这些连接。也有很多第三方可以让用户包括Excel其他的BI通过这个访问HADOOP里面的数据,充分验证HADOOP可以为企业带来的价值。

第二个阶段,企业在生产环境里面使用HADOOP,这个时候,他所面临的难题是什么?这里我们认为,主要是下面三个方面。

一个是提高HADOOP的可用性,大家了解HADOOP就知道,虽然HADOOP是一个分布式系统,其实是它的Marst节点只有一个。

敏捷性的角度来说一开始是小的集群,随着业务的扩张它要扩大规模,其他的部门也想使用,这个时候就要很快的调整这个HADOOP集群,比如说扩大它的规模,比如说根据它的工作任务来对HADOOP集群进行调优。

下面一点是关于不同的集群需要有不同的服务质量,即能够满足那些已经固化的业务,然后也能满足一些随时所发起的一些实验。

这里我想注重说一下关于高可用性的问题,在传统的Vsphere使用里面提供了FT、包括HA的技术来保障用户的关键业务,我们建议用户多种存储方式来优化组合,比如说服务的数据放在Shared  Storge上。对于Slave 节点,我们建议用户放在服务器内部的本地存储上,一方面降低成本,另外提高存储的可扩展性。在这样存储的部署下,我们可以最大的降低系统的宕机时间,宕机时间包括因为维护产生的计划宕机时间,一部分是非故障产生的宕机时间。在维护的时候整个HADOOP集群都是连续运转没有停止的。HADOOP集群在运行的时候会出现各种各样的故障,包括服务器电源故障,操作系统故障,HADOOPServer的故障等等,会监视各个层级的故障,一旦发生了HA在另外一个上面起一个区机制,把Master的节点服务起来,最大限度降低系统宕机时间。用户甚至可以使用FT技术,使用了FT技术在这个里面会有一个区机在那里与实际工作的区机一起工作,一旦AKTV发生故障的话,VSphere可以转移到服务器上,保障零宕机零数据丢失的持续服务。

第三个阶段企业面临的问题,第一个是多租户,在这个时候企业多个部门都会使用HADOOP,各个部门之间其实可以认为是一个一个的租户在使用。第二个就是关于弹性可伸缩,在这里,其实我们来看,大家都在说HADOOP是一个资源密集型的一个应用,但是我们从实际的客户那里了解到,真正在HADOOP集群使用中,除了雅虎和Facebook这样的企业,HADOOP集群的利用率达到70%左右之外,其他大部分的HADOOP集群利用率只有10%几,这个利用率包含它的存储空间,包括它的CPU,包含它的内存。对于HADOOP来说大部分都是闲置的,如果能够弹性的伸缩HADOOP集群,不工作的时候消耗较少的资源,在需要大量的工作资源又弹性的扩张,使它的性能得到很大的提升,这样对企业也有很大的帮助。

第三个关于和其他的大数据资源整合。为了实现多租户和弹性可伸缩方面,我们做了这样的一个工作尝试,就是把HADOOP的计算节点和存储节点分离开来,如果大家使用HADOOP都会知道,一般HADOOP集群在部署的时候都会把数据部署在一起,这样就可以获得Data去移动计算。但是弹性伸缩的要求根本不同,对于数据来说它的特性是单向增长的,它会需要不断增大的一个容量,而且由于HADOOP本身的一个设计,一旦你减少了某些数据节点就会执行非常昂贵的均衡工作。这是在使用中制约HADOOP集群收缩的很重要的原因。但是技术不一样,如果你在万兆会使用CPU会使用集群但是不去执行的时候这些消耗一点用也没有。计算从0到最大的范围,甚至最大的资源。计算和存储分离开来就使HADOOP集群有了更大的弹性和伸缩能力。大家会问这个时候,正是因为虚拟化和云计算,使得我们分离了计算和存储仍然保持着,同一个物理服务器上部署了多个虚机。我们可以根据它的实际使用情况从而获得更多的释放资源。

在这个基础上可以走的更远,让不同的租户使用不同的伸缩状况,因为在讨论多租户的情况下很重要的问题就是如何限制各个租户之间对于资源的占用,一个租户的工作不能影响另外一个租户的工作,比如说我这里不停的循环,虽然在HADOOP里面可以限制它的数量,但是仍然把资源吃空让其他的租户不能工作,不同的租户使用不同的虚机以后,我们就可以把对于租户的资源管理转换为对虚机的管理,完全完成资源的隔离,保证各个租户之间的公平,并且保证那些高优先级的任务得到保障。

在我们做了前面的工作之后,我们可以做一件什么事情,亚马逊的EMR很多人会用它因为启动成本很低,只要有信用卡就可以试用这个HADOOP。但存在一些问题,在中国很多人没有信用卡,比如说你在上传数据的时候,需要花大量的时间和带宽把数据上传数上去,而且很多数据不能放在公有云上面,通过我们的数据可能会搭建自己的EMR系统,在需要的时候能够很快的去部署一个CLASS,根据你的计算的需求,让不同的人共享这个业务资源这是非常有吸引力的资源。

这个总结一下,现在新的技术的发展,对于数据提出了更多的要求,企业也希望在云计算的环境下,处理这些数据,我们以HADOOP为例讲了一下云计算环境当中,大家可以成功的使用HADOOP,并且很方便很简单,很快捷的云计算当中获得各种各样的条件。谢谢大家!

(责任编辑:com198 )
关键词:云时代 大数据
分享到: 0

展会早知道

输入电子邮箱,了解最新展会动态:

CIO-CRM-ERP-IM-IPV6-IP电话-IP语音-OA-UC-VPN-安全-测试-存储-电源-多媒体通信-服务器-呼叫中心-交换机-联络中心-路由器-企业通信-企业网-企业信息化-企业业务-企业应用软件-渠道商-融合通信-视频会议-视频监控-数据通信-数据中心-统一通信-网真-协作--虚拟化-移动办公-应用交付-远真-运营商-运营商政企/集客业务-增值业务-智真-IAAS-PAAS-OA-ERP-容灾备份-Virtualization-虚拟化-大数据-公有云-混合云-云安全-云平台-云应用-绿色IT-运营商政企/集客业务-物联网-移动互联网