展会资讯 > 往届展会演讲 > 正文

HPC在海量数据处理应用中的新机遇与挑战

2013-05-16 11:52:06 来源:企业网D1Net关注官方微博

2013年第六届CCS云计算高峰论坛暨展览于5月15日、16日在北京国家会议中心盛大召开。来自政府部门、金融、保险、电力、能源、医疗、教育、交通、物流、教育、制造等行业的近3000名企业IT、信息部门主管及专家学者参加了此次盛会,共同探讨云计算的应用现状及发展趋势,分享与交流云计算的优秀案例。60多家国内外知名厂商以云计算高峰论坛为平台展示了其最新的产品及解决方案,吸引了众多线上线下观众的关注。

今日,中石油东方地球物理公司亮相“云计算高峰论坛”,中石油东方地球物理公司数据处理中心总工程师赖能和发表精彩主题演讲,主题为“HPC在海量数据处理应用中的新机遇与挑战”。以下是现场速递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)

\

中石油东方地球物理公司数据处理中心总工程师 赖能和 

主持人:

接下来有请中石油东方地球物理公司数据处理中心总工程师赖能和为我们带来在HPC在海量数据处理应用中的新机遇与挑战。有请!

赖能和:

针对大数据我们怎么办,我们是怎么做的,跟大家分享一下。我来自中石油,中石油下属找石油,我们是找石油,不是钻石油,所以我们的任务是采集数据,处理数据、解释数据,我们国内外合作了很多国家,另外有大量的数据中心,能源有很多26000人,我的CPU是高端CPU,目前在8万个CPU,也有很多的存储。了解背景以后,我们是找石油、采集数据、处理数据和解释数据。

今天跟大家交流的是海量数据,针对海量数据我们的HPC高性能技术存在哪些问题,目前的架构存在哪些问题,我们怎么采取措施。所以我的内容分四方面,大概了解HPC在石油能源行业中的应用现状。简单回顾高性能计算机在过去十年计算机发展的特点和趋势,用三句话概括,第一个就是小鱼吃掉大鱼。第二个就是现在集群的计算机已经占到了全球80%的机型,这是过去12年的统计。第三个是在过去十几年计算机发展的步伐更快,更新的周期非常短。在过去九十年代和21世纪初期,大概是五年更新十倍,到了这两年我们达到了两年就更新了十倍,也就是从93年到现在,我们超算能力已经超过了10万倍。

一、高性能计算机在石油行业中的应用有那些现状?

第一,在全球高性能计算机3%-8%的比例,但TOP500不完全准确,很多企业没有参与,参与的是分开计算,不是单影像计算,所以一个侧面计算是10%左右还是比较稳定。国外超级的石油计算机公司能力是非常强大的,现在达到16个P的运算,法国的也达到了6000,我们大概是在1.6个P,我们国家在这方面也有很大的差距,也说明我们有很大的空间。国内三大有公司CPU核的应用现状,中石油占60%左右,说明我们和国外有差距,市场很大、空间很大。

二、油器行业高性能应用的新机遇与挑战。

大家都在讲大数据,大数据有什么用,大数据怎么生成,对我们的设备大数据有什么用?我们的大数据可以找到更多的石油,我们采集数据,采集点密了以后找地下更准更清楚,这是过去的采集方法,采集点清楚加密以后地下构造很清楚,这就跟做人脑CT一样的道理。

这样造成数据非常大,这是海上勘察,成本非常高,两公里放一炮、五公里放一炮,这样采集数据的精确性差一点,我们加密以后成本高了,更精确了。大数据是有用的,这会造成什么后果,数据快速的增长,我们计算机资源会增加多少,大家都这样说,我们现在这是一张表,我们现在的技术水平达到这张纸上,计算能力超过上千倍,往前走一步大概有20倍左右的计算量,从算法上要增长,对资料的要求程度上往前走一步也是非常难,十年能走一步就相当的不错。从左到右逐步放大增加,所以我们超大计算机当年用的都是石油上。当年的大型机、向量机,超级计算机,包括分布式网络计算机使用都是排在前几名。WEM和RTM计算量差15倍,左边的不清楚,右边的非常清楚。

国内外尤其行业的要求也是非常高,套数不多,单机的运算能力长的非常快,计算机资源的增长非常快,有多大的计算量,比如说东部资料,有4000个CPU做,做一步花60天时间。我们的海洋资料就更多了,我们有2700个平方,2700平方有多大的面积,数据量多大,数据量都是几十个T,我有8000个CPU去做,做某一步要花30天的时间。54T数据做一步做成什么样,用4000个CPU做500天左右。

海量数据存储需求增长非常快。80年代按照一的比例因素,现在增长了1万倍,80平方的采集,刚才说的是3000平方,上增长20倍,陆上增长200多倍。国外大数据大到什么时候,单个文件超过200个T,数据怎么做到机器里边,这是很大的挑战。数据怎么产生,这几年变化非常大,过去都是比较笨的方法,开一辆车使劲振动,有很多的接收点,地下反射过来,以前是一台机器振,现在不是,现在是多台机器同时振,这样数据量非常大,效率非常高。7个T的数据当天要处理完,数据增长非常快。这个数据83个T文件,156亿个记录,这么多的记录要处理看一遍不容易。数据的增长,每年的数据增长前几年是3000T左右,现在都是十几个T的增长。

对我们计算机提出新的挑战,几十个T和几百个T的数字要他转到机器里边去,按照常规做法要花十几天的时间,那可能不够,还要把它导出来,还要把它转成磁带,进行资料检查。对计算机的架构来说非常大的挑战,目前所有计算机的价格都不太适合,必须进行客户化改造,内存有多大,还有一个是内置盘,配多大,有一些无盘的,用什么样的盘,还有一个是用什么样的网络,对我们整个计算机的架构带来非常大的挑战,这两年不停的买,因为过去买了很多的计算力,大数据以后都不能用了,即使你读进去,计算机的效率怎么发挥出来。我们有100多个机会。另外一套系统,光花钱买机器,CPU的效率都很低,对我们计算的架构挑战很大。影响的因素很多,这就不详细说了。包括硬件、软件、系统、应用、网络都会影响整个计算力。还带来另外一个挑战就是能耗,每天电费将近四万块钱,一年就两千万。

三、针对海量的HPC解决方案。

第一采取最先进的架构和CPU,采用大内存、大内置盘,采用全线速高速网络,4万兆、5.6万兆,另外就是存储,过去买10个T,20个T,我们也是这么干,从去年开始这些都不行了,我们一满足至少要买1000个T的盘,而且很多盘都是很多小盘组成的,否则整个系统走了很多弯路。采用高可扩展的并行存储系统。针对不同应用,选择存储软硬件架构。

针对多核CPU,采用不同应用软件组合运行,有效提高的多核性能。计算机CPU发展到非常多的核,这个核怎么把他用起来,太多学问了,我们自己监控一下,我们大部分的核都没有用起来,我们也是通过很长时间的监控,把软件改,把不同的应用,再一个CPU上跑去,马上效率就上去。很多号称是并行,超现成,实际上都有很多问题在里头。我们把不同的组合充分发挥计算机真正的性能。

对于计算密集型的,我光靠CPU不行,协处理,现在采用这个方式,用最先进的CPU,最先进的网络,那一套机器也是好几千万。这种机器有什么好处,实际上从成本上来说没省钱,但是他加速了我们的运算,加速带来了3倍左右的速度,能耗能省20%多的电。我又有IO密集型,把GPU组到一起,这是最先进的56个G的网络。

存储,如果单单买一个东西回去谁都会,花钱就行了,但是用好真的很难,经过很多测试。系统应用和子系统网络不断的协调,通过摸索对一些大数据的系统,我们采用高性能软硬件一体化的并行存储,上千个,一千个任务上去,达到百分之六七十。

光靠企业自己,大家说中石油很有钱,但中石油是国家的,不是我们自己的,不能有钱就去买,因为要算固定投资。充分利用国家超算中心资源,我们自己有软件,装到国家超算中心,用他的计算机去做。用我的机器做可能要一个月,用天河1号16个小时就做好了,充分利用社会资源完成我们的人物。

四、对HPC新技术应用需求与展望。

有两方面需求,一个是技术上,CPU加协处理器组成的协同计算平台。是磁盘SSD技术,低功耗、并行的存储。高速网络技术,使用的基本上是4万兆或者5.6万兆,10万兆的网络也开始用。绿色环保节能新技术,基于水冷等新型节能技术,将成为关注的重点。还有云或移动计算平台,基于计算、存储、可视化资源池等基础设施整合的新的商业模式,将向用户提供服务。

一个是数据中心,目标是简化、有效、安全。简化,尽量各种电网、网络简化、有效,真正的把资源充分发挥起来,减少风险,一个是域名风险,一个是数据风险,共享、能够尽量实现自动化,能够可度量,这样才能实现云计算。因为大家用你的资源怎么算,怎么收费。有效、网络,存储的还有项目需求动态的进行扩展。

近三年我们的计算能力还是会拓展非常多,主要是讲存储和CPU这一块,到今年年底存储带来25个P,2015年40个P左右,对于一个企业来说还是可以了。我们的软件主要是以国产为主,原来全部依赖国外软件,国外对我们进行封锁,现在基本上80%用我们自己的软件。

谢谢大家! 

(责任编辑:com198 )
分享到: 0

展会早知道

输入电子邮箱,了解最新展会动态:

CIO-CRM-ERP-IM-IPV6-IP电话-IP语音-OA-UC-VPN-安全-测试-存储-电源-多媒体通信-服务器-呼叫中心-交换机-联络中心-路由器-企业通信-企业网-企业信息化-企业业务-企业应用软件-渠道商-融合通信-视频会议-视频监控-数据通信-数据中心-统一通信-网真-协作--虚拟化-移动办公-应用交付-远真-运营商-运营商政企/集客业务-增值业务-智真-IAAS-PAAS-OA-ERP-容灾备份-Virtualization-虚拟化-大数据-公有云-混合云-云安全-云平台-云应用-绿色IT-运营商政企/集客业务-物联网-移动互联网