展会资讯 > 往届展会演讲 > 正文
电信业大数据及其应用

国内面向政企市场最重要的云计算会展 - CCS云计算高峰论坛 (ccs.d1net.com),于5月15,16日在北京国家会议中心盛大举行。同期举行的还有CENCE中国企业网络通信大会暨展览(cence.d1net.com)。
作为强调实战,重视落地的政企行业的IT盛会,历届CENCE和CCS荟萃了包括中国电信、中国移动、中国联通、法国电信、AT&T、IBM、HP、Dell 、Cisco、Avaya、微软、VMware、Oracle 、华为、中兴、NetApp、Salesforce、阿尔卡特朗讯等许多主流厂商。
今日,中国联通亮相“云计算高峰论坛”,中国联通研究院副院长黄文良
发表精彩主题演讲,主题为“电信业大数据及其应用 ”。以下是现场速递。(声明:本稿件来源为现场速记,可能有笔误和别字,仅供参考)
中国联通研究院副院长黄文良
主持人:
大家上午好!2013年CCS云计算高峰论坛第二天论坛现在开始,CCS重点关注政企市场的云应用案例,包括运营商、政企及各部门的新兴政企运营业务。今天我们将探讨大数据、虚拟化、云应用和云安全。
接下来进入今天的大数据和虚拟化环节,在大数据领域,联通的探索很早就开始了,在这方面也积累了丰富的经验,今天我们很高兴请到了中国联通研究院副院长黄文良先生,黄院长将和我们分享电信业大数据及其应用。大家掌声欢迎!
黄文良:
各位嘉宾大家上午好!今天由我来给大家讲讲电信业的大数据。大家知道大数据非常时髦,也非常热门,毫无疑问电信业是大数据的源泉。我来自中国联通,在中国联通研究院工作,花了两三年的时间把中国联通网络移动网络的大数据集中起来,今天跟大家分享一下我们在这过程中碰到的一些困难、挑战,尤其是给我们带来了什么样的应用。
我的内容分两部分,第一是电信业大数据的来源。整个移动通信网有很多的地方,有PS域、CS域等各个挤占。第二,电信业大数据的典型应用,有了电信大数据到底能给企业带来什么,会给大家分享电信大数据的十大应用。
讲起大数据,大家很郁闷,什么是大数据,大数据和数据有什么区别,给一个最简单的案例大家就知道了。比如说今天大家去了百盛买东西,你可能看了很多柜台,这个商品、那个商品,买了一双鞋就离开了,其实你买这双鞋的时候发生了一个交易,交易会记录下你是信用卡支付的,这个鞋什么价格、什么品牌,哪儿产的鞋,这些就是交易数据或者叫做业务数据。这些数据毫无疑问,原来的数据中心都有,银行的交易,运营商打一个电话、交一笔费用都有。但是这个交易数据一万,前面你去了哪个柜台,站了多长时间,问了什么问题,看了什么商品,这叫过程数据,这个数据以往基本上大家都不去搜集,因为这个数据量非常巨大,但毫无疑问这个过程数据蕴含着巨大信息。譬如今天除了买一双鞋以外,在体恤裳的柜台看了五六分钟,问有没有促销,是哪里产的,说不出什么可能这个信息有潜在的数据,以往都没有处理这些数据。就像运营商一样,拿到电信业来说,今天手机插了一张卡,一开机有大量的信息发送到我们基站,没有大数据止前我们对这些不感兴趣。只是打了电话收了钱把你记录下来,因为开机的时候走来走去没有收你的钱,跟我们的业务无关。所以用这个简单的例子跟大家说说,传统的数据中心跟大数据有很大的区别,大数据更聚焦过程数据,而原有的数据中心的数据一般是指交易数据、业务数据。当然这两个内容分为结构为主、或者半结构化。大数据最流行的肯定是分布式的乘除,历式的数据库。
运营商中的大数据主要来源于哪儿,在运营商有两个领域,一个OSS涉及到基站、交换机,JJS,跟信令有关。传统的叫BSS,比如说通话记录,缴费记录,语音记录、短信记录,入网有身份信息。OSS领域以过程数据为主,BSS领域一般聚焦业务数据。BSS十年以前,只要移动通信开网就提供,计不了费不提供,但OSS是大数据更关注的过程数据。
大数据一般来说分三步走,第一在通信网里边哪里采集数据,无线空壳,A壳等各种各样的网源都有数据生成。数据采了以后肯定要分析有没有错误,然后进行分类处理,处理完以后第三步最终的目的做大数据是为了应用,基于大数据能开发出什么样的应用,能给企业带来什么价值,给社会带来什么价值。
目前中国联通各个省里都有MSC/VLR交换机,BSC/RNC基站控制器,BTS指2G设备,NODEB指3G设备。省里采集信令数据,采集之后直接送到北京大数据平台。整个平台是全球第一个实现了集中,包括法国电信、西班牙电信都派来学习,这么大的数据是怎么处理的,要我们给他讲讲。
很重要的一个是上网记录,PS上网的数据,有了这个大平台以后每时每刻每个用户上了什么网站,产生了多少流量,什么时间段,在哪个位置都能实时知道,但这个知道不是侵犯大家的隐私,是为大家更好的服务。一会儿会讲到怎么为大家服务。
大数据在OSS领域主要是网络册,网络册有两个来源一个是基于信令,还有一个是包交换。大数据在中国联通起到了非常大的应用,无论是在互联网的应用上还是电子商务方面,包括整个计费系统有了大数据技术以后都上了一个新的台阶,可能原有的体系架构要重构,我们要重新设计。在市场营销方面,为了更加有精准性,在客户服务方面用户很多的投诉原来根本没法处理,现在瞬间处理。原来整个中国联通有上百万的基站,哪个基站忙、该不该空,有什么问题,都不知道,现在有了大数据实时知道,打开电脑实时看到我们会场上有多少中国联通的用户在这里,上网速度快不快,电话能不能打,一看不行马上调度应急通信车开过来,原来无法实现的事情现在都能做到。
这是已经开发和规划的的整个大数据的平台,我们用的全部是开源系统,有上网数据、信令数据,IP网络数据,在数据之上每天网上会跑很多脚本作业,并行处理脚本,利用大的数据进行各种汇总,每个用户当前用什么型号的手机,曾经从08年入了中国联通3G网,五年来一直用安桌手机或者一直用iPhone手机,用户哪里没有信号,他的历史轨迹可以调出来。包括用户的互联网爱好,可以做个性化的服务。每一个基站的实时运行情况,流量都可以知道。这是脚本跑出来中间有用的基础数据,基础数据会提供数据访问层,怎样来访问数据。在此基础上就有这些应用,一个个的应用。这只是针对我们内部的应用,我们的合作伙伴第三方很希望得到,在安全可靠的情况得到这个数据,我们有能力开放,对外部所有的公司开放我们的数据。第二我们内部会开放,一想到开放有没有隐私安全,不会。我要开放数据的时候,都是匿名化,不会有用户的任何名字、号码显示,只是有一些统计的新闻。
现在的大数据在北京,大约有300多个节点,总共有4.5个P,每天大概20T左右的数据,每天产生的从省里往北京传的记录数大概现在是600到700亿条。最原始的数据会保存半年,半年之后就删除掉。但是刚才看到的中间数据有价值会永久保存那儿,最原始的六个月就会清理掉。
每月的数据两万亿条,类似于这个概念,两万亿条中检索每一个用户的数据,一般来说在100毫秒,但是在营业员、话务员看来是一秒钟以内,实际上测试上网记录有五千条、五万条,一般一秒钟之内就可以看到。所以说大数据带来的威力,检索起来非常快。基于大数据做了很多应用探索,最典型的昨天晚上突然告诉你流量用了一百兆,原来的话无能为力,我们只能知道用了一百兆的流量,这是我们前面所说的交易数据记下来的。一百兆流量怎么去的,会不会哪天又突然产生一百兆,我是不是要投诉,有了这个平台我们可以帮你查,昨天你可能忘了关百度音乐在后台,下载10首歌曲,一首40兆。昨天iPhone你的几个应用更新了,白天没成功,晚上又自动更新了,更新30兆,我清清楚楚告诉你是什么产生流量的。所以你就知道下次要注意,客户端要关掉,应用没有更新完也要关掉。可以自豪的告诉你们,这是全球电信业首家能提供这样的清单,上网记录查询,过十分钟就可以查到,访问什么网站产生多少流量,可以明明白白的查询。当然还有更多的功能,现在网络上都在诈骗犯罪,比如说国家说有一个诈骗的团伙,只要用手机或者说上网卡,可以实时跟踪,是不是又开始诈骗了,当然这都是要国家严格安全允许,知道这个人是杀人犯,普通的用户绝对不可能跟踪你。包括其他很多的应用,上网能够实时获取用户的位置,包括手机号码、终端型号,比如用户访问新浪,新浪就能实时知道你的手机型号,你是iPad就适配iPad,你是iPhone就适配iPhone,通过能力平台已经开始逐步使用了。所有的这些里边,都不会告诉用户的隐私,不会告诉用户的手机号码。
尤其是整个3G网络,每年在3G网络投入1000个亿,就是为了要知道哪些地方用户有需求,比如说基站繁忙,用户拿着3G的手机没有3G的基站只有2G的基站,我们要去建3G的基站。这个区域没有3G的基站只有2G的基站,通过大数据看这各地方这些人拿着都是3G手机,在2G基站上也经常上网,如果这个地方建一个3G网络他们马上就能用上,上网速度就会非常好,建一个使用率就很高,不像原来建了很多基站是空闲的,现在都是能发现这个地方油需求,这个地方建一个基站,效率就会非常的好。
包括哪一个基站出故障了,十分钟之内就能检查出来,现在我们的挤占每时每刻都会有流量,如果过半小时还没有流量我们立刻可以知道这个基站出问题了,马上调度人员去检修。上网记录,可以清楚的知道几点几分钟去了什么网站,产生多少流量,包括在哪个位置,手机是什么型号,包括用户是喜欢看视频还是玩游戏,都能清清楚楚的知道。针对互联网上诈骗、刑事案件,公安通过QQ上的诈骗很多,原来只是知道诈骗人的QQ号,QQ号是虚拟的,现在只要公安部立案他一上QQ,如果用手机上,我们马上可以知道他的手机号码是多少,有了手机号码就可以知道在哪个位置,哪个基站,跟朋友通电话,马上就可以找到罪犯。可以由更好的位置服务,尤其是这个跟大家分享一下,我在杭州的一个朋友告诉我,银行要选址,有好几个地方可选一个分行的位置,问选在哪里好,我用大数据一分析,你首选这个地方,说为什么,从中国联通的用户来看,白天你这个基站到过这个位置这一代的,联通用户有5000人,你选在这个地方我联通的用户只有1000人,这个位置联通的用户5000多人再加上移动电信说明这里的人流是很多的,而选择另外的地方人流就少,人流少了之后银行肯定使用率低。包括其他的开一个超市,你喜欢开在人流多的地方,一个地方没有人去开了有什么用。这些都可以利用大数据提供决策,这里根本不会涉及隐私,也不会告诉你有那些人,只是告诉你这里人比较多。那天早上我进行跟踪,把我的行踪进行保留,这些是为了给用户自己用,比如说时光倒流,为了跟踪一下遗忘的岁月,什么时候去了成都,什么时候去了上海,带着手机就都可以知道。比如说青藏铁路,京沪高铁,某个地方3G没有覆盖,我们问到为什么没有覆盖,必须覆盖,我们通过大数据分析,每天多少万人在京沪高铁上坐,在这个没有信号的地方耽误多少人,有多少平均在上网,能产生多少效益,我们可以算的清清楚楚,这个帐一定要建好,包括青藏铁路,建了以后有多少流量,打多少电话都可以算出来,如果没有大数据这些是不可能的。
漫游欢迎词,没有大数据的时候,各个省里你们出差的时候会有漫游欢迎词发给你,说明你的用户轨迹去了一个新的城市,网络是知道的,但是发完就发完了,现在不一样,我们会全国保存起来,我们知道这个用户每年下来至少要到过几十个城市,经常在出差,比如说我们搞一些活动,携程对经常出差的用户愿意提供一个优惠卡,比如说8折订房订票,这个时候我们可以找到哪些用户,你发给我,一年难得出差一次的,订票会员卡我不感兴趣,如果这个用户经常出差,你打这样一个会员卡的信息给他,他感兴趣也很有价值。
联通的用户手机打开3G上网,访问地址就可以知道,自己当前手机号码,就像iPad,用了半年之后不知道号码多少,没有关系,只要知道访问我们的网站就可以知道,用了多少流量,还有多少流量,都可以告诉你。内容计费服务,对校园用户,如果你是我们的沃派套餐,上QQ都不要钱,现在有了大数据我们可以知道哪些流量是QQ流量免的,比如说百度音乐,哪些是百度音乐通过大数据可以知道。上网记录清清楚楚告诉你,你去了哪里,到了哪里,上行多少、下行多少,数据进行统计,给你减少100兆减100兆。
整个未来3G网络的规划、运行监测,规划更加科学精确,运行的话知道实时基站运行状态,每天每小时产生多少流量,包括有多少用户我都可以知道,不是说,原来每个地市知道,现在总部全国都能知道,还有流量经营,电话越来越便宜,像国外的电话不要钱,大部分用户靠上网,我们也希望提升用户的使用,流量经营我们希望大家多用流量可以少打电话。用户让用户多用流量的本质是什么,要知道用户的偏好,比如说知道这个用户喜欢看电影,喜欢玩游戏的,你要告诉他,这个人喜欢玩游戏,有新的游戏出来第一时间告诉他,用户就会玩这个游戏。喜欢看电影的,比如说最近有一个电影《至青春》出来了,你告诉他,他会去看。如果换另外一个人对电影重来不感兴趣,你进行推销他就不感兴趣。流量经营平台,通过偏好可以分析出你有什么爱好,一旦有内容的时候,可以通过客户端软件告诉你,刚好满足你的需要。包括精准的广告,你的偏好知道,我知道用户每天经常看移民,小孩子出国,最近有一个移民活动,澳洲或者美国,对移民网站感兴趣,如果你告诉我,我从来没想过移民,这是垃圾,如果我想移民,你告诉我,我觉得这是一个信息。终端管理服务,我可以知道这个用户05年用的是诺基亚,10年用的是iPhone3,去年用的是iPhone5,他这几年一直用iPhone的手机,如果iPhone5S出来我给他发送一条信息他会有用,如果再发送一个诺基亚他可能就不会再感兴趣。用户精准匹配比纯互联网的提升100倍,原来Google做精准广告,成功率只有千分之一或者千分之几,我们好的话能比他们高20%,所有这些都源于大数据的威力。尤其我们也通过最近互联网的属性,用户传统的都是短信、邮件、电话找到你,包括家里地址,现在网络IP,微博、QQ、微信都可以接触到你。而且用户通过中国联通换了移动的手机,我就再也找不到你们,如果知道他的QQ号,知道他的微信号,通过公众微信联系到你,这就多了一个微信接触点,基于微信的帐单,微信的客服。原来交易一笔要付五分钱,现在五分钱不用付了,直接在微信上下载一条,几点几分钟,你交易了多少信用卡,刷了多少钱,剩下多少余额,他的成本也低,而且对于用户来说也非常好,好在哪儿,原来是很枯燥的一条短信,现在推送消息里边还有图片、还有连接,像这些都是网络改变的。现在用了大数据,通过网络上,我们自动识别出微信的数据、QQ,有一天手机停了,我想告诉你,我停了以后停机要缴费,但是你可能用Wifi上网,我可以通过微信统计你,通过QQ告诉你,完全改变了除了通信以外的交流沟通,或者说接触点,信息到达的方式,通过互联网的ID告诉你。
我今天讲的就是这些内容,只要电信业有关、移动互联网有关的大数据都可以提问给我,我也很乐意跟大家探讨。谢谢大家!
提问:
您提到上网记录十分钟之后就可以查?
黄文良:
你上网十分钟之后自己可以查自己。
提问:
是76个节点吗?
黄文良:
不,我们有276个数据节点。
提问:
您说的用户服务器是不在基站之内的,是另外的吧?
黄文良:
用户服务器是另外的,我们提供的服务器十几台就够了。这取决于有多少用户同时在查,前端的前置机,整个全国有2.6亿用户,上网记录保存在276台服务器上,全国的数据都在北京,根本不需要依赖传统的数据库,全是历史数据库。
提问:
关于手机上网提到拿到数据采集可以看到用户上了一些网站的信息,据我了解有一些网站内容加密,你了解他上网站,只能识别了他上哪些网站的内容,是有一些特征码,所谓的特征码特征户能识别多少?
黄文良:
这个问题挺好,比如说访问Gmaile,他是加密的,我只知道你访问了一下Gmaile,但我根本看不到你邮箱的内容,网址我可以知道,知道你收了邮件内容,但我没法看到你邮件的内容,因为本身加密,第二我也没有必要你看的内容。比如说我知道你在看一个视频,但是视频整个内容,我不会跟踪,也没有价值,那个数据量在现在基础上乘100倍都不止。
记者:
你们数据采集在哪个点?
黄文良:
SNS跟GGS之间有一个DN口,因为所有用户上网都要通过GGS出去。
记者:
全国各省公司DN口不全了还是一部分?
黄文良:
当然不全,GGS要扩容必须要采集上去。
记者:
全国采集点最大的量是多少?
黄文良:
每天600-700亿条,量最大的现在是广东,广东有很多的GGS,广东的用户也是最多的,整个流量也是占很大的,广东、山东、北京都比较大。
记者:
微信发展这么快对传统语音业务杀伤极大,中国联通有什么措施吗?
黄文良:
微信大大分流了我们短信的业务,可以给你们透露一个数据,一般移动数据网上一个微信用户每月平均的流量是2.9兆,2.9兆意味着我们就是按最贵的支付3毛钱一兆就是9毛钱。但是平均一个用户微信发出去收进来,因为很多消息可以代替短信,一个月差不多180条,180条如果是短信的话,我收多少钱,现在变成微信,我只能收一点流量,流量给9毛钱。运营商毕竟有社会责任,这种业务一开,尽管本身微信的业务就是分流我们人员沟通的需求,他又不制造内容,他也是一个通信的手段,按理说完全想替代运营商的东西,不像新浪新闻是制造内容,他没有。前一段时间大家争论说要收费,网民一片反对声,好在我们中央企业,如果私营企业要开始封杀了,中央企业有更多的社会责任,国家的政策舆论都在。所有的微信都是OTT,跃过我们的广告,按理说做内部,不应该做通信,做通信不是运营商干的事吗。现在也没有办法,我们能做的,因为技术进步,用广告的钱尽量减下来。靠9毛钱的流量我也能盈利,那就好了,不知道这一天什么时候能够到来。
主持人:
谢谢大家!
相关视频
- 中石化:云计算与石油石化行业信息化2013-05-16 09:47:50
- 北京信息资源管理中心: 云环境下的大数据2013-05-16 09:47:50
- 弘积科技:应用交付基于虚拟化、云计算...2013-05-16 09:47:50
- 盈世 Coremail:企业邮件的云时代2013-05-16 09:47:50
- 有孚网络:政企云架构 让云管理触手可及2013-05-16 09:47:50