阿里云 为大数据而生

阿里云技术总监焦鹏先生做客赛迪网直播间,为我们带来关于阿里云的大数据解决方案,同时也分享了很多案例。
阿里云从第一天开始成立的时候就是为了解决大数据而存在的。因为我们说今天我们身边有无所不在的各种各样的数据,淘宝的时光机,它就是一个非常典型的基于大数据挖掘的应用。

阿里云 为大数据而

基于大数据,我们可以做些什么?每一个在淘宝上网的网友,你只要购买过东西,你购买的越多,实际上你的整个购物行为在淘宝网来讲,通过对你购物行为的分析做了这样的应用。
这是我们的用户,你可以知道说我什么时候成为了淘宝网的用户?我购买的第一个商品是什么?在什么时间?甚至还可以知道在什么时候结婚了,什么时候会有我的小孩儿?都可以通过这样的数据分析和挖掘能够针对每一个个体做这样的个性化分析。
这是非常有趣的大数据的应用,我相信在未来,随着社交网络越来越多,包括移动互联的应用,我们每一个个体在网络上面的存在,都可以被精准的分析出来。
还有一个例子,关于奥巴马竞选,我们分析奥巴马竞选前后,我们发现这真的是一个以数据为驱动的竞选,他有别于以往的以政客为核心的竞选方式。可以看到,首先他有一只非常庞大的数据库,他整合了整个美国民党在以往很多数据库,这件事情在他竞选的两三年他就开始做了,基于这样的数据之上,有很多的模型,可以精准分析出来选民的态度,包括他潜在的选民在什么地方,用什么样的方式可以打动他?基于数据的分他组织了一套营销运营的打法。我们说,分析完以后,感觉上它比传统的很多互联网公司做的还要好在这方面。
在背后他有一个很强大的数据分析团队。最后在整个竞选结束以后,这是美国媒体总结的,说这是一个完全不同以数据为驱动力的竞选活动,而且它开启了美国政界大数据时代,这是活生生的利用大数据的案例。
我们说今天和以往有什么不同?今天有更多的大数据产生出来了,这里可能有移动互联网的兴起使得人们更愿意去创造和分享数据。一方面,我们作为个体来讲,它是一个数据的消费者,同时也在创造数据,也是一个生产者。另外一点,我们看到说速度网络的互联,整个数据的采集和传输变的越来越简单,这是一个现实。
还有一个方面,也是非常重要的。当有了海量的大规模的数据被制造出来的时候,一定要可以存的下,另外你还可以去分析它,这个时候我们发现说云计算、云存储这样的技术产生了。所以我觉得它不是偶然的事情,它随着方方面面的条件具备,今天我们来谈大数据的现象和趋势。
关于阿里云,我觉得我们会有这样的几个观点。第一个观点是说关于数据的价值,我们怎么去看待数第三点,我们说今天谁拥有大数据?政府拥有数据,行业中的一些大的企业比如像金融,像电信,像电力等等,还有像一些科研机构,比如说像GPS或者地理信息、遥感、天气的很多数据,另外还有一类互联网公司。
在今天来讲,因为背后利益的商业驱动,我觉得最活跃的就是互联网公司了。在互联网行业里面,大数据的应用应该说是走在比较靠前的位置。
另外我刚才也提到了说阿里云和大数据,这里面也讲一个阿里云和大数据的故事。首先我们说大数据给阿里带来了一些挑战,我们说在去年双11的时候一天的交易额是191个亿,在那一天我们整个后台背后的系统有一个不完全的统计说,当时那一天大概有50%中国互联网流量是进入到天猫和淘宝的,在整个这样巨大的流量洪峰之后,后面是基于一些云计算的架构,来支撑整个交易平台。在这里面很少能看到传统的IT硬件和软件,很多都是通过云计算平台,通过自主研发的开源系统支撑的,这是一点。
另外,在大数据时代,实际上我们说单位的数据计算和存储成本它最终决定了你对数据使用的效率和它的竞争力。治所以会有这样的现状,早在几年前整个阿里集团就开始了开源的项目,包括云计算的研发。在这里面有简单的对阿里云的回顾,在08年的时候当时我们就看到说淘宝也好,支付宝也好已经产生出来越来越多的数据。那个时候,其实怎么利用这些数据?大家是想不清楚的,感觉上是有价值的,但是到底怎么用?怎么把它的价值发挥出来?那个时候没有人想清楚,但是有一件事儿想明白了,我们先不把这些数据存下来,所以就要把这些海量数据用一种低成本的、可扩展性好的技术、平台把它存下来,所以在那个时候阿里云就诞生了。
我们看到有一个云计算的技术在兴起,所以我们就成立了阿里云这家公司,就是为了去解决数据的存储和数据的分析和挖掘。在整个这几年的过程里面,我们在云计算领域只干了一件事儿,通过这四年的时间,我们自主研发了云计算的这样一套平台,我们叫做飞天,这完全是自主研发的。基于飞天的话,今天我们看到飞天上已经承载了各式各样的应用和业务在上面。
在阿里内部的话,我们针对大数据这些年来也有一些探索。比如说在我们内部有一个叫冰火鸟项目,目的很简单。首先是把阿里集团下的各个业务数据把它打通,建立数据的交换平台。使得内部在内部可以充分的共享和流动起来,通过这样的一些共享和流动,这样的话可以做一些整体的分析和挖掘,可以带来一些新的数据产品和服务。
在整个平台的构建里面也用到了非常多的一些技术,包括一些开源的技术包括自主研发的技术。
还要讲一个案例就是关于阿里巴巴金融案例,因为它是针对于小微企业进行贷款的业务,发展到今天已经有25万家用户,为25万家中小企业做了贷款。我们整个数据量有10PB数据量,在它的后端运行。每天处理的数据量也在500TB以上。大家可以想见,这样的业务背后都是以数据为支撑的,它通过分析每一笔交易,每一个贷款申请者的交易,它的整个资金状况、订单的状况,为它建立一个个性化的诚信的模型,以便预测带宽的风险,完全都是基于数据开展的业务,所以这个是一个非常典型的基于数据之上产生出来的业务创新。
包括我们还有像淘宝指数,这里面列了很有趣的关于王老吉和加多宝的指数,我们可以看到两个品牌在不同地区针对不同人群,大家对它的接受程度。我们可以看到在去年的9月份,这两个品牌在整个淘宝上的搜索量已经是持平了,也就是说加多宝从无到有是这样的一个过程。所以能准确的反应一些企业品牌的影响。
包括我们还有一个叫做聚石塔的项目,以往在媒体里也有报道。淘宝开放的平台是所有的第三方应用,他们的整合系统也都是基于整个云计算平台之上的。只有这样的话,它才能够去抵御流量的冲击。刚才讲到的都是阿里内部的一些平台和系统。
最后跟各位用户分享一下阿里云在整个对公共服务这一部分在大数据方面的实践。比如我们在政府方面的话,我们也在一些地区尝试像智慧城市、智慧政务这样的一些应用。包括我们也在一些国家的项目里面,一些监管平台等等这样一些系统上,能够把我们的一些用于大数据处理的系统和平台,能够提供出来,把这种能力开放出来。
包括像金融行业,我们前不久有一家保险公司叫中安在线,它的平台也是基于云计算平台开展的。包括一些3C的行业,也包括像渲染行业,这里面我也做一个小广告。我们国产有一部3D动画大片叫《昆塔传奇》会在今年的夏季会正式的上市。整个这部片子它的渲染是在整个阿里云云计算平台上完成的,当时最高峰的时候调用6000多台服务器,帮它做整个动画的渲染。按照它原有的计算规模可能要花40个月的时间,通过我们整个云计算平台只花了3个月就帮它完成了整个动画片的渲染。
来源:赛迪网

该日志由 aliyun 于2013年07月11日发表在 阿里云动态 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。

转载请注明:阿里云 为大数据而生

关键词:
分享到:

阿里云 为大数据而生:目前有2 条留言

  1. 沙发
    真实事件改编的电影:

    喜欢这个网站,感谢分享!

    2013-07-12 下午 12:37 [回复]
    • Anzer:

      Your article was execllent and erudite.

      2013-08-08 上午 1:36 [回复]

发表评论


快捷键:Ctrl+Enter