Hadoop分布式计算——克服大数据挑战的曙光
燕麦云   2012-05-30

分布式计算与大数据

近来大数据的议题窜起,而分布式计算是大数据的关键技术。当分布式计算发展出巨量数据平台,对企业而言可以不再依赖价格高昂的大型专属设备,而可以透过自建大量服务器群集来解决。

大数据大概是继云端运算之后,最热门的科技名词了。一些科技大厂不约而同,纷纷打出大数据口号,情况就像当年的云端运算热潮一样。这到底是怎么回事?

大数据照字面翻译,就是“大数据”,而这个“大”,最起码包含3种意思:一群大量的数据、一笔很大的数据、一个很大的数据库。所以就中文译名来看,不论是翻成“大数据”或“巨量数据”,其实都只能点出大数据的部分特性。然而,不管是大数据或是巨量数据,都指向一个共同的趋势,就是数字数据增长的速度越来越快,而之所以能构成大数据这个新议题,就在于数据量之大已异于往常,使得既有的技术难以处理。

以往只有少数的产业会面临巨量数据处理、分析的需求,例如气象、基因、科学仿真,或是金融交易诈欺分析等等,但随着科技应用的改变,有更多的产业也面临巨量资料分析的挑战。例如搜索引擎业者要索引全球的网页,就是一个艰巨的任务;电子商务业者要掌握顾客消费行为,所要分析的数据也越来越多。

去年我们的记者在写大数据的报导时,采访了eBay的使用经验,然而我有眼不识泰山,看到稿件上写着eBay的数据库每天增加50TB,还一度怀疑是不是把GB误写成TB,或是记者粗心把5TB多加了个零,结果真的是50TB。因为eBay每天最少都有数百万次的商品查询,数据库每日增加1.5兆笔记录,而数据库的总容量则已超过9PB。所以,不仅每天新增的数据量庞大,连数据库也是超级庞大,而要从中分析顾客的浏览、消费行为,就是一件困难的事情。

其他像是大家熟悉的Facebook社群网站,每天都有数亿用户留下庞大的数据,甚至其中有很大的比例是图片、影片等传统数据库系统较不擅长的非结构化数据。这不仅挑战社群网站业者如何管理,对于想利用社群网站来掌握消费者动向的企业而言,所面临的挑战也是前所未有的。

美国最大的超市Wal-Mart,既要分析顾客在网站上的购物行为,还要分析消费者是透过哪些关键词的搜寻而找上门,甚至,Wal-Mart想要进一步分析顾客在Facebook等社群网站的动态。Wal-Mart过去透过结账数据分析,将啤酒与纸尿布摆在一起,促长了啤酒的销售量,此举令人津津乐道。然而,这已经是属于事后分析,未来他们想要更主动了解顾客在社群网站反应的个人状态,早一步掌握潜在的消费需求,有可能他们以后会比父亲更快知道女儿怀孕了。

其实台湾的制造业也面临相同的挑战,例如随着晶圆的制程越来越精细,要掌握更精细的制程分析数据以确保良率,就必须分析比过去还要多很多的数据。那么如何有能力分析巨量数据,以及在可接受的时间内完成数据分析,就是个关键了。为此,像台积电这样的公司就早早布局大数据的关键技术──Hadoop。在台积电起码有2个人拥有目前实属罕见的Hadoop证照,而全台湾拥有这张证照的加起来不超过20个人。

未来会有更多的产业要面临庞大资料量的挑战,而目前走在前头的企业,都不约而同的采用分布式计算这样的技术来克服难题。

阅读提示:Hadoop是什么

Hadoop是基于Google搜索引擎的分布式计算技术,Google的哲学是蚂蚁雄兵精神,利用大量平价的服务器,搭配平行运算架构,以最符合经济效益的方式创造庞大的运算量。当Hadoop以此技术发展出巨量资料平台,对企业而言无疑是一道克服巨量数据挑战的曙光,因为企业可以不再依赖价格高昂的大型专属设备,而可以透过自建大量服务器群集来解决。

最近,分布式计算终于发表1.0正式版,就像是只要给我一个支点,就能撑起地球,分布式计算就是撑起大数据的那个支点。

转载自ITHOME.