登陆

极彩登录网址-一般工程师简史

admin 2019-05-31 203人围观 ,发现0个评论

图片来历@视觉我国

文|郭华

我本年大约三十多岁,由于作业的联系,看上去比实践年纪还要老一些,像个微秃的胖子,但假如硬要回想的话,我也是有过芳华的。

只不过期刻略微有些长远,要到2004年。

那年周星驰拍了《功夫》,王宝强出演了《全国无贼》,百度收买了hao123,腾讯刚刚上市,而支付宝还没呈现。

那年我刚上高一,才知道县城比村子大的多。所以开端在懵懂中别致,又在别致中自卑,我不知道欧洲杯,不认识贝克汉姆,也没用过摩托罗拉,我不大爱说话,仅仅喜爱晚自习。

由于只要在这个时分我才会感到一种青涩的期望,我能够用左手托着脑袋,把耳机藏在袖子里听周杰伦的七里香,然后目光穿过右手,悄悄的看近邻背单词的女同学,她的马尾辫摆来摆去,嘴巴嘟嘟囔囔不敢作声,在红白校服的烘托下,我觉得她如同一个谁。

我常常想,假如时刻能够定格的话,那最好一向留在那个瞬间。

但这是不或许的,关于我的未来正在打开,仅仅悠远的像与我无关。

2003、2004年的时分,谷歌连续宣布了两篇论文,大约意思便是自己的数据太多了,所以就开发了两个体系,一个是分布式存储体系GFS,一个是分布式核算体系MapReduce,然后说在这两个体系的协助下,谷歌现已完美的处理了这些问题,所以假如你也有类似问题的话,最好也这么试试,由于假如咱们都没想出来的话,应该是不存在什么其他方法了如此。

论文很短,也没什么公式,再加上是谷歌写的,所以很快就传达开了。

在李先念许多读者之中,有一个叫Doug Cutting人。

他其时正在弄自己的开源搜索引擎Nutch,碰到了许多论文里描绘的问题,所以他在看到这两篇文章的时分眼睛立马就亮了,判定这便是他苦苦寻找的东西,很快便照着文章在Nutch里把两个体系都完成了一遍。在这个过程中,他还敏锐的认识到这种处理范式有着比搜索引擎宽广的多的使用空间,所以又在2006年把这两个体系从Nutch中独立了出来,创建了大名鼎鼎的Hadoop项目。

他看到了Hadoop的远景,也认识到了自己的限制,Hadoop要开展仅仅靠自己是不行的,他还要找一个当地,一个合适Hadoop生长的当地。所以他来到了yahoo,也便是在yahoo,Hadoop集群突破了一千台,从一个试验品变成了实在可用的大极彩登录网址-一般工程师简史体系,然后以燎原之势席卷了全球互联网公司。

2007年,我国的百度、淘宝等纷繁开端调研Hadoop。

而我也在当年上了大学,来到了海边城市大连。

实话实说,我对核算机只要抵抗,由于每次坐到它面前我都会头昏眼花,所以报自愿的时分便避开了一切与之相关的专业,只不过由于分数不行,我仍是被调剂到了软件工程系。这个系有两个特色,一个是膏火高,一个是分数低,所以其时大部分同学都是被调剂过来的,很少有人对学习有什么热心。

辅导员也看到了这一点,所以他给咱们引荐了《国际是平的》这本书,让咱们好好看看,核算机便是未来。

我大约看了,也或许没看,总归除了书名外什么都不记住,但交了膏火总要学习,上了大学总要结业。并且退一万步讲,班里都是比自己又高又帅的男生,看着那三四个女同学,我便不再抱任何期望了,所以就借了几本C++的书跑去了图书馆,开端揣摩核算机这个不可思议的东西。

我的前进是缓慢的,大数据的开展却是迅猛的。

Hadoop不断攻城略地,在展现力气的一同也暴露了自己的问题,一是运转起来太慢,二是MapReduce的编程方法太难用——这便是开源软件的运作方法,我并不完美,但你能够一同完善。

2008年的时分,Facebook首先开端了对Hadoop易用性的改造,发起了一个叫做Hive的项目,其意图便是在MapReduce上加一层SQL,让一切的人都能直接上手Hadoop。这个项目敏捷走红,Hadoop加Hive成了许多公司大数据的规范处理计划,直到今日都没过期。

可是假如把Hadoop比做一辆车的话,Hive仅仅把本来的手动挡换成了自动挡,好开是好开了,但引擎没变,所以速度仍是上不来。

这时声称比Hadoop极彩登录网址-一般工程师简史快一百倍的Spark就呈现了。

Spark的作者曾经在谷歌做过分布式体系。他觉得Hadoop最大的问题便是数据都放硬盘了,假如能把他们放在内存的话,速度必定会快许多。在这个思路的引导下,极彩登录网址-一般工程师简史他发明晰一种叫做RDD的分布式数据结构,奇妙的使用内存处理了Hadoop的功能问题。

Spark很快就成了MapReduce的代替计划。

到这时,Hadoop现已成了一个巨大的生态体系,从核算到存储到查询到作业流,其地图扩展到了大数据的方方面面,一时刻成了一切人议论的焦点。

这大约是2010年。

其时我刚上大四,正在头疼研讨生实验室的作业,拿不准该选哪个,便去极彩登录网址-一般工程师简史咨询一个学长。学长说现在Hadoop最火,找作业只要说懂这个很快就能拿到offer,横竖你读研也是要作业的,不如选个Hadoop相关的吧。我信以为真,再加上其时一向想和几个同学出去玩,早有点不耐烦了,就随意选了一个介绍里有Hadoop的实验室,背着书包离开了大连。

2011年,我来到杭州,开端实在触摸Hadoop,然后在导师的主张下看了03、04年谷歌那两篇文章,总算弄懂了什么叫MapReduce,但这并没有让我有多少成就感,反而觉得越看不明白的越多,一想起Hadoop那巨大的地图,便觉得前路漫漫怎样都学不完。

我是失望的灰心丧气,但有人却是达观的热血向前。

比方Nathan Marz,他在这年兴味盎然的发布了Storm,标语是实时的Hadoop。

简略来说,那时Hadoop地图虽大,里面却存在着空缺,这个空缺便是流式处理。Hadoop的一切体系都假定数据现已归档,从没假定过数据正在发生,然而在实在的国际中,数据却总是正在发生的。Nathan Marz认识到了这个问题,并想到了流式处理的概念,即把数据当成水流相同,连绵不断的流过来,来一条处理一次,然后当即推送成果——环绕这些主意,他开发了一个叫做Storm的引擎,并在Twitter的推进下大获成功,终究补上了Hado极彩登录网址-一般工程师简史op拼图里实时核算的这一角。

Spark很快,Storm也很快,两者有什么差异呢?

我举个比如。

我们知道公交车开起来必定比电瓶车快,所以要去十公里外你必定会一挥而就的挑选坐公交车而不是骑电瓶车,可假如要去五百米外的近邻小区,你的挑选或许会截然相反,由于或许等车的功夫你现已骑到了。

Spark是公交车,Storm便是电瓶车,Spark需要等我们都上车之后一批运曩昔,而Storm不必,来一个走一个。

当然了,这个比如也是我现在才想到的,由于其时的我彻底没有动力再看任何关于Hadoop的东西,心境就像庄子说的“吾生也有涯,而知也无涯 。以有涯随无涯,殆已”,爽性抛弃了。

抱着这个想法的我,2014年研讨生一结业便挑选了一家三线城市的国企,做好了这辈子也就这样的预备。

可大数据实在是太火了,领导一听我学过Hadoop便两眼放光,兴冲冲的把我塞到了公司的大数据实验室里,所以我开端在一个连不上网的环境里持续折腾Hadoop,除了版别低一些、集群小一点之外和互联网公司也没什么差异,相同辛苦,相同996。

后来我觉得这辈子或许是躲不开了大数据了,这样干着也不是个事,不如干脆光明正大的面临这个问题。

所以在2015年的时分,我又回到了杭州。

作为一个刚结业的壮劳力,我很快就在一家不大不小的公司里找到了作业,日子开端变的很简略,每天便是写各极彩登录网址-一般工程师简史种SQL,然后加着和大部分人差不多的班,业余时刻看看InfoQ上共享的大数据架构,神往着什么时分能有一套自己的房子。尽管我很快就又一次确认了自己对大数据毫无爱好的现实,但不同的是我这次找到了坚持的力气,由于我成婚了,还要许多作业要做,而这都需要钱。

时刻过的很快,我开端记不起年少时的容貌,在这种日复一日的作业之中,我的儿子出生了,这件事给平平的日子增加了一丝趣味,也给我那日渐稀少的头顶增加了一层压力。

有一次在带娃的间歇里,我坐在马桶上刷手机,不经意间看到了阿里收买Flink的音讯,里面讲了Flink的种种神迹,我顺手便转到了公司的群里,过了一会,主管回复说,有点意思,那谁谁你就担任研讨研讨看看吧。

我一边在心里说,得,手贱了,一边快速在群里回复说“收到,没问题”。

时刻现已是2019年了,我还没搞懂2014年发布的Flink,我被年代裹挟着向前,却不知道要去哪里。儿子正在长大,爸爸妈妈越来越老,我看着那些裁人的新闻,不敢幻想未来。

但我有必要强行充满期望。

马换了一次又一次,路愈赶越远,再要回去现已来不及了,所以我只得持续往前赶。朝雾早已在一片庄严中散失净尽,那花花国际就展现在我的面前。

借狄更斯的话,敬一切人都有远大前程。(本文首发钛媒体)

大数据核算引擎开展史

【钛媒体作者介绍:郭华,微信kakuka1988】

更多精彩内容,重视钛媒体微信号(ID:taimeiti),或许下载钛媒体App

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
  • 全国最大规模省级政务平台建成
  • 华为为日本奉献7660亿日元GDP 带来4.64万个工作岗位
  • 中国移动北京公司携手合作伙伴折桂国际5G大会5G使用规划揭榜赛
  • 请关注微信公众号
    微信二维码
    不容错过
    Powered By Z-BlogPHP