解秘 Google 工程师的大数据处理方法论 | 极客时间
毫无疑问,Google?是公认的大数据鼻祖。如今很多人提起大数据,还停留在?Google?开启的“三驾马车”时代:Google?FS、MapReduce、BigTable。其实,“三驾马车”早已不是浪潮之巅。
近年来,大数据技术的发展,不论是技术迭代,还是生态圈的繁荣,都远超我们的想象。从?Spark?成为?Hadoop?生态的一部分,到?Flink?横空出世挑战?Spark?成为大数据处理领域的新星,再到如今?Google?又决心用?Apache?Beam?一统天下。大数据技术的发展可谓跌宕起伏,波澜壮阔。
大数据技术生态圈
丰富的工具,繁荣的生态,也增加了开发者选择合适工具的难度。把开源框架,工具,类库,平台整合到一起,所需要的工作量以及复杂度,可想而知。技术的选择与使用,也是大数据开发者非常头疼的问题。
2017?年,我帮?Google?Ventures(Google?的风险投资基金)投资的公司做导师的时候,会经常参加投资公司的技术架构评审。我发现,很多技术?VP?对使用的技术并没有深层次思考,没有想明白使用某一技术的原因,往往是在“赶技术的时髦”,更别说普通的开发者。
如果在处理大规模数据的时候没有自己的深层次思考,确实很容易陷入误区。而目前大家对于大数据处理的理解误区,一般有以下几种:
1. 低估了数据处理的重要性。我在?Google?Brain?的?AI?应用领域工作,切身感受到没有高质量的数据处理,人工智能只有人工没有智能。例如在语义理解上,Google?就曾犯过这样的错误,直到被一家德国的小公司超过,才认识到高质量的数据标注和处理的重要性。
2. 低估了数据处理工程师在组织架构上的重要性。大数据领域泰斗级人物?Jesse?Anderson?曾做过一项研究,一个人工智能团队的合理组织架构,需要?4/5?的数据处理工程师。其实,即使是一个写前端的工程师,很多工作还是数据处理。很不幸,很多团队没有认识到这一点。
3. 低估了数据处理规模变大带来的复杂度。很多人还没有遇到过“大规模”的问题,因此容易把问题想的过于简单。我在?Google?面试过很多优秀的候选人,他们对常见的编程问题可以很好的解决,但只要追问数据规模变大时怎么设计系统,他们的回答却并不让人满意。
4. 高估了上手数据处理的难度。一方面我们需要认识到大规模的数据处理是有复杂的因素的。但另一方面,有了正确的工具和技术理念,现在上手数据处理并不困难。在?Google,我见到很多应届生来了半年后也能轻松应对上亿的数据量。
为了帮你比别人更准确深入地掌握实用的大规模数据处理技术,甚至达到硅谷一线系统架构师的水平,历经三个月的打磨,我在极客时间的专栏《大规模数据处理实战》正式上线了。
在这个专栏中,我想带你培养?Google?工程师精神,敢于打碎任何权威,从问题出发思考最佳方案。
具体地,我会从这两方面入手:一,是为你介绍硅谷最前沿技术和真实的案例,例如最新的框架层面的前后端分离理念,和批处理流处理统一的思想;二,是带你剖析技术框架产生的原因和他们解决的问题,让你在遇到相似的问题的时候,做到心中有数。
?扫码即可试看或订阅
我是蔡元楠,?目前在?Google?Brain?担任?AI?Healthcare?(人工智能的健康医疗应用)?领域软件资深工程师,我领导开发超大规模数据驱动的全新?AI?应用与商业模式,并作为我长期的职业方向。我也曾任职于?Google?搜索广告系统和智能语音助手系统。在?Google?除了技术工作外,我还兼任?C++?语言评审,AI?挑战赛评委会委员等。
加入?Google?之前,我分别在纽约哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位,也曾在哈佛医学院执行官项目学习。
为了给你设计一条切实可操作的学习路径,便于你上手,我会用?40+?篇内容,为你分享我在?Google?的大数据处理实战经验。具体地,我把专栏主体分成了六个部分:
第一部分,先会用原汁原味最实际的硅谷一线大厂的案例,向你解释?MapReduce?为什么不能应对最新的技术挑战。然后我会从实际的问题出发,从头开始引导你怎样从顶层设计一个数据处理框架。
第二部分,同样是结合实战案例,讲解在数据处理框架的使用和设计中,必需的一些基础知识。这些案例紧贴应用,可能就是你的团队明天会碰到的问题。
第三、四部分深入拆解了?Apache?Spark?和?Apache?Beam。不仅会用实际的案例教会你如何使用,还要教会你为什么它们这么设计,你会发现它们的设计其实大致和第一部分的顶层设计是一致的。这样下一次即使这个世界一无所有,你也能构建类似的框架解决一系列问题。
第五部分按?Google?T6?级别设计,是带着代码的真枪实弹的架构设计。毫不夸张地说,能完整掌握第五部分内容,你就能比肩硅谷一线大规模数据处理架构师。
第六部分会教会你技术远见。能否现在就着眼于应对?10?年后人类社会的技术挑战,是你拉开与别人差距的重要一站。

1. 上新优惠?68?(原价?99)。如果你是极客时间的新用户还能获得?5?元优惠券,券后仅需?63。
2.?订阅后邀请好友成功订阅,即可获得?24?元现金返现(返现海报获取:极客时间?App-?我的?-?分享有赏)
3.?凭订阅截图,可加入「大数据实战交流群」并领取「极客时间?50G?资料包」,仅限?500?人。(进群方式:公众号后台回复“大数据”)
?扫码即可试看或订阅
彩蛋:留言聊聊「?大数据可以应用在哪些方面?价值是如何体现的??」点赞第?1?名即可获得价值?99?的专栏阅码,截止到?4?月?18?日?20:00。
点击阅读原文,免费试读或订阅专栏
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 绘就共同富裕新画卷 7904376
- 2 芬兰总理正式向中韩日民众道歉 7808913
- 3 史上最长春节有人计划请5休15 7714185
- 4 这一年 一个个暖心瞬间令人难忘 7617797
- 5 “我对着那捧黄土呆了一个下午” 7520231
- 6 乌神秘“第13组”首袭俄罗斯潜艇 7429386
- 7 委内瑞拉到“生死关头”了吗 7332620
- 8 央视曝光套路贷:借13万要还1300万 7234003
- 9 今起海南自贸港全岛封关 7141296
- 10 最能生娃省份排名来了 7045399







InfoQ
