酷应用

谷歌首席决策科学家：30篇文章通关数据科学与人工智能

百家作者：大数据文摘 2019-01-12 09:03:32

大数据文摘出品

编译：ZoeY、睡不着的iris、杨威、蒋宝尚

2019年已经开始了好几天了，相信小伙伴们对将要带来的新年假期已经迫不及待了。

为了让你在圈里能继续保持强劲的战斗力，文摘菌认为有些好的文章还是需要读一读的。

谷歌首席决策科学家(Chief Decision Scientis)凯西柯兹科夫(Cassie Kozyrkov)在2018年非常高产，为大家写了非常多关于人工智能、大数据的文章。以下是他感觉她写过最优秀30篇文章，这些文章主要关注：数据科学和分析、人工智能、机器学习.... ...

当然，除了给出文章链接之外，她还对文章给出了总结性极强的“妙语”。

一起来欣赏吧！

数据科学与分析

《数据科学究竟是什么?》：这篇文章快速介绍了数据科学、数据工程、统计学、分析学、机器学习和人工智能。

数据科学是使数据有用的学科。

https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6

2014年，推特对“数据科学家”的定义

《伟大的数据分析师都在做什么？为什么每个组织机构都需要他们？》：这篇文章主要介绍：优秀的分析师是保证高效的数据工作的先决条件。不要低估他们，他们的离职对你来说是非常危险的。

https://hbr.org/2018/12/what-great-data-analysts-do-and-why-every-organization-needs-them

数据科学的三个支柱分别有各自的优点。统计学家保证严谨，机器学习工程师改善性能表现，分析师提供速度。

《哈佛商业评论中的秘密段落》是对《哈佛商业评论》补充的思考内容。里面的主题包括混合角色，研究的本质，蝙蝠信号，数据骗子和伟大分析师们!

企业家需要注意：现在有很多冒充数据科学家的数据骗子。遗憾的是，目前还没有十全十美的办法可以辨别数据骗子。

http://bit.ly/quaesita_bsides

《人工智能和数据科学的十大角色》：这篇文章介绍了不同的职位名称和它们对应的级别。

如果你的第一份工作的职称就是“研究员”，那么你公司的职称系统可能不是很完善。

https://hackernoon.com/top-10-roles-for-your-data-science-team-e7f05d90d961

机器学习/人工智能概念

《可能是你读过的最简单的机器学习知识介绍》的主旨是，机器学习是以实践用例为导向的，而不仅仅是文字说明。

机器学习是一种新的编程范式，一种将你的想法传达给电脑的方式。兴奋的是它可以使你将不可说的想法表达出来。

https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c

《你是不是用错了“人工智能”这个词？》：由于定义不明确，实际上我们都没有正确地使用“人工智能”这个词。这个词人人都在用，在本文中我提供了一份快速指南来介绍人工智能、机器学习、深度学习、强化学习和类人工智能。

如果你担心会不会每个橱柜里都潜伏着具拥有类似人类智慧的物种，放心吧，不会的，所有这些工业化的人工智能应用程序都在忙着解决真正的商业问题。

http://bit.ly/quaesita_ai

《向孩子（或老板）解释监督学习》：希望让所有人都熟悉一些基本术语，例如：实例、标签、特性、模型、算法和监督学习。

不要被术语吓倒。例如，“模型”其实只是“菜谱”的比较花哨的说法。

http://bit.ly/quaesita_slkid

《机器学习——是皇帝的新装吗?》：是一篇为初学者准备的可以查看核心概念的文章，包括通过图片和猫咪介绍算法和损失函数的概念。

不要因为机器学习太简单而嫌弃它。杠杆也很简单，但它们可以撬起世界。

https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6

神经网络也可以称为“瑜伽网络”，因为它的神奇力量可以帮助你无限拓展边界。

《无监督学习的启发》：这篇文章讲了无监督学习可以帮助你在数据中找到灵感。他们会将相似的东西以分组的形式呈现给你，结果就像是罗夏墨迹卡那样。

你们可以把无监督学习看作是“物以类聚，人以群分”的数学版本。

http://bit.ly/quaesita_unsupervised

《可解释的人工智能却无法传播的原因》：许多人被带有人工智能字样的的宣传所吸引，他们认为这意味着可信度。但事实并非如此，陷入信任炒作可能意味着你将错过人工智能的一大优点：灵感。

如果你不相信任何你不理解的人事物，那么你就应该炒掉所有的人类员工，因为没人知道大脑（它拥有数千亿的神经元！）是如何做决定的。

https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6

如何在机器学习/人工智能项目上保持不败

《为什么企业在机器学习项目中失败了》：讲述了许多企业没有意识到“应用机器学习”与“机器学习算法研究”是两个截然不同的学科。

想象一下，你想要开一家餐厅，却雇佣了那些一辈子都在制造微波炉但从来没下厨的人……那么，会有什么结果呢?

https://hackernoon.com/why-businesses-fail-at-machine-learning-fbff41c4d5db

你在做什么生意？你的答案决定了你应该雇佣什么样的团队。

《寻找人工智能实践用例的建议》：先假设人工智能是个骗局，然后进行的头脑风暴，试图寻找应用人工智能的机会……

企业经常犯的一个错误是，想当然地认为机器学习是魔法，所以就不用多加思考该怎样将任务做好。

https://hackernoon.com/imagine-a-drunk-island-advice-for-finding-ai-use-cases-8d47495d4c3f

《人工智能的第一步可能会让你大吃一惊》：这篇文章回答了启动人工智能项目的正确方法是什么，是获得人工智能学位吗？不是。是雇佣人工智能专家吗？也不是。是选择一个很棒的算法吗？也不是。是钻研数据吗？依然不是！

永远不要要求一群博士“把机器学习应用到业务上，然后……好事就会发生。”

http://bit.ly/quaesita_first

“我想做什么”

《你的人工智能项目成功了吗？》：提供了一份（现实的）在你为一个应用机器学习项目雇佣工程师或获得数据之前，你应该仔细检查的清单。

不要为“人工智能”这个词所限制。多想想它可以为你做什么。

http://bit.ly/quaesita_realitycheck

《开始使用人工智能？从这里开始！》：是一份详细的指南，阐述了决策者在一个应用机器学习/人工智能项目中的作用和责任。

有能力完成和充分利用时间是两码事。我们习惯性地爱上我们已经为之付出的努力的人事物，即使它是一堆有毒的垃圾。

http://bit.ly/quaesita_dmguide

《当人工智能出错时，是谁的错？》：阐述了机器学习、人工智能的关键在于你是在用例子而不是文字说明来表达你的想法。要让机器学习/人工智能起作用，示例必须是相关的。

如果你使用的工具没有经过安全验证，那么你造成的任何混乱都是你的锅。人工智能和其他任何工具一样。

https://towardsdatascience.com/dont-trust-ai-10a7df520925

数据科学主导力

《数据驱动？再想想》：要做出数据驱动的决策，就必须以数据为主导。这个道理似乎很简单，但在现实中却鲜有人这样执行，因为决策者缺乏这样的观念。

分析数据的途径越多，越是容易产生确认偏差。而“解药”就是提前制定决策标准。

https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6

《数据科学是否是泡沫？》：发现越来越多的人自称是“数据科学家”，但是整个行业似乎都在玩危险游戏。

“雇佣数据科学家等同于毒枭在自家后院养了一只老虎。事实上你也不知道老虎有什么用，就只知道毒枭都爱养老虎。”

http://bit.ly/quaesita_bubble

《数据科学家领导》：教你如何训练决策者掌握技能，领导成功的数据科学团队。

崇尚数学亚文化的人容易表现出一副藐视一切的“软”技能。熬夜证明某些定理或者用第六种语言编程都是虚张声势之举。

https://towardsdatascience.com/data-science-leaders-there-are-too-many-of-you-37bff8088505

《重新思考数据科学中的快和慢》：讲述了产品开发团队如何协调快速迭代与进展缓慢的庞然深入研究过程的节奏，如何取舍？

灵感廉价，精确不易。

https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6

《采访：给予数据科学家的建议》：对于同行数据科学家问题的直白回答。主题包含：受欢迎的资源、职业、统计学教育和数据科学领导力。

有用的不见得复杂。数据质量比解决方案更重要。沟通能力胜过另一种编程语言。

http://bit.ly/mlconf_cassie

技术

《关于Tensorflow，你需要知道这9件事》：如果你拥有许多的数据，或者你紧随人工智能领域的最新进展，那么TensorFlow会是你的好伙伴。

有了TensorFlow Hub，不同于传统方法，以更高效的方式帮你整合自己和他人的代码，或者说你自己的代码（否则称之为专业软件工程）。

https://towardsdatascience.com/data-science-conversation-starters-84affd2347f6

《什么是不繁琐的人工智能？》：Kubeflow致力于为数据科学家摆脱一切不喜欢的琐事。如同一把滑雪橇助你越过琐事之丘。

祝贺你总算盼来为你打造的基础设施，听上去就像你不需要为自己制造一台电脑一样。

http://bit.ly/quaesita_kubeflow

《5小步概述数据科学》：来自谷歌2018 Cloud Next大会受欢迎的演讲。5个视频概述，均不超过5分钟。

炒作了半个世纪的人工智能并未实现。为什么会是现在呢？许多人未意识到如今的人工智能应用讲的是云计算的故事。

http://bit.ly/quaesita_ds5

统计学

《不要在统计学上浪费时间》：如何确定你是否需要掌握统计学，如果不知道，你该怎么办。

统计学是改变思维的科学。

http://bit.ly/quaesita_pointofstats

《不要从假设开始》：学习数学却没有理解其本质常犯的错误是只做假设而不行动。看一下如何使用数理统计做决定。

假设像是蟑螂。当你看见一只蟑螂时，代表不止一只。通常附近还隐藏着更多的蟑螂。

http://bit.ly/quaesita_damnedlies

《统计学入门》：让你迅速掌握统计学代表的含义和用通俗易懂的话语理解各类术语。

数学是在虚设世界中构建一个模型。如此你才得到了P值。

http://bit.ly/quaesita_statistics

《总体——你犯了什么错》：统计学方法只有在你需要的信息（总体）与你拥有的信息（样本）不匹配的时候才能发挥作用。

从样本到总体如同伊卡洛斯似的跳跃，在你不知道目标的情况下，结果将是一次大的碰撞。

http://bit.ly/quaesita_popwrong

《统计学理解自测》：能否通过小测验来检验自己的统计学专业能力？如果光凭STAT101告诉你的东西，你还差的远呢。

如果你掌握了真相，你就不需要统计学了。

http://bit.ly/quaesita_savvy

《Incompetence, delegation, and population》：如果决策者技能不过关，那么整个统计项目注定会失败。什么时候统计学家应该和决策者撕逼，什么时候应该顺从指示呢？

如果你希望用数据说服他人，你就必须摒弃严谨，绘制漂亮的图表