酷应用

如何打造数据科学团队，你想知道的都在这里

百家作者：数据分析 2017-10-31 11:45:19

原文:DoingData Science Right — Your Most Common Questions Answered

作者：Jeremy Stanley, Daniel Tunkelang

品觉导读：

数据产品利用数据科学和工程技术来提升产品表现，通常会带来更准确的搜索结果、更好的建议和自动决策。
数据监测需要整个公司的一致努力，要确定每款产品需要收集何种数据，同时还要建立起收集及维护这些数据的基础设施和流程。要取得成功，数据测量需要数据科学家、工程师和产品经理通力协作，而这些都需要公司管理层的支持和投入。
决策科学利用数据来分析业务指标——比如增长率、互动情况、盈利驱动因素以及用户反馈——从而为战略和关键业务决策提供信息支持。
你把数据科学放在公司架构中的哪个位置，这件事非常重要——对团队本身，对其他部门以及对公司的整体成功来说，都是如此。目前有三种常见方案：独立团队，嵌入式团队，以及整合型团队。

原文翻译：

本文的两位作者分别是Instacart负责数据科学业务的副总裁杰里米·斯坦利（JeremyStanley），以及技术顾问、LinkedIn前数据业务负责人丹尼尔·唐克朗（DanielTunkelang）。杰里米编写的数据科学家招聘指南是同类作品中最为全面的。

很难相信，“数据科学家”到2008年才成为一项真正的职务头衔。Facebook的杰夫·哈梅巴赫（JeffHammerbacher）和LinkedIn的D.J.帕蒂尔（DJ Patil）创造了这个词语，以充分体现市场对跨学科技能的新需求。如今，市场对数据科学家的需求与日俱增，随之而来的还有另一种需求，即如何才能壮大这些团队。

我们两人都亲历过数据科学的兴衰，并在多家公司领导过团队或是担任顾问，它们属于不同的行业，也曾处于不同的发展阶段。我们看到的挑战不仅在于如何招聘到顶尖的数据科学家，还包括如何发挥他们的功效，以及在人才竞争激烈的市场中如何留住他们。

在这篇文章中，我们解释了为什么数据科学对许多初创公司都如此重要，公司应该何时对数据科学进行投资，如何在公司中安排数据科学的位置，以及怎样打造一种让数据科学蓬勃发展的文化。

首先，你想达到什么目的？

数据科学服务于两个重要但并不相同的目标：提升用户所使用的产品以及改进公司做出的决策。

数据产品利用数据科学和工程技术来提升产品表现，通常会带来更准确的搜索结果、更好的建议和自动决策。
决策科学利用数据来分析业务指标——比如增长率、互动情况、盈利驱动因素以及用户反馈——从而为战略和关键业务决策提供信息支持。

二者的区别可能听起来简单，但在你打造自己的数据科学团队时，记住它们之间的区别非常重要。下面，我们会进一步探究这两个领域。

利用数据科学打造更好的产品

数据产品利用数据科学来提升产品表现。它们依赖一种良性循环，产品收集的数据能够改进算法，而算法的改进又会提升用户体验。

在你收集到这些数据前会发生什么呢？产品的最初版本必须解决数据科学所谓的“冷启动”问题——它必须提供“足够好的”体验来开启数据收集和数据驱动的良性循环。要拿出这种足够好的解决方案，我们要依赖产品经理和工程师。

举例来说，当Instacart的用户访问网站时，我们的应用会在“再次购买”标签下展示其最近购买的商品。这是一项用户喜欢的功能，但它几乎不需要用到数据科学——或者大量数据。当我们希望向用户推荐他们之前没有买过的产品时，数据科学就有了用武之地。这需要分析所有用户的购买行为，找出哪些用户是相似的，最终基于相似用户的购买记录来推荐产品。这就是数据科学的舞台，利用数据创造价值，让用户能够轻易发现自己可能忽视的新产品。

为了提升产品，数据科学家必须跟工程师长期密切合作。你还需要决定，是让数据科学家独自完成产品的提升，还是让他们与工程师合作。两种方式都可以，但最好将之规范化，并在整个公司内形成一种预期。否则，产品改进将难以应用到生产中，而且你会失去那些有才华的数据科学家，因为他们感到劳无所获，遭到轻视。

利用数据科学做出更好的决策

决策科学利用数据分析和可视化技术来为业务和产品决策提供信息支持。决策者可能身在公司的任何位置——可能是需要确定优先事项的产品经理，也可能是负责公司战略决策的高管团队。

决策科学涵盖的范围很广，但它们往往具有几个共性：它们是公司之前没有遇到过的新问题；它们往往是主观性的，需要数据科学家应对未知变量和缺失的背景信息；它们是复杂的，涉及大量缺乏明确因果关系的不确定因素。与此同时，决策科学又至关重要——决策的结果是具体的，对业务有着重大影响。

以上所说的可能很像是数据分析，实际上，数据分析与决策科学之间的差异并不总是很明显。尽管如此，决策科学不应该仅仅只是制作报表和指示板，数据科学家所做的工作不应是那种可以利用现成商业工具便可完成的工作。

LinkedIn的高管团队利用决策科学做出了一项关键的业务决策，即让用户资料出现在搜索结果中。以往情况下，只有付费用户才可以看到自己网络中所有人的完整资料。可见性的规则很复杂，LinkedIn希望简化它们——但使用的方法不能损害公司营收。这里面的赌注是巨大的。

LinkedIn提出的可见性模式是对非付费用户的每月用量进行限制，超出用量即停止服务。该公司的决策科学家模拟了这一改动带来的影响，他们利用历史行为数据来预测营收和用户黏性可能受到的影响。分析结果表明，公司可以走出这一步。

结果，新模式不仅对公司业务产生了积极影响，也令数百万用户拍手称赞，不仅如此，它还消除了产品开发过程中的一大难题。有些人对用量限制发出抱怨，但这部分人正是LinkedIn认为应该付费的用户。

并非所有的决策都需要运用决策科学。有些决策太过琐屑，运用数据科学所产生的成本并不值当。其他决策可能很重要，但公司可能缺乏能够进行有效分析的数据。在这些情况下，公司需要依靠直觉和实验来进行决策。优秀的决策科学家了解自身的局限性，并可以判断自己的努力是否会徒劳无功或适得其反。

虽然决策科学和数据产品需要某些相同的技能，但很少有数据科学家能够同时擅长两个领域。决策科学依靠的是业务和产品意识、系统思维以及强大的沟通能力。而数据产品则要求机器学习知识和生产层面的工程学技能。如果你有一支小型数据科学团队，你可能需要找到同时擅长这两个领域的优秀人才。不过，随着团队规模的扩大，你将从专业分工中受益。

你是否应该投资于数据科学？

数据科学并不是适合所有人。只有当数据科学对你的成功至关重要时，你才需要对它进行投资，否则这件事就会干扰你，让你付出高昂的代价。

在组建数据科学团队之前，你应该问自己四个问题：

1. 你是否愿意利用数据科学为战略决策或数据产品提供支持？

如果答案是否定的，就不要招聘数据科学家。

数据科学家可以帮你做出战略决策，但前提是你愿意为他们营造这种氛围。你可能不会从一开始就需要他们，但招到合适的人才需要时间——而且，他们了解公司的数据和业务也需要时间。在他们能够利用数据科学来驱动决策之前，你需要把这些工作都做好。

数据产品可以通过提升优化程度和相关性来创造价值并取悦用户。如果你的产品路线图上有这些目标，你应该尽早招聘数据科学家，他们做出的设计决策能够为你带来长久的成功。数据科学家可以在产品设计、数据收集和系统架构方面做出重要决策，这些都是打造伟大产品的关键基础。

2. 你能够收集到所需的数据，并基于它采取行动吗？

公司的创始工程师可以基于少量的产品和设计指导，打造出一款最小化可行产品。数据科学需要数据，而数据只有通过测量和规模化才能获得。推荐系统依靠监测产品来追踪用户行为，优化业务决策则要依靠对关键活动和结果进行精密的评估。

不过，仅仅收集数据是不够的。只有在数据能够驱动行动时，数据科学才有价值。

数据应该为产品迭代提供信息方面的支持，并驱动公司的关键绩效指标。

数据监测需要整个公司的一致努力，要确定每款产品需要收集何种数据，同时还要建立起收集及维护这些数据的基础设施和流程。要取得成功，数据测量需要数据科学家、工程师和产品经理通力协作，而这些都需要公司管理层的支持和投入。

同样，数据驱动的决策也需要一种自上而下的承诺。包括首席执行官在内，公司必须利用数据来做决策，而不是谁的薪水高谁就说了算。

3. 你能从数据中挖掘出足够多的信息，得到有意义的启发吗？

很多人在大数据与数据科学之间划等号，但数据的规模并不代表着一切。数据科学的意义在于滤掉杂音，找到数据中的有用信号。

可用的信号不仅取决于数据的规模，还在于“信噪比”。

举例来说，一款广告产品可能从数十亿次的广告曝光中收集数据，但只有在用户跟广告进行互动的少数情况下，数据才承载了有用的信号。因此，大量的数据往往只能产生少量的信号。除非数据集中拥有大量信号，否则数据科学无法带来有意义的启发。

4. 你需要数据科学成为自己的核心竞争力吗，还是可以外包出去？

打造一支数据科学团队困难重重，而且代价高昂。如果你能通过外包满足自己对数据科学的需求，你也许应该这样做。一种选择是利用外部咨询团队；而更好的选择是利用现有解决方案，它们会利用应用程序界面来获取数据、建立模型、实现自动化操作，并提供关键性的分析报告。你可能无法找到完美契合自身需求的解决方案，但如果能加速业务发展，让核心团队能够聚焦于创造最大价值的领域，那么在这上面做一些妥协往往也是值得的。

在何种情况下，你需要让数据科学成为自身的核心竞争力？如果数据科学正在解决的问题对公司的成功至关重要，那么你就不能把这些工作外包。此外，现成的解决方案往往有些死板。如果你的公司是在用一种独特的方式解决问题（比如收集全新类型的数据，或是用全新的方法来使用数据），那么现成的解决方案可能缺乏灵活度，它将无法满足你的需求。

你应该从何时起步？

数据科学需要基于数据进行科学分析，而大多数公司一开始并不会掌握太多数据。

在招聘数据业务主管或建立团队之前，要确保他们有工作可做。同时，要尽早开始收集关键数据，这样，数据科学团队就能早早地发挥作用了。

如果你还没有掌握数据，那么应该由谁来告诉你该收集什么样的数据以及何时进行收集？此人并不一定要是数据科学家，但最好要了解不同数据集的作用，并能够对公司的数据投资战略做出强硬决策。如果你已经知道会在数据收集方面花费大量的时间和金钱，那么现在，或许是时候至少以最低限度的投资，招聘第一位数据科学家了。

如果你的业务是提供数据产品，那么你可能立刻就需要数据。但情况更有可能是，你的最小化可行产品不需要由数据驱动。你会根据直觉来押注，并观察市场反应。在这种情况下，过早地投资于数据收集和数据科学将浪费你宝贵的时间和金钱，而这些资源本该用于把你的最小化可行产品推向市场。

一旦你拥有可供数据科学家处理的数据，并准备好投入大量的产品、工程和业务资源来为数据科学提供支持，你应该马上开始组建团队。

在公司培育一种重视数据的文化，此事宜早不宜迟。从并购到产品发布，业务决策应该基于数据而不是个人意见。尽早把数据科学引入公司，这样做的好处之一是帮助大家形成一个观念，即数据是最好的资产。

不过，不要仅仅因为数据科学行业很“性感”就急着去招聘。这个领域俨然已成为当下的热门话题，因此很多人产生了一种紧迫感，想要尽快组建数据科学团队。胸怀大志的公司急切地想招揽数据分析人才，但过早建立团队会产生高昂的代价，不仅让员工变得消极，还可能对企业文化产生持续的负面影响。

如果非要我们给出一则最重要的建议，那就是：在完成对最小化可行产品的验证之后，你就可以考虑投资数据科学了。

一次成功的产品发布应该可以产生足够的数据以供分析，而你需要跟上“数据流”的步伐，办法就是招聘那些可以从中找到价值、并获得启发的人才。

数据科学在公司架构中处于什么位置？

你把数据科学放在公司架构中的哪个位置，这件事非常重要——对团队本身，对其他部门以及对公司的整体成功来说，都是如此。目前有三种常见方案：独立团队，嵌入式团队，以及整合型团队。每一种方案都各有利弊，让我们一一来分析。

独立模式

在独立模式下，数据科学团队将成为与工程技术部门平行的独立部门。数据科学团队的主管将成为公司的主要领导者，通常向产品主管或工程主管报告——甚至直接向首席执行官汇报工作。

独立模式的优势是自主权，这种类型的数据科学团队可以自主决定去解决自己眼中最有价值的问题。此外，独立团队还有一个象征性的优势：它表明公司将数据视为一种重要资产，这将有助于公司吸引到一流人才。

决策科学团队使用独立模式的效果尤为明显。尽管决策科学家会与产品团队密切合作，但独立性可以让他们发出更强硬的声音，比如告诉产品经理，他们的产品指标还不够好，不适合发布。此外，决策科学家也能从团队之间的沟通中获益，既能更好地理解产品指标的相互依赖性，也能在实验和数据分析方面实现相互分享。

这种独立性的弊端在于边缘化风险。随着公司规模扩大，组成一个个产品团队，他们往往倾向于自给自足。虽然与数据科学家的合作可以给产品团队带来好处，但他们不愿依赖自己无法控制的资源。他们想依靠自己把事情做好，甚至会以“研究工程师”等名目，招聘自己的数据科学家。如果产品团队拒绝与独立的数据科学团队合作，那么后者就会被边缘化，无法发挥应有作用。那时，公司就又会开始流失优秀人才。

LinkedIn最初的数据科学团队就是独立的，这使得他们可以在公司的多个产品上做出重要贡献，比如更准确地找出用户“可能认识的人”，以及检测虚假账号。不过，随着LinkedIn的发展，独立的数据科学团队越来越难以同产品团队协作，尤其是后者自身也招聘了具有类似技能的工程师。最终，该公司决定撤销独立的数据科学团队。这也是意料之中的结果。

嵌入式模式

在嵌入式模式下，数据科学团队负责引进人才，然后把他们派遣到公司的其他部门。公司依然会设立数据科学主管的岗位，但他（或她）更多地是扮演招聘经理和培训师的角色。

嵌入式模式和独立模式截然相反：它放弃了自主权来确保效用。在最理想的情况下，数据科学家会加入最需要他们的产品团队，针对公司的一系列问题开展工作。

嵌入式模式的弊端在于，并不是所有的数据科学家都愿意放弃自主权。数据科学家的职位描述中强调创造性和主动性，而嵌入式角色往往要求他们听命于自己所服务团队的主管。

还有一种风险是，作为嵌入团队的成员，数据科学家可能会觉得自己是“二等公民”——团队主管觉得他们的职业发展和幸福感与自己无关，而直属上司又觉得他们的工作不归自己管。

我们看到一些公司在团队中设置了数据科学经理一职，但这种方法奏效的前提是，公司的数据科学团队要比较庞大才行。

在LinkedIn，丹尼尔亲身体会了嵌入式模式的利与弊。实际上，决策科学团队早已利用嵌入式模式取得了蓬勃发展。决策科学家会确保，产品团队会基于数据信息做出决策，尤其是涉及产品发布的决策。与此同时，集中式管理促进了知识共享，也推动了员工的职业发展。但就像前面提到的，随着公司规模不断扩大，独立数据产品团队的发展会遭遇困难。最终，LinkedIn决定把数据科学工作整合到工程部门，丹尼尔转任工程部门岗位，并担任整合型团队的主管，负责搜索结果的质量——这个领域尤其要求工程师和数据科学家紧密合作。

整合型模式

在整合型模式中，公司不会设立数据科学团队。产品团队自主招聘并管理数据科学家。

这种模式有利于公司内部的密切合作。通过让数据科学家成为产品团队的主要成员，整合型模式弥补了独立模式和嵌入式模式在这方面的缺点。在整合型模式下，数据科学家、软件工程师、设计师以及产品经理有着相同的工作目标，这增加了他们的团队归属感。这样，就可以避免团队目标南辕北辙抑或是凝聚力不够所导致的裂痕。

整合型模式的弊端在于，它会弱化数据科学家的身份认同感。数据科学家的身份是与自己所在的产品团队联系在一起，而不是一个集中的数据科学团队。此外，这种模式也缺乏嵌入式模式的灵活性，因为你很难基于数据科学家的技能和兴趣进行调岗。还有一点，整合型模式为数据科学家的职业发展设置了障碍，因为整合型团队的主管可能不是评估或奖励他们的最佳人选。

在Instacart，数据科学家已被完全整合到产品团队中。这些团队有自己的产品领域，可能是实时的订单执行工具，也可能是用户在购物时使用的应用，或者是搜索和推荐服务（该公司内部有15支这样的团队）。

每一支团队都有工程师、数据科学家、设计师和产品经理，其中工程师和数据科学家向技术主管汇报工作——技术主管自己可能就是工程师或数据科学家。这种架构确保了工程师能够与数据科学家密切合作，并且让他们有权去做任何事，只要是服务于团队目标即可。作为Instacart的数据科学副总裁，杰里米充当着数据科学家及其团队主管的导师。他把数据科学家聚拢在一起，服务于不同的产品团队。他还领导着整个公司的数据科学项目。

这三种模式各有利弊，你必须确定哪一种最适合自己的公司，还要想清楚你希望它今后如何发展。随着需求的变化，要做好准备随时调整。有时候，最佳方案并不是单一的模式，而是相互结合。正如安迪·格鲁夫（Andy Grove）在《高产出管理》（HighOutput Management）一书中写道的：

优秀的管理是集权和分权的调和，是在响应市场和发挥组织力量之间，求取最佳组合的平衡艺术。

【end】

本次转自：品觉微信公众号（pinjueche.com）