酷应用

如何招聘到优秀的数据科学家？

百家作者：数据分析 2018-09-03 06:11:07

如何招聘到优秀的数据科学家？

原文:How to Consistently Hire Remarkable Data Scientists

作者:Jeremy Stanley

品觉导读：

人们常把招聘看成一种偶尔为之的任务，或是一种突击战，需要你在一段时间内全力以赴。但我们要让招聘成为一个永不熄火的引擎，一轮一轮地筛选人才，过程透明，结果可预测。
数据科学不是一项闭门造车的工作。你要与决策者、工程师以及产品经理协作。让这些部门的关键人员参与其中，才能挑选到可以跨部门工作的人才.
在设立招聘流程时，设立了以下几个可以衡量的指标：

准确：招到出色员工的几率最大化。
流失：优秀应聘者提早退出的几率最小化。
成功：工作机会被接受的几率最大化。
精力：招聘团队的长期精力消耗最小化。

4. 设立一个明确的作业评估框架。应考虑以下标准：

正确性——最后答案是否正确？
逻辑——答案中的逻辑是否合理？
假设——所有假设是否清楚明了？
代码质量——代码能否执行，是否经过测试，是否实用
效率——代码是否简洁，质量是否过关？
所用技术——他们是否合理使用了现代化的工具和文件库？
沟通——答案是否清晰，作答方式是否合理？

原文翻译：

本文作者杰里米·斯坦利（JeremyStanley）是Sailthru公司首席数据科学家兼工程业务执行副总裁，负责个性营销平台的智能化建设。他的数据科学团队开发的算法被用于预测、推荐和优化。

应对不确定性是数据科学家的专业素养之一。不管我们面对的数据有多“大”，它都是一个有限样本，其间充满了潜在偏误。模型太简单，可能就失去了意义；模型太复杂，又得不到信任。我们要小心翼翼地在中间取一个平衡。凭借控制数据噪音的手段，我们尽可能地对一切进行模拟、测试和验证。一名优秀的数据科学家应该对自己的数据、方法和结论抱有适当的怀疑态度。

然后有一天，一名数据科学家升职了，接到一个全新的挑战：评估一名应聘者，看此人适不适合加入他们的团队。样本规模一落千丈，实验看来是不具备可行性了。在工作中，数据偏误会受到严格控制，而面试所产生的偏误比它高出好几个数量级。

很多数据科学家诉诸于传统的招聘方式，但他们不应如此。

在着手构建最近的一个团队时，我跟许多数据科学团队的带头人进行了交谈，收集他们的想法以及最佳操作。对我影响尤深的是Airbnb数据科学主管莱利·纽曼（RileyNewman）的点子。他设计并实施了一套招聘数据科学人才的全新方法。在设计系统时，我曾多次跟纽曼交流。Project Florida的德鲁·康威（Drew Conway）也让我受益匪浅，他不断打磨自己的招聘流程，以求找到能够落入其“数据科学文氏图”交集的合适人才。

本文将概述招聘数据科学家的新流程（由莱利开发，笔者稍加改动），列出基本原则，介绍我们在Sailthru的试行情况。当然，本文还会展望一下进一步调整和改进的机会，否则这篇文章就不能称之为完整。

如何开启招聘领域的变革

在设立招聘流程时，我们设立了以下几个可以衡量的指标：

·准确：招到出色员工的几率最大化。

·流失：优秀应聘者提早退出的几率最小化。

·成功：工作机会被接受的几率最大化。

·精力：招聘团队的长期精力消耗最小化。

乍一看来，任何经验丰富的管理者都会说，这四个指标是不可能同时提升的。在实践中，前三个指标往往是此消彼长的关系（比如，应聘者越优秀，使其接受工作机会的难度就越大）。若要前三个指标同时提升，团队就需要付出持续的努力。

在传统招聘流程中，如果能达到50%的准确率，大多数管理者就感觉很幸运了。也就是说，在他们招聘的人中，入职后表现优异的员工比例不会超过50%。流失率是很难衡量的一个指标（毕竟，中途退出的应聘者是你鞭长莫及的），而大多数管理者都会担心，招聘流程过于冗长，常导致优秀人才流失。

在数据科学这样竞争激烈的领域，有实力的应聘者通常会收到三份或以上的工作机会，所以，招聘的成功率常常在50%以下。

而招聘需要不断地投入精力，随随便便就能占到数据科学团队20%或以上的时间。

在跟其他数据科学团队主管互证了这一经历之后，我试图让自己的招聘流程做到以下几点：

·准确：新聘人员中，应该有90%在入职后表现出色。

·流失：进入筛选的应聘者，有80%要收到我们给出的工作机会。

·成功：给出的工作机会中，应有65%被接受。

·精力：在团队工作中，招聘占用的时间应低于10%。

这个招聘流程的妙处在于，它在鉴别优秀应聘者的同时，也降低了人才中途流失的风险。这样一来，前三个指标就可以同时提升。而且，经过前期的大力投资（日后会有可观的回报），团队投入的时间和精力就很好控制了。

为实现这些目标，我们设立了一套核心原则，适用于任何职位的招聘。凡是能让大家专心工作、同心协力的原则，都可以对重大的流程变革起到不小的推动作用。它们也可以充当坚实的基础，便于日后对流程展开迭代。这些原则是：

确保招聘流程始终开启，且持续改进。

人们常把招聘看成一种偶尔为之的任务，或是一种突击战，需要你在一段时间内全力以赴。但我们要让招聘成为一个永不熄火的引擎，一轮一轮地筛选人才，过程透明，结果可预测。这样一来，你就一直处在招聘过程中，一有优秀人才进入劳动力市场，你就能随时出手。

让招聘流程始终保持开启，这会迫使你将招聘视为一门学科。它能促使协议和结果保持连贯性，让你收集到成功的经验和失败的教训，还能迫使你像呵护数据产品一样，呵护自己的人才。

招聘流程要反映实际招聘需求

残酷的现实是，标准化的面试问题有着致命缺陷。

如果问之前的经历，你知道的是他们描述先前工作情况的口才。如果问专业问题，你了解到的是他们复述知识点的能力。如果让他们在白板上演算“模拟题”，你看到的是他们解答模拟题的快慢。出色通过以上所有测试的应聘者，在实际工作中却可能是个差劲的数据科学家。

要解决这些缺陷，必须先明确一个问题：你想要应聘者如何开展数据科学工作。通观全局，你应该清楚团队的终端产品是什么。是供决策者参考的可视化图表和分析？是给开发者的设计和原型？还是生产环境中可以规模化的应用？

其次要清楚，你要一个成功的应聘者来做什么。你希望看到应聘者解决哪些难题，列出其中的五个。对于每个难题，确保你拥有（或者能用合理方式收集到）所需的数据，还要设想一个可能有效的解决方案，即便你不会亲自设计。具体要看公司短期战略、公司或产品运作的可行性、现有或可以合理收集到的数据的限制，所列难题应该在这三者的交集上。

现有团队是如何开展数据科学工作的？你最希望应聘者能应对何种挑战？知道了这些问题的答案，你就可以设计一个密切反映工作状况的招聘流程。也就是说，你要将应聘者放到一个接近日常工作情形的环境里，然后进行面试。如果应聘者在这样的环境中脱颖而出，那他们入职后表现优异的几率就要大得多。

先做一轮客观评估，将主观偏误降到最低。

有些应聘者可能在工作中出类拔萃，但在传统面试中却会被刷下去。

罪魁祸首就是面试官的偏误。你一走进房间，就开始对应聘者的能力下结论（大多数是下意识的）。这样的偏误种类繁多（这个维基页面就列出了一百多种认知偏误），但面试中最常见的偏误是，面试官往往偏爱跟自己相似的应聘者。

优秀的数据科学家必须拥有强大的定量分析能力和编程技能，这是没有商量余地的。因此，我们的流程首先要测试这些技能，然后再检验更主观（但依然可衡量）的技能，比如解决问题的能力和沟通能力。直到最后才会涉及最主观的部分——应聘者在团队中的表现，以及他们与团队文化的契合程度。

这些被放在招聘后期的主观标准，评估起来是最耗时的，也是最容易出现判断偏误的。把它们挪到筛选机制的后期，既可以减轻团队的负担（我们只有在确信应聘者掌握了必备技能之后，才会去评估他们与团队的文化契合度），也能将过早失去优秀应聘者的风险降至最低。

在招聘流程中，要同时把职位推销给应聘者

大多数面试流程都没能把职位推销给优秀应聘者。紧张的面试已经算是很好的了；面试最怕的是琐碎无聊。应聘者往往要向四个或以上的面试官重复介绍自己的情况，连续好几个小时回答问题。过后，终于轮到应聘者提问了，可他们往往又不清楚具体的工作情况，因而问不到点上。然后回家等通知，一等就是好几天。这些反馈毫不及时，也很少有实话实说的。

你所创建的招聘流程，应该把反映公司实际工作情况的数据和问题作为考题，来测试应聘者。除此之外，还要把团队的节奏和文化展现给应聘者，让他们对实际工作有一个切身的体会。每一个应聘者在完成面试后，都应该像是吃下一颗定心丸，知道加入你的团队大致是怎样一种情形。

和团队一起做出明智的决定，不要一个人拍板

无论采用何种招聘方式，每个管理者最终都要做出艰难的决定。如果你想在做决定时有十足的把握，就要给每一轮筛选设置明确的评估框架，包括设定每个团队成员都能理解的目标和指标。

另外，决定要由团队一起做出。这样，所有参与招聘流程的人都能直接向招聘经理反馈信息。更重要的是，这样大家都会着眼于同一组特质。采用这种开放式的讨论，还便于你日后调整招聘需求和招聘策略。

最后，让其他部门也参与进来。数据科学不是一项闭门造车的工作。你要与决策者、工程师以及产品经理协作。让这些部门的关键人员参与其中，才能挑选到可以跨部门工作的人才。

比市场抢先一步

当前市场上，优秀的数据科学家格外抢手，因此，应聘筛选流程要尽可能地快，不能断断续续，要把他们接受其他工作机会的几率降到最低。想要快速推进，必须有一个精简的流程，在加快速度的同时，坚定应聘者的信心。去投资你所需要的工具和后勤设施，用来追踪应聘者在每个筛选阶段停留的时间，同时大刀阔斧地改革系统，以此构建优势，并将其保持下去。

实施

在电影《模仿游戏》（The Imitation Game）中，在艾伦·图灵（Alan Turing）的管理下，英国破解德国Enigma密码机的反间谍工作一度接近崩溃。等他想到要求助时，破译团队已跟他形同陌路。然而，以他一贯的聪明才智，计算机科学家图灵设计了一种全新的方法，用来招聘新的团队成员。

为建立自己的团队，图灵开始搜寻新的人才。他先是在《伦敦每日电讯报》（London Daily Telegraph）上刊出一则填字游戏，谁能在12分钟内做完，就有资格申请一个神秘职位。成功的应聘者被召集到一间屋子里接受限时测试，这是在受控环境中考验他们的数学能力和解决问题的技能。测试结束后，图灵向约30名应聘者中的两人发出了要约。

这则轶事告诉我们很多道理。

通过这样一个过程，图灵先是广撒网，把人才都网罗起来，然后用颇具挑战性的难题和诱人的职位把他们引出来，接下来在受控环境中，对他们的技能加以验证。电影中有一个杜撰情节，说的是图灵招聘了一个名叫琼·克拉克（Joan Clarke）的女士，两人成了密切的协作者。若不是图灵这种科学的招聘方式，这位才智过人的女士必定会受制于那个时代的偏见，无论如何都进不了这样的密码破译团队。

就像《模仿游戏》一样，我们将应聘者放到与未来工作环境相近的一系列场景中，评估他们解决问题的能力。这些问题跟他们入职后的表现关系很大，可以作为可靠的预测手段。出人意料的是，若是配合适宜的规划和前期投资，这样做的效率比传统面试还要高，也为团队节省了时间。

纵观全局，这个面试流程有两个关键组成部分：

“家庭作业”：一份小作业，列出一组难度不断增加的题目，测试应聘者解决问题的能力。

“数据日”：和团队并肩工作一天，解决一个开放性的试题，最后在评审小组前做演示。

我们把这个流程分成多轮筛选。在500个投来简历的应聘者中，250人（50%）要提交“家庭作业”，25人（10%）将通过测试，20人（80%）将参与“数据日”检验，4人（20%）通过检验，最后3人（75%）接受工作机会。也就是说，每找到一个优秀的员工，我们就需要150个以上的应聘者。

其中有三个关键点：（一）应聘者的质量，（二）应聘者“家庭作业”和“数据日”的成功率，（三）“家庭作业”和“数据日”筛选过程的准确性。按照渠道（如他们从何处看到的招聘启示），追踪应聘者在筛选过程中的流失情况，这样就可以找出效率更高的招聘渠道，同时也能发现哪些筛选环节过于严苛。

按照四个明确的目标——准确率（雇佣到出色的员工）和成功率（确保他们接受工作机会）最大化，流失率（应聘者中途退出）和精力投入（团队消耗的时间和精力）最小化——我们投入了大量时间，设计出一个明确而高效的流程。这个流程由数据驱动，对应聘者具有很强的吸引力。

这个流程有以下六个阶段，难易程度递增，主观性色彩也递增。

•预筛选：检查一下有没有回应

•“家庭作业”：测试应聘者是否具备足够的技能

•推销：说服他们接受“数据日”检验

•“数据日”：在一个真实、受控的环境中，测试应聘者的能力，并评估其与团队的文化契合度

•决定：快速地做出一个明确的决定

•沟通：对每一位参与“数据日”检验的应聘者进行跟进

下面，我们从策略角度，对每个阶段进行详细说明。

1. 预筛选

Sailthru并不会对数据科学家进行任何预筛选。我们不需要查看他们的简历，或是讨论他们的经验和资质。

只要有回应（外加一个电子邮件地址），我们就会发出“家庭作业”。

这就相当于《模仿游戏》中的填字游戏。它能省下大量的时间和精力，让你更快地网罗有潜力的应聘者。

但之所以不进行预筛选，最重要的原因还是为了避免初期的一个巨大偏误来源。很多才智过人的应聘者都不具备招聘人员所寻求的学历或资历。这时候，你不仅会错失优秀的人才，而且到后来，还要为了那些履历漂亮、人见人爱的应聘者，跟其他公司展开激烈的角逐。

2.“家庭作业”

“家庭作业”格外重要。它是筛选过程中的第一条“分数线”。考虑到递交的测试量之巨，它需要团队付出的工作量是最大的。从中，应聘者也会对团队的工作有一个初步概念。

这一轮筛选不仅设立了一道重要关卡，防止你在不够格的应聘者身上浪费时间，而且，它在向应聘者推销你的职位方面，也起到了重要作用。出于以上种种原因，你应该收集有关应聘者表现和兴趣的数据，持续改进这一轮筛选。

一份适宜的“家庭作业”应具备以下特点：

•清晰明了——尽量避免应聘者产生疑问或需要说明的情况。

•时间限制——熟练的应聘者完成它所需的时间不应超过2小时。

•去除敏感信息——它会广泛传播，因此不要包含任何隐私或敏感数据。

•相关性——问题要跟实际工作中面临的最大难题相匹配。

•直接——阐明你希望应聘者给出怎样的答案，以及你将如何评估应聘者的表现。

•难度升级——问题的难度要不断升级，这样才能测出应聘者的实际技能处在哪个水平。

“家庭作业”的设计，要从数据科学团队最亟待解决的问题着手，在这些问题中选择一两个，并满足以下条件：（一）拥有或可以虚构有说服力的数据，（二）解决起来要有趣味性，（三）可以简化（也许是大幅简化），实力强劲的应聘者应能在两小时内解答完毕。

在缩小问题范围之后，把解答“家庭作业”所需的数据编纂出来。理想情况下，这些数据应取自你的生产环境，而且得到充分清理、置换或聚合。这样，这些数据日后不管落入谁的手里，都不会对公司造成危害。

或者，你也可以编造一套数据，但要注意的是，在数据科学中，很多挑战都来自对不一致性和异常值的处理。我的推荐做法是提供约100万行数据（或可分成多个文件），这样既能判断代码的优劣，同时又不至于造成太重的负担。

数据筹备妥当之后，再设计两到三个非常明确的问题，在难度上不断升级，并具备确切、可衡量的答案。你的问题不仅要考验应聘者操控数据的能力，还要测试他们能否逻辑缜密地进行分析，并对所建模型得出的结果加以解读。

然后，按照数据和所选问题，起草答题说明。它应该是一个简短易懂的文档，对所提供的数据做一个描述，并在最后列出需要应聘者解答的问题。另外，告知应聘者答题时间，这不是为了限制他们的作答时间，而是给他们一个大致的概念，免得有人花好几天的时间，做一个本来只需几个小时的题目。

最重要的是，文档中要有一个部分，专门陈述你希望应聘者如何答题。你希望他们使用哪些工具？你希望他们如何递交答案？在代码质量方面，你有什么样的期待？可视化或解读对你来说是否重要？这些要求的提出要格外谨慎。这是你推销自己、推销公司的重要机会。

然后，把“家庭作业”交给其他团队成员或社群内其他朋友，调整试题，确保你们就确切答案达成了共识。最不应该出现的情况，就是让应聘者摸不着头脑。

最后，设立一个明确的作业评估框架。应考虑以下标准：

•正确性——最后答案是否正确？

•逻辑——答案中的逻辑是否合理？

•假设——所有假设是否清楚明了？

•代码质量——代码能否执行，是否经过测试，是否实用，有没有进行文档化？

•效率——代码是否简洁，质量是否过关？

•所用技术——他们是否合理使用了现代化的工具和文件库？

•沟通——答案是否清晰，作答方式是否合理？

3. 推销

一旦应聘者通过了“家庭作业”测试，你的下一步挑战就是说服他们参加“数据日”面试。大多数人期待的都是传统的面试过程——在你的办公室里最多待上4个小时，肯定到不了一天。你必须让他们相信，花这么多时间是值得的。

在推销时，关键看你如何触动应聘者，如何呈现这样一个激动人心的机遇，如何描述“数据日”，并帮他们备战“数据日”。一切都应以激发他们的兴趣和热情为宗旨——此时不是你评估他们的时候。

每个应聘者的动力来源都有所不同，所以很有必要仔细聆听，将谈话导向他们最关心的话题。按照我的经验，应聘者有以下一些关键动力：

•产品和公司的整体潜力。

•数据科学的组织方式，向谁汇报，以及迄今为止它所造成的影响。

•在不远的将来，数据科学将会面临的关键挑战或机遇。

•数据科学团队与其他团队的跨部门合作情况。

•可获得数据的范围、规模和质量，以及未来的收集机会。

•团队如何管理他们的工作，如何协同优先事项和决策。

•团队使用的特定工具和技术。

最后，还是会有应聘者无法参与或不愿参与“数据日”。虽然这可能意味着错失人才，但你必须愿意承担其中的风险。

“数据日”是衡量所有应聘者的试金石。

4.“数据日”

从很多层面上讲，“数据日”都是这一招聘流程的核心。如果处理得当，你将对应聘者的技术、策略和技巧做出最终评估，分析出他/她和团队的文化契合度，同时还能把自己的团队和公司“推销”给应聘者。在准备充分的情况下，你和团队付出的时间不会多于传统面试。

筹备事项清单

·说明：一份简明扼要的文档，描述当天的任务、数据、评价标准，以及其他注意事项。

·数据：选取丰富的生产数据，要能对应聘者构成挑战与启发。一位出色的数据科学家就算一周都对着这些数据，也不应该感到无聊。

·笔记本电脑：一个功能强大的新笔记本电脑，跟他们工作后将会使用的电脑别无二致，并且预装了他们所需的数据和应用程序。

“数据日”成功与否，准备工作至关重要。要为应聘者提供发挥实力所需的一切条件，让他们有充分的时间去解题，最后拿出有意义的成果。

说明文档

当应聘者前来参加“数据日”的时候，你提供的第一件东西应该是一份打印出来的说明文档。需要考虑的部分（应尽可能简洁）包括：

引言——
简短的欢迎辞，并简要介绍当天的安排与任务。

免责声明（或者还有保密协议）——
必要与否，请咨询公司法务部。

目标——
概述应聘者手头任务，并告知怎样的“数据日”才算成功。

建议时间表——
应聘者大致的时间安排应该是怎样的。明确告知，他们最大的挑战将是时间不够。

数据——
粗略介绍一下你所提供的数据，足以为下述部分提供语境即可。

话题——
一个简短的清单，列出四至五个可以考虑的解题方向（关于这些话题的选择，后文还会进一步展开）。

评估——
成功的应聘者应做到哪几点。

技术设置——
简要介绍笔记本电脑上的工具。

数据细节——
详细描述你所提供的数据。针对每一份文件，描述其整体内容、数据集所包含的每一个字段，以及数据规模（行数或观测数据）。

最重要的是话题的选择。话题应该多样化，这样一来，应聘者虽然背景各异，但都能找到自己既感兴趣又拿手的东西。同时，要让话题聚焦对公司业务有价值的应用领域。这种情况下，你测试的就是你需要的技能，而且还能让应聘者对今后从事的工作有一个更加现实的了解。

最后，列出的话题应该只是建议。在这一点上，我更喜欢给予应聘者更多的自由。归根结底，最重要的是，要让他们有把握得出有意义的分析，并在众人面前进行演示。

记住，如果说明文档写得简明扼要，那么你用来解答应聘者疑问的时间将大为减少。

数据

下一步要考虑的是应聘者会用到的数据。这个数据集应区别于“家庭作业”的数据集，主要不同在两个方面。首先，它不会被广泛传播，所以绝对可以使用工作中的数据。但要记住，虽然应聘者用的是你提供的笔记本电脑，但由于它是联网的，因此数据集并不完全在你掌控之中。所以还是要确保里面不包含涉及个人的具体数据，或是具有战略重要性的数据。

其次，这一数据集应该规模大、内容丰富。你可以包含更多的观测数据、多个数据集、复杂的时间序列，或是让每个观测数据涉及多个数据点。“数据日”的关键难点之一在于，它要求应聘者面对一组“真实世界”数据集，找出一个具有实际意义的分析方法或建模路径。这就时常要求应聘者忽略大量的可用数据，或者通过过滤和聚合，对数据加以大幅简化。

最终，理想情况下，实力强大的应聘者用你提供的材料所得出的结果，往往会出乎你的意料。

另一个重要的考虑事项是，应该将数据预处理到何种程度。通常，除非你测试的就是应聘者过滤杂乱数据的能力，否则我建议让样本尽量干净一些，以避免他们将宝贵的时间耗费在数据改写上，从而有更多时间进行分析或建模。

笔记本电脑

给应聘者提供一个笔记本电脑，说明文档、数据和软件应放在同一个便于访问的位置。Sailthru用的是MacBook Pro（公司所有数据科学家和工程师都用Mac或Linux系统的机器），我们会安装以下软件：

• HomeBrew

• Anaconda （Python版）

• R

• RStudio

• Emacs和Vim

• Java 7

• Eclipse

有了HomeBrew软件包管理系统，数据科学家若需要其他软件，就可以快速安装。另外，我们将CSV文件里的数据置于它们的主目录之下。我们建议应聘者使用开源的脚本语言（如Python、R或Julia）来提交“家庭作业”，便于所有人查看。

日程安排

以下是Sailthru“数据日”的典型日程安排：

10：00 – 欢迎

应聘者抵达。招聘人员接待应聘者，并将其带到团队旁的指定座位。

10：05 – 陪同

接待者为数据科学团队的一名指定人员，此人会陪同应聘者喝咖啡，并参观办公室。

10：15 – 熟悉新环境

接待人员将当天的说明文档连同笔记本电脑一起交给应聘者，并简要介绍数据在笔记本上的存放位置。

10：20 – 选定方向

应聘者阅读说明文档，查看数据，然后通常会确定一个解题方向。

11：30 – 简会

应聘者旁听团队的日常简会，从而能够对日后的工作有一个了解。应聘者介绍自己选定的解题方向。

12：30 – 午餐

团队成员带应聘者吃午餐，进一步了解他/她的背景和个性，应聘者可随意提问。

按需要而定 – 提问

应聘者可能会向团队中的任何人提出数据、技术方面的问题，抑或是谈话中涉及的其他问题，如果可以，尽量让接待人员来回答问题。

16：30 - 提醒

我们提醒应聘者，5：30开始演示，鼓励他们开始准备演示内容。

17：30 – 演示

应聘者就当天的解题发现或成果进行20分钟的演示，接着是10分钟的问答环节，由团队和其他参与者提问。

18：00 – 反馈

我们邀请应聘者就其经历给出反馈，然后由招聘人员或接待人员带离，并告知其得到下一步通知的大致时间。

下午18：15 – 决定

团队完成对应聘者的讨论，90%的情况下会当场拍板。

总体来讲，团队投入的时间是比较合理的。接待人员早上花15分钟，可能下午还会花15分钟回答问题。简会和午餐是本来就有的。在演示和问答环节，五名参与者总共需要花30分钟，之后的决定通常再花15分钟。总体而言，团队所有人在这位应聘者身上投入的时间加起来不过4小时多一点，跟一场简单的传统面试不相上下。

从文化契合的角度看，最好的考察时间是午餐，你可以看到应聘者在普通社交环境下的表现。

站在技术角度，最好的考察时间是演示后的问答环节。其间，我们会提出试探性的高难度问题，以检验应聘者所用方法的严谨性，并观察他们在激烈的技术讨论或分析性辩论中，是如何表现的，因为这样的辩论在我们的团队中十分常见。

经验总结

“数据日”是反映团队和公司的一面镜子，因此，你应该针对特定需求，对流程做出相应的调整。我们特意在一天结束后邀请应聘者提供反馈，至此，我们已经根据他们的意见和建议，做出了不少的改动。以下是我们最宝贵的几条经验：

•应聘者的时间总是不够用。鼓励他们选取一个把握比较大的解题方向，并采用迭代式的方法。这样，万一走入死胡同，他们还有足够的时间去修改。另外还要强调，一个没有定论的分析如果演示得好，远胜于定论明确但过程薄弱的分析。

•午餐不要吃太久。应聘者的答题时间是有限的，超过45分钟以后，他们就会想回去了，以赶在演示前完成任务。

•邀请其他部门人员观看演示。应聘者将来常打交道的人，都应该在场。这样一来，你可以就应聘者的工作和沟通风格，听取这些同事的反馈，同时，也让应聘者对公司内部的主要关系有一个更好的了解。

•在应聘者抵达之前，要毫无隐瞒地将“数据日”安排告知他们。这样，他们就有时间做好心理准备，便于他们缓解压力。

5. 决定

Sailthru基于以下层面对应聘者做出评估：

1）问题结构化

你如何对问题进行结构化，做出何种假设，如何缩小范围？

2）技术严谨性

你为完成任务所开发的代码，其可靠性、可读性和灵活性有多好？这种方法的可扩展性有多大？

3）分析严谨性

你应用的方法（机器学习、统计、分析、可视化），其逻辑严密性、完整性和重要性各如何？

4）沟通

你在描述任务、做法、方法论和结论的时候，表述是否清晰？你对问题的回答是否准确？

5）实用性

如果进入生产阶段，你的结果对Sailthru的用处有多大？

我们在“数据日”的说明文档中写入了这些标准，这样，应聘者就知道怎样才算成功。

在应聘者完成演示和问答环节后，接待人员将其带离办公室。我们趁热打铁，立刻开始讨论应聘者的情况。我们会让每一名与会者就上述标准分享各自的意见，从团队外部成员开始，然后是团队内部经验最少的成员，再到经验最丰富的成员。这样可以避免本团队成员或团队管理者给其他人造成先入为主的印象。

总体而言，应聘者只要遭到一个人的极力反对，我们就有充分的理由拒绝此人。

出于技术方面的原因（“家庭作业”确保了大多数应聘者都是合格的），上述情况很少发生。但一旦发生，你就要对测试做出重新评估，确保它能有效地筛选出合格的应聘者。

如果问题出在文化契合度或沟通上，进行公开讨论就很有必要。这有助于团队确立一个合理的行为准则，并加以强化，同时也降低了团队意见被一个人的偏见所左右的风险。

如果大家都对某一名应聘者不温不火，此人明显也无法胜任。这通常是由于应聘者能力有限——成绩不佳，思维不够严谨，或者技术执行力不强。如果僵局一直无法打破，这时就需要团队管理者做出最终决定（拒绝，哪怕这意味着错失人才），或者邀请应聘者回来，展开进一步的讨论。第二情况通常比较少见。

6. 沟通

流程的最后一个阶段，就是将结果告知应聘者。“家庭作业”没有通过的，由招聘人员回复。我们很想给每个提交答卷的应聘者予以直接反馈，但人数实在太多，在操作上不太可行。

但我们会在数据科学团队中指派一名成员，对每一个参加过“数据日”但最终未获得工作机会的应聘者进行跟进，确保他们收到建设性的反馈，并能从这一经历中学到更多的东西。

最后，对于每一个参与“数据日”的应聘者的潜力，我们都是非常看好的。我们希望能尊重他们付出的时间，并与他们保持联络，因为日后可能还会碰头。毕竟，数据科学行业的圈子并不大。

挑战与未来机遇

招聘优秀的数据科学家并非易事，我坚信，本文所述流程对Sailthru的招聘起到了重要的推动作用，但我也认为，我们还有更多东西要学习。以下是一些依然困扰我们的问题。

错失优秀人才

我们的流程中可能会出现过多这样的问题，比如，一些应聘者也许很适合数据科学的工作，但最终没有接到工作机会。这最有可能发生在“家庭作业”阶段，因为有的人可能不愿花时间去做测试。可以采取的措施有两个，一是修改试题，让有实力的应聘者可以轻松完成；二是提升公司品牌在社群内的知名度。这归根结底是人才库开发的问题，它会减缓你招聘到一流人才的速度，因此不容忽视。

邀请实力不俗的应聘者参加“数据日”，结果没有录用，这种情况要麻烦得多，因为这些应聘者在我们这里投入了时间，我们也在他们身上投入了时间。之所以发生这种情况，原因是多方面的，但最普遍的原因是，“数据日”给应聘者创造了一个高压环境。他们必须在8小时之内，学习一个新的数据集、构思问题、开发解决方案，然后给出演示。

有的应聘者在压力之下表现优异，有的则不堪重负，无法展示出应有的实力。遗憾的是，我们无法将这些因素纳入考量，因为应聘者究竟是压力太大才表现不佳，还是纯粹的没有能力或效率低下，我们是无法区分的，而后两种人都是我们不希望引入团队的。

应聘者在“数据日”环节落选的另一个原因，或许是对工具不太熟悉。他们可能用惯了专有工具或商业工具，或是别的操作系统。也许，我们能购买更多的商业软件，通过虚拟机提供Windows系统，来解决这一状况。但这都需要投入大量资金、消耗运营成本。不过话说回来，熟悉Linux环境和开源工具也是我们十分看重的素质。

让招聘流程运转起来

可以说，这个流程最具挑战性的地方，就是如何让它运转起来。如果事先没有一个扎实的团队作为基础，去调整、执行并优化这一流程，你就会步履维艰。

另外，这个系统需要数据科学团队与招聘团队的协作。双方都要相信，这些投资和持续改进是值得的，否则，日后的实施和维护就不太可能展开。

推广到其他部门

Sailthru正在积极调整这一流程，以应用于其他部门，如软件开发。流程结构可以大致不变，只是所出考题各有不同。

比如招聘开发人员，你可以提出明确的要求和验收标准，提供一个Github库，让他们建一个简单的应用。通过这个机会，你可以观察他们如何构建应用并为其编写代码，还能考察他们如何开发软件（比如基于测试的开发工作），以及如何进行执行代码的文档化。

此外，你也可以拿出现有的一款应用，对其中的一部分加以简化，让开发者可以轻松运行，然后移除一个特定功能，要求开发者重新编程。这样，你就可以看到新代码与原有代码的契合度。而且这样做还有一个好处：对于执行效果，原应用就是一个明确的衡量标准。

结语

对于我所领导的数据科学团队来说，这一招聘流程无疑是革命性的。一些履历完美、沟通起来毫无纰漏的应聘者，在面对开放式的数据问题时，却无法进行结构化，对自身选择的分析手法也无法提供有力的辩护。对于这样的应聘者，我们唯有选择放弃。

但我们也招聘了以前可能绝不会招聘的人。

例如过去，应聘者若是没有几年的工作经验，基本上都会被我淘汰掉，因为我担心他们太过学术化。但使用这个流程后，我们招聘了这样一名数据科学家，他只有定量分析专业的博士文凭和几次实习经历，但在“数据日”中，他却展现了出众的实践技能。入职头两周，他就开始推动生产变革，工作的头三个月里，就为公司带来了十分积极的影响。

然而对于这个流程，我最看重的还是它大大减少了决策过程中的疑虑和不确定性。作为管理者，招聘是我们最重要的决策之一，能够在确凿的证据支持下，把握十足地做出决定，这种感觉很棒。

只要一看到有潜力的应聘者，我们就可以迅速行动。我们清楚，我们已将公司和团队推销给应聘者，在竞争激烈的人才市场上，我们会立于不败。还有一个好处是，我们不用每次都去抢夺履历好看、人见人爱的应聘者，同样也会招到能够对公司做出卓越贡献的人才。

投入时间与精力，建立一个永远开启的招聘流程，它行动迅速，稳扎稳打，挑选出的应聘者能够出色地应对企业的真实挑战与机遇。

然后你就可以高枕无忧，一心一意地投身于数据科学工作了。

本次转自：品觉微信公众号（pinjueche.com）