酷应用

面试了8家公司，他们问了我这些机器学习题目......

百家作者：AI100 2018-04-22 11:58:03

【导读】今年年初以来，作者一直在印度找数据科学、机器学习以及深度学习领域的工作。在找工作的这三十四天里，他面试了8到10家公司，其中也包括初创公司、基于服务的公司以及基于产品的公司。作者希望他的面试经验能够为求职者提供一些有用的信息，因而撰写了此文。希望你读后能够有所收获！

首先自我介绍一下：

我在机器学习（语音分析、文本分析和图像分析领域应用）领域有4年以上的从业经验。总的来说，我认为这个领域的大多数工作职位主要包括文本分析（自然语言处理）和图像分析（计算机视觉）。很少有公司招聘语音或音频分析的人才。我现在的目标是应聘一个中高级职位，可以带领一个深度学习或机器学习团队做一些有趣的项目。

下面是我在应聘过程中被问到的问题，希望能够对你有所帮助。

▌公司一：基于全球性服务的某公司（面试时长：20-25min）

你在简历中提到曾经构建过一个文档挖掘系统，你都做了哪些工作？能否在主题建模（topic modeling）中使用LDA技术实现文档聚类？
假设你有数百兆字节的数据文件，这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等，请你给出一个分类方案。
你如何阅读扫描版pdf文件或图像格式的书面文件的内容？
朴素贝叶斯为什么被称为“朴素”？
请详细介绍一下朴素贝叶斯分类器。
什么是深度学习？深度学习和机器学习的区别是什么？

体验☞：除此之外面试官还问了一些问题，但是都把我问懵了，我完全不知道他想听到什么答案。我一直都想深入的聊一些技术层面的问题，比如训练一个 tesseract（一款由HP实验室开发由Google维护的开源OCR引擎）或语言模型，但是他似乎并不感兴趣。或许他只是想听到一些已经实现的成果或者是一个好的解释，又或者是一些更好的方案。我感觉他们面试一个新手和面试一个有经验的专业人员之间并没有什么区别。

▌公司二：基于全球性服务的某公司（面试时长：40-45min）

在无监督学习中，如何进行文件聚类？
如何找到与某些查询语句/搜索相关的文件？
解释下TF-IDF技术。
根据我的经验来看，TF-IDF技术在文件分类或聚类上效果并不好，你将如何改进？
什么是长短期记忆神经网络（LSTM）?解释下其工作原理。
什么是word2vec模型？
解释下python中的可变对象和不可变对象。
你在python中使用过什么数据结构？

体验☞：整个面试过程都是围绕着文本相似度提问的，我都顺利通过了。但是这次仍旧没有更深层次的技术探讨。或许是公司在文本分析领域有几个小项目，最终我拿到了公司的offer。

▌公司三：基于全球性产品和服务的某公司（面试时长：40min）

如何使用不平衡数据集（ unbalanced dataset）处理多类别的分类问题？
你如何从一个文本语句中进行语言识别？
如何表示中文或日文中的象形字符？
如何设计一个聊天机器人？(我没什么想法，但我尝试用基于TF-IDF相似性的意图和反馈来回答这个问题。 )
能否使用循环神经网络设计一个聊天机器人来对输入的问题进行意图和回答响应。
假设你在Reddit数据集上使用循环神经网络或长短时记忆神经网络设计了一个聊天机器人，它能够提供10种可能的回复，如何选择最佳回复，或者说如何删除其他的回复？
解释一下支持向量机（SVM）如何学习非线性边界。

体验☞：还有几个问题我已经记不清了，这是我第一次在面试中深入谈论技术细节，随后我也拿到了这家公司的offer。

▌公司四：成立一年的医疗初创公司（面试时长：50min）

什么是精确率（precision）和召回率（recall）？在医疗诊断中，你认为哪个更重要？
解释一下精确率和召回率。
如何绘制受试者工作特征曲线（ROC曲线）？ROC曲线下面积是什么意思？
如何为多类别分类任务绘制ROC曲线？
列举多类别分类任务其他的度量标准。
什么是灵敏度（sensitivity）和特异度（specificity）？
随机森林中的“随机”指什么？
如何进行文本分类？
如何确定已经学会了一个文本？没有TF-IDF技术是不是不可能实现？（我回答说使用n-gram模型（n＝1，2，3，4），并使用TF-IDF技术创建一个长的计数向量）
你还能利用机器学习做些什么？（我建议将长短期记忆神经网络和word2vec结合起来，或者是一维循环神经网络与word2vec结合起来，进行分类。但面试官希望改进基于机器学习的算法。）
当神经网络由线性节点构成时，神经网络如何学习非线性形状？它学习非线性边界的原因是什么？

体验☞：还有几个很好的问题我没有记住。尽管整个面试过程很不错，但是我们在一些问题上看法并不一致。并且在面试期间，我发现作为一个初创公司，目前只有2-3个人在做ML、DL和DS。最后我没有面试成功。

▌公司五：亚马逊公司（面试时长：50-55min）

训练决策树时，其参数是什么？
在决策树的某个节点处进行分割，其分割标准是什么？
基尼系数的计算公式是什么？
熵的计算公式是什么？
决策树如何决定在哪个特征处必须进行分割？
如何利用数学计算收集来的信息？
简述随机森林的优点。
简述boosting算法。
梯度提升算法（gradient boosting）是怎样工作的？
简述AdaBoost算法工作原理。
SVM中用到了哪些内核？SVM的优化技术有哪些？
SVM如何学习超平面？论述下其数学运算细节。
谈一谈无监督学习？都有哪些算法？
如何定义K-Means聚类算法中K的值？
列举至少3中定义K-Means聚类算法中K的方法。
除此之外你还知道哪些聚类算法？
介绍一下DB-SCAM算法。
简述下分层凝聚聚类（Hierarchical Agglomerativeclustering）的工作原理。
解释一下主成分分析算法（PCA），简述下使用PCA算法的数学步骤。
20.使用 PCA算法有哪些缺点？
谈谈卷积神经网络的工作原理？详细说明其实现细节。
解释一下卷积神经网络中的反向传播。
你如何部署机器学习模型？
我们大部分情况下都要用C++从零开始搭建一个机器学习模型，这一点你能做到吗？

体验☞：我面试的是亚马逊level 6的职位。他们的主要关注点是在算法和数学上。但是我并没有准备数学方面的知识，我只是谈论了我所了解的东西，并没有在数学的细节上做更为详细的探讨，因此面试官认为我并不适合level 6的工作。我相信如果你能记住机器学习算法在数学上的通用表示，就可以很轻松的通过亚马逊技术面试。