2017数据科学与机器学习行业现状调查:Python是最受欢迎的语言
今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况。本次调查收到了16000 多份答卷,庞大的调查数据为我们提供了有关从业者、业界最新动态以及如何进入该行业的数据支撑。以下报告包括本次调查的几个主要结果,其中包括:
尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言。
数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同。例如,印度受访者的平均年龄要比澳大利亚的小 9 岁。
被调查者教育程度最多是硕士,但在工资最高的(超过15万美元)人群中,拥有博士学位的人则更多。
Kaggle 已经公开了该调查的匿名数据集,以供大家进行研究,可以从此处下载:https://www.kaggle.com/kaggle/kaggle-survey-2017。
分析数据从业者的方式有很多种,本文将从有关数据科学从业者的工作、背景等人口统计学信息开始。
从下图可见,本次调查对象的平均年龄大约为 30 岁,但各个国家的这个值有所不同。例如印度调查对象的平均年龄就比澳大利亚的小了 9 岁。
受调查者中,有 65.7% 表示自己有全职工作。
尽管我们把数据科学家定义为使用代码分析数据的人,但我们发现数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是“科学家或者研究员”。
中位数55441美元,不过由于很多人没有全职工作(收入为 0),所以这一数字并不准确。尽管在我们的调查中“补偿和福利”的重要性稍微比“职业发展机遇”低一些,不过知道什么是合理的补偿依然不错。在美国,一般机器学习工程师带回家最多的东西是培根。
有131个回复由于超出最大值而没有显示出来,但它们被算进了中位数。
你需要再去读一个学位吗?通常来讲,数据科学从业者中最常见的学历是硕士,但是获取最高薪水(15万到20万美元,以及高于20万美元)的那些人大多有着博士学位。
被调查者的大多是 30 岁左右,硕士学历,年薪5.5万美元左右,拥有数据科学家的职位。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。
数据科学家的工作内容是什么?
我们把数据科学家定义为写代码来分析数据的人。他们的日常工作内容是什么呢?以下是我们的调查结果。
逻辑回归是工作之中最为常用的数据科学方法,不过在神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。
Python是数据科学家最常用的语言,也是最常用的数据分析工具。不过,也有很多数据科学家仍然保持着对 R 语言的忠诚。
关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都十分关注于这种关系型数据。而学术研究者和国防安全产业则更注重于文本与图像。
尽管很多受访者(58.4%)在工作使用 Git 来分享代码,但大公司中的开发者更倾向于将代码保留在本地,并通过像 Email 那样的文件共享软件来分享代码。而初创公司可能需要在云中共享以保持更加敏捷的反应。
脏数据(dirty data)显然排在了第一位,也就是说,数据科学家最常见的困扰就是需要对数据进行大量的预处理工作。除了数据预处理之外,还有很多问题困扰着数据科学家,比如说众多的机器学习算法各有各的擅长领域,所以了解它们的性能也会有一些困难。
当开始一个新的职业生涯的时候,参考别人的成功经验会很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何入门的。以下是我们最喜欢的几条建议:
每一位数据科学家都有自己的对选择第一门语言的想法。事实证明,那些仅使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们有两倍的可能会把 Python 推荐给你。
数据科学是一个发展迅速的领域,有很多有价值的资源可以帮助你学习并保持业内的顶尖位置,从而不断提升你的竞争力。已经在数据科学领域中工作的人们会更多地使用 Stack Overflow Q&A,Conferences 和 Podcasts。如果想要发布内容或开源软件,请时刻记住刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。
没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。很高兴我们的数据集聚合器正发展为数据科学社区成员中使用最频繁的工具。
在寻找工作地时候,人们可能会去公司网站,或在指定技术方向的招聘信息中寻找机会,但是根据数据科学领域工作的人们的经验,这些方式无疑是最差的选择。直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。
注意:少于 50 名受访者的组别被合并进了“Other”类中。其中一些柱状图为了美观而做了缩放处理。
End
视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么
双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV
“讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群
36大数据
长按识别二维码,关注36大数据
搜索「36大数据」或输入36dsj.com查看更多内容。
投稿/商务/合作:dashuju36@qq.com
↓↓↓
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 坚持依法治国、依宪执政 7949242
- 2 韩国的6小时40分 7962653
- 3 琼瑶死因曝光:一氧化碳中毒 7879933
- 4 全国铁路客运首次突破40亿人次 7702942
- 5 女生让全盲室友带饭 网友:够余华的 7639749
- 6 李冰冰51岁状态 7507317
- 7 两度发现遇难者遗体博主或将受罚 7494872
- 8 刚果(金)出现不明疾病 致近百人死亡 7374014
- 9 韩国首尔爆发示威游行 7296422
- 10 郭敬明发了鞠婧祎正面照 7148244