不及美国同行1/3,中国数据科学家平均年薪约3万美元丨 Kaggle 发布首份数据科学从业报告

百家 作者:DeepTech深科技 2017-11-01 08:39:03

年度订阅用户可加入科技英语学习社区,每周科技英语直播讲堂,详情查看“阅读原文”


互联网创业方兴未艾,人工智能的浪潮又接踵而来,而贯穿其中的数据科学则在这更迭交替中显得愈发重要。近日,全球最大的数据平台 Kaggle 向约 16000 名数据科学领域的从业者发放了调查问卷,就薪资水平、人员构成和使用工具等行业问题进行了详细的归纳和总结,最后以报告的形式分享给大家。对数据科学感兴趣或有志于进入这一行业的朋友可以从中一探究竟。


数据科学从业者画像


年龄:平均年龄为 30 岁,但国家间略有不同,例如印度的平均年龄就比澳大利亚年轻了9岁,而中国受访者的平均年龄为 25 岁。




工作状态:受访者中有全职工作的占 65.7%,正在找工作的占 12.7%。而在中国,这两个数字分别为 53.5% 和 17%。




职位:数据科学领域的工作划分非常繁杂,比如在伊朗和马来西亚,最普遍的头衔是“科学家”或“研究员”,而在中国,最流行的头衔则是“机器学习工程师”。




年薪:全球数据科学从业者的平均年薪是 55441 美元,美国的数据科学从业者平均薪资最高,达 11 万美元,而这一数字在中国只有 29835 美元(或许和样本数量较少有关)。




学历:数据科学从业者中比例最高的是硕士,但博士的薪水显然更高。




数据科学从业者工作内容


数据科学方法使用:逻辑回归是数据科学从业者在工作之中最常用的数据科学方法,但在军事和国家安全领域,使用更多的则是神经网络。



语言使用:Python 依旧是数据科学家最常用的语言,而 R 语言也很流行。




数据类型:关系型数据是开发者在工作中最常用的数据类型,而在学术研究和国防安全领域,文本型数据使用的更多。




代码分享:58.4% 的受访者在工作中使用 Git 分享他们的代码。但大公司中的开发者更倾向于使用电子邮件来分享他们的代码,而创业公司则对云的方式情有独钟。




工作障碍:脏数据(dirty data)显然又名列榜首。通俗的讲,当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问这个数据,然后使用了这个数据。因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,依据脏数据所做的操作可能是不正确的。




数据科学新手入行


语言选择:数据显示 Python 和 R 语言依旧是推荐程度最高的两种语言,而 Python 的受追捧程度又是 R 语言的两倍之高。




学习资源:数据科学是一个快速变化的领域,不断的学习已经成为了一种必需的技能,而目前行业内的人会更多通过 Stack Overflow Q&A,Conferences 和 Podcasts 来进行学习。除此以外,官方的文档和观看 Youtube 视频也不失为有效地学习途径。




开源数据获取:dataset aggregators、https://www.kaggle.com/datasets




找工作:首选方法是直接联系招聘者或建立自己的人脉网络




报告下载:https://www.kaggle.com/surveys/2017

调查数据下载:https://www.kaggle.com/kaggle/kaggle-survey-2017

 


作为一个集合社群、竞赛、用数据解决问题三个核心于一身的平台不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)跟想要解决的问题丢到 Kaggle 上去,请数据专家来帮忙解答。


从另一个角度来看,Kaggle 上聚集了众多对机器学习、人工智能有兴趣的人,包括数据科学家、统计高手、工程师或者是学生,他们利用数据采矿、深度学习、统计等方式搭建出解答问题的模型或算法,胜出者就有机会获得礼品、奖金或是工作机会,当然也有不少参加比赛的人是纯粹出自兴趣。

 

例如,全球最大卫星影像公司 Planet,主要是透过卫星影像监控亚马逊雨林的变化,但他们发现还是有些问题无解,例如无法分辨雨林的减少是人为造成还是自然因素,所以在 Kaggle 上举办比赛,希望可以有更好的算法来保护亚马逊雨林,吸引了不少关注生态议题的人参与。

 


正因为 Kaggle 上高手云集,吸引不少大型企业、机构都到此举办比赛,比如Google、Facebook、Airbnb、沃尔玛、Benz、Bosch、英特尔、西班牙国际银行(Santander)、欧洲量子物理研究所(CERN)等,而且奖金额度更已有突破百万美元等级的案例。

  

图丨Kaggle上奖金排名前五的竞赛


Kaggle 创始人 Anthony Goldbloom 在澳洲墨尔本大学毕业后,曾经在《经济学人》杂志当过实习记者,之后进入澳洲联邦政府财政部(Australian Treasury)、澳洲储备银行(RBA)担任经济计量学家。当时他就预见数据科学将在未来扮演重要的角色,就在澳洲曾建立了一个数据科学家的线上社群。但他心想,为何不把数据开放,让大家通过比赛的方式找到最好的算法?


图丨Kaggle 创始人 Anthony Goldbloom 


所以,他把公司搬到硅谷从而创立了 Kaggle,依靠社群成功累积了庞大的用户, Goldbloom 在接受澳洲媒体采访时表示,“Kaggle 今日已经拥有一百万用户,未来几年还会成长十倍甚至百倍,因为这个领域的人才需求缺口还很大。”他曾被评为 2013 年《麻省理工科技评论》全球 35 岁以下青年科技创新人士,而 Kaggle 在今年加入 Google,更是近年创业领域的成功范例。

  

然而,想要参与到 Kaggle 的比赛中却并非易事,因为一道道挑战题目都难度极高。而 DT 君通过对竞赛命题人、Kaggle 数据科学家甘志雯(Wendy Kan)的专访,也了解到整个比赛的流程。


图丨甘志雯


举例来说,当企业或机构单位想要在 Kaggle 举办比赛,会先接触到 Kaggle 类似产品经理角色的人员展开初步沟通,合作共识达成后,就会开始由数据科学家接手。他们与企业沟通,理解对方想要解决什么样的问题、拥有什么样的数据、怎么衡量模型的效益、评价指标有哪些等等。



所以客户会将庞大的数据交给甘志雯,她必须在很短的时间内熟悉这些数据,并且设计出适合这份数据的比赛规则和目标。


但她经常会遇到客户说:“这些数据很机密,但我又很想办这比赛,怎么办?”所以就要得帮他们想出适当的方法。直到双方都认同后,就会把数据整合为比较干净的模式,也就是数据清理(Data Cleansing),去除错误或不一致的数据。最后再把这些数据放到 Kaggle 平台上让使用者取用。一般 Kaggle 上的比赛赛程最多是 2~3 个月,参赛者必须在期间内递交自己设计的算法。

  

图丨甘志雯在演讲


对于身为一个出考题的人,在采访时 DT 君问她:有没有什么可以在 Kaggle 赢高分的秘技?甘志雯说,“多学, 就算你很有经验也不一定会赢。” 多参加比赛、多在 Kaggla 或社群平台与其他人交流,另外网络上有不少课程可以利用,多上且多听。


她认为,数据科学一直都存在于日常生活中,过去,可能是统计学家或IT人员才会使用,不过近年随着科技的进步,电脑的计算能力进步很多,再加之网络的普及,大家可以比以前更容易地获取数据并进行分析。


-End-


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接