数据科学家是做啥的?看看Stack Overflow这位大牛两年的经历就清楚了
翻译 | AI科技大本营(rgznai100)
参与 | 波波
数据科学家看出来的是,老川普在用安卓机(真土豪应该不用卖肾来买苹果),同时还不爱发图片(到底是老年人),较为和善的推文都是下属用iPhone发的(终究是担心被炒鱿鱼)。
因为在川普这1390条推文中,有762条来自安卓机,628条来自iPhone,安卓机所发的负面语气(讨厌、悲哀等)要比iPhone高出80%,两者明显不是同一个人。
当然,他的主业不是盯川普,而是从Stack Overflow的数据鸟瞰整个软件开发生态,从数以百万计的用户、问答和日访问量中分析出结论。
不过,C#和SQL Server可能并不总是同时出现在同一个问答里,但它们往往会被用于同一技术堆栈的某个部分。有鉴于此,就需要参考一下Stack Overflow Careers的职业数据,看看哪些技术会被同一批开发者所用。
此外,Stack Exchange旗下还有各种不同主题的问答站,观察哪些社区倾向拥有同类活跃的用户,就可以建立起网站内部相互关联的网络。
举例来说,在数量上掌握技术集群,能让我们改进开发者类型的模型,而这个模型会驱动Providence的目标(把用户和他们感兴趣的工作机会匹配到一起)。从商业的角度来说,帮助销售部、市场部以及社区团队解读数据,提供不同角度的洞见,对于做决策是非常有价值的。
以上这些实例,就是数据科学家要做的典型工作。但还算不上David Robinson的日常工作项目,他整天都在忙的事情还有:
设计、开发和测试机器学习功能
开发数据科学框架并教授R语言
David Robinson是Stack Overflow第一个用R语言的人,R语言是一个很棒的工具,可以直接处理数据并回答有趣问题。
从去年的9月份开始,每周五都有R语言的学习活动,期间他会和一些工程师们通过编写R语言的程序来分析数据并创建和开发相关的模型。而这些分析结果和模型已经用在了实际的产品中,包括在数据团队以及其他开发团队之中。nj
写产品化的代码
Stack Overflow网站背后实际上使用的是C#代码,在他工作的第一年,是需要写C#的,尽管更多的时候在用R;直到第二年,他才完全停止写C#。David Robinson上一次提交C#程序这种产品化的代码是在一年前了,作为一个果粉,他终于可以不用碰Windows了。
这种变化体现了一个数据科学家在工程师团队里的角色变迁。David Robinson现在的日常工作是数据分析而不是上线产品的新功能,可以更专注于写R程序,而不需要在其他编程语言之间切换,从而提升工作效率。
招聘第二个数据科学家
目前我的大多数统计工作都是需要仅靠自己来完成的,对此我需要极其地谨慎。这是因为即使我在报告中使用了错误的统计假设方法,而身边几乎也没有能够人会意识到。”
跨团队协作
Stack Overflow的另一个广告项目是展示广告(Display Ads),不同于招聘类广告,展示广告主要是为相关技术人员推销对应的产品和服务。David Robinson与展示广告团队运营组共同协作,对广告的展示和评估设计了许多方法,特别是应对广告拦截软件的举措,其中潜在的大量数据必定会使公司受益。
如果你对此感兴趣,可以去读Steve Feldman所写的“为什么Stack Overflow不在乎你屏蔽广告”:
https://stackoverflow.blog/2016/10/26/why-stack-overflow-doesnt-care-about-ad-blockers/
写作
关于写作,David Robinson觉得对于做数据科学来说,也是必不可少的。
他说,“这是一项被我低估的优势。写作可以让我对自己所做的数据分析工作进行更多分享,比如分析了目前最冷门的编程技术。”
从去年的12月到现在,他写了许多有关公司内容的文章:
在纽约、旧金山、伦敦和班加罗尔做软件开发有哪些不同之处;
https://stackoverflow.blog/2016/11/30/how-do-developers-in-new-york-san-francisco-london-and-bangalore-differ/
软件开发、网站站长和Ninjas:关于职位名称的含义;
https://stackoverflow.blog/2016/12/20/developers-webmasters-and-ninjas-whats-in-a-job-title/
软件开发无国界:Stack Overflow的全球化;
https://stackoverflow.blog/2017/01/30/developers-without-borders-the-global-stack-overflow-network/
在校学生会使用Stack Overflow吗;
https://stackoverflow.blog/2017/02/15/how-do-students-use-stack-overflow/
会有人真正去访问Stack Overflow的主页吗;
https://stackoverflow.blog/2017/03/09/anyone-actually-visit-stack-overflows-home-page/
深夜最爱使用什么编程语言;
https://stackoverflow.blog/2017/04/19/programming-languages-used-late-night/
浅谈Stack Overflow的发展趋势;
https://stackoverflow.blog/2017/05/09/introducing-stack-overflow-trends/
Stack Overflow上所呈现的移动端开发现状;
https://stackoverflow.blog/2017/05/16/exploring-state-mobile-development-stack-overflow-trends/
Stack Overflow:让百万开发人员选择弃用Vim;
https://stackoverflow.blog/2017/05/23/stack-overflow-helping-one-million-developers-exit-vim/
常敲空格键的开发者比常敲Tab键的赚钱更多;
https://stackoverflow.blog/2017/06/15/developers-use-spaces-make-money-use-tabs/
编程技术的变迁历史(Kevin Montrose)
https://www.stackoverflowbusiness.com/blog/the-changing-landscape-of-programming-technologies
相比在旧金山,在瑞典做软件开发的好处 (Julia Silge)
https://stackoverflow.blog/2017/01/16/benefits-for-developers-from-san-francisco-to-sweden/
2016年度Stack Overflow女性用户调研 (Julia Silge)
https://stackoverflow.blog/2017/01/19/women-in-the-2016-stack-over-survey/
最喜欢在周末使用的编程语言 (Julia Silge)
https://stackoverflow.blog/2017/02/07/what-programming-languages-weekends/
2017年软件开发方面的招聘趋势 (Alyssa Mazzina和Julia Silge)
https://stackoverflow.blog/2017/03/09/developer-hiring-trends-2017/
最现实的软件开发者是…… (Julia Silge)
https://stackoverflow.blog/2017/03/28/realistic-developer-fiction/
在Stack Overflow上搜索职位的背后 (Aurélien Gasser)
https://medium.com/@aurelien.gasser/a-dive-into-stack-overflow-jobs-search-62bc6e628f83
软件开发者进入劳动市场的现状 (Julia Silge)
https://stackoverflow.blog/2017/06/12/new-kids-block-understanding-developers-entering-workforce-today/
Julia和我在O’Reilly上发表和出版了一本书,叫《利用R语言进行文本挖掘》(Text Mining with R),现在已经在Amazon上架了并且可以免费在线阅读-(http://tidytextmining.com/)。David Robinson也出了一本电子书,《经验主义贝叶斯:从一个棒球统计案例说起》,这本电子书参考了一系列的博文。
在AI科技大本营微信公众号(rgznai100)会话回复“数据”,获得《经验主义贝叶斯:从一个棒球统计案例说起》电子书所参考的文章地址。
我很享受将一些博客整理成书籍的过程,明年我会继续做下去。
原文链接:
http://varianceexplained.org/r/year_data_scientist/
http://varianceexplained.org/r/two-years-data-scientist/
热文推荐
CCAI专访 | 杨强教授谈深度学习泡沫、迁移学习机遇与人工智能入门
专访 | 今日头条李磊:顶级AI专家是不分学校和背景的,年轻人要有自己的判断
独家|蚂蚁金服漆远首谈刚完成的AI重大突破及紧缺人才,呼吁国内多点技术性强的大会,少点网红
提示:中国人工智能大会(CCAI)由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于 7 月 22-23 日在杭州召开。作为中国国内高规格、规模空前的人工智能大会,本次大会甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。
为了帮助未能参会的小伙伴第一时间了解到嘉宾的重磅分享,AI科技大本营微信公众号将进行大会图文直播、视频直播,并可在会后获取演讲PPT,敬请关注!
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 习近平寄语澳门 7977444
- 2 老人取走自己卡内200多万被抓 7936953
- 3 突发:美军战斗机被击落 7806093
- 4 我国工业经济平稳向好 7744281
- 5 三战是否已经开始?普京回应 7674696
- 6 张雨绮 为了讨大家喜欢才穿成这样 7585548
- 7 春熙路不能随便开直播了 7415018
- 8 湖南卫视声明 7360405
- 9 马斯克被曝闯入特朗普和贝索斯晚宴 7244721
- 10 美国开始用这种方式窃取中企商业机密 7149723