学界 | 斯坦福数据科学Phd新课放出阅读清单,你读过哪些?
大数据文摘作品
编译:蒋宝尚
不同于以往的授课式课堂风格,这次斯坦福大学的教授Hadley Wickham开设了一门论文讨论课。课程名为:Readings in Applied Data Science。要求学生每周阅读3~4篇论文,并给出反馈。
考虑到内向和不善表达的学生,课程采用Stephen D. Brookfield和Stephen Preskill的讨论手册中的技巧来确保每个人都有机会参与课堂讨论。课程成绩的评判也没有采用传统的结课考试,而是由课堂参与、讨论准备、课外阅读笔记三部分得分构成。
Hadley Wickham教授已在网上贴出了这门课程的阅读清单推荐,下面这些论文,你读过哪些?
什么是数据科学
数据科学家大多只做算术,这是件好事—— Noah Lorang(2016)
https://m.signalvnoise.com/data-scientists-mostly-just-do-arithmetic-and-that-s-a-good-thing-c6371885f7f6
企业数据分析和可视化:面试研究——Sean Kandel,Andreas Paepcke,Joseph Hellerstein,Jeffrey Heer(2012)
https://idl.cs.washington.edu/papers/enterprise-analysis-interviews
50年的数据科学(OA预印本)——David Donoho(2017)(注:这是一份讨论文件,许多着名的统计人员对评论做出了贡献。)
https://www.tandfonline.com/doi/abs/10.1080/10618600.2017.1384734
数据收集和协作
整洁的数据——Hadley Wickham(2013)
https://www.jstatsoft.org/article/view/v059i10/
电子表格中的数据结构——Karl W Broman,Kara Woo(2017)
https://peerj.com/preprints/3183/
在数据项目中使用Google表格的最佳做法——Matthew Lincoln (2018)
https://matthewlincoln.net/2018/03/26/best-practices-for-using-google-sheets-in-your-data-project.html
软件工程
数据科学家的软件开发技能——Trey Causey(2015)
http://treycausey.com/software_dev_skills.html
打扰一下,你有没有时间谈论版本控制?——Jennifer Bryan (2017)
https://peerj.com/preprints/3159/
足够好的科学计算实践——Greg Wilson,Jennifer Bryan,Karen Cranston,Justin Kitzes,Lex Nederbragt,Tracy K. Teal(2017)
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005510
DevOps
介绍Docker进行可重复研究,并以R环境为例——Carl Boettiger(2014)
https://arxiv.org/abs/1410.0846
机器学习:技术债务的高利息信用卡——D.Sculley,Gary Holt,Daniel Golovin,Eugene Davydov,Todd Phillips,Dietmar Ebner,Vinay Chaudhary,Michael Young(2015)
https://research.google.com/pubs/pub43146.html
教学
统计学入门课程:托勒密体系?——George W Cobb (2013)
https://escholarship.org/uc/item/6hb3k0nz
数据科学教育的民主化——Sean Kross,Roger D Peng,Brian S Caffo,Ira Gooding,Jeffrey T Leek(2017)
https://peerj.com/preprints/3195/
教授数据科学统计——Danny Kaplan (2017)
https://peerj.com/preprints/3205/
数据道德
伦理数据科学家——Cathy O'Neil (2016)
http://www.slate.com/articles/technology/future_tense/2016/02/how_to_bring_better_ethics_to_data_science.html
大数据,机器学习和社会科学——Hannah Wallach(2014)
https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d
数据科学道德准则——DJ Patil(2018)
https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d
统计实践的道德准则——美国统计协会职业道德委员会(2016年)
http://www.amstat.org/ASA/Your-Career/Ethical-Guidelines-for-Statistical-Practice.aspx
可复用性
计算科学最佳实践——Victoria Stodden, Sheila Miguez (2014)
https://openresearchsoftware.metajnl.com/articles/10.5334/jors.ay/
rOpenSci如何使用代码评审来促进可复用的科学——Noam Ross,Scott Chamberlain,Karthik Ram,MaëlleSalmon(2017)
https://ropensci.org/blog/2017/09/01/nf-softwarereview/
工作流程
平易近人的社会科学导论——Kieran Healy (2016)
http://plain-text.co/
打开笔记本历史——Caleb Daniels(2013)
http://wcm1.web.rice.edu/open-notebook-history.html
如何成为现代科学家——Jeff Leek(2016)
https://leanpub.com/modernscientist
业界
在Twitter上做数据科学——Robert Chang(2015)
https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6
程师不应该写ETL构建一个高功能数据科学体系的指南——Jeff Magnusson(2016)
https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/
在Airbnb上使用R包和教育来发展数据科学——里卡多比昂(2016)
https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d
Instacart的数据科学——Jeremy Stanley(2017)
https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279
.rprofile:Jenny Bryan——Kelly O'Briant(2017)
https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279
营销数据科学——Erik Oberg(2018)
https://medium.com/indeed-data-science/marketing-for-data-science-a-7-step-go-to-market-plan-for-your-next-data-product-60c034c34d55
职业发展
在数据科学就业市场上的感觉如何——Trey Causey(2016)
http://treycausey.com/data_science_interviews.html
学术求职建议——Matt Might
http://treycausey.com/data_science_interviews.html
数据科学中的冒充者综合征——Caitlin Hudon(2018年)
https://caitlinhudon.com/2018/01/19/imposter-syndrome-in-data-science/
原文链接:
https://github.com/hadley/stats337/blob/master/README.md
【今日机器学习概念】
开课倒计时3天
数据科学实训营第5期
优秀助教推荐|土豆
现今纷纷扰扰的数据科学培训市场,是不是早已让你眼花缭乱,无处落足,还没有找到组织?不必慌张,土豆老司机拉住你的手,语重心长的要为你指条明道:究竟优质的数据科学教育培训是什么样的?
课程干货满满还不失风趣,讲师精力充沛还热爱分享,助教认真批改还热情反馈。
没错!数据科学实训营就是这样的明星课程!从基础的 Python 编程和Scrapy爬虫,到熟练运用 Numpy/Pandas/Matplotlib/Seaborn/Scikit-learn 等多种Python库,打通机器学习的任督二脉,在真实的数据科学竞赛案例和数据挖掘项目的打磨下,完成从数据科学小白到骨灰级玩家的华丽转变!
作为第4/5期的实训营助教,寄语小白学员:坚持跟上课程进度,按时完成所有作业,认真做好学习笔记,最终一定可以实现轻松入门数据科学哈!
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 努力开创法学会事业发展新局面 7987822
- 2 驻泰国大使馆通报王星回国 7946462
- 3 山西临汾地震 7859529
- 4 警徽熠熠 擎旗奋进 7761881
- 5 刘强东母亲夸赞章泽天买的新衣 7637102
- 6 女子花4.5万买羽绒服 穿4天就起毛 7550186
- 7 黄子韬送出30辆车 每辆售价超12万 7417807
- 8 女生确诊渐冻症一年容貌巨变 7326499
- 9 留几手回应离婚 7201139
- 10 李行亮:录完节目我们觉得很羞耻 7177206