学一两门课程可搞不定数据科学,你得经过这五个阶段

百家 作者:大数据文摘 2020-06-03 13:10:38

大数据文摘出品

来源:medium

编译:Fisher


很多人认为学习数据科学是一个线性过程。事实上,它是个有些凌乱的发展过程,更像是一系列平台期构成的。

普遍以为的学习曲线vs真实的学习曲线


幸运的是,已经有一个相当不错的一般性的学习模型,解释了这些平台期是如何起作用的。这个模型是Noel Burch在20世纪70年代创造的,又由Robert Greene在《Mastery》一书中进行了扩充。


根据这个模型的框架,我们的学习要经历五个阶段:从无意识的未掌握,到有意识的未掌握,到有意识的掌握,到无意识的掌握,最后是精通。学习数据科学同样遵循这个过程。

Noel Burch和Robert Greene提出的学习五阶段


在这篇文章里,作者会在数据科学的语境下解释学习的每个阶段,并将谈谈他在每个阶段的经验,以及发现的一些捷径——从一个阶段突破瓶颈到下一阶段的最快方法。


阶段一:无意识且未掌握(完全新手期)


在这个级别,你刚刚开始进入数据科学领域。你几乎没有什么编程或统计学方面的经验。这个阶段的学习者一般会过度自信。很多人认为学一两门课程就能掌握这个领域。


这也是我刚出校门时的感觉。有几门经济学课程打底,我觉得自己已经准备好进入体育分析领域了。学习数据科学只是顺理成章的下一步。从高处俯瞰,这个领域似乎很简单:你只需要找到数据中的趋势以获得一些洞察,简单吧?


不用说,我完全想错了。开始学习编程后,我陷入了无望的迷茫当中。我开始整合自己需要学习的所有各种概念,而这个任务有时简单,有时极度艰巨。


为了从阶段一进入阶段二,你需要初步理解什么是数据科学,掌握它需要懂得哪些编程和数学概念。我推荐看一些YouTube视频、接触一些Python编程来达到这种理解。


阶段二:有意识但未掌握(畏惧期)


一旦你开始觉得编程和数学的世界大到让人不知所措,你已经到了第二阶段。在这个阶段,很多人都会卡住,甚至放弃。此时,你开始知道数据科学的水有多深。要学的东西太多了,不知道从哪下手。


走通这个阶段的关键,是把数据科学分解成若干小步。你需要从某处开始。在最基本的层面上,你需要懂一些编程(Python或者R)和简单的统计学。找一些在线资源来了解这些方面。我推荐学一些免费的编程或数据科学课程(kaggle.com的微课程是我的最爱)。


在这个阶段缓解我的不知所措的,是我关于自己为什么要学习这个领域的思考。我脑海里有一个具体的项目。我想要构建一个模型,来改进我当时在玩的daily fantasy sports的结果。如果我只专注于建模所必需的技能,我就可以让数据科学显得范围小很多,也更可控。


注:daily fantasy sports,是一种虚拟和现实结合的体育游戏,玩家可以扮演球队经理,选择真实球员组成自己的球队,球队积分根据球员在真实世界中的比赛表现来判定。


要想进入下一阶段,我建议就一个具体问题进行开发和打磨,这样可以让你的学习范围更小。相较于学习整个的数据科学领域,了解完成单个的项目需要学什么是更容易的。做一个小项目也没有“学习python”或者“学习统计学”那么令人生畏,因为后者过于宽泛和模糊。在早期阶段,你真的只要有编程和统计学的基础知识就可以进行数据科学的实践。如果你能做几个小项目,你就顺利上路了。


我也建议你在kaggle上研究一下别人的代码。你可能完全看不懂,但是不要慌。渐渐地,你会开始能理解它们,而读大量代码就是这个过程的起点。把你看到但不懂的术语、包和算法列个清单。每天研究其中的几个,尝试把它们弄明白。你会惊讶于你在几周内就能走出很远。


阶段三:有意识的掌握(轻度危险期)


至此,你已经做了几个不同的项目,在这些项目中,你已经学会了如何实现具体的算法。你现在有了一些可以参考的代码!


当我处于该阶段时,我收集了所有我常用的代码片段,把它们放到一个主文档中。我不必记住每一件事怎么做,只要参考这个“怪物”文档就可以了。这使我能够以更快的速度完成更多的项目。你可能觉得这像作弊,但我认为此时应专注于实现,而非语法。你应该尽可能多做一些项目,好用上你在研究中遇到的所有各种算法。


在应用过这些概念之后,你应该去了解它们的工作原理。在这个阶段,我开始读研究生了。在我修的课程里,我们被要求从零开始编写大部分算法。我认为这对所有的数据科学家而言都是非常好的实践。虽然我在用matlab编写一个神经网络时留下了一点“心理创伤”,但这绝对值得。正是通过编写这些算法,你开始了解各种不同方法所需要的输入和约束条件,以及它们的局限性。


从第三阶段走到第四阶段没有诀窍。能让你跨过门槛的是练习,持续的练习。


阶段四:无意识的掌握(开窍期)


当你到达阶段四时,你知道遇到问题怎么做了。你不必再参考你的“怪物”代码库,你可以开始专注于优化你的问题解决方案。此时,你将专业技能和行业直觉与你的工作相结合,为你面对的挑战创造出最优解。


我相信,这才是数据科学的艺术得以发挥的地方。你不再只是专注于解决一个问题,而是要创造一个优雅而可持续的解决方案。你把更多的时间花在关键特征选取、模型参数调节和项目的最终部署上。你也会与业务的相关方更紧密地合作,以确保你提供的服务发挥其最佳效果。


我觉得自己仍在第三阶段和第四阶段之间不断徘徊。


阶段五:精通(贡献期)


在这个层次,你已接近于精通该领域的某些方面。就数据科学而言,我不认为有人真的可以掌握整个学科。但是你能通过发现新算法或新的解决问题的方法来推动领域的前进。


这个阶段带有虚幻色彩,我认为很少有人能达到这个高度。我想说的是,这一类的人大部分被吸引到学术界,更注重研究,而非业务的具体实现。


最后的一些想法


我希望这个框架能帮助你用新的视角来评估自己的数据科学学习之旅。我也希望它能给你一份扎实的路线图,让你的数据科学知识更上一层楼。根据我的体验,学习数据科学是个漫长的过程,但也是个令人愉快的过程。


相关报道:

https://towardsdatascience.com/the-stages-of-learning-data-science-3cc8be181f54


我的公司是否需要独立的数据团队?
我该何时、怎么样建设自己的数据团队?
数据团队的价值如何衡量?
疫情之下,数据团队又受到哪些影响?

一起透析数据团队建设全景!
扫码填写问卷▼




实习/全职编辑记者招聘ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn



志愿者介绍
后台回复志愿者”加入我们


点「在看」的人都变好看了哦!

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接