推荐 : 5个机器学习开源项目来挑战你的数据科学技能!(附链接)
本文约3100字,建议阅读10分钟
机器学习
https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
找到你所感兴趣的机器学习开源项目。
对于该项目,了解当前领先的解决方案。
如果有相关的解决方案,从中汲取知识。但如果这种方案并不存在,就利用你所掌握的机器学习知识来创造一个。
https://www.analyticsvidhya.com/blog/category/github/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
谷歌地球引擎 – 用300多个Jupyter笔记本来分析地理空间数据
https://github.com/giswqs/earthengine-py-notebooks
Fast Neptune – 你的机器学习项目加速器
https://danywind.github.io/2020/01/28/fast-neptune.html
https://github.com/lucidrains/reformer-pytorch
自然语言处理
https://courses.analyticsvidhya.com/courses/natural-language-processing-nlp?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
BERT
https://www.analyticsvidhya.com/blog/2019/09/demystifying-bert-groundbreaking-nlp-framework/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
GPT-2
https://www.analyticsvidhya.com/blog/2019/07/openai-gpt2-text-generator-python/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
https://openreview.net/pdf?id=rkgNKkHtvB
pip install reformer_pytorch
How do Transformers Work in NLP? A Guide to the Latest State-of-the-Art Models
https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
A Beginner-Friendly Guide to PyTorch and How it Works from Scratch
https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
PandaPy – 你最爱的Python库
https://github.com/firmai/pandapy
在小数据集上进行简单计算时(例如加法、乘法、取对数),PandaPy比Pandas快25至80倍。
在小数据集上进行表操作时(例如聚合、透视、删除、合并、填充缺失数据),PandaPy比Pandas快5-100倍。
在大多数小数据使用情况下,PandaPy比Dask,Modin Ray和Pandas都要快。
!pip3 install pandapy
https://www.analyticsvidhya.com/blog/2020/01/pandas-version-1-top-4-features/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
谷歌地球引擎 – 用300多个Jupyter Notebook来分析地理空间数据
谷歌地球引擎
https://earthengine.google.com/
Earth Engine Python API
Folium
Geehydro
Geospatial Data and its Role in Data Science
https://medium.com/analytics-vidhya/geospatial-data-and-its-role-in-data-science-c60b2e0d3f7f
AVA – 自动化视图分析
https://github.com/antvis/AVA
还有一个很优秀的数据可视化概念。数据发掘自动化的想法已经流传一段时间了,但一直没有实质性的框架出现。直到现在:
“AVA,自动化视图分析的简写,是阿里巴巴为了让视图分析更智能化和自动化所创造的框架。”
下面这个GIF图片是AVA的演示:
我强烈推荐你了解下面的资源,它们能帮你创建和加强数据可视化简介:
Mastering Tableau from Scratch: Become a Data Visualization Rockstar
https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
Collection of Data Visualization Articles and Tutorials
https://www.analyticsvidhya.com/blog/tag/data-visualization/?utm_source=blog&utm_medium=5-open-source-machine-learning-projects-data-scientist
Fast Neptune – 你机器学习项目的加速器
现如今,不论是学术界还是工业界,生产力是任何一个机器学习项目的重要指标。我们需要追踪每一个测试、每一次迭代,以及每对参数和结果。
“Fast Neptune库能够快速记录开展机器学习测试所需的所有信息。也就是说,Fast Neptune是上文所提及的生产力问题的答案。”
Fast Neptune有几个特性能够帮我们进行快速测试(从上文链接里引用):
有关运行代码的机器的元数据,包括系统及系统版本。
对测试所在的Notebook的相关要求。
在测试过程中用到的参数,也就是你想追踪的变量的值的命名。
测试过程中你想记录使用的代码。
是不是很直观?你只用一行代码就可以安装Fast Neptune:
pip install fast-neptune
几个值得关注的框架:
我还想介绍其他几个2020年1月发行的框架,你应该关注一下:
1. Thinc:这是一个spaCy作者制作的轻量化深度学习库。Thinc“为composing model提供一个优雅、能够类型检查、功能化编程的接口,同时为其他框架定义的层提供支持,例如PyTorch,TensorFlow或者MXNet”
Thinc
spaCy
PyTorch
TensorFlow
2. 谷歌仿人类生成聊天机器人:谷歌创造的Meena是一个拥有26亿参数点对点训练的神经交谈式模型。相比于行业领先的聊天机器人,Meena能够引导更合理更具体的对话。谷歌会开源Meena的代码吗?我们还不得而知,但这是个值得关注的事。
谷歌仿人类生成聊天机器人
https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html
结束语
2020是机器学习快速发展的一年。先进技术会继续快速进化,以至于让新手难以快速上手。
这也是我发表这些月刊的初衷,把最有相关性和实用性的开源机器学习项目带给我们的社区。
你有没有其他想了解的机器学习项目或框架?我非常想在下面的评论区听听你的想法和主意。让我们一起头脑风暴。
你也可以通过Analytics Vidhya的安卓软件阅读这篇文章。
原文标题:
5 Open Source Machine Learning Projects to Challenge your Inner Data Scientist
原文链接:
https://www.analyticsvidhya.com/blog/2020/02/5-open-source-machine-learning-projects-data-scientist/
转自: 数据派THU 公众号;
END
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7944249
- 2 中国黄金原董事长家搜出大量黄金 7965270
- 3 空调英文不会男生盯着考场空调看 7840397
- 4 消费品以旧换新“加速度” 7720443
- 5 被铁路售票员的手速惊到了 7664677
- 6 网红赤木刚宪爆改赵露思 7511750
- 7 县委原书记大搞“刷白墙”被通报 7441849
- 8 山姆代购在厕所分装蛋糕 7383208
- 9 马龙刘诗雯穿正装打混双 7299132
- 10 刘强东提前发年终奖 7161408