这份GitHub 2.3k星的ML论文清单拿好,工作用得上
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
工欲善其事,必先利其器。
在工作中动手实施自己的ML项目之前,了解领域里的前沿进展,吸收前人的经验,是很有必要的。
不过,现在arXiv上每天都有成百篇新论文冒头,哪些值得看?
为此,亚马逊工程师Eugene Yan等人打造了一个论文合集,在这个GitHub项目中,持续共享Google、亚马逊、Facebook等等大公司在数据科学和机器学习方面的论文和博客文章。

这些论文/文章涵盖24种不同分类,从搜索排名到NLP、CV,都能在这里找到:
数据质量
数据工程
数据挖掘
分类
回归
推荐算法
搜索排名
嵌入
自然语言处理
序列建模
预测
计算机视觉
强化学习
异常检测
图形
优化
信息提取
弱监督
生成
效率
验证和A/B测试
伦理道德
实践
失败
目前标星2.3k。
以推荐算法为例。
对于不同的行业,业务差别很大。即使算法基础框架大同小异,想要训练出精准的推荐模型,细节上还是有许多不同之处。
而这份清单,收集了电商、视频、音乐、课程种种不同业务的推荐算法技术博客/论文。

比如阿里的《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》。
论文介绍了行为序列Transformer在阿里电子商务推荐系统中的应用。
研究人员提出,利用Transformer模型来捕捉用户行为序列背后的顺序信号,以增强个性化推荐的有效性,提升点击量。经过实验验证后,他们将该模型部署在了淘宝线上,证明与基线相比,该方法能显著提高在线点击率。
论文链接:
https://arxiv.org/abs/1905.06874
在视频个性化推荐方面,YouTube、网飞、TikTok的技术方案都有收录。

比如YouTube这篇引用次数达到1039次的《Deep Neural Networks for YouTube Recommendations》。
论文重点介绍了深度学习给YouTube推荐系统带来的巨大性能提升。首先,研究人员详细介绍了深度候选征程模型和深度排名模型。而后,研究人员还在论文中分享了从设计、迭代到维护一个拥有海量用户的大规模推荐系统这个过程中,获得的实践经验和启示。
论文地址:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45530.pdf
另外,比较有趣的是,这份论文/文章列表还收录了一些失败的经验。
比如Google Photos在给照片打标签时,曾经严重翻车:把黑人标记成了“大猩猩”。
最近大火的GPT-3,则没有解决前代GPT-2的“偏见”问题,在生成的文字中,总是将穆斯林和暴力、死亡联系在一起。
关于作者
这一项目的主要维护者,是亚马逊应用科学家Eugene Yan。

他本科毕业于新加坡管理大学,专业是心理学和人力资源管理,后于佐治亚理工学院获计算机科学硕士学位。
现在的主要工作是利用消费者数据,构建机器学习系统以提升用户体验。
传送门
项目地址:
https://github.com/eugeneyan/applied-ml
— 完 —
本文系网易新闻?网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
全球硬科技嘉年华,报名倒计时
9.11起,黑科技产品集市、自动驾驶体验、机器人表演、灯光秀、草坪乐队...... 更多酷炫的玩法等你来探索!


量子位?QbitAI · 头条号签约作者
?'?' ? 追踪AI技术和产品新动态
一键三连「分享点赞和在看」
科技前沿进展日日相见~
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 总书记带领我们“办好自己的事” 7904684
- 2 金正恩单膝跪地吊唁俄驻朝大使 7809341
- 3 再次提醒:中国公民近期避免前往日本 7713122
- 4 近15万亿新增贷款去哪了 7616949
- 5 蜜雪冰城开始卖早餐了 7522901
- 6 四川雅安现不明巨响 应急部门回应 7424014
- 7 网警:男子AI生成车展低俗视频被拘 7332121
- 8 狂甩45次 无汞体温计才降到36℃ 7232132
- 9 “九天”无人机成功首飞 7141100
- 10 立冬以来最大规模雨雪上线 7045842







量子位
