真实 VS 合成,我们需要的真实数据微乎其微?| 一周最火AI论文
大数据文摘专栏作品
作者:Christopher Dossman
编译:Jiaxu、云舟
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。
每周更新,做AI科研,每周从这一篇开始就够啦!
本周关键词:神经网络理解、情感识别、三维姿态估计
本周热门学术研究
大规模广播谈话语料库发布
一组研究人员在2018年10月至2019年3月期间发布了大量从美国广播中采集的语音识别抄本。这些数据包括28万多小时的广播中近28亿字的转录语音,以及有关语音的元数据。
本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。元数据包括诸如性别、地理位置、说话者转换标示以及广播节目信息等。数据采用JSONL格式,每行一个JSON文档。每一行代表一个音频片段,其中可能包含多个由字典对象和键表示的语句。
尽管存在着听写错误,但这一语料库在自然语言处理、社会科学、会话分析等领域仍然具有很好的应用前景。未来可能会发布新版本的RadioTalk,附带额外的转录音频和当前语料库的改进转录。
代码:
https://github.com/social-machines/RadioTalk
原文:
https://arxiv.org/abs/1907.07073
跨语言语音情感识别系统
研究人员提出了一种基于生成对抗网络的多语言SER模型。该算法具有学习语言不变表示的能力。该模型对源语言数据和目标语言数据使用特征编码网络,并使用鉴别器模型强制源编码模型学习类似于目标语言的表示;以及用于情绪识别的分类器。
该模型在四种不同的语言情感数据集上进行了评估,包括乌尔都语数据集,该数据集还包含了其他语言,这些语言的标签数据很难找到,而且主流社会对这些语言的研究也不多。乌尔都语是巴基斯坦的官方民族语言和印度宪法承认的22种官方语言之一。
结果表明,该模型可以显著提高所有数据集(包括非主流的乌尔都语数据)的基线跨语言SER性能,而不需要任何标签。
SER从语言中识别出不同类型的人类情感,对于实现许多现代现实应用的自动化非常有帮助。这一新模式对于为下一代跨文化应用构建更强大的模式至关重要。
原文:
https://arxiv.org/abs/1907.06083
基于单个RGB相机的关节三维姿态估计与动作识别
最近,研究人员提出了一种基于深度学习的多任务模型,用于基于RGB视频序列的关节三维人体姿态估计和动作识别。这种方法分为两个阶段。首先,研究人员设计并训练了一个实时二维姿态探测器来确定人体重要关键点的精确像素位置,并设计了一个双流神经网络来将检测到的二维关键点映射成三维姿态。
其次,他们利用有效的神经结构搜索(ENAS)模型来寻找一个最佳的网络结构,该网络结构用于通过基于图像的中间表示来模拟估计三维姿态的时空演化,并执行动作识别。对于3.6M、MSR Action3D和SBU Kinect交互数据集进行的评估验证了该方法的有效性。
该方法表明,通过简单的网络设计和二维关键点的训练,可以有效地估计三维人体姿态。此外,它需要一个低计算预算的训练和推理。
然而,框架自然依赖于二维探测器的输出质量,并且无法从失败的二维输出中恢复三维姿态。为了应对这一挑战,研究人员目前正在扩大研究范围,在模型中添加额外的视觉证据以提高性能。初步结果令人鼓舞。
原文:
https://arxiv.org/abs/1907.06968
真实数据VS合成数据,我们需要的真实数据微乎其微?
本文深入探讨了用合成数据代替实际数据的效果。研究人员分析了真实数据不足的影响。他们混用真实数据和合成数据,并通过模拟工具创建大量新的合成数据。在分析每个数据集域的相似性后,他们针对深度神经网络的训练过程提出了见解。
本文中,研究人员分析了使用大量合成数据和少量真实数据混合构成的数据集的训练效果。发现使用有限的真实数据并通过微调合成训练模型比混合训练的效果更佳。
该研究提供了关于动态使用真实数据和合成数据的见解,未来有望能够使用较少量真实数据训练神经网络,从而使得未来的研究更加经济有效。
原文:
https://arxiv.org/abs/1907.07061
当我们谈论理解神经网络时,我们在谈论什么?
你能说出神经网络中的操作是怎样起作用的吗?除了指示网络的权重和基本操作之外,我们能够说出它如何将图像分类为猫或狗,或者它如何在多个动作中做出选择吗?
这项研究工作讨论了应用于神经网络和其他人工系统的复杂性问题。即使对系统有完整的观察,也有对所有相关功能的总体描述,研究人员也很难产生有意义的“理解”。以此为背景,他们提出了疑问,当我们谈论理解神经计算时,我们在谈论什么呢?他们认为,大脑的生成过程与神经网络不同,因为它从一个世界中获取信息,并将其作为一种分布式的权重变化模式存储,这种模式是非常难以整合的。
神经网络科学家试图通过研究输出对系统变化的敏感性来了解他们的网络。他们研究了哪种刺激可以欺骗系统,并且可视化了网络中的元素。通过移除网络中的单元,他们可以分析系统在受干扰情况下的反应。但是,尽管是熟悉这些方法的人也不能断定他们可以很好地理解像AlexNet,AlphaGo或GPT2这样的模型。
在当前的神经网络方法下,人们无法对他们构建的系统所做的计算进行有意义地理解。这些方法远远无法为从业者提升网络效率而提供足够的理解。本文的结论是,神经科学应该专注于理解当下的发展。同时,应该开发相应的方法来了解大脑。我们不应该问大脑是如何工作的,而应该问它是如何学习工作方法的。
原文:
https://arxiv.org/abs/1907.06374v1
其他爆款论文
Bach Doodle:第一款基于人工智能的Google 涂鸦:
https://arxiv.org/abs/1907.06637
识别查询检索的交互模型:
https://arxiv.org/abs/1907.07564
第四次东方语言识别挑战的基线结果:
https://arxiv.org/abs/1907.07626
使用HODGEPODGE和大型弱标记、合成及未标记数据检测声音事件:
https://arxiv.org/abs/1907.07398
神经网络在频谱感知方面的差异:
https://arxiv.org/abs/1907.07321
AI新闻
谷歌发布具有附加功能和潜在应用的新USE多语言模块:
http://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html
微软致力于实现3D捕捉并展示了如何将其应用于微软的服务和技术中:
https://www.zdnet.com/article/microsofts-latest-holoportation-demo-shows-off-its-mixed-reality-ai-translation-technologies/
Google AI改善语言障碍人士的沟通:
https://ai.googleblog.com/2019/07/parrotron-new-research-into-improving.html
人工智能在2019年现状:机器学习,自然语言处理,游戏和知识图等方面的突破:
https://www.zdnet.com/article/the-state-of-ai-in-2019-breakthroughs-in-machine-learning-natural-language-processing-games-and-knowledge-graphs/
IBM推出了针对企业策划的开放式机器学习数据集中心:
https://www.zdnet.com/article/ibm-launches-open-ml-dataset-hub-curated-for-the-enterprise/
3个月,深度学习从理论到实战(英语)
全球最火机器学习社区School of AI清华专场
每周一次社区实战
Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。
LinkedIn:
https://www.linkedin.com/in/christopherdossman/
志愿者介绍
后台回复“志愿者”加入
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 书写新时代警察故事 7936520
- 2 多地现不明发光飞行物 应急局回应 7949613
- 3 闫妮红毯又微醺了 7847636
- 4 年货市场迎来产销两旺 7730857
- 5 恭迎熹妃回宫 7605397
- 6 不明真菌侵袭印度致居民集体脱发 7505382
- 7 封神第二部官宣全球上映 7497298
- 8 女子考研失败后到北大当保安 7387279
- 9 蒋欣歪嘴拍完华妃后改不回来了 7241648
- 10 女生确诊渐冻症容貌巨变 母亲回应 7104801