酷应用

KDD 2017获奖论文公布：数据挖掘领域的顶级研究与应用成果

百家作者：机器之心 2017-08-15 06:56:57

机器之心报道

参与：蒋思源、李亚洲

数据挖掘领域的顶会 KDD 2017 目前正在火热进行中。昨日，机器之心报道了滴滴被 KDD 2017 接收的论文。今日，KDD 2017 公布包括最佳论文在内的多个奖项。

KDD 的英文全称是 Knowledge Discovery and Data Mining（知识发现与数据挖掘），由美国计算机协会 ACM 下的数据挖掘分会举办，是国际数据挖掘领域的顶级会议。据统计，KDD 2017 共收到 1144 篇论文投递，收录 216 篇。今日，KDD 2017 公布了收录论文中的最佳论文等奖项。获奖情况如下：

最佳论文与最佳学生论文

论文：Accelerating Innovation Through Analogy Mining
作者：Tom Hope、Joel Chan、Aniket Kittur 和 Dafna Shahaf
地址：https://arxiv.org/abs/1706.05585

Runner up paper：

论文：Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
作者：David Hallac、Sagar Vare、Stephen Boyd 和 Jure Leskovec
地址：https://arxiv.org/abs/1706.03161

最佳应用论文奖

论文：HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network
作者：Shifu Hou、Yanfang Ye、Yangqiu Song 和 Melih Abdulhayoglu
地址：http://www.cse.ust.hk/~yqsong/papers/2017-KDD-HINDROID.pdf

Runner up Papers：

论文：DeepSD: Generating High Resolution Climate Change Projections through Single Image Super-Resolution
作者：Thomas Vandal、Evan Kodra、Sangram Ganguly、Andrew Michaelis、Ramakrishna Nemani 和 Auroop R Ganguly
地址：https://arxiv.org/abs/1703.03126

博士论文奖

论文：Local Modeling of Attributed Graphs: Algorithms and Applications
作者：Bryan Perozzi
地址：https://search.proquest.com/openview/cc84345c4e647328b7c4ea300b1367fd/1?pq-origsite=gscholar&cbl=18750&diss=y

Runner up papers：

论文：User Behavior Modeling with Large-Scale Graph Analysis
作者：Alex Beutel
地址：http://alexbeutel.com/papers/CMU-CS-16-105.pdf

论文：Mining Large Multi-Aspect Data: Algorithms and Applications
作者：Evangelos E. Papalexakis
地址：http://www.cs.cmu.edu/~epapalex/proposal.pdf

Honorable Mention Papers：

论文：Computational Lens on Big Social and Information Network
作者：Yuxiao Dong
地址：https://curate.nd.edu/show/qj72p556t40

以下是机器之心对获奖论文的摘要介绍。此外，我们还介绍了 SIGKDD 2017 创新奖与服务奖的获得者。

最佳论文和最佳学生论文奖：Accelerating Innovation Through Analogy Mining

摘要：大型知识资源库（如美国专利数据库）的可用性提高可以显著加速人们发明和探索类似问题的进程。然而，想要在这些巨大、复杂的现实资源库（repositories）中寻找有意义的类推方式对人类和自动方法而言都是一个巨大的挑战。此前，我们使用的方法通常包含手动编写的带有高关联结构的数据集（如谓词演算表征），但这种数据集非常稀疏且昂贵。更简单的机器学习/信息检索相似性度量可以扩展到大型的、基于自然语言的数据集中，但很难应对结构的相似性——而这是类比的核心问题。

在本文中，我们探索了学习简单结构表示的可行性和价值，特别是在「问题模式」上，其中规定了产品的目的与达到目的使用的机制。我们的方法整合了众包模式与循环神经网络来提取产品描述中的目的和机制的向量表示。我们证明了，这些学习的向量可以让我们比传统信息检索方式更快、更准确地找到类比。在一个思维实验中，新模型检索的类比显着增加了人们产生新思想的可能性。我们的结果证明了新方法可以让大规模类比的计算适应弱结构表征。

最佳应用论文奖：HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network

摘要：随着安卓恶意软件的增多、对智能手机用户的危害越来越严重，对安卓恶意软件的检测已经成为网络安全的重中之重。而安卓恶意软件日益增长的复杂性，要求我们创造出新的技术对抗新的威胁且难以入侵。在此论文中，为了检测安卓恶意软件，我们不只是调用 API，而是进一步分析它们之间的不同关系，创造更高级别的语义，从而使得攻击者入侵检测需要花费更大的努力。我们将安卓应用、相关 API、以及它们之间的丰富关系表达为一种结构化的异质信息网络（Heterogeneous Information Network/HIN）。然后我们使用基于元通道（meta-path）的方法表征 app 与 API 之间的语义关系。我们使用每个元通道在安卓 app 上公式化类似的测量方法，并使用多核学习（Multi-kernel learning）收集不同的类似点（similarities）。然后，每个元通道被学习算法自动赋权，从而作出预测。据我们所知，这是首个使用结构化 HIN 网络进行安卓恶意软件检测的工作。我们在 Comodo 云安全中心收集的真实样本上进行了综合实验，旨在对比不同的恶意软件检测方法。有潜力的实验结果表明，我们开发的系统 HinDroid 超越了其他安卓恶意软件检测技术。

最佳博士论文奖：Local Modeling of Attributed Graphs: Algorithms and Applications

摘要：具有关联节点、原始链接信息的现实世界图正在变得越来越普遍。例如，社交网络既包含亲友关系，也包含人口统计、兴趣等属性；一个蛋白质相互作用的网络（protein-protein interaction network）不仅可以具有相互作用的表示，还可以显示相互作用的级别。这样的信息可以由使用节点表示对象的图来表示，而图的边代表互相之间的关系，节点相关的特征向量代表属性。

这种图数据通常被称为属性图（Attributed graph）。本文着重于开发适用于属性图的可扩展算法和模型。在这里，数据可以看作是离散的（一组边），或是连续的（嵌入式节点之间的距离），我从两个角度考虑了这个问题。具体来说，我提出了一种在线学习算法，它利用深度学习中的最新进展来构建多种图嵌入。使用这种新方法编码的多尺度社会关系对于网络中的多标签分类和回归任务都是可用的。我还提出了离散图中异常社区得分的局部算法。这些算法可以发现图属性的子集，最终发现社区（例如社交网络上的共同兴趣）。

本论文中所有方法的可扩展性都是通过利用图基元（Graph primitives）的限制集合来保证的，如自我中心网络和截断随机游动，它们可以利用每个顶点周围的局部信息。此外，对于限制图依赖性的范围，我们考虑使用新方法在 MapReduuce 和 Spark 上对常见内容进行大数据处理。

这项工作在数据挖掘和信息检索等应用领域领域前景广阔，其中包括用户分析/人口统计推理，在线广告和欺诈检测等。

2017 SIGKDD Test of time award

康奈尔大学 Thorsten Joachims 的《Training Linear SVMs in Linear Time》获得了该奖项。

论文地址：https://www.cs.cornell.edu/people/tj/publications/joachims_06a.pdf

摘要：线性支持向量机（SVM）已经成为了高维稀疏数据空间中最杰出的机器学习技术之一，它通常应用于如文本分类、词义消歧和药物设计等领域。这些应用都涉及到巨量的样本 n 和巨量的特征 N，每一个样本只有 s < < N（s 远小于 N）个特征是非零特征。该论文展示了一种训练线性 SVM 的截平面算法（Cutting-Plane Algorithm），该算法经证明分类问题的训练时间只需 O(sn)，有序回归问题的训练时间为 O(sn log(n))。该算法基于一种 SVM 优化问题的替代但等价公式化方法。经验上，截平面算法要比如 SVMLight 那样的分解法在大数据集上快几个数量级。

2017 SIGKDD Innovation Award

ACM SIGKDD 新一任主席、加拿大西蒙弗雷泽大学计算机学院裴健教授

裴健（Jian Pei）是加拿大西蒙弗雷泽大学计算机学院教授、IEEE Fellow，他的研究主要集中在开发针对新型数据密集型应用的高效数据分析技术。裴健教授的研究领域包括数据挖掘、联机分析处理、数据仓库、web 搜索、信息检索、医学信息学、商业智能等领域中的应用。2000 年以来，裴健教授发表了 200 多篇论文，也多次担任国际会议的程序委员会委员和组织委员会委员。

裴健教授获得了许多研究奖项，包括 2015 ACM SIGKDD Service Award、2014 IEEE ICDM 研究贡献奖、IBM Faculty Award（2006）和 KDD 最佳应用论文奖（2008）、PAKDD 最佳论文奖（2014）、PAKDD 最具影响力论文奖（2009）和 IEEE 杰出论文奖（2007）等等。

裴健教授因为「在数据挖掘及应用领域的基础研究，尤其是模式挖掘与空间数据挖掘方面做出的杰出贡献。还有已经被业界广泛接受和应用的数据挖掘方法」而获得此项荣誉。

2017 SIGKDD Service Award

香港科技大学杨强教授

杨强，第四范式联合创始人、首席科学家。杨强教授在人工智能研究领域深耕三十年，是国际公认的人工智能全球顶级学者，ACM 杰出科学家，两届「KDD Cup」冠军。现任香港科技大学计算机与工程系主任，是首位美国人工智能协会（AAAI）华人院士，AAAI 执行委员会唯一的华人委员，国际顶级学术会议 KDD、IJCAI 等大会主席，IEEE 大数据期刊等国际顶级学术期刊主编。杨强教授在数据挖掘、人工智能、终身机器学习和智能规划等研究领域都有卓越的贡献，是迁移学习领域的奠基人和开拓者，他发表论文 400 余篇，论文被引用超过三万次。

杨强是多本国际期刊的编委，是 ACM TIST 的创始主编，是 IEEE 大数据期刊创始主编，还是 IEEE Intelligent Systems，IEEE TKDE (2005-2009)，AI Magazine 等期刊的编委。此外，他也是很多人工智能和数据挖掘相关会议的组织者以及程序联合主席，如 2012 年在北京举办的 ACM 国际数据挖掘大会（KDD) 的会议主席，以及 ACM KDD 2010，ACM RecSys 2013, ACM IUI 2010，ICCBR2001 等会议的主席。他是国际人工智能大会（IJCAI) 的董事会成员和 2015 年在阿根廷举办 IJCAI 会议的程序委员会主席, 同时在 2016 年被选为 AAAI 执行委员会委员。

据颁奖现场，杨强教授因为「在研究和发展数据挖掘和人工智能领域所做出的杰出贡献」而获得此项荣誉。