冠军奖30万!刘强东搞了个“猪脸识别”比赛,中美两地同时启动(附比赛详细日程及赛题说明)

百家 作者:AI100 2017-11-06 12:44:02


编辑 | Katerina Donna

润色 | 鸽子



11月6日,由京东金融与红杉资本联合主办的首届“JDD-2017京东金融全球数据探索者大会”在751大罐举行,同时,大会宣布首届“JDD-2017京东金融全球数据探索者大赛”也于今日开始,在中美两地同步启动。


为了这个大赛,京东金融真是不惜下了血本了。


首先是京东的当家掌柜也亲自来给大会站台。京东集团董事局主席兼首席执行官刘强东在会上特别说到:“随着公司不断做大,我们在行业内做的越来越深入,无论是从全球范围还是从整个国家来看,我们都确实需要一个庞大的生态体系,只有这样整个行业才能逐步健康和健全起来。正是基于企业壮大后,做开放的生态系统的心态,京东金融携手红杉资本举办了此次JDD大赛。”


在东哥的演讲中,请注意他提到的生态体系。换句话说,京东如今的体量,它要做的不是某项具体的业务,而是要专注于赋能,不断增强内力,修炼内功。而如今,最重要的内功是什么呢?如何更好地赋能呢?


“科技赋能”,刘强东说到,“在这个时代,AI既是一种技术,也是一种思考方式。”



结合到本次比赛,AI正是刘强东当下最重要的内功,那么很自然,选拔AI人才必须是件刻不容缓的重要事儿。



JDD大赛到底玩什么?


于是,结合京东最紧要的业务,一场关于AI人才选拔赛拉开了。这次比赛规格相对比较高,同时中美两地进行。


由于金融业务是京东未来最大的发力点,因此,此次比赛主要瞄准金融业务,涉及四大选题:


  • 登陆行为识别

  • 店铺销量预测

  • 信贷需求评估

  • 猪脸识别


大赛将选手划分为两个组别,分别是商业组和算法组。



为了更好地辅导选手,本次大赛引入了导师制。导师将为选手提供48小时贴身辅导。


其中,商业组总决赛导师分别为:


  • 登陆行为识别的导师——TalkingData首席执行官 崔晓波

  • 店铺销量预测的导师——红杉资本中国基金专家合伙人 车品觉

  • 信贷需求评估的导师——微软亚洲研究院城市计算领域负责人、美国计算机学会杰出科学家 郑宇

  • 猪脸识别的导师——国际人工智能联合理事会主席、香港科技大学计算机科学及工程学系主任 杨强


此外,大赛的评委包括:


  • 陈生强——京东金融CEO 

  • 侯晓天——天灏资本首席执行官 

  • 胡莹——中国银联助理总裁 

  • 马宁——领沨资本创始合伙人 

  • 沈南鹏——红杉资本全球执行合伙人 

  • 唐杰——清华大学计算机科学与技术系副教授、系科研办公室主任 

  • 卫哲——嘉御基金创始合伙人兼董事长 

  • 周涛——电子科技大学 互联网科学中心主任

  • 周炜——创世伙伴资本创始主管合伙人


不得不提的是本次大赛的奖金:上个图先



其中,商业组冠军1名,奖金30万,算法组冠军共4名,每名获得30万奖金。


30万啊,这可是国内人工智能大赛单项最高奖金纪录,除奖金外,获胜团队有望对接到相应的投资。


值得一提的是,本次JDD大赛中一道关于“猪脸识别”的赛题,真是别具一格,来看看这具体是一道怎样的别致赛题:



别具一格的赛题——猪脸识别


说到“猪脸识别”,还要从一个故事引入。话说,家住北京周边的养猪专业户老张最近遇到了一个难题,经过多年的辛苦劳动以及经营,他家的养猪场规模也是越来越大,猪的数量从原来的几头发展到现在的上百头。


看着这么多的肥猪,老张心里美滋滋。可是伴随着猪对的数量增长,让人发愁的事情也随之而来。这些猪的体型都很相近,老张想要清晰的分辨出每头猪变得越来越困难。


可是,为了了解每头猪的状态,他又必须得认清每一头猪,此猪而非彼诸。



怎么办呢?


要分辩不同的人,有人脸识别;同理,要认清不同的猪,就整个猪脸识别呗!(猪也是这么想的)


那京东为什么花大力气来做这个赛题呢?它能得到什么好处?


在JDD-2017 京东金融全球数据探索者大会上,国际人工智能联合会理事会主席、香港科技大学计算机科学及工程学系主任杨强对于“猪脸识别”是这么看的,“首先我们可以获取大量数据,而不用担心隐私问题,我们想猪可能不太关心隐私。此外,这涉及到一个活体识别的问题,背后确实存在一个商业场景的问题。”


也就是说,好处有三:


  • 第一,隐私的问题将不存在;

  • 第二,可以更好地研究活体识别;

  • 第三,没准能将此经验复制到其他场景。


那么,其中的经验到底还可以应用于哪些场景呢?关于这个问题,营长目前还没有得到满意的答案。


通过猪脸识别,养猪户老张能得到什么好处呢?


杨强提到,AI能轻松地帮他鉴别出,不同的猪只在养殖过程中的各种活动,于是,老张能看到这个猪是不是活跃,是不是萎靡,如果是一只非常不爱动的猪,就可以在一定程度上对它的健康作决策,继而保险就可以做出相关预测。


再者,消费者可能喜欢不同类型的猪肉,这又是对猪的鉴别衍生出的个别化需求。


别看它就是一只猪,这其中可既有深度学习的应用,又有商业应用,既有趣,又极有未来潜力。



想来认猪吗?今天就可以报名啦。


官方消息显示,自11月6日开始,参赛团队就可以通过“JDD—2017京东金融全球数据探索者大赛”官网进行报名。



本着体贴周到服务读者的原则,营长在此将比赛有关的所有重要信息,包括所有赛题的背景及相关重要信息罗列如下,希望对你有所帮助。



比赛详细信息


比赛日程(重要的时间节点请注意)


11.06-11.20——报名。参赛选手通过「JDD—2017京东金融全球数据探索者大赛」官网进行报名 报名成功后即可进入选拔赛。


11.09-12.12——选拔赛 。根据赛题通过机器评分选出16名参赛选手入总决赛


12.15-12.17——总决赛。16名进入总决赛的选手线下封闭48小时(通过相关材料、数据的提交以及现场展示等环节,分数由评委打分综合决定,选出冠亚季军, H5投票现场截止,投票最高者获得最具网络人气奖。)


评审标准


选拔赛——通过机器评分选出TOP16


总决赛——由评委根据demo和BP打分排名,打分标准为技术(20%)、创新性(30%)、商业价值(20%)、潜在市场(20%)、现场表现(10%)

网络人气奖——由H5投票最高者获得。


关于“猪脸识别”题目的其他问题


本赛题需要参赛者设计一个算法,能够通过猪的照片来正确的辨别每一头猪的身份。训练数据训练数据包含30头猪的视频素材,每头猪对应一个文件,时长约1分钟,文件名即为猪的编号。参赛者需自行决定如何从视频中获取图像数据。


评测数据测试数据为30头猪的照片3000张,参赛者需要用算法来区分这些照片上的猪的身份,即预测每张照片属于每个类别(猪)的概率。本赛题AB榜评测数据各包含3000张照片,B榜照片的下载将在B榜开放当天挂出来。


根据参赛者提交的图片分类概率,按如下公式计算得到分数,其中N为测试图片的数量,M为分类的数量,pij 为预测图像i是第j头猪的概率,为防止出现计算异常,计算时会将p替换为max(min(p,1-10-15),10-15),yij 为图像i的真实分类,即如果图像i是第j头猪,则y=1,否则y=0:提交要求提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含三列:图片号(id),猪的类别(pig_id),分类概率,必须包含测试集中每张图片属于每个分类的概率。


关于信贷需求预测的赛题


通常来说,开展信贷业务不仅需要评估客户的风险水平,还需要对客户的借款需求进行预测,做好资金额度与需求的匹配才能提高资金利用率,降低成本并增加收益,因此预测用户的信贷需求是金条产品运营的核心问题之一。


该赛题需要通过竞赛数据中的用户基本信息、在移动端的行为数据、购物记录和历史借贷信息来建立预测模型,对未来一个月内用户的借款总金额进行预测。


其中包含了各种维度的序列数据、品类交易数据,参赛者可以采用各种类型的数据预处理算法、模型融合等技术来解决信贷需求这个关键的商业问题。


训练数据为2016-08-03到2016-11-30期间,用户在移动端的行为数据、购物记录和历史借贷信息,及11月的总借款金额。参赛者需要对每个用户(t_user表中的全部用户)在2016年12月的总借贷金额进行预测。


要求提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含两列:用户id(uid),预测的总借贷金额,其中用户id必须唯一,必须包含训练集中的全部用户。


关于店铺销量预测的赛题


对店铺销量进行预测是“京小贷”业务信用评估的关键环节之一,只有准确的预估店铺未来的销量,才能合理的设定贷款额度,提高资金利用率。


该赛题需要对店铺开展贷款业务需要定期测量和跟踪经营状况,对店铺销量进行预测是其中的关键环节之一,只有这样才能准确的评估其资金需求并设定合理的贷款额度。


通过竞赛数据中店铺过往的销售记录,商品信息,商品评价,以及广告费用等信息来建立预测模型,预测店铺未来90天内的销售额。


训练数据包含2017-04-30日之前270天之内若干店铺的每日订单量、销售额、顾客数、评价数、广告费用等数据,下架时间在2017-04-30之后或者未下架的商品数据,以及这些店铺2016年6月-2017年1月每月末后90天内的销售额,同时需要对每个店铺(训练数据中涉及的全部店铺id)在2017-04-30之后90天内的总销售额进行预测。


提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含两列:店铺id(shop_id),预测销量,其中店铺id必须唯一,必须包含全部店铺。


关于登录行为识别的赛题


大数据风控引擎会对用户登录后进行的每一笔交易进行评判,自动对疑似有风险的交易进行拦截操作。


登录识别的应用情景是在用户进行金融交易支付时,通过其近期的登录行为来判断本次交易的风险程度,进而及时拦截可疑的支付动作。


需要做到能够在常用的分类算法基础上,构建针对登录行为识别的、有业务可解释性的模型,对账户的登录行为进行评判。


训练数据包括2015年1月1日至6月30日的用户登录信息以及该时段内这些用户的交易风险标志,由于用户不会每次登录都发生交易,所以风险标志少于登录次数,需要自行决定如何将登录行为与交易行为进行关联。需要根据2015年7月1日至7月31日的登录行为信息,来预测这个时间段中每一笔交易的风险标志。


提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含两列:主键(rowkey),是否有风险(1表示有风险,0表示无风险),其中主键必须唯一,必须包含测试集中的全部rowkey。



最后的话


最后,营长想说,京东愿意这么大力来做这个比赛,营长内心是激动的。这是一个双赢。


对选手来说,大量的一手的高质量数据将被贡献出来,选手们不再是空中楼阁般地比拼武艺,而是能融入实际场景,解决实际问题。而一旦能以突破性的方式解决问题,团队不仅能得到重磅奖金,更重要的是,有希望能直接获得投资。


对于京东来说,信贷需求预测,店铺销量预测是需要升级的核心能力,把问题抛出来,在全社会的智慧中寻找最佳答案,无疑是最省事也是最省钱的方式。 如果看中了哪个团队,也可以直接投资,省去了自建团队的各种麻烦事。


在前不久,创新工场发起的AI challenger挑战赛,搜狗拿出大量数据供选手比赛,由于比赛的数据量大,而且质量高,在选手中颇得好评。


可以想见,由企业发起,解决实际问题的比赛,在明年还会越来越多。这是一个开放的信号:数据、资源、资金、人才、技术,一个都不能少,才能真正促进企业不断在AI的豪华军备升级中,拔得头筹。



资源推荐


重磅 | 128篇论文,21大领域,深度学习最值得看的资源全在这了

爆款 | Medium上6900个赞的AI学习路线图,让你快速上手机器学习

Quora十大机器学习作者与Facebook十大机器学习、数据科学群组

Chatbot大牛推荐:AI、机器学习、深度学习必看9大入门视频

葵花宝典之机器学习:全网最重要的AI资源都在这里了(大牛,研究机构,视频,博客,书籍,Quora......)

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接