今日头条为何要与CAAI、IEEE中国办一场事关问答的国际机器学习竞赛?

作者: 赛先生

来源: 今日头条

发布日期: 2016-12-09

今日头条联合IEEE中国和中国人工智能学会举办了一场为期三个月的国际机器学习竞赛,旨在提高将用户问题推送给专家的效率。比赛吸引了超过1600名专家和学生参与,任务是建立模型预测专家回答问题的概率。比赛结果将反馈到头条问答项目中,并推动相关学术与应用领域的发展。

网络约车普及后,出租车司机的现状如何?退伍军人在什么情况下会被召回?为什么政府今年要大力推动银行投贷联动?以上这些针对性更强,依靠搜索引擎无法解决的问题来自今日头条新上线的头条问答项目。

为了更有效率地将普通人的问题推送给愿意回答的专家,今日头条联合IEEE中国(电子电气工程学会)以及中国人工智能学会于8月15日举办了一场为期三个月的“极客马拉松”——2016 Byte Cup国际机器学习竞赛,截至11月中旬比赛结束,已经吸引超过1600名机器学习领域的专家与优秀学生参与。本次比赛的任务是建立模型,预测专家可能回答某一问题的概率。

为了更好的模拟现实情况,这次比赛所使用的数据,全部来自于头条问答的真实用户数据。人工智能学会是国内人工智能领域最有影响力的学术组织,IEEE则是国际上最具权威性的学术组织,是现今无线局域网标准的制定者。为什么企业和学界会联手办这样一场比赛?他们如何看待当下的人工智能热潮?头条问答中的实际问题得到解决了吗?

我们和这次比赛程序委员会的两位资深委员,今日头条实验室负责人李磊博士、今日头条算法架构师曹欢欢聊了聊。今日头条为什么会想到举办这样一场机器学习竞赛?又为什么选择与中国人工智能学会、IEEE中国合作?曹欢欢:坦率的说,举办这场比赛的原因与这个比赛的任务是一样的。头条在今年4月上线了“头条问答”这个项目,技术方面的一个重要问题就是更好地解决“将用户的问题推送给愿意回答的专家”这个事情。

所以我们就想不如开放我们的数据,办一个相关的机器学习竞赛,和学界以及业界朋友进行更多的交流,顺便也挖掘一下相关的技术人才。后来我同清华大学计算机系的唐杰教授交流了一下这个想法,他曾经参与主办过国际最顶级的数据竞赛KDD(国际知识发现和数据挖掘竞赛),我们也是很多年的老朋友了。他听后觉得非常不错,就推荐了IEEE中国的朋友给我认识,说大家可以一起做一下这件事,做得更大,更有影响力一点儿。

中国人工智能学会是李磊博士那边联系的。李磊:是的,和中国人工智能学会的合作也比较偶然。我是在一次学术会议上认识了中国人工智能学会的朋友,聊天时提到了我们打算办这样一个比赛,当时他们就表现出了兴趣。除了唐杰教授外,我们三方也一起联系了很多学术界的朋友包括清华大学的张钹教授,罗格斯大学的熊辉教授等等机器学习领域的专家作为竞赛的评委并成立竞赛委员会。目前比赛已经结束,参赛选手的水准和答题质量怎么样?

曹欢欢:目前各参赛选手的解决方案还未提交,只得到了选手的分数和排名。本次机器学习大赛吸引了国内外约1000只队伍1600位选手参加,竞争十分激烈。比赛前期从8月15日——11月11日都是训练期,你也可以理解为模拟,这个过程中选手可以随时提交验证集的预测结果,我们每周都会评选周冠军(这个不计入最终比赛结果),这个周冠军每周都会变,大家的差距可能只是小数点后三位,还是很不错的。

比赛过程中参赛团队可能面临的技术挑战主要有哪些?曹欢欢:参赛团队面临的挑战,首先是对新问题的建模能力,能不能把用户的问题转化为数学问题?其次是对主流机器学习方法的了解程度,绝大多数问题需要结合矩阵分解、协同过滤、logistic回归、深度学习等多种方法才能做出比较好的模型。另外,参赛选手还需要具备比较强的动手能力,能够快速编程,不断试错,从而设计出一个最准确的模型。

因为比赛时间有限,并且没有限制统一的参赛时间,很多选手可能是比赛中段才加入,如果想取得好成绩,这方面要求很高。另外,与传统比赛不同,这次更强调使用机器学习解决实际问题的能力。那么比赛最终的结果对问答项目有改进吗?李磊:最终的结果当然会反馈到头条问答项目的实际操作中。我们12月17日将举办这次比赛的颁奖仪式,届时我们的算法工程师会和获奖选手做进一步的交流,改进我们的方法。

另外,我们也在和人工智能学会通讯杂志合作,邀请获奖选手在上面发表学术论文,介绍比赛当中使用的具体研究方法,推动相关的学术与应用领域的研究发展。结合比赛结果两位觉得当下国内人工智能人才和国外相比水准如何?李磊:前十名的选手中既有国内的优秀学生也有来自美国顶尖高校的研究人员。

事实上,因为目前国内外都十分重视人工智能领域的发展,也都在做更多的创新和探索,因此国内同样有很多顶尖的人工智能人才,这一点上,国内外并无二致。并且目前国内在互联网技术方面有更多的机会,对相关的技术人才也有更大的需求。包括今日头条实验室,也在机器学习、自然语言理解、计算机视觉等方向做更多的探索,非常欢迎相关领域的人才加入我们。

曹欢欢:我个人认为中国年轻一代的人工智能人才的水平并不亚于美国,甚至可以说达到世界前列。这一点从诸如NIPS、ICML等等世界顶级的学术会议中中国人的得奖状况和发表论文数量就可以看出。这个趋势从2005年我在读博的时候就有了,当然这和各大高校逐年加强海外交流并且更加关注产业发展都不无关系。对于机器学习技术,今日头条实验室的关注重点是什么?之后的数据竞赛还会是问答的数据吗?

李磊:头条实验室目前重点关注的三个方向,分别是机器学习、自然语言理解和计算机视觉。此外,头条实验室还比较关注概率程序语言(PPL)的推理。概率程序是一种知识表示框架,它的核心思想是能够设计出一种程序语言,让很多不是特别了解机器学习的人都可以拿来描述他们领域里需要处理的问题。其实人工智能需要研究的内容还有很多,头条实验室自己也还在探索之中,很多问题都很难,我们是在黑暗中去寻找一点光明。

曹欢欢:比赛结束后我们的数据已公开,也提供在线评测的平台,大家可继续在这个问题上作研究。至于未来的比赛,我们可能会利用机器学习解决另外一些问题,不一定是问答,可能是其他有意思的问题,比如推荐数据、评论识别或者作弊用户识别等等都可能尝试。敬请期待吧。从今年Alphago战胜李世石开始,几乎所有的公司都在谈人工智能和机器学习,你们怎么看待这股风潮?

李磊:实际上人工智能的发展历史已经有几十年,机器学习是人工智能的一个分支学科,主要研究的是让机器从过去的经验中学习,对数据进行建模,然后对真实世界中的事件做出决策和预测。就我自己看来,现阶段机器学习在应用层面能够解决的比较好的问题,应该满足三个标准:频率高、代价低、决策轻,比如打车用算法来分配派单,这是一个高频事件,即使派了比较远的,问题也不会特别大。

曹欢欢:机器学习,包括深度学习都不是特别新的概念,只不过近年来,技术、硬件包括数据的发展让机器学习到了一个里程碑的新阶段,开始离实用更近。其实国内很多公司很早就在应用层面做相关的工作。比如2009年百度推出的广告系统凤巢就是依托于机器学习,并且为其带来了明显的收入增长。我们今日头条也是这样,2012年成立的时候就是用机器学习来进行个性化的内容分发。那时候机器学习这个词在大众层面还很少有人谈论。

Alphago成功以后,很多人都在谈机器学习,还有Alphago应用的深度学习技术。当然,深度学习技术在图像识别、语音识别方面都取得了突破性的进展,但是目前单纯依靠深度学习技术的商业收益仍不明朗,很多行业对人工智能的期望值过高了。

UUID: b06737d8-2737-482c-a9a3-a690962ed96e

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/赛先生公众号-pdf2txt/2016/赛先生_2016-12-09_今日头条为何要与CAAI、IEEE中国办一场事关问答的国际机器学习竞赛?|推荐.txt

是否为广告: 否

处理费用: 0.0062 元