去年年末,日本政府宣布要用AI给民众匹配交往对象,这一新闻一出,引得吃瓜群众纷纷上线。虽然现在想来仍然感到魔幻,但在文摘菌报道的文章下方,也有读者一针见血地留言指出,这不就是交友软件么?文摘菌转念一想,那也就是说,人们很有可能仍然会不顾一切地包装自己,“见光死”的现象并不会得到根除。这个时候,其实只需要哆啦A梦的真假嘴道具就行了。
最近,日本早稻田大学的一个学生团队就把“真假嘴道具”现实化了,并且他们还凭借此获得了“第二届数据科学竞赛”的最高奖。简单来说,他们主要是通过注册时让用户填写的问卷,对用户在“上进或稳定”“个人或群体”“工作或爱好”三个维度上进行分析,从价值观入手,预测每个人独特的行为方式,从而达到高精度的匹配效果。
从结果上看,利用交叉验证得出的正确率达到了75%,虽然看上去还有很大的改进空间,但考虑到实验数据主要是基于一些企业提供的消费者数据,也可以说十分优秀了。
而且,这个学生团队总共就只有4个人,从大二到研一,是不是感觉更厉害了?我们都知道,在交友软件上进行匹配的话,系统都是根据用户自己提供的照片和填写的兴趣爱好等特征做出匹配结果。
但不少人也正是利用到了这一点,为了能够和更优秀的人匹配上,不断地在交友软件上粉饰自己,一发不可收拾。有没有什么方法能杜绝这种现象呢?在发表研究提案时,大三学生字井崇晴提到了一个关键点,在一篇营销学论文上,研究人员写过这么一句话,“价值会影响消费者的行为”。同队的其他成员表示,“价值观这种东西,很多人可能自己也说不怎么上来,因此可能存在有意无意的撒谎行为,如果是这样的话,匹配效果就会非常不理想”。
于是,在开发初期,他们从主办方提供的大量数据中提取了约60项内容,例如“爱好是什么”和“喜欢观看什么样的运动”,并通过应用称为主成分的统计处理将信息压缩为三个维度进行分析,这三个维度也就是“上进或稳定”“个人或群体”“工作或爱好”。当他们通过交叉验证方法确认所创建的模型时,发现模型的正确率达到了75%。研究团队负责人原健人说到,这表示,基于价值观的匹配比基于可以作假的问题的情况要准确得多。
在决定了“基于消费行为来猜测三轴值”的策略之后,研究人员尝试使用线性回归和随机森林等各种模型来分析数据,从结果上看,算法LightGBM是精度最高的。对于适当的目的变量的提取,也是在不断的试错中进行的。如果后续该应用程序得以发布,通过接收用户的反馈来获取新的数据的话,那么匹配的精度还会进一步提高。
这次的数据科学竞赛,早稻田大学提供了由微软为分析环境开发的基于云的机器学习平台“Azure ML”。
之所以决定使用这个平台,一是因为它有一个“设计师”功能,可以让不习惯编码程序的学生通过拖拽的方式建立分析模型,二是它可以安全地在云端完成对敏感和庞大调查数据的处理。在上述交友软件的开发过程中,学生团队就使用“Jupyter Notebook”编写了用于Python分析的代码,该代码可以轻松地在Azure ML上编写和执行代码。由于分析数据量很大,在PC的本地环境中就资源而言很难处理。
此外,由于数据是从实际调查表中获得的,因此大学方面希望避免在本地下载。Azure的功能与本地分析环境几乎相同,并且可以执行从数据存储到云分析的所有操作,也符合本次竞赛的需求。团队中负责应用程序开发的铃木说:“我可以立即共享无法在本地保存的数据或想要在线共享的数据,这是一个优势。”
作为竞赛的组织者,数据科学中心的小林学教授表示,“如果你是从头开始安装和设置工具,门槛自然是很高的。
此外,为了提高利用分析的能力,Azure ML将为学生提供最新的分析环境。在设置使用量的上限的同时,可以灵活地扩展规格,同时观察学生的使用情况,这也是云技术独有的优势”。该竞赛的宗旨是将数据科学和各专业领域的知识相结合,来创造新的研究和知识,其目的是通过实际数据的处理来提高数据科学的相关技能,提高学生的能力。
商学院的守口刚教授说:“我们看到每个团队在参加比赛时都使用自己的特殊技能,这取决于他们的专业,但都相当有趣。”例如,参加比赛的一名理工科学生建议使用一种在商业中不广为人知的最新机器学习方法。商学院的学生擅长将分析结果与商业和营销建议联系起来,“这些方法和观点都给我留下了深刻的印象”。数据科学中心的野村亮教授说:“当有机会接触到实际数据并获得结果时,学生将变得更有动力并成长。
”“明年希望能吸引到更多学生来参加”。有技术,有真实数据,希望以后在国内,也会有更多脑洞大开的AI被开发出来。