当AI开始根据朋友圈推测成绩

作者: 娉娉

来源: 果壳

发布日期: 2020-12-10

俄罗斯国立高等经济学院的教授伊万·斯米尔诺夫开发了一款AI模型,能够根据社交媒体上的发帖推测学生的学习成绩。该模型通过分析词汇表和帖子内容,区分成绩不良和成绩优秀的学生准确率高达93.7%。

美美的自拍、爱豆的演唱会、自己做的美食、旅游风景、读书心得……你喜欢在社交媒体(如朋友圈、微博)分享什么?朋友圈本是自由自在(屏蔽老师和长辈后)分享生活和感悟的地方,然而万能(è)的科学家一番操作后,竟能根据朋友圈推测你的学习成绩!是不是顿时瑟瑟发抖?立马想删朋友圈?你还敢随心所欲地发朋友圈吗?

这款能够根据社交媒体上的发帖推测成绩的AI模型,由俄罗斯国立高等经济学院(HSE)的教授伊万·斯米尔诺夫(Ivan Smirnov)开发建立。要训练能推测成绩的AI系统,首先需要研究学业成绩与社交媒体帖子内容之间的联系。

斯米尔诺夫研究团队采用了国际学生评估计划(PISA,Programme for International Student Assessment)的标准,通过3门考试评测学生成绩:阅读、数学以及科学。不过,斯米尔诺夫团队把阅读成绩的权重提到了首要位置。

PISA将阅读素养定义为“理解、运用、反思和能够通过书面文本以实现个人目标,发掘个人的知识和潜能,并参与社会活动”,并认为这是在其他学科领域取得成就的基础教育制度,也是成功参与大多数成人生活领域的前提。PISA考试有6个等级,得分为2的学生被认为仅满足基本的最低水平,而得分为5或6的学生则被认为是优秀的学生。

接下来,斯米尔诺夫将研究样本来源定为VK(VKontakte,俄语:ВКонтакте),这是俄罗斯最受欢迎也是用户最多的社交媒体,被称为俄罗斯的Facebook,在俄罗斯的影响力等同于我们的微信、微博。研究团队从社交网站VK收集了3483个学生的公开可用信息,排除重复发布、自动发布的一些帖子外,最终选定2468个用户的130575个帖子为最终数据集。

为研究PISA成绩与VK帖子的相关性,研究团队最终选择开放的词汇分析,即从数据中提取模式并且不依赖任何先验词类别的词汇分析。研究团队利用VK语料库(总计19亿个单词,250万个不重复的单词)训练了一个线性回归模型,来推测报告作者的PISA分数。

AI通过机器学习后,可以分析学生发帖的词汇表,每个词都有相应的权重。通过一个人所发帖的所有词的权重,就可以分析推算其成绩。该AI显示,星座、大量的表情符号、感叹号、服兵役、驾驶以及用大写字母写的单词或短语等,都与成绩优秀呈现负相关,即帖子里大量包含这些内容可能表明发帖人学习成绩不好。而当帖子里包含大量科学、文化、拉丁文、长单词、词汇量多的长句子,则可能表明发帖人成绩优秀。

运用该AI系统推测学生成绩,区分成绩不良(低于2分)和成绩优秀的学生准确率高达93.7%。不过如果你在社交媒体发帖量很少,该AI在推测你的学习成绩时便存在一定的误差。你是不是正在想,幸好这个AI分析的不是微信朋友圈和微博。不过,万能(è)科学家已经将此AI运用到了Twitter,发现此AI在Twitter上依然可以成功应用——所以这个AI训练后可以被广泛应用。

在征服俄语世界的VK以后,该AI模型又轻易征服了英语世界的Twitter,看来中文世界的微信和微博也岌岌可危了。研究者还表示,这个AI还可以被用于预测发帖者的抑郁程度或收入水平。想到以后录取前/录用前,老师或面试官先用这个万能(è)AI 检测一下你的朋友圈的可怕未来……我果断点了仅三天可见保命。

但是这个AI并不能推算所有人的学习成绩,毕竟还有一些虽然游戏玩得飞起,期末考试仍然血虐别人的学神,以及每天都说自己在聚餐玩耍,实则一整天泡在图书馆的学霸。不过有一点可以确定,多转发果壳的科普,可以提高学习成绩。

UUID: f9c4101c-160e-43db-9c0a-66cf1eb852bb

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2020/2020-12-10_爱发表情包的不是好学生?当AI开始根据朋友圈推测成绩.txt

是否为广告: 否

处理费用: 0.0040 元