大规模开放在线课程,又称慕课(英语:Massive Open Online Course/MOOC),是一种针对于大众人群的在线课堂。自2008年诞生以来,它通过开放教育资源,已经服务了全球超过1亿人次的网络学习者。MOOC强调知识的开放共享,其参与者不只是在校学生,更包括了其他年龄层的用户。
因此其课程设计更注重于服务广泛的、需求多样的参与者;课程内容也更加多元化,不仅涵盖前沿的学科知识,也包含很多实用的职场、生活技能。
除了吸引经济学,教育学、心理学相关的研究,MOOC这种大规模的交互式的知识分享平台更在近年来受到人工智能领域的关注,成为探索“AI+教育”应用和方向的一个良好的实验田。关于MOOC的知识挖掘,教学资源推荐,学生行为预测、干预等研究近年来如雨后春笋般涌现。
为了进一步方便相关研究者,增加数据共享和推动行业标准化,清华大学知识智能研究中心联合学堂在线发布了大规模MOOC知识资源库MOOCCube,旨在提供一个数据充分、高质量、高关联的MOOC数据资源以服务在线教育智能化研究。
在MOOCCube发布同期,清华大学联合学堂在线发布了MOOCCube学习行为预测挑战赛,将于5月底正式开始接受社会各界优秀选手报名组队。比赛数据来自MOOCCube,要求参赛队伍针对真实教学场景中的学生行为问题,进行预测和分析。最终获胜的队伍将获得主办方提供的奖金。
MOOCCube收集了来自真实教学环境的数据,主要包括三个维度:课程资源,知识概念,学生行为记录。
其中,课程资源是MOOC的学习资源,一门课程一般由多个视频、学习资料等组成;学生行为则是收集的数十万用户的选课、视频观看等细节行为的记录,可以直接链接到课程资源部分。
此外,MOOCCube根据课程及学生资源、联合了多个外部知识库,如大规模跨语言知识图谱XLORE, 维基百科,百度百科,学术知识服务平台AMiner等,构建了针对在线教育的大规模知识概念图谱,从而将以上两种类型的数据资源有机结合,使得MOOCCube内部的实体间关联非常丰富。
MOOCCube不仅包括课程、概念、学生等基础实体,更包含授课教师、开课机构、概念的相关论文等相关实体;同时,还提供了大量的课程内容语料、概念上下位、先后修关系、用户的画像等资源。研究者可以通过对这些资源的不同组合使用,给诸如学生行为预测、智能知识推荐、课程概念挖掘、先后修关系推荐等多样的相关任务生成数据集,以支持所关注的MOOC特定任务研究。
与其他在线教育相关知识库、数据集相比,MOOCCube更加专注于同一个慕课平台下的细节数据,尤其重视知识体系的梳理以及包含实体间的关联性,而非是简单的资源收集和对齐,具体来说,本次发布的MOOCCube具有以下特点:丰富的课程学习资源:MOOCCube中收录的课程,除了保留课程以及授课教师、开课机构等整体信息之外,还提供了课程所包含的每一个具体视频以及视频的字幕文本语料。
这些文本语料根据讲课情况,精确到毫秒保留了实际视频中的字幕对应,研究者可以从这些数据中更准确地完成课程内容的挖掘和链接。
完整的概念术语体系:从课程资源的文本出发,MOOCCube进行了课程知识、学科知识的挖掘和分类。除了抽取来自课程本身的知识点之外,MOOCCube还根据课内知识,利用外部知识库进行课程的知识补充。这些知识不仅保留概念本身,还包含其释义,发布来源,学科分类等相关信息。
对于每一个知识概念,MOOCCube提供了来自学术知识挖掘平台AMiner推荐的与其最相关的10篇论文,作为进一步的资源补充。MOOCCube同时构建了概念间的上下位关系、先后修关系图谱,由此为概念之间的关系挖掘以及知识驱动的应用研究提供背景知识。这些概念间的关系在挖掘后经由众包标注、专家审核阶段,在保证规模的同时注重质量。
精确的用户行为记录:由于MOOCCube采用来自同一平台的数据,其用户的行为记录具有较大的关联性可供挖掘,即同一用户的多个课程中、多个学习资源中的行为都被归纳和整理到其行为记录数据中。MOOCCube记录了用户细节的学习行为,如对于特定课程视频,用户观看视频的范围精确到秒,通过对细化的学习行为进行分析,可以为提供精准的学习建议提供帮助。
为方便研究使用,MOOCCube的用户行为全部经过了匿名化处理,完成了数据脱敏。
MOOCCube的大规模与多维度:MOOCCube包含706门真实在线课程、38,181个教学视频、106,056个概念、199,199名MOOC用户的数十万选课、视频观看记录,一个由概念间的先后修,上下位等关系的概念图谱以及包含数十万篇与课内概念有关的学术论文资源的补充资源库。与目前已公布的其他在线教育相关数据集相比,MOOCCube不仅包含的数据规模更大,而且提供了更多维度的数据。
目前,MOOCCube的数据已经向全社会公开资源,团队欢迎各界对在线教育有兴趣的研究者下载数据使用。其资源目前发布于THU-MOOC团队的网站下,发布链接为http://moocdata.cn/data/MOOCCube,链接中包含了更多关于此资源的介绍和说明。
对于数据的来源,收集,标注等相关工作,更多内容请关注ACL2020的论文: MOOCCube: A Large-scale Data Repository for NLP Applications in MOOCs 论文下载链接: https://lfs.aminer.cn/misc/moocdata/publications/ACL20_Yu-et-al-MOOCCube.pdf
本比赛包括两个赛道:赛道一:学生学习行为预测已有研究表明,虽然用户参与MOOC学习的热情很高,但是中途退课或放弃学习的行为占比极高,如何根据用户学习行为预测未来的退课行为是进行有效教学引导的一个重要挑战。本赛道提供了用户学习中的细节行为信息,连同课程的知识概念体系,学生学习行为预测的目标是预测用户对于指定课程的退课行为。赛道二:学生做题正确性预测做题和考试是衡量检验学生知识掌握水平的重要方式。
在MOOC时代来临的当下,如何更好地自动进行学生知识的评估是一个重要的挑战。尤其是MOOC中,学生的做题行为远不如视频观看等其他行为丰富,能否利用MOOC中学生的学习行为,去衡量学生的知识水平,从而预测学生对于特定问题的回答情况呢?本赛道提供了MOOCCube中的知识体系,做题记录,学习行为记录等诸多信息,参赛选手的任务是预测用户对于指定的题目,是否能够回答正确。
以上竞赛将于本月底正式开始组队参赛环节,赛事奖金丰富,欢迎社会各界优秀选手参赛,为解决实际在线教育中的难题提供优质解决方案!评价方法与赛程安排详见如下赛事主页:赛道一:https://www.biendata.com/competition/mooccube_1/ 赛道二:https://www.biendata.com/competition/mooccube_2/