吟过诗词文赋,熬过高数线代,品过经史子集,研过算法结构,啃过句法文法,train过神经网络。这是林子对自己本科生涯的速写。她的专业过于迷你,是北大中文系4个专业中最没有存在感的应用语言学(中文信息处理)。存在感有多低呢?每年毕业生不过4、5个,一些同学因为无法坚持转了出去,也有同学对中文专业情有独钟而转了进来,而林子是2015级学生中唯一从头到尾读下来的那个。
在这个文理交叉专业,她既要学习古代汉语、理论语言学和现代汉语语法研究,又要学习高等数学、程序设计和数据结构与算法。割裂,成了她的大学关键词。
林子闯出了一条自己的路径。大二开始,她在信息科学技术学院(下称信科)实验室实习,大三发了两篇AI顶会一作论文;毕业后去了硅谷的谷歌总部,在自然语言处理(NLP)研究部门从事了两年的全职工作,其工作还被收录进谷歌研究科学家Kevin Murphy的机器学习教科书;2021年,她回到了学术界,在美国加州大学圣地亚哥分校开始攻读计算机科学博士,3年来的论文被引用次数超过2000次。
虽然高中是理科生,但林子很喜欢文学,她还拿过新概念作文比赛的一等奖,由此得到了北大中文系自主招生的名额,并通过笔试和面试,最终获得降分录取。父母其实希望她读经济专业,以后从事金融,至少就业比较好。但林子觉得还是要从心所欲,于是坚定地扎进了中文系。只是没想到因为自己理科生的身份,被自动分到了应用语言学这个文理交叉专业,一个由中文系和信科共建的专业。
林子从大二就参与到计算语言所的一些科研工作中,其中有两项工作分别发表在自然语言处理领域很有影响力的两个国际会议上:一项工作是探索了汉语中介语语料库的语义角色自动标注;另一项工作是提出一种新的方法,将人工构建的关于汉语语素的语言学知识库跟深度神经网络中的词向量表示结合起来,改进了词向量表示在词义相似度计算任务上的效果。
林子说,因为应用语言学的规模过于小,大家的成长没有一个固定的可以借鉴的范式,这样你反而“更能够理解自己,探索自己的需求是什么,也能想明白自己为什么最终会选择继续读博士”。
詹卫东自1993年9月进入北大攻读硕士和博士。至今,他已经在语言与计算的交叉中碰撞了超过30年时间。为了开发机器翻译系统,詹卫东曾自学C++语言,程序中的很多问题都由他亲自解决。他的博士论文《面向中文信息处理的现代汉语短语结构规则研究》正是出自他在机器翻译中的工作总结与提炼,并获得了2001年全国百篇优秀博士论文奖。
入门计算语言学30年来,詹卫东一直在试图拆解语言,提炼语言规律,然后再组装回去应用。就像一直以来的还原论,这个过程是透明清晰的。然而,横空出世的大模型动摇了计算语言学家们的信念,语言知识的提炼在大模型这里毫无用武之地——只需要投喂足够的数据,辅以强大算力,就能得到鲜活的语言输出。
詹卫东说,最近领域内专家经常讨论这一情况,但并无明确应对之道。同行们对大模型还是了解得太少了,“去年一年大家都处在一种懵的状态,我们内部其实还缺乏更加深入的、更多的交流”。