今年7月10日是我和老公结婚一周年纪念日。从年初开始,我就一直在思考该送他什么礼物——既有创意又能让他喜欢。4月初,小红书上一则“学霸给女友写了一篇缓解身材焦虑的论文”的帖子,让我顿生灵感:我也要给老公写一篇paper!这有一层“双关”的妙意:在一些文化里,结婚一周年被称作Paper Anniversary(纸婚),夫妻双方会互赠纸制品作为礼物,paper完美贴合主题。
本着对老公的爱与对学术的热忱,我开始了为期三个月的论文准备。期间,先后经历了确定主题和研究方法、自学中文自然语言处理、研究分析、写初稿、找朋友们peer review,以及展示的全套过程。
整篇论文的重中之重,在于数据分析环节。第一步是收集数据,这往往也是数据科学家们最头疼的一步。初始数据通常庞杂、未经整理,像座年久失修的旧仓库,科学家需要进行数据清理,抽取出自己真正需要的部分。
我用了自然语言处理中常用的一些方法。主要分为三步。第一步是分词 (Tokenization),即把一句话分成若干单独的词汇,将每个词汇作为一个信息单元进行分析。第二步是去除停用词 (Remove Stop Words),即去除频率较高但是对于语言分析没有实际性帮助的词。第三步时我还去除了由单个中文字组成的词,这些单字词帮助组成了完整的句子,但我个人觉得,对于分析不会提供太重要的作用。
数据分析主要分为两大部分。第一部分是运用频率最高的热点词汇 (Top Words),比较婚前婚后高频词的不同。第二部分是对文本进行情感分析 (Sentiment Analysis)。我使用了一个已经训练好的开源模型,来预测每个单词的情感。研究结果显示,有一些高频词在我们婚前婚后贯穿始终,比如“宝贝”、“回家”、“狗子”(指我们的宠物狗Fuwa和Waffle)、“照顾”(通常是指他照顾我)。
不同的则是,婚后,他对我有了个新的昵称“Cutie”(可爱),叫我“老婆”的次数也明显增加。
写好初稿后,我遵循学术惯例,打算找朋友们peer review(同行评议)。正式给老公展示这篇paper之前,在某次约会中,我给他透露了一些线索。结婚纪念日前一天晚上,约会结束回到家,时间与气氛正正好,我感到,是时候把这三个月的成果展示出来了。这篇paper的完成让我收获了很大的成就感。
虽然它与能够发表的paper还相差甚远,更像是我为他写的一封情书,但确实让我亲历了一回自己定义“研究课题”,然后一步步实现的过程。