我写了篇论文分析老公婚前婚后的语言变化

今年7月10日是我和老公结婚一周年纪念日。从年初开始，我就一直在思考该送他什么礼物——既有创意又能让他喜欢。4月初，小红书上一则“学霸给女友写了一篇缓解身材焦虑的论文”的帖子，让我顿生灵感：我也要给老公写一篇paper！这有一层“双关”的妙意：在一些文化里，结婚一周年被称作Paper Anniversary（纸婚），夫妻双方会互赠纸制品作为礼物，paper完美贴合主题。

本着对老公的爱与对学术的热忱，我开始了为期三个月的论文准备。期间，先后经历了确定主题和研究方法、自学中文自然语言处理、研究分析、写初稿、找朋友们peer review，以及展示的全套过程。

整篇论文的重中之重，在于数据分析环节。第一步是收集数据，这往往也是数据科学家们最头疼的一步。初始数据通常庞杂、未经整理，像座年久失修的旧仓库，科学家需要进行数据清理，抽取出自己真正需要的部分。

我用了自然语言处理中常用的一些方法。主要分为三步。第一步是分词 (Tokenization)，即把一句话分成若干单独的词汇，将每个词汇作为一个信息单元进行分析。第二步是去除停用词 (Remove Stop Words)，即去除频率较高但是对于语言分析没有实际性帮助的词。第三步时我还去除了由单个中文字组成的词，这些单字词帮助组成了完整的句子，但我个人觉得，对于分析不会提供太重要的作用。

数据分析主要分为两大部分。第一部分是运用频率最高的热点词汇 (Top Words)，比较婚前婚后高频词的不同。第二部分是对文本进行情感分析 (Sentiment Analysis)。我使用了一个已经训练好的开源模型，来预测每个单词的情感。研究结果显示，有一些高频词在我们婚前婚后贯穿始终，比如“宝贝”、“回家”、“狗子”（指我们的宠物狗Fuwa和Waffle）、“照顾”（通常是指他照顾我）。

不同的则是，婚后，他对我有了个新的昵称“Cutie”（可爱），叫我“老婆”的次数也明显增加。

写好初稿后，我遵循学术惯例，打算找朋友们peer review（同行评议）。正式给老公展示这篇paper之前，在某次约会中，我给他透露了一些线索。结婚纪念日前一天晚上，约会结束回到家，时间与气氛正正好，我感到，是时候把这三个月的成果展示出来了。这篇paper的完成让我收获了很大的成就感。

虽然它与能够发表的paper还相差甚远，更像是我为他写的一封情书，但确实让我亲历了一回自己定义“研究课题”，然后一步步实现的过程。