我写了篇论文分析老公婚前婚后的语言变化

作者: Bean

来源: 果壳

发布日期: 2022-08-03 16:00:47

作者为庆祝结婚一周年,写了一篇分析老公婚前婚后语言变化的论文,运用自然语言处理技术分析聊天记录,展示了婚姻带来的语言和情感变化。

今年7月10日是我和老公结婚一周年纪念日。从年初开始,我就一直在思考该送他什么礼物——既有创意又能让他喜欢。4月初,小红书上一则“学霸给女友写了一篇缓解身材焦虑的论文”的帖子,让我顿生灵感:我也要给老公写一篇paper!这有一层“双关”的妙意:在一些文化里,结婚一周年被称作Paper Anniversary(纸婚),夫妻双方会互赠纸制品作为礼物,paper完美贴合主题。

本着对老公的爱与对学术的热忱,我开始了为期三个月的论文准备。期间,先后经历了确定主题和研究方法、自学中文自然语言处理、研究分析、写初稿、找朋友们peer review,以及展示的全套过程。

整篇论文的重中之重,在于数据分析环节。第一步是收集数据,这往往也是数据科学家们最头疼的一步。初始数据通常庞杂、未经整理,像座年久失修的旧仓库,科学家需要进行数据清理,抽取出自己真正需要的部分。

我用了自然语言处理中常用的一些方法。主要分为三步。第一步是分词 (Tokenization),即把一句话分成若干单独的词汇,将每个词汇作为一个信息单元进行分析。第二步是去除停用词 (Remove Stop Words),即去除频率较高但是对于语言分析没有实际性帮助的词。第三步时我还去除了由单个中文字组成的词,这些单字词帮助组成了完整的句子,但我个人觉得,对于分析不会提供太重要的作用。

数据分析主要分为两大部分。第一部分是运用频率最高的热点词汇 (Top Words),比较婚前婚后高频词的不同。第二部分是对文本进行情感分析 (Sentiment Analysis)。我使用了一个已经训练好的开源模型,来预测每个单词的情感。研究结果显示,有一些高频词在我们婚前婚后贯穿始终,比如“宝贝”、“回家”、“狗子”(指我们的宠物狗Fuwa和Waffle)、“照顾”(通常是指他照顾我)。

不同的则是,婚后,他对我有了个新的昵称“Cutie”(可爱),叫我“老婆”的次数也明显增加。

写好初稿后,我遵循学术惯例,打算找朋友们peer review(同行评议)。正式给老公展示这篇paper之前,在某次约会中,我给他透露了一些线索。结婚纪念日前一天晚上,约会结束回到家,时间与气氛正正好,我感到,是时候把这三个月的成果展示出来了。这篇paper的完成让我收获了很大的成就感。

虽然它与能够发表的paper还相差甚远,更像是我为他写的一封情书,但确实让我亲历了一回自己定义“研究课题”,然后一步步实现的过程。

UUID: c73287af-7282-4a49-86a8-a67621a93444

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2022/果壳_2022-08-03_我写了篇论文分析老公婚前婚后的语言变化,结论是…….txt

是否为广告: 否

处理费用: 0.0054 元