聚类算法在现代生活中的应用

作者: 望墨溢

来源: 科学⼤院

发布日期: 2023-02-10 07:00:39

本文介绍了聚类算法在现代生活中的应用,包括自动补全收货地址、语音助手识别不同方言、精准广告投放等,并探讨了聚类作为无监督学习的特点及其对个人行为的影响。

尊敬的【⾼启强】:您⽹购的《孙⼦兵法》正在配送。现如今,我们在⽹购平台添加收货地址时,⽆需给出完整的信息,系统就能⾃动帮我们补⻬缺少的信息。例如,⾼启强想⽹购⼀本《孙⼦兵法》,他只需填写“临江省京海市旧⼚街⻥摊”,平台就会帮他补⻬缺少的⾏政区信息,甚⾄⻥摊的⻔牌号。这个功能是怎么实现的呢?⼤院er向⼤家介绍⼀种⾮常重要的算法——聚类,它被⼴泛地应⽤于我们⽣活的⽅⽅⾯⾯。

什么是聚类“分类”(Classification)的概念,我们⼀定不陌⽣,它是指根据明确的特征差异,将若⼲事物分为多个部分。例如,⾼启强从批发市场进了⼀批⻥,按照“吃草还是吃⾁”,可以将其分为2类。聚类(Clustering)与分类表⾯上很像,但底层逻辑⼜截然不同。表⾯上,聚类也是将若⼲事物分为多个部分;但不同的是,聚类并不依据任何明确的特征,⽽是根据差异性。

例如,⾼启强从⻥缸⾥抓了⼀把⽯⼦,想把它们分为两堆,原则就是这两堆⽯⼦“差异最⼤”。

聚类有什么⽤呢?它可以“学习”。所谓学习,就是根据已有的经历,对过去的世界产⽣⼀定的认知,当接触新的事物时,对其做出可预计的反应,例如将其归到某⼀类熟悉的事物中。举例来讲,⾼启强将⼀堆⽯⼦(已有的经历)进⾏聚类,将其分为两类(产⽣认知),当他从⻥缸⾥拿出⼀颗新的⽯⼦(接触新事物),可根据新⽯⼦与两类⽯⼦的相似性,将新⽯⼦归到某⼀类(做出反应)。

收货地址——写错了地址也不怕(别错得太厉害)回到本⽂最初的问题:⾼启强⽹购《孙⼦兵法》时,平台是如何帮他⾃动补⻬收货地址的?最初,⽹购平台也没有这个功能,但它拥有⼤量⽤户输⼊的地址,其中有正确且详细的地址,也有残缺甚⾄错误的地址(这些就是平台的“学习资料”)。然后,平台根据这些地址的“差异性”,对其进⾏聚类。

不难想象,同⼀个地址对应的信息相似性最⼤,差异性最⼩,这些详细或残缺的地址被归为⼀类(平台的“学习成果”)。

语⾳助⼿——说不说普通话都能听懂除了⾃动补全、纠正收货地址以外,聚类还可以⽤于地图APP的语⾳助⼿,它背后的原理也是聚类,只是需要两次聚类/学习。

假如⾼启强和蒋天都⽤同⼀个地图APP,也都喜欢⽤它的语⾳助⼿,可⾼启强讲普通话,⽽蒋天讲“港普”,发⾳差异很⼤,语⾳助⼿⼜是如何“听懂”两个⼈的指令呢?第1次学习与收货地址的学习类似,地图APP先收集⼤量的语⾳信息,包括各个年龄段、性别,地区(⽅⾔),作为“学习”的资料。

内容投放——如果⾼启强掌握了这个⽅法,⼈⽣可能不同聚类还可以⽤于内容投放。如果⾼启强掌握了这个⽅法,可能真的能做上“正经⽣意”。举例来讲,若强盛集团想给⽹络⽤户投放⼿机销售的⼴告,⽽不同⽤户喜好的⻛格、需要的功能和⼿⾥的预算不同。如何才能精准投放,向不同的⽤户群体展示他们更可能购买的⼿机型号,进⽽提⾼⼴告的效率,降低成本呢?⾸先,我们应有⼀个概念:每个⼈在⽹络⾥的⾏为习惯都是可以被量化的。

再谈“学习”——为什么安欣和⾼启强的价值观截然不同前⾯提到过,聚类是⼀种⾮常重要的“学习”⼿段。具体来讲,它是⼀种“⽆监督学习”(Unsupervised Learning),即没有任何先验信息的学习。⽆论是⾼启强分⽯⼦,还是⽹购平台补⻬收货地址,都仅仅使⽤了⼿⾥的样本信息,⽽这些样本本身没有任何的标签信息。

UUID: 759764d3-3968-44c7-acd4-f169614a3bc9

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/科学大院公众号-pdf2txt/2023年/科学大院_2023-02-10_尊敬的【高启强】:您网购的《孙子兵法》正在配送….txt

是否为广告: 否

处理费用: 0.0072 元