今年你可能听说过一款让人上瘾的猜词游戏Wordle。程序员乔什·沃尔德(Josh Wardle)为他的伴侣创造了这个游戏,然后以超过100万美元的价格卖给了《纽约时报》。也许你也是数百万个喜欢猜五个字母单词的人之一,这些单词的难度和可解性都恰到好处。
也许你有一个偏爱的起始单词,它可以帮助你在少于六次的猜测中解开谜题;又或许你喜欢从一开始就发挥直觉把字母混在一起。无论你如何玩这个文字游戏,了解一点数学领域的信息理论可以帮助你取得最高的分数。
假设在一顿丰盛的早餐后,你打开Wordle游戏,猜测第一个未知单词是BLOAT. Wordle向你展示了这个:黄色表示字母A和T在秘密单词中,但填写的位置不对。
知道这个单词包含一个A和一个T,而此时你上学或上班要迟到了,于是猜了一把“WATCH”并且得到了幸运女神的眷顾:绿色的字母在秘密单词中,而且在正确的位置。你几乎要猜对了!那么,下一个猜测是什么?作为一个Wordle玩家和信息理论家该怎么做呢?
一种方法是猜测一个像MATCH这样的单词,或许这就是答案。但是,一个更好的策略是猜测CHIMP,尽管这举措看起来很奇怪。CHIMP不可能是秘密单词,但根据信息论,它是完美的一步。
信息论是克劳德·香农(Claude Shannon)在20世纪40年代开创的领域,奠定了数字革命的基础。下面让我们看看为什么这样做。
香农对量化不同背景下的信息所包含的信息量很感兴趣,从电话的通信(他在美国电话公司著名的研究分支贝尔实验室工作)到DNA中存储的知识(他的博士论文是关于遗传学的)。在定义“信息”的概念时,香农从几个基本的数学原理入手。
其一,信息量应该与可预测性成反比:罕见事件应该比预期事件提供更多信息。其二,信息应该可相加:两条信息的信息量应该与每条信息的总和相关。
我们稍后将详细讨论香农对信息的定义,但在此之前让我们完成Wordle游戏。
下面是Wordle游戏中所有以ATCH结尾的单词列表: BATCH, CATCH, HATCH, LATCH, MATCH, PATCH和WATCH. 根据我们的第一个猜测,BLOAT,我们知道秘密单词不包含字母B或L,因此消除了BATCH和LATCH。我们也知道WATCH不是这个词,所以我们把可能的秘密词汇范围缩小为: CATCH、HATCH、MATCH或PATCH。
如果我们尝试MATCH,也许会幸运地赢得比赛。但如果MATCH不是这个词呢? 我们可以尝试CATCH、HATCH和PATCH,最终通过排除法的方式赢得比赛,但这可能需要猜测多达四次才能达到目的。
现在想想当我们猜测CHIMP时会发生什么。如果CHIMP中的字母M或P表现为黄色,我们就知道这个词是MATCH或PATCH;如果CHIMP的字母C是绿色的,我们就知道这个词是CATCH。如果这些事情都没有发生,那么唯一的可能性就是HATCH。通过猜测CHIMP,我们能在下一次猜测中得到答案。
香农第二定理帮助我们理解为什么CHIMP是正确的选择。并不是说MATCH是一个糟糕的猜测。更重要的原因是,如果MATCH不是答案,那么这只能是我们获得的唯一信息。猜测CHIMP利用了字母C、H、M和P信息的可加性,为我们提供了解开谜题所需的所有信息。