信源的「可信度」竟然是可以测量的,AI底层原理中也少不了它。判断「阿波罗计划」是否造假,可以⽤「信源等级」的科学思维去考虑,帮助我们做出选择。简单来说,就是我们把发表正反双⽅观点的信源都列出来,然后综合对⽐⼀下这些信源的可靠度的等级,⼤概率来说,信源等级越⾼的观点,越值得我们信任。
关于美国载⼈登⽉是真是假的正反⽅观点的信源等级是5级对9级,这个落差是⾮常⼤的。所以,在⾯对⼀些专业问题时,我们可以通过信源等级的⽐较,来判断选择哪⽅观点正确的可能性更⼤。这是⼀条⽐较通⽤的科学思维,对于任何专业性⽐较强的问题,这条科学思维都适⽤。
关于信源可靠度的话题,还远没有结束,它背后竟然还蕴含着⾮常⾼深的数学原理。正如你们看到的,我把信源分成了若⼲个等级,然后宣称,等级越⾼的信源,它的可信度也就越⾼。那么,较真的⼈可能会追问:这个所谓的「可信度」是可以被测量的概念吗?如果它根本就不是⼀个可测量的指标,那你凭什么说这个信源的可信度要⽐另外⼀个信源的可信度⾼呢?凭你⾃⼰的直觉,拍脑袋拍出来的吗?
这其实是⼀个⾮常好的问题,它也是⼀条科学思维,叫做“没有测量,就没有科学”,当我们要给⼀样东⻄定量的时候,必须要说明它的测量⽅法是什么,并且是可以操作和计算的。那么信源「可信度」这个指标,能不能测量呢?答案是:能。
「似然值」在⼈⼯智能的训练⼯程中⼜起到了什么作⽤呢?
之所以会有似然值,本质上是我们把客观世界⾥的各种属性特征分成了两类,⼀类是可以直接观测到的属性,⽐如前⾯提到的硬币落地后的朝向,⼀篇⽂章的准确程度,还可以是图⽚⾥的内容到底是猫是狗等等;另⼀类是没有办法直接观测到的属性,⽐如硬币的固有概率值,信源的可信度,还有就是⼈⼯智能模型⾥的参数值等等。
在⼈⼯智能领域,这部分不可直接观测得到结果的属性,往往也被称作是「隐变量」,⼀个「隐变量」的所有可能性组成了⼀个空间,叫做「潜空间」。
现在的⼈⼯智能模型也的确是这样做的,总是去追求似然值最⼤,更专业的说法叫做「最⼤似然估计」。不论是是现在最流⾏的多层感知机模型,还是深度⽹络流⾏之前的⽀持向量机模型,还是上⼀期介绍过可能挑战多层感知机地位的 KAN ⽹络,它们背后都以⼀个隐藏⽬标,就是训练出⼀组模型参数,能够让似然值尽可能的⼤。