艺术创作一直是人类精神活动的最高级形式,自古以来,人们认为只有人类的智慧才能真正领悟艺术作品的深远意境和奥妙神韵,玄而又玄的艺术风格更是只可意会,不可言传。近些年来,机器视觉和人工智能的发展正在将艺术拉下神坛,几乎人类智能的一切领域都正在被人工智能所解构和颠覆。可以毫不夸张地说,人工智能似乎很快就能够达到“虫二”(风月无边)的境界。
在视觉艺术领域,抽象的艺术风格已经可以被严密数学化,并且可以被提取、变换和转移。一幅艺术作品,其内容和风格紧密缠绕在一起,似乎是密不可分的,但是两者又是相对独立的。如何将内容和风格相剥离,如何各自表示,如何将不同艺术作品的内容和风格有机结合,这些都是玄妙而又基本的问题。我们考察一些近期刚刚发展起来的巧妙算法,看看它们是如何建模并解决这些问题的。
最优传输方法[1]我们考察下面两张图。图像1是山脚下牧场的田园风光,苍松翠柏,绿草茵茵,艳阳高照,生机盎然;图像2是古老庄园中的林荫道,午后斜阳,遍地碎金,藤萝蔽日,虬枝遮天。第一幅图像似乎摄于春夏,洋溢着勃勃生机;第二幅图像似乎是深秋日暮,没落抑郁。如果将第一幅图像的内容和第二幅图像的风格相结合,我们得到第三幅图像,深秋山脚下的牧场,残阳如血,山林如炬,凄艳欲绝,离恨顿生。
人类的感知都是基于概率的。这种方法将摄影风格抽象为色彩的概率分布。每个像素的颜色表示成颜色空间的一个点(红、绿、蓝)。每幅图像颜色的直方图(Histogram)给出了颜色分布的概率分布函数(PDF)。图4颜色分布概率密度函数。第三幅图像是第一幅的内容加上第二幅的风格。
频谱能量密度[2]下图是将一幅随意的摄影相片转换成不同风格的肖像作品的示例。首先在输入相片和样本相片之间建立映射,然后将相片进行类似小波变换,转换成所谓的拉普拉斯堆栈(Laplace Stack)。在频率域,计算每个频段的能量密度函数。将输入图片的每个频段的能量密度函数加以调整,使得其和样本图片的能量密度函数大致吻合。最后施行逆变换,得到输出图像。
深度学习法[3]人类的视觉计算是一个非常复杂的过程。如图6所示,在大脑皮层上有多个视觉功能区域(v1至v5等),低级区域的输出成为高级区域的输入。低级区域识别图像中像素级别的局部的特征,例如边缘折角结构,高级区域将低级特征组合成全局特征,形成复杂的模式,模式的抽象程度逐渐提高,直至语义级别。
如上几个例子不容置疑地展现了人工智能的方法可以分离艺术内容和艺术风格,并且能够恰切地表示内容和风格,自如地转换合成艺术风格。虽然计算机的能力令人惊艳,但是今天最终艺术作品的审美和评判依然不可替代地由人类来完成。那么,是否会在不远的将来,人类的审美能力也会被量化,由数学公式精确地推演,最终由人工智能来越俎代庖呢?人工智能真地能够达到“虫二”的境界吗?我们人类是应该对此期待还是恐惧?