近年来,随着计算机科学的飞速发展,科学家们不断取得新的技术突破,尤其是随着机器学习的迅猛发展,各种各样的计算模型被创造出来,比如可以自动生成文本、图像和其他类型数据的计算模型。这些模型相较于传统计算模型,在创建对人类手工制作要求高、耗时长的数据或创意作品时,表现出了很大的优势。
例如,在人工智能领域不断涌现出一批具有超凡本领的创作机器人,有自动创作水墨画的“艺术家”,自动写作诗歌的“文学作家”,自动生成高考作文的“高考小能手”,经过大量的经验训练,这些计算模型甚至拥有了过人的创作力。
而今,来自大连理工大学和香港城市大学的研究人员在自动创作领域又做出了新成果,该团队联合创建出了一个可以自动生成漫画书的新型系统,该系统通过从电视剧、电影、动画或其他视频中提取数据,从而创作漫画书。
相关研究以“Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation”为题,发表在arXiv预印本平台上。研究人员在论文中写道:“我们提出一个全自动系统,从任意类型的视频(电视连续剧、电影、卡通剧)生成漫画书。
我们的系统不需要用户的任何手动输入,可以生成高质量的漫画页面,具有丰富的视觉效果和富有表现力的故事。”
漫画是一种艺术形式,一种用简单而夸张的手法来描绘生活或时事的图画。漫画的创作过程往往需要经历选题、搜集素材、绘制分镜草稿和编辑调整沟通等一系列过程,漫画书的创作不仅需要精湛的专业技术,更需要丰富的内容素材和大量的创作精力,通常非专业人士很难制作出自己的漫画书。
在互联网如此发展迅速的当今,网上每天有成千上万的短视频发布出来,结合漫画便捷的阅读形式和出色的故事描述技术,人们不禁会想象是否可以将这些视频自动转换为具有丰富的视觉效果和出色的叙事能力的高质量漫画书?
近年来,由视频生成漫画的相关技术取得了一定的进展,但所创建的模型大多不是全自动的,生成的漫画作品要么需要额外的用户输入,要么使用简化的表示形式或方法进行漫画页布局,从而导致整个漫画效果缺乏视觉多样性和表现力。该最新研究解决了通过算法在页面之间分配所选关键帧,然后在每个页面漫画风格的布局上组织关键帧的问题。
研究人员采用一种数据驱动的布局方法,从漫画数据中学习布局样式,通过自动从关键帧中提取系统的输入来扩展他们的方法,因此无需任何形式的用户输入,即可实现布局框架的完全自动化。
研究人员还设计了一种数据驱动的情绪感知气球生成模型,该模型可以生成不同的气球形状,并根据字幕和音频的情感动态调整字体大小。然后,通过检测谁在讲话以及讲话者嘴巴的位置,将生成的气球放置在正确的位置。
该研究所创建的框架并不像大多数漫画生成框架那样,总是使用同一种类型的语音气球,而是生成不同类型的气球,以反映人物话语所传达的情感。为了做到这一点,对于给定一个输入视频片段,研究人员首先尝试通过分析视频获得对应的音频和相应的字幕,然后对字幕和音频进行情感分析,来把握不同的对话台词所传达的情感。之后,模型根据人物所传达的情感,创造出形状和文字大小各异的对话气球。
这极大地改善了整体漫画阅读体验,产生了更吸引人的布局,也反映了不同角色之间的对话内容。
为了实现系统生成的语音气球可以被放置在正在说话的角色附近,该模型首先检测视频中不同的说话者,然后在他们的附近放置与他们所表达的情绪一致的语音气球。为了允许用户对生成的结果进行某种程度的控制,研究人员构建了一个用户友好的界面,来向用户施加约束,以构建更多个性化的设计,并优化结果。
研究表明,该用户界面可以节省用户时间,同时提供更多的创建自由。在从视频中提取关键帧并将其转化为漫画风格的图像后,研究人员设计的系统使用多页布局框架将图像分布在多个页面上,并创建出具有视觉吸引力的布局,以反映图像之间的关系。
研究人员通过一系列实验,评估了他们所设计的系统及各个模块,并选择四部电影(Titanic、《风声》、Friends和Up in the Air)和系列片中提取的16个长短为2至6分钟不等的视频片段,使用该系统与当前最先进的漫画生成系统“Content-Aware Video2Comics”分别生成漫画,并就漫画质量进行对比分析。
对比发现,该系统的漫画生成效果要优于其他系统,不仅能够生成更丰富的气球形状,还可以利用文本摘要来合并一些相关的字幕,以确保单词气球句子长度适中,关键是可以实现全自动多页布局,其布局效果合理、丰富。
该研究团队还招募了40位用户,让他们观看视频后阅读系统生成的漫画,并围绕漫画的整体效果、对话气球质量、布局质量、故事讲述效果、阅读体验等指标,对系统所生成的漫画与另一种漫画生成系统所制作的漫画进行了对比评价。绝大多数参与这项研究的用户表示,与之前开发的系统相比,他们更喜欢研究人员的模型所制作的版面。
不过,虽然该系统已经被证明取得了可喜的结果,但它仍存在一定的局限。
例如,关键帧的选择不够准确,在某些情况下,所选择的关键帧彼此相似,无疑会给生成的漫画带来冗余信息。研究人员表示,一旦系统后续被更加完善,该漫画生成系统即可用来自动创建基于电影、电视剧或其他视频内容的漫画书。在后续的研究中,研究人员还计划开发一种可替代的关键帧选择模块,以此来提高系统生成的漫画布局质量,减少关键帧的冗余。
更重要的是,受到许多现有方法的启发,这些方法可以根据所给定的含有多个句子的故事来生成图像序列,有可能从文本故事中产生漫画书,我们有兴趣将我们的方法扩展到利用文本信息来帮助生成漫画。