镜头里的他到底在碎碎念什么?也许我能告诉你

发布日期: null

唇语识别研究的起源有一个故事。2006年世界杯上,马特拉齐好像说了一句话把齐达内惹怒了,然后齐达内就用头撞了马特拉齐。事后,大家都在猜他到底说了什么。山世光是中国科学院计算技术研究所研究员,1997年我大四时选择了“图”作为研究方向。那做图像、做视觉具体是做什么呢?

我当时的导师跟我说:“能不能做一副眼镜上面装个摄像头每次见到一个人就记录下来下一次见到就不会记不起他的名字了”我觉得这对我也挺好因为我也记不住人脸所以我说:“那我就去做人脸识别吧”于是我在做本科毕业设计的时候开始做人脸识别即根据摄像头拍摄的照片判断一个人是张三还是李四我一做就做了20年一直做到了2017年在2015年到2017年间人脸识别的技术有了一次跨越式的发展错误率降到了百万分之一也就是比对一百万次才会错一次这在十年前我认为这是不可能的

到了2017年前后面临着一个很严峻的问题之前我觉得选择人脸识这个方向挺好做到退休也不会失业结果到了才二十年就要失业了我原来认人的能力不行现在有什么毛病呢?

我想了想说:“这不行要再想想该干点什么我现在察言观色的能力不行比如跟别人聊天别人心里到底想什么老是猜不出来机器能不能帮我做事西塞罗有一句名言世间一切尽在脸上我们能看到很多他所经历的人生沧桑他的愉悦他的过去也能够看到他现在可能在想什么是高兴伤心还是很无聊所以我们能够看到的信息好像非常得多所以我想也许这个时代很快要从过去看脸的时代变成读心的时代思想晚餐已完成从脸上读出你的生理指标先来看一下生理指标如果我们想通过一个半米到一点五米距离内的普通摄像头拍摄一个人的视频然后用算法去估计下图中的指标可能吗眨眼次数应该是比较容易的一件事情但如果是呼吸率能不能行呢能不可以在听不见声音的时候通过嘴唇理解我现在在说什么图上打对号的其实都是可以通过一个普通的摄像头逐渐实现的但是到目前为止还没有看到可以通过摄测量血液里红细胞数量的技术而血压血氧饱和度也觉得不行的但现在思想更加开放认为是可以用普通的摄加一个算法进行估计的包括醉酒现在已经有一些可以做的基础技术了我们也在努力这件事我们现在站在这里大家看着肯定估计不出来心率多少心脏每分钟跳多少次但是现在用一段视频就可以比较准确的估出来这项技已经放到的智慧健康APP里面只需要看着摄像十秒钟就可以估出你的心误差大概只有三次这些看起来不可能的事情为什么可以做到其实只要仔细想想会发现背后是有非常清晰的科学逻辑的心脏跳动时候会泵血流量血管里会有周期性的多变化这样的变化皮肤毛细血管也会有从而导致皮肤反射不同颜色光的强度也有周期性变化如下面所示所以我们只需要捕捉中微弱颜色的周性变就可把心跳来放大脸部颜色期性变类似的血压血氧饱等也可以分析色进处理最终就有可能可出来我们现在正在这样虽然不能一定可做到非准但是已可以看到是有可能另外一件非常重要事情是什么人在看什地方其实在反映了非常多重要信息视线或视点也是一个非常重要的下面的大家可以明确地看见前面的人在哪里这也是我们已经能做到程度希望做一些应用比如判断驾驶员转弯时候有没有后视镜或者开车时候有没有目视前方等等刚才提到唇听不见声音情况下我们能根据嘴唇信息来这个人说什么唇语识研究的起源有个故就是二零六年世界杯上马特拉奇像说了句话把给惹火了然后就用头顶了他事大家都他在底讲啥于就有很多人过技研事实上现也已经做到了比如车外面噪声特别大或者是发动机的声音特别吵候音的可能失效在这个情况AI对可以达到百分之九十以上精度为了件事我们还发布了全球规模最大的中文数据集采集了两千多人七十多万样本还有一个非常有意思发现即作不能只嘴还要全为们有会说眼睛我们的下巴腮部些肌肉也会受到话时的影响所发现全而不止嘴信去做会有更高精那么帮助做什么刚提聋需要样技可以帮助知道普人在促进和正常人之间交流实对于通人噪声重情况下语音也会失效那就配合上去得到更高同时它提供了一个渠道用来学英语或者学不同语言时进形矫还有一些特殊场景如过下达指令进行密通讯这都是可以用场景矫正发音形思晚餐已完成感知你我的喜怒哀乐前面介绍几个还底层生标那么AI算不可感人的开展心理状态的呢这里涉及到的术就更关表情面部肌动作微表以及各种各样心理状态别方面一些学术界已经了很多最主要常见就把情绪分成七类基本表情喜怒哀乐等学术界达到了百分之八十五甚至九十正确中性生气厌恶害怕高兴伤惊七种基情图像集准确大于百分之八十显然不够情绪是非常复杂后来出现了很多更加复杂的描述模型比如说Hanjalic提出激活度和悦度的情一方面唤醒程度亢奋无精打采另维度正向负向这样可以把更多的建模进去Plutchik还提出情感轮模型更好地各种各样复情感建模进去Hanjalic激活度和悦度(左)和Plutchik情感轮(右)但是我们知道如果只是看来分一个人的也不是么容所通声音手势文字等等多种态融合去人也变得更加重要那么在表还不成熟况下是不是就不能了呢事实上一特定任务还是可以特别是一些分解成客观指的情绪感知例如我们可以监测面各种不同的动作实际上理学家定义四十多种其中二十多是可以过的我们就做了如下系统当检测到一个亮条就会往右走一下家看过《别对我说谎》Lie to me这里面体现了称之为微表情所谓就是在短只有五分之一秒时间里呈现出来马上消失的一个更能反映内心真实绪现人和机协同析是对压抑住短暂表或进行正确知下面另外一个客化疲劳开车困就会危险我们就分析其眨眼次数每次闭时长哈欠头部姿态的变化包括视线方心率等等些生对其疲状评估还有件有意思的事专注度评二零八年参加一场际竞赛拿到了第二名我们分神的状态分成四个等级三是特别专最后得到的评估精度可以达到零点零七误差小过程也是先把它分解成了视线头部面的动等综合评个人分的状思晚完成相面对精神状况与诊最关于精神状况评估日常经常会遇到碰到个人可能会对他所谓第一印象其实就是我们对人格特质观察认知去年六月份Scientific Reports刊登了几俄罗斯找一万多人每三张照片然析他们五大格特质即谓的大五格这非常像相虽存在伦理问题但也反映出长的间有一定相关右侧给出了偏外亲相对不太亲男女性偏向长相此外卫生科有多疾目前都要靠做出主观断可是同医生由于经验不足会给不一样判我们也希望过程中渐地做一些客观化瘫瘫其实就是面神经出了问题有些面部作做得够精确医生就需要一套系评价部经者肌动作力摄像捕捉并行客价比张开足够某一时候能做到下图澳大利亚几大学联合项工作通过对抑病人段频里面的觉特征语音特征合进用到方式说话程中头姿眼神重度抑郁健分类可达百之八十三确只达到六十三十则起来则以百分八十八来源Sharifa Alghowinem Roland Goecke Michael Wagner Julien EppsMatthew Hyett Gordon Parker andMichael Breakspear Multimodal DepressionDetection Fusion Analysis of Paralinguistic Head Pose and Eye Gaze Behaviors IEEE T on AffectiveComputing. 十月十二日美国弗吉尼亚学者另外工深学习一人采访频然评郁程来源Y Zhu Y Shang Z Shao G Guo Automated DepressionDiagnosis Based on Deep Networks toEncode Facial Appearance and Dynamics IEEET on Affective Computing儿童自症也非常严重社问大家都知道社会上发病率高美两千年的据五十四个小孩中有一个是国数据概一百四十儿里面就会有严很可能终都不能够生活自理但是如果能够早发现早干预那么很可能可以使成年之后能够活自理目前诊断方式让经过认证医和一个玩四十五钟并在这过程中按照美ADOS标准打分才能够判是不于是设新流希望能够过去的变成首先会让孩看设计模式动画片或者实验范现已计十六种范让孩子出现人和车观察会不会更多关注他会不会更共行为正常社交偏好开发样的已采集了很多正小孩童数希能够在未开发出让一小孩就能够得出患可能性回顾了一下自己历史科技工作者什么样很多时候应该要考虑兴趣同时也要注什么样的社会所需有关自闭症儿童这件需用AI帮助医快速筛查找到对于发展进步是非重要的谢谢版权说明未经授权严禁任何形式的媒体转载摘编并且严禁转载至微信以外的平台文章演讲观点不代表立场推荐阅读点击图片链接SELF原称SELF中国科学院全力推出文化讲坛由计算机网络息中心传播局联合主办科普博览承办致力非凡思想的跨界传旨探讨教育未来发展获取更多欢迎关注官网selforgcn微信公众号微博道坛

UUID: f875fa1d-aa13-43a1-a408-8765eb359762

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/格致论道讲坛公众号-pdf2txt/2021/格致论道讲坛_2021-08-05_镜头里的他到底在碎碎念什么?也许我能告诉你 | 山世光.txt

是否为广告: 是

处理费用: 0.0090 元