沙巴体育投注官网

来源:AI脑力波 / 作者: 陈思 / 2018-12-25 19:06
唇语识别是一项集机器视觉识别与自然语言处理于一体的复合型技术, 不需要听声音, 仅依靠说话者的唇语动作, 利用识别模型对其唇部连续变化的特征进行提取与分析, 即可解读说话者

随着科技时代的来领,个人身份的虚拟化和隐藏化是信息社会时代的主要特征,如何确保线上身份认证的信息真实性和安全性是风险防控的关键难题。作为具有唯一性、不易丢失且方便快捷的人脸识别技术在金融、交通、安防等领域逐步得到了广泛的应用和发展。但是,随着该技术的逐渐成熟和普及,不法分子也研究出了攻击它的方法,如使用他人的照片或视频来代为验证。为了解决该问题,在人脸识别环节加入了基于随机动作的活体检测技术,用于辨别人脸特征图像是否采集自自然人,而不是来自照片、视频等影像资料的虚假信息。但是基于随机动作的活体检测仍然存在结果不够准确、随机种类小、容易攻破等缺点,无法完全避免翻拍翻录等欺诈行为。因此,专家们开始研究在人脸活体身份检测系统中加入唇语识别技术,以此来解决活体攻击的难题,从而保证信息认证的准确性和安全性。
 

唇语识别
 

一、唇语识别技术概述

唇语识别是一项集机器视觉识别与自然语言处理于一体的复合型技术, 不需要听声音, 仅依靠说话者的唇语动作, 利用识别模型对其唇部连续变化的特征进行提取与分析, 即可解读说话者所说的内容。

在深度学习技术出现以前,对于唇语识别的研究主要从三个方面来进行,分别是嘴唇的定位与检测、唇语特征提取和唇动识别。其中,嘴唇特征提取是唇语识别的关键,将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句,提取出的特征质量直接影响着唇语识别的准确性。随着机器学习方法在语音识别领域里取得的巨大成功,尤其是隐马尔科夫模型(HMM)的应用,根据唇语识别研究和语音识别的相似性,出现了大量的HMM应用在唇语识别领域的研究成果。

深度学习属于机器学习的一个新领域,是近几年来兴起的最热门的机器学习方法之一,它在唇语识别中得到了很好的运用。在传统的机器学习中,需要根据相应技术构建一个算法来提取未加工过的原始数据特征表示。而在深度学习中,无需设计算法来进行特征提取,因为其本身就是一种特征提取的算法。将输入数据传入到网络模型中,网络会自动学习和提取输入数据的特征并进行相应的操作,是一个端到端的学习方法。相比于传统的唇语识别,它不仅减少了人为操作,在识别效果上也有了巨大的提升。

二、马上消费金融的应用与研究

马上消费金融现有近10万的原始唇语视频,这些视频正在通过模型训练不断充实语料库内容,为唇语识别提供更完善的语料支撑。在唇语识别的应用场景中,系统会根据获取到的用户视频进行人脸提取,利用嘴唇定位技术定位出嘴唇位置后对影像进行剪辑,再通过训练完成的人工神经网络来提取出混合特征,转换后输出识别序列,最终完成唇语识别的比对。

马上消费金融将唇语识别的研究成果成功运用到了人脸识别检测系统中,基于唇语识别的人脸活体检测系统,将唇语识别与语音识别进行结合运用。利用普通摄像头采集用户按标签信息读取一串字符的视频信息数据,将视频分离成供唇语识别的视频图像和供语音识别的音频数据。根据人说话时唇部的连续图像帧,识别出对应的说话内容,将唇语识别的结果、语音识别的结果与给定标签内容进行比对,判断其结果的一致性从而完成检测。唇语识别的加入可以有效解决语音识别中的噪音和干扰问题,进而提高系统判定的准确性。与随机动作的活体检测方式相比,基于唇语识别的活体检测模式对照片或视频的翻拍翻录有更强的检出准确率,可以协助提升马上金融活体检测的安全性和可靠性。

此外,集成了唇语识别技术的人脸识别系统已成功输出到海保人寿保险公司,海保公司反馈马上金融的唇语识别系统成功拦截了翻拍、翻录等多个场景的欺诈行为,大大提高了其业务开展的安全性。

三、唇语识别发展趋势展望

唇语识别除了在金融行业发挥价值以外,在其他领域也具有很好的推广价值,包括教育、交通、公共安全、移动支付、军事情报等。通过唇语识别,可以让聋哑残障人士自由地表达和交流,并对其进行辅助教育;帮助存在沟通障碍的老年人顺畅地与人沟通;通过口型支付密码,判断移动支付交易的真实性和有效性;在车载场景下解决由于噪音过大对语音指令造成干扰的问题;在安防领域通过监控视频获取到重要讲话信息,为公共安全和情报获取提供有效支持等。

虽然唇语识别技术在各大公司及科研机构的共同努力下取得了很大的进步和成功,但是,想要真正的投入实战并快速普及仍需面临较多难题。一是唇语视频的收录环境复杂,因受到光线、肤色、拍摄角度等影响,嘴唇的定位和特征提取技术需要进一步提高。二是唇语精准识别难度大,不同语言、各地方言是唇语识别的一项大挑战,加上很多中文发音对应相同口型,识别后输出的结果容易出现误差。三是长句识别水平有待提高,现在的唇语识别多停留在短句识别,语速相对较慢,唇语特征较少,针对长句识别技术研究仍需进一步努力。四是多场景识别还存在一定差距。现在的识别模型多来自特定场景的训练,要实现任意场景或领域的识别,还需要结合兴发娱乐xf132手机版深度学习技术构建多场景知识图谱,进而提升大规模多场景的识别准确性。五是多人像唇语识别尚未实现技术突破,当唇语视频中出现多个人像的时候,需要定位多个嘴唇、提取相应特征并分别对其进行精准识别。解决这些难题是唇语识别技术运用到日常交互多场景下的关键,我们坚信,随着大数据与兴发娱乐xf132手机版产业快速的蓬勃发展,在不久的将来,唇语识别能够真正实现快速普及与全面推广。

四、结语

综上所述,唇语识别是一项非常实用的辅助性技术,在各个场景的应用均会带来诸多便利,协助推动智能科技时代的演变。马上金融将继续在唇语识别领域进行深入的研究和优化,探索更优的预处理和特征提取算法,提升唇语服务的健壮性和并发处理效率,优化人工神经网络的模型训练,从而提升不同语言、不同肤色的唇语识别准确性。同时,依托大数据、可视分析、兴发娱乐xf132手机版等领域技术,不断挖掘和扩展应用的场景和能力,释放更大的商业价值。
 

阅读延展

1
3