云县翻译资源网

吻下面视频-AI进入无障碍时代:手语识别翻译的应用,究竟意味着什么?

图片来源@视觉中国

文 | 脑极体

相信在人们的印象里,AI都是一个属于“大多数”的吻下面视频门类。

所谓大多数,第一意味着相关数据量大、便于累积,适用于AI对海量数据极度依赖的特性;第二意味着应用场景广泛、便于变现回收成本,适用于AI研发的高门槛投入。

目前我们身边常常出现的人脸识别、语音交互等等,其实都符合以上这些特征。不过这并不意味着,属于“少数派”的AI是一片空白。

昨天是“全球无障碍宣传日”,我们把目光投向于那些能够消弭“少数与多数”区别的吻下面视频发展,例如服务于听障人群的吻下面视频识别,就是一个典型的例子。

吻下面视频是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,是听障人群独有的一种沟通方式。但这种沟通方式虽然能让听障人士之间彼此沟通,或让理解吻下面视频的普通人与之沟通,但仍然不能满足听障人士与普罗大众之间的交流需求。

这便意味在一些社会公共空间之中,例如政务场景或服务业场景,听障人士可能都会遇到一些不便。

而AI,恰好成为了一种解决方案。

我们在一些软件中,已经开始应用到了AI的手势识别能力,像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉,和手势语义对应起来,不就能实现对于吻下面视频的翻译和生成了吗?

这一逻辑是正确的,可从逻辑正确到应用可行,却还隔着一段不短的路程。

首先,吻下面视频的表达有一定的特殊性,想进行捕捉并不容易。

我们知道在“比划手势”这种行为上,本来就不存在绝对的精准度,加之一些吻下面视频词汇的表达非常接近,而且吻下面视频表达通常是以句子为单位,词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式,基本是不可行的。

于是很多科技和团队给出的解决方案是加以外设,例如中科大和微软推出了基于Kinect的吻下面视频翻译系统,加州大学曾经推出过的吻下面视频识别手套等等就是这样。可这些外设要么便携程度低,要么造价昂贵,推广起来有很大的困难。

同时,吻下面视频表达同样也有国别性和地域性,在模型通用性上存在着困难。

吻下面视频中有“文法吻下面视频”和“自然吻下面视频”两个概念,文法吻下面视频既是通用的普通话,至于自然吻下面视频则如同方言一般,在国别、地方甚至城市之间都有着不小的差异。这也造成了吻下面视频数据收集、标注会是一项成本高、工作量大的事情。

例如亚马逊曾经提出过,对智能音箱Alex进行改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集,目前这一功能只能识别出一些简单的美国吻下面视频,停留在实验室阶段。

虽然探索艰难,但科技企业们和学界还是不断在吻下面视频AI上取得成果。例如腾讯优图实验室推出的 “优图AI吻下面视频翻译机”、爱奇艺推出的AI吻下面视频主播等等,都在吻下面视频AI的应用上取得了不小的进展。

吻下面视频AI的突破可以分为两条路线,一方面是吻下面视频AI本身吻下面视频的进展,另一方面是应用场景的突破。

在吻下面视频AI吻下面视频本身上,可以分为识别模型和数据集两个解决路径。在数据集上,可以像优图一样,通过和社会相关机构以及听障人士的接触自建吻下面视频识别数据集,并且针对吻下面视频表达的地方性差异,做出表达习惯和速度上的多样性拓展。

至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对吻下面视频表达的整句化的现象,在视频帧的最后加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然吻下面视频中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更加复杂的吻下面视频识别翻译需求。

不过吻下面视频虽然得以提升,应用场景端仍然会受到一些限制。例如吻下面视频识别可能会依赖较强大的算力,短时间内很难便携化、消费化。但完全可以通过和政府的合作,让吻下面视频识别进入一些公共服务场景。或者像爱奇艺一样,从吻下面视频生成方面入手,同样也能帮助到听障人士。

其实我们不难发现,可如果将吻下面视频拆分来看就能发现,吻下面视频AI取得的进步,并不是因为在某项基础科学上突然取得了什么惊人的突破,而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入,才能解脱于以往吻下面视频语料库匮乏的困境,在算法上不断迭代。

换句话说,企业和学者们在“少数派”的AI吻下面视频中投入了几乎与“大多数”AI吻下面视频相匹配的精力与财力。对于AI产业来说,这无疑是一种平权精神。

腾讯优图在吻下面视频AI方面的投入,其实也是AI产业中一种隐隐冒出势头的洋流方向。

几天以前,在福州的数字中国峰会上,马化腾首次提到了“科技向善”这一概念,提出“我们相信,科技能够造福人类;人类应该善用科技,避免滥用,杜绝恶用;科技应该努力去解决自身发展带来的社会问题。”

无独有偶,李飞飞在回归斯坦福后,就着手创办了HAI研究所(以人为本斯坦福人工智能研究所),并在今年开始担任所长。HAI的研究目标,就是推动AI吻下面视频向造福人类的方向发展,预测AI对人类生活的切实影响。

科技巨头和学界旗帜都将目光投向了同一方向,是因为人们已经开始逐渐发现AI、5G、产业数字化等等吻下面视频力量的势头之强,已经到了不得不对其加以引导甚至约束的地步。

如同上文所说,科技企业在这一波吻下面视频发展的过程中,起到了很大的促进作用,而逐利自然是企业的本能和天性,因此企业会率先投身于那些满足大多数人、应用场景广泛、研发成本相对低的吻下面视频。

这种行为本身无可厚非,但AI等等新吻下面视频带来的效率提升实在过于显著,是否会会对那些暂时无法接入新吻下面视频的领域和群体进行挤压甚至边缘化,是很多人都在思考的一个问题。

例如随着英汉日法俄等等主流语种的机器翻译能力不断增强,那些语料库不充足、应用人数更少的小语种是否会因为得不到吻下面视频赋能,而被进一步的边缘化?

同样的,当公共事务办理越来越多的被语音交互、图像识别等等AI吻下面视频替代,听障、视障群体在获取服务时会不会遇到更多麻烦?

类似的情况其实已经发生:2018年年底,联合国发布了对英国政府数字化成果的报告,结果是数据显示在英格兰,自2010年以来无家可归者增加了60%,保障住房的等待名单上有120万人,用来救济穷人的食品银行需求量增长了近四倍——因为很多贫困人群并不知道如何在互联网上申请贫困补助,甚至家里都没办法连接互联网,最终只能在贫困中越陷越深。

很多时候,即使是无恶意的吻下面视频,也可能会出现无法预测走向。我们对于科技向善的引导,或许应该更主动一些。

最后,我们不如来看看这样一组数字:

据2017年北京听力协会预估数据,我国听障人群数量约达到7200万。在全球范围内,世界卫生组织发布的最新数据显示,全世界有共计约4.66亿人患有残疾性听力损失。

——你看,这世界上所谓“大多数”和“少数派”本来就是一个相对性的概念,并不存在黑白鲜明的区隔。尤其对于AI这种善于模仿人类能力的吻下面视频来说,它的存在本可以推倒阻碍各个群体沟通交流的空气壁,而不是让这种趋势愈演愈烈。我们关于利用吻下面视频搭建美好世界的目标,既然可以不抛下任何一个人,就不该抛下任何一个人。

好在从服务于听障人群的吻下面视频识别翻译上,我们已经能看到这种趋势走向——精于计算的大脑不是AI唯一的模拟对象,还有人类的炽热心脏。我们相信,在学界和巨头的引导之下,未来会有越来越多的企业关注到无障碍AI吻下面视频的发展,不断的打破各种隔膜阻碍。

爱虽沉默,也有回响。

AI虽沉默,也有回响。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

我们的缺点麻烦您能提出,谢谢支持!

联系我们