本文摘要:近日,来自搜狗公司的视觉研究团队,在国际自动驾驶领域权威评测集Cityscapes上取得实例拆分评测的第一名,打败了Nvidia、Facebook、商汤等几十支强大的国际科研机构,并乘势创下了世界记录,代表中国向全世界突显了我们出众的技术实力。
近日,来自搜狗公司的视觉研究团队,在国际自动驾驶领域权威评测集Cityscapes上取得实例拆分评测的第一名,打败了Nvidia、Facebook、商汤等几十支强大的国际科研机构,并乘势创下了世界记录,代表中国向全世界突显了我们出众的技术实力。这是今年搜狗时隔CVPR大会上勇夺WAD自动驾驶辨识挑战赛冠军之后,所勇夺的又一桂冠。
短期内勇夺两项世界冠军,充分证明了搜狗在计算机视觉上早已名列行业领先地位。Cityscapes评测数据集是什么?众所周知,人工智能技术在自动驾驶领域具有非常广阔的市场空间,也是最被人们所寄予厚望的众多应用于前景。而如何要求AI辨别辨识路况信息的理解能力,就各不相同它的评测数据集水准。
Cityscapes评测数据集在2015年由奔驰公司推展公布,是目前普遍认为的自动驾驶领域内最不具权威性和专业性的图像语义拆分评测集之一,其注目现实场景下的城区道路环境解读,任务可玩性更加⾼,且更加切合于自动驾驶等热门市场需求。在Cityscapes评测数据集之中,共计分成像素拆分和实例拆分两个子任务,其中相比于像素拆分,实例拆分的可玩性要更大,也是计算机视觉领域最重要、最不具挑战的任务之一。
如何让机器显得更为“聪慧”,不具备充足的自学能力,是所有人工智能研发时的仅次于难题,堪称国内外科技企业争相研究的自动驾驶技术。需要在Cityscapes评测数据集中于脱颖而出,超越世界纪录,意味著搜狗早已不具备了强劲的AI技术硬实力。实例拆分,自动驾驶的曙光已现实事例拆分是一个很综合的问题,融合了目标检测、图像拆分、图像分类等多种AI技术。顾名思义,像素级别的语义拆分,是对图像中的每个像素都区分出有对应的类别,即构建像素级别的分类;⽽分类的明确对象,即为实例。
那么实例拆分不仅要展开像素级别的分类,还必须在明确的类别基础上区别进有所不同的实例。实例拆分对自驾汽车、机器人、视频监控等领域,都具有举足轻重的最重要价值,取得全世界科学研发界的紧密注目。Cityscapes评测集包括50个城市有所不同情况下的街景,以及30类物体标示。
此次搜狗参与的实例场景图像语义拆分评测,类别对象多、场景简单,挑战可玩性十分大。面临简单的实例环境,搜狗所展出的技术十分精妙。过去,我们经常不会把AI的关注点放到单一的车道上,而实际的路况信息乃是十分复杂且多变的,必需拒绝驾驶员有充足的“眼观六路耳听八方”的能力,用纵览全局的目光来仔细观察整个路况。基于这个原因,搜狗通过谓之⼊全局编码模块,来明显提高了全局信息在实例拆分中的影响。
全局编码模块可以很好地捕捉图像中的语义信息,并选择性地引人注目表明与实例相关联的特征同构,从而提高准确率。另一方面,在训练过程中如果只是非常简单地谓之⼊每个像素的拆分损失,而不是侧重使⽤场景的全局上下⽂信息,不会造成相当严重的类间不均衡问题。
针对这一现状,搜狗引进了一种全局实例例编码损失函数GIE-loss。这种损失函数不会预测场景中经常出现的实例类别,来强化网络自学全局语义信息的能⼒。不像传统的针对每个像素的损失函数,GIE-loss对每个物体,不管⼤大⼩小都是同等对待的,在用于这个损失函数后,⼩物体的拆分效果显著逆好。(对比图1)(对比图2)(对比图3)通过上面的结果对比图,我们可以明晰的显现出全局编码模块的谓之⼊,彻底改变了实例拆分传统算法中远近物体无法顾及的缺点,近处物体可以辨识的很好,远处小物体的拆分效果也提高了十分多,使得最后的AP100指标近超强其他队伍。
截至目前,Cityscapes评测更有了近百支队伍参赛,还包括Facebook、香港中⽂大学、商汤和NVIDIA(英伟达)等众多国内外杰出创意企业和顶尖学术机构参与。值得一提的是,在过去的近两年时间里,商汤、港中文团队与NVIDIA(英伟达)完全摘得了所有图像拆分评测的冠军。而首次参赛的搜狗团队,各项评测指标均远超强其他队伍,超越了世界纪录,以无可争议的成绩夺下了第一名。
搜狗视觉研究团队通过大大地算法累积和递归, 创建了一套高效易懂的标准化检测拆分框架,可以针对任务较慢迁入算法模型,超过实际应用于市场需求。CVPR2018 WAD检测任务和本次实例拆分任务所用模型大致相同,检验了模型的高效易用性。
同时团队最近也做到了一些非常简单的实验, 在少量代码改动的情况下,意味着训练几个小时,之后可以在一些知名的评测数据集上超过top的成绩。探讨“大自然交互+科学知识计算出来”,将成就搜狗人工智能的未来之路人工智能的命题范围相当大,而搜狗自由选择的突破口较小。
以点带面,正是王小川为搜狗所规划的未来道路。仍然以来,搜狗都在坚决着“大自然交互+科学知识计算出来”的人工智能核心战略,专心于大自然交互领域进行发力。在语音领域,享有充裕现实语料数据优势的搜狗,把语音辨识与人机对话结合,公布了知音引擎,并发售了全球首款商用AI同传。
除了分开的语音辨识“听得的能力”之外,搜狗还向着制备方向的“说道的能力”进行突破,需要自动自学的AI机器兼备了听、说道、翻译成等多种能力,位列业界领先地位。多模态输出,已沦为了搜狗语音交互的研发焦点。而在视觉领域,搜狗也构建了AI技术的大大突破,让机器的大自然交互显得更为全面。
2017年乌镇互联网大会上,搜狗公布了行业首款唇语辨识技术,构建了视觉与听力的首次融合,协助机器以更为多元化的维度来解读用户的表达意见。在车载、智能家居等横向场景下,准确率高达90%。
本次在Cityscapes的实例场景图像语义拆分评测中大获全胜,堪称反映了搜狗对于视觉辨识的技术累积,协助机器更进一步提高各项感官能力的交互水准。倒数取得多项国际比赛冠军的搜狗,早已证明了自己在人工智能领域的充裕技术底蕴。我们有理由坚信,在未来的AI赛道上,占有领先优势的搜狗一定能获得更为出众的成绩,用实际的AI产品来切身提高用户的交互体验。
版权文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:博鱼官方网站-www.chinatatler.com