导航菜单

【CVPR Oral】视频跟踪新思路,完全无需手工标注

国际白金会娱乐

[CVPR口头]视频跟踪新想法,无需手动标注

4edc7e723185468fb4c23f43ffc08e1d.jpeg

了解专栏

作者:王晓龙

[新致远指南]本文介绍了CVPR 2019口服的工作。作者来自CMU和加州大学伯克利分校。本文提出了一种使用无监督学习的创新视频跟踪思想,并取得了优异的成果。

本文重点介绍CVPR 2019(口头):的工作

Xiaolong Wang *,Allan Jabri *和Alexei A. Efros。从循环时间的一致性中学习对应。

论文:从周期一致性学习函数

代码: xiaolonw/TimeCycle

幻灯片(百度网盘):提取代码: es86

我们的工作主要是为跟踪和光流提供一种新的思维方式。我们将两者联系起来并将其联合起来作为时间的对应关系。这项工作的目标是训练神经网络,以便它可以帮助我们获得视频中帧之间的半密集对应。

与以前的方法不同,我们不需要人工数据注释或合成数据。这项工作使用自我监督/无监督学习,并且训练网络的方法可以应用于任何视频。

首先显示结果,我们训练的网络可以用来做以下人体部分段跟踪(不使用任何分段训练和微调)。

视频分段跟踪

在介绍我们的方法之前,让我们讨论一下找到对应关系的当前方法:

相关工作1:视觉跟踪

视觉跟踪能够获得盒级通信。然而,目前训练神经网络进行跟踪需要训练视频的每个帧,这极大地限制了训练样本的数量。

d5727ed5d5cf4afcadbd4422863df2f5.gif

相关工作2:光流估计

光流估计可以获得像素级对应。但通常需要通过训练神经网络来计算光流量,这通常需要在合成数据集上完成,这使得训练好的网络难以推广到实际数据。此外,光流对局部变化过于敏感,并且难以处理长距离或大运动视频。

4823374f85f44aa3bf00db6e2ae7cde9.jpeg

事实上,视觉跟踪和光流估计是非常相关的,但近年来这两个领域似乎在经过深度学习后变得独立。我们的文章希望每个人都可以将两者联系起来思考。

本文的方法

我们在这里提出的实际上是跟踪和光流之间的中级对应或半密集对应。因为我们计算中间层的对应关系,这使得我们对像素的局部变化更加鲁棒,并且可以在一定程度上编码不变性,允许我们进行远程跟踪并处理大的物体位移。

我们计算深部特征的半密集对应关系。如下所示,对于接下来的两帧,我们首先提取深度特征(约30x30分辨率)。对于t-1帧中的格子,我们通过计算最近邻居找到t帧中最相似的格子。下面箭头的两端代表其中一个对应关系。

40de863ae9894d0191b6cd450be2cc12.jpeg

以下是我们如何训练这个深层网络。在这里,我们使用自我监督/无监督学习:它在学习过程中不需要任何人工注释。

如下图所示,我们假设我们使用此网络进行跟踪。在最后一帧,我们首先随机选择一个边界框,然后在边界框上执行向后跟踪(蓝色箭头),然后在第一帧的结果上进行前向跟踪(红色箭头)。然后,初始框和最后一个跟踪框之间的错误(黄色箭头)充当我们培训网络的监控信号。我们将此信号称为循环一致性损失。

92e190cc5e9347b1b6e1244684d907ea.jpeg

周期一致性损失

在训练过程中,我们沿循环传递误差(用黄色虚线表示):

452fabe87d304e99851ddf4da9f047a5.jpeg

在训练过程的不同迭代中,循环产生以下变化。可以看出,随着迭代次数的变化,跟踪变得越来越好:

557bfab1b0be4153afc3eef50018a5a4.jpeg

周期的变化

我们的结果

我们培训的网络可以帮助我们找到通信并将其应用于各种跟踪任务。

我们对VLOG数据集进行了无监督学习(训练后的网络可以直接应用于以下不同的跟踪任务,无需对目标数据集进行任何培训/微调。

除了开头部分中提到的人体部分片段跟踪,我们还可以完成以下任务:

1.跟踪对象掩码

8b71f8a49c034a548ae0dff4f5f5a1f5.gif

acb0ba16917549d3ba8a6dfe8c40c087.gif

2.跟踪姿势

bcb2088a3fbf4dcfa1f395803eb40e86.gif

e4d911d298034401bc6640eb7b2f8d28.gif

3.跟踪纹理

在这个任务中,我在第一帧中绘制彩虹纹理,然后使用我们的对应关系来传递彩虹纹理。

20d927616d0a47578d39e072ecbb92a5.gif

7ff5367f5c014698a3e7eb774851aab1.gif

4.光流

我们还可以看到对应关系,结果类似于光流。

ee8038d69ddb478f88ebdb1a4988bed3.jpeg

总结

我们希望这项工作能够将跟踪和光流联系起来。对于跟踪任务,我们可以突破有限的人类注释的局限性,并提供一种培训跟踪器的新方法。我们还希望能够提供一种在视频或时间序列数据中进行无监督学习的新方法。将来,这种循环时间的一致性可以用作监督信号来帮助其他任务。

论文地址:

(本文授权重现自知,作者王晓龙,原文链接:

无功机器。代表性的例子:深蓝色。可以识别板上的情况并做出预测,但没有记忆。

记忆力有限。可以使用过去的记忆来帮助做出未来的决定。代表性示例:自动驾驶仪

意志理论:能够理解影响自己决定的意见,欲望和目的。目前这样的AI还不存在。

自我意识:具有自我意识的机器,可以了解其当前状态,并可以使用现有信息来推断他人的感受。目前这种AI不存在。

AI技术应用示例:

dbcc516e2c254f4a919d1bf653a5bf85.jpeg

e3bb2e3c06bf483cb7db72618964c233.jpeg

件。

机器视觉:一种技术,允许计算机使用相机“观察”并捕获和分析视觉信息,以执行模数转换和数字信号处理。

机器学习:让计算机无需编程即可运行。机器学习的一个子领域是深度学习,旨在实现自动预测分析。

自然语言处理:使用计算机程序处理人类语言。垃圾邮件检测,文本翻译,语义分析和语音识别都属于这一领域。

机器人技术:机器人可以比人类更准确,更可持续地执行困难,重复的任务。

全球AI技术竞赛中十大最具竞争力的公司

21310da742af4ddc944517acf15e7594.jpeg

1. DeepMind:目前在人工智能研究公司中排名第一

2,谷歌:建立一个谷歌大脑团队,专注于在各个领域进行长期的人工智能研究和开发。

3,Facebook:主要关注语言问题,如动态内存,问答系统开发等。

4,OpenAI:虽然团队规模不大,但配置属于全明星级别。

5,百度:在语音互动,自动驾驶领域表现突出。

6,微软:在AI领域工作多年,目前专注于实时翻译。

7. Apple:正在开发面部识别技术来分析面临设备广告的用户的面部反应

8.小发猫:使用AI技术从照片,视频,语音和文本中提取语义。

9.亚马逊:目前,多个部门的业务倾向于人工智能,如无人驾驶商店,无人机货物配送和Alexa语音助理。

10. NVIDIA:机器学习计算资源和硬件的领导者。

世界十大AI国家

bbb085d579a64f59a8f57a52f4829021.jpeg

1.美国:每年有100亿风电投资基金进入人工智能领域

2.中国:在过去五年中,与中国人工智能相关的专利数量增加了190%。

3.日本:制造业的自动化程度可能高达71%。

4.英国:英国政府每年为人工智能的1,000名博士生提供赞助

5.德国:首都柏林的人工智能创业公司数量居世界第四位。

6.法国:到2022年,法国政府对人工智能产业的投资将达到18亿美元。

7.加拿大:正在建造价值1.27亿美元的人工智能研究设施。

8.俄罗斯:到2025年,俄罗斯30%的军事装备将被机器人化。

9.以色列:自2014年以来,人工智能创业公司的数量增加了两倍。

10.爱沙尼亚:在处理和解决与人工授精有关的法律问题方面走在世界的前列。

AI的未来

37ae6933d42944c498de2bdcfb50e6ef.jpeg

全自动运输:人工智能技术将使未来的交通更加全面和智能化。

网络技术:人工智能和机器人将帮助我们超越认知和身体限制。

83464adba27941f8888dfe01a7ea5f36.jpeg

而不是人类从事危险的职业:机器人和无人机将取代我们在危险的任务,如炸弹拆除,我们不必冒着生命危险完成这些任务。

应对气候变化:有一天,人工智能可以利用大数据来判断趋势,并利用这些信息来解决气候变化等重大问题。

探索新的界限:机器人可以帮助我们进一步探索太空和海洋。

预测未来:机器学习使用过去的信息来预测未来。谁将开始浪漫之旅?谁将面临离婚等问题。

原始信息图表和更多:

,查看更多