公告:
编码表示 您当前所在位置:时时彩计划群微信号 > 编码表示 > 正文

这种思想独特且有深刻意义

来源:未知作者:admin 更新时间:2018-04-19 17:03
民间正轨手机彩票软件 众亿彩票网手机 国度受权正轨彩票平台 来自华盛顿大学艾伦人工智能研讨所的Kiana Ehsani团队打破守旧计算机视觉的研讨任务,测验测验从目标对象(比方狗)的视角停止建模,并以此模型来猜测对象的行为形式。 这类表现学习方法与守旧的图

  民间正轨手机彩票软件众亿彩票网手机国度受权正轨彩票平台来自华盛顿大学艾伦人工智能研讨所的Kiana Ehsani团队打破守旧计算机视觉的研讨任务,测验测验从目标对象(比方狗)的视角停止建模,并以此模型来猜测对象的行为形式。

  这类表现学习方法与守旧的图片熬炼任务的不同的地方在于,它的模型熬炼是从特定视角动身,以是这是一种全新的CV任务。在论文中,作为案例,作者采用狗狗的视角来熬炼模型,在狗的行为建模上获得明显的胜利。作者表现,该方法有望拓展到其余领域。

  守旧的计算机视觉研讨专一于分类、辨认、检测及朋分等子任务;当去处置一样平常的计算机视觉成绩时,研讨人员一样平常会将这些功效停止有机的组合。但这类研讨方法所得出的成果赓续与希冀成果有较大的差距。本文的作者受近期「行为和交互在视觉懂得中浸染」研讨事情的劝导,他们将视觉智能(visual intelligence)成绩界说为:懂得视觉数据并在视觉天下中采用行为或实施任务。在这类界说下,作者觉得要像一个视觉智能体在视觉天下中那样去学习。

  作为该项研讨的切入口,他们抉择一只狗作为视觉代庖代理。比拟于人类,狗有一个简略的行为空间,这使任务能更容易地处置;而另一方面,它们能够或者清楚地表现出视觉智能,辨认食品、妨碍物、其余人类和植物,并对这些输入作出反应。

  如上所述,作者应用了DECADE数据集。这个数据集包括380个视频剪辑片断,这些视频由安装在狗头部的摄像机拍摄而来。视频中还包括装备安装部位和运动轨迹等新闻。

  在测验测验中,作者统共用了24500帧,其中21000帧用于熬炼模型,1500帧用于验证,2000帧用于最后的测试。

  作者应用的是GoPro摄像头拍摄的这些视频,采样频次为5fps。该团队应用4个惯性测量单元(IMUs)来测量狗的四肢的地位,一个单元测尾巴地位,另有一个测躯干地位。这些装备能够或者用角向移动来记录运动。

  他们得到的每帧都包括六个测量单元的角移。角移以4维4元数向量表现。惯性测量单元的绝对角移与狗面向的标的目标相干,不同枢纽关头的角移是有差别的,这些差别也能够或者用四元数表现。他们觉得两个连续的帧之间角移的差别就代表着这条狗这两帧之间的举措。

  得到这些新闻的的详细气象是一个安装在狗背上的Arduino监视器毗连着各个测量单元(IMUs)来记录位相信息。它还能经由进程狗背上的微信麦克风来网络音频,这些音频可觉得同步GoPro和Imus数据供应依据,终极能够或者将视频和IMU测量数据同步切确到毫秒级别。他们的团队在多于50个不同情况下网络数据,网络时狗正处在特定的场景下,比如行走或捡对象或与其余狗互动。一切终极剪辑进去的帧都不带备注,测验测验均应用原始数据。

  在不同的场景中如何猜测狗的反应呢?作者所提出的模型经由进程学习狗以前看到的场景图片来猜测狗接上去的行为。

  模型的输入是一串视觉图象的帧序列(I_1, I_2, . . . , I_t),而输入则是在接上去的光阴片里狗各个枢纽关头的举措t

  作者将猜测成绩表述为一个分类成绩。他们将枢纽关头角移数字化编码,并将不同枢纽关头的运动标签化成特定的举措类。为了组成这些运动类,他们应用K-means算法来处置枢纽关头角移。每个聚类核心都能够或者代表一个特定的运动。

  其运动猜测模型是编解码结构的,主要目标便是找到输入图片与未来举措之间的映射干系。举例声名这类干系,比如当狗看到拿着狗粮,这条狗之后的举措很能够是坐着等家丁来喂。

  上图为这个模型的结构,其中编码部分包括了CNN模型和一个LSTM。其中每个光阴片内CNN都会领遭到一对连续的图片即上文提到的行为前行为后图片,对着其停止编码后传输给LSTM。测验测验成果果表现LSTM一个光阴片内接收两帧能够或者较着改良模型的表现。CNN包括两层权重不异的ResNet-18,其中一个则为处置帧。

  解码器的目标是依照已经被编码的帧来猜测狗枢纽关头的活动。解码器接收编码器传来的潜藏初始状态,和LSTM的处置成果,之后的每个光阴片,解码器输入上文提到的每个枢纽关头的举措类,而且前一个光阴片的输入会被线性编码器处置完作为下一个光阴片的输入。恰是因为他们应用牢固长度的处置后的输入作为下一个光阴片的输入,以是不需要停止标识表记标帜,且他们的模型会在产生必定数目标输入后停止。最后的成果便是他们的模型每个光阴片会输入六个举措类。

  每张图片都是独立传送给ResNet塔,且两张图片的特性已经连络,连络起来的特性会被线性转化器处置后输入编码器的LSTM。他们团队在ImageNet上事前熬炼了ResNet,而后优化一上去评价两张连续帧之间的举措。

  Kiana Ehsani团队的编解码器应用加权均匀熵丢失来处置每个枢纽关头。丢失函数为:

  为了给这个进程建模,作者设想了以下盘算:输入两张不连贯的图片,而后去计划从第一张图片的状态到第二张图片的状态两端能够出现的一系列行为。他们指出先前的运动估计量已经再也不适用,以前的运动估计是依照镜头的状态变更来补充两张图片变更之间的状态。现在则相同,咱们的模型自行盘算去停止一些正当的行为来补充图片变更之间的状态。更加正式的描写便是,

  输入两张图片(I_1,I_N),输入时长为n-1的行为数据。这个输入便是够从I_1 状态转换到I_N状态两端经验的进程。

  狗的每步行为都会对下一步行为产生影响,以是作者设想了一个递归神经网络,这其中包括一层LSTM,用来处置一个光阴片的的输入作为后一个光阴片的输入。如图所示,他们将图片I1和IN分袂单独的传给ResNet-18塔,合并上一层的特性并输入LSTM。每光阴片内,LSTM cell都会输入六个枢纽关头的运动数据。他们将此作为下一个光阴片的输入,这就使得神经网络能够或者依照以前的状态停止调剂。同时他们还将行为出现的几率这一数据也作下一光阴片的输入。这会使以后光阴片中的低几率行为外行为序列中进一步招致高几率行为,这样就能够或者担保未来行为的多样性。

  作者应用等式所描写的加权的穿插熵消耗在一切的光阴片和枢纽关头上熬炼该递归神经网络。与处置如何像狗一样行为所采用的方法相同,他们应用了团圆的举措域。

  在学习从狗观察到的图象中猜测狗枢纽关头的运动时,能够或者得到一个图象表现,它编码了不同范例的新闻。

  为了学习表现,作者经由进程观察狗在光阴t-1和t中观察到的图象,熬炼ResNet-18模型来估计以后的狗的运动(IMU从光阴t-1到t的变更)。随后作者对这个表现停止测试,并与在ImageNet上熬炼的ResNet-18模型停止比力,在不同的任务中会应用不同的数据。 在测验测验中,作者应用SUN397数据集,停止了可行详情估计和场景分类。

  为了展示表现的成果,作者将模型中蓝色部分用在ImageNet上熬炼过的ResNet停止了代替,并将其与在DECADE上熬炼的ResNet停止比力。

  上面这张图中表现了模型从5帧视频中学习到当一个人朝狗扔球时狗的表现。在视频中,球超出狗后,狗转向右边去追球。本文提出的模型只应用前5帧图象就能够或者精确地猜测在球飞过期狗如何转向右边的行为。

  将在ImageNet上熬炼的网络成果与在DECADE上熬炼的网络停止比力,评价目标为IOU。

  Kiana Ehsani团队抉择直接从目标对象视角建模,他们用从狗的视角拍摄的视频来熬炼模型,终极的目标是让本人的模型能够或者猜测随后的行为,能够或者像狗一样去计划本人的行为来实现目标。他们的事情是端到端建模的第一步,这类方法不需要手动标识表记标帜的数据或具备详细语义的数据。不但如此,它还能够或者在多对象和多场景下使用去得到有价值的新闻。

  雷锋网觉得,他们的方法另有许多有待拓展的地方。一方面是,本文实现的模型只接收视觉输入,属于CV成绩,但实际上它完整能够或者拓展到其余领域,例照实现听觉、触觉等的输入;别的,以后模型仍只是针对一条狗的行为建模,那末可否能够或者拓展到多条狗的气象呢?

  不管如何,采用家丁公视角的数据集来熬炼模型,这类思惟独特且有深锐意义,属于一种新颖的CV task。

 

关于我们
联系我们
  • 杭州浩博建筑装饰工程有限公司
  • 联系地址:杭州市益乐路方家花苑43号2楼
  • 电 话:0571-85360638
  • 传 真:0571-85360638