当前位置:今期特马刘伯温玄机图 > 人工约束 >

人工智能特征图像转换深度学习谐波不受约束的图像到的转换

  摘要:最近的不成对图像到图像转换的方向一方面非常令人兴奋,因为它减轻了获得标签密集的像素到像素监督的巨大负担,但另一方面由于存在工件和退化的转换。在本文中,我们通过在样本图上引入平滑约束来获得问题的多方面视图,以获得谐波函数以在翻译期间实施一致的映射。我们开发HarmonicGAN以学习源域和目标域之间的双向转换。在相似性一致性的帮助下,可以保持样品固有的自洽性。在两种类型的特征(包括直方图和CNN)上定义的距离度量被利用。在没有额外手动输入的情况下设置为CycleGAN的识别问题,Harmonic-GAN表现出对现有技术水平的显着定性和定量改进,以及改进的可解释性。我们在许多应用中展示了实验结果,包括医学成像,物体变形和语义标记。我们在所有任务中都胜过竞争方法,特别是对于医学成像任务,我们的方法将CycleGAN从失败变为成功,将均方误差减半,并在95%的情况下生成放射科医师优于竞争方法的图像。

  图像到图像的翻译(Isola et al。,2017)旨在学习从源域到目标域的映射。作为计算机视觉中一项重大且具有挑战性的任务,图像到图像的翻译有益于许多视觉和图形任务,例如逼真的图像合成(Isola等,2017; Zhu等,2017a),医学图像生成( Zhang等人,2018; Dar等人,2018)和域适应(Hoffman等人,2018)。给定一对在源和目标之间具有详细的像素到像素相关性的训练图像,可以使用例如图像到图像的转换作为回归问题。完全卷积神经网络(FCNs)(Long et al。,2015)通过最小化例如每像素预测损失。最近,使用基于生成自适应网络(GAN)的丰富生成模型的方法(Goodfellow等人,2014; Radford等人,2016; Arjovsky等人,2017)取得了惊人的成功。将GAN(Goodfel- low等,2014)引入图像到图像转换(Isola等,2017)的主要好处是获得关于整体质量的额外图像级(通常通过补丁)反馈。翻译,通过训练每像素回归目标无法直接获得的信息。

  Isola等人的方法。 (2017)能够生成高质量的图像,但它需要成对的训练数据,这些数据难以收集并且通常不存在。为了在没有配对数据的情况下进行翻译,已经提出了基于循环的方法(Zhu等人,2017a; Kim等人,2017; Yi等人,2017),以使用圆度约束来学习集合到另一集合的翻译。建立源域和目标域之间的关系,并强制源域中的样本生成的结果映射回来生成原始样本。原始的图像到图像转换问题(Isola等,2017)在像素级进行监督,而不成对的图像到图像任务(Zhu等,2017a)被认为是无监督的,具有像素级没有监督,但在图像层面(目标领域)存在对抗性监督。通过对像素级预测(源目标源)使用循环回归加上传输图像与目标图像之间的对抗差异的术语,CycleGAN能够成功地进行很多情况下,培训一个没有配对源→目标监督的翻译模型。然而,缺乏在翻译中强制规律性的机制会产生如图(1.a)和图2中的问题,对图像内容进行不期望的改变,表面上去除肿瘤(第一行)或创建肿瘤(第二行)。目标域中的错误位置。图(1.b)还显示了将马翻译成斑马时自然图像上的CycleGAN的一些伪影。

  为了解决上述问题,在本文中,我们从多种学习的角度来看待不成对的图像到图像转换的问题(Tenenbaum等,2000; Roweis&Saul,2000)。 直观地,可以通过在翻译中引入正则化术语来缓解该问题,鼓励在同一图像中的类似内容(基于纹理或语义)进行类似的翻译/变换。 流形学习的一个共同原则是在展开后保持局部距离:迫使原始空间中的相邻(相似)样本成为新空间中的邻居。 同样的原理已应用于基于图的半监督学习(Zhu,2006),其中使用图拉普拉斯算子的谐波函数(Zhu et al。,2003; Belkin et al。,2006)用于获得未标记的正则化标签。 数据点。

  在转换/转换期间,一些特定于域的属性被改变,例如某些图像区域的颜色,纹理和语义(参见例如图1中的示例)。虽然没有关于这些变化的监督信息,但转换过程中的某些一致性是可取的。受基于图形的半监督学习的启发(Zhu et al。,2003; Zhu,2006),我们通过为翻译提供更强的正则化,为不成对的图像到图像翻译引入平滑约束(Zhu et al。,2017a)。 /源域和目标域之间的转换,旨在利用源域和目标域的“流形结构”。对于一对相似的样本(图像中的两个不同位置;尽管CNN的感受域非常大,但可以将它们视为两个补丁),我们添加平滑约束以最小化目标中相应位置的加权距离图片。请注意,两个空间距离较远的样本可能是要素空间中的邻居。我们将我们的算法命名为HarmonicGAN,因为它与循环和对抗约束一起表现为并行,以学习源域和目标域之间的一对双重翻译。采用两种替代功能定义的度量标准:

  我们在许多应用中进行实验,表明在每种应用中,我们的方法在数量,质量和用户研究方面都优于现有方法。对于最近引起对一个主要的CycleGAN失败案例(学习在MRI图像翻译任务中意外添加/移除肿瘤)的医学成像任务(Cohen等,2018),我们提出的方法提供了比CycleGAN大的改进,将平均误差减半,并在95%的情况下产生放射科医师优于竞争方法的图像。贡献:

  1.我们在图形上引入平滑正则化,用于不成对的图像到图像的转换,以获得谐波转换。

  2.在构建端到端学习流程时,我们采用两种替代类型的特征度量来计算图拉普拉斯算子的权重矩阵,一个基于软直方图(Wang et al。,2016),另一个基于语义CNN(VGG)的特色(Simonyan&Zisserman,2015)。

  3.我们证明这可以显着提高转换的一致性。通过对多个翻译任务的实验,我们证明HarmonicGAN优于现有技术水平。

  正如在介绍中所讨论的,深度学习时代的一般图像到图像翻译任务是由Isola等人开创的。 (2017),但有一些先前的作品,如图像类比(Hertzmann等,2001),旨在达到类似的目标,以及其他基于范例的方法(Efros&Freeman,2001; Criminisi等,2004) ; Barnes等,2009)。之后(Isola et al。,2017),一系列其他工作也利用像素级重建约束来建立源域和目标域之间的联系(Zhang et al。,2017; Wang et al。,2018)。图像到图像的翻译框架(Isola et al。,2017)非常强大,但它需要足够数量的训练数据,配对源到目标图像,这在标记,合成等一般任务中通常很难获得。 (Chen&Koltun,2017),风格转移(Huang&Belongie,2017)。

  不成对的图像到图像翻译框架(Zhu等人,2017a; b; Liu等人,2017; Shrivastava等人,2017; Kim等人,2017),例如CycleGAN,取消了具有详细像素的要求 - 水平监督。在CycleGAN中,这是通过执行从源到目标的双向预测并且目标回到源来实现的,在目标域中的翻译图像中具有对抗性惩罚。还开发了类似的无监督循环方法(Kim等,2017; Yi等,2017)。 CycleGAN系列模型(Zhu et al。,2017a; b)指出了无监督方法的令人兴奋的方向,但它们也在许多应用中产生了伪像。如图2所示,其中一个原因是CycleGAN中的圆度约束缺乏对目标域的直接描述,因此它可能会改变原始样本的固有属性并产生在不同图像位置不一致的意外结果。这些失败在最近的研究中得到了突出的研究,表明CycleGAN(Zhu等,2017a)可能在跨模式医学图像合成中偶然增加或消除肿瘤(Cohen等,2018),以及在自然任务中图像变形,例如从马到斑马,背景中的区域也可以被翻译成斑马纹(Zhu et al。,2018)(见图1)。

  在这里,我们建议HarmonicGAN将一个平滑项引入CycleGAN框架,以强制执行正则化的翻译,强制执行类似的图像内容。源空间在目标空间中也类似。我们遵循流形学习中的一般设计原则(Tenenbaum等,2000; Roweis&Saul,2000)以及基于图的半监督学习文献中的谐波函数的发展(Zhu et al。,2003; Belkin et al 。,2006; Zhu,2006)。之前的工作有DistanceGAN(Benaim&Wolf,2017),其中也实施了距离保存。然而,DistanceGAN与HarmonicGAN在(1)动机,(2)制定,(3)实施和(4)表现方面不同。 DistanceGAN的主要动机是演示CycleGAN中每像素差异的替代损失项。然而,DistanceGAN相对于CycleGAN的实际增益尚不清楚。我们观察到CycleGAN中循环的每像素损耗是有效的,我们的目标是通过引入额外的调节来产生平移谐波。平滑项充当对所有样本对施加的拉普拉斯图(使用实现中的随机样本)。在实验结果中,我们表明CycleGAN中的工件仍存在于DistanceGAN中,而HarmonicGAN则显着提升了CycleGAN的性能。

  实验:我们在三种不同的应用上评估所提出的方法:医学成像,语义标记和对象变形。我们将几种不成对的图像到图像转换方法进行比较:CycleGAN(Zhu等,2017a),DiscoGAN(Kim等,2017),DistanceGAN(Benaim&Wolf,2017)和UNIT(Liu等, 2017年)。我们还提供两个用户研究以及定性结果。附录提供了实施细节和其他结果。

  医学影像。该任务评估跨模式医学图像合成,Flair T1。模型在BRATS数据集(Menze等,2015)上进行训练,其中包含成对的MRI数据以进行定量评估。与之前的工作类似(Cohen等,2018),我们使用了1700个图像切片(50%健康和50%肿瘤)和300个测试集的训练集,并使用他们的不成对训练场景。我们采用生成的图像和真实图像之间的平均绝对误差(MAE)和均方误差(MSE)来评估重建误差,并进一步使用峰值信噪比(PSNR)和结构相似性指数测量(SSIM)评估生成图像的重建质量。

  语义标注。我们还使用Cityscapes数据集(Cordts等,2016)在标签照片任务上测试我们的方法,如在原始CycleGAN论文中的非配对设置。对于定量评估,与之前的工作一致,对于标签照片,我们采用“FCN得分”(Isola等,2017),其根据语义分割算法评估生成的照片的可解释性。对于照片标签,我们使用标准分段指标,包括每像素精度,每类精度和平均类别交叉联盟(Class IOU)。

  对象变形。最后,我们使用标准的CycleGAN数据集(2401个训练图像,260个测试图像)测试我们对马斑马任务的方法。此任务没有定量评估指标,因此我们提供用户研究和定性结果。

  结论:我们已经表明,通过引入额外的正则化以在图像到图像转换期间实施一致的映射,可以保持样本的固有自洽性。通过一系列定量,定性和用户研究,我们已经证明,与包括医学成像,物体变形和语义标记在内的许多应用中的当前最先进的方法相比,这导致了显着的改进。特别是在医学成像任务中,我们的方法提供了超过CycleGAN的非常显着的改进。

http://aqilabutik.com/rengongyueshu/400.html
点击次数:??更新时间2019-07-03??【打印此页】??【关闭
  • Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有  
  • 点击这里给我发消息
在线交流 
客服咨询
【我们的专业】
【效果的保证】
【百度百科】
【因为有我】
【所以精彩】