分享好友 资讯首页 频道列表

【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

2024-10-15 16:1262010

近期,阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。

文本到图像合成 (TIS) 已成为计算机视觉与自然语言处理 (NLP) 交叉领域的重要前沿,其能够根据文本描述生成视觉上引人注目的图像。基于文本引导的图像编辑任务使用户能够通过简单的文字描述来指导图像的修改,无需使用复杂的图像编辑软件或具备专业知识即可实现编辑效果。其中 Traing-free 的文本引导图像编辑 (TIE) 已成为一个重要的研究方向,利用预训练的 TIS 模型,直接通过文本提示来编辑图像,用户可以直接输入文本,对图像进行多种编辑操作,包括颜色变化、物体的添加或去除、风格转换等。这种交互式编辑方式显著降低了图像编辑的门槛,使得创意表达变得更加便捷和个性化。

尽管当前的 TIE 算法取得了显著进展,但它们仍存在一些局限性。如图1所示,现有 TIE 方法在编辑多个对象时面临挑战。多对象编辑的复杂性会导致编辑对象丢失(例如,丢失一个苹果)、属性缺失(例如,斑点)和背景保留不完整等问题。 

图1. 图像编辑的效果对比以及我们提出方法的结果

在本文中,我们提出了 VICTORIA 编辑算法,它利用语言知识来解决在对象场景编辑中因缺失目标(如对象、属性和背景)而导致的问题。VICTORIA 通过分析输入编辑文本中单词之间的依存关系,并将这种关系反映在注意层的中间表示中,从而修正并生成目标图像。图2展示了 VICTORIA 的整体框架。首先,我们通过控制自注意机制来确保原始图像和编辑后图像之间的空间一致性。其次,VICTORIA 分析输入编辑文本中单词之间的依存关系,并在生成目标编辑图像的过程中主动干预交叉注意力图,从而提升目标编辑区域的生成结果。最后,VICTORIA 通过交叉注意图进行图像部分掩码,有效保留原始图像中无需被编辑的区域。 

图 2:VICTORIA 在对图像进行编辑的过程示意图

VICTORIA 伪代码如下: 

图 3:VICTORIA 在合成图像编辑和真实图像编辑场景下的伪代码 

图4展示了 VICTORIA 的编辑结果,它成功地修改了原始图像中多个物体的各种属性、风格、场景和类别。 

 

图 4:VICTORIA编辑结果示例

图5对比展示了 VICTORIA 与其他一些 SOTA 图像编辑技术的效果。无论是对真实照片还是合成图像,VICTORIA 均展现出了高效的编辑能力。在所有的案例中,VICTORIA 都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。 

图 5:VICTORIA与其他编辑方法的对比

为了更好地服务开源社区,这一算法的源代码已经贡献在自然语言处理算法框架 EasyNLP 中,欢迎各界从业人员和研究者使用。

阿里云人工智能平台 PAI 长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。
 

论文信息

论文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing

论文作者:刘冰雁、汪诚愚、黄俊、贾奎

论文pdf链接:https://openreview.net/pdf?id=efTur2naAS


举报 0
收藏 0
打赏 0
智汇和平 模创启航!天津天开和平园·模创社区开园仪式成功举办
8月13日,“智汇和平·模创启航”天开和平园·模创社区(以下简称:模创社区)开园仪式圆满举办,市相关领导出席活动并致辞。天

0评论2025-08-155084

智能门锁下半场:拼完功能拼售后,看奇兵到家如何破智能门锁下半场
解智能门锁售后痛点智能家居浪潮中,智能门锁已跃升为“刚需级”单品。然而,黑猫投诉平台数据显示,相关投诉已突破2700条,其中

0评论2025-08-155537

艾聆科技推出随身 AI 助理 Note Pro 升级版,十大升级重塑行业标杆
作为AI领域的新锐力量,艾聆科技基于其研发团队深厚的技术功底,在行业已有标杆产品的基础上,进一步打磨升级,推出其面向工作学习场景的随身AI助理 Note Pro升级版。

0评论2025-08-155302

中科慧远发布首款工业质检机器人CASIVIBOT
8月19日,国内领先的AOI(自动光学检测)专有设备制造商中科慧远将举行新品发布会,正式推出其首款工业具身质检机器人「CASIVIBOT」。

0评论2025-08-145158

酒业仓储“效率革命”来了!中力数智新仓打造酒业智能仓储新典范
当千年酒香遇上智能科技会发生什么神奇反应?中力数智携手石花酒业打造智能化酿造中心,以数智新仓【密集堆垛+前移式机器人】一举

0评论2025-08-125370

专为中国用户“量身定制”!爱普生发布LA-A系列新品机器人
8月8日,爱普生以“智在中国 劲擎共赢”为主题,在爱普生技术(深圳)有限公司(下称:爱普生深圳工厂)重磅发布首款专为中国市

0评论2025-08-115304

比利·简·金杯深圳总决赛今日20点盛大开票,郑洁担任赛事推广大使
创办于1963年的比利·简·金杯是世界上最顶级的国际女子网球团体赛事,被誉为“女子网球世界杯”。2025-2027年,比利·简·金杯

0评论2025-08-115296

VisionChina2026(上海)机器视觉展焕新登场,报名抢占黄金展位!
VisionChina2026(上海)机器视觉展将于2026年3月25-27日在上海新国际博览中心W4W5馆盛大启幕!从核心零部件到智能系统集成,从2

0评论2025-08-075647

央视聚焦!瑞典恩华特Envac王艾英博士登央视《攀登者》,智能垃圾收集系统破解城市环境治理难题
2025年2月21日,恩华特(Envac)大中华、东南亚及印度大区总裁及首席执行官王艾英博士受邀参与CCTV央视频道《攀登者》栏目录制,与

0评论2025-08-065476

未来式智能亮相 WAIC 2025,以人机协同范式引领产业智能变革
为期四天的 2025 世界人工智能大会(WAIC)在上海世博中心圆满落幕。作为国内企业级 AI Agent 技术的标准制定者与先行者,未来式

0评论2025-08-065424