香港脉搏www.etnetchina.com.cn
 理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
AI文转图混战!微软、Adobe、Canva三雄并起
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2023-04-04 09:49:10

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

  继Bing AI搜寻功能后,微软宣布推出AI绘图服务“Bing Image Creator”预览版。图像编辑软件巨头Adobe不甘示弱,同日发表生成式AI模型集“Firefly”,容许“Photoshop”与“Illustrator”用户输入文字提示,快速生成各式图像素材。网上设计平台Canva也推出了一系列AI制图工具,以作抗衡。似乎AI技术竞赛的战火已从生成文案,蔓延至“文字生成图像”领域!

微软、Adobe竞推AI绘图工具

  2023年3月21日,微软(Microsoft)宣布,将OpenAI的文转图技术“DALL-E”移植至Bing搜索引擎和“Edge”网页浏览器的预览版。用户输入文字提示后,AI会自动生成4张不同设计的缩图以供选择。接着,用户点选其中一张图片,即可输出1,024×1,024像素的图片。



“Bing Image Creator”背后所用的生成式AI技术是来自OpenAI旗下的文转图功能“DALL-E”。(图片来源:Bing官网)


“Bing Image Creator”的介面上虽然有中文介绍,但实际上现时只支持英文输入。用户键入提示词后,AI便会自动生成4张不同设计的缩图。(图片来源:Bing官网)



用户选取其中一张缩图后,便可以将生成好的图片下载下来。每张图片的左下角会加入Bing标志的浮水印。(图片来源:Bing官网)


  目前这项功能提供免费试用,暂时只能选择“富有创意”模式来产制图片,但日后会增设“平衡”与“准确”模式,让用户拣选不同的制图取向。微软表示,“Bing Image Creator”已整合OpenAI的内容安全机制,当AI侦测到提示文字可能会产生危害性的图片内容时,即会阻止该提示语生成图像,并警告用户。

  同一天,图像编辑软件龙头Adobe也宣布推出生成式AI模型集“Firefly”,以巩固其市场地位。在Firefly模型的加持下,用户在操作Adobe图像编辑工具时,可以使用自己的语言直接向AI下指示,生成相关的图片、影片、音效、或3D图像。用户在设计图像时,只要在对话框中输入:“将画笔换成蓝色,加入渐变效果”,AI即会自动调整画笔设定,有助缩减制作时间。



在Firefly模型的加持下,Adobe用户可以使用自然语言要求AI帮你在海面下加入“An underwater city”(水底城市)。(图片来源:Adobe官网)



Adobe表示,藉助Firefly,Adobe可以把AI驱动生成的“创意成分”直接导入用户的工作流程,提升创作者的生产力。(图片来源:Adobe官网)


  Adobe已在3月21日推出商业测试版本,首阶段只提供图像生成与文字效果功能。首批结合Firefly模型的软件,包括:“Photoshop”、“Illustrator”、“Express”、“Experience Manager”等;日后用户将可以在整套“Creative Cloud”、“Document Cloud”、以及“Experience Cloud”系列的软件中用到Firefly功能。

Adobe Firefly具备防偷图设定

  近期有愈来愈多数码艺术家与插画师担心,自己的作品会被AI抓取作训练数据,然后再生成带有其作品元素的AI画作。有鉴于此,Adobe提供“Do Not Train”的设定选项,让用户决定是否容许作品被用来训练AI模型。当用户在作品中选取“Do Not Train”的标签后,AI在抓取训练数据时便会自动跳过该画作。

  另一方面,不少企业亦忧虑,利用AI制图一旦涉及侵权问题,将会破坏品牌形像。针对此问题,Adobe强调由Firefly模型产制的作品均可合法用于商业用途,理由是该模型所用的训练数据全是来自Adobe Stock素材库、公开许可的版权内容、以及已过期的公用领域作品。此外,当用户输入文字生成图像时,可以自行选择指定的数据来源,免去版权问题的困扰。

  被视为Adobe最强挑战者的网上设计平台Canva也加入AI绘图战团,3月23日发表了一系列冠以“Magic”之名的AI制图工具,让它不但可以文转图,还可以“图转图”。在“Magic Design”工具中,用户只需上传一张图片,再选取一种风格,AI即会自动挑选出独特的设计模板,跟着用户基于此模板进行修改,便可以制作出心仪的海报或生日贺卡。


透过Magic Design功能,Canva用户只要上传图片再选定风格,AI即可为用户生成个性化的专属设计模板。(图片来源:Canva官网)


  在“Magic Edit”中,Canva用户只要选定图像中要添加或替换内容的位置,AI就会自动进行修改,为图片添加或替换当中的任何内容。在“Magic Replace”中,用户只需点击一下按键,AI即可为所有设计作品快速更换过时的商标或品牌图形。在“Magic Eraser”中,AI更可以帮助用户删除图片背景中的任何人或物件。

Midjourney V5画质像真度倍增

  面对众多新挑战者进场,AI绘图界领头羊Midjourney亦已于2023年3月15日释出最新版本“Midjourney V5”,务求在技术上抛离对手。Midjourney创办人大卫·霍尔兹(David Holz)指出,相比起前几代,“V5”可被视为“专业模式”,采用限制较少的全新演算法,能够提供更多样化的制图效果。

  “V5”输出图像的画质提高了两倍,达到1,024×1,024像素,惟AI制图时间也随之而倍增。在旧版本中,用户输入提示词时,通常要以逗号分开不同的描述词汇;来到“V5”版本,“Midjourney”终于真正支持“自然语言”,用户可以用一句说话来当作提示,惟暂时只支援英文输入。

  “Midjourney”一直容许以图片或文字当作提示方式,而“V5”则新增权衡图片提示和文字提示比重的功能,可以控制生成图像是偏向图片提示、还是文字提示。同时,“V5”更打破了输出图片长宽比只有1:2或2:1的限制,可让用户自订任何长宽比例。

  更重要的是,“V5”解决了生成人像时手指数量或姿势不对的问题,除不再出现六指或畸形手指外,还能按照人物特征画出不同年纪和状态的手部细节。尽管有些时候仍是会生成解剖学上不合理的四肢构造,惟作为AI制图的最明显线索已大大减少,让人愈来愈难判断图片是出自AI、还是人类手笔。



AI绘图工具一直无法画好人像中的手指,但来到“Midjourney V5”却完全解决了这个问题,不仅能够画出比例正常的五指,甚至连光影下的手指纹路也可以完美呈现。(图片来源:Twitter@TheCartelDel帐户)


Midjourney被滥用于假图制作

  不过,“Midjourney V5”输出的图片着实太逼真了,因而很容易被滥用,造成假资讯流窜的问题。英国记者艾略特·希金斯(Eliot Higgins)使用“V5”伪造了美国前总统特朗普(Donald Trump)被捕的图片,并上传至社交媒体,结果有不少网民信以为真,争相在网上疯传这些图片,迫使纽约警方不得不出面辟谣。

  其实,只要仔细察看希金斯用“V5”所生成的50张“特朗普被捕”图片,不难发现当中破绽百出,譬如特朗普有3只脚,腰部缠上警察腰带等。希金斯表示,原本以为网民可以留意到图片的不合理之处,可是最终却有不少人相信它们是真的,这证明了现今教育制度欠缺批判思维的训练。



英国记者希金斯使用“Midjourney V5”创作了一系列的特朗普被捕与逃狱的图片;其中特朗普与警方对峙的AI制图中,只要仔细一看,便可以发现图中的特朗普有3只脚,并围上了警察腰带,可说是破绽百出。(图片来源:Twitter@EliotHiggins帐户)



希金斯还利用“Midjourney V5”制作了特朗普从下水道逃狱的情境图。(图片来源:Twitter@EliotHiggins帐户)


  事件发生后,希金斯的“Midjourney”帐户已被停用,同时“被捕”(arrested)这个提示词也被禁用。3月28日,Midjourney更宣布暂时停止开放免费帐户使用。霍尔兹解释,近日大量用户涌入开设一次性帐号来产制免费图片,导致伺服器不堪负荷;为保障付费用户的使用权益,所以要关闭免费帐户。

  《华盛顿邮报》认为,从这宗事件可见,政府与企业均欠缺对利用AI来制作和散播假讯息的相关管制。有意见认为,应该在AI生成图片上加入浮水印,以便他人识别。微软表示,“Bing Image Creator”输出的照片已加注标签,表明是由Bing AI产制。

暂停AI研究公开信震动科技界

  然而,有些人认为这样还是不够。2023年3月30日,网上出现了一封由特斯拉(Tesla)执行长马斯克(Elon Musk)带头签署的“暂停AI研究”公开信,震动整个科技界。这封公开信是由非牟利组织“生命未来研究所”(Future of Life Institute)撰写,而马斯克是该组织的支持者,曾于2015年向它捐赠1,000万美元(约7,800万港元)。

  这封公开信写道:“我们呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI模型至少6个月……AI实验室和独立专家应该利用这段暂停时间,共同开发和实施一套适用于高级AI设计和开发的共享安全协议,这些协议应由独立的外部专家严格审核和监督。”



Tesla执行长马斯克、Apple共同创办人Steve Wozniak、以及多位知名的AI研究人员连署公开信,呼吁所有AI实验室暂停训练比GPT-4更先进的模型起码6个月,避免发展过快的AI对人类造成威胁。(图片来源:生命未来研究所官网)


  其他知名的联署人士包括:Apple联合创办人史蒂夫·沃兹尼亚克(Steve Wozniak)、2018年图灵奖得主约书亚·本吉奥(Yoshua Bengio)、AI图像生成初创Stability AI执行长伊马德·穆斯塔克(Emad Mostaque)、以及Pinterest联合创办人埃文·夏普(Evan Sharp)等。截至3月31日为止,联署人数已逾2,400人。

要求FTC暂停GPT-4商业发展

  另一非牟利组织“人工智能及数码政策中心”(Center for AI and Digital Policy,CAIDP)亦已于3月30日向美国联邦贸易委员会(Federal Trade Commission,FTC)提交诉状,要求调查OpenAI,以及暂停GPT-4等大型语言模型的商业发展。

  该中心认为,OpenAI既违反了FTC法例第五条有关遏制不公平、诈欺商业行为的规定,又没有遵循FTC对AI产品的指导原则,即是“透明、可解释、公平、可经验证、以及负责任的”。

  因此,CAIDP建议,FTC应要求OpenAI以后推出GPT相关产品前,要先行建立独立评估机制,审查产品可能带来的风险。同时,FTC亦应对生成式AI制定监管法规,并创建GPT-4公共意外通报系统。

  在生成式AI技术的高速发展下,未来AI生成假图的像真度将会更高,迟早会完全跨过假想与真实之间的鸿沟,致使社会要求监管AI的呼声会愈来愈大。以后各国政府针对AI规管将会有什么新政策出台?OpenAI、Microsoft、以及Google等AI科技巨头又会有什么回应呢?往后事态发展如何,仍有待观望。

  《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序 ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目