loading...
发表时间: 2022-11-07 16:03:07
少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
任何人只要输入寥寥数字,AI就能画出符合要求的斑斓画作,一下子让美术创作门槛变得极低!在全球经济不明朗下,投资者态度愈发保守,但这种AI生成图像技术却在逆市中备受追捧,相关初创近期陆续传出完成巨额融资的喜讯:Stability AI取得1.01亿美元(约7.88亿港元)种子轮投资;Jasper则获得1.25亿美元(约9.75亿港元)A轮融资。为什么这些AI作画工具在2022年突然爆红起来?当中蕴藏的商机到底有多大呢?
Stable Diffusion模型学习了逾50亿幅图像素材,因而能够生成轮廓细致的人像画作。其训练数据库内的图片主要来自Pinterest、Flickr等图片社交平台,以及Getty等商业图库网站。(图片来源:Stability AI官网)
AI初创两年内晋身独角兽
2022年10月18日,总部位于英国伦敦的AI初创企业Stability AI宣布,已完成由Coatue Management与Lightspeed Venture Partners领投的1.01亿美元融资。外界估计,其公司估值已攀升到10亿美元(约78亿港元),得以晋身独角兽行列。
Stability AI完成融资的翌日,总部座落于美国德州奥斯汀的AI初创Jasper,也拿下由Insight Partners领投的1.25亿美元投资,令公司估值上涨至15亿美元(约117亿港元),成为另一家新晋独角兽公司。
Stability AI创立于2019年,Jasper则创办于2021年,换言之,它们用了不足两年时间,便已升格为独角兽(估值达10亿美元或以上的初创);就算以科网产业的发展标准而言,增长速度也非常惊人,这可说是2022年AI产业爆发式成长的缩影。
生成型人工智能爆发式增长
有别于传统的“分析型人工智能”(Analytical AI),这两家初创所研发的是“生成型人工智能”(Generative AI)技术,代表着AI不再是分析已存在的事物,而是正在产生全新的东西——“AI生成内容”(Artificial Intelligence Generated Content,AIGC)。
红杉资本(Sequoia Capital)近日发表一份题为《Generative AI: A Creative New World》的研究报告,预测从2020年至2025年之间,AIGC技术将会变得愈来愈成熟,能够生成文字、图片、影片、语音、程序代码、以至游戏模型等,为设计、游戏、编程、社交媒体等产业带来颠覆性的转变。
AI生成内容意指,基于AI算法而产生的文字、图片或影片内容。研发人员收集大量内容样本让AI学习,并了解个中规律,然后根据人类输入指令,按照不同规律而生成内容。AIGC技术一直存在,但过往却因技术本身的局限性,故此未受市场注视。
Diffusion扩散模型利用逆转噪点方式,逐步生成的AI画作。(图片来源:CompVis/Github网站)
生成对抗网络始终未成气候
2022年以前,AIGC研发团队主要使用“生成对抗网络”(Generative Adversarial Networks,GAN)来产出内容。这套算法模型是让两个AI网络以相互博弈方式进行学习:“生成网络”从训练图库中随机取样作为输入,其输出结果需要尽量模仿人类作品;“判别网络”则要将生成网络的输出作品,从真实样本中尽可能分辨出来。
生成网络要尽可能地骗过判别网络,让判别网络无法认出生成网络输出的是AI作品;如此一来,便可以产生最接近人类创作的图像。然而最大问题是,AI网络用作模仿的样本,均是来自人类创作的现成作品,于是生成内容只是无限仿制既有内容,意味着AI无法“创作”出全新作品。
譬如说,当用户输入一些天马行空的设计意念,如“眼睛长在额头的人脸”或“骑着由彩虹与烈火构成的单车”等,由于没有现成作品可供模仿,所以GAN通常就会失效。同时,在操作上,用户需要输入自己绘画的草图,让GAN将其转化为真实的图像;换言之,如果你不懂得画画,便无法有效使用GAN。
Google Imagen先以基础扩散模型把文字转化为解像度较低的图片,然后再用一系列超解像度模型,逐步提升图片解像度。(图片来源:Google Research官网)
DALL·E掀起AIGC研究浪潮
后来,因为“Diffusion”与“CLIP”算法模型出现,解决了GAN的问题,AIGC技术才有机会真正落地使用。Diffusion是一种去噪扩散模型,其原理是先给一幅图像不断加入噪点,直到整幅图完全被白噪音(White Noise)所覆盖,接着将整个过程逆转过来给AI学习。
AI所看到的是被噪点遮盖的图像,怎样一点点变清晰,直至回复原本模样;通过这个类似替相片去除噪声的学习过程,AI能够理解图像是如何逐步绘画出来。因此,Diffusion模型生成图像的精确度不但比GAN为高,而且更能符合人类审美逻辑。
CLIP(Contrastive Language-Image Pre-training)是一种基于对比图片与文字的训练模型,使用已经标注好的“文字-图片”数据给AI训练,让AI能够将文字与图像的意思进行匹配连接。有了CLIP后,才可以实现文字转化图像(Text-to-image)的崭新交互方式,容许用户输入文字来驱使AI作画。
2021年1月,AI研究机构OpenAI整合了Diffusion与CLIP模型,研制出能够以文生图的AI作画工具《DALL·E》,验证此技术方案的可行性,遂掀起学术界对AIGC的新研究浪潮。随后,多家科技企业也纷纷进场,投入AIGC技术开发。
Stable Diffusion用户逾千万
踏入2022年,不同公司与机构的AI产图工具相继诞生,形成百家争鸣的局面:3月,《Midjourney》启动Beta版本测试;4月,OpenAI推出制图解像度更高的第二代版本《DALL·E 2》;5月,Google Research发布AI绘图模型《Imagen》;真正将AI生成图像浪潮推上高峰的,是8月面世的《Stable Diffusion》。
相比起限制免费产图数量的DALL-E、不对外开放的Imagen,Stability AI旗下的《Stable Diffusion》不但免费给公众使用,更主动开放程序原始码,让其他人能够利用其原始码开发自己的AIGC应用,成功吸引逾2万开发者加入开发社群。
现时《Stable Diffusion》已被誉为最受欢迎的AI生成图像平台,日均活跃总用户数突破1,000万;其衍生AI作画工具《DreamStudio》的用户数亦超过150万,自8月以来累计产出逾1.7亿幅AI作品。Stability AI租用了亚马逊AWS云端平台上约4,000部NIVIDIA A100 GPU运算卡,以应付大量产图需求。
Stability AI现有约100名员工,获得1.01亿美元融资后,计划扩编到300人。该公司创办人兼执行长Emad Mostaque表示,现已跟一些政府与机构建立了合作伙伴关系来销售这项AIGC技术,所以该公司将具备一定的盈利能力。
Stable Diffusion原始码的开发社群现有约2万名成员,基于其原始码开发的AI生成工具涵盖图像、语言、音乐、3D等多个内容领域。(图片来源:Stability AI官网)
Stability AI建立了可供免费使用的《DreamStudio Lite》,让没有编程或绘画技能的用户,只要在平台上输入文字描述,便可直接产生AI图像。(图片来源:DreamStudio)
Jasper Art主攻营销图像设计
另一家拿到巨额融资AIGC初创Jasper,以“AI生成文字”作主打服务,能够产生适用于社交媒体贴文、博客文章、营销文案、或电子邮件等文字内容;其后又推出图像生成工具《Jasper Art》,同样可将用户输入文字转化成图片。
《Jasper Art》定位成专为营销图像设计而生的AIGC系统,特设无版权图片库,让用户以20美元月费订阅服务。Jasper总订户数现已超过7万,2021年收入达4,000万美元(约3.12亿港元),预计2022年将可暴增1倍以上,达到9,000万美元(约7.02亿港元)。
市调机构Gartner评估,及至2025年,生成型AI将占所有生成数据的10%,而目前占比仍少于1%。另一市调机构IDC预测,全球AI产业规模将在2025年增长至2218.7亿美元(约1.73兆港元)。由此可见,AIGC市场确是有很大的成长空间。
Jasper平台上不但有AI生成图像功能,也有AI生成文案服务,让用户可以同时获得好文章与精美配图。(图片来源:Jasper官网)
Jasper将《Jasper Art》定位成专门用于营销设计的AI作画工具,以建立品牌的差异化。(图片来源:Jasper官网)
版权争议阻碍AIGC商业化
不过,AIGC迈向商业化的道路上,仍然存有不少障碍,当中最受关注的是版权争议。AI学习所需的训练数据量极度庞大,就算是研发团队都无法保证,AI不会误拿需付费使用或有版权保障的图像资源。2022年9月,一篇刊登于《麻省理工技术评论》的文章指出,数码艺术家Greg Rutkowski发现其绘画风格被Stable Diffusion复制了,因而感到很不安。
为规避版权风险,Getty Images、Shutterstock等大型付费图库经已不再接收由《DALL·E 2》、《Stable Diffusion》、《Midjourney》等生成的AI画作。部分游戏制作人亦因顾虑版权问题,暂不考虑用AI产图技术来设计游戏角色与场景。
科技巨头Google对AIGC技术始终存有疑虑,故此一直抱持谨慎态度,只发表论文公布研发成果,但却未有将《Imagen》开放给公众使用。至于《DALL‧E》、《Midjourney》等则明确表示,用户拥有AI生成图像的所有权。
也有一些AIGC初创积极探索,解决版权争议的方法,包括:尽量清除训练数据库内有版权保护的图像素材;生成的画作结果附有版权风险提示;或者索性跟一些画家、摄影师或设计师直接合作,以分成或直接购买方式,鼓励他们来上传可以被利用来训练AI的图像。
事实上,AI训练数据库内可能含有受版权保护的内容,但因为AI生成内容充满高度的随机性与不确定性,就算有版权争议,举证亦非常困难。不过,随着愈来愈多艺术家抗议自己遭到AI抄袭,业界、学术界、以及相关政府部门应尽快探讨,拟定出比较好的版权解决方案。
(点击用户名可以查看该用户所有评论) 只看作者评论 查看全部评论:↑顺序 ↓倒序 |