推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

AI绘画技术发展的简要脉络

   日期:2024-11-17     作者:xinet    caijiyuan   评论:0    移动:http://dfvalve.xrbh.cn/mobile/news/10171.html
核心提示:前言多家机构在近期都发布了 AIGC 报告,这个尚在萌芽的赛道获得了巨大的关注,但在更早一些的时候,其中一些更细,更窄的领域,

前言

AI绘画技术发展的简要脉络

多家机构在近期都发布了 AIGC 报告,这个尚在萌芽的赛道获得了巨大的关注,但在更早一些的时候,其中一些更细,更窄的领域,就已经发生了惊天动地的变化,我们将专注其中一个赛道,即 AIGC 中的「生成式文生图」领域,从技术发展,用户调研,商业模式和争议,以及对未来的一些展望,为大家呈现这份报告。

报告的数据及来源包括公开新闻媒体文章,第三方统计数据,6pen 自身数据,以及我们收回的 2398 份问卷调查和对部分行业资深人士的深度访谈。我们的问卷通过 6pen 自有渠道,即刻,微博,以及行业 KOL 分发,最终有效收到 2398 个提交,它们可能是这个行业首次的大批量对用户的直接调查,并聚焦在国内市场,我们认为其具有相当的参考性。

利益相关:本报告由 6pen 调查发布,作为行业从业者,本报告将更多从技术,用户及行业整体视角出发。

 

同一时期,包括 6pen 在内,国内开始有小部分团队和公司进行 DD 的产品化工作,旨在进一步降低 DD 的使用门槛,包括:

  • 提供人机友好的交互界面
  • 提供云端的算力服务
  • 对 DD 的模型做 finetune(微调)
  • 通过封装 CLIP 关键词等方式,降低用户使用门槛,提高风格化效果

在研究领域,也有诸多机构或公司进入模型层的研究,例如 6pen 的南瓜模型,清华大学的 cogview ,百度的文心等等,因为 DD 在社交网络的破圈,这些产品和模型都得到了更多人的关注和使用,但依然有很多较专业的中国用户会通过各种方式使用 midjourney 和 Dalle2 等国外的商业化产品。

在 Stable Diffusion 之前,开源方案里最好的AI绘画实现毫无疑问是 Disco Diffusion,但 Disco Diffusion 也存在诸多问题,例如:

  • 生成速度慢(基于像素迭代),由此带来的问题是生成成本高(显卡成本高昂)
  • 生成图片逻辑性较差,画面结构经常错乱
  • 几乎无法生成人和物体

Stable diffusion 在 2022 年 8 月下旬由 Stability 发布,Stable diffusion 拥有强大的特性:

  • 极快的速度(基于隐空间迭代)
  • 远超 DD 的画面逻辑
  • 能较好的处理人和物体
  • 更多的风格化,例如二次元风格
  • 更简易的训练框架

Stable Diffusion 极大降低了行业的进入门槛,包括技术门槛和储备显卡的成本,带来了较多的竞争者入场,但同时也有部分基于 Stable Diffusion 的创新应用开始出现,例如文生视频,图片无限拓展,和 3D 建模工具结合等等,毫无疑问,Stable Diffusion 具有这个时代的革命性。

我们目前就处在这个时间节点。

  • Stable Diffusion
    • 模型开源免费
    • Dream Studio 及 API :0.01 欧元 / 基础调用
  • midjourney
    • 10 美元 / 月:200次快速生成+不限量的排队生成
    • 30 美元 / 月:900次快速生成+不限量的排队生成
    • 4 美元 / GPU小时
    • 600 美元 / 年 企业套餐
  • Dalle
    • 0.13 美元 / 生成
  • 6pen
    • 免费排队生成
    • 付费快速生成: 0.1人民币起

可以看出,商业化的 AI绘画的服务目前几乎不区分 ToB 或 ToC ,更多是提供按量或按需付费的服务,无论是企业还是个人用户都可以使用。这种收费模式是因为这些原因:

  • AI生成使用显卡服务器,维持免费使用需要付出巨大成本
  • 缺乏生成图之后的闭环,无法从免费用户获得其他方面的收入
  • 受限于尚处在争议中的版权及其它道德因素,其它商业化手段还有待探索

AI绘画在 ToB 领域天然拥有更多可能性,但受限于模型质量,版权争议,以及目前较早期的技术阶段,还很少有公开落地的案例,但我们认为在下列方向,可能会在未来涌现出更多 ToB 的成功案例:

  • 广告行业
  • ToB 素材库
  • 设计师/美术工作者辅助工具
  • 营销定制服务
  • 线下实体结合服务
  • 元宇宙等线上虚拟空间

目前 AI 绘画的最大的争议在于版权归属,以及模型是否有权利指定版权归属,众所周知,AI模型训练所使用的大量素材,可能包含了未经授权的,有明确版权方的图片数据,因此模型源头就带有「未经授权」的烙印,支持者一方则认为,AI模型经过训练,迭代,蒸馏,最终沉淀下来的是单纯的,崭新的运算方法,由这种运算方法产出的图片,版权归属应该由模型指定。

即便如此,目前获得较多认可的说法是,如果在AI生成图片的文本描述( prompt )中,指定了在世的艺术家,那么绝对不应该申明该图片的版权。

我们提倡,如果在生成 prompt 中指定了在世艺术家,那么至少应该将AI生成的图片以 CC0 协议发布,同时应该保留艺术家的相关信息,并且在得到艺术家授权前,尽量不做商业用途,即便这样,依然可能会对艺术家造成困扰,目前全世界范围内对此都还在进行讨论,AI和人类艺术家的更好的合作规则也急需尽快建立。

但是,如果未来AI绘画能更具规范,例如:

  • 使用版权干净的素材训练模型
  • 使用艺术家风格,向其进行分成付费
  • 和艺术家共同探索新的风格边界
  • 为人类创作提供辅助性功能
  • 尊重艺术家不被AI模型学习的意愿

技术问题

虽然在过去的几个月,AI绘画技术已经得到了快速的发展,但依然有一部分问题一直存在,包括:

  • 对显卡,主要是显存,要求较高,成本高昂
  • 无法精确的指定画面对象的数量,例如“三只猪和四只老虎”
  • 人的肢体(主要是手指)和眼球效果较差
  • 多主体对象生成效果差(往往只会保留一个或两个主体对象)
  • 无法进行有逻辑延续的故事性生成

不过,这些问题有望在未来 6-12 个月得到较大改善

技术性道德问题

和其它赛道不同,AI绘画既依托先进的AI技术,又(很多时候)依托开源世界的能力,因此可能会有一些其他行业所不存在的可能的道德问题,例如在 Stable Diffusion 开源之后,从国内涌现出较多的封装型产品,其中许多都存在技术性道德问题,包括:

  • 不遵守开源模型 licence ,包装成自研或国产 AI 进行营销 *
  • 直接将可能含有艺术家风格的生成图片用于版权交易或NFT
  • 将未经安全过滤的图片直接展示给用户,可能含有歧视,暴力,色情或其他内容
  • 过度封装,隐藏艺术家的相关信息
  • 使用非开源服务,用爬虫等方式获取其他服务的生成结果,封装成独立产品

* 据我们统计,2022年9月后国内涌现的AI绘画产品,95% 都使用了 Stable Diffusion,但是按照 Stability License 展示必要信息的,只有不到 10 %

这些问题可能会阻碍行业的健康发展,甚至加剧不同立场的用户群体之间的矛盾,其中有些难以避免,另一些则完全是故意为之,我们也再次呼吁,从业者应该理性的,有尊严的进行探索和创新。

如果AI技术的发展是以人类创作力的枯竭为代价,那 AIGC 将是人类之最大不幸,但如果我们能找到好的方式,来激励人类无穷的创造力,并让所有人都从中受益,那么,这将能成为开启一个更美好的世界的钥匙,我们正处在这两条道路的中间,我们无法停止前进,我们也将注视着,看到人类将迈向何方。

本文地址:http://dfvalve.xrbh.cn/news/10171.html    迅博思语资讯 http://dfvalve.xrbh.cn/ , 查看更多
 
标签: 技术发展
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号