qquad AIGC 又称生成式 AI (Generative AI) 或人工智能生成内容,是继专业生产内容、用户生产内容 之后的新型内容创作方式,可以在对话、故事、图像、视频和音乐制作等方面,打造新的数字内容生成与交互形式。
与所有人工智能技术一样,AIGC 的能力由机器学习模型提供,这些模型是基于大量数据进行预先训练的大模型,通常被称为基础模型(Foundation Models)。如今以基础模型为驱动的 AIGC 应用迭代速度呈现指数级发展,从由 Stable Diffusion 文生图模型驱动的AI 作画应用,再到以大语言模型(LLM)驱动的智能聊天机器人,深度学习模型不断完善、开源预训练基础模型的推动以及大模型探索商业化的可能,都在成为这场人工智能颠覆性革命的主要驱动力。
摘自:/
PGC、UGC 和 AIGC 是与内容生成相关的术语,它们的概念和区别如下:
PGC (Professional-generated Content,专业生产内容):PGC 是由专业创作者或专业团队制作和生成的内容,这些创作者具备专业的技能和知识,在特定领域有丰富的经验。PGC 的特点是高质量、精心制作、专业性强,传统的媒体机构、电影制片厂、电视台等通常是 PGC 的主要生产者,PGC 的例子包括电影、电视剧、新闻报道、专业摄影作品等。
UGC (User-generated Content,用户生成内容):UGC 是由用户自主产生和共享的内容,用户可以通过社交媒体平台、博客、论坛等自由发布和传播他们自己创作的内容。UGC 的特点是多样性、大量性和即时性,它可以包括照片、视频、博文、评论等形式的内容。UGC 的好处是能够促进用户参与和互动,丰富了内容的来源和多样性。
AIGC (Artificial Intelligence Generated Content):AIGC 是由人工智能生成内容,即通过机器学习、自然语言处理、计算机视觉等技术,人工智能能够自动地创作和生成各种形式的内容,如文章、音乐、图像等。AIGC 的优点是可以快速生成大量的内容,并且可以适应个性化需求。然而,AIGC 也存在一些挑战,如保护知识产权、确保生成内容的质量和真实性。
qquad 受限于当时的科技水平,AIGC 仅限于小范围实验。
- 1957年,莱杰伦·希勒 (Lejaren Hiller) 和伦纳德·艾萨克森 (Leonard Isaacson) 通过将计算机程序中的控制变量换成音符完成了历史上第一只支由计算机创作的音乐作品―—弦乐四重奏《依利亚克组曲 (Illiac Suite) 》。
- 1966年,约瑟夫·魏岑鲍姆 (Joseph Weizenbaum) 和肯尼斯·科尔比 (Kenneth Colby) 共同开发了世界第一款可人机对话的机器人 “伊莉莎(Eliza)”,其通过关键字扫描和重组完成交互任务。
- 80 年代中期,IBM 基于隐形马尔科夫链模型 (Hidden Markov Model,HMM) 创造了语音控制打字机 “坦戈拉 (Tangora)”,能够处理约 20000 个单词。
qquad 人工智能发展由于以下原因取得了显著的进步:
- 深度学习算法取得重大突破
- 图形处理器 (Graphics Processing Unit, GPU)、张量处理器 (Tensor Processing Unit, TPU) 等算力设备性能不断提升
- 互联网使数据规模快速膨胀并为各类人工智能算法提供了海量训练数据
qquad AIGC 也从实验性向实用性逐渐转变:
qquad 2012 年,微软公开展示了一个全自动同声传译系统,基于深层神经网络 (Deep Neural Network, DNN) 可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
qquad 自 2014 年起,随着以生成式对抗网络 (Generative Adversarial Network, GAN) 为代表的深度学习算法的提出和迭代更新,AIGC 迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
qquad 早期的 AIGC 技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,与灵活且真实的内容生成有较大的差距。该时期的人工智能算法并不具备强大的学习能力,而是大多依赖于预先定义的统计模型或专家系统执行特定的任务。通过巧妙地规则设计,早期 AIGC 技术可以完成简单线条、文本和旋律的生成。但是由于缺乏对客观世界的深入感知和对人类语言文字等知识的认知能力,早期的 AIGC 技术普遍面临所生成的内容空洞、刻板、文不对题等问题。参考人类的内容创作过程,研究人员们提出,理想的 AIGC 算法需要具备对数据内容的学习能力,在理解数据的基础上进行知识与分布的学习,最终实现高质量的内容创作。
qquad 深度神经网络在学习范式 (人工智能的学习范式是指人工智能模型从数据中进行学习的方法) 和网络结构上的不断迭代极大的提升了人工智能算法的学习能力,从而推动了 AIGC 技术的快速发展。
qquad 从早期的玻尔兹曼机,多层感知机,卷积神经网络,到深度残差网络和 Transformer 大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。深度学习模型规模上的量变引起了 AIGC 技术能力的质变,在新型网络结构的加持下,相关算法开始能生成超高清晰度的视频,高质量的文本段落和优美灵动的乐曲旋律。
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
qquad 超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并为 AIGC 技术能力的升级提供了强力的支撑和全新的可能性。研究界在大规模深度网络、多模态人工智能方面的探索表明大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力,具有超大规模、超多参数量的多模态大型神经网络将引领 AIGC 技术升级正在成为学界、产业界共识。
qquad 以视觉 Transformer (ViT,一种神经网络模型) 为代表的新型神经网络,因其优异的性能、模型的易扩展性、计算的高并行性,正在成为视觉领域的基础网络架构,并且逐渐发展出来十亿甚至百亿参数规模的模型。在过去的 2-3 年间,视觉感知和理解技术正迎来突飞猛进的发展。
qquad 基于 Transformer 衍生出来的一系列网络结构,例如 Swin Transformer、ViTAE Transformer。通过将人类先验知识引入网络结构设计,使得这些模型具有了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力,从而能更好地学习和编码海量数据中蕴含的知识。这些新型的大模型架构,通过无监督预训练和微调学习的范式,在图像分类、目标检测、语义分割、姿态估计、图像编辑以及遥感图像解译等多个感知任务上取得了相比于过去精心设计的多种算法模型更加优异的性能和表现,有望成为基础视觉模型,显著提升场景感知能力,助力 AIGC 领域的发展。
qquad 作为人类文明的重要记录方式,语言和文字记录了人类社会的历史变迁、科学技术和知识文化等。利用人工智能技术对海量语言、文本数据进行信息挖掘和内容理解是 AIGC 技术的关键一环。一方面,语言模型的训练和学习是进行文本生成的核心基础;另一方面,学习并理解人类语言将大幅丰富数字内容的生产能力,创新、丰富数字内容的生产方式,例如构建低门槛创作工具,使用户通过语言描述就能完成例如语言定位、语言编辑等高阶编辑操作。
qquad 对于传统自然语言处理技术的普遍问题,基于语言的大模型技术可以充分利用海量无标注文本进行预训练,从而赋予文本大模型在小数据集、零数据集场景下的理解和生成能力。基于大规模预训练的语言模型不仅能够在情感分析、语音识别、信息抽取、阅读理解等文本理解场景中表现出色,而且同样适用于图片描述生成、广告生成、书稿生成、对话生成等文本生成场景。这些复杂的功能往往只需要通过简单的无标注文本数据收集,训练部署一个通用的大规模预训练模型即可实现。例如,谷歌 和 OpenAI 分别提出的大规模预训练模型 BERT 和 GPT,在诸多自然语言理解和生成任务上取得了突破性的性能提升,验证了大模型在零资源、小样本、中低资源场景的优越性。
qquad 在日常生活中,视觉和语言是最常见且重要的两种模态,上述的视觉大模型可以构建出人工智能更加强大的环境感知能力,而语言大模型则可以学习到人类文明的抽象概念以及认知的能力。然而 AIGC 技术如果只能生成单―模态的内容,那么 AIGC 的应用场景将极为有限、不足以推动内容生产方式的革新。
qquad 多模态大模型的出现,则让融合性创新成为可能,极大丰富了 AIGC 技术可应用的广度。对于包含多个模态的信息,多模态大模型则致力于处理不同模态、不同来源、不同任务的数据和信息,从而满足 AIGC 场景下新的创作需求和应用场景。
qquad 多模态大模型拥有两种能力,一个是寻找到不同模态数据之间的对应关系,例如将一段文本和与之对应的图片联系起来;另一个是实现不同模态数据间的相互转化与生成,比如根据一张图片生成对应的语言描述。为了寻找到不同模态数据之间的对应关系,多模态大模型将不同模态的原始数据映射到统一或相似语义空间当中,从而实现不同模态的信号之间的相互理解与对齐,这一能力最常见的例子就是互联网中 使用文字 搜索与之相关图片 的图文搜索引擎。在此基础上,多模态大模型可以进一步实现不同模态数据间的相互转化与生成,这一能力是进行 AIGC 原生创作的关键。
qquad 对于人工智能而言,能够高质量的完成多模态数据的对齐、转换和生成任务意味着模型对物理世界具备了极为深刻的理解。从某种程度而言,基于多模态大模型的 AIGC 是人工智能算法迈向通用人工智能的重要一步。
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
虚拟主播优势:
- 虚拟主播能够填补真人主播的直播间隙,使直播间能不停轮播,既为用户提供更灵活的观看时间和更方便的购物体验,也为合作商家创造更大的生意增量
- 虚拟化的品牌主播更能加速店铺或品牌年轻化进程,拉近与新消费人群的距离,塑造元宇宙时代的店铺形象,未来可通过延展应用到元宇宙中更多元的虚拟场景,实现多圈层传播。
- 虚拟主播人设更稳定可控,在头部主播有限并且可能“人设崩塌”的情况下,虚拟主播人设、言行等由品牌方掌握,比真人明星的可控性、安全性更强。
来源:中国信息通信研究院和京东探索研究院
人工智能生成内容(AIGC)白皮书
AIGC、元宇宙和数字孪生都是与数字技术和虚拟世界相关的概念,它们共同构建了一个数字化、互联和虚拟的未来空间。
qquad AIGC 可以为元宇宙提供自动生成的内容,丰富和扩展元宇宙的内容库。
qquad 元宇宙是虚拟世界中的一个全息、交互和多维度的数字空间,它由人工智能、虚拟现实、增强现实等技术构建而成。元宇宙允许用户在虚拟世界中进行沉浸式的交互和体验,与其他用户进行社交互动,创造和共享内容,并且可以与现实世界互相连接。元宇宙的理念是构建一个更加开放、互联和可持续发展的数字化空间,它可以应用于娱乐、教育、商业等多个领域。
qquad 元宇宙可以是数字孪生的应用场景之一,通过数字孪生技术在虚拟世界中模拟、优化和操作实体和系统。
qquad 数字孪 (luan) 生是指现实世界中的实体、过程或系统通过数字化技术实时建模和仿真的虚拟映射,它是现实世界和数字世界的联系和桥梁。数字孪生可以用来监测、分析和优化实体或系统的性能,从而提供预测、决策和优化的依据。数字孪生有许多可以用领域,如工业生产、城市规划、医疗保健等。
qquad 数字孪生可以为元宇宙提供现实世界中实体的虚拟映射,使元宇宙更加真实和逼真。
qquad IBM:什么是数字孪生?
实践篇 toDo:
AIGC + Coding
本文发布于:2024-01-30 20:44:42,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170661870122712.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |