业界动态
什么是人工智能“语料库”?为什么每个人都在谈论它?
2024-11-14 21:45

编者按:比尔·盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”了。本文带你深度揭秘语料库以及它如何影响人工智能平台的运行。文章来自翻译,希望能对你有所启示。

什么是人工智能“语料库”?为什么每个人都在谈论它?

得益于 ChatGPT 和类似人工智能平台的问世与飞速发展,人工智能的崛起一直是 2023 年最引人注目的话题之一。每天都会有关于人工智能技术如何影响创新、工作或人类生活的新文章出现。

如果你一直在关注人工智能领域,你可能会注意到最近科技高管们经常谈论的一个词:“语料库” (corpus)。Reddit(美国社交新闻站点)CEO、维基百科的创始人吉米·威尔士(Jimmy Wales)以及微软创始人比尔·盖茨都提到过。

以下是语料库的含义,以及为什么它对于理解 ChatGPT 和 Midjourney 等人工智能平台的运行至关重要。

什么是人工智能语料库?

学过拉丁语的人都知道“corpus”是“身体”的意思,现代英语里的“corpse”被译为“尸体”,源自拉丁语“corpus”。其他人可能也认识 corpus 这个词,因为它在今天仍然适用于现存法律机制中,被译为:人身保护令。这句话的字面意思是“你拥有人身自由权”,它确保任何被逮捕的人都有权出庭,以确定逮捕是否合法。

但当其用于人工智能领域时,“语料库”一词根本不是指身体。相反,它指的是用于训练人工智能的文本库或数据集合。这个语料库是人工智能审查的材料,以使其在设计时变得智能。

每个人工智能平台的语料库都是不同的,因为是人类决定他们想要用什么样的数据来训练 AI,而人类决定训练人工智能的语料库将取决于他们希望人工智能精通哪些方面或是解决什么问题。

语料库类型

语料库的类型没有限制,人工智能语料库的构成取决于人类创造者想让它做什么。

以 Midjourney 为例,Midjourney(一款 2022 年 3 月面世的 AI 绘画工具)是一个流行的生成艺术平台,用于使用 AI 创建图像。由于 Midjourney 只允许用户使用文本提示创建图像,因此它需要接受一系列图像和相关文本描述的训练。例如,为了让 Midjounry 生成瀑布的图像,它的语料库必须包含瀑布的图像以及描述瀑布的相关文本。

还有 ChatGPT 等人工智能平台,一种被称为大型语言模型(large language model,简称 LLM)的人工智能平台。强大的 LLM 有能力基于文本数据与人类进行对话聊天——前提是他们的语料库足够大且足够丰富。LLM 模型可以处理多种自然语言任务,根据其语料库所包含的内容,它可以回答复杂的问题,甚至能够生成原创作品,如短篇小说或创建太空射击游戏代码。LLM 模型的能力仅仅取决于用于训练人工智能的语料库文本数据,它基于大量文本数据进行训练以能够理解文本的含义,并给出相应答案。

我想知道 ChatGPT 的语料库是由什么组成的,所以我直接问了它。“ChatGPT 语料库是由大量互联网文本数据组成,包括网站、书籍、文章和其他公开来源。”它回答说。由于不满足于这个相当模糊的答案,我要求 ChatGPT 详细说明其语料库中的数据类型,这次 ChatGPT 的回答更加详细了:

网站:来自不同领域和主题的网站文本。

书籍:涵盖各种类型和主题的书籍文本。

文章:来自新闻文章、杂志特写和博客文章的相关文本。

研究论文:来自科学论文和出版物的相关文本。

会话数据:来自对话和互动的多回合文本。

社交媒体:来自 Twitter、Reddit 和其他在线论坛等平台的文本。

维基百科:维基百科文章中涵盖众多主题的文本。

注意 ChatGPT 语料库并不包括图像,其不具备图像处理能力。这是因为 ChaptGPT 是一个基于文本的 AI 生成器,它不能生成图像,因为它的语料库从来没有包含任何可以训练图像的文本数据。

Midjourney 和 ChatGPT 的文本数据只是构成语料库的两个例子,实际上语料库可以由任何类型的数据组成。例如,如果你想制作一个可以创作音乐的 AI 平台,你只需要在它的语料库中介入音频歌曲相关的文本数据即可。或者,如果你想要一个能够以海明威风格写小说的人工智能,你可以使用一个只包含海明威书面作品的语料库。

语料库是否合法?

如果你没有一个语料库来训练 AI,AI 就无法学习。你的语料库越大,AI 就会变得越熟练、越智能。但是,当涉及到版权和知识产权法时,人工智能语料库可能就会存在很大的漏洞。

用受版权保护的内容数据训练人工智能,这样的做法是否违反法律呢?例如,如果我创造了一个可以生成类似 Banksy(注:英国著名艺术家)艺术品的人工智能平台,该平台基于 Banksy 的作品语料库来训练 AI,这是否侵犯了 Banksy 的版权或知识产权?我所创造的 AI 并没有直接“盗用”他的作品,只是复制他的风格,所以这是否仍然构成侵权呢?再比如,假设我创建了一个包含蕾哈娜歌曲语料库的 AI 程序平台,它可以使用蕾哈娜的声音或与之接近的声音生成全新的原创歌曲,这合法吗?

今年早些时候,由 AI 生成的模仿加拿大歌手德雷克(Drake)和歌手“盆栽”(The Weeknd)创作的新歌“Heart On My Sleeve”爆火并传播到了多个平台后,环球音乐集团(Universal Music Group)发表声明严厉谴责这首歌是“用生成式人工智能创作的侵权内容”。但使用人工智能工具的创作者可能并不这样认为。最终,无论是人工智能生成的音频、视频还是基于文本的媒体,随着 ChatGPT 和 Midjourney 等生成式人工智能程序越来越普及,“AI 是否侵权”这个问题很可能会在未来几年仍然需要进一步的探讨和研究。

与此同时,各国政府已经在计划立法来监管生成人工智能模型。例如,欧盟正在提议一项法律,要求人工智能所有者披露人工智能语料库是否包含受版权保护的内容。这种透明度将使版权持有人更容易识别自己的作品被用于哪些语料库,从而寻求赔偿。

在美国,国会研究服务处(Congressional Research Service)最近向国会建议,在更新版权立法之前,它可能更希望采取“采取观望态度”,建议国会监测法院在未来几年关于人工智能印发的版权案件的反应。

将出售语料库作为收入来源

当然,无论如何,一些内容创作者会选择接受人工智能为其提供的创收机会。比方说,一位在世的画家想赚些外快,她可非常容易地将自己的作品集打包在一个语料库中,并将其使用权出售给生成式人工智能公司。正如歌手格莱姆斯(Grimes)已经提出的那样,作家可以出售他们的小说集;杂志出版商可以出售过期杂志;歌手可以出售他们的人声语料库,或者要求 AI 基于他们的语料库生成的作品中获得一部分抽成。

如果埃隆·马斯克(Elon Musk)想为日渐走下坡路的 Twitter 带来新的收入来源,他可能会考虑将该平台上的所有推文打包成一个语料库,出售给人工智能初创公司。meta 的 Facebook 也将从中找到新的收入来源,前提是 Twitter 和 meta 可以声称拥有帖子的所有权。事实上,Reddit 的用户帖子语料库已经被用来帮助训练 ChatGPT 了,在最近接受《纽约时报》采访时,Reddit 首席执行官史蒂夫·霍夫曼(Steve Huffman)表示,他知道这个语料库的价值。“Reddit 的数据库非常有价值,但我们不需要把所有这些价值免费提供给世界上一些知名的公司。”霍夫曼说道。

从这个意义上说,随着越来越多的公司向人工智能领域扩张,强大的预包装语料库在科技界的地位可能会变得与淘金热矿工的镐一样重要,一个全新的语料库销售产业可能会随之诞生。

如果是这样的话,在未来的几个月和几年里, “语料库”将成为人工智能领域的常谈话题。

    以上就是本篇文章【什么是人工智能“语料库”?为什么每个人都在谈论它?】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/9988.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
“撒旦”人血鞋?碰瓷新疆棉花的耐克,又开始喊冤了?
继主动碰瓷新疆棉花把自己搞得股价大跌之后耐克秉承着“no zuo no die”的精神又开始暗搓搓搞“阴间操作”限量发售含人血的“撒
tiktok怎么搭建外网 详细教程及步骤
TikTok怎么搭建外网(详细教程及步骤)TikTok是一款非常流行的短视频社交应用程序,它在全球范围内拥有数亿用户。在使用TikTok的
《以案释法》步数越多,收益越高?别被“走路也能赚钱”的理财广告忽悠了
  走路也能赚到钱的理财  “丑的人还在睡觉,美的人已经跑出一杯星巴克了。”2016年的一天,一个女孩晒出的朋友圈截图引起了
如何用生意参谋算出同行店铺真实销售额
怎么经过生意顾问算出同行店肆实在销售额?大多数在淘宝天猫工作过的人都知道,他们的背景显现了同行商铺的买卖数据,这被称为买
一款最近比较火的网站统计分析系统,易分析具有什么样的功能呢?
一、产品简介北京普艾斯科技有限公司成立于2009年,服务客户1000+,包括电商、金融、保险、政务服务等行业。私有化部署,全渠道
向佐快乐大本营2024年精彩回顾:四年时光共欢笑
张大大谢娜力捧下的综艺新星张大大一位在娱乐圈中颇具人气的主持人他的成名之路离不开谢娜的提携回顾张大大的成名之路可以说谢娜
PingTools app
《PingTools app》是一款非常好用的实用工具软件,软件内拥有丰富的功能,包含了包括浏览器扫描等。使用非常简单,直接下载安装
抖音能看到谁搜索过自己吗?
尊敬的用户,您好。针对抖音平台是否能够查看谁搜索过自己的问题,我们需要做一些详细说明。首先,根据我们了解到的情况,在抖音
什么是人工智能“语料库”?为什么每个人都在谈论它?
编者按:比尔盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”
LED行业词语中英对应
1、led 灯具构成英文led 球泡灯:led bulbLed 贴片灯珠:SMD LEDLed驱动电源:led driver隔离电源:isolated driver非隔离电源:
本企业新闻

点击拨打: