业界动态
文心一言、Kimi等4款AI大模型测评对比及推荐(AI大模型训练)
2024-10-31 22:05

现在,国内已经有海量大模型诞生,那么,哪款大模型的表现会更好?这篇文章里,作者站在自媒体人的角度,对四款大模型做了评估和对比,一起来看一下。

文心一言、Kimi等4款AI大模型测评对比及推荐(AI大模型训练)

说到AI,很多人会想到ChatGPT,而我们现在也有许多好用的国产AI大模型。

在2023年的中国,8个月内诞生了238个大模型,阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纷下场,还有复旦、清华等高校机构加速研究,以及智谱AI、月之暗面等黑马出现。

这些海量AI大模型里,子木挑选了4款市面上反响比较好的、也是我常用的AI大模型进行评估对比,帮助你选择适合自己的国产AI大模型。

本文评估的4个AI大模型

文心一言4.0、通义千问、kimiAI、天工AI。

一、大语言模型的5个评估维度
对于AI大模型的评估,目前还没有权威、统一的评估维度,我根据文案创作的需求、使用习惯,建立了自己的AI大模型内容创作评估维度

  1. 语言质量与创意性
    这是用AI创作中最关注的部分,体现AI写出来的内容质量。

它包括

文本流畅度,用来评估AI生成的文案是否自然流畅,语法正确,符合人类日常交流习惯,我会用主题文章、简历撰写这两个题目来进行测试评估

个性化内容,用来评估AI是否可以根据我们输入的个性化要求,比如语气、风格等等来定制文案,满足不同的创作需求,我会用不同人物介绍同一个事物的2个问题来进行测试评估。

  1. 领域适应性
    用来评估AI模型是否具备特定行业或领域的专业知识,能否生成相关性强、准确无误的文案内容,我比较关注的是新媒体、教育培训行业,所以我一般会用这两个行业的代表性问题来进行测试评估,这一块每个行业的问题不一样,大家可以根据自己的行业来设计问题。如果有需要的话,也可以提问或联系我交流。

  2. 逻辑性
    用来评估AI创作内容的逻辑性,我会用公务员考试常用的逻辑推理题,和故事的续写这两个问题来测试评估,逻辑推理题是看它的推理过程,结果是否正确,而故事的续写,看情节是否合理、人物的行为是否符合逻辑。

  3. 时效性
    时效性决定了AI生成内容时是否能用到最新的案例或事件、我们在用AI寻找资讯时是否能给到最新的信息。我会用最新的热点事件、1个月前、3个月前的3个不同问题,来评估测试AI的时效性。

  4. 成本与易用性
    AI作为一个辅助工具,是不是方便使用、使用成本如何,也是我们需要考虑的点。

二、4款国产大模型对比

  1. 大模型简介
    文心一言4.0:是百度推出的知识增强大语言模型,可以输出文本内容,也可以生成图片。
    通义千问:是阿里云发布的千亿级参数大模型,可以分析文档,提炼文档的关键信息。
    KimiAI:月之暗面开发的大模型,可以上传PDF、word、ppt、图片等多种格式的文档,还可以分析网页内容,比较有意思的是,还能直接访问小红书的链接,抓取内容进行总结。
    天工AI:昆仑万维开发的双千亿级大语言模型,它的语言能力也很不错。

  2. 文本流畅度对比
    我把4个大模型写的“一花独放不是春”命题作文内容,给中学语文老师看了,满分60分,可以打到40分以上的程度,整体表现都还不错。

文心一言4.0的文笔流畅度更高,文彩也更好。对于主题的整体理解更加准确,没有什么逻辑问题,可以算得上是一篇文采不错的作文。

通义千问的流畅度也还不错,但是行文手法不如文心一言老练,比较中规中矩,相对文心一言4.0弱一些。

kimiAI的语言流畅度跟通义千问类似,但对于主题的理解相对弱一些,文章的整体性相对最弱,有一些段落偏离了题目本身的意思。

天工AI的行文流畅、老练,只是有一两个段落显得有些生搬硬套,前后意思不一致,有意思的是,天工AI表现出了比较强的政治素养,写出来的内容不像高考作文,而更像申论作文,做政务公文类的可以优先考虑天工AI。

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐
3. 个性化内容对比
四个AI大模型都能够区分不同的口吻,同时,也能够区分不同的身份角色对于同一件事情所关注的不同的方面。

从8岁女孩的角度来介绍一辆新能源车,4个大模型都会把重点放在了车子是用电的、很神奇的描述上,也都用到了小孩子能理解的语言,用打比方的、形象化的描述来讲这个车子。其中,kimi AI对于角色年龄的把握比其他三个大模型稍微弱一点。

而从男企业家的角度来介绍新能源车,4个大模型都选择了将新能源车定义为这个企业家自己的产品,从更宏观的角度开始介绍这辆车,都表达了对于“未来出行”的创新和积极探索,侧重从技术的角度来介绍。

所以在个性化内容方面,4个大模型表现差不多,kimiAI要稍微弱一些。

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐ ⭐ ⭐
4. 逻辑性对比
AI思考逻辑测试,内容是一道经典的公务员考试的行测问题。

4个AI都在很短的时间内给出正确答案,AI参加公务员考试,估计能秒杀99.9%的人。

在回答的内容中,文心一言给到的思路最详尽、看起来条理也相对最清晰,而天工AI给到的思路最简略,没有描述太多的思考过程,我认为这是相对欠缺的。

AI续写逻辑测试,内容一个故事的续写。

我在故事里设计了3个人物,发现藏宝地图的小明、他的好朋友小帅、妹妹小美,而故事也是围绕着寻宝的冒险之旅展开,这样,就能考察AI对于人物的设定,是否符合逻辑,以及故事线是否符合逻辑。

在这个测试中,文心一言的表现相对较好,发挥了较强的对于人物风格的把控能力,能够在故事中写人物对话,对话的风格也符合3个人物的性格设定,故事内容更长,相对更细致。

而通义千问则发挥了更多的创造力,赋予了人物更多不同的特点,不过内容更概括简短。

kimi的表现与通义千问相似,也是通过赋予人物不同特点来塑造人物,对故事的描述更加细节一些,内容也稍长一点。

天工AI的内容则更加简短,没有把控不同的人物风格、也没有赋予人物不同的特点,表现相对是最弱的。

文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐
5. 时效性对比
这是我非常非常看重的方面,在内容的创作中,引用时下的热点资讯,对于自媒体运营而言,是一种重要的能力,所以我们会需要时效性强的AI。我用最新、一个月前、三个月前的三个问题来进行测试。

在这一轮测试中,表现最弱的,反而是曾经的搜索巨头百度所开发的文心一言。

对于2月29日前的最新热点“董宇辉为什么清空微博”这件事情的解释上,通义千问、kimi、天工三个大模型都给出了正确答案,只有文心一言给出的答案不正确。

对于一个月前哈尔滨的热点、三个月前的双十一销售额,则4个大模型都给出了正确答案。

同时,文心一言、kimi AI都给出了答案所引用的参考资料,但文心一言给的参考资料,主要都来自百度系自己的内容,主要是好看视频、百家号,但这里存在一个bug:大语言模型不能解析视频内容,所以对于董宇辉为什么清空微博这件事情,文心一言虽然根据视频的标题,找到了好看视频中的参考资料,但是因为不能解析视频内容,找到参考资料也看不懂,就像找到一份天书,仍然只能根据自己的逻辑编造一个回答。

而同样给出了参考资料的kimi AI,对于董宇辉清空微博的事件,则引用了更新的、也更全面的资讯。它引用了最近1天的内容链接,引用来源包括腾讯网、知乎、澎湃媒体等,搜索来源比文心一言更广。

我在使用kimi AI搜索AI相关的内容时,它能给到的参考资料范围也很广、很精准,除了主要来源知乎之外,还会给到包括GitHub、人民数据、中国通信院,和一些可以公域访问的数据报告的链接,搜索能力和时效性是比较强的。

另外2个AI大模型,通义千问和天工AI虽然没有给到引用链接,但对3个问题的回答都是准确的。

所以在时效性上,kimiAI最强,它不仅能比较大范围地搜索到相关资讯,并且能给出引用链接,让我们能够直接通过链接,去判断这个内容的有效性、是否正确,通义千问和天工AI相对较弱,因为不能给出引用链接,对我们判断起来相对更困难一点,最弱的是文心一言。

文心一言4.0 ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐ ⭐
6. 成本易用性对比
目前,4个AI大模型都能直接通过网页链接访问到,kimiAI、文心一言、天工AI都能在微信小程序里使用,非常方便,通义千问虽然没有官方的小程序入口,但是使用网页端也是比较方便的。在成本上,除了文心一言4.0需要49.9元的月费,或588.8元的年费,其他3款都是暂时免费。

文心一言4.0 ⭐ ⭐ ⭐ ⭐
通义千问 ⭐ ⭐ ⭐ ⭐ ⭐
kimi AI ⭐ ⭐ ⭐ ⭐ ⭐
天工AI ⭐ ⭐ ⭐ ⭐ ⭐
三、总结
在实际使用中,我一般会选择文心一言4.0加kimi AI的组合。

用kimiAI搜索资料、拓展内容,它是我目前比较喜欢用的搜索方式,在向kimiAI提问时,我会先看它给的回答,然后看它给的参考资料,其中有哪些资料是权威、官方的,比如数据报告等,在这些资料中找一找是否有新的信息。这样的搜索方式,比百度、小红书、微信搜索更加精准快速。

文本创作时,我会倾向于用文心一言4.0,它生成的内容更加流畅、符合逻辑,内容质量相对更高。

听说AI要来抢工作了?别担心,新岗位可比旧岗位有趣多了!想象一下,你从搬砖工升级成了机器人操作员,从算盘小能手变成了大数据分析师,这不是美滋滋吗?所以,社会生产效率提升了,我们也能更轻松地工作。不过,想成为AI界的佼佼者?那就得赶紧学起来,不然就会被同行们甩得连AI的尾巴都摸不着了

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

    以上就是本篇文章【文心一言、Kimi等4款AI大模型测评对比及推荐(AI大模型训练)】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/4372.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
“撒旦”人血鞋?碰瓷新疆棉花的耐克,又开始喊冤了?
继主动碰瓷新疆棉花把自己搞得股价大跌之后耐克秉承着“no zuo no die”的精神又开始暗搓搓搞“阴间操作”限量发售含人血的“撒
tiktok怎么搭建外网 详细教程及步骤
TikTok怎么搭建外网(详细教程及步骤)TikTok是一款非常流行的短视频社交应用程序,它在全球范围内拥有数亿用户。在使用TikTok的
《以案释法》步数越多,收益越高?别被“走路也能赚钱”的理财广告忽悠了
  走路也能赚到钱的理财  “丑的人还在睡觉,美的人已经跑出一杯星巴克了。”2016年的一天,一个女孩晒出的朋友圈截图引起了
如何用生意参谋算出同行店铺真实销售额
怎么经过生意顾问算出同行店肆实在销售额?大多数在淘宝天猫工作过的人都知道,他们的背景显现了同行商铺的买卖数据,这被称为买
一款最近比较火的网站统计分析系统,易分析具有什么样的功能呢?
一、产品简介北京普艾斯科技有限公司成立于2009年,服务客户1000+,包括电商、金融、保险、政务服务等行业。私有化部署,全渠道
向佐快乐大本营2024年精彩回顾:四年时光共欢笑
张大大谢娜力捧下的综艺新星张大大一位在娱乐圈中颇具人气的主持人他的成名之路离不开谢娜的提携回顾张大大的成名之路可以说谢娜
PingTools app
《PingTools app》是一款非常好用的实用工具软件,软件内拥有丰富的功能,包含了包括浏览器扫描等。使用非常简单,直接下载安装
抖音能看到谁搜索过自己吗?
尊敬的用户,您好。针对抖音平台是否能够查看谁搜索过自己的问题,我们需要做一些详细说明。首先,根据我们了解到的情况,在抖音
什么是人工智能“语料库”?为什么每个人都在谈论它?
编者按:比尔盖茨(Bill Gates)、Reddit 首席执行官和其他科技领袖越来越多地谈论“语料库”,现在是时候了解它是“何方神圣”
LED行业词语中英对应
1、led 灯具构成英文led 球泡灯:led bulbLed 贴片灯珠:SMD LEDLed驱动电源:led driver隔离电源:isolated driver非隔离电源:
本企业新闻

点击拨打: