商务服务
通义听悟:音视频工作效率可以提升200%的神器
2024-10-31 21:06
在我去年做企业家采访时,我们发现我们前采稿件和详采稿件都有2-3个小时之多,这让我们如果按照传统的工作方式,听完一整个音频再去抓重点,这样的工作时间会十分长。

一个采访稿件要反复的听几遍,然后把文字记录下来,然后再去做剪辑整理,一天就这么过去了。

通义听悟:音视频工作效率可以提升200%的神器

于是我们准备找一些不太贵还好用的AI看看能不能提升一下工作效率,然后我们发现通义听悟能够很好的满足这一需求,我们开始把整个采访稿件的处理环节通过通义进行转译,在带时间戳的文字稿下,我们发现基本上一个稿件只需要1-2个小时就能够完成初步的处理,比我们之前一个文件处理一天有了显著的效率提升。

通义也因此成为了我最常用的AI工具。

这篇文章主要包含以下几个内容:

  1. 了解通义听悟

  2. 使用通义听悟可以进行基础提效的场景

  3. 一些相对复杂的提效场景

  4. 通义听悟免费使用攻略

一、了解通义听悟

通义听悟是一款什么样的产品?

音视频转译文字且有AI总结功能、笔记功能的产品。

通义听悟链接:https://tingwu.aliyun.com

支持三种方式上传音频和视频:实时记录、文件上传、播客链接

A.实时记录进行转写

你可以通过网页、浏览器插件、微信小程序三端开启实时记录功能:

Web端

浏览器插件

微信小程序

B.上传音视频进行转写

支持两个渠道:本地、阿里云进行视频上传文件;目前可以解析4种语言,支持单人、多人对话等模式。

C.给到播客链接进行转写

找到播客的RSS订阅链接,然后即可转写播客。

以下为AI总结的内容:

  1. 关键词:根据文章的含义总结出文章的关键词

  2. 全文概要:整个文章的基本内容

  3. 章节速览:把整个音视频进行结构拆解,划分成若干个小结;给到每一个小结的时间戳和主题、概述

  4. 提取PPT:对于视频中类似PPT画面进行提取,然后给到总结内容

  5. 发言内容:人物发言的内容总结

这些内容皆可在导出-智能速览中进行文案的导出。

1.3 笔记功能

笔记功能较多,这里只写两个常用的功能

A.转译文案的标记功能

右侧的文字框是笔记模块;可以基于转译的文案进行标记(支持多种标记形态),同时将时间戳和内容摘录进笔记列表,然后再导出。

B.导出功能

支持多种导出形式:

  1. 原文导出:直接将转译内容进行导出,可以携带发言人和时间戳

  2. 智能速览:将AI总结功能的内容导出

  3. 笔记内容:将编辑好的笔记内容导出

  4. PPT导出:如果视频有类似PPT的文件可以直接导出为PDF,功能超级实用

  5. 音视频导出:导出已解析好的内容

二、基础提效场景

2.1 会议记录/音视频学习

对我来说现在日常的会议记录和音视频学习基本上都是用通义听悟进行的,这样做有以下这几个好处:

  1. 内容沉淀:这一个小时会直接有一个文档+音频的内容进行沉淀,后续我可以根据速览快速找到我想要查阅的内容,可以让后续找会议/学习的内容快捷很多。

  2. 笔记记录:在开会的时候如果我需要记录我就顺手记录在“笔记功能”那了,后续需要的时候和文档一起查找,不用这里记一个地方、那里记一个地方,到了关键的时候找着贼费劲。

  3. 外语转译:英语的音视频它可以直接转译成中文,效果还不错,十分好用。

你可以用三种方式开启实时记录:Web端、浏览器插件、微信小程序

  1. Web端:做笔记更方便。如果你希望在记录的同时使用笔记功能,进行重点的标记和笔记记录,那web端是一个比较好的选择。

  1. 浏览器插件:看视频更方便。如果你需要一边看视频画面一边来记录内容,那么使用浏览器插件是个不错的选择;目前支持谷歌浏览器、edg浏览器。

  1. 微信小程序:使用体验略差。移动端目前的入口是小程序,但小程序如果你把它关闭放到后台它就不能录制了,使用的体验还是差了一点,录制延续性不太好。

不想听音频,不想看视频,只想看文字怎么办?上传文件一键转译为带时间戳的文字,阅读效率提升非常棒。

✅ 效率极佳

  1. 播客稿件:直接走rss链接即可,不需要下载源文件,节省复杂的流程。

  2. 对话音视频:支持人物解析,可以抽取出发言人和对应的内容,功能很好用。

  3. PPT课件视频:能够给你提取出PPT和对应内容,效果是非常不错的。

⛔️ 效率一般

  1. 专业性过强的内容:专业性名词的转译效果会略差一些,目前能够通过自定义词库进行纠正;

  2. 外文转译中文的情况:因为目前不支持特定的翻译转译设置,效果一般

    1. Large Language Model -> 大语言模型

    2. 下列词汇请不要进行翻译:Transformer、Token、LLM、AI Agent

2.2.2 音视频上传流程

目前支持两个渠道进行音视频的上传:web端、小程序端(微信内的音视频小程序体验更佳)

A.Web端网站上传

文件上传后有解析时间,文件越大解析时间越长。

B.小程序端上传文件

微信内部转发视频有画质降低的问题,尽量从手机数据库中传。

小程序微信搜索“通义听悟”,进行账户登录即可使用。

播客类型节目可以直接使用RSS链接进行转译,以小宇宙为例如何找到RSS链接。

  1. 获取到小宇宙节目的链接

  • 打开你喜欢的节目

  • 点击右上角的分享按钮,滑动到最右边

  • 点击复制链接:https://www.xiaoyuzhoufm.com/episode/65be63d8cace72dff87dddc0

  1. Web端获取RSS链接

  • 打开链接进入页面

  • 右键点击检查,进入编辑页面

  • 点击箭头按钮

  • 在左边模块出现模块点击时点击播放按钮


  • 找到右侧的audio src=https://www.360doc.cn/article/'https://media.xyzcdn.net/lvMV9c5xta7EwBeWMdT-1282VACM.m4a'

  1. 将链接复制到播客RSS链接即可

2.2.3 音视频翻译

很多时候我们需要去获取国外的视频,这时候转译的翻译功能就十分有必要了,可以让我们用中英文逐字稿进行文章的查阅,对于视频的使用效率大大的提升。

但需要注意的是,专业词汇的翻译目前来看依旧效果一般,面对专业词汇的翻译我会在复杂场景中给一个利用通义听悟kimi翻译的方式。

免费视频下载器(yutobe):https://www.freemake.com/cn/free_video_downloader_best/

免费视频下载器(bilibili):https://bili.iiilab.com/

当我们看到一些PPT里边的课件很好,我们想拿来做参考案例,又不想一页一页截图怎么办?

这时候就可以用到通义听悟的PPT提取功能,来获得课件(目前测下来提取逻辑是根据页面切换和停留做的测算,并非100%精准程度的PPT提取)

涉及到长视频剪辑的都可以使用这个流程,采访的多机位剪辑相对复杂一点,如果是课程之类剪辑会简单很多。

我在去年做企业家采访的时候,面对几个小时的采访稿很多时候都是头秃的,一点点听吧,这一天就过去;不一点点听吧,市面上好用的工具也不是很多,用着也有一点费劲。

更费劲的一点是,我们需要给到带时间戳的初筛稿给到剪辑,从而让剪辑完成粗剪和精剪。

那我们就必须需要找一款工具,能够具有不错的转移效果,能够导出时间戳的内容,再和剪映结合,从而快速的完成长视频的粗剪。

我们试了很多工具后,最终选用的是通义听悟来解决我们的转译问题,提升工作流效率。

下面以详采内容为例给大家一个整理流程的梳理。

  1. 通义听悟转录音频:流程和基础场景一样,不再赘述。

  2. 粗剪画稿:基于采访思路、文字稿来进行画稿。

    画稿中遇到的第一个问题:现在我们拿到了整个的长视频,我们手中还有一份采访的大纲,那这个时候我们要需要快速的去找到我们采访的问题,过一遍回答质量怎么办,然后再去处理其它一些临时的沟通和对话。

    可以整体先把稿件过一遍,然后自己记录下来每一块内容;也可以使用搜索功能快捷定位到预期的模块,这个看个人的工作习惯。

    因为采访的时候大家都是在场的,那么在看完稿件之后要产出一个基础的粗剪思路,即我这个视频里要讲那些事情,这些视频的构成模块和顺序是什么。

    打标记一键摘取数据:根据你的粗剪思路开始对需要剪辑的内容打标记,最好按照开头-结尾的顺序来打标和导出;这样你就会得到一个带着时间戳开始时间和文案的粗剪稿。

    必须要带时间戳,要么是无效画稿。

    如何控制分钟数:可因为粗剪不需要太详细的分钟数控制,基本上控制在一个区间即可;所以可以算文字稿的文字量,比如说60分钟的详采稿件是1万字,那我们10分钟的粗剪总字数需要控制在1500字左右。

  1. 剪辑粗剪:基于画稿的内容去进行粗剪。

    1. 一般我们在粗剪的时候拿到的是主机位的内容去粗剪画稿的,但剪辑一般拿的都是多机位的内容,在拿到画稿后要去做的事情包括粗剪和机位之间的调整,没有多机位则不用考虑这一点;

    2. 粗剪按照画稿时间戳找到对应的位置进行剪辑汇总即可,这样剪辑的效率也能提升很多,不用逐帧过整体视频了(多机位时还要过多个分屏)

当我看到《一年内做成北美 Top 1 的 AI 教育产品,出海到底该咋干?| 对谈 Answer.AI 张阳》这篇文章时,我其实有一些特别想知道的问题,我又不想去通文阅读这些内容,这时候快捷的方式其实就是直接和AI进行问答,从而快速的获得文章中的信息。

这个组合我们使用的是通义+kimi。

RSS链接:https://media.xyzcdn.net/lvMV9c5xta7EwBeWMdT-1282VACM.m4a

给到大家一个提示词,可以做个样本案例,大家根据自己需要的进行修改。

























以下为使用kimi阅读的展示:

这是一个从90分拔高到99分的事情,如果90分水平能接受你不需要这样的组合。

因为通义现在在翻译时不支持定点词语的翻译,所以在一些专业度比较高的内容时,会有一些翻译的不合理的地方。

比如说这篇英文转移,整体上的水平其实非常棒啦,但是在一些细节上我希望他做的更好,比如说:

  • ChatGPT、AI不要进行翻译

  • model -> 模型

来进行一些细节的提升,那这个时候我们可以用kimi对于逐字稿进行更详细的优化。





























kimi对话链接:https://kimi.moonshot.cn/share/cn9hedkudu6a9m6c2ctg

对比翻译结果:

  1. 如何获取更多的时长:基本上获取了基础200时长,然后每日登录这些时长够用很久了

  • 基础200时长获取

    • 注册通义听悟,获得50时长

    • 安装浏览器插件,获得50时长

    • 绑定阿里云盘,获得100时长

  • 日常获取时长的方式

    • 每日登录通义听悟,获取10时长

    • 邀请好友使用通义听悟,获取30时长

  1. 如何获取更多的空间

因为导入阿里云的视频和音频不算空间占用,所以大家解析内容较大可以考虑走阿里云盘。

阿里云盘给100个G空间,定期清理优化就行了。

    以上就是本篇文章【通义听悟:音视频工作效率可以提升200%的神器】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/2662.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多   
最新新闻
云南网络营销软件哪个好?权威推荐助您快速选择
在数字化时代,网络营销软件成为了许多企业实现营销目标的重要工具。然而,市面上网络营销软件琳琅满目,选择一个适合自己的并不
宫崎骏的时代结束了
在《你想活出怎样的人生》之前,宫崎骏一直是著名的退休诈骗犯。七次退休又七次复出,年过八旬,创作欲还是旺盛到令人害怕。然而
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用
个人大数据信用查询平台哪个更准确一些?蘑菇画像个人大数据信用报告查询平台更好用,个人大数据信用查询平台市面上还是比较多的
小红书关键词热度查询!国风大潮下,品牌怎么玩出花样、玩出水平?
国风,是当下年轻人钟爱的潮流。汉服穿搭、文物手办、国潮仿妆……频频出圈。“民族的就是世界的”,国风的影响力可谓深远,一说
app推广接单发布平台哪个好?怎么领取任务赚钱?
最近几年,随着互联网的快速发展,利用网络兼职的赚钱方式也呈现越来越火,非常受大众欢迎的趋势。而且其种类也非常多:微商、社
【可打印】文学常识常考100题汇总,初中生练一练!(部编版初中语文)
关注本公众号,私信发送数字:2493,领取电子打印版文学常识1、成语“万事俱备,只欠东风”是根据《三国演义》________ (战役)
“迎旅发大会 游美丽望城”望城首届文旅短视频大赛,最高3万奖励等你来拿!
湘江水浩浩奔腾,流淌沧桑巨变。铜官窑静穆肃然,在这里诉说着望城的厚重历史,流传着“君生我未生,我生君已老”凄美爱情故事;落日
mysql导入大txt文件怎么打开_mysql怎么导入txt文件?
有时候我们在使用mysql数据库的时候,想导入txt文本文档,要怎么操作呢?下面本篇文章就来给大家介绍一下方法
寸头抖音短视频教程_人开始衰老的迹象是什么
岁月不饶人,我才50出头,可是许多衰老迹象已经越来越明显,惹得中医闺蜜笑话这样的我。1、觉得右后背和肩膀疼,出现“五十肩”
什么是网站页脚:以及最佳页脚设计示例
主体内容外,网站还包括页眉和页脚,用于帮助访问者的特定目的。由于我们认为网站页脚设计同样重要,我们整理了10个最佳免费网站
本企业新闻

点击拨打: