lurenjia 发表于 2023-6-6 16:05

现在什么工具 AI 听译本地视频效果比较好?

譬如自动给本地一个没有字幕的视频文件听译后加上原文和中文字幕,最好是可以用 deepl 或者 gpt 的翻译质量

noahhhh 发表于 2023-6-6 17:16

https://www.bilibili.com/video/BV1Pe4y1t7de

echoIII 发表于 2023-6-6 17:37

以英语举例,识别准确率上毫无疑问是Whisper最高,而且Whisper可以本地跑,不用付费。
但是Whisper的时间轴说实话不是太准,随便看看是够了,但是达不到字幕组或是官方字幕的精度。有一个办法是用剪映对Whisper生成的字幕文本进行对齐,但是剪映有个每次5000字符的限制,长视频需要分割很多次,非常烦人。
至于翻译,只要有了高质量的srt字幕,再去搞机器翻译就是了,喜欢deepL还是ChatGPT或是别的都随意。

JetBrains 发表于 2023-6-7 10:13

echoIII 发表于 2023-6-6 17:37
以英语举例,识别准确率上毫无疑问是Whisper最高,而且Whisper可以本地跑,不用付费。
但是Whisper的时间轴 ...

我使用自己便携的脚本进行拼接,针对在线版本的 Whisper 也做了 REST 文件大小的一些适配。效果非常好,不过是自己使用没有做 GUI
我目前因为业务原因基本上是读出来自动化扔给
GPT 进行一些总结与 idea 式的提纲,读入语句有一些无法识别,但是并不影响 GPT 生成总结等。
生打轴本地我没有找到合适的... 但是有某些打轴软件可以自动打,当然是在线计费的,也能够接受,比 Whisper 好点

echoIII 发表于 2023-6-7 11:15

本帖最后由 echoIII 于 2023-6-7 11:16 编辑

JetBrains 发表于 2023-6-7 10:13
我使用自己便携的脚本进行拼接,针对在线版本的 Whisper 也做了 REST 文件大小的一些适配。效果非常好, ...
你可以试试剪映的对齐功能,非常厉害,接近字幕组/官方水准(英语),几乎不用改。
只是这个5000字符限制使其可用性大减。
试了一圈类似功能的其他软件,都是开头是准的,中间会出现非常不准的情况,没法用。

紧那罗 发表于 2023-6-7 11:28

whisper语音转文本和文本翻译都能处理

桂圆莲子 发表于 2023-6-7 12:02

长视频不要考虑Whisper 重复现象非常明显

橋白 发表于 2023-6-7 12:48

本帖最后由 橋白 于 2023-6-7 12:49 编辑

https://github.com/Ayanaminn/N46Whisper 有现成的 用的colab 改改就能本地跑了 不过像上面说的需要后续对齐时间轴

lawsherman 发表于 2023-6-7 12:56

阿里最新出了一个,但是有时间长度限制。另外有飞书妙记
页: [1]
查看完整版本: 现在什么工具 AI 听译本地视频效果比较好?