找回密码
 立即注册
搜索
查看: 5764|回复: 29

[讨论] 请问字幕组现在有在用AI听写/翻译模型么?

[复制链接]
发表于 2023-3-6 00:34 | 显示全部楼层 |阅读模式
本帖最后由 tontyoutoure 于 2023-3-6 01:54 编辑

如果版主觉得这个帖子更适合去外野那就删或者移一下,因为我觉得很多人可能不看外野……

今天尝试了一下OpenAI的听写模型whisper,效果相当惊艳(看readme.md里的图表是一回事,自己实际尝试是另一回事)。结合ChatGPT,感觉只要有一个日语达标的校对,看的时候顺便修一下,就可以直接压制出片了。

因为whisper也不算是很新的东西(去年出的),所以就好奇想问一下是不是已经有字幕组采取类似的工作流了? 感觉至少听写打轴那是相当可靠的。
根据openai的说法,日语的准确率算是最准的那一档了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-3-6 00:47 | 显示全部楼层
先说一下你的用时和显卡让米娜参考一下
回复

使用道具 举报

发表于 2023-3-6 00:51 来自手机 | 显示全部楼层
charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下

可以考虑用新出的whisper api,这样就不用在本地运算了
回复

使用道具 举报

     
发表于 2023-3-6 00:55 来自手机 | 显示全部楼层
本帖最后由 渡鸦骑士 于 2023-3-6 00:57 编辑

试用结果上来看基本句子准确率已经很高了。
变相提高了校对对日文原文的判断要求。水平差的会直接接受原文,没意识到它日文也打错了。
不过跑起来还挺花时间的。30分钟高标准的话大概要半天。(其实也蛮快了)
另一个问题在于它打的轴不是太准,而且经常断句断的很奇怪要么一句超长的,要么几个连续的短句识别不出来。
回复

使用道具 举报

     
发表于 2023-3-6 01:00 | 显示全部楼层
实时字幕又不是什么新鲜玩意
回复

使用道具 举报

发表于 2023-3-6 01:01 | 显示全部楼层
问问可以录入并识别专有名词吗?

—— 来自 S1Fun
回复

使用道具 举报

 楼主| 发表于 2023-3-6 01:11 | 显示全部楼层
404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意

确实如此。10年前我做字幕就是用y2b先听一遍的。但是具体效果么,我拿10年前的视频试了试,这么说吧以前是我给它挑错,现在是它给我挑错……就是你不能对着线膛枪说,啊呀火枪又不是什么新鲜东西
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-6 01:14 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

 楼主| 发表于 2023-3-6 01:16 | 显示全部楼层
本帖最后由 tontyoutoure 于 2023-3-6 01:22 编辑
404489039 发表于 2023-3-6 01:00
实时字幕又不是什么新鲜玩意

当然依然达不到“完美”的地步,至少日语是。

以下是基友的评价:
:
基本都对了
:
但是
:
你贴的这几段有3 4个词有问题吧
:
多半是读音对应的汉字不对
:
比如那个白状
:
应该是薄情
:
但是毒瘾一样
:
读音
:
还有个就是介词助词轻读的地方
:
或者名词结尾的地方 有类似我们湖北人的问题
:
l n不分…
回复

使用道具 举报

 楼主| 发表于 2023-3-6 01:22 | 显示全部楼层
冰原狼 发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗?

—— 来自 S1Fun

按照 这个回答 ,应该是有办法可以做的,但是具体效果我没有测试过,还未知。
回复

使用道具 举报

 楼主| 发表于 2023-3-6 01:24 | 显示全部楼层
webashrat 发表于 2023-3-6 01:14
whisper对日语的效果很好吗
以前跑ai语音数据集的时候标注中文试了一下差点给我整出脑溢血不太清楚 ...

试一下可以贴附件吗?影之实力者第三话。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-3-6 01:31 | 显示全部楼层
我基本上dd烤肉机+whisper,python写点脚本一键生成srt,稍微校对一下扔到pr里就行了,基本5分钟的切片5分钟就搞定了
回复

使用道具 举报

     
发表于 2023-3-6 02:39 来自手机 | 显示全部楼层
之前跑过微博上看见的n64,怎么说呢
感觉对音源要求还是偏高的,综艺或者舞台这些收录环境不好或者有重复轨的断句会乱

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1 看来openai自吹自擂的抗噪能力高有点名不副.

查看全部评分

回复

使用道具 举报

     
发表于 2023-3-6 03:12 来自手机 | 显示全部楼层
有见过日剧翻译组用

—— 来自 Xiaomi M2012K11AC, Android 11上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
发表于 2023-3-6 08:19 | 显示全部楼层
还可以, 效果不错.
有的英文节目没有字幕, 我都习惯把音频提取出来跑一遍识别.
时不时有点错误, 不过效果已经很好了.

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2023-3-6 08:58 | 显示全部楼层
本帖最后由 red2077 于 2023-3-6 09:01 编辑




只能说对不负责任的营销号很够用,或者那些签约国外up的国内公司,他们会用这种机翻翻译

—— 来自 S1Fun

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2023-3-6 08:58 | 显示全部楼层
本帖最后由 red2077 于 2023-3-6 09:01 编辑




只能说对不负责任的营销号很够用,或者那些签约国外up的国内公司,他们会用这种机翻翻译

—— 来自 S1Fun

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2023-3-6 10:39 | 显示全部楼层
最近用过n46whisper,评价是对音源要求太高,管子机翻如果不行的也没啥必要再喂whisper一遍了,基本上半斤八两。你要做的都是播音腔那么标准的当然问题不大,但你试过那种声优聊闲天,发音巨不标准,嗓门忽大忽小,动不动哈哈大笑,还互相抢着说话的地狱活儿吗?还有就是跟楼上说的差不多吧,基本每句话都要调整,感觉我雇了个技校生,先快速过一遍脏活累活,然后把最脏最累的活丢给我慢慢磨

—— 来自 S1Fun

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2023-3-6 11:18 | 显示全部楼层
charlespfan 发表于 2023-3-6 00:47
先说一下你的用时和显卡让米娜参考一下

4090,跑medium大概是5倍速

但是你楼下似乎有30分钟跑半天的
回复

使用道具 举报

     
发表于 2023-3-6 12:07 来自手机 | 显示全部楼层
英语挺好用,但至少得small或以上。虽然词语准确度差别不大,但越大的模型断句越准。

—— 来自 Sony J9110, Android 11上的 S1Next-鹅版 v2.5.4

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1 使用心得好评

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2023-3-6 14:08 | 显示全部楼层
冰原狼 发表于 2023-3-6 01:01
问问可以录入并识别专有名词吗?

—— 来自 S1Fun

去试了一下那个initial_prompt(里面可以放进去你希望出现的词语)的选项,结果发现基本只能影响开始时的30秒。官方并没有提供一种简单的可以影响全局的选项。给每个30秒的时间片添加作为词汇表的prompt也是可能的,但是就需要自己把整个听写过程用whisper的api串起来,然后加上prompt。
回复

使用道具 举报

     
发表于 2023-3-6 17:53 | 显示全部楼层
whisper打轴基本不可用,识别准确率也就那样,还巨吃音源,日语不好说,英语我评价为被某国产软件完爆

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1 球推软

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2023-3-6 18:45 | 显示全部楼层
IornMilk_铁牛奶 发表于 2023-3-6 17:53
whisper打轴基本不可用,识别准确率也就那样,还巨吃音源,日语不好说,英语我评价为被某国产软件完爆 ...

我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面

国产软件是什么?我做个对照
回复

使用道具 举报

     
发表于 2023-3-6 19:10 来自手机 | 显示全部楼层
tontyoutoure 发表于 2023-3-6 18:45
我测试一个公开课视频确实非常非常准。当然了有一定概率是那个课甚至就在训练集里面

国产软件是 ...

先试试飞书的妙记吧
回复

使用道具 举报

     
发表于 2023-3-6 20:37 来自手机 | 显示全部楼层
本帖最后由 ltycomputer 于 2023-3-6 20:39 编辑

很早只有日v的时候就有人搞出来了在线语音识别+自动打轴的集成方案。自己曾试过批量语音识别轻小说朗读录音,从语音转换到拼音没毛病,但转换成汉字就不好看了。(当时测试用的网易见外工作台直接出srt字幕后校对)

中翻里的外国人名/自造词/冷门词/俚语基本不可用

回复

使用道具 举报

     
发表于 2023-3-6 20:46 来自手机 | 显示全部楼层
日本动画 有的时候放送的时候自带字幕可以直接提取
回复

使用道具 举报

发表于 2023-3-16 09:09 | 显示全部楼层
上面提到的那个小玩意是我写的,lz自己试用一下不就知道了

github.com/Ayanaminn/N46Whisper

应用场景当然是有限制的,但是据我自己的经验和反馈来讲,作为一个辅助工具它对制作字幕有所帮助的情况更多一些

评分

参与人数 1战斗力 +1 收起 理由
tontyoutoure + 1 赞工具制造者大佬

查看全部评分

回复

使用道具 举报

发表于 2023-3-16 09:22 | 显示全部楼层
tontyoutoure 发表于 2023-3-6 11:18
4090,跑medium大概是5倍速

但是你楼下似乎有30分钟跑半天的

medium和最新的large-v2跑出来结果差太多了
回复

使用道具 举报

 楼主| 发表于 2023-3-16 09:48 | 显示全部楼层
本帖最后由 tontyoutoure 于 2023-3-16 09:49 编辑
牧猫君 发表于 2023-3-16 09:22
medium和最新的large-v2跑出来结果差太多了

看了下已经是非常一站化的流程了,star了(虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗?我设了initial_prompt之后前几个时间窗还好,后面就很快衰减到没用了
回复

使用道具 举报

发表于 2023-3-17 19:54 | 显示全部楼层
tontyoutoure 发表于 2023-3-16 09:48
看了下已经是非常一站化的流程了,star了(虽然早都已经不做字幕了
佬对于预设专业词有什么看法吗 ...

预设词还真没仔细研究过但是我觉得对语音转录可能作用不是很大
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-3-6 20:53 , Processed in 0.076194 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表