现在的技术距离实时同声翻译还有多远？

泰坦失足 · 发表于 2024-7-22 15:15

静态图像如菜单/告示/路牌的话，GPT4V的理解能力已经很强了，4o增加了对日文和中文等外语的理解。反而声音同声传译还是个难题，1是手机的收音能力不行，同样的音频用iPhone自带的实时字幕功能，距离20厘米的电脑外放的声音识别出的字幕和机器内部捕获的音频识别出的字幕不是一个精确度。第2是交互性，谷歌吹过几次那个耳机能戴上后同声传译，讯飞也宣传过。看了几个评测视频都说不行有一定延迟。翻译出来的文字机翻味也很重。最好能无感戴在耳朵上一直聆听，在听到外语后的几秒迅速翻译好，然后我说的话在手机屏幕上显示为对方的语种。

bixinhaner · 发表于 2024-7-22 18:15

4o-mini这个大脑的能力和速度都达到了。只要有合适的外设对接好就没问题了

Atail · 发表于 2024-7-22 21:00

抛开设备体积限制不谈的话，现在就可以
whisper实时听译转文字
sakura/gpt实时外语转中文

b站有做整合包的，本地部署需要3070ti及以上显卡的算力

理论上，说话的人戴便携麦克风，高算力设备实时接收实时翻译完再把结果输出到终端上就可以，顶多延迟高点

但是纯移动端本地进行就有点太难了，工艺进步没那么大芯片短时间内应该都缩小不下来，做不到那么小的体积

诚司 · 发表于 2024-7-23 00:10

本帖最后由诚司于 2024-7-23 00:18 编辑

编辑：只要显示在屏幕上不用语音输出啊？那Qwen-audio的语音翻译直接干完了，无非是加个端点识别

原：

实时同声翻译的时延要求远远比语音对话要求低，应该比语音对话容易多了。因为语音对话需要等对方说完了才能回应，而同声翻译可以流式的，发声的时候，翻译可以batch推理，asr之后每个分句翻译一下，然后输出，这都很容易。

以数字人语音对话来说，我试过8卡A100上，一张卡跑Funasr，一张卡跑GPT-Sovits，一张卡跑ER-NERF，四张卡跑Qwen2-72B
这个配置下，语音对话的首token延迟大约1.5秒，这是没有优化过的，对于语音对话来说这个时延稍微有点高，体验不算好但也可以接受，而对于同声翻译来说这个时延完全没问题的。想要效果方面的顶配，甚至可以asr用Qwen-audio

而且这语言部分跑的可是Qwen2-72B，72B换成小的语言模型，语音模型换各种速度快的TTS，时延可以低得多。

这里asr的时延可以忽略不计，最终的首token时延是大模型输出第一个分句的时延+语音模型的时延。你能接受几秒延时的话，硬件要求可以很低的，但是肯定低不到手机本地跑，除非你接受很差的翻译质量……

质量可以接受的最低情况，大概是whisper-medium这个大小的asr模型，7B以上的翻译模型，加上随便一个TTS，本地有两张卡跑起来没有压力

泰坦失足 · 发表于 2024-7-23 04:28

诚司发表于 2024-7-23 00:10
编辑：只要显示在屏幕上不用语音输出啊？那Qwen-audio的语音翻译直接干完了，无非是加个端点识别

原：

有空时间研究下，构想是网页端跑WebRTC使用语言输入和输出，运算都放在服务器端。感觉需要买一个专门的麦克风来更准确的捕获人声。

诚司 · 发表于 2024-7-23 08:00

泰坦失足发表于 2024-7-23 04:28
有空时间研究下，构想是网页端跑WebRTC使用语言输入和输出，运算都放在服务器端。感觉需要买一个专门的麦 ...

webRTC的话，你可以直接用github的metahuman项目，这个项目是个数字人，音频和语音是靠webRTC传输的，把这个项目改一改就ok

seducer0719 · 发表于 2024-7-23 18:25

正好今天看见了这个，不知道是不是圈钱的

https://weibo.com/1642634100/OoHw6gJTl

【#给iPhone背面贴AI录音机火了##火遍海外的iPhoneAI外设是深圳制造#】iPhone 不让电话录音，创业者们就给它加个 GPT 版录音“物理外挂”。在国外众筹平台 Indiegogo 上，一款能贴在 iPhone 背面的“AI 卡片录音机”，接入大模型那种，卖出去 600 万美元（据说全网销售额超 1000 万美元。）。今年的 CES 上，微软 CEO 纳德拉，还跑到这产品的展位上去围观过。

这款名为 Plaud Note（以下简称 Plaud）的 AI 硬件目前交付了超 10 万台。官方称卖点有：定义为“全球首款 ChatGPT 提供支持的录音机”；卡片形状，贴在 iPhone 机身背后不费力，甚至能匹配放进 MagSafe。简直是“专为 iPhone 而生”。而且不扒不知道 ——这个 AI 爆款产品的背后团队，居然是中国深圳的一家创业公司。

Plaud为卡片式，差不多身份证大小，非常薄（0.29cm），可以磁吸在手机机身背后，最重要的功能就是录音。官方资料显示，Plaud 电池容量为 400mAh，满电 Plaud 可以连续录音 30 个小时，可录制和存储约 480 个小时的音频资料，不需要系统内安装新 App，或者获取授权。

录音时，Plaud 的手机内置应用，可以进行同传，还是带时间轴的那种。这基本上是目前听写功能硬件的标配了。录完后，Plaud 会通过大模型对录音内容进行整理、提炼、摘要。Plaud目前搭载 GPT-4o，利用大模型能力，能把近 60 种语言的文本内容整理成脑图、笔记、日记等。（量子位）

泰坦失足 · 发表于 2024-7-23 18:28

seducer0719 发表于 2024-7-23 18:25
正好今天看见了这个，不知道是不是圈钱的

https://weibo.com/1642634100/OoHw6gJTl

这个震动感应器实现iphoen内录的功能挺有创意的，但是小米耳机和讯飞耳机都能实现蓝牙内录了啊。讯飞还宣传xxAI功能，我猜小米大概也有。这两家的海外市场都不行就是了。

schneehertz · 发表于 2024-7-23 21:09

如果可以实时联网，技术上已经接近可行，只不过还要等有人把产品做出来

		自动登录	找回密码
密码			立即注册

[其他] 现在的技术距离实时同声翻译还有多远？