现在的技术距离实时同声翻译还有多远？

泰坦失足 发表于 2024-7-22 15:15

静态图像如菜单/告示/路牌的话，GPT4V的理解能力已经很强了，4o增加了对日文和中文等外语的理解。反而声音同声传译还是个难题，1是手机的收音能力不行，同样的音频用iPhone自带的实时字幕功能，距离20厘米的电脑外放的声音识别出的字幕和机器内部捕获的音频识别出的字幕不是一个精确度。第2是交互性，谷歌吹过几次那个耳机能戴上后同声传译，讯飞也宣传过。看了几个评测视频都说不行有一定延迟。翻译出来的文字机翻味也很重。最好能无感戴在耳朵上一直聆听，在听到外语后的几秒迅速翻译好，然后我说的话在手机屏幕上显示为对方的语种。

bixinhaner 发表于 2024-7-22 18:15

4o-mini这个大脑的能力和速度都达到了。只要有合适的外设对接好就没问题了

Atail 发表于 2024-7-22 21:00

抛开设备体积限制不谈的话，现在就可以
whisper实时听译转文字
sakura/gpt实时外语转中文

b站有做整合包的，本地部署需要3070ti及以上显卡的算力

理论上，说话的人戴便携麦克风，高算力设备实时接收实时翻译完再把结果输出到终端上就可以，顶多延迟高点

但是纯移动端本地进行就有点太难了，工艺进步没那么大芯片短时间内应该都缩小不下来，做不到那么小的体积

诚司发表于 2024-7-23 00:10

泰坦失足 发表于 2024-7-23 04:28

诚司发表于 2024-7-23 00:10
编辑：只要显示在屏幕上不用语音输出啊？那Qwen-audio的语音翻译直接干完了，无非是加个端点识别

原：

有空时间研究下，构想是网页端跑WebRTC使用语言输入和输出，运算都放在服务器端。感觉需要买一个专门的麦克风来更准确的捕获人声。

诚司发表于 2024-7-23 08:00

seducer0719 发表于 2024-7-23 18:25

正好今天看见了这个，不知道是不是圈钱的

https://weibo.com/1642634100/OoHw6gJTl

【#给iPhone背面贴AI录音机火了##火遍海外的iPhoneAI外设是深圳制造#】iPhone 不让电话录音，创业者们就给它加个 GPT 版录音“物理外挂”。在国外众筹平台 Indiegogo 上，一款能贴在 iPhone 背面的“AI 卡片录音机”，接入大模型那种，卖出去 600 万美元（据说全网销售额超 1000 万美元。）。今年的 CES 上，微软 CEO 纳德拉，还跑到这产品的展位上去围观过。

这款名为 Plaud Note（以下简称 Plaud）的 AI 硬件目前交付了超 10 万台。官方称卖点有：定义为“全球首款 ChatGPT 提供支持的录音机”；卡片形状，贴在 iPhone 机身背后不费力，甚至能匹配放进 MagSafe。简直是“专为 iPhone 而生”。而且不扒不知道 ——这个 AI 爆款产品的背后团队，居然是中国深圳的一家创业公司。

Plaud为卡片式，差不多身份证大小，非常薄（0.29cm），可以磁吸在手机机身背后，最重要的功能就是录音。官方资料显示，Plaud 电池容量为 400mAh，满电 Plaud 可以连续录音 30 个小时，可录制和存储约 480 个小时的音频资料，不需要系统内安装新 App，或者获取授权。

录音时，Plaud 的手机内置应用，可以进行同传，还是带时间轴的那种。这基本上是目前听写功能硬件的标配了。录完后，Plaud 会通过大模型对录音内容进行整理、提炼、摘要。Plaud目前搭载 GPT-4o，利用大模型能力，能把近 60 种语言的文本内容整理成脑图、笔记、日记等。（量子位）

泰坦失足 发表于 2024-7-23 18:28

seducer0719 发表于 2024-7-23 18:25
正好今天看见了这个，不知道是不是圈钱的

https://weibo.com/1642634100/OoHw6gJTl

这个震动感应器实现iphoen内录的功能挺有创意的，但是小米耳机和讯飞耳机都能实现蓝牙内录了啊。讯飞还宣传xxAI功能，我猜小米大概也有。这两家的海外市场都不行就是了。

schneehertz 发表于 2024-7-23 21:09

如果可以实时联网，技术上已经接近可行，只不过还要等有人把产品做出来

页: [1]

Stage1st's Archiver

现在的技术距离实时同声翻译还有多远？