找回密码
 立即注册
搜索
查看: 4646|回复: 20

[软件] 基于语音的人机交互快十年没进步了

[复制链接]
     
发表于 2023-3-25 09:40 | 显示全部楼层 |阅读模式
本帖最后由 泰坦失足 于 2023-3-25 09:48 编辑

iPhone3G时代就在幻想一个App能完全不看屏幕,像科幻片那样纯语音交流. iPhone4S时候有了Siri, 只停留在语音和iPhone自带的app交互. iOS后来配合AirPods升级了Siri API能朗读和回复第三方通知. 但是离我想要的'Siri帮我打开微信朋友圈, 告诉我哪些人发了什么. 再切换到微博, 从第一条开始读时间线上的微博'还是非常远. 安卓有段时间在宣传基于屏幕录制的语音助手, 能实现一部分说'打开朋友圈',它就重放屏幕触摸事件, 但是还是做不到如果不用辅助模式从上往下读屏幕上的内容.
试了下iOS的语音控制功能, 原来iOS15升级了语音控制功能iOS 15强大新功能:动动嘴隔空控制iPhone!_语音_屏幕_果粉 (sohu.com).大概所期待的50%功力了
回复

使用道具 举报

发表于 2023-3-25 09:51 | 显示全部楼层
说没进步有点过了hhh其实只是复杂系统被拆分成若干个子任务了
主楼描述的现在完全可以通过ASR+LLM+TTS的组合实现,只不过多个系统级连后最终产品的性能还不够吧
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-25 16:56 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-3-25 17:05 | 显示全部楼层
我个人觉得语音是非常低效的沟通方式
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-25 17:41 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-25 17:46 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-26 06:32 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-3-26 09:01 来自手机 | 显示全部楼层
不知道智能语音能不能做到纯用听就能逛论坛

—— 来自 Xiaomi M2012K11AC, Android 12上的 S1Next-鹅版 v2.4.4-alpha
回复

使用道具 举报

发表于 2023-3-26 09:05 | 显示全部楼层
abcbuzhiming 发表于 2023-3-25 17:46
在脑波输入设备出来之前,语音如果能正确理解含义的话,比敲键盘输入要先进 ...

你在微信上是愿意看一段文字,还是愿意听几分钟的语音
回复

使用道具 举报

     
 楼主| 发表于 2023-3-26 09:40 | 显示全部楼层
re73589 发表于 2023-3-26 09:01
不知道智能语音能不能做到纯用听就能逛论坛

—— 来自 Xiaomi M2012K11AC, Android 12上的 S1Next-鹅版 v2 ...

视力障碍者在iOS设备上能做到较好的逛论坛了. 前提是开发者得注意无障碍功能.
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-26 15:01 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2023-3-26 18:28 | 显示全部楼层
abcbuzhiming 发表于 2023-3-26 15:01
我说的语音输入的含义是,我说一段话,机器转成文字。不是直接用音频,这算什么语音输入 ...

那你想想怎么清楚的告诉机器那些话是它要转述(翻译)的,那些话是命令?

最简单的,你说了一大段话,突然想把前面的一句修改一下,你要怎么清晰的告诉机器去做这件事?如何让机器从翻译模式切换到编辑模式而不是把你的命令写下来?如何定位之前的一句话?如何替换?只要机器有一丁点做的不好,你到时候肯定着急的想砸机器,不是吗?
回复

使用道具 举报

     
 楼主| 发表于 2023-3-27 10:18 | 显示全部楼层
TDFF 发表于 2023-3-26 18:28
那你想想怎么清楚的告诉机器那些话是它要转述(翻译)的,那些话是命令?

最简单的,你说了一大段话,突 ...

iOS15的语音控制连前往主屏幕都必须明确说'前往主屏幕'才行. 返回主屏幕, 回到主界面,前往主界面都不行
回复

使用道具 举报

发表于 2023-3-27 10:44 | 显示全部楼层
泰坦失足 发表于 2023-3-27 10:18
iOS15的语音控制连前往主屏幕都必须明确说'前往主屏幕'才行. 返回主屏幕, 回到主界面,前往主界面都不行 ...

对的。人机语音交互人说的话可能是命令也可能是内容。如何让机器准确的识别一句话是内容还是命令才是最难的。

现在这方面看起来没什么太大的障碍恰恰是因为机器都是人工智障。要么把命令在程序里面写死,要么就没有命令(比方微信语音就把人说的话全部当作内容)。其实就算写死了命令也会出问题,比方你说话让电脑打字,写字的内容中出现了控制电脑的命令,那怎么办呢?
回复

使用道具 举报

     
发表于 2023-3-27 20:13 来自手机 | 显示全部楼层
不如老罗

—— 来自 OnePlus LE2120, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

发表于 2023-3-27 20:51 | 显示全部楼层
chatgpt可以做到,你需要一个能够理解nlp的助理

当然苹果短期是不会和openai合作的
回复

使用道具 举报

     
发表于 2023-3-27 20:56 | 显示全部楼层
mimighost 发表于 2023-3-27 20:51
chatgpt可以做到,你需要一个能够理解nlp的助理

当然苹果短期是不会和openai合作的 ...

用siri调快捷指令用ChatGPT
https://yishi.zhubai.love/posts/ ... 5d667a60ca77f7f8b71
回复

使用道具 举报

     
发表于 2023-3-27 23:35 | 显示全部楼层
ambivalence 发表于 2023-3-25 17:05
我个人觉得语音是非常低效的沟通方式

语音是给老板用的,语音有没有用主要看机器有多智能
回复

使用道具 举报

     
发表于 2023-3-28 00:27 来自手机 | 显示全部楼层
果子还能拉下脸接入软软主控的chatgpt吗,接入的话siri就免费超进化了

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-3-28 00:30 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-3-28 00:31 来自手机 | 显示全部楼层
東京急行 发表于 2023-3-25 09:51
说没进步有点过了hhh其实只是复杂系统被拆分成若干个子任务了
主楼描述的现在完全可以通过ASR+LLM+TTS的组 ...

gpt证明大模型能跑通之后,不考虑成本问题,跑通需要的最低条件其实就是良好的api设计水平来做胶水拼接了。大模型现在可以很好的胜任自然语言到结构化语言的翻译官

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-14 15:19 , Processed in 0.102280 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表