泰坦失足 发表于 2023-3-25 09:40

基于语音的人机交互快十年没进步了

本帖最后由 泰坦失足 于 2023-3-25 09:48 编辑

iPhone3G时代就在幻想一个App能完全不看屏幕,像科幻片那样纯语音交流. iPhone4S时候有了Siri, 只停留在语音和iPhone自带的app交互. iOS后来配合AirPods升级了Siri API能朗读和回复第三方通知. 但是离我想要的'Siri帮我打开微信朋友圈, 告诉我哪些人发了什么. 再切换到微博, 从第一条开始读时间线上的微博'还是非常远. 安卓有段时间在宣传基于屏幕录制的语音助手, 能实现一部分说'打开朋友圈',它就重放屏幕触摸事件, 但是还是做不到如果不用辅助模式从上往下读屏幕上的内容.
试了下iOS的语音控制功能, 原来iOS15升级了语音控制功能iOS 15强大新功能:动动嘴隔空控制iPhone!_语音_屏幕_果粉 (sohu.com).大概所期待的50%功力了

東京急行 发表于 2023-3-25 09:51

说没进步有点过了hhh其实只是复杂系统被拆分成若干个子任务了
主楼描述的现在完全可以通过ASR+LLM+TTS的组合实现,只不过多个系统级连后最终产品的性能还不够吧

winneis 发表于 2023-3-25 16:56

ambivalence 发表于 2023-3-25 17:05

我个人觉得语音是非常低效的沟通方式

winneis 发表于 2023-3-25 17:41

abcbuzhiming 发表于 2023-3-25 17:46

jinmaple 发表于 2023-3-26 06:32

re73589 发表于 2023-3-26 09:01

不知道智能语音能不能做到纯用听就能逛论坛

—— 来自 Xiaomi M2012K11AC, Android 12上的 S1Next-鹅版 v2.4.4-alpha

TDFF 发表于 2023-3-26 09:05

abcbuzhiming 发表于 2023-3-25 17:46
在脑波输入设备出来之前,语音如果能正确理解含义的话,比敲键盘输入要先进 ...

你在微信上是愿意看一段文字,还是愿意听几分钟的语音

泰坦失足 发表于 2023-3-26 09:40

re73589 发表于 2023-3-26 09:01
不知道智能语音能不能做到纯用听就能逛论坛

—— 来自 Xiaomi M2012K11AC, Android 12上的 S1Next-鹅版 v2 ...

视力障碍者在iOS设备上能做到较好的逛论坛了. 前提是开发者得注意无障碍功能.

abcbuzhiming 发表于 2023-3-26 15:01

TDFF 发表于 2023-3-26 18:28

abcbuzhiming 发表于 2023-3-26 15:01
我说的语音输入的含义是,我说一段话,机器转成文字。不是直接用音频,这算什么语音输入 ...

那你想想怎么清楚的告诉机器那些话是它要转述(翻译)的,那些话是命令?

最简单的,你说了一大段话,突然想把前面的一句修改一下,你要怎么清晰的告诉机器去做这件事?如何让机器从翻译模式切换到编辑模式而不是把你的命令写下来?如何定位之前的一句话?如何替换?只要机器有一丁点做的不好,你到时候肯定着急的想砸机器,不是吗?

泰坦失足 发表于 2023-3-27 10:18

TDFF 发表于 2023-3-26 18:28
那你想想怎么清楚的告诉机器那些话是它要转述(翻译)的,那些话是命令?

最简单的,你说了一大段话,突 ...

iOS15的语音控制连前往主屏幕都必须明确说'前往主屏幕'才行. 返回主屏幕, 回到主界面,前往主界面都不行

TDFF 发表于 2023-3-27 10:44

泰坦失足 发表于 2023-3-27 10:18
iOS15的语音控制连前往主屏幕都必须明确说'前往主屏幕'才行. 返回主屏幕, 回到主界面,前往主界面都不行 ...

对的。人机语音交互人说的话可能是命令也可能是内容。如何让机器准确的识别一句话是内容还是命令才是最难的。

现在这方面看起来没什么太大的障碍恰恰是因为机器都是人工智障。要么把命令在程序里面写死,要么就没有命令(比方微信语音就把人说的话全部当作内容)。其实就算写死了命令也会出问题,比方你说话让电脑打字,写字的内容中出现了控制电脑的命令,那怎么办呢?

星空天神 发表于 2023-3-27 20:13

不如老罗

—— 来自 OnePlus LE2120, Android 13上的 S1Next-鹅版 v2.5.4

mimighost 发表于 2023-3-27 20:51

chatgpt可以做到,你需要一个能够理解nlp的助理

当然苹果短期是不会和openai合作的

嘟帝 发表于 2023-3-27 20:56

mimighost 发表于 2023-3-27 20:51
chatgpt可以做到,你需要一个能够理解nlp的助理

当然苹果短期是不会和openai合作的 ...

用siri调快捷指令用ChatGPT
https://yishi.zhubai.love/posts/2248495637429796864?continueFlag=9cf71944034535d667a60ca77f7f8b71

dovahkiin 发表于 2023-3-27 23:35

ambivalence 发表于 2023-3-25 17:05
我个人觉得语音是非常低效的沟通方式

语音是给老板用的,语音有没有用主要看机器有多智能

御坂MKII 发表于 2023-3-28 00:27

果子还能拉下脸接入软软主控的chatgpt吗,接入的话siri就免费超进化了

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4

abcbuzhiming 发表于 2023-3-28 00:30

御坂MKII 发表于 2023-3-28 00:31

東京急行 发表于 2023-3-25 09:51
说没进步有点过了hhh其实只是复杂系统被拆分成若干个子任务了
主楼描述的现在完全可以通过ASR+LLM+TTS的组 ...

gpt证明大模型能跑通之后,不考虑成本问题,跑通需要的最低条件其实就是良好的api设计水平来做胶水拼接了。大模型现在可以很好的胜任自然语言到结构化语言的翻译官

—— 来自 Xiaomi 2203121C, Android 13上的 S1Next-鹅版 v2.5.4
页: [1]
查看完整版本: 基于语音的人机交互快十年没进步了