不知道啥时候才能见到科塔娜/HAL9000那样的语音助手

泰坦失足 发表于 2024-9-10 17:19

本帖最后由泰坦失足于 2024-9-10 17:26 编辑

现在什么AI扩图，AI总结文章，AI视觉识别都是第三方AI APP能干的事情。最该实现的该是把手机摆在那里，然后想起来什么事情时候问下它能自动回答吧。比如问下“微信朋友圈有啥新鲜事吗？” “XX群今天说了什么”。苹果AI里的一堆抽象应用里，只有AI识别最重要邮件/AI总结推送/结合当前环境和上下文AI完成动作像个只有OS级AI助手能做该做的事情。感觉GPT4o的上下文对话已经挺不错的了，那个新版语音交互也很自然（【ChatGPT高级语音《模仿孙悟空》声调声色变化有限】 https://www.bilibili.com/video/BV18feneXEHm 【Gpt 最新版本的语音对话功能已经无敌了，人工智能将一步一步拉大教育水平的差距，从小学开始可能就不一样了】 https://www.bilibili.com/video/BV1bM4m1y7cD），有点个人助手的感觉了，而且就算GPT4o会抽风，科塔娜/HAL9000就不会吗。

chaucerling 发表于 2024-9-10 17:39

openai sora到现在都没放出来，国内平替都出来了，4o和4o-mini感觉就是打价格战把烧不起钱的都干死
OS级AI果子的概念挺好，就是到现在都没有具体细节，只能等wwdc

JetBrains 发表于 2024-9-10 17:44

早有条件做这个了，但是又做不到，这个在现实生活中可能只有苹果和华为可以做到。s1 之前就有人问了，能不能做全应用搜索，比如系统搜索可以直接调用微信搜公众号和群聊内容。
但是现实中只要应用程序不开放接口，这个就没办法做，而首要事务是拥有统一的接口，比如微信开放接口给系统，允许系统读取群聊的具体内容。也有一个办法就是使用类似快捷指令+OCR 识别屏幕，这个可能性比上面的大一点，毕竟我怎么敢让张小🐲做事。但是同时带来延迟，比如用户说帮忙看一下 XX 群的聊天记录，首先系统在后台打开 QQ，找了一遍发现没有，是微信群，然后再打开微信群，最后 OCR 提取走 AI 总结，然后抛出。有这个时间用户黄花菜都凉了。

总之，没办法直接拿数据是问题。

—— 来自鹅球 v3.0.86-alpha

華蝶風雪 发表于 2024-9-10 18:07

JetBrains 发表于 2024-9-10 17:44
早有条件做这个了，但是又做不到，这个在现实生活中可能只有苹果和华为可以做到。s1 之前就有人问了，能不 ...

这个可以通过个人训练集和记忆库来解决嘛，随着记忆库的增加，响应速度会越来越快的

泰坦失足 发表于 2024-9-10 18:18

JetBrains 发表于 2024-9-10 17:44
早有条件做这个了，但是又做不到，这个在现实生活中可能只有苹果和华为可以做到。s1 之前就有人问了，能不 ...

今天本来是期待下华为能拿出什么解决方案的，结果None，连那个手机都没怎么讲，全在那里说汽车汽车汽车和爵士人生了

webto 发表于 2024-9-10 18:22

如果有这样水平的，它有自我意识了，就要讨论伦理问题了。

wenhaowu 发表于 2024-9-10 18:33

scg2017 发表于 2024-9-10 18:40

现在大模型能力也不弱，但是没什么突破性的应用。

ronh 发表于 2024-9-10 20:33

有实验性可用的了，但由于隐私法规关系没法推广

https://youtu.be/nXVvvRhiGjI?si=2e3FPet4ZjXxMvCE

— from Google Pixel 8 Pro, Android 14 of S1 Next Goose v2.1.2

Jumbohard 发表于 2024-9-10 21:03

wenhaowu 发表于 2024-9-10 18:33
可以定时后台跑一下ocr，我可以接受10分钟的延迟，就是不知道电池撑不撑得住 ...

微软今年早些时候发布的Copilot+PC的核心功能之一就是每几秒钟截个图然后传递给本地的多模态小模型做知识库，然后被喷爆了说是隐私地狱

页: [1]

Stage1st's Archiver

不知道啥时候才能见到科塔娜/HAL9000那样的语音助手