泰坦失足 发表于 2024-4-14 10:33

感觉现在手机AI都走错方向了

什么AI总结文字,AI处理图片,都是下个APP都能搞定的事情。通话自动录音后无缝AI总结通话有点不可取代,但是愿意折腾的人在安卓手机上也能用发送给自己邮箱-自托管服务器识别-走GPT API总结。最重要的不是让AI来作为Agent操作手机吗,而且对于手机厂来说不管是抽象的代码层面还是实际手机的视频画面都是透明的,云服务解除不到实际的代码,实时串流视频的传输成本或者处理成本也太高了。不如本地用小模型通过边缘计算,决定在程序的哪个button上直接发送一个点击信号,或者模拟点击。不过国内安卓这么卷,可能再过两三代就能看到了。

https://zhuanlan.zhihu.com/p/673840298 腾讯发布AppAgent:让 AI 自己去玩手机


win8 发表于 2024-4-14 10:37

你在想想一样App开发方愿意不愿意被agent操作,免费的agent是不是安全可靠的,以及了解一下魅族21pro

水榭听风 发表于 2024-4-14 10:40

我只希望有个工作助理就可以。比如XX同学,提醒我哪天干什么? XX同学,今天早上的日程是什么?第X个活动请提醒我准备XX,XX同学,这份邮件请帮我总结一下,看看公司的具体要求,等等这样的功能就可以了,至于处理图片什么的只是偶尔用用。

泰坦失足 发表于 2024-4-14 10:42

win8 发表于 2024-4-14 10:37
你在想想一样App开发方愿意不愿意被agent操作,免费的agent是不是安全可靠的,以及了解一下魅族21pro ...

所以这种东西就应该手机上来开发,比如之前国产安卓就能录制屏幕操作手势,然后一键触发。看过小米手机一键语音触发后模拟手机触摸实现发红包

Nanachi 发表于 2024-4-14 10:43

你们都用上手机ai了?怎么用的

—— 来自 HUAWEI LNA-AL00, Android 12上的 S1Next-鹅版 v2.5.3-play

niubility 发表于 2024-4-14 10:43

水榭听风 发表于 2024-4-14 10:40
我只希望有个工作助理就可以。比如XX同学,提醒我哪天干什么? XX同学,今天早上的日程是什么?第X个活动请 ...

确实,现在很多厂商连靠谱的语音语义识别都搞不定还要硬吹ai,笑死个人

—— 来自 S1Fun

win8 发表于 2024-4-14 12:29

泰坦失足 发表于 2024-4-14 10:42
所以这种东西就应该手机上来开发,比如之前国产安卓就能录制屏幕操作手势,然后一键触发。看过小米手机一 ...

录制动作是有们门槛的,并且也并不是真的很万能。
想想现在抢红包功能怎么样了,想想李跳跳们怎么样了。
当手机厂商提供好用又无门槛的agent的时候,App和手机厂商的博弈就彻底展开了。干扰是第一步,起诉是第二部。

晨曦之下 发表于 2024-4-14 12:56

开插件抢红包的都是死妈玩意儿
尤其是过年期间还开着的那群玩意儿

gofbayrf 发表于 2024-4-14 13:58

你真以為這些組裝廠會投很多錢進技術前沿去嗎 無非是現在火的ai 是畫圖 翻譯 語言模型罷了

斑驳的阴影 发表于 2024-4-14 15:06

手机的ai现在也没啥大用,谁天天去ai生个丑比图看来看去。。。

W.K0n9 发表于 2024-4-14 16:42

你说的这个应用,感觉难度可能在技术层面之外

三星的Bixby智能助手刚上线那几个月是真的可以听完你一整句话之后在手机上连续完成你这句话里涉及的所有操作(比如说你让他在微信上给xxx发个多少钱的红包,他会直接打开微信然后搜索你说的这个人,点进聊天之后打开红包输入金额,只需要你最终压一下指纹就结束了),甚至还能越权直接解锁手机后来很快就被砍成白痴了
现在Bixby已经彻底被拆分成尸体了,剩下一个完全没智能只会if else执行预设的Bixby日常程序和一个很难说能不能比Siri更聪明的Bixby语音

—— 来自 samsung SM-G9910, Android 14上的 S1Next-鹅版 v2.5.4

举头望明月 发表于 2024-4-14 17:12

Destiny4073 发表于 2024-4-14 17:43

这样会被批侵犯隐私

紧那罗 发表于 2024-4-14 20:57

手机app的gui本来就是给人准备的 都上AI了 还需要AI来做模拟点击这种低效的事情吗。。

dada 发表于 2024-4-14 21:33

苹果在做类似的,这种基本是系统厂商优势领域所以只有等系统厂商发布了

dada 发表于 2024-4-14 21:33

苹果在做类似的,这种基本是系统厂商优势领域所以只有等系统厂商发布了

dada 发表于 2024-4-14 21:34

苹果在做类似的,这种基本是系统厂商优势领域所以只有等系统厂商发布了

a9okalypse 发表于 2024-4-14 21:53

https://arxiv.org/abs/2404.01744

这个不就是吗

tikallus 发表于 2024-4-15 00:21

W.K0n9 发表于 2024-4-14 16:42
你说的这个应用,感觉难度可能在技术层面之外

三星的Bixby智能助手刚上线那几个月是真的可以听完你 ...

啊?这个操作我vivo的现在还是会啊,也一样搜拼音

—— 来自 vivo V2309A, Android 14上的 S1Next-鹅版 v2.5.4

JetBrains 发表于 2024-4-15 08:44

为什么你会觉得厂商和开发都会允许这种东西存在,作为应用开发者,我随便就能做一堆限制阻止 AppAgent 和类似内容在我应用上运行李跳跳都能攻克
目前主流厂商的 OCR 也就是屏幕取词,大多都联网,因为本地识别实在太垃圾了。决定在程序的哪个button上直接发送一个点击信号?有的应用渲染时就是一个画布,系统不通过 OCR 都根本不知道应用居然存在一个按钮
你看这个 AppAgent 就不支持微信小程序,因为微信小程序不是原生

苹果如果官方下手的话我还会信一点,安卓就算了

luffyzhou 发表于 2024-4-15 09:04

bixby真是眼见从1.0砍到现在这个鸟样

ada_ovo 发表于 2024-4-15 09:48

ai玩手机,谁来看广告

DraQin 发表于 2024-4-15 11:02

手头的一加Ace2自从更了大模型语音助手以后叫它干点定闹钟定日程之类的东西都要先等他反应好几下,从一秒到三秒不等,真的很便秘;对比之下15PM这类操作基本已经可以说完之后立刻执行并且给到反馈,基本没有延迟,所以现在很多简单操作我都喜欢叫Siri来
其实这种情况之前这帮厂商决定把大模型塞到语音助手里的时候我就已经猜到了,只是没想到影响会这么大,可能需要把精简模型塞到本地运行才会有缓解吧

wdw 发表于 2024-4-15 18:39

用过Google Bard就知道,云端大模型的一大问题就是太慢了

我让Bard把灯关掉,这玩意的响应时间比我手动打开Google Home App操作都慢


—— 来自 samsung SM-S928U1, Android 14上的 S1Next-鹅版 v2.5.3

leafleaf 发表于 2024-4-15 19:01

能智能推断我下一步操作直达目标功能,聊天内容自动建议补全,不需要任何操作就能自动安排、提醒日程(自动计算提前提时间,顺便规划好交通,根据日程内容生成checklist等等),,这才叫ai终端嘛

ai又不等于aigc

—— 来自 Sony XQ-AT52, Android 14上的 S1Next-鹅版 v2.5.4
页: [1]
查看完整版本: 感觉现在手机AI都走错方向了