最新的AI模型现在能识别物体坐标了, 离AI帮你挂机游戏的时代又近了一步

泰坦失足 · 发表于 2025-2-24 15:07

之前我尝试过: OCR检测屏幕上所有可检测文字+截图并二次处理以将图片形式/难以分辨文字的按钮转换为文字, 然后给AI模型输入当前图片+OCR出来的文字/按钮文字位置. 核心困难点就在于现在的AI能告诉图片里有什么, 却不能告诉你具体位置. 一种解决方案是给输入的图片都盖上一层从1到XX的数字矩阵, 然后询问LLM要点击哪个矩阵对应的屏幕区域.

在最新的Qwen 2.5 VL, 则实现了世界上第一个能定位具体位置的LLM. 终于可以一站式解决 "理解屏幕内容-判断可点击要素-推理下一步行动了"
我自己的尝试,虽然推理速度决定了玩不了任何要正常操作速度的游戏, 但是挂机刷那种GAAS的2D手游, 或者在2D菜单上进行操作是没问题了.
以后终于可以做到"贾维斯,我去上个洗手间,你帮我把素材卖了"或者"你帮我把日常做了". 虽然说实话吧, 这么折腾不如找个代肝/代练, 我看现在各种游戏的代肝产业发达的很, 几十块钱就能找个人把那种手游一个月的上班日常全给你做了. 你不干有的是人干, 看到nga有人贴图说魔兽国服都有非洲工作室来赚人民币了. https://www.bilibili.com/video/BV1zCrVYjEnN/
(问号是字库问题,本身识别出了瓦斯矿)
(要求识别返回需要点击的地方)
(要求返回合成需要点击的地方)
官方例图:

Viteeee · 发表于 2025-2-24 15:28

这是好事啊，厂商为了留存率想出来的那些日常任务、签到打卡、每日首胜之类的糟粕玩意就应该靠自动化解决。

代练这玩意再怎么便宜，也有不少人（比如我）是绝对不想把游戏账号给别人的。

泰坦失足 · 发表于 2025-2-24 15:34

Viteeee 发表于 2025-2-24 15:28
这是好事啊，厂商为了留存率想出来的那些日常任务、签到打卡、每日首胜之类的糟粕玩意就应该靠自动化解决。 ...

我也是, 唯一一次买代练服务是风暴英雄打5场对战AI拿魔兽世界坐骑. 之前B测玩过觉得这游戏玩起来太无聊了, 找了个代练, 还是贵的那一档. 然后byd那人给我挂机, 我收到了游戏生涯里唯一一封"你违反了社区规则被停止账号一周".

tillnight · 发表于 2025-2-24 15:35

Viteeee 发表于 2025-2-24 15:28
这是好事啊，厂商为了留存率想出来的那些日常任务、签到打卡、每日首胜之类的糟粕玩意就应该靠自动化解决。 ...

可见的时间内，不可能本地部署这样的模型，至少你手机上不行。这意味着你想要未来大模型来代肝，就得通过第三方提供的云服务，账号密码同样是需要提供出去的，安全性不能说比个人代肝没有改善吧，总之解决不了账号不给他人的赛博洁癖问题。

曼彻斯特联 · 发表于 2025-2-24 15:36

脚本帮你做GAAS日常用OCR相关的老技术就可以实现吧，目前没看出VLM的优势在哪

qwwsong · 发表于 2025-2-24 15:39

挂机普通按键精灵等脚本足够了，没有完不成的活。还是开发点别的用途

—— 来自 OPPO OPG04, Android 13上的 S1Next-鹅版 v2.5.4

1096beam · 发表于 2025-2-24 15:40

前几天才听一个懂哥吹AI发展了所有游戏都会变成挂机游戏

泰坦失足 · 发表于 2025-2-24 15:46

本帖最后由泰坦失足于 2025-2-24 15:47 编辑

1096beam 发表于 2025-2-24 15:40
前几天才听一个懂哥吹AI发展了所有游戏都会变成挂机游戏

那不如打开闲鱼，不用等ai发展，现在就能找人帮你挂任意游戏，尤其是现在索软主机一不能像pc ns那样修改，二可以云存档随地同步，导致相关产业发达。我被虎先锋打的道心破碎的时候想过找人帮我刷点等级碾压过去。最后还是自己打了。我猜mh ws快到了，肯定也有不少代刷代练服务。

论坛助手,iPad

mimighost · 发表于 2025-2-24 15:49

这还差得远，目前就算是operator，真要让它完成一个长任务也是不行的

现在这东西只能帮你做一个小任务，比如点击这个下载那个

游戏还差得远，所有的ai模型，除了openai那个deep research有点儿潜力，对于长时间任务都无可奈何

雪地白狼 · 发表于 2025-2-24 15:53

游戏日常的机械操作完全靠现有的技术就够了吧，FGO这种手游都能全自动刷本了。需要上AI模型的反而是一些复杂的操作。

Lacsiess · 发表于 2025-2-24 15:56

曼彻斯特联发表于 2025-2-24 15:36
脚本帮你做GAAS日常用OCR相关的老技术就可以实现吧，目前没看出VLM的优势在哪 ...

不会被封......理论上不存在能靠非一对一对话区分AI和手操的可能性

泰坦失足 · 发表于 2025-2-24 15:59

曼彻斯特联发表于 2025-2-24 15:36
脚本帮你做GAAS日常用OCR相关的老技术就可以实现吧，目前没看出VLM的优势在哪 ...

对于小众的游戏有用, 从零开始搭脚本速度更快, 然后游戏大更新后也能自己改下以适合新版本UI.
这种挂机的感觉的确爽, 我坚持每天打开MAA玩明日方舟好几年, 堡垒之夜最近也是挂机宏能实现无限挂机大逃杀模式, 睡觉前挂起来, 起来一看升了3到5级.

		自动登录	找回密码
密码			立即注册

[其他] 最新的AI模型现在能识别物体坐标了, 离AI帮你挂机游戏的时代又近了一步

本帖子中包含更多资源