圣者
精华
|
战斗力 鹅
|
回帖 0
注册时间 2019-1-7
|
之前我尝试过: OCR检测屏幕上所有可检测文字+截图并二次处理以将图片形式/难以分辨文字的按钮转换为文字, 然后给AI模型输入当前图片+OCR出来的文字/按钮文字位置. 核心困难点就在于现在的AI能告诉图片里有什么, 却不能告诉你具体位置. 一种解决方案是给输入的图片都盖上一层从1到XX的数字矩阵, 然后询问LLM要点击哪个矩阵对应的屏幕区域.
在最新的Qwen 2.5 VL, 则实现了世界上第一个能定位具体位置的LLM. 终于可以一站式解决 "理解屏幕内容-判断可点击要素-推理下一步行动了"
我自己的尝试,虽然推理速度决定了玩不了任何要正常操作速度的游戏, 但是挂机刷那种GAAS的2D手游, 或者在2D菜单上进行操作是没问题了.
以后终于可以做到"贾维斯,我去上个洗手间,你帮我把素材卖了"或者"你帮我把日常做了". 虽然说实话吧, 这么折腾不如找个代肝/代练, 我看现在各种游戏的代肝产业发达的很, 几十块钱就能找个人把那种手游一个月的上班日常全给你做了. 你不干有的是人干, 看到nga有人贴图说魔兽国服都有非洲工作室来赚人民币了. https://www.bilibili.com/video/BV1zCrVYjEnN/
(问号是字库问题,本身识别出了瓦斯矿)
(要求识别返回需要点击的地方)
(要求返回合成需要点击的地方)
官方例图:
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|