电车
精华
|
战斗力 鹅
|
回帖 0
注册时间 2012-12-23
|
前后大概弄了几个星期,把各种不同的大模型都体验了一下,现在成功上线了。大模型在代码方面给我的最大感受是,在以前你有新想法的时候,可能碍于自身知识面受限,只能在极小的范围内意淫一下这个想法,但现在你不一定在需要依赖别人了,你可以自己就完成对这个想法的验证,可不可行,麻不麻烦,自己试一下就知道。
个人感觉现在ai在一些比较模棱两可,需要实操经验的事情上作用还相当有限,比如一些基于生活经验的问题。但是对于有既定答案或者是规则明确的内容,大模型表现确实非常强力,当然也看模型。比如英语语法,数学计算问题,代码问题。大语言模型在能力上的体感强度大概是claude3.5 241022 >gemini pro1.5 >gpt 4o,除了以上三个模型之外的模型基本上还处于走不动路的水平,包括最近阿里新出的qwen 2.5 72b,实际体验下来感觉还没到能正常使用的水平。
先说说claude3.5,感觉代码能力非常不错,跟4o比有明显差距,上下文联系能力也很强,但是唯一的缺点就是上下文范围比较小,当你的代码接近1000行的时候,claude3.5基本上就处理不了,这也是我后面去发掘其他大模型的原因之一。其中cursor还提供了一个独家的claude small,没用过,但是据说无限制使用,这点还挺好的。可能有坛友要问,怎么不跟o1比,o1才是gpt的最强模型吧,但是o1的价格非常贵,感觉应用在写代码上成本非常高,我几乎没有用o1.
gemini,谷歌的最新大模型,非常强力,但是有个很致命的问题,虽然提供比claude更大的单次上下文范围,大模型幻觉很严重,比如你先提一个错误A,他告诉你由于b和c引起的,c又是由于d引起的,在解决问题d的过程中,就会逐渐忘记需要解决的根本问题是错误A。相比claude,gemini的回答模式更系统化,更有逻辑性,特别是在分析你的需求的时候会从多个维度拆解问题,claude的感觉更接近于专注解决问题。目前gemini有三个模型可用 gemini pro(复杂问题处理) gemini flash(快速输出)gemini exp 1114(目前大模型排行榜第二的试验模型),谷歌很大方,ai实验室绑定信用卡直接送300刀配额api随便用
gpt 4o,感觉一般,上下文范围也没有特别优势,某些时候处理数学问题可能比clude3.5好,不过4o和clude都没有出现幻觉问题。综合表现逊色于claude3.5
qwen2.5-coder-32b,阿里的最新开源大模型千问,在阿里百炼可以免费申请试用30天好像是,有多个参数型号,也有其他阿里大模型可以试用,除了qwen max需要付费。32b靠它来写代码基本不可能,输出速度很慢,各方面能力都比较差,分析问题也是车轱辘话,但是外网把这个模型吹爆了,不知道是我使用问题还是什么。不过阿里的模型有几个提供巨量上下文范围,这点在国外模型中少有竞品,因为除非你需要完成东西是极其简单的,不然一般都会涉及大量上下文内容,有时候项目过于庞大的的时候模型会遗忘过去的内容。阿里还有个问题就是模型多且命名非常混乱,只用好词,pro,max,turbo,XL。让人完全分不清模型的定位。国产大模型目前的能力应该都在这一梯队。
|
|