找回密码
 立即注册
搜索
查看: 7370|回复: 24

[其他] 知乎使用乱码干扰爬虫?

[复制链接]
     
发表于 2024-6-28 20:40 | 显示全部楼层 |阅读模式

zhihu_mojibake.png 看起来好恐怖


好像知乎检测到 UserAgent 中包含爬虫关键词就会返回乱码内容:
https://www.landiannews.com/archives/104695.html
回复

使用道具 举报

发表于 2024-6-28 20:41 | 显示全部楼层
可能知乎怕自己的内容被第三方拿去训练大模型
回复

使用道具 举报

     
发表于 2024-6-28 20:55 | 显示全部楼层
这是好事,自我封闭
回复

使用道具 举报

     
发表于 2024-6-28 21:11 | 显示全部楼层
samfs 发表于 2024-6-28 20:41
可能知乎怕自己的内容被第三方拿去训练大模型

如果真是这样倒挺好的
不然你跟大模型一说起诸葛亮,AI就跟你说猪脚饭和大学生
回复

使用道具 举报

     
发表于 2024-6-28 22:43 来自手机 | 显示全部楼层
Nanachi 发表于 2024-6-28 20:55
这是好事,自我封闭

豆瓣知乎这种约等于粪坑的地方还是让他们封着好,别出来污染数据了。

—— 来自 鹅球 v3.0.86-alpha
回复

使用道具 举报

     
发表于 2024-6-29 00:03 | 显示全部楼层
那点数据本来就价值有限,也不知道看上哪点
回复

使用道具 举报

     
发表于 2024-6-29 00:23 | 显示全部楼层
淘宝也是,有时价格复制出来是乱码
回复

使用道具 举报

发表于 2024-6-29 00:37 | 显示全部楼层
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数据,是真恶心

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-6-29 00:51 来自手机 | 显示全部楼层
Auhah 发表于 2024-6-29 00:37
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数 ...

知乎当然知道,除了专栏全部都设不可爬了,而专栏现在弄这出,很明显,又蠢又坏这个词值得评价

—— 来自 鹅球 v3.0.0.82-alpha
回复

使用道具 举报

     
发表于 2024-6-29 01:27 | 显示全部楼层
自毁式反爬虫挺好的,有些网站反爬输出乱码只是简单做个凯撒密码偏移,知乎看样子是全随机,没有逆向的可能。
可是这能防到会对策的爬虫吗?就当作是中文互联网又变得逼仄的一天好了。
回复

使用道具 举报

     
发表于 2024-6-29 04:40 来自手机 | 显示全部楼层
Auhah 发表于 2024-6-29 00:37
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数 ...

但是ai公司不遵守啊
回复

使用道具 举报

     
发表于 2024-6-29 06:38 | 显示全部楼层
但是我感觉这种干扰对于 ai 公司来说要收集数总有办法,到头来只是影响到不懂或者遵守规矩的人。网文影视网站搞了这么久防盗版最
后还不是只能拦住小白

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2024-6-29 06:39 来自手机 | 显示全部楼层
反爬和爬都是魔高一尺道高一丈

之前看有个爬虫教学,某网站展示价格的数字用的字体是随机的,返回数字映射到字体上实现混淆
回复

使用道具 举报

     
发表于 2024-6-29 06:47 | 显示全部楼层
Auhah 发表于 2024-6-29 00:37
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数 ...

https://www.zhihu.com/robots.txt
实际没人遵守爬虫规范的,特别是ai时代
回复

使用道具 举报

发表于 2024-6-29 09:14 | 显示全部楼层
白日依山尽 发表于 2024-6-29 06:47
https://www.zhihu.com/robots.txt
实际没人遵守爬虫规范的,特别是ai时代

那得说知乎干得漂亮。。

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-6-29 10:27 | 显示全部楼层
白日依山尽 发表于 2024-6-29 06:47
https://www.zhihu.com/robots.txt
实际没人遵守爬虫规范的,特别是ai时代

诚心不遵守的话伪装Agent又有何难呢?
回复

使用道具 举报

     
发表于 2024-6-29 10:32 来自手机 | 显示全部楼层
卖哥 发表于 2024-6-29 10:27
诚心不遵守的话伪装Agent又有何难呢?

【月薪1w的程序员 爬淘宝被判3年 写爬虫别碰这3条!-哔哩哔哩】 https://www.bilibili.com/video/BV1ih411a7PK

被爬的如果法务给力,可以送写爬虫的牛马去踩缝纫机
回复

使用道具 举报

     
发表于 2024-6-29 20:07 | 显示全部楼层
https://www.ithome.com/0/778/587.htm

知乎发布全新 AI 产品“知乎直答”,支持提问、搜索等功能
2024/6/29 19:08:07 来源:IT之家 作者:浩渺 责编:浩渺评论:30
回复

使用道具 举报

     
发表于 2024-6-29 20:28 | 显示全部楼层
Nanachi 发表于 2024-6-29 20:07
https://www.ithome.com/0/778/587.htm

知乎发布全新 AI 产品“知乎直答”,支持提问、搜索等功能

立足于回答,那那种广告多的回答,搜相关问题直接出广告?

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-6-29 20:34 | 显示全部楼层
坚决拥护知乎圈地自己恶心自己
贴知乎链接比资源分享用百度网盘还糟,后者别人还知道在论坛上发预览大致内容。贴知乎链接分享没头没尾的,
有些专栏看起来好像关键在后半段,屈尊登陆进去后半段还是废话,司妈妈了

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2024-6-29 20:36 | 显示全部楼层
知乎会自己搞ai吗?
回复

使用道具 举报

     
发表于 2024-6-30 23:10 来自手机 | 显示全部楼层
木谷高明 发表于 2024-6-29 06:39
反爬和爬都是魔高一尺道高一丈

之前看有个爬虫教学,某网站展示价格的数字用的字体是随机的,返回数字映射 ...

是懂车帝那种吗?

—— 来自 鹅球 v3.0.0.82-alpha
回复

使用道具 举报

     
发表于 2024-7-1 00:11 来自手机 | 显示全部楼层
电脑浏览器现在知乎的验证各种点不过去,不知道为什么

— from OnePlus ONEPLUS A5000, Android 9 of S1 Next Goose v2.5.4
回复

使用道具 举报

发表于 2024-7-1 03:28 | 显示全部楼层
卖哥 发表于 2024-6-29 10:27
诚心不遵守的话伪装Agent又有何难呢?

伪装Agent的话访问频率一高早就封IP了
回复

使用道具 举报

     
发表于 2024-7-2 01:03 | 显示全部楼层
Awanano 发表于 2024-6-29 20:28
立足于回答,那那种广告多的回答,搜相关问题直接出广告?

论坛助手,iPhone ...

garbage in garbage out,AI从粪坑里也只能炼出屎啊
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-26 19:20 , Processed in 0.140720 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表