choukouun 发表于 2024-6-28 20:40

知乎使用乱码干扰爬虫?


看起来好恐怖


好像知乎检测到 UserAgent 中包含爬虫关键词就会返回乱码内容:
https://www.landiannews.com/archives/104695.html

samfs 发表于 2024-6-28 20:41

可能知乎怕自己的内容被第三方拿去训练大模型

Nanachi 发表于 2024-6-28 20:55

这是好事,自我封闭

john 发表于 2024-6-28 21:11

samfs 发表于 2024-6-28 20:41
可能知乎怕自己的内容被第三方拿去训练大模型

如果真是这样倒挺好的
不然你跟大模型一说起诸葛亮,AI就跟你说猪脚饭和大学生

百猪夜行 发表于 2024-6-28 22:43

Nanachi 发表于 2024-6-28 20:55
这是好事,自我封闭

豆瓣知乎这种约等于粪坑的地方还是让他们封着好,别出来污染数据了。

—— 来自 鹅球 v3.0.86-alpha

noarch 发表于 2024-6-29 00:03

那点数据本来就价值有限,也不知道看上哪点

回忆and无语 发表于 2024-6-29 00:23

淘宝也是,有时价格复制出来是乱码

Auhah 发表于 2024-6-29 00:37

这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数据,是真恶心

论坛助手,iPhone

JetBrains 发表于 2024-6-29 00:51

Auhah 发表于 2024-6-29 00:37
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数 ...

知乎当然知道,除了专栏全部都设不可爬了,而专栏现在弄这出,很明显,又蠢又坏这个词值得评价

—— 来自 鹅球 v3.0.0.82-alpha

Junakr 发表于 2024-6-29 01:27

自毁式反爬虫挺好的,有些网站反爬输出乱码只是简单做个凯撒密码偏移,知乎看样子是全随机,没有逆向的可能。
可是这能防到会对策的爬虫吗?就当作是中文互联网又变得逼仄的一天好了。

astkaasa 发表于 2024-6-29 04:40

Auhah 发表于 2024-6-29 00:37
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数 ...

但是ai公司不遵守啊

UCXCU 发表于 2024-6-29 06:38

但是我感觉这种干扰对于 ai 公司来说要收集数总有办法,到头来只是影响到不懂或者遵守规矩的人。网文影视网站搞了这么久防盗版最
后还不是只能拦住小白

—— 来自 S1Fun

木谷高明 发表于 2024-6-29 06:39

白日依山尽 发表于 2024-6-29 06:47

Auhah 发表于 2024-6-29 00:37
这就过分了吧,谷歌这种搜索网站都遵守爬虫规范的,你不想被爬可以声明一下别人也不爬你了,又给爬又给脏数 ...

https://www.zhihu.com/robots.txt
实际没人遵守爬虫规范的,特别是ai时代

Auhah 发表于 2024-6-29 09:14

白日依山尽 发表于 2024-6-29 06:47
https://www.zhihu.com/robots.txt
实际没人遵守爬虫规范的,特别是ai时代

那得说知乎干得漂亮。。

论坛助手,iPhone

卖哥 发表于 2024-6-29 10:27

白日依山尽 发表于 2024-6-29 06:47
https://www.zhihu.com/robots.txt
实际没人遵守爬虫规范的,特别是ai时代

诚心不遵守的话伪装Agent又有何难呢?

木谷高明 发表于 2024-6-29 10:32

Nanachi 发表于 2024-6-29 20:07

https://www.ithome.com/0/778/587.htm

知乎发布全新 AI 产品“知乎直答”,支持提问、搜索等功能
2024/6/29 19:08:07 来源:IT之家 作者:浩渺 责编:浩渺评论:30

Awanano 发表于 2024-6-29 20:28

Nanachi 发表于 2024-6-29 20:07
https://www.ithome.com/0/778/587.htm

知乎发布全新 AI 产品“知乎直答”,支持提问、搜索等功能

立足于回答,那那种广告多的回答,搜相关问题直接出广告?

论坛助手,iPhone

Awanano 发表于 2024-6-29 20:34

坚决拥护知乎圈地自己恶心自己
贴知乎链接比资源分享用百度网盘还糟,后者别人还知道在论坛上发预览大致内容。贴知乎链接分享没头没尾的,
有些专栏看起来好像关键在后半段,屈尊登陆进去后半段还是废话,司妈妈了

论坛助手,iPhone

乌啦啦乌啦啦乌 发表于 2024-6-29 20:36

知乎会自己搞ai吗?

youta 发表于 2024-6-30 23:10

木谷高明 发表于 2024-6-29 06:39
反爬和爬都是魔高一尺道高一丈

之前看有个爬虫教学,某网站展示价格的数字用的字体是随机的,返回数字映射 ...

是懂车帝那种吗?

—— 来自 鹅球 v3.0.0.82-alpha

paladin7 发表于 2024-7-1 00:11

电脑浏览器现在知乎的验证各种点不过去,不知道为什么

— from OnePlus ONEPLUS A5000, Android 9 of S1 Next Goose v2.5.4

璇瑢子R 发表于 2024-7-1 03:28

卖哥 发表于 2024-6-29 10:27
诚心不遵守的话伪装Agent又有何难呢?

伪装Agent的话访问频率一高早就封IP了

痴货 发表于 2024-7-2 01:03

Awanano 发表于 2024-6-29 20:28
立足于回答,那那种广告多的回答,搜相关问题直接出广告?

论坛助手,iPhone ...

garbage in garbage out,AI从粪坑里也只能炼出屎啊
页: [1]
查看完整版本: 知乎使用乱码干扰爬虫?