找回密码
 立即注册
搜索
查看: 2975|回复: 11

[软件] 求大佬给个python爬虫的学习路线

[复制链接]
     
发表于 2020-4-5 09:26 | 显示全部楼层 |阅读模式
最近学了初级的了,想往深里学,拜托了
回复

使用道具 举报

     
发表于 2020-4-5 10:03 | 显示全部楼层
从入门到入狱
回复

使用道具 举报

     
发表于 2020-4-5 10:04 | 显示全部楼层
是不是学习http协议什么的?外行插个眼
回复

使用道具 举报

头像被屏蔽
     
发表于 2020-4-5 10:18 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2020-4-5 13:09 | 显示全部楼层
nexus1 发表于 2020-4-5 10:04
是不是学习http协议什么的?外行插个眼

http协议是计网课里的
回复

使用道具 举报

     
发表于 2020-4-5 14:57 来自手机 | 显示全部楼层
可以先试试爬知乎,我们软件课设就是要求做这个,很简单,我们基本零基础
回复

使用道具 举报

发表于 2020-4-5 15:48 来自手机 | 显示全部楼层
先上手,什么看不懂学什么就是
回复

使用道具 举报

     
发表于 2020-4-6 10:08 来自手机 | 显示全部楼层
简单的爬虫分三个步骤:获取数据(requests, aiohttp),提取数据(re, beautifulsoup),保存数据(csv, sqlite3)。当然还有很多东西要学,例如 headless 浏览器,scrapy等等。可以找些书看看。
建议练手爬 s1,这样discussz写的论坛改下网址就能爬了。

—— 来自 Sony G8341, Android 8.0.0上的 S1Next-鹅版 v2.2.2
回复

使用道具 举报

     
发表于 2020-4-6 10:10 来自手机 | 显示全部楼层
学点HTML,ajax以后,能看懂网站结构和请求响应的内容,,用requests和正则表达式也能简单爬到一些自己想要的东西

—— 来自 samsung SM-G9600, Android 10上的 S1Next-鹅版 v2.2.2.1
回复

使用道具 举报

     
发表于 2020-4-6 14:38 | 显示全部楼层
一定要python的吗?感觉用node.js写还挺简单的

  -- 来自 能看大图的 Stage1官方 iOS客户端
回复

使用道具 举报

     
发表于 2020-4-6 16:41 来自手机 | 显示全部楼层
问题典型的话直接读scrapy文档了解工作流就行,挺简单的。当然要有一定的web基础知识

—— 来自 deltainno DT1902A, Android 9上的 S1Next-鹅版 v2.2.2.1
回复

使用道具 举报

     
发表于 2020-4-6 23:21 | 显示全部楼层
之前搞过scrapy,数学建模比赛偷鸡的时候用过,直接从目标网站上把结果数据给扒了。

爬虫和反爬虫这个是互相提高的过程,有的网站可能要借助浏览器做类似于模拟点击的东西才能爬得到。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-11-12 23:15 , Processed in 0.082251 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表