求大佬给个python爬虫的学习路线

蓝极北 发表于 2020-4-5 09:26

最近学了初级的了，想往深里学，拜托了

Litccc 发表于 2020-4-5 10:03

从入门到入狱

nexus1 发表于 2020-4-5 10:04

是不是学习http协议什么的？外行插个眼

catazshadow 发表于 2020-4-5 10:18

蓝极北 发表于 2020-4-5 13:09

nexus1 发表于 2020-4-5 10:04
是不是学习http协议什么的？外行插个眼

http协议是计网课里的

LennyWallUp 发表于 2020-4-5 14:57

可以先试试爬知乎，我们软件课设就是要求做这个，很简单，我们基本零基础

嘲哳的声音 发表于 2020-4-5 15:48

先上手，什么看不懂学什么就是

chen_null 发表于 2020-4-6 10:08

简单的爬虫分三个步骤：获取数据(requests, aiohttp)，提取数据(re, beautifulsoup)，保存数据(csv, sqlite3)。当然还有很多东西要学，例如 headless 浏览器，scrapy等等。可以找些书看看。
建议练手爬 s1，这样discussz写的论坛改下网址就能爬了。

—— 来自 Sony G8341, Android 8.0.0上的 S1Next-鹅版 v2.2.2

kinta 发表于 2020-4-6 10:10

学点HTML，ajax以后，能看懂网站结构和请求响应的内容，，用requests和正则表达式也能简单爬到一些自己想要的东西

—— 来自 samsung SM-G9600, Android 10上的 S1Next-鹅版 v2.2.2.1

秘封赛高！ 发表于 2020-4-6 14:38

一定要python的吗？感觉用node.js写还挺简单的

-- 来自能看大图的 Stage1官方 iOS客户端

绕指流光 发表于 2020-4-6 16:41

问题典型的话直接读scrapy文档了解工作流就行，挺简单的。当然要有一定的web基础知识

—— 来自 deltainno DT1902A, Android 9上的 S1Next-鹅版 v2.2.2.1

Van夫膜开 发表于 2020-4-6 23:21

之前搞过scrapy，数学建模比赛偷鸡的时候用过，直接从目标网站上把结果数据给扒了。

爬虫和反爬虫这个是互相提高的过程，有的网站可能要借助浏览器做类似于模拟点击的东西才能爬得到。

页: [1]

Stage1st's Archiver

求大佬给个python爬虫的学习路线