求大佬给个python爬虫的学习路线
最近学了初级的了,想往深里学,拜托了 从入门到入狱 是不是学习http协议什么的?外行插个眼 nexus1 发表于 2020-4-5 10:04是不是学习http协议什么的?外行插个眼
http协议是计网课里的 可以先试试爬知乎,我们软件课设就是要求做这个,很简单,我们基本零基础 先上手,什么看不懂学什么就是 简单的爬虫分三个步骤:获取数据(requests, aiohttp),提取数据(re, beautifulsoup),保存数据(csv, sqlite3)。当然还有很多东西要学,例如 headless 浏览器,scrapy等等。可以找些书看看。
建议练手爬 s1,这样discussz写的论坛改下网址就能爬了。
—— 来自 Sony G8341, Android 8.0.0上的 S1Next-鹅版 v2.2.2 学点HTML,ajax以后,能看懂网站结构和请求响应的内容,,用requests和正则表达式也能简单爬到一些自己想要的东西
—— 来自 samsung SM-G9600, Android 10上的 S1Next-鹅版 v2.2.2.1 一定要python的吗?感觉用node.js写还挺简单的
-- 来自 能看大图的 Stage1官方 iOS客户端 问题典型的话直接读scrapy文档了解工作流就行,挺简单的。当然要有一定的web基础知识
—— 来自 deltainno DT1902A, Android 9上的 S1Next-鹅版 v2.2.2.1 之前搞过scrapy,数学建模比赛偷鸡的时候用过,直接从目标网站上把结果数据给扒了。
爬虫和反爬虫这个是互相提高的过程,有的网站可能要借助浏览器做类似于模拟点击的东西才能爬得到。
页:
[1]