求用python爬取网页字段进excel的教程

Ogus · 发表于 2024-3-2 16:32

接近0基础，代码只会用用vba，最好是那种从零开始的系统性的视频教学中的某一章讲了这个这种，接受那种网课付费培训的教学，需自救，求推荐，谢谢

noahhhh · 发表于 2024-3-2 16:40

试试八爪鱼？从零开始自学感觉起码一个月

—— 来自 S1Fun

Ogus · 发表于 2024-3-2 16:44

noahhhh 发表于 2024-3-2 16:40
试试八爪鱼？从零开始自学感觉起码一个月

—— 来自 S1Fun

因为刚好有需求了所以学习动力强一点，满足这个需求和学这个语言同样都是目的，慢一点也没事的

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v2.5.4

noahhhh · 发表于 2024-3-2 16:49

Ogus 发表于 2024-3-2 16:44
因为刚好有需求了所以学习动力强一点，满足这个需求和学这个语言同样都是目的，慢一点也没事的

—— 来 ...

https://sspai.com/series/271
少数派会员送过这教程，应该可以满足你需求，我看过下就是对纯新手还是有点难度的

—— 来自 S1Fun

泰坦失足 · 发表于 2024-3-2 17:13

python 下用headless browser？

Saikou · 发表于 2024-3-2 17:19

这东西学得快忘得也快，大致了解一下其他的做的再查就好了

庄子门生 · 发表于 2024-3-2 17:21

具体需求说一下，说不定有大佬几行代码帮你搞定了

whzfjd · 发表于 2024-3-2 17:24

提示: 作者被禁止或删除内容自动屏蔽

mustforver · 发表于 2024-3-2 17:34

不求甚解的话很快就能搞定
1.环境用vscode，b站搜搭建教程（几个小时）
2.需要懂点html这样你才知道要爬的东西有什么特征，只需要了解div、class、id、h1、h2、span这些常见的都是什么东西（一到两天）
3.对于楼主说的保存到表格，可以把爬下来的数据放到csv文件里，大概需要爬完之后手动改下编码为带bom的utf8（记事本打开另存为）不然excel打开会乱码
4.分析下要爬的网址有什么特征，比如连续变化的数字或者有意义的字母
明确需求以后直接问gpt，代码运行有什么问题都可以问它，不出意外的话花个几天时间等到代码能跑起来你就可以面向gpt编程了

hein · 发表于 2024-3-2 17:42

本帖最后由 hein 于 2024-3-2 17:46 编辑

Excel的vba不是可以直接扒网站吗？
一个是数据->自网站这个功能
还有一个使用vba代码扒好，然后用正则处理数据，写入单元格。

hein · 发表于 2024-3-2 17:54

另外就是扒网站其实是很复杂的事，很多网站都是通过各种js实时加载内容，有些还涉及token、http get、post等
每个网站都要单独分析代码应对。

糊状物 · 发表于 2024-3-2 18:06

上面说的对，爬网站要看对方的反爬力度如何，另外新手ide个人建议用pycharm

—— 来自 Xiaomi MI 8, Android 10上的 S1Next-鹅版 v2.5.4

Nanachi · 发表于 2024-3-2 18:07

whzfjd 发表于 2024-3-2 17:24
转 excel 那步你们是手操 openpyxl 还是调 pandas

保存csv with utf-8-sig

论坛助手,iPhone

vdo · 发表于 2024-3-2 19:04

我8gen2起码能苟到8gen6

没错。爬虫框架，反爬虫，网页解析，存文件，这里头爬虫框架和存文件是最简单的两步。

vdo · 发表于 2024-3-2 19:06

草。怎么s1会缓存我历史回复。。

perfaceNext · 发表于 2024-3-2 22:22

数据量不是很大的话，新手用seleium吧，比较直观，缺点是速度慢了点，但是适应性广。爬虫速度快，准确率高，除了需要网站配合，其他没啥缺点了，碰到网站难搞的就真的难搞了

wewai · 发表于 2024-3-3 00:27

最好透露下是什么网站，不同网站难度不一样。
别最后学了半天搞不定就好玩了。

win8 · 发表于 2024-3-3 01:11

当然是用2023年最新最in的图形化爬虫保存内容为csv https://github.com/NaiboWang/EasySpider

系统杀手 · 发表于 2024-3-3 10:22

建议先selenium写csv搞定吧。

—— 来自 S1Fun

		自动登录	找回密码
密码			立即注册

whzfjd whzfjd 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2021-1-7 头像被屏蔽	发表于 2024-3-2 17:24 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

[软件] 求用python爬取网页字段进excel的教程