Ogus 发表于 2024-3-2 16:32

求用python爬取网页字段进excel的教程

接近0基础,代码只会用用vba,最好是那种从零开始的系统性的视频教学中的某一章讲了这个这种,接受那种网课付费培训的教学,需自救,求推荐,谢谢

noahhhh 发表于 2024-3-2 16:40

试试八爪鱼?从零开始自学感觉起码一个月

—— 来自 S1Fun

Ogus 发表于 2024-3-2 16:44

noahhhh 发表于 2024-3-2 16:40
试试八爪鱼?从零开始自学感觉起码一个月

—— 来自 S1Fun

因为刚好有需求了所以学习动力强一点,满足这个需求和学这个语言同样都是目的,慢一点也没事的

—— 来自 HUAWEI NOH-AN00, Android 12上的 S1Next-鹅版 v2.5.4

noahhhh 发表于 2024-3-2 16:49

Ogus 发表于 2024-3-2 16:44
因为刚好有需求了所以学习动力强一点,满足这个需求和学这个语言同样都是目的,慢一点也没事的

—— 来 ...

https://sspai.com/series/271
少数派会员送过这教程,应该可以满足你需求,我看过下就是对纯新手还是有点难度的

—— 来自 S1Fun

泰坦失足 发表于 2024-3-2 17:13

python 下用headless browser?

Saikou 发表于 2024-3-2 17:19

这东西学得快忘得也快,大致了解一下其他的做的再查就好了

庄子门生 发表于 2024-3-2 17:21

具体需求说一下,说不定有大佬几行代码帮你搞定了

whzfjd 发表于 2024-3-2 17:24

mustforver 发表于 2024-3-2 17:34

不求甚解的话很快就能搞定
1.环境用vscode,b站搜搭建教程(几个小时)
2.需要懂点html这样你才知道要爬的东西有什么特征,只需要了解div、class、id、h1、h2、span这些常见的都是什么东西(一到两天)
3.对于楼主说的保存到表格,可以把爬下来的数据放到csv文件里,大概需要爬完之后手动改下编码为带bom的utf8(记事本打开另存为)不然excel打开会乱码
4.分析下要爬的网址有什么特征,比如连续变化的数字或者有意义的字母
明确需求以后直接问gpt,代码运行有什么问题都可以问它,不出意外的话花个几天时间等到代码能跑起来你就可以面向gpt编程了

hein 发表于 2024-3-2 17:42

本帖最后由 hein 于 2024-3-2 17:46 编辑

Excel的vba不是可以直接扒网站吗?
一个是数据->自网站 这个功能
还有一个使用vba代码扒好,然后用正则处理数据,写入单元格。

hein 发表于 2024-3-2 17:54

另外就是扒网站其实是很复杂的事,很多网站都是通过各种js实时加载内容,有些还涉及token、http get、post等
每个网站都要单独分析代码应对。

糊状物 发表于 2024-3-2 18:06

上面说的对,爬网站要看对方的反爬力度如何,另外新手ide个人建议用pycharm

—— 来自 Xiaomi MI 8, Android 10上的 S1Next-鹅版 v2.5.4

Nanachi 发表于 2024-3-2 18:07

whzfjd 发表于 2024-3-2 17:24
转 excel 那步你们是手操 openpyxl 还是调 pandas

保存csv with utf-8-sig

论坛助手,iPhone

vdo 发表于 2024-3-2 19:04

我8gen2起码能苟到8gen6

没错。爬虫框架,反爬虫,网页解析,存文件,这里头爬虫框架和存文件是最简单的两步。

vdo 发表于 2024-3-2 19:06

草。怎么s1会缓存我历史回复。。

perfaceNext 发表于 2024-3-2 22:22

数据量不是很大的话,新手用seleium吧,比较直观,缺点是速度慢了点,但是适应性广。爬虫速度快,准确率高,除了需要网站配合,其他没啥缺点了,碰到网站难搞的就真的难搞了

wewai 发表于 2024-3-3 00:27

最好透露下是什么网站,不同网站难度不一样。
别最后学了半天搞不定就好玩了。

win8 发表于 2024-3-3 01:11

当然是用2023年最新最in的图形化爬虫保存内容为csvhttps://github.com/NaiboWang/EasySpider

系统杀手 发表于 2024-3-3 10:22

建议先selenium写csv搞定吧。

—— 来自 S1Fun
页: [1]
查看完整版本: 求用python爬取网页字段进excel的教程