找回密码
 立即注册
搜索
查看: 2551|回复: 28

[软件] 要从网页上扒数据整理好格式导出到excel需要学啥?

[复制链接]
     
发表于 2021-6-18 11:22 | 显示全部楼层 |阅读模式
每天发表格   格式是固定设计好的      每天要从网页上复制粘贴数据

我这需求是不是要学习下Python爬虫


不过我这数据量非常小    手动C/V  10分钟内搞定     或者有没有更快捷简单的方法
回复

使用道具 举报

发表于 2021-6-18 11:30 来自手机 | 显示全部楼层
楼主试试用excel自身直接导入网页数据,具体办法请搜素(我也不会
回复

使用道具 举报

发表于 2021-6-18 11:45 来自手机 | 显示全部楼层
chrome有个叫web scraper的爬虫插件蛮好用的。
回复

使用道具 举报

     
 楼主| 发表于 2021-6-18 11:55 | 显示全部楼层
DapFlog 发表于 2021-6-18 11:45
chrome有个叫web scraper的爬虫插件蛮好用的。

我试了 普通网页可以抓  但是我用的这个不行 获取不到元素
回复

使用道具 举报

     
 楼主| 发表于 2021-6-18 11:56 | 显示全部楼层
rss 发表于 2021-6-18 11:30
楼主试试用excel自身直接导入网页数据,具体办法请搜素(我也不会

我用的wps表格  估计不行  只能抓取点简单的

我这网页还有菜单 要筛选数据  
回复

使用道具 举报

     
发表于 2021-6-18 11:59 来自手机 | 显示全部楼层
爬不到可能是用的ajex?
回复

使用道具 举报

     
发表于 2021-6-18 12:10 来自手机 | 显示全部楼层
非广告,之前用过个叫八爪鱼的软件,免费版也够输出到excel了只是数量有限制
回复

使用道具 举报

     
发表于 2021-6-18 12:18 来自手机 | 显示全部楼层
f12分析下请求找到数据源,然后方法就很多了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1
回复

使用道具 举报

     
 楼主| 发表于 2021-6-18 12:22 | 显示全部楼层
aithinkso 发表于 2021-6-18 12:18
f12分析下请求找到数据源,然后方法就很多了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 ...

对 能定位数据源   然后我需要咋操作或者学啥
回复

使用道具 举报

     
发表于 2021-6-18 12:31 来自手机 | 显示全部楼层
python selenium爬内容+openpyxl写excel?

—— 来自 OnePlus 7 Pro, Android 11上的 S1Next-鹅版 v2.4.4.1
回复

使用道具 举报

     
发表于 2021-6-18 12:50 来自手机 | 显示全部楼层
观铃の使魔 发表于 2021-6-18 12:22
对 能定位数据源   然后我需要咋操作或者学啥

然后随便找个能发http请求还有表格操作库的语言,必如我手头nodejs就能干得了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1
回复

使用道具 举报

     
发表于 2021-6-18 12:56 | 显示全部楼层
js 就行,读节点取数据保持成csv
回复

使用道具 举报

发表于 2021-6-18 13:13 | 显示全部楼层
感觉油猴脚本可以干这个
回复

使用道具 举报

     
发表于 2021-6-18 13:48 来自手机 | 显示全部楼层
后羿采集器之类的网页采集器挺多的

—— 来自 OnePlus KB2000, Android 11上的 S1Next-鹅版 v2.4.4.1
回复

使用道具 举报

头像被屏蔽
     
发表于 2021-6-18 13:51 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2021-6-18 13:56 来自手机 | 显示全部楼层
小需求直接油猴脚本就不用管登录什么的了,输出csv纯文本 。excel可以直接读csv另存为xlsx之类的
回复

使用道具 举报

     
发表于 2021-6-18 14:20 来自手机 | 显示全部楼层
Aeroblast 发表于 2021-6-18 13:56
小需求直接油猴脚本就不用管登录什么的了,输出csv纯文本 。excel可以直接读csv另存为xlsx之类的 ...

有没有相关的油猴脚本,我去学习一波

— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1
回复

使用道具 举报

     
发表于 2021-6-18 14:20 | 显示全部楼层
python抓网页源码,JS调取DOM,文本处理一下csv。。
回复

使用道具 举报

     
发表于 2021-6-18 14:22 | 显示全部楼层
能开浏览器那js就行
保存成csv或者用分隔符加文本倒入助手


回复

使用道具 举报

     
发表于 2021-6-18 14:33 | 显示全部楼层
问题是想了解js该怎么用....

尤其是那种echart和hchart,互动图标里面的数据感觉很难,只能从github上直接找别人已经有的脚本
回复

使用道具 举报

     
发表于 2021-6-18 16:32 | 显示全部楼层
月千一夜 发表于 2021-6-18 14:20
有没有相关的油猴脚本,我去学习一波

— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 ...

一下子还想不出来,不过可以具体列一下需要的东西,都比较基础。你要是会就当我多嘴了……

抓数据:基础的HTML、JS,如何获取到元素、如何遍历某个节点下子元素这种,善用浏览器inspector提供的 copy JS Path这种功能。搜innerText innerHTML用法。
拼CSV:就拼接字符串
保存:要真不多甚至可以直接console.log输出,自己复制一下开个记事本存成csv。从网页生成个文件下载会复杂一点,但是搜一下都能找到现成的例子 比如谷歌“JavaScript Create and save file”就有。还有直接往剪贴板写的,搜clipboard。
百度搜出来的做法可能比较老旧,也不是不能用。

然后油猴脚本你可能不希望一开始就执行,要等页面加载,那么用setTimeout或者加个按钮触发

评分

参与人数 1战斗力 +1 收起 理由
月千一夜 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2021-6-18 17:25 | 显示全部楼层
这种我一般是用 js 在浏览器里写一个简单的小爬虫,还能免去鉴权相关的处理,爬完初步处理好之后生成一个 txt 下载下来。
回复

使用道具 举报

     
发表于 2021-6-18 18:39 | 显示全部楼层
月千一夜 发表于 2021-6-18 14:20
有没有相关的油猴脚本,我去学习一波

— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 ...

给你两段代码节约点时间吧
搞定解析内容的部分就行啦

参考的话可以去greasyfork上面找下载器 找点代码简单的参考下吧
函数不清楚的全部在mdn找就行 还有简单的参考
https://developer.mozilla.org/zh ... _API/Basic_concepts

#1 创建按钮

  1. function createButton (){
  2.   let btn_download = document.createElement('span')
  3.   btn_download.innerText = '下载文章'
  4.   Object.assign(btn_download.style,
  5.     {
  6.       background:'brown',
  7.       padding:'6px 10px',
  8.       fontWeight:600,
  9.       color:'white',
  10.       position:'fixed',
  11.       bottom:'20px',
  12.       right:'60px'
  13.       }
  14.     )
  15.   btn_download.addEventListener('click',()=>{
  16.     init({})} // init 抓取内容的函数
  17.   )
  18.   document.body.appendChild(btn_download)
  19. }
  20. }
复制代码


#2 下载保存成文件 content就是拼接好的字符串 filename文件名 ext扩展名


  1. function dlOnce(content, filename = 'download', ext = 'txt'){
  2.   if (typeof content === "object") content = JSON.stringify(content);
  3.   
  4.   let a = document.createElement("a");
  5.   a.download =`${filename}.${ext}`

  6.   let blob = content.constructor.name === 'ReadableStream' ? content : new Blob([content])
  7.   a.href = URL.createObjectURL(blob);

  8.   document.body.appendChild(a);
  9.   a.click();
  10.   document.body.removeChild(a);
  11. };
复制代码

评分

参与人数 1战斗力 +1 收起 理由
月千一夜 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2021-6-18 20:38 来自手机 | 显示全部楼层
试试rpa
自写爬虫的话主要部分不太难,但会遇到很多细节问题处理麻烦
回复

使用道具 举报

     
 楼主| 发表于 2021-6-18 20:41 | 显示全部楼层
粉刷月季 发表于 2021-6-18 20:38
试试rpa
自写爬虫的话主要部分不太难,但会遇到很多细节问题处理麻烦

搞了个采集器  楼上推荐的后羿采集器

研究了一下午 可用  能达到我80%的要求
回复

使用道具 举报

     
发表于 2021-6-18 21:00 | 显示全部楼层
考虑一下uibot 相当于强化版按键精灵,0学习成本

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2021-6-19 00:02 来自手机 | 显示全部楼层
python requests库+openpyxl

—— 来自 HUAWEI EVR-AL00, Android 10上的 S1Next-鹅版 v2.4.4.1
回复

使用道具 举报

     
 楼主| 发表于 2021-6-19 07:52 | 显示全部楼层
请教下如果学习python   主要想学爬虫这块 买哪些书比较好   

算是python 0基础吧 不过有其它计算机基础
回复

使用道具 举报

发表于 2021-6-19 08:38 | 显示全部楼层
uibot,uipath,power automate desktop,rpa软件吧,功能要求低,免费的功能足够了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-24 03:19 , Processed in 0.095269 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表