观铃の使魔 发表于 2021-6-18 11:22

要从网页上扒数据整理好格式导出到excel需要学啥?

每天发表格   格式是固定设计好的      每天要从网页上复制粘贴数据

我这需求是不是要学习下Python爬虫


不过我这数据量非常小    手动C/V10分钟内搞定   或者有没有更快捷简单的方法

rss 发表于 2021-6-18 11:30

楼主试试用excel自身直接导入网页数据,具体办法请搜素(我也不会

DapFlog 发表于 2021-6-18 11:45

chrome有个叫web scraper的爬虫插件蛮好用的。

观铃の使魔 发表于 2021-6-18 11:55

DapFlog 发表于 2021-6-18 11:45
chrome有个叫web scraper的爬虫插件蛮好用的。

我试了 普通网页可以抓但是我用的这个不行 获取不到元素

观铃の使魔 发表于 2021-6-18 11:56

rss 发表于 2021-6-18 11:30
楼主试试用excel自身直接导入网页数据,具体办法请搜素(我也不会

我用的wps表格估计不行只能抓取点简单的

我这网页还有菜单 要筛选数据

Herreimu 发表于 2021-6-18 11:59

爬不到可能是用的ajex?

沙耶的果冻 发表于 2021-6-18 12:10

非广告,之前用过个叫八爪鱼的软件,免费版也够输出到excel了只是数量有限制

aithinkso 发表于 2021-6-18 12:18

f12分析下请求找到数据源,然后方法就很多了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1

观铃の使魔 发表于 2021-6-18 12:22

aithinkso 发表于 2021-6-18 12:18
f12分析下请求找到数据源,然后方法就很多了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 ...

对 能定位数据源   然后我需要咋操作或者学啥

BTmanMk2 发表于 2021-6-18 12:31

python selenium爬内容+openpyxl写excel?

—— 来自 OnePlus 7 Pro, Android 11上的 S1Next-鹅版 v2.4.4.1

aithinkso 发表于 2021-6-18 12:50

观铃の使魔 发表于 2021-6-18 12:22
对 能定位数据源   然后我需要咋操作或者学啥

然后随便找个能发http请求还有表格操作库的语言,必如我手头nodejs就能干得了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1

精钢魔像 发表于 2021-6-18 12:56

js 就行,读节点取数据保持成csv

seducer0719 发表于 2021-6-18 13:13

感觉油猴脚本可以干这个

Nanachi 发表于 2021-6-18 13:48

后羿采集器之类的网页采集器挺多的

—— 来自 OnePlus KB2000, Android 11上的 S1Next-鹅版 v2.4.4.1

zhenniuren 发表于 2021-6-18 13:51

Aeroblast 发表于 2021-6-18 13:56

小需求直接油猴脚本就不用管登录什么的了,输出csv纯文本 。excel可以直接读csv另存为xlsx之类的

月千一夜 发表于 2021-6-18 14:20

Aeroblast 发表于 2021-6-18 13:56
小需求直接油猴脚本就不用管登录什么的了,输出csv纯文本 。excel可以直接读csv另存为xlsx之类的 ...

有没有相关的油猴脚本,我去学习一波

— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1

dogfight 发表于 2021-6-18 14:20

python抓网页源码,JS调取DOM,文本处理一下csv。。

晨曦之下 发表于 2021-6-18 14:22

能开浏览器那js就行
保存成csv或者用分隔符加文本倒入助手


兰开夏 发表于 2021-6-18 14:33

问题是想了解js该怎么用....

尤其是那种echart和hchart,互动图标里面的数据感觉很难,只能从github上直接找别人已经有的脚本

Aeroblast 发表于 2021-6-18 16:32

月千一夜 发表于 2021-6-18 14:20
有没有相关的油猴脚本,我去学习一波

— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 ...

一下子还想不出来,不过可以具体列一下需要的东西,都比较基础。你要是会就当我多嘴了……

抓数据:基础的HTML、JS,如何获取到元素、如何遍历某个节点下子元素这种,善用浏览器inspector提供的 copy JS Path这种功能。搜innerText innerHTML用法。
拼CSV:就拼接字符串
保存:要真不多甚至可以直接console.log输出,自己复制一下开个记事本存成csv。从网页生成个文件下载会复杂一点,但是搜一下都能找到现成的例子 比如谷歌“JavaScript Create and save file”就有。还有直接往剪贴板写的,搜clipboard。
百度搜出来的做法可能比较老旧,也不是不能用。

然后油猴脚本你可能不希望一开始就执行,要等页面加载,那么用setTimeout或者加个按钮触发

小野賢章 发表于 2021-6-18 17:25

这种我一般是用 js 在浏览器里写一个简单的小爬虫,还能免去鉴权相关的处理,爬完初步处理好之后生成一个 txt 下载下来。

晨曦之下 发表于 2021-6-18 18:39

月千一夜 发表于 2021-6-18 14:20
有没有相关的油猴脚本,我去学习一波

— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 ...
给你两段代码节约点时间吧
搞定解析内容的部分就行啦

参考的话可以去greasyfork上面找下载器 找点代码简单的参考下吧
函数不清楚的全部在mdn找就行 还有简单的参考
https://developer.mozilla.org/zh ... _API/Basic_concepts

#1 创建按钮

function createButton (){
let btn_download = document.createElement('span')
btn_download.innerText = '下载文章'
Object.assign(btn_download.style,
    {
      background:'brown',
      padding:'6px 10px',
      fontWeight:600,
      color:'white',
      position:'fixed',
      bottom:'20px',
      right:'60px'
      }
    )
btn_download.addEventListener('click',()=>{
    init({})} // init 抓取内容的函数
)
document.body.appendChild(btn_download)
}
}


#2 下载保存成文件 content就是拼接好的字符串 filename文件名 ext扩展名


function dlOnce(content, filename = 'download', ext = 'txt'){
if (typeof content === "object") content = JSON.stringify(content);

let a = document.createElement("a");
a.download =`${filename}.${ext}`

let blob = content.constructor.name === 'ReadableStream' ? content : new Blob()
a.href = URL.createObjectURL(blob);

document.body.appendChild(a);
a.click();
document.body.removeChild(a);
};

粉刷月季 发表于 2021-6-18 20:38

试试rpa
自写爬虫的话主要部分不太难,但会遇到很多细节问题处理麻烦

观铃の使魔 发表于 2021-6-18 20:41

粉刷月季 发表于 2021-6-18 20:38
试试rpa
自写爬虫的话主要部分不太难,但会遇到很多细节问题处理麻烦

搞了个采集器楼上推荐的后羿采集器

研究了一下午 可用能达到我80%的要求

布蕾O伽茜婭 发表于 2021-6-18 21:00

考虑一下uibot 相当于强化版按键精灵,0学习成本

—— 来自 S1Fun

拉屎 发表于 2021-6-19 00:02

python requests库+openpyxl

—— 来自 HUAWEI EVR-AL00, Android 10上的 S1Next-鹅版 v2.4.4.1

观铃の使魔 发表于 2021-6-19 07:52

请教下如果学习python   主要想学爬虫这块 买哪些书比较好   

算是python 0基础吧 不过有其它计算机基础

perfaceNext 发表于 2021-6-19 08:38

uibot,uipath,power automate desktop,rpa软件吧,功能要求低,免费的功能足够了
页: [1]
查看完整版本: 要从网页上扒数据整理好格式导出到excel需要学啥?