要从网页上扒数据整理好格式导出到excel需要学啥?
每天发表格 格式是固定设计好的 每天要从网页上复制粘贴数据我这需求是不是要学习下Python爬虫
不过我这数据量非常小 手动C/V10分钟内搞定 或者有没有更快捷简单的方法
楼主试试用excel自身直接导入网页数据,具体办法请搜素(我也不会 chrome有个叫web scraper的爬虫插件蛮好用的。 DapFlog 发表于 2021-6-18 11:45
chrome有个叫web scraper的爬虫插件蛮好用的。
我试了 普通网页可以抓但是我用的这个不行 获取不到元素 rss 发表于 2021-6-18 11:30
楼主试试用excel自身直接导入网页数据,具体办法请搜素(我也不会
我用的wps表格估计不行只能抓取点简单的
我这网页还有菜单 要筛选数据 爬不到可能是用的ajex? 非广告,之前用过个叫八爪鱼的软件,免费版也够输出到excel了只是数量有限制 f12分析下请求找到数据源,然后方法就很多了
—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1 aithinkso 发表于 2021-6-18 12:18
f12分析下请求找到数据源,然后方法就很多了
—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 ...
对 能定位数据源 然后我需要咋操作或者学啥 python selenium爬内容+openpyxl写excel?
—— 来自 OnePlus 7 Pro, Android 11上的 S1Next-鹅版 v2.4.4.1 观铃の使魔 发表于 2021-6-18 12:22
对 能定位数据源 然后我需要咋操作或者学啥
然后随便找个能发http请求还有表格操作库的语言,必如我手头nodejs就能干得了
—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1 js 就行,读节点取数据保持成csv 感觉油猴脚本可以干这个 后羿采集器之类的网页采集器挺多的
—— 来自 OnePlus KB2000, Android 11上的 S1Next-鹅版 v2.4.4.1 小需求直接油猴脚本就不用管登录什么的了,输出csv纯文本 。excel可以直接读csv另存为xlsx之类的 Aeroblast 发表于 2021-6-18 13:56
小需求直接油猴脚本就不用管登录什么的了,输出csv纯文本 。excel可以直接读csv另存为xlsx之类的 ...
有没有相关的油猴脚本,我去学习一波
— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 python抓网页源码,JS调取DOM,文本处理一下csv。。 能开浏览器那js就行
保存成csv或者用分隔符加文本倒入助手
问题是想了解js该怎么用....
尤其是那种echart和hchart,互动图标里面的数据感觉很难,只能从github上直接找别人已经有的脚本 月千一夜 发表于 2021-6-18 14:20
有没有相关的油猴脚本,我去学习一波
— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 ...
一下子还想不出来,不过可以具体列一下需要的东西,都比较基础。你要是会就当我多嘴了……
抓数据:基础的HTML、JS,如何获取到元素、如何遍历某个节点下子元素这种,善用浏览器inspector提供的 copy JS Path这种功能。搜innerText innerHTML用法。
拼CSV:就拼接字符串
保存:要真不多甚至可以直接console.log输出,自己复制一下开个记事本存成csv。从网页生成个文件下载会复杂一点,但是搜一下都能找到现成的例子 比如谷歌“JavaScript Create and save file”就有。还有直接往剪贴板写的,搜clipboard。
百度搜出来的做法可能比较老旧,也不是不能用。
然后油猴脚本你可能不希望一开始就执行,要等页面加载,那么用setTimeout或者加个按钮触发 这种我一般是用 js 在浏览器里写一个简单的小爬虫,还能免去鉴权相关的处理,爬完初步处理好之后生成一个 txt 下载下来。 月千一夜 发表于 2021-6-18 14:20
有没有相关的油猴脚本,我去学习一波
— from Sony G8441, Android 9 of S1 Next Goose v2.4.4.1 ...
给你两段代码节约点时间吧
搞定解析内容的部分就行啦
参考的话可以去greasyfork上面找下载器 找点代码简单的参考下吧
函数不清楚的全部在mdn找就行 还有简单的参考
https://developer.mozilla.org/zh ... _API/Basic_concepts
#1 创建按钮
function createButton (){
let btn_download = document.createElement('span')
btn_download.innerText = '下载文章'
Object.assign(btn_download.style,
{
background:'brown',
padding:'6px 10px',
fontWeight:600,
color:'white',
position:'fixed',
bottom:'20px',
right:'60px'
}
)
btn_download.addEventListener('click',()=>{
init({})} // init 抓取内容的函数
)
document.body.appendChild(btn_download)
}
}
#2 下载保存成文件 content就是拼接好的字符串 filename文件名 ext扩展名
function dlOnce(content, filename = 'download', ext = 'txt'){
if (typeof content === "object") content = JSON.stringify(content);
let a = document.createElement("a");
a.download =`${filename}.${ext}`
let blob = content.constructor.name === 'ReadableStream' ? content : new Blob()
a.href = URL.createObjectURL(blob);
document.body.appendChild(a);
a.click();
document.body.removeChild(a);
}; 试试rpa
自写爬虫的话主要部分不太难,但会遇到很多细节问题处理麻烦 粉刷月季 发表于 2021-6-18 20:38
试试rpa
自写爬虫的话主要部分不太难,但会遇到很多细节问题处理麻烦
搞了个采集器楼上推荐的后羿采集器
研究了一下午 可用能达到我80%的要求 考虑一下uibot 相当于强化版按键精灵,0学习成本
—— 来自 S1Fun python requests库+openpyxl
—— 来自 HUAWEI EVR-AL00, Android 10上的 S1Next-鹅版 v2.4.4.1 请教下如果学习python 主要想学爬虫这块 买哪些书比较好
算是python 0基础吧 不过有其它计算机基础 uibot,uipath,power automate desktop,rpa软件吧,功能要求低,免费的功能足够了
页:
[1]