怎么用JS脚本获取链接内的元素?

冰箱研会长e-3M · 发表于 2021-8-30 16:14

如图, 这是一张qq相册网页的截图

我想统计所有上传者, 但这个页面上没有相关信息
但是点进去之后可以看到上传者的qq名

我想问下有没有什么手段可以用JS脚本直接获取到这个名字...
我JS太菜了一时想不出来方法

还是说我应该用python爬虫?
我虽然没用过python爬虫但是好像很强大?

5long · 发表于 2021-8-30 16:43

用什么编程语言都行
如果是在浏览器里跑 JS, 那么肯定得学习浏览器的 DOM API
在页面上选择元素用 querySelectorAll
取元素的文本内容用 innerText
具体的 API 文档推荐 MDN https://developer.mozilla.org/en ... nt/querySelectorAll

不知道现在有推荐什么 JS 教材
早年自己读过的书是这个 https://book.douban.com/subject/3007076/

aithinkso · 发表于 2021-8-30 16:51

这个得从http协议学起了

—— 来自 Xiaomi Redmi K30 5G, Android 11上的 S1Next-鹅版 v2.4.4.1

冰箱研会长e-3M · 发表于 2021-8-30 16:53

5long 发表于 2021-8-30 16:43
用什么编程语言都行
如果是在浏览器里跑 JS, 那么肯定得学习浏览器的 DOM API
在页面上选择元素用 querySel ...

基础的DOM我会(吗)
但不是很会

他上一级的页面有相关的信息我用遍历xpath储存下来了
但到了这一级就没有可以直接获取的信息了
需要点个链接进入下一个frame(是这么说的吗? 这个概念我用的对吗?)
才有信息

就是这个怎么处理我没太懂

凶手 · 发表于 2021-8-30 16:54

点了之后是重新请求了新页面还是在原页面里面？
还在原页面的话先模拟点击：https://stackoverflow.com/questi ... ick-with-javascript

冰箱研会长e-3M · 发表于 2021-8-30 16:54

凶手发表于 2021-8-30 16:54
点了之后是重新请求了新页面还是在原页面里面？
还在原页面的话先模拟点击：https://stackoverflow.com/que ...

原页面我看看这个

凶手 · 发表于 2021-8-30 16:55

冰箱研会长e-3M 发表于 2021-8-30 16:54
原页面我看看这个

先模拟点击然后lz你需要的内容就可以用dom api弄出来了吧

5long · 发表于 2021-8-30 16:59

冰箱研会长e-3M 发表于 2021-8-30 16:53
基础的DOM我会(吗)
但不是很会

my bad, 没看清主楼是要点击链接, 然后去拿新页面的数据
如果能拿到链接的 href 的话应该可以用 `window.open()`
用新开 window 的 .document 去访问新窗口里的 DOM
再就是可以考虑用 https://github.com/puppeteer/puppeteer 这种真-浏览器爬虫

冰箱研会长e-3M · 发表于 2021-8-30 17:00

凶手发表于 2021-8-30 16:55
先模拟点击然后lz你需要的内容就可以用dom api弄出来了吧

试了一下基本差不多了这个思路可以
稍微加几个sleep等待自动运行就行了

冰箱研会长e-3M · 发表于 2021-8-30 17:46

凶手发表于 2021-8-30 16:55
先模拟点击然后lz你需要的内容就可以用dom api弄出来了吧

打开新页面之后没法用xpath定位到元素返回为null
但在js console直接获取就可以...
试着sleep了一下也获取不到... 感觉是我哪里搞错了? Xpath没更新?
但我用document.querySelector(".js-report-click[data-tag='nickname']").innerText试了一下也是如此...
我是不是缺少了什么常识性的东西...

function getElementByXpath(path) {
return document.evaluate(path, document, null,
XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue;
}
//Function to get XPath
function sleep(milliseconds) {
var start = new Date().getTime();
for (var i = 0; i < 1e7; i++) {
if ((new Date().getTime() - start) > milliseconds){
break;
}
}
}
function Reture2TopPage(){
getElementByXpath("/html[1]/body[1]/div[3]/div[3]/div[1]/div[1]/a[1]").click();
}
function OpenImagePage(NameCounter){
getElementByXpath(`//li[${NameCounter}]//div[1]//div[2]//div[1]//a[1]//img[1]`).click();
}
var PicCounter = 1;
var NameList = new Array();
while (getElementByXpath(`//li[${PicCounter}]//div[1]//div[2]//div[1]//a[1]//img[1]`)) {
OpenImagePage(PicCounter);
var UploaderName = getElementByXpath("/html[1]/body[1]/div[3]/div[3]/div[1]/div[4]/div[1]/div[1]/div[1]/div[1]/div[1]/div[1]/div[1]/p[1]/a[1]").innerText;
NameList.push(UploaderName);
console.log(`Current Title is : `,UploaderName);
PicCounter=PicCounter+1;
Reture2TopPage();
sleep(1200);
}
console.log(NameList.join("\n"))

复制代码

凶手 · 发表于 2021-8-30 17:50

冰箱研会长e-3M 发表于 2021-8-30 17:46
打开新页面之后没法用xpath定位到元素返回为null
但在js console直接获取就可以...
试着sleep了 ...

为嘛非要用xpath
用的话先试一试 http://xpather.com/

冰箱研会长e-3M · 发表于 2021-8-30 17:57

凶手发表于 2021-8-30 17:50
为嘛非要用xpath
用的话先试一试 http://xpather.com/

document.getElementsByClassName也不成
是不是脚本没应用上页面的变化呢..

5long · 发表于 2021-8-30 18:02

JS 是个单线程运行环境, JS 在执行中的时候浏览器是不会渲染页面的(至少早年我学到的是这样, 我已经不写前端很久了)
OpenImagePage() 调用之后会立即返回, 此时页面的内容根本没变. 所以怎么都取不到
所以要把 sleep 加在 OpenImagePage() 的调用之后, 取文本内容之前.

不过话说回来, 同样因为 "JS 是个单线程运行环境", 你这个 busy waiting 式的 sleep() 实现应该会卡住页面. 这也是个问题.
正确的做法是用 setTimeout() 异步地等待

凶手 · 发表于 2021-8-30 18:47

5long 发表于 2021-8-30 18:02
JS 是个单线程运行环境, JS 在执行中的时候浏览器是不会渲染页面的(至少早年我学到的是这样, 我已经不写前 ...

稍微看了下 lz 的问题在于
列表是在一个 iframe 里面
然后那个有作者名字的反而是在外面所以 devtools 的 js context 要是 top 的话就模拟不了列表元素的点击要是 app_canvas_frame 的话就无法得到作者的名字

凶手 · 发表于 2021-8-30 18:52

冰箱研会长e-3M 发表于 2021-8-30 17:57
document.getElementsByClassName也不成
是不是脚本没应用上页面的变化呢..

js context 是 top 的情况下：
document.getElementById("tphoto").contentDocument.getElementsByClassName("j-pl-photoitem-img")[0].click(); const timer = setTimeout(() => { clearTimeout(timer); console.log(document.querySelector("[data-tag='nickname'").innerText); }, 2500)

lz你可以试试 ok的话照这个思路弄

smishe · 发表于 2021-8-30 22:41

可能你需要了解一下xmlhttpRequest

糊状物 · 发表于 2021-8-30 23:29

楼主会啥语言？基本都不会的话不建议楼主从0开始学爬虫，要学的东西多而且还要面对各种反爬虫，学习曲线有点陡峭。

我没用过qq相册不清楚有无反爬。

Aeroblast · 发表于 2021-8-30 23:57

本帖最后由 Aeroblast 于 2021-8-31 00:37 编辑

之前想过抓自己的空间留个档，结果做了一半不了了之了。我这有个其他思路，你看看行不行。
一边模拟点击，一边抓请求。
比如我看到一个user.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/cgi_floatview_photo_list_v2后面一串参数，内容是json，里面有个photos列表，一个个什么谁发的上传时间图片链接（不知道是不是原图）都有。当然这个api不一定行，可能需要找别的，然后还要查重什么的。

js抓这种请求的话，给XMLHttpRequest.prototype.open和send套一层你的抓取。然后qq空间这堆请求返回不是纯json，外面套个函数，什么什么callback，你可以照着写个函数，eval一下在油猴的作用域就调用你自己的这个函数，直接拿到对象。

function viewer_Callback(data){
console.log(data.data.photos)
}
XMLHttpRequest.prototype.openO=XMLHttpRequest.prototype.open;
XMLHttpRequest.prototype.open=function(method, url, async, user, password){
this.openO(method, url, async, user, password);
this.url=url;
}
XMLHttpRequest.prototype.sendO=XMLHttpRequest.prototype.send;
XMLHttpRequest.prototype.send=function(para){
this.sendO(para);
if(this.url.startsWith("https://user.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/cgi_floatview_photo_list_v2")){
let onloadO=this.onload;
this.onload=function(){
eval(this.responseText);//调用viewer_Callback
onloadO()
}
}
}

复制代码

然后你加上模拟点击下一张，遇到一次请求是19个，photos是个数组里面啥也有

冰箱研会长e-3M · 发表于 2021-8-31 07:23

糊状物发表于 2021-8-30 23:29
楼主会啥语言？基本都不会的话不建议楼主从0开始学爬虫，要学的东西多而且还要面对各种反爬虫，学习曲线有 ...

也算是个程序员但前端啊浏览器什么的算是我知识盲区吧
只明白一些轮廓所以就像这样具体执行中会遇到很多问题

糊状物 · 发表于 2021-8-31 08:58

冰箱研会长e-3M 发表于 2021-8-31 07:23
也算是个程序员但前端啊浏览器什么的算是我知识盲区吧
只明白一些轮廓所以就像这样具体执行中会遇到 ...

Python或者java比较熟可以用selenium+webdriver，js的话我只用过puppeteer，只是我是业余玩票的，自己只抓过小说和免费代理，我寻思比直接在浏览器里运行脚本要方便多了吧

—— 来自 Xiaomi MI 8, Android 10上的 S1Next-鹅版 v2.4.4.1

SYJMagician · 发表于 2021-8-31 21:49

要不用用八爪鱼

		自动登录	找回密码
密码			立即注册

[软件] 怎么用JS脚本获取链接内的元素?

评分

评分

评分