找回密码
 立即注册
搜索
查看: 1031|回复: 10

[软件] 请问有软件或者插件可以把泥潭帖子或者流媒体的评论区全都下载到本地吗(已解决)

[复制链接]
发表于 2025-1-7 16:48 | 显示全部楼层 |阅读模式
本帖最后由 暴力s 于 2025-1-7 23:15 编辑



类似这样,从最左开始选中往右下拖,直到尽头,不需要选中图片,只选取文字
手动操作起来蛮容易的,就是页数多了费事,请问有可以自动化,可以自动全选,打包成txt之类的文本的应用吗
想查挺多回复的,要是有这样的应用可以省超级多的工夫
或者有什么web可以用的检索增强插件吗,可以自动翻页自动加载,检索整个帖子或者评论区的关键词
原生的检索效率太低了,只能从已经加载出来的文本里进行,感觉不如手摇车的选中来的快

2025年1月7日23:02:41编辑
唉鼓捣了一晚上没弄明白
1L那个好用,但是会玄学报错,把日志反馈了,但是解法我看不懂
自己又找了个,虽然能自动下载了,但是没第一个抓的好,问题更爆
没能懂page到底该怎么赋值,python真的很难使用呢,有时间真得学学入门课了

回复

使用道具 举报

     
发表于 2025-1-7 16:52 | 显示全部楼层
用python写一个爬取B站评论区的爬虫
ChatGPT 说:
ChatGPT

要编写一个爬取B站评论区的爬虫,通常可以使用 requests 和 BeautifulSoup 库来抓取页面数据,并结合 B站的 API 获取评论信息。B站的评论数据是通过 AJAX 动态加载的,所以需要从网络请求中提取评论内容。

以下是一个简单的示例代码,演示如何通过 B站的 API 获取某个视频的评论。
安装依赖库

首先,需要安装以下依赖库:

pip install requests
pip install json

爬虫代码示例

import requests
import json

# 获取视频的评论
def fetch_bilibili_comments(aid, page=1):
    # 请求URL,aid是视频的av号或bv号,page是评论页数
    url = f"https://api.bilibili.com/x/v2/reply/main?next={page}&type=1&oid={aid}&mode=3&plat=1"
   
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
    }
   
    # 发送请求
    response = requests.get(url, headers=headers)
   
    if response.status_code == 200:
        data = response.json()
        if data["code"] == 0:
            comments = data["data"]["replies"]
            for comment in comments:
                # 提取评论内容
                username = comment["member"]["uname"]
                content = comment["content"]["message"]
                print(f"{username}: {content}")
        else:
            print("Error: Failed to fetch comments")
    else:
        print("Error: Request failed with status code", response.status_code)

# 输入你想要爬取的B站视频的av号
# 例如:AV号:123456789
aid = 123456789
fetch_bilibili_comments(aid)

代码说明

    请求地址:B站的视频评论是通过 https://api.bilibili.com/x/v2/reply/main API 获取的,aid 为视频的 av 号(或者 bv 号),它是视频唯一的标识符。
    oid 参数:是视频的 aid,用于获取该视频的评论。
    分页:每次请求返回的评论会有限制,可以通过 next 参数获取后续评论,next 的值就是当前页码。
    解析评论:评论数据是 JSON 格式的,我们可以通过 response.json() 解析出内容。每条评论有多个字段,其中 content.message 就是评论内容。

如何获取视频的 aid

    可以直接从视频页面的 URL 获取:例如 https://www.bilibili.com/video/av123456789 中的 av123456789 即为视频的 aid。
    你也可以通过 bv 号获取视频的 aid,通过 API 将 bv 号转换为 aid。

注意事项

    频率限制:B站对请求有频率限制,确保你的爬虫请求间隔时间合理,避免被封禁。
    反爬措施:B站可能会有一些反爬机制,可能需要模拟更多的请求头(例如 cookies)来绕过简单的反爬措施。

如果你需要进一步的帮助,比如处理分页,或者保存评论到文件,随时告诉我!

评分

参与人数 1战斗力 +1 收起 理由
暴力s + 1 XKL

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-7 16:57 来自手机 | 显示全部楼层
爬虫学的好,牢饭吃到饱
回复

使用道具 举报

     
发表于 2025-1-7 17:03 来自手机 | 显示全部楼层
B站评论接口早就改了,记得几年前返回是json每条评论有唯一ID,子评论引用父评论ID,然后还得想办法存储结构化数据。

这玩意管人区有人搞过,一键搜索某个用户在几百个主播评论区的回复查成分。
回复

使用道具 举报

 楼主| 发表于 2025-1-7 17:13 | 显示全部楼层
暗铁 发表于 2025-1-7 16:52
用python写一个爬取B站评论区的爬虫
ChatGPT 说:
ChatGPT

啊这,需要这么有技术的吗。看隔壁有人上班摸鱼用excel刷泥潭,应该也是下载到了本地吧,我还以为这个项目已经有成品了呢
回复

使用道具 举报

     
发表于 2025-1-7 17:21 来自手机 | 显示全部楼层
暴力s 发表于 2025-1-7 17:13
啊这,需要这么有技术的吗。看隔壁有人上班摸鱼用excel刷泥潭,应该也是下载到了本地吧,我还以为这个项 ...

这个是伪装插件吧

—— 来自 鹅球 v3.3.96-alpha
回复

使用道具 举报

     
发表于 2025-1-7 17:25 | 显示全部楼层
爬大公司的接口分分钟风控,个人就别折腾了,泥潭没防护的随便爬
回复

使用道具 举报

     
发表于 2025-1-7 19:50 来自手机 | 显示全部楼层
暴力s 发表于 2025-1-7 17:13
啊这,需要这么有技术的吗。看隔壁有人上班摸鱼用excel刷泥潭,应该也是下载到了本地吧,我还以为这个项 ...

那个是nga摸鱼插件的功能 能伪装成wps或者office

—— 来自 鹅球 v3.3.96
回复

使用道具 举报

     
发表于 2025-1-7 20:39 来自手机 | 显示全部楼层
有坛友在做论坛的纯文本备份,可以看看 https://github.com/TomoeMami/S1PlainTextBackup

评分

参与人数 1战斗力 +1 收起 理由
暴力s + 1 这也好用

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-7 21:31 | 显示全部楼层
除了爬虫那就只能用各种脚本扩展拼凑起来满足需求
评论区搜索脚本:https://greasyfork.org/zh-CN/scripts/467863
自动滚动页面:https://greasyfork.org/zh-CN/scripts/464795
保存本地网页:https://github.com/gildas-lormeau/SingleFile

评分

参与人数 1战斗力 +1 收起 理由
暴力s + 1 kami!!!

查看全部评分

回复

使用道具 举报

     
发表于 2025-1-8 01:05 | 显示全部楼层
漏看了有看泥潭帖子需求
这个一键展开S1帖子所有内容的脚本算非常好用了
https://greasyfork.org/zh-CN/scripts/28810

评分

参与人数 1战斗力 +1 收起 理由
暴力s + 1 Great

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-22 16:07 , Processed in 0.062135 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表