Kensnow 发表于 2023-9-17 10:06

毕业论文想扒一下steam上的游戏评论,tb价格浮动好大

出于毕业论文数据分析需要扒一款游戏在steam上的评论,大概是有36万条,想要导出成excel。自己也知道python应该能写出来,也看到github上有人发布过相关的代码,但是无奈自己对代码一窍不通.. 到现在都完全不知道github要怎么用。
找了淘宝上的爬虫工作室,开价居然从700-5000元不等,惊了。想请问下神通广大的坛友们,这个活儿究竟开价多少比较合适呀?

asion617 发表于 2023-9-17 10:20

04年的号还没毕业吗

chgzzl 发表于 2023-9-17 10:20

https://pypi.org/project/steamreviews/
关键词搜一下,第一页就有现成的工具,所以我猜吧应该要不了几个钱

—— 来自 samsung SM-T970, Android 13上的 S1Next-鹅版 v2.5.4

储安平 发表于 2023-9-17 10:25

Kensnow 发表于 2023-9-17 10:25

asion617 发表于 2023-9-17 10:20
04年的号还没毕业吗

是的,工作需要又申了个学位,没办法

hgfdsa 发表于 2023-9-17 10:25

7500是那个地方的宰人价?

抓网页评论,基本功能有一定基础的新手几个小时写出来,如果要把数据跑出来,翻页的时候加上防ban的随机延迟,最多就一天。

Kensnow 发表于 2023-9-17 10:26

chgzzl 发表于 2023-9-17 10:20
https://pypi.org/project/steamreviews/
关键词搜一下,第一页就有现成的工具,所以我猜吧应该要不了几个 ...

感谢!我还看到有另一个工具
https://github.com/israel-dryer/Steam-Game-Review-Scraper

完全不会任何程序语言,正在钻研怎么用这个东西,应该和你说的是一种对吧?Mac下应该都能用?

chgzzl 发表于 2023-9-17 10:33

Kensnow 发表于 2023-9-17 10:26
感谢!我还看到有另一个工具
https://github.com/israel-dryer/Steam-Game-Review-Scraper



主要是配置好开发环境,然后按照教程步骤走就行了,注册个BING AI之类的,有什么问题报什么错贴进去问就行了,全程用英语就行。俺寻思这么多现成工具的话一下午差不多自己就能搞出来。

幻肢痛 发表于 2023-9-17 10:40

完全不会编程怎么数据分析?光用excel拉几个图表?

Litccc 发表于 2023-9-17 10:45

对代码一窍不通还能做数据分析吗

Kensnow 发表于 2023-9-17 11:47

幻肢痛 发表于 2023-9-17 10:40
完全不会编程怎么数据分析?光用excel拉几个图表?

差不多吧……文科专业也没有想分析到那么具体,这不是不太会所以才申了个研究生来学嘛

当光停止 发表于 2023-9-17 11:51

想起来前几天在一个爬虫群看到有俩人接一个单,一个人花了半天要了3000,另一个人十几分钟要了300。

zwsghxs 发表于 2023-9-17 12:01

试了下steamreviews这个库,一行代码就能直接爬下来了。
app_id = 1244090
review_dict, query_count = steamreviews.download_reviews_for_app_id(app_id)

应该是使用了steam官方的接口,获得的评论也附带好了评论的各类信息。

如果需要技术服务请私信我。

maritimus 发表于 2023-9-17 12:22

如果有现成库的话。。。开卷!10块钱!

说真的,36万条不太能用excel了吧,建议用python分析,mac可以跑,pandas分析数据,plotly画图

Kensnow 发表于 2023-9-17 12:47

maritimus 发表于 2023-9-17 12:22
如果有现成库的话。。。开卷!10块钱!

说真的,36万条不太能用excel了吧,建议用python分析,mac可以跑, ...

好像是的哦。。我前阵子弄个6万条的数据库用excel都挺卡的了。
我想的是从这36万条里面要先搜索出来带关键字的,其他去掉,可能就剩下几万条了

myron_cloud 发表于 2023-9-17 13:51

Kensnow 发表于 2023-9-17 12:47
好像是的哦。。我前阵子弄个6万条的数据库用excel都挺卡的了。
我想的是从这36万条里面要先搜索出来带关 ...

36万用excel筛关键字也会卡死……

hgfdsa 发表于 2023-9-17 14:57

myron_cloud 发表于 2023-9-17 13:51
36万用excel筛关键字也会卡死……

筛选放在写入到excel之前不就行了

真田丸 发表于 2023-9-17 15:18

Kensnow 发表于 2023-9-17 16:41

zwsghxs 发表于 2023-9-17 12:01
试了下steamreviews这个库,一行代码就能直接爬下来了。




自己搞不定。。已私

lithebody 发表于 2023-9-18 08:56

python确实很强大
页: [1]
查看完整版本: 毕业论文想扒一下steam上的游戏评论,tb价格浮动好大