找回密码
 立即注册
搜索
查看: 14415|回复: 116

[讨论] [非官方]S1漫区2018年度热词诞生了

[复制链接]
     
发表于 2018-12-30 02:14 | 显示全部楼层 |阅读模式
本帖最后由 zhDesire 于 2019-1-4 17:34 编辑

前情提要:[讨论] 从侧面反映出b站真是烂到家了——2018年度弹幕

---------------------------------------------2019.01.04更新---------------------------------------------排名|词|次数|详细

1.b站:4899次(b站:3540 bilibili:2418 批哩批哩:2 哔哩哔哩:162 逼站:70 阿b:42 批站:112 睿站:182 后花园:120 逸站:99 )-www.bilibili.com(www.bilibili.com:1848 );  
2.国家队:4602次(国家队:3002 蝈家队:16 蝈蝈:480 darling:405 ditf:673 dift:23 情迷弗兰西西:3 );               
3.泥潭:4199次(泥潭:4098 你谭:12 你坛:89 );
4.屎:3112次(屎:3112 );
5.百合:2889次(百合:2889 );6.莓:2544次(莓:2544 );
7.崩:2513次(崩:2513 );
8.翻译:2136次(翻译:2136 );
9.机战:1950次(机战:683 萝卜:1267 );
10.挺好:1903次(挺好:1903 );
11.锦织:1876次(锦织:1549 jzgg:327 );
12.真实:1820次(真实:1820 );
13.京都:1569次(京都:987 京阿尼:272 鋈:78 kyoani:4 你京:174 我京:46 他京:8 );  
14.弹幕:1459次(弹幕:1459 );  
15.有意思:1453次(有意思:1453 );
16.low:1449次(low:1449 );  
17.肥宅:1434次(肥宅:1434 );
18.本子:1310次(本子:1310 );
19.扭曲:1179次(扭曲:1179 );
20.京紫:1154次(京紫:1124 紫罗兰永恒花园:30 );  


*去除了此前更新中部分存在重复的结果
**由于是基于字符匹配,部分结果无法精确统计
    比如02(02:7256 zero two:10 泽拉图:93 灵儿:130 ):7489次;显然是由于很多超链接中存在"02"而存在水分,故不列入统计范围
***候选词是人工添加的,可能存在遗漏,欢迎大家补充词汇,我来统计之后更新上去

附1:其他大家感兴趣但没有排名的词汇

楼层数|词|出现次数
2#|b小将(b小将:76 批小将:36 ):112次;  版权方:75次; 陈睿:35次;
3#|死宅:520 老宅:78 新宅:26 宅宅:179 宅心:20 婆罗门:1095
7#|偶像大尸(偶像大尸:41 腐烂臭臭:3 佐贺:192 zombie land saga:2 zls:46 ):284次;  
       a站(a站:489 acfun:125 缺b乐:6 a岛:41):661次;
12#|白河豚(白河豚:134 百合豚:160 百合厨:100 ):394次;
18#|粪海狂蛆:95次
21#|无能狂怒(无能狂怒:80 无能狂吠:0 ):80次;
26#|真香:214次
45#|露营:688次
53#|粪:562次;
58#|败犬:608次;
62#|扳机(扳机:492 trigger:138 脱力嘎:5 ):635次;
66#|种命万能(种命万能:88 种万能:5 ):93次;
67#|群像(群像:312 ):312次;
73#|性癖(性癖:272 ):272次;  巨乳(巨乳:247 ):247次;  黑丝(黑丝:167 ):167次;  御姐(御姐:162 ):162次;
76#|冈妈(冈妈:530 冈田:274 ):804次; 大河内(大河内:432 ):432次
77#|心满(心满:700 ):700次;  霸权(霸权:246 ):246次;
86#|女士(女士:304 ):304次;  露女士(露女士:89 露崎:37 闹钟:50 ):176次;
90#|六学(六学:11 合拍:49 开花:44 ):104次;
102#|吹爆(吹爆:684 ):684次;
        动画公司相关见106楼;
108#|华语第X(华语第:254 ):254次;

附2:大家可能想问的词汇
萝莉(萝莉:879 loli:259 ):1138次;
南极(南极:1068 比宇宙更远的地方:40 ):1108次;
老婆(老婆:1083 ):1083次;
jk(jk:743 女高中生:98 ):841次;
书记(书记:714 孟德尔:14 md2:52 ):780次;屁股(屁股:561 ):561次;
古立特(古立特:99 古利特:195 ssss:81 gridman:63 ):438次;
沙雕(沙雕:342 傻吊:94 ):436次;
妊娠(妊娠:91 怀孕:344 ):435次;  
知乎(知乎:362 b乎:18 逼乎:33 ):413次;
萌豚(萌豚:377 ):377次;  
少女歌剧(少女歌剧:171 少歌:199 ):370次;  
工具人(工具人:368 ):368次;  
吃屎(吃屎:364 ):364次;
PTSD(PTSD:349 ):349次;
蕉哥哥(蕉哥哥:133 大场奈奈:5 banana:109 bananice:23 ):270次;  
恋哥哥(恋哥哥:51 华恋:210 karen:9 ):270次;
翻车(翻车:257 ):257次;
怒涛展开(怒涛展开:143 ):143次;  
老害(老害:115 ):115次;
复读(复读:103 ):103次;  
惨案(惨案:22 ):22次;
awsl(awsl:15 ):15次;  


---------------------------------------------原帖---------------------------------------------

前段时间b站搞了个年度弹幕让大家吵得谁也看不起谁,那么这一年来统治着S1漫区的热词又是哪些呢?
个人觉得主观臆断不可取,所以这两天放假用java写了个程序自动扒网页来统计,目前已经初步完成了。
现在还差些什么呢——潜在热词!
本来我是想用自动分词工具做的,但一来自己没用过,二来感觉效果可能不尽如人意。所以需要人工添加可能是热词的词汇,然后让程序去统计它们这一年来在漫区出现的次数,看看哪一个才是真正的年度热词!

目前需要大家给我一些潜在热词的建议,我把它们添加到统计词典里去。


---------------------------------------------18.12.31更新---------------------------------------------

好消息!目前已经把论坛近一年内有回复的帖子都搜罗完毕了!
今天早上发现之前写的程序逻辑有重大错误,每五个帖子只保存了一个,所以第一天小规模试验的结论是错误的!
在改正了程序,加上异常处理机制后再也不怕网络波动和机器人识别了,跑了一天就把需要的网页爬完了。

今天的小规模试验是扳机(trigger 脱力嘎)大战京阿尼(京都 kyoani),搜索范围为一年内的帖子,不区分大小写。
不啰嗦,直接上图:



京阿尼(2780)倍杀扳机(1258)还绰绰有余!所以钓鱼侠以后还是多炸炸粳米吧,效果比钓扳机厨更好。

明后天我把所有的统计词设置好,就能统计出最终的热词了。


---------------------------------------------18.12.30更新2--------------------------------------------

看了一下回复,都是很好的提议,平台 作品 角色 staff这些词都会去统计的
主要是一些漫区特色词汇(比如:婆罗门 白河豚)和相同语义的不同表达(像7#说的A站和缺B乐这种),我可能没法想得很全
希望大家帮忙钦点一下


---------------------------------------------18.12.30更新1--------------------------------------------

先小规模试验了一下:
随便选了几个统计词:国家队 蝈蝈 百合 舒服 社保 粪海狂蛆 b站 PTSD
扒了论坛前两页的所有帖子和其中的回复,然后运行——



b站后花园坐实了!独占64次!

因为扒网页的耗时巨大,平均一个页面要3秒钟,一年的页面预计扒至少要三天三夜,所以后续更新还得拖一会。
以及目前已知存在的缺陷:
1.当连续两页的首个回复都有相同的引用时,程序会误判为已读取到当前主题的最后一页;
2.提取部分主题里的用户回复时出现了下标越界,原因未知;
3.整个统计过程中疑似还发生了除上述bug之外的遗漏;
4.权限楼无法统计。
但在巨大样本的面前,这些问题对热词占比影响不大,暂不考虑。



评分

参与人数 6战斗力 +6 收起 理由
alialex + 1 欢乐多
小小陌路人 + 1 好评加鹅
Quokka + 1 好评加鹅
cmjdxy + 1 好评加鹅
一只优越Fa♂ + 1 欢乐多
yzhiyu_123 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2018-12-30 02:25 来自手机 | 显示全部楼层
插眼等更新,想看看高贵的婆罗门们的高贵的词典里什么词用的多,补充推荐词批站、陈睿、批小将、版权方、翻译、弹幕来自: iPhone客户端
回复

使用道具 举报

头像被屏蔽
     
发表于 2018-12-30 02:29 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2018-12-30 02:33 | 显示全部楼层
有点意思
回复

使用道具 举报

     
发表于 2018-12-30 04:45 来自手机 | 显示全部楼层
技术力强大
期待最终结果,先马上了

发自我的iPhone via Saralin 2.1.3
来自: iPhone客户端
回复

使用道具 举报

发表于 2018-12-30 06:03 | 显示全部楼层
我干过类似的事,不分词统计所有n-gram的概率。难点在于找一个词频对照组,否则词频最高的肯定是“的”。
你这样手动添加词典,会不会给人一种钦点的感觉?
回复

使用道具 举报

     
发表于 2018-12-30 06:16 | 显示全部楼层
建议按作品或者平台合票防止分票漏票,比如蝈蝈 国家队 ditf/b站 阿b 睿站 逸站 后花园/偶像大尸 腐烂臭臭 zls/缺b乐 a站/271 爱奇艺
回复

使用道具 举报

     
发表于 2018-12-30 06:20 | 显示全部楼层
或者干脆按 平台 作品 角色 staff 等分类分别统计热度
回复

使用道具 举报

     
发表于 2018-12-30 08:45 来自手机 | 显示全部楼层
汉语是怎么做热词统计的?我一直以为只有像英语那样用空格来分词的语言才能做word count

----发送自 samsung SM-C7010,Android 8.0.0
回复

使用道具 举报

头像被屏蔽
     
发表于 2018-12-30 09:09 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2018-12-30 09:16 来自手机 | 显示全部楼层
华语第一百合论坛实锤
回复

使用道具 举报

     
发表于 2018-12-30 09:38 来自手机 | 显示全部楼层
百合有很多同义词吧,建议把河豚、白河等考虑上
回复

使用道具 举报

发表于 2018-12-30 10:44 | 显示全部楼层
plusSharp 发表于 2018-12-30 08:45
汉语是怎么做热词统计的?我一直以为只有像英语那样用空格来分词的语言才能做word count

----发送自 samsu ...

楼主没用到分词,只能统计指词的出现次数。
中文分词有很多方案,发一个我用过的给你参考。https://github.com/fxsjy/jieba
回复

使用道具 举报

     
 楼主| 发表于 2018-12-30 11:01 | 显示全部楼层
compass01 发表于 2018-12-30 06:03
我干过类似的事,不分词统计所有n-gram的概率。难点在于找一个词频对照组,否则词频最高的肯定是“的”。
...

我尽量统计得全面些吧
回复

使用道具 举报

     
发表于 2018-12-30 11:08 | 显示全部楼层
气流季里 发表于 2018-12-30 10:44
楼主没用到分词,只能统计指词的出现次数。
中文分词有很多方案,发一个我用过的给你参考。https://githu ...

谢谢,word count还是我在学校初学hadoop的时候接触的,我只是单纯好奇汉语能否分词而不是真的要做这方面的工作
回复

使用道具 举报

     
 楼主| 发表于 2018-12-30 11:11 | 显示全部楼层
看了一下回复,都是很好的提议,平台 作品 角色 staff这些词都会去统计的
主要是一些漫区特色词汇(比如:婆罗门 白河豚)和相同语义的不同表达(像7#说的A站和缺B乐这种),我可能没法想得很全
希望大家帮忙钦点一下
回复

使用道具 举报

     
 楼主| 发表于 2018-12-30 11:20 | 显示全部楼层
plusSharp 发表于 2018-12-30 08:45
汉语是怎么做热词统计的?我一直以为只有像英语那样用空格来分词的语言才能做word count

----发送自 samsu ...

这有个博客介绍得挺好的
自然语言处理入门(4)——中文分词原理及分词工具介绍[url]https://blog.csdn.net/flysky1991/article/details/73948971[/url]
回复

使用道具 举报

     
发表于 2018-12-30 15:43 来自手机 | 显示全部楼层
本帖最后由 若荼泱 于 2018-12-30 15:55 编辑

爱斯衣人均程序猿

也提点几个吧。
扭曲
粪海狂蛆
再有想到再补充

—— 来自 Google Pixel, Android 9上的 S1Next-鹅版 v2.1.1-alpha
回复

使用道具 举报

     
发表于 2018-12-31 09:22 | 显示全部楼层
所以说S1服务器负担大不是没有原因的
回复

使用道具 举报

     
 楼主| 发表于 2018-12-31 09:34 | 显示全部楼层
Tauta 发表于 2018-12-31 09:22
所以说S1服务器负担大不是没有原因的

说到负担大,最明显的时候应该是上半年的每周六晚上十点半之后吧
我做的是个单线程爬虫,对论坛的正常使用几乎没有影响。您回复我的时候爬虫也在爬呢。
而且据我观察,S1服务器是有机器人拦截机制的,具体触发方式不明。一旦触发,你的ip地址会被禁止访问S1几分钟。
回复

使用道具 举报

     
发表于 2018-12-31 09:41 | 显示全部楼层
肯定b站榜首
建议加个无能狂吠/无能狂怒
回复

使用道具 举报

     
发表于 2018-12-31 09:44 | 显示全部楼层
其实可以建个群,找几个人一起统计
这个玩意技术不难统计最烦
回复

使用道具 举报

     
 楼主| 发表于 2018-12-31 23:09 | 显示全部楼层
凉宫春R 发表于 2018-12-31 09:44
其实可以建个群,找几个人一起统计
这个玩意技术不难统计最烦

不好意思麻烦大家,一个人做其实也差不太多
回复

使用道具 举报

     
发表于 2018-12-31 23:12 | 显示全部楼层
超能力牛逼
回复

使用道具 举报

     
发表于 2018-12-31 23:27 来自手机 | 显示全部楼层
好评啊!!!
回复

使用道具 举报

     
发表于 2019-1-1 02:25 | 显示全部楼层
楼主加油感觉可以把b站的那几个真香、真实之类的加上,看看婆罗门和批小将的重合度
回复

使用道具 举报

     
发表于 2019-1-3 20:55 | 显示全部楼层
蹲一下,楼主加油!
(想有空用python写一个

  -- 来自 能看大图的 Stage1官方 iOS客户端
回复

使用道具 举报

     
 楼主| 发表于 2019-1-3 21:07 | 显示全部楼层
弄好了

评分

参与人数 3战斗力 +4 收起 理由
chexk03 + 1 好评加鹅
伊斯塔废灵 + 1 好评加鹅
free + 2 辛苦了

查看全部评分

回复

使用道具 举报

     
发表于 2019-1-3 21:14 来自手机 | 显示全部楼层
本帖最后由 遍体精淋af 于 2019-1-3 21:15 编辑

看出来了,华语第一b站后花园、撕蝈衣、白河豚论坛
回复

使用道具 举报

     
发表于 2019-1-3 21:22 | 显示全部楼层
热词前11有10个都不是泥潭正声望的
回复

使用道具 举报

     
发表于 2019-1-3 21:24 | 显示全部楼层
泥潭真是不愧是扭曲论坛
回复

使用道具 举报

     
发表于 2019-1-3 21:25 | 显示全部楼层
怎么看泥潭也不像百合豚论坛啊
那么肯定就是迫害白河豚论坛了
回复

使用道具 举报

头像被屏蔽
     
发表于 2019-1-3 21:25 | 显示全部楼层
提示: 该帖被管理员或版主屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2019-1-3 21:26 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2019-1-3 21:27 | 显示全部楼层
我寻思要不叫噼哩噼哩论坛好了
回复

使用道具 举报

     
发表于 2019-1-3 21:29 来自手机 | 显示全部楼层
哈哈哈哈哈哈哈

—— 来自 Xiaomi MI 6, Android 8.0.0上的 S1Next-鹅版 v2.1.2
回复

使用道具 举报

     
 楼主| 发表于 2019-1-3 21:29 | 显示全部楼层
新吾 发表于 2019-1-3 21:26
我平时常用的逸站居然没有算进去

补充了

评分

参与人数 1战斗力 +1 收起 理由
伊斯塔废灵 + 1

查看全部评分

回复

使用道具 举报

头像被屏蔽
     
发表于 2019-1-3 21:29 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2019-1-3 21:38 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2019-1-3 21:43 | 显示全部楼层
说实话不能智能区分钓鱼和正常讨论是很可惜的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2024-9-28 09:27 , Processed in 0.087116 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表