找回密码
 立即注册
搜索
查看: 12640|回复: 77

[欢乐] 大数据说你是钓鱼佬!基于ML的小样本泥潭钓鱼用户画像...

[复制链接]
     
发表于 2023-1-31 14:28 | 显示全部楼层 |阅读模式
本帖最后由 Viteeee 于 2023-2-1 08:36 编辑

0.前言

钓鱼佬,没有观点,没有阵营,没有原则,没有母亲,只有藏在匿名账号后面,每当坛友愤而反驳便一边高呼着上钩了、一边哈哈大笑着拍起肚皮,这种阴湿的、虚伪的优越感。
——我说的

大家好啊,我又回来了(震声)!

在年前年后这段时间,把之前泥潭疫情话题用户分析那贴使用过的爬虫升级了一下,尝试了一个更有野心的计划:能不能根据用户的行为习惯数据,用机器学习方法找出那些藏在泥潭几十万个账号里的钓鱼号呢?

结果就有了这篇帖子。对,我就是那么闲。

1.定义

在正文开始之前,必须要澄清几个定义。首当其冲的就是这一灵魂拷问:什么是钓鱼?当然,每个人对“钓鱼”这一行为的定义都不一样,这里为了讨论方便,姑且就用我自己手搓的这个定义----
钓鱼,就是与发言人自身的立场和观点无关,也并非为了形成有效讨论,而是纯粹为了激起他人(负面)回复的发言。

如果用这个定义,那首先可以肯定钓鱼几乎一定是负面的、没什么建设性的行为。最好的情况下,也只是浪费了所有人的时间和论坛资源,让参与的所有人获得了微不足道的一点乐子。最差的情况下,则是引起被钓群众的大混战,结果通常是钓鱼者用10块钱注册费换掉若干个正常账号,甚至连带着管理员也要被请去喝茶。

在常用的钓鱼手法当中,一种相对没那么负面(或者可以称为“温和派”钓鱼)的作法,就是抛出一个中立的观点或者无聊的问题,但对其讨论或回答并没有什么兴趣,后续也基本不会再参与话题。由于这类手法每一帖通常得不到太多回复,所以钓鱼佬一般需要大量持续发帖。比如泥潭老熟人why3000就是这种作法的惯犯。

而另一种性质更恶劣(可以称为“激进派”钓鱼)的手法,就是故意制造一个有严重争议的话题,或者抛出一个在逻辑上、道德上站不住脚的论点,让他人忍不住提出反对意见,同时通过搅混水扩大争论范围。这种行为最可恨的地方在于,钓鱼佬本人的观点可能与用来钓鱼的观点南辕北辙,但它可以一口咬定太阳是方的、猫有五条腿、长风难度是写实派作家、雪菜比冬马好之类的谬论,只是为了引起争论。比起大量发无聊帖来,这一类钓鱼需要钓鱼佬自己花一点心思,当然结果通常也更严重。

相反的,一个账号在同一个讨论帖汴京几十楼、被连扣上百鹅并不能代表这个账号是钓鱼佬,更大的可能性是它只不过观点和主流意见不一样而已。俗话说得好,亲自下场和鱼搏斗的不是合格的钓鱼佬。发这个帖子的动机,就是希望能通过对账号行为数据的分析,把这两种钓鱼佬揪出来。

2.分析方式和统计口径

本次分析覆盖了泥潭近期有回复的1417个主题帖,涉及12.2万个楼层、3573个账号。

在泥潭一共44万个注册账号中,这次统计到的3000多个只占其中不到1%,所以是“小样本”分析。选择这么小的样本一方面是因为爬虫的能力有限(泥潭用户个人资料页面相当不好爬),另一方面也是因为泥潭近一个月左右在外野、游区、漫区、影视这几个主要版面发表过主题帖、或者回复超过10帖的一共也只有这3000多个帐号,从一定程度上代表了泥潭实际的活跃人数。毕竟从定义上看,很长时间不发帖也不怎么回帖的用户自然不可能是钓鱼用户对不。

为了进一步减少需要爬的账号数量,那几座持续有回复的高楼(比如水星楼、XB3讨论楼、俄乌楼)也没在统计范围内。如果某个账号只活跃在专楼里,那大概率不会出现在这次的统计范围中。当然,管人区这种魔窟我也是断然不敢涉足的。

对统计范围内的账号,用爬虫抓了每个用户的公开个人资料(发帖数、在线时间等),然后按照发言楼层和1400多个主题帖中的12万个楼层进行了关联。之所以没有爬账号的全量发帖,一方面是由于爬虫的性能限制,另一方面也由于小黑屋用户看不到历史发帖记录,只能从帖子的数据反向进行关联。

当然,为了能用机器学习算法作分析,样本的标签(label)是必不可少的,这也是本次分析中最大的难点。毕竟钓鱼佬头上又不可能写着“我是钓鱼佬”,所以怎么判断呢?
从结论说:所有的标签都是我自己手工打的

样本中“是否是钓鱼佬”的标签,来自个人【S1用户标记插件】中积累的标识、手动拉黑用户的记录、以及坛友对该账号的评价。当然小黑屋的塞抹布记录也起到了很大的参考作用(样本中大约有400个被塞账号)。但由于去年年末大量的“汴京”封号,最后还是需要人工判断某个账号被塞是由于钓鱼还是一时失言。不得不说,日前被捣毁的3dfox犯罪团伙在样本标记方面也作出了卓越的贡献。

最后,手工标签覆盖了100个左右的钓鱼(positive)样本和大约同样数量的正常(negative)样本,大约占总样本数的6-8%。因为是楼主人工判断,当然无法完全避免误判,所以事先和被误判为钓鱼佬的坛友说声抱歉。反正你们也不知道哪些标签是我手打的,都甩锅给MOSS啊不对算法就好。

3.变量选择

首先必须声明,我他么的不懂机器学习,所以技术相关的内容全是外行半懂不懂瞎编的。欢迎大佬提出宝贵意见,懒得提意见就当看一乐也行。

这次因为样本数量少,为了尽量避免过拟合,所以在变量的特征工程上快乐地胡搞了一番发挥了卓越的创造力。除了发帖数、在线时长、战斗力这些简单变量之外,也用了一些个人认为能反映钓鱼行为的变量:

1)一击离脱率。定义为“明明是本人发的主题帖,但自己从来没有回复过”的比例。前面也说了钓鱼佬不会轻易下场和鱼搏斗,所以某个账号发帖不回贴的概率一般与钓鱼倾向正相关。从结果上看,这个变量的区分效果也确实不错。

2)单位在线时间发帖数量。定义为“发帖数/在线时长”。通常情况下,钓鱼佬轻易不会用大号钓鱼,所以一定预备了多个小号用来发钓鱼贴。因为是小号,所以存在换号发帖、发完就闪的倾向。如果一个账号上线时间明明不长一直在发帖,那这个号有问题的概率也更大。

3)账号近期活跃度。定义为“近期内发帖频率/账号全时长发帖频率”。这个变量主要用来判断某个账号是否是近期才被“唤醒”的小号,和上一个变量有共同之处。毕竟,在泥潭钓鱼还是很费账号的,所以钓鱼佬启用新号的频率应该比正常用户要高不少。

4)发帖回帖比。顾名思义,“主题帖数量/回帖数量”。发帖不回才是钓鱼佬的一贯作风。

5)日均发帖数。定义为“发帖数量/注册日数”。正常人每天值得发帖的内容其实没有那么多,只有钓鱼佬才一直话痨。

6)贴均加减鹅数。“战斗力/发帖数”。群众的眼睛是雪亮的,天天被追着扣鹅账号的多半比被加鹅的更像钓鱼佬。当然扣鹅的理由除了钓鱼以外还有很多,所以这个变量也只能作为一个参考。

第一版模型一共选了14个变量,区分效果有好有坏,因为时间关系(昨晚弄到半夜实在不行了)还有很大的进一步优化空间。

4.分析过程中一些有趣的观察

· 论泥潭用户粘性:全部样本平均注册日数2805日即7.68年,注册时间超过十年的占36%

· 你们到底每天摸多少鱼:全部样本用户日均在线时长平均为3.58小时,其中日均在线时长超过8小时的占6%

· 泥潭小黑屋猛于那啥:排除掉故意从小黑屋里取的样本之后,近期发贴的11402个账户中被封禁733个,封禁率达到了惊人的6%,比那啥的死亡率还要高。

· 劳模果然是你:样本中,发主题帖最多的果然是why3000,达到了惊人的4738帖,基本达到了从注册到今天每天发一帖的水平。奥丁之眼thezhgcg-w啊呜喵分别位居2-5位。

· 转贴机也辛苦了:但如果按每日发帖数来算,发主题帖最频繁的是ydd-319thez的1.41帖每日,2-5位分别是起承转合医生狼多why3000奥丁之眼

· 只能说手速惊人犭央犭茶湖水牛这位神人,在短短的生命周期中(在线共112小时,目前被封到23年末)一共发帖2923帖,相当于每小时26.10帖、每137秒一帖,远远抛开其他选手。而且这位居然不是广告机。

· 管人痴漫区版聊果然可怕:从总计来看,泥潭每日回帖数最多的金银铜牌分别要归于豚厨二象性的62.97帖、和Arteryesrerday的46.12帖核中核小团体的33.62帖,这三位都是管人区的活跃选手。但由于漫区两大魔窟水星楼、蒜楼都没列入统计,也不能排除还有这之上的强者。编辑:仔细一看前两位不就是是漫区专楼的强者嘛,话说之后等我有空爬一下水星楼

· 好强!比欧金金还强:泥潭鹅最多的用户是欧金金这个大家都能猜到,但帖均鹅最多的却是这位年初被永封的397816550,贴均+3.24鹅,欧金金只能凭贴均+2.26鹅屈居第二。 顺便一提帖均被扣鹅最多的当属レミリアaaa,只发了一帖就被永封还被扣了29鹅。

· 您就是发贴机本机吧:泥潭当之无愧“发贴机”这个头衔的要数n10y,发帖/回帖比达到了惊人的24.0,远远超过其他所有用户,而且更难能可贵的是居然从2012年一路活到现在。第二三名分属市川根源的9.77和二饼的4.89。

· HIT&RUN大队:泥潭近期发帖大于等于3帖且自己发的帖一次都没有回过,也就是“一击离脱率”达到100%的高手一共有15位,分别是n10y、二饼、ydd-319、catbobi、nanakufa、biobo、奥丁之眼、604647589、09071139zzy、欧金金(笑)、fanf、艾泽拉斯地理、祖安汤姆、roypppp、zzy19910808,感觉上都是老熟人了。

5.终于到了结论

首先再强调一遍,我他么的不懂机器学习,而且我猜大部分坛友也不怎么想看过于技术的东西,所以这里只大致提一下方法。具体算法为了简单只用了最基础的逻辑回归(logistic regression),由于标记未“非钓鱼佬”的样本数量太少所以手动补充了一部分负面样本,大体上就是把典型的正常用户加一点随机进去然后复制个几百份。

先说结论,从3500个样本里面最终跑出了297个“钓鱼佬”,约占总体样本的8.8%。当然,这个比例不能代表泥潭全体用户里面每十多个用户就有一个钓鱼佬,因为样本里面加入了大量的小黑屋用户,同时也没有涵盖一堆发贴量少或近期根本没发过帖的不活跃用户。真正的钓鱼佬账号比例应该在2-3%,考虑到一人多号的情况,换算到人头的这个比例可能要更低。

模型得分的分布和认定为“钓鱼佬”的范围大致是这样:




一般来说,由于手动打标签的不可靠,这个“钓鱼佬”的标签本身意义有限,但模型分值的排序还是有一定意义的。比如,模型分值最低、也就是算法认为“最不像钓鱼佬”的是……锵锵锵……塔那大佬,3574个用户里的第一位哦。除此之外,一些各位坛友的熟人的排名(由于中段分数分布比较密,差一点点分数可能排名会差很多):
  1. 幽远ghofar - 8位
  2. 妄想骑士 - 11位
  3. 卡奥斯·克斯拉 - 23位
  4. LilyWhite - 46位
  5. 月夜凝雪 - 48位
  6. eilot - 60位
  7. 南极磷 - 68位
  8. 黑暗之眼 - 86位
  9. john - 133位
  10. Lunamos - 179位
  11. 【阿拉伯语聚聚】 - 243位
  12. 吉黑尽阵 - 376位
  13. 大江户战士 - 565位
  14. 海关 - 1053位
  15. 活久见 - 1509位
  16. 屡败屡战阿巴顿 - 2059位
  17. 苏西踩到我了 - 3063位
  18. why3000 - 3191位
  19. 长风难度 - 3273位
  20. -------从这里开始都是打了标签的用户-------
  21. 新北产业园区 - 3277位
  22. woxihuan234 - 3339位
  23. 被雨困住的城市 - 3402位
  24. shit002 - 3459位
  25. 萌宅之眼 - 3477位
  26. 刘仲敬 - 3519位
  27. 兽兽小柒柒 - 3524位
复制代码

再次提醒,和你在帖子里互喷几百楼、恨不得中山公园约起来的那个人不一定是“钓鱼佬”。可能它确实比较蠢,可能它只是嘴臭,也可能单纯和你屁股坐在相反位置,但大概率没有在钓鱼:它这么说很可能是因为它真的是这么想的。

然后,终于到了激动人心的时刻!大数据选出来的泥潭钓鱼佬前20就是他们:
  1. 嗨佬
  2. qwe10147
  3. likke1987
  4. wwt200
  5. tree7666
  6. YYY123
  7. 无趣之人
  8. catbobi
  9. hh15008197
  10. 格斗游戏情报站
  11. peskov
  12. 六道之彼方
  13. fanf
  14. 雪村葵
  15. lwlgy
  16. 羊带人
  17. 有核聚变才有光
  18. 缘去皆空
  19. 张不满
  20. 攻城师123446
  21. レミリアaaa
复制代码

这里面有没有你的老熟人呢?

从统计上看,被标为“钓鱼佬”的用户平均小黑屋比例为24.6%,高于非标记客户的14.2%。被标记用户的平均战斗力-4.11鹅,低于非标记用户的56.64鹅;被标记用户战斗力中位数为0鹅,低于非标记用户的21鹅。因为原始数据带有用户的个人资料信息不方便放出来,这里只附上最后算法跑出来的得分和标记。至于这个名单要怎么用,就请各位坛友自行定夺吧。

当然,也可以简单的做一个JSON把标记用户都列出来,便于用【S1用户标记脚本】批量导入,备注就写“大数据认为他是钓鱼佬!”怎么样。

6.结语

照例还是要感谢狗叔不杀之恩,然后感谢公司允许我带薪摸鱼。最后当然要感谢各位坛友贡献的精彩内容,没有你们就没有这篇帖子。

最后要说一句:泥潭最近卡得要死跟我没有关系!我只有1月30日一天集中在爬数据而已!!

(完)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 67战斗力 +89 收起 理由
花小楼 + 1
Automate + 2
solmyrli + 1 太强了
憧憬鲨 + 1 欢乐多
火之愉悦 + 1 好评加鹅
塔那 + 2
寺人披 + 2 欢乐多
elohim + 1 整点新花样
rinkzea + 2
寒森 + 1 好评加鹅
extended + 1 欢乐多
Cybellybanana + 1
Vesna + 1 好评加鹅
zh244102987 + 1
ice菓 + 1 好好好好
天青色的西风 + 6 好评加鹅
糟糕的魔女 + 1 好评加鹅
幽远ghofar + 1 吃瓜吃着吃着吃到自己身上了
俾斯麥 + 2 欢乐多
remedios010000 + 1 要变成潭友的数据力

查看全部评分

回复

使用道具 举报

     
发表于 2023-1-31 14:31 | 显示全部楼层
泥潭码农真牛逼。。。
回复

使用道具 举报

     
发表于 2023-1-31 14:34 | 显示全部楼层
支持
回复

使用道具 举报

发表于 2023-1-31 14:36 | 显示全部楼层
牛逼
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-31 14:41 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 14:42 | 显示全部楼层
一堆数字和字母的ID根本没印象 建议带上头像
回复

使用道具 举报

     
发表于 2023-1-31 14:47 | 显示全部楼层
左梓喵右受兔 发表于 2023-1-31 14:42
一堆数字和字母的ID根本没印象 建议带上头像

一般来说, 他们都是默认头像
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-31 14:51 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 14:52 来自手机 | 显示全部楼层
我们管人痴是这样的
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-31 14:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-31 14:55 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 14:57 | 显示全部楼层
你们到底每天摸多少鱼:全部样本用户日均在线时长平均为3.58小时,其中日均在线时长超过8小时的占6%。

说明S1用户平均每天上班摸鱼约4小时,其中有6%每天上班时间大于8小时
回复

使用道具 举报

     
发表于 2023-1-31 14:58 | 显示全部楼层
果然标定还是大难题啊,附主楼的S1用户标记脚本链接
回复

使用道具 举报

     
发表于 2023-1-31 15:00 | 显示全部楼层
不大理解钓鱼的乐趣,不管是物理的还是化学的
回复

使用道具 举报

     
发表于 2023-1-31 15:00 来自手机 | 显示全部楼层
格斗游戏情报站居然是个钓鱼佬,不过也对,某种意义上他确实也算
回复

使用道具 举报

     
发表于 2023-1-31 15:01 | 显示全部楼层
牛逼,这就是码农的文采和力量吗

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2023-1-31 15:02 来自手机 | 显示全部楼层
厉害啊
回复

使用道具 举报

     
发表于 2023-1-31 15:10 来自手机 | 显示全部楼层
回复

使用道具 举报

头像被屏蔽
发表于 2023-1-31 15:17 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 15:20 | 显示全部楼层
熟悉的ID

—— 来自 S1Fun
回复

使用道具 举报

     
发表于 2023-1-31 15:40 来自手机 | 显示全部楼层
有意思
回复

使用道具 举报

     
发表于 2023-1-31 15:54 | 显示全部楼层
巨佬我跪
回复

使用道具 举报

     
发表于 2023-1-31 16:31 | 显示全部楼层
果然钓鱼的是不会有正鹅的
回复

使用道具 举报

     
发表于 2023-1-31 16:40 来自手机 | 显示全部楼层
高技术力suki
回复

使用道具 举报

     
发表于 2023-1-31 16:40 来自手机 | 显示全部楼层
编辑
回复

使用道具 举报

     
发表于 2023-1-31 16:48 | 显示全部楼层
对大多数人来说,论坛不过是休闲娱乐的交流地
对某些人来说,论坛是办公室,是绩效表,是战斗场
对另外一些人来说,论坛是茅屎坑、烂鱼塘、破沙袋、臭水缸、肉弁器、垃圾房
回复

使用道具 举报

     
 楼主| 发表于 2023-1-31 18:40 | 显示全部楼层
Porsche 发表于 2023-1-31 15:17
统计局后继有人
统计局那个依据发言习惯找马甲系统不知道还能不能有人搞出来 ...

可不敢,统计局大佬不管是工具还是技术都比我强太多了
回复

使用道具 举报

头像被屏蔽
发表于 2023-1-31 18:43 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 18:52 | 显示全部楼层
长风难度不是钓鱼佬?
回复

使用道具 举报

     
发表于 2023-1-31 19:12 | 显示全部楼层
论泥潭用户粘性:全部样本平均注册日数2805日即7.68年,注册时间超过十年的占36%
回复

使用道具 举报

     
发表于 2023-1-31 19:20 | 显示全部楼层
表格有点用,省去了点进个人主页确认的麻烦
回复

使用道具 举报

     
发表于 2023-1-31 19:21 | 显示全部楼层
听说我被标记为钓鱼佬了特来看看,我也不知道为啥我就钓鱼佬了。
回复

使用道具 举报

     
发表于 2023-1-31 19:26 | 显示全部楼层
是不是你们这些爬s1帖子的人太多,才搞得论坛天天卡的
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-31 19:32 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 19:39 来自手机 | 显示全部楼层
帖均鹅最多的应该是去年写梦买记事系列的那位…
回复

使用道具 举报

发表于 2023-1-31 19:52 来自手机 | 显示全部楼层
你爬一天他爬一天,论坛不就天天卡了,不行必须把这群码农封了(我摸鱼的事实才能不被发现)
回复

使用道具 举报

     
发表于 2023-1-31 19:56 来自手机 | 显示全部楼层
_stargazer_ 发表于 2023-1-31 19:39
帖均鹅最多的应该是去年写梦买记事系列的那位…

那楼最后加多少鹅来着?
而且那楼里跟某管理加鹅大战的层应该是历史之最了
回复

使用道具 举报

头像被屏蔽
     
发表于 2023-1-31 20:04 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2023-1-31 20:06 | 显示全部楼层
昨天也卡
回复

使用道具 举报

     
发表于 2023-1-31 20:09 | 显示全部楼层
本帖最后由 灼眼的夏娜酱 于 2023-1-31 20:39 编辑

帖日均数最多豚厨二象性最活跃的地方是蒜楼,居然在蒜楼不计入的情况下还是第一
编辑:仔细看一下发现,原来只是不统计只出现在蒜楼和水楼的ID,但是在其他帖子里爬到的ID在蒜楼和水楼的回帖数是计入的。豚厨二向性是蒜楼常客,银牌那位是水星楼的中流砥柱之一这样的话前面写的“管人痴真可怕”就不太准确了,因为这两位还是靠的蒜楼和水星楼的回帖量排名前列。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-1-31 10:41 , Processed in 0.122916 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表