本帖最后由 Viteeee 于 2025-1-26 15:15 编辑
4、外野史【那一位】列传
啰嗦了这么多,终于要请出我们本次的中心人物了。可能已经有不少坛友猜到了,这位就是(请脑补通辽可汗贯口特效)——
外野键盘右翼的风向标、社会达尔文主义的永恒旗手、忧国志士团体的精神领袖,永远潜伏在所有国际政治帖的首楼,用一句“好耶”就让全世界的敌对分子心惊胆颤、让殖人反贼望风而逃的,UID:168839 @偽物是也!
和游戏区以首楼加鹅行为艺术而闻名的@萨格摩多桑不同,偽物坛友的加鹅是有真正方向、有态度的。无论是能登地震、洛杉矶大火、校园枪击、惠誉降级,凡是国外人财物遭殃的帖子都有他愉悦的身影,凡是以“白皮”“尼格”“鬼子”“棒子”“阿三”起手的帖子都能得到他不加保留的盛誉,任何对润人、高华、反贼、恨国加以批判的言论背后都有他赞许的微笑。他的立场是如此清澈透明、毫不掩饰、从一而终,仿佛“立场”两字天生就是为他而创造一样。
顺带一提,他其实在2023年的帖子里也出过场:
@伪物 去年3月留下“要去和女朋友结婚”的谜样发言之后删除了大部分历史发帖,但还是孜孜不倦的加了102鹅。
2024年,他依然活跃在外野屁股之战的第一线,用1309只正鹅、90只负鹅、0次回帖,充分地肯定了外野坛友伟大斗争取得的成果。什么你问他为什么从不回帖?日理万机的领袖下批示不都是盖红戳么,还能给你写段小作文解释为什么同意不成?他的评分有42%都是给首楼、有97%都是加给第一页的帖子、在基本所有国际政治专楼(比如俄乌、巴以)都从未出现,连这些特征也充满了领袖风范:泥潭动辄讨论出来那么长的东西,谁要看啊。
比如,这是外野这一年“受到伟大领袖赞同的回贴占总回贴比例”的前二十名,怎么好像有几个熟面孔?一定是错觉:
海比江湖好钓鱼 禁止发言 永不过期 2024-9-29 13:51 你是真的觉得我塞人不看以往记录吗
红肠又名大** 禁止发言 永不过期 2024-10-2 12:42 别串了
因为他的扣鹅太少,所以每次扣鹅就愈发的震耳发聩。比如这次,怒斥坛友居然盲信了邪恶NASA的神化宣传:
再比如这次,怒斥坛友在姜萍事件中怎么能随便下结论:
当然,他的热情不仅仅限于政经和科技领域,也热衷于时刻指导坛友要建立正确的生活方式。比如,当某位坛友买空调遭遇经销商跑路,乍一看是件值得同情的事,但他在转瞬之间就看穿了其中隐藏的敌我矛盾:
“活该”两字是如此的掷地有声!居然胆敢买敌国制造的电器,那除了活该还能是什么!
……啊,什么?你说国内日立空调是海信造的?
5、终于到了透视屁股的时刻
抛开@偽物坛友很多时候可能过于极端的立场,由于他的立场极其专一,活动记录丰富,加上很少到与政治完全不相干的帖子里面串门,使得他的评分记录成为了研究外野政治立场最好的数据资料。
他的立场可以用很多词定义,正面的比如爱国主义、又红又专、爱憎分明、赤胆忠心,反面的可能包括种族歧视、沙文主义、思想极端、甚至**之类的。但我们这里不是要批判某种政治立场,而是要把不同的立场区分开来,所以这里也没必要再下定义,就用他的口头禅“好耶”来代指吧。具体来说,一位用户与他的立场越接近,用户的“好耶度”就越高,反之“好耶度”就越低。
具体来说,计算步骤是这样的:
1、筛选出所有@偽物(标记为第0度用户,u0)打过分的帖子,加分的帖子记为“赞同(0+)”、扣分的帖子记为“反对(0-)”。
2、筛选出所有和他对同一个帖子打过分的用户(第1度用户,u1),按他们打分方向和u0的异同,也分别标记为“赞同者(u1+)”或“反对者(u1-)”。
3、筛选出u1打分的其他帖子,按u1的打分情况分别标记:u1+用户加分、u1-用户扣分的帖子,表示帖子与u0意见一致,记为“1+”;反之,u1+用户扣分、u1-用户加分的帖子,记为“1-”。
4、同理,给1+帖子加分的第2度用户(u2)可以记为"u2+"、给1-帖子加分的用户可以记为“u2-”等等。
5、当然,被u0加分的帖子作者天然也是u1+、被扣分的帖子作者天然也是u1-,等等。
6、因为每个用户不一定只出现一次(比如在A帖里与u0意见一致、B帖里与u0意见相反),所以最后的得分实际上是一个加权平均的最终结果;权重基本上是拍的,但原则是离u0越远、在平均时的权重就越低。
实际操作的时候,由于u3已经覆盖了外野几乎全部用户,所以再继续迭代已经没有意义了。由于上述这个计算的正反两方加总在理论上是对称的,结果会是一个以0为中心的数值,正数代表与u0意见相同,负数代表与u0意见相悖。
必须指出的是,由于这个分析方法是用单一用户的打分记录为基础迭代,且这名用户本身的加分和扣分存在13比1的不平衡,其分析结果几乎一定是向正方向偏离的。用人话说就是:由于偽物坛友很少给帖子扣分(而且因为他不回贴也没人能给他扣分),加上泥潭外野打分天然的抱团取暖特征,负样本的数量和单个样本打分次数要远少于正样本数量和打分次数,简单说就是不太容易找到天然和他意见相反的用户。在看以下分析的时候请特别留意这一点。
另外,如果某位用户被无关屁股、大量级的加鹅或者扣鹅,也会影响统计结果。比如之后能看到,某位一般认为没有什么明显政治立场的用户因为被加鹅太多也进到了前列。
从结果上看,外野两万名用户中有一半左右(10,529)都没有明显的屁股方向,表现为好耶度=0.0。这可能是由于确实没有和u0、u1甚至u2有过任何评分上的接触,或者只发生过零星的一两次评分、在统计上可以忽略不计。
以偽物坛友的屁股作为基准的话,有任何程度的赞同(好耶度>0)用户有9004名、任何程度的反对(好耶度<0)用户有767名。然而如果只有当数值超过某个幅度(比如0.1)才认为是真正的赞同或反对,则上面的赞同、反对用户数量会各自大幅减少刀1730名和58名。
而这其中,好耶度最高和最低的各二十名用户如下:
哎呀……怎么说呢……哎嘿。虽然但是,从我对上面名单里几位某几位的印象看,这个名单还是有一定准确度的。尤其是u0给我本人的加鹅扣鹅都各只有一次、除此之外我们没有任何交集的情况下。
然后,这是外野用户的整体分布情况,横轴是用发帖数和评分数综合加权出来的“活跃度”、纵轴是统计时点的鹅数(为了表里能显示得下,超过一定值的部分做了对数处理);红蓝两色代表用户的屁股立场,红色越深表示好耶度越高,蓝色越深表示好耶度越低,接近白色则代表没有明显的立场(有一部分用户因为好耶度=0.0因而是纯白色,在图里已经看不到了)。光从图上看显得很红,但主要还是因为大量白色的“中立”数据看不出来而已。
同一个坐标系下,将一部分好耶度偏高或者偏低的用户单独摘出来之后的图是这样的。
贴上来之后发现,图片分辨率降低之后蓝点根本看不见……
然后在单独列一下各个分段的用户吧。为了查询方便,用户名顺序按照首字母,而非好耶度高低。
好耶度高于0.5的,共72位::
- CTRYZEN, LesterReno, Min_FOrder, SillyGoose, SkavenYesYes, StrangerJ, Valenciana, albertfu, bbvcv, hencechen, hyde999, initium, kankanaaaa, kermuv, maggiejane, newshadow, redfortress, redivan, rougevelvet, snhz1029, spiritualis, we89623, ymm1030, zec23456, zhuxuedi, ロス, 三尖酸努努, 不和谐音, 不想活了, 不见不散, 东方定助, 中川夏纪, 乡村音乐老师, 二饼, 人间失格, 仟音一心, 你的本子出了, 保罗赫伯特, 南風森愛恋, 奥古斯都, 封面杀手, 巴克亚罗, 恶臭的硕大肥猪, 懒惰的红烧肉, 我真的很變態, 拉屎, 新HGCG, 无敌大法师, 暗月杀人兔, 月咏Koala, 枫岗之秋, 棒读, 欧金金, 烦不烦, 琉璃奇迹心似钻, 百损道人, 硫黄, 红肠又名大**, 群星熔铸银河, 花小楼, 苦瓜柠檬茶, 蓝灯横滨, 蓬莱人, 蓮華, 过往化轻, 还没到时候, 这就是奇跡, 里恩, 镜面不锈钢, 阿卡西, 青い地球ぎ, 黄泉川此方
复制代码
好耶度高于0.3但低于0.5的,共195位:
- 15963277, 1707k, 208208, 4396777, 89clock, ACFUNBILI, AMekodoku, Abba-il-Aeons, AstraZeneca, Belisarius, Colonnello, Colourful.zi, DARILBALDE, FROST1997, Hao123, Jobtownb, JuMuShan, KanoWu, LHO, LUNAR12, Labborn, LazyXXK, Milarvoz, Nanachi, OVOVO, P.C., Tissuesea, Todds_lies, UNICORN00, UmarIbnLaAhad, Ura赤, Van夫膜开, ZinGer_KyoN, acfun178, acid900, az05vk, bingbingg, camelia_vie2, canti, chickensoup, elohim, exgolddizzy, faithlifer, fat, gamecalo, healeveryone, hurtwind, hydrogen, icaesars, inouesayuri, intuitus, jiklp87, kivz, lactone, last_order, leviathan, liurun, longlivedick, lqf3dnow, lyhuo, momodog, moontype, mordio, muyefytte, nanrendu, nexus1, operatbig, piigzyq, ppa11, qucqee, qukey, qwerasdff, rap72, reficul, sakuranosibe, sasasoso, scream, sdbone, sdeplee, septemsky, sinaway, smishe, spaceblue, spf54321, starash, starwarszjm, sunyiren, talesof213, tlygo54, ttgg777, victorws, water, wjhzha, wlhlz, xing7673, xys414, yellowboat, ykmac, yourSwaTer, yuanzui, zhenlune, zxdrtyhn, zzy19910808, シャル, 三千界, 东京打工妹, 东方电气集团, 中国科学院, 亚尔迪8424, 你听得到, 依然荏苒, 兔兔暗黑无限破, 六道明, 冰风血羽, 冷泡茶, 冻僵的机械, 刘昊霖, 利物浦, 别里科夫, 千古奇冤施密特, 南猫猫猫猫, 变老的大二, 咖啡渣, 哈里-谢顿, 啤酒与面包, 喝水都被呛, 喵喵喵呜喵, 塔那, 墨圣, 大帝保我, 大户爱, 天野银次X美堂蛮, 宮脇咲良, 寇马可, 寻狐, 屁怒铝, 山西矿工, 希斯塔姆, 希望之花, 库巴大魔王, 影子都没有了, 循此苦旅, 忘却旋律, 憧憬鲨, 我特么吹爆, 扬州瘦猫, 抗火锅的牛百叶, 拉菲露, 搞不好是哈士奇, 撒撒, 斑驳的阴影, 早春二月, 明天不再有牛奶, 星花, 春秋, 曼哈顿狂舞者, 望寒, 木葉梟, 松瞑皓, 欠损, 水无定势, 河豚抚抚抚, 活久见, 混沌的风, 烦死了, 爱吃冻鳗的猫, 猫不萌, 玄玦, 男人第六感, 百猪夜行, 盗号找不回, 看不清你是谁, 穗乃果, 立派的首陀罗, 索拉利斯, 肌佬气鼓鼓, 自動販賣機, 苏西踩我了, 若槻镜, 茄利比达茄, 茗夜雨, 草台培训班, 萨文科夫, 薄皮破船, 蝶梦魂, 解构, 诸葛天霜, 谁说法海不懂爱, 豪福, 赤色彗星SEXY, 超纯锑, 这不是奇迹?, 这次是十块钱, 键个茄子, 饭来张口
复制代码
好耶度低于-0.1的,一共55位:
- 12502, ARATANG, BLTUS, FGDFDF, FeteFrumoase, Gerard, HugeFatFace, KENN, MRSA, Massa, Raising_Heart, RandomDictator, Sheopard, Skymoon, Viteeee, agsva, aidjvscgv, anlace, bodul, carlos25, cfdxiaobai, d888536e, diablo3, fmeric, frontier0025, ghost97, gnihton314, iluso, kazuma, mado, nebulanoby, obiy, pandakun, puzi, riczxc, sjax001, wangh, wingzero12, 一千君, 元大宝, 双击道道, 啥都控星人, 在下活雷锋, 天气_nini, 帝國輔政, 快马疾奔, 星极厨, 桐名, 正人君子可惜穷, 毕方, 火烧小将, 科户濑伊渣那, 绵绵糕, 美式咖啡, 观测型冰糕菌, 麻生椎子
复制代码
好耶度在正负0.1之间的用户太多了,没法一一列出。你的名字没在上面几个表里,说明你去年一整年都没有掺合到外野的屁股大战里,不也挺好的么。
6、写在最后的Q&A
Q:这个统计科学吗?
A:不科学,主要是为了图一乐。像前面说过的,样本选取和统计方式都有很大的局限性。
Q:为什么评分数量和【某其他渠道】的数据对不上?
A:首先被飞了的帖子是取不到数据的,而且泥潭被封号的人在网页上也取不到评分数据,需要单独调用查看评分明细的接口。我尽可能按页数、发帖人、帖子长短补了这部分评分数据,但极大可能还是会有遗漏的。
Q:为什么这次没做分词和词云?
A:一方面是时间不够,另一方面是120万个帖子、8000万字的帖子内容数据光是清洗一下就已经把我笔记本搞炸了,作分词光跑代码就大概要以天为单位……
Q:你如何区分一个帖子是真心实意的露屁股还是在反串钓鱼?
A:没法区分。实话说从结果上看,两边屁股数值很高的用户里面分别都有明显是在反串钓鱼的,最后只能看评分了。比如u0加分的时候似乎就没有怎么区分帖子到底是真情实感还是在反串。
Q:你为什么要发这帖,是公报私仇吗?
A:作者和u0本人没有什么纠纷(他都不发帖哪来的纠纷),如果一定要说的话,大概是对所有“明明有极其鲜明的立场但又拒绝下场讨论,只敢躲在评分后面靠那几个字的评分理由输出观点”这种行为本身存在成见吧。
感谢各位的阅读,如果有其他意见欢迎随时提出。
(全文完)
|