• 繁體(T)简体(S)正常(N)
  • 申请任务 银行[存取转账] AFF时间积分兑换 统计排行 帮助
    • 114阅读
    • 2回复

    [专题研究][240129]“牛子精灵”和“猫猫”泛滥,Steam评测系统真的科学吗?

    级别: Lv.新生
    发帖
    141
    MB
    289
    MD
    0
    本月打卡
    0
    活跃度
    17
    YQBD
    0
    国库券
    142
    https://www.gcores.com/articles/176869
    不知道你是否在Steam评论区看到这样的垃圾评论有多久了,他们用符号画出猫猫、牛子精灵或者坤坤的样子,告诉你,如果点赞,猫猫就会张嘴,坤坤就会跳舞,你的牛子就会长一厘米。信以为真的我给这些评论点了赞,结果猫猫没有张嘴,坤坤没有跳舞,掏出卷尺量了量,好像也没有长一厘米。

    这种半娱乐半诈骗的评论在评论区里大量泛滥,把很多真正的游戏评测给挤了下去。这还已经是评论区已经被清理过的结果,在更早以前,Steam的评论区是诈骗广告的天堂,各种宣称送你皮肤的链接,点进去你的账号就会完蛋。
    既然如此,那么Steam为什么要有游戏评测呢?Steam的游戏评分又是否和大家想象的那样科学呢?我觉得Tim Sweeney可能至今都没有想明白,自己买了这么多独占,送了这么多游戏,为什么PC玩家还是选择那个折扣没自己高,UI没自己好,还会抽30%平台税的小甜甜。其原因或许也很简单:Steam让玩家,而不是游戏开发者,拥有更好的平台体验。

    Tim做虚幻引擎出身,最开始的工作是B to B,Epic Games Store或许对开发者而言很友好,但对玩家而言未必。而G胖在微软做的是面向个人用户的Windows 95,本质上是B to C,他或许更懂玩家需要游戏平台去做什么。
    Steam评测就是最好的例子,你似乎很难看见在其他游戏平台上“用户评测”这个板块像Steam一样被放到如此重要的位置。Epic Games至今似乎没有用户评测,只有一个打分系统;PlayStation Store也没有用户评测,当然我也很难想象如何在PS5上用手柄流畅地打汉字;Xbox似乎有一个用户评测板块,但愿意去写评测的人寥寥无几,而且似乎这个板块的网络还经常出问题;甚至连App Store里头游戏的评论区,点进去也是好几年前的老旧评论。

    Epic是没有评论区的
    似乎只有Steam把用户评测放到了一个极其重要的位置上,让游戏的评价能够挂到游戏商店页面的旁边,左右游戏的销量,甚至让一些傲慢的开发者低下他们高傲的头,去更加坦诚地和玩家直接对话。可以说,在Steam平台,玩家掌握着在其他平台所难以享有的权力,这或许是它直到今天还是游戏平台界毫无争议的一哥的原因。但是,这能代表Steam的评测系统真的完美无瑕,如同我们想象的那样科学吗?
    首先让各位猜一下,Steam上评分最高的游戏到底是哪一个?
    如果按照Metacritic Top 250的排名来看,抛开并没有在Steam上登陆的《塞尔达传说:时之笛》和《剑魂》,Steam上评分最高的游戏应该是GTA IV,再然后是大表哥2,GTA V,GTA III,生化奇兵,原版生化危机4,博德之门3。

    但我们真的打开Steam,打开所有游戏,把排序依据变成用户评测后,你会惊讶地发现,在Steam上正面评价超过99%,登顶游戏之巅的那个游戏,是柚子社的《千恋*万花》。

    当然,这不代表千恋万花不是一个好游戏,因为就算我躺在棺材里,钉死了,也要在墓里用腐朽的声带喊出,丛雨绫是我老婆(滴——)
    但是问题在于,Steam的评测系统似乎认为,千恋万花要比上述所讲的一系列游戏都要好,这显然是并不符合大家的直觉,甚至有点荒谬的。已知《千恋万花》是一个好游戏,《GTA IV》也是一个好游戏,在大众的普遍认知里《GTA IV》的评分要高于《千恋万花》,但Steam的评分系统却认为《千恋万花》要远高于《GTA IV》,那么只能说明,Steam的这个游戏评测系统并不科学。

    事实上,Steam评分最高的十款游戏里,有九款是独立游戏,其中有五款是可爱的猫猫,只能说猫好,人好不好就不一定了。它们和我们传统认知的那些Top List Games似乎并不沾边。而第十名甚至不是游戏,而是Wallpaper Engine,想必大家都知道这玩意到底是用来干啥的。
    这就导致了Steam评测系统目前存在的最大问题,那就是在某种程度上,Steam游戏的用户评测结果似乎和游戏本身的质量关联不大,使得质量高的游戏可能默默无闻,能够给予用户廉价感官刺激的游戏反而能够占据评分的最高位,而我们前面说过,Steam的用户评测被有意设计放到了能够左右用户购买欲甚至左右游戏销量的位置上,这使得绝大多数的Steam高分游戏是“擦边游戏”而不是“好游戏”,爽可能很爽,但这样的评测科学吗?未必。

    回到之前的话题,我们打开Steam评分第一的《千恋万花》,会发现评分的人总共在一万六千人左右,而《博德之门3》的总评价人数在四十八万上下。很难想象这个世界上会有给千恋万花和博德之门3打差评的人,但大千世界无奇不有,总会有一些人因为各种各样的原因。甚至纯粹是因为无聊,而故意给一款好游戏打差评。

    而毫无疑问,相比于《千恋万花》而言,更被人所熟知的《博德之门3》自然也会拥有更高比例的差评。这个事实造成的结果是,尽管都是“好评如潮”,但一万六千人评测的《千恋万花》好评率是99%,而四十八万四千人评测的《博德之门3》好评率是96%。而这个在城堡里找猫猫的99%好评的小游戏只有两千多个人评价。我们可以得出一个大胆的结论,V社极其有可能只是简单地将好评数量除以总评测数量,然后从高到低简单地排序,便让《千恋万花》 成为了第一。
    这个问题甚至在Steam评测的评测里也大量泛滥,Steam的评论区采取了相当简单粗暴的算法,点赞越多的评论上去展示顺序就越高,自然猫猫们就往上跑了。而这个机制早已被开发商充分利用,来让自己的游戏获得不与其作品质量相符的评价。

    一个比较常用的方法是在短时间内发放大量的游戏Key,要求收到Key的玩家在Steam上写好评,就算只有20%-30%的玩家最终会在Steam上为游戏打好评,游戏的评价还是能够快速往上涨,以至于能够挤下其他更好的游戏,在商店页面获得优先展示。而有时,游戏开发商甚至还要面对玩家狂风暴雨般的差评,让“差评轰炸”变成了所有玩家开发商都被迫要学习和头疼的一件大事。

    刚刚过去的2023年毫无疑问是个游戏大年,而游戏界也同时憋了好几个“大”的。动视暴雪分别祭出了使命召唤19和守望先锋2这俩兄弟,一度占据了整个Steam差评榜的第一第二位,这俩游戏俨然变成了整个Steam平台上最垃圾的游戏。
    按理说,全世界只有不到10%的人喜欢的多人在线射击游戏,只要你上线,应该就能轻易跻身五百强,但直到今天,大多数人都以为凉凉的守望先锋,匹配速度反而比一代的时候还更快了。

    守望先锋2刚出的时候,几乎没有任何人看好,就连我这种前铁血暴白,都出了一期二十分钟的视频来骂它。但当这个游戏在去年8月11日上线Steam的时候,绝大部分刚上线的问题已经解决,整个游戏完成度已经提升了很多了。事实上,根据总监Aaron Keller的说法,守望先锋2刚上线到去年8月11日,只能算作“Early Access”模式,而8月11日上线Steam以后的版本才算正式版,是一个质量很高,能够吸引很多新玩家,甚至能让人忘记没有计分板、没有集体复活、切换英雄就得重新攒能量的守望先锋1的版本。还让我这个一代遗老成功放下了偏见,重新真香了起来。
    但游戏在Steam上线后,守望先锋2受到了Steam有史以来最惨烈的差评轰炸,超越了蒸蒸日上的三国杀,成了整个Steam的倒数第一。同样的情况出现在了COD19上。我敢说,现如今没有一款游戏的枪械设计手感能够比得过2023年的使命召唤,但依旧不妨碍玩家给予这款三年磨一剑的IW大作狠狠地差评。

    是什么让玩家对这俩作品有这么大怨气呢?答案可能很复杂。对于守望先锋2而言,在它在Steam上线前,玩家经历了一代末期便秘一般的超缓慢更新,动视暴雪性丑闻事件以及牵扯出来的麦克雷改名事件,姐夫疑似因为办公室内斗的离职,对LGBT+内容的宽容和二代本身灾难一般的游戏首发,早已怒气满满。
    Steam评论区的开放给了玩家发泄对这个游戏愤怒的渠道,进而对这个游戏发起了如潮般的差评。有意思的是,在狂欢结束,把守望先锋2送上差评如潮的王座之后,这个游戏的热度和口碑反而回暖了,甚至还在日本和沙特阿拉伯吸引了一大波新玩家。

    而使命召唤19就更加复杂了,自黑色行动4之后,使命召唤退出了Steam平台,PC端只能在战网上玩到接下来的16、17和18。2022年发售的19是时隔多年以后这个系列在Steam上的首次亮相,并且还标志着这个全球最火爆的射击游戏彻底地倒向了商业化,让19变成了需要400多块才能入场的超华丽枪械展览店,各种联动、炒作层出不穷,但玩家本身的消费能力却没有在2022年变高。仿佛过去穿着泛黄纯色T,跟你苦哈哈在马路牙子旁边抽烟的哥们,转头一变,成为了穿着Versace春季的新品成衣,Ami Paris的手工裤子,背着Feritag的邮差包,戴着Gentle Monster的太阳镜,踩着Balenciaga的老爹鞋一边在上海外滩Citywalk一边跟你聊Kanye West的音乐灵魂还在试图骗你钱的装b潮流哥,就差把“给我送钱”写在了脸上,这能不叫人火大?

    再加上使命召唤19还陷入了玩法和地图设计的困境上,取消了在前作中相当重要的“滑铲取消”,减缓了人物的移动动能,还创造出了KV莫洛MX守护者毒气弹龙息弹这些抽象劳什子,玩家只能回敬它一个大大的差评。而诸如金刚、咕噜、红霞岛还有浩劫前夕这些2023年真正的电子辣鸡,真正的“反向大作”,在Steam上的评分反倒还没动视暴雪的这俩难兄难弟低。这似乎表明,Steam的评测系统,即便是在负面反馈上,很可能依旧没有办法科学地展示结果,甚至很可能和整个游戏的质量都没有什么关系。
    那么,决定Steam游戏评分好坏的因素究竟是什么呢?现居加拿大,在华为公司上班的Dayi Lin也很关注这个问题。他和加拿大女王大学合作,专门就现今影响Steam评测分数的因素进行了研究,结果发现,Steam评测好坏和游戏本身的质量几乎没有太多的联系。和评分呈强正相关的,反而是游戏的价格、游戏的设计和游戏是否能够给玩家带来视觉冲击力。

    Dayi Lin团队使用了一种名为Coleman Liau Readability Index的公式,来对典型的游戏评测进行审查。这是一种1975年出现的语言学分析公式,用来客观地表现一段文字中所存在的可读信息量。一段文本的可读性越高,信息量越少,CLI指数也就越低,反之亦然。

    很显然,一段评论的CLI越高,越能够帮助玩家决定是否购买这款游戏,还能帮助开发者去更好地修改游戏。那么Steam评测的算法应该更趋向于推荐高CLI的文本。然而Dayi Lin团队对众多Steam评论区的内容进行数据整理和分类后发现,有71%的Steam评论是没有任何意义的,他们或是简单的一句话评测,或是在玩一些和游戏没有任何关系的梗,甚至还可能具有欺骗性。

    这些人给出的好坏指标没有任何意义,但却占据着整个Steam绝大多数游戏的评论首页,左右着一个游戏旁边评价的好坏,甚至还主导着玩家的购买权。前面也说过,甚至已经有开发者通过各种方式让自己的游戏获得更多不正当来源的好评。你很可能已经被不科学的Steam评测系统误导,被开发商可能的诈骗手段欺骗,花了不必要的钱,买了根本不想玩,但却“好评如潮”的游戏。这,便是目前Steam评论区里出现的最大的现实问题。

    那么,应当如何解决目前的问题,让Steam的评论区算法变得更加科学呢?其实,已经有相当多的人注意到了这个问题,并且作出了他们自己的尝试。2009年,芝加哥大学的一位叫Evan Miller的PhD在网上写了一篇叫做《如何不按平均评分排序》的文章,详细讲述了包括Steam在内的一众网站的评分排名为什么有问题。

    在Steam的平均评分算法下,如果游戏A有2个好评和0个差评,游戏B有100个好评和2个差评,那么就算更多人玩游戏B,并且绝大多数人都给了它好评,Steam依旧会认为游戏A要比游戏B要好。Miller认为,正确的做法是使用一种名为威尔逊(Edwin B. Wilson)置信区间的方式,计算出一个游戏好评比例在置信区间内的下限,从而赋予这个游戏可靠的排名分。

    但是,如果要通过这个方法来计算游戏的排名,需要建立一个庞大的SQL数据库,结果也并不是特别准确。直到2018年,一位Reddit网友注意到了Miller的论文,并且改进了他的算法。这位名叫“tornmandate”的哥们使用了一种名为“拉普拉斯平滑”的方式,使得人们可以不用通过建立数据库,甚至不用计算平方根的方式来建立一个更为准确的排名。

    这个算法被全球最大的Steam数据监测网站SteamDB注意到了,把它运用到了自己单独建立的排名系统里。在这个排名里,原本排名第一的《千恋万花》的好评率从99%降到了96%左右,而《传送门2》《星露谷物语》《人类游乐场》《哈迪斯》《吸血鬼幸存者》《泰拉瑞亚》《环世界》《半条命Alyx》《求生之路2》和最近爆火的《致命公司》则变成了新的前十名。而在差评方面,倒数第一又变成了《三国杀》,守望先锋2进步到了倒数第5,虽然还是没打过倒数第7的《浩劫前夕》,但依旧可喜可贺。至于COD19,早就已经随着20的上线变成了DLC,美美地在排行榜里隐身了,论耍小聪明,还得是考迪克。

    虽然这个算法没法应用到评论区里,让更好的评论能够排到更前面,但至少在一定程度上,让Steam榜单和我们挑选的游戏变得更加科学了。
    不过,我们也可以注意到,更换排名算法仅仅只是让Steam的排名发生了一些变化,其仅仅只是一个插件,没有办法让评论区那些讨厌的猫猫和坤坤彻底绝迹。那么,有没有什么办法彻底改变Steam,让整个评测系统外加评论区都焕然一新呢?一个比较有意思的讨论已经在国外一些社区里蔓延,那就是把Steam的好评差评改成“五星打分制”。

    事实上,绝大部分评分网站,甚至包括一些围绕着Steam开发的游戏社区APP,都已经悄悄地把评分系统改成了五星制,只有Steam一家还在坚持着本心,使用着他的“好评”和“差评”。随着游戏的发展,我们越来越难以用“好”和“差”来垄断地评判一款游戏。
    例如,去年TGA年度最佳游戏提名里,有至少三款游戏至今都在面临着严重的优化问题。如果给博德之门3,王国之泪和Alan Wake II笼统地评为“好评”,认为他们是完美无缺的游戏,就是对这些客观存在的优化问题本身的无视,但如果就因为一些优化问题就给这三款游戏送上“差评”,似乎又有点过于极端。

    再加上还有一众长短板都非常明显的独立游戏,育碧的3A罐头游戏,相对于枪车球而言比较小众的4X、模拟经营类游戏,以及像Remedy这样本身就非常挑受众的游戏,评价起来需要考虑的因素都非常复杂,不是简单的好差评就能覆盖的。虽然现如今要么打五星要么打一星的极端评论已经成为常态,“C”形打分作品早已到处可见。但至少,五星评分能够更尊重那些想要更客观评价游戏的人。
    然而这样的修改意见也有反对的声音。反对者认为,Steam是商品购物中心,而不是Metacritic这样的严肃评测机构,本质上是一个卖游戏的,不应当更加严肃化。再者,Steam已经累积了巨量的基于好评差评体系的数据,用户早就已经养成了好评差评的习惯,怎么把这些数据转换成五星制,同时也让用户习惯新的评分系统也是一个实际的大问题。但与此同时,大量的垃圾信息也客观地存在于Steam评论区之中,已经成为了Steam目前生态里最迫切需要解决的问题。
    面对这样的难题,是简单的过滤评论,修改底层评分算法,还是干脆直接不破不立,打破重来,建立一套更科学的评分体系,各位朋友们又是怎么看的呢?欢迎大家在评论区发表自己的看法。
    级别: Lv.2
    发帖
    1423
    MB
    70
    MD
    26
    本月打卡
    24
    活跃度
    17
    YQBD
    0
    国库券
    69
    只看该作者 1楼 发表于: 02-14
    bangumi 和 VNDB 也都不是简单算术平均。不过光评分信息量太少,还是要根据自己的喜好来决定
    级别: Lv.4
    发帖
    4629
    MB
    187
    MD
    120
    本月打卡
    5
    活跃度
    16
    YQBD
    0
    国库券
    53
    只看该作者 2楼 发表于: 02-14
    事实上,Steam评分最高的十款游戏里,有九款是独立游戏,其中有五款是可爱的猫猫,只能说猫好,人好不好就不一定了。


    这个太魔幻了
    描述
    快速回复

    您目前还是游客,请 登录注册
    如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
    认证码: