作者Jeppe Theiss Kristensen、Arturo Valdivia*、Paolo Burelli
摘要 🔗
成功和准确地对关卡难度进行建模是玩家体验操作化的基本组成部分,因为难度是内容设计和调整中最重要且常用的信号之一。在具有中间里程碑的游戏中,如可完成的区域或关卡,难度通常由完成的概率或完成率来定义;然而,这种操作化存在局限性,因为它并未描述玩家在该区域内的行为。 在这项研究工作中,我们为解密游戏形式化了一个超越经典成功概率的关卡难度模型。我们通过使用参数统计模型描述游戏关卡内执行的动作分布来实现这一点,从而创建了一个更丰富的难度描述符。该模型在由触觉游戏收集的《Lily’s Garden》游戏数据集上进行拟合和评估,评估结果显示该模型能够描述和解释绝大多数关卡的难度。 关键词—玩家建模、难度建模、游戏设计、动态游戏适应性、生存分析
I. 引言 🔗
游戏设计的一个核心方面是难度及其对玩家体验的影响——如果游戏太容易,玩家就不会足够投入其中;如果游戏太难,玩家会感到沮丧,导致他们放弃游戏。在由离散任务或关卡组成的游戏中,管理难度的常见方法是通过控制玩家完成任务或关卡所需的资源,例如,可用的行动次数或解决谜题的时间。平衡关卡中可用资源的正确数量以获得所需的难度是一项复杂的任务,通常依赖设计师将难度的抽象描述与玩家行为和关卡中可控组件相关联的能力。 例如,在提供玩家有限行动或移动次数来完成每个关卡的解密游戏中,如三消或泡泡射击风格的游戏,描述难度的直接方式是测量玩家平均完成一个关卡需要多少尝试次数。这个数量通常被称为尝试完成次数,其乘法倒数是我们所说的完成率。这个定义对于识别玩家可能感到困惑并因此停止玩游戏的关卡,控制游戏内容的消耗速率,甚至启用不同的货币化策略是有用的。然而,这样的描述符只是以聚合的方式考虑数据,因此缺乏可能会告诉关于改变行动限制的影响或玩家接近完成的程度等细节的细粒度。这使得其在表达上相对有限,给设计师提供了很少关于如何调整难度的信息,因此将关卡调整的任务转变为试错程序。 在当前发布的大多数解密游戏中,成功或失败不是关于玩家在游戏中行为的唯一数据;通常会跟踪执行的动作摘要和使用的资源。如果正确建模,这些信息有潜力成为关卡难度的一个更丰富描述符的基础。特别是,玩家在尝试中使用的动作数量既有助于描述他们在关卡内的进展,又直接与一个重要的关卡设计方面——移动次数限制相关。
图1. 玩家完成数据中一个关卡所花费的动作数量的直方图。在动作限制接近M = 32时,可以清楚地看到分布中的明显截断效应。如果我们能够准确估计完整的分布(由红色曲线表示),则可以计算使用不同动作限制的完成率。
完成一个关卡所需的动作数量取决于许多因素,如玩家技能、关卡设置和运气。这导致玩家在每个关卡上花费的动作呈现出一定的分布(见图1)。本文的核心思想是,通过对这种动作分布的建模和理解,我们不仅可以评估完成率,还可以估计设计动作的影响,如改变移动限制,并更深入地了解玩家面临的挑战。 为实现这一目标,玩家行为模型需要既准确又可解释。因此,在这项研究工作中,我们研究了应用参数统计模型来表示潜在动作分布的方法。我们讨论了如何使用负二项分布对这种行为进行建模,并对这种建模方法在触觉游戏的热门移动解密游戏《Lily’s Garden》的数据集上进行了实证研究,并呈现和讨论了研究结果。
II. 相关工作 🔗
Flow [4] 描述了任务难度和用户技能匹配,从而产生引人入胜的游戏体验的心理状态。虽然难度可以分解为多个子组件(如认知、情感等 [6]),在需要将难度操作化的情况下,例如用于动态难度调整或自动化游戏测试,通常使用任务成功的概率作为难度的客观衡量标准 [5],[7],[9],[13],[15],[17]。这种解释得到了 Pedersen 等人的支持 [16],他们研究了超级马里奥兄弟中玩家情绪与关卡特征之间的相关性。在这里,感到受挑战的最大因素是关卡的完成率或类似的失败方面,如死亡次数。 在这项工作中,我们采用类似的概率定义:关卡的难度由胜率给出,实际上是完成率,可以计算为给定关卡已完成的次数除以该关卡上总尝试次数。然而,虽然将难度描述为完成率是直观的,但它并不能提供更深入和可操作的问题理解,例如,强加时间或行动限制如何影响完成率,或者玩家接近完成的程度。这种数据的性质是被审查的,因为我们没有关于完整游戏过程的信息,因此为了从中汲取应对方法的灵感,我们可以参考生存分析 [14]。
生存分析是统计学的一个分支,专注于估计未见或审查的数据,通常用于估计事件发生的时间。有多个例子使用这种方法来使用参数分布描述玩家行为:Feng 等人 [8] 使用广义威布尔分布来建模在线会话长度,Bauckhage 等人 [2] 测试了各种分布,包括威布尔分布和泊松-伽玛分布,以估计人们失去对游戏兴趣的时间。生存分析方法已被用于描述 [10] 中与游戏玩法相关的行为,在该研究中,作者调查了游戏 Flappy Bird 中关卡的感知难度的操作化。通过使用玩家和游戏测试 AI 数据,他们计算了一个经验生存函数 S(x),描述了在一个关卡中达到给定长度的尝试的分布。从中,危险函数可以用作感知难度的指标。
图2. Lily’s Garden 中一个关卡的示例。关卡目标在左侧指定,在游戏中的助推器在右侧。这些游戏中的助推器是非常强大的助推器,可以让玩家更轻松地完成关卡。
本文呈现的工作与这些最近的研究具有相似的性质,即我们试图通过使用参数统计分布来操作化和抽象游戏玩法的一个方面——即关卡难度。关键的不同点在于,本文提出的模型既建立在大量真实玩家游戏数据的基础上,又在此基础上进行了评估;此外,我们提出了一个描述难度操作化、确定适当分布并评估其有效性的一般性框架。
III. 方法 🔗
让我们从简要描述益智游戏机制开始这一部分。每个关卡要求玩家在预定的最大行动次数或移动次数M内收集一系列目标。每次移动包括通过点击其中一个相邻的棋盘块来消除一组相邻的棋盘块。通过同时匹配至少5个棋盘块的组来创建清除棋盘大面积的更强大的棋盘块是可能的。图2显示了一个关卡的示例。 如果玩家在不超过M次移动的情况下完成了所有关卡目标,那么我们称该尝试是成功的,玩家将进入下一个关卡。因此,每个玩家最多可以完成每个关卡一次。现在,如果玩家在没有完成所有关卡目标的情况下使用了所有允许的移动次数M,那么我们称该尝试是失败的。在这种情况下,玩家可以花费虚拟货币获得额外的移动次数(例如,+5),或者决定再尝试一次以牺牲一条生命。这些生命会随着时间自动恢复,并且通常每个玩家在任何给定时间最多可以获得5条生命。 对于这项研究,我们使用了从2020年06月01日至2021年01月01日之间收集的L = 4000个关卡的数据样本。对于每个关卡,每次尝试的可用数据包括使用的移动次数以及尝试是否成功。首先进行了数据清洗步骤,通过排除所有不完整的尝试,即由于游戏中的技术问题或玩家故意退出游戏而提前终止的尝试。我们还排除了使用特殊游戏内助推器的尝试,这些助推器通常会增加在移动次数限制M内完成的尝试的次数k = 0, 1, 2。最终的输入数据集包括完成关卡所使用的移动次数的频率(参见图1)和总体完成率,定义为成功尝试占总尝试次数的百分比,每个关卡平均有350,000次成功尝试。
图3. 展示完成一个关卡所使用的移动次数的观察频率。垂直虚线表示移动次数限制设置为M = 15。拟合曲线用虚线标记。左上角的子图表明观察到的频率几乎呈线性增长,导致拟合负二项分布的左尾。
该方法的目标是确定一个参数分布,该分布能够很好地适应完成一个关卡所使用的移动次数,即在移动次数限制M∗规定的截断点之上。拟合的曲线应该与观察到的频率相匹配,并且该曲线下的面积应该与观察到的完成率相匹配。作为说明,图3描述了拟合分布能够很好地描述观察到的频率,但未能匹配完成率的不良情况。我们可以期望这种情况发生,例如当观察到的频率的稳定增长几乎是线性的,因此被校准为分布的左尾时。这些想法在下面得到了形式化。 备注。在这里我们注意到,对于其他类型的游戏,输入数据集的定义将是类似的,例如,通过交换完成关卡所使用的移动次数的角色,改为完成任务所需的时间单位。
A. 模型参数的校准 🔗
给定一个具有移动次数限制M∗的关卡,让我们用Fˆ表示完成该关卡所使用的移动次数的经验分布。让ˆc表示观察到的关卡完成率,即在最多M∗次移动内完成关卡的尝试的百分比。如图1所示,经验移动分布Fˆ在右侧被M∗截断,但我们假设这些数据对应于基础未截断分布F的受限观察。让我们假设Fˆ和F具有概率密度函数,并分别用fˆ和f表示。 在这些术语中,我们的目标是找到分布F的一个参数模型,使得满足以下两个条件:
图4. 展示完成关卡所剩移动次数的均值和方差之间的线性关系。
条件1. 拟合分布F在整个范围(0,M∗]内紧密地跟随经验分布Fˆ。 条件2. 量F(M∗)近似于观察到的完成率ˆc。 在本文中,我们将条件2仅视为验证步骤;也就是说,我们不将此条件明确强制作为校准算法的一部分。决定背后的理由是,我们的目标是在这里建立一个基准,仅通过拟合截断数据来解释多少。换句话说,我们正在评估条件1能够确保条件2同样得到满足的程度。
在本文中,我们将条件2仅视为验证步骤;也就是说,我们不会明确将此条件作为校准算法的一部分。决定背后的理由是,我们的目标是建立一个基准,仅通过拟合截断数据来解释多少。换句话说,我们正在评估条件1能够确保条件2同样得到满足的程度。 现在让我们描述模型参数的校准策略。给定分布F的一个参数模型,我们通过在范围(0,M∗]上应用非线性最小二乘(NLLS)回归来获得相应的参数集θ,在这个范围内我们可以完全观察到Fˆ。这种方法需要一个参数θ的初始猜测θ0作为输入,如果选择不当,可能会因拟合不佳而导致假阴性。为了最小化这种风险,我们通过解决以下优化问题来选择初始猜测:
这里,Θ表示初始猜测θ0的搜索空间;f(θ0)是我们通过使用初始猜测θ0从NLLS得到的分布;D是分布Fˆ和F(θ0)在范围(0,M]上的距离。在这里,我们将使用Kolmogorov-Smirnov距离(参见[1]),在这种情况下,它简单地由表示:
请注意,在这些术语中,条件1可以重写为D(fˆ,f(θ0∗())) < δ,其中δ足够小,比如说5%。`
B. 底层参数分布的要求 🔗
我们的目标分布(即,完成级别所需的移动)仅采用非负整数值。因此,为了拟合参数模型,我们可以使用非负整数值分布(例如,负二项分布),或者可以使用非负连续分布的离散化(例如,伽玛分布)。 为了限定我们可以用于分析的潜在分布列表,我们首先查看图4所示的模式,该图表明完成级别所需的剩余移动次数的均值和方差之间存在强烈的线性关系。更具体地说:让M (n, i)表示第i个玩家在第n次尝试通过级别时剩余的移动次数。该图的每个点对应于我们样本中级别 = 1,…,L(L = 4000)中的一个,坐标轴x和y分别等于M (n, i)的均值µ和方差σ,其中n和i变化在观察期间发生的所有尝试中。虚线显示了对σ2关于µ进行线性回归的结果,没有截距 - 即,我们考虑形式为σ2 ≈ ψµ的模型。这种拟合的好坏(即,R2 ≈ 85%,p值 < 10^(-16))表明了均值µ和方差σ2之间的强线性关系,进一步暗示了我们对M的参数模型应满足的必要条件。
C. 负二项分布作为基准线 根据以上内容,很明显,最自然且非平凡的起点是考虑负二项分布,因为它是一个众所周知的非负整数值分布,展现出其均值和方差之间的线性关系: f(m) := m + n m - 1 (1 - p)^n p^m,对于m = 0, 1, 2, … 至于初始猜测的搜索空间,我们将使用Θ := [1, 10M] × [0.001, 0.999]。 这里有两点需要注意:首先,注意到负二项分布也被称为Poisson-gamma分布,因为它等价于强度参数λ的Poisson分布,其中λ本身可以通过遵循伽马分布而成为随机变量。 其次,一个更复杂的方法是使用Tweedie分布的离散化,对于Tweedie分布,众所周知σ2 = ψµp,或者甚至是Poisson-Tweedie分布,对于该分布σ2 = µ + ψµp[3],[11]。然而,我们将这个调查留给未来的工作,因为我们的初步探索(参见图4)表明,考虑一个离散参数p = 1可能已经提供了一个非常好的起点。
IV. 结果 🔗
为了评估我们方法的有效性,我们在谜题游戏《Lily’s Garden》的4000个级别上进行了测试:首先,我们分析了所有级别上拟合分布参数的整体结果。在第二步中,基于前一节中描述的关于拟合分布的条件,我们讨论了生成模型拟合的好坏,从而评估模型描述玩家行为的能力。最后,我们验证模型是否能够描述级别的难度经典定义 - 即完成概率 - 以及前述行为。
图5. 拟合参数p和n的对数线性图,每个级别对应一个。颜色表示玩过该级别的用户数量。
A. 分布参数 🔗
图5显示了从在谜题游戏《Lily’s Garden》的4000个级别上执行算法中获得的拟合参数。每个点代表一个负二项模型的参数(n,p),该模型适用于完成每个级别 = 1, 2, …, L所使用的移动的分布。可以看到,大多数(即83%)的级别都落在由0.001 < p ≤ 1和1 ≤ n ≤ 200()定义的中心簇内。对于这个中心簇,显然参数(n,p)遵循对数线性关系log(n) = ap + b关系(R2 = 87%),其中a和b是不依赖于级别的全局常数。这表明级别的移动分布可能由单个参数驱动,这将使级别设计者能够轻松地将级别相互比较。 为此,可以考虑所谓的尺度参数(ϑ),它描述了分布的扩展性 - 即,尺度参数越大,分布越分散。这个数值参数通常在概率分布的参数族的背景下考虑,在负二项分布的情况下,它由这个简单表达式给出。
请注意,从这个表达式中我们可以推导出(n,p)。
还有另外两个显著的簇。第一个簇由p = 0.001定义,包括了15%的采样级别。这个簇中所有实例的共同特征是已达到参数拟合阈值,这将在第四节详细探讨。第二个簇由n > 200定义,包括了我们样本中的2%的级别。检查这个高n,高p的簇中的实例,我们遇到了要么是教程级别,要么是具有特定游戏机制的级别,这些机制引导玩家进行相对受限制的游戏玩法。
图6. Kolmogorov-Smirnov检验统计量D和拟合分布均值的对数对数图。颜色显示了预期完成率与实际完成率之间的相对差异。
值得注意的是,按设计,教程级别往往表现出比其他级别更低的方差,要么通过固定随机种子,要么通过整体布局和级别的理想策略。这种对随机性的降低可能导致移动分布的方差较小。同样,我们观察到,包含限制游戏玩法的引导机制的级别会导致玩体验不那么随机。这样的信息对级别设计者可能特别有用,因为创建完全由机会决定胜利机会的级别会剥夺玩家的主动性,可能并不是很有趣。因此,能够识别这样的级别可以提供对级别随机性的更量化度量。
B. 条件1和拟合的有效性 🔗
在第III-A节中提出的初始条件是,拟合分布F应该与经验分布Fˆ非常接近。为了确定这一点是否成立,我们使用由方程(1)定义的Kolmogorov-Smirnov距离D。为了概述分布参数和D之间的关系,图6绘制了D与拟合分布的均值(µ = n / (1−p))之间的关系,并根据相对差异(c −cˆ)/cˆ进行着色。我们发现99%的级别满足D < 5%,这意味着在许多情况下拟合分布很好地描述了经验数据,因此满足了条件1。
需要注意的一点是,在某些情况下,在拟合过程中达到了参数边界。观察到大约15%的级别发生了这种情况,通常导致p = 0.001。这些级别出现在图6中最右侧的簇中,其定义为µ > 103。当经验移动分布仅呈现稳定增长趋势时,通常会发生这种情况,导致仅使用分布的尾部最能描述这种简单行为的情况。我们认为这些示例由于方法未收敛而被视为拟合不良,并在接下来的分析中将其排除。在继续分析的下一部分之前,我们首先尝试分离显示良好拟合的级别与其他级别之间的差异。具体来说,我们首先调查不同的游戏机制是否会影响移动分布。为此,我们使用逻辑回归模型来建模级别拟合是否收敛,以估计特定棋子的影响。结果表明,计时机制通常会导致更好的拟合,而一个特定的生成机制(即,首次与生成器交互后目标出现)会导致拟合不佳。
图7. 观察到的完成率与校准算法得到的拟合结果之间的比较。
值得注意的是,用于此分析的数据忽略了使用各种游戏内辅助道具(例如额外移动、助推器等)的尝试。如果玩家发现某个级别很困难或令人沮丧,玩家后续的尝试可能会被忽略,因为他们使用了帮助道具,扭曲了移动分布。许多观察结果支持这一假设:当仅考虑玩家的第二次尝试的移动分布时,成功收敛的级别比例增加了约+5%。此外,在玩家使用游戏内助推器和辅助道具的尝试中,非收敛示例比收敛示例频率高出多达+18%;因此,对于非收敛示例,平均忽略的尝试更多。在我们的数据处理步骤中,这些尝试被过滤掉,因为它们显示出明显的曲线人为改变,特别是在级别的最后两个移动中。因此,对于拟合不一致的部分解释也可能与数据有关。
C. 条件2:完成率比较 🔗
图8. 上方(a-c)和下方(d-f)的子图分别对应观察到的完成率ˆc ≈ 20%和ˆc
≈ 40%的实例。
第一,第二和第三列分别举例说明了我们发现观察到的完成率和拟合完成率之间的好(a和d),中等(b和e)和低(c和f)一致性的情况。
第二个条件规定,预期的完成率Fˆ(M∗)应接近观察到的完成率cˆ。为了评估这个条件,我们首先注意到这两个值有强烈的相关性,如它们的皮尔逊相关系数ρ = 83%所示。此外,图7暗示观察到的完成率和拟合完成率通过线性关系c ≈ 1.035ˆc - 0.104 (2)相互关联,调整后的决定系数R2 = 75%。公式(2)暗示完成率往往被低估,特别是在完成率低的情况下(即,对于非常困难的级别,平均玩家需要相当于8次或更多的尝试才能完成级别)。基于这些论点,我们可以认为条件2也得到了满足。
在实践中,关卡设计师通常使用完成率的范围而不是点估计来工作,这样他们可以将关卡分类(例如,“简单”,“非常困难”)。因此,当前的结果是积极的,也很有希望。然而,人们也可以查看完成率的点估计,例如在绝对百分比误差ε := |c /ˆc - 1|的指导下。通过这样做,我们观察到ε的中位数大约是49%,并且根据公式(2)进行调整后,它降低到23%。 为了更好地理解导致上述低估(即,情况c < cˆ)的原因,我们在图8中举例说明了一系列场景中会发生什么: 场景1,如子图a和d所示,对应于ˆc和c之间的相对误差较小的情况。子图b和e中的场景2展示了误差中等的情况。最后,子图c和f中的场景3对应于大幅低估的情况。在场景3中,可以看到只用到了分布的尾部来描述数据。在拟合方法未收敛的情况下也观察到了类似的现象:由于可用的玩家数据和完成次数的稳步增加,只需要尾部就可以描述这种相对简单的行为。然而,与那些情况相反,这些级别更像是一个连续体:在完成率低的地方,更多的数据被审查,因此更可能低估,而对于更高的ˆc值(如场景1和场景2),我们有更多的关于分布的信息可用,这进一步限制了f。 为了看看是否有任何特定的游戏机制可能导致完成率之间的差异,使用了类似于第IV-B节的方法。而不是使用逻辑回归来预测是否拟合良好,而是使用线性回归来预测预期和实际完成率之间的差异。结果与前一节关于成功拟合的发现相似:具有时间或其他游戏限制机制的关卡导致更高的预期完成率。有趣的是,具有颜色匹配机制的棋盘部分往往导致过低的预期完成率。可能解释这一点的一种方法是,可以以稳定的速度完成的目标(如颜色机制)导致更稳步增加的坡度分布,由于在拟合中有更多的自由度,导致完全低估了完成率。另一方面,时间机制可能需要更多的规划,这可能表现为更受限制的最小移动次数,这导致围绕给定移动的分布更明确,而且方差更小,这可能对建模方法有害。也就是说,还有其他未考虑的因素(如关卡拓扑),因此需要更多的工作来建立完成率差异和游戏机制之间的任何联系。
V. 讨论和未来的工作 🔗
在85%的关卡中,我们能找到一个描述玩家数据的负二项分布。此外,我们能够推导出不同的游戏玩法特征的估计,如关卡随机性和棋盘部分描述符,这可以给游戏设计师提供额外的见解。也就是说,关于当前的建模方法和可能的使用情况,还有一些未解决的问题,这将在本节中讨论。
图9. 二维图,展示了初始完成率和移动限制的变化如何影响预期的完成率变化。初始完成率被分成跨度为2%的区间,并根据图7的趋势调整新的预期完成率。
A. 改变移动限制 🔗
讨论的一个用例是,通过建模这些分布,关卡设计师可以估计改变移动限制对完成率的影响。为了检查移动限制的变化如何影响完成率,图9显示了预期完成率的绝对变化如何取决于初始完成率和移动限制的变化。作为一个经验法则,完成率似乎平均变化2%,在高或低完成率时的敏感性略低。从与关卡设计师的讨论中,这与他们常用的启发式方法是一致的。 另一个见解是,增加或减少移动是一个不对称的操作,其中移动减少时的变化率更大。虽然这也是预期的,因为负二项分布本身可能是不对称的,并且可能有一个长的右尾(因此对增加移动的敏感度较低),但它表明,游戏设计师在移除时间或动作以增加难度时需要更加小心,因为这种不对称的变化。 这个论点的一个可能的局限性是,它假设如果移动限制改变,分布参数将保持不变。然而,这并不一定是真的,因为当玩家接近移动限制时,他们可能会改变他们的行为。例如,一个常见的策略是设置强大的棋盘组合,并在最后发动它们以最大化得分(无论是否有明确的得分)。
B. 玩家技能 🔗
图10. 某个AI代理完成特定的Lily’s Garden所使用的移动次数的直方图。虚线代表负二项分布的拟合。
感知的关卡难度不仅取决于关卡的随机性,还取决于玩家的技能。到目前为止,关卡的随机性与拟合分布的方差有关,但从逻辑上讲,移动分布也应受到玩过该关卡的技能的影响。事实上,这是关卡设计师在日常工作中经常遇到的现象:随着更多的玩家达到更高的关卡,完成率慢慢变化,这使得需要对所有关卡进行持续的维护。 作为下一步,研究关卡难度如何在使用不同玩家群体的纵向研究中随时间变化,可能会对玩家技能提供有意义的见解,并模拟这如何影响分布参数。然后,这可以用于更主动和自动的难度调整方法,确保新老用户都有连贯的游戏体验。
C. 游戏测试 🔗
游戏测试对于游戏开发者至关重要,因为这个过程在产品上市前提供了一种在安全环境中识别错误和潜在设计缺陷的可靠方法。然而,这个过程往往如此昂贵和缓慢,以至于游戏开发者越来越开始通过使用AI代理来自动化这个过程,例如,使用强化学习技术(例如[12]及其中的参考文献)。这个背景也为深入了解本文中提出的技术以及进一步的潜在应用提供了一个有趣的设置。 实际上,考虑到游戏测试代理是在与人类玩家相同的环境中进行训练的,我们可以让代理使用所有的正常规则和游戏机制进行游戏,但不受移动限制M`的约束。图10显示了[13]中考虑的一个游戏测试代理在测试给定关卡时生成的移动分布。这个特定的代理在与平均人类玩家相比的表现是次优的,但重要的是我们能够可视化其整个移动分布,甚至超过限制M。因此,我们可以在整个(0,10M]范围内拟合我们提出的负二项分布,即,不进行截断。 符合我们的期望,我们得到了一个非常好的拟合,如Kolmogorov-Smirnov距离D = 1.8%所描述的那样。这引发了关于游戏测试代理的以下问题:展现出负二项分布是否可以被视为声明AI代理以人类的方式进行游戏的必要条件? 最后,我们强调与[13]中报告的结果的另一个联系。在那项工作中,作者报告说,代理在给定关卡上的5%最好的运行是实际完成率的最强预测因素。显然,这个5%的百分位数是可以从拟合的负二项参数中明确推导出来的量。从这个意义上说,我们还可以研究这里提出的拟合程序是否可以进一步用作后处理策略,从子人类甚至超人类表现的游戏测试代理生成的数据中估计完成率。
D. 其他游戏 🔗
在这项工作中,我们研究了将所提出的方法应用于移动益智游戏的情况;然而,在我们的假设中没有任何规定排除了同样的分布不仅可以用于具有离散移动和行动限制的类似益智游戏,还可以用于平台甚至竞技游戏等其他类型的游戏。 一般来说,益智游戏往往非常注重尽快解决关卡目标。虽然一些游戏也提供分数,但影响移动分布的因素(随机性和技能)数量有限。然而,在其他类型的游戏中,可能有其他的因素和激励来玩游戏:在平台游戏中,玩家被鼓励去探索和尝试不同的策略,而在竞技游戏中,玩家可能希望尽快击败对手,随机性的作用比玩家的相对技能小。因此,未来研究的一个有前景的方向是在各种类型的游戏中使用这种建模方法来测试和验证其对不同玩家行为的普遍适用性。
VI. 结论 🔗
在这项研究工作中,我们开始寻找一种更丰富的方式来描述益智游戏的关卡难度。具体来说,我们提出玩家完成一个关卡的移动频率分布遵循负二项分布。使用来自游戏Lily’s Garden的4000个关卡的数据作为案例研究,结果显示: • 负二项分布能够描述大约85%的关卡的移动分布,而且这种方法可以轻易地扩展到其他类型的游戏。 • 可以使用一个参数——即规模参数ϑ——来描述分布的扩散,从而描述关卡。 • 这种更详细的难度描述使得:(i)估计改变移动限制的影响;(ii)估计关卡的随机性;和(iii)识别玩家在一个关卡上的行为偏差。 在剩下的大约15%的情况中,方法没有收敛;主要问题是由于数据只显示出增长趋势,这导致方法只使用分布的一小部分来匹配它。同样,该方法也倾向于低估观察到的完成率cˆ,特别是在完成率较低的情况下。因此,未来研究的一个可能的方向是扩展这个模型,并将cˆ作为建模的一个参数,而不是一个约束。这不仅有可能提高该方法的预测能力,而且最终可能实现估计玩家技能并动态调整难度,以确保最佳的玩家体验。
VII. 致谢 🔗
这项工作得到了丹麦创新基金和Tactile Games的支持。我们也感谢Arnau Escapa和Rasmus Berg Palm的富有成效的讨论。
结论 🔗
搬砖愉快!