「算法量度」游戏复杂集结的量度和应用
游戏常识图谱 · 游谱
早期对游戏的刻画主要依赖游戏描摹文本,通过分词时代索取纰谬字进行浅易描摹。关联词,游戏作为一种和会了好意思术、音乐等多种艺术体式的“第九艺术”,其复杂性和各样性远非浅易纰谬字所能涵盖。
为了更全面地刻画游戏,咱们构建了名为“游谱”的游戏垂直界限常识图谱,这是一个多模态的常识图谱,聚集了民众约 200 万款游戏实体,涵盖主机、PC 和手游三大类游戏。
游谱和会了文本、图像、音效等多种信息,并通过 NLP、CV、音频等时代进行处理和分析,从而更全面地刻画游戏的各个方面,举例:
文本信息:游戏称呼、类型、描摹、纰谬词等。图像信息:游戏截图、图标、变装形象等。音效信息:游戏音乐、音效等。交互信息:游戏玩法、机制、操作步地等。
通过多模态常识图谱的构建,咱们概况更深刻地领略游戏,并为游戏保举、评估、运营等场景提供更精确的数据守旧。
版块迭代
游谱的第一个版块
游谱 1.0
,也就是游戏常识库,于 2015 年运转构建。那时,为了守旧新游戏的拉新责任,需要索取游戏的特征信息。关联词,游戏作为一种超媒体,包含了文本、图像、音效以及与玩家的交互等多种难以量化的特质,对其进行全面刻画濒临着雄壮挑战。
由于那时的时代条目和东谈主力资源有限,咱们遴选从文本信息切入,构建了第一个版块的图谱。该版块主要包含公司、游戏称呼、游戏类型、游戏纰谬词、游戏描摹等信息,并期骗分词、词性标注、LDA [1] 等当然说话处理 (NLP) 时代对这些文本信息进行处理和分析。
通过 NLP 时代的深刻挖掘,咱们奏效构建了约 80 维度的标签体系,阴私了 10 万款游戏。这一标签体系有用地刻画了游戏的特征,并为游戏保举、搜索、分类等场景提供了蹙迫的数据守旧。
跟着游戏业务的不休发展,对游戏刻画的需求也日益增长。早期版块的游戏常识库,由于维度有限,难以骄矜日益复杂的需求,举例:
游戏商场名次计算:需要更全面地了解游戏特征,才智准确计算其在商场上的弘扬。游戏用户界限预估:需要更深刻地分析游戏特质,才智有用计算其潜在的用户界限。游戏玩法和手感刻画:需要更紧密地描摹游戏的玩法和手感,才智更好地骄矜用户需求。
为了惩处这些问题,咱们参考了 DPE(Design Patterns and Elements)和 MDA(Mechanics-Dynamics-Aesthetics)等常见的游戏遐想框架,遐想了 40 维度的游戏画像 Demo 版块,即
游谱 2.0
版块。该版块的游戏画像不仅包含了游戏类型、题材、画面格调等基本信息,还涵盖了游戏玩法、难度、办法、奖励机制、交互步地、故事布景等多个维度,概况更全面地刻画游戏的特质。
游谱 2.0 版块的游戏画像象征着咱们在游戏常识图谱构建和应用方面取得了蹙迫进展,为后续版块的迭代和完善奠定了坚实基础。
1.0 版块游戏常识库波及的维度少,不外可以阴私大界限的游戏。2.0 版块游戏画像可以深度刻画游戏,不外构建本钱高。通过总结了各自纰谬的优污点,咱们并扬长避短,变成了多模态图谱的构建经过,即游谱 3.0 版块。主要包括抓续迭代优化游戏画像的维度, 并扩大打分的范围。同期为了裁减打分难度,咱们会笔据图谱在不同场景下的弘扬,对实体与属性进行调遣, 使得更少的选项可以刻画愈加丰富的内容。同期也在构建经过中引入更多的时代,让打分过程变得半自动化。这个过程会波及常识图谱、NLP、CV、音频等诸多计划时代。比喻非结构化数据处理中,可以通过 LLM 索取实体间联系。或者通过游戏截图产生的隐空间向量表征来索取游戏画风等图片计划属性。雷同的在校验补全上也寻找相应的配套有经营,比喻游戏名的通常并不单是基于文原来作念,还可以笔据游戏的图标来作念通常度筹画。
游谱 3.0 版块的上风:
多模态信息和会:不仅包含文本信息,还和会了图像、音效等多模态信息,概况更全面地刻画游戏的特质。维度更丰富,本钱更低:通过优化维度和引入半自动化打分时代,在保证刻画才智的同期裁减了构建本钱。应用场景更鄙俗:可以应用于游戏保举、搜索、分类、评估等多个场景,并取得了邃密的效果。
游谱 3.0 版块的构建和应用,象征着咱们在游戏常识图谱界限取得了蹙迫进展。异日,咱们将无间探索多模态信息和会、图神经集结等前沿时代,为游戏行业带来更多翻新和价值。
通过多年累积, 现在游谱为游戏垂直界限界限最大的图谱。而况提供了一系列惩处有经营,包括新游戏发现、游戏及公司评估、刊走运营等阶段的就业。这些就业可以匡助用户快速找到符合的游戏,计算游戏的商场弘扬和用户界限,以及提供精确的玩家画像和游戏保举。比喻在新游戏拉新场景,保举等场景效果提高在10%+。
OGB 比赛获奖
终末咱们总结计划教会进入了 NeurIPS 2022 OGB-LSC Wiki90mV2 的比赛,取得了第三名的好得益,具体可以参考 Solution for OGB-LSC Wiki90mV2 [2]。此外还取得了常识图谱学习竞赛 ogbl-wikikg2 第别称(见下图,详见[3])。
游戏酬酢集结 · 游缘
酬酢集结经常指的是东谈主与东谈主之间的计划和互动,举例熟东谈主集结、生分东谈主集结等。关联词,除了这些常见的酬酢集结,许多垂直界限也存在着特有的酬酢集结,游戏界限就是其中之一。在游戏中,玩家之间会缔造起各样酬酢联系,举例好友、队友、公会成员等。这些酬酢联系会对玩家的游戏步履产生蹙迫影响,举例更紧密的酬酢联系经常意味着玩家在游戏中更活跃、粘性更强。施行中的酬酢集结经常由许多小结构组成,举例社区、圈子等,其复杂度额外高。以大型游戏为例,其好友联系集结可能包含上亿个节点和几十亿条边,从中找出法例并进行有用分析,濒临着雄壮的挑战。为了更好地刻画和分析游戏酬酢集结,咱们构建了名为“游缘”的游戏酬酢集结常识图谱。游缘在基础的联系链数据上进行综合,变成了包含集结标签和个东谈主标签的酬酢联系画像体系。
高影响力玩家识别
在游戏酬酢集结中,一些玩家由于其活跃度、影响力等要素,对其他玩家产生着蹙迫的影响。识别并期骗这些高影响力玩家,可以匡助游戏运营者有用地提高用户活跃度和留存率。咱们基于 Topical Affinity Propagation (TAP) 算法[4] 识别游戏内的高影响力玩家。TAP 算法主要基于概率图集结,通过筹画影响力在集结中的传播过程,识别出对其他玩家影响最大的玩家。
斟酌影响力传播:TAP 算法不仅斟酌玩家本身的活跃度,还斟酌其在集结中的影响力,概况更准确地识别高影响力玩家。无监督学习:TAP 算法无需东谈主工标注数据,可以自动学习集结结构,识别高影响力玩家。
基于识别出来的高影响力玩家,咱们在多款业务作念了好友调回行为。具体是为高影响力的玩家提供潜在调回玩家的列表,由玩家我方遴选应该调回谁。最终在多个业务上实验,并取得了可以的效果。
千亿图神经集结
跟着游戏酬酢集结界限的加多,变成千亿的联系链和社区集结,涵盖了不同的酬酢联系。分析量度这种大界限游戏复杂集结,并保管它的自若,成为了游戏生态中的蹙迫一环。率先,需要高效的图筹合算法守旧。其次,在着实场景,咱们能采集到的标签经常很少。怎么将这一大部分无标签数据为咱们所用,提高在保举任务上的奏着力,是咱们要点探索的标的之一。
业界主流的针对大图筹画的优化纰谬主若是采样。FastGCN [5] 在每一层以度数为权重采样固定数目节点,采出来的子图可能过于疏淡。而 ClusterGCN [6] 这么分而治之的纰谬,可以相比高效的罢了高度并行。关联词,大图分割难度大,Metis 图分割算法不成处理千亿界限的大图。切图势必会带来信息亏空,影响图筹画效果。GraphSAGE [7] 通过学习一个对邻居极点进行团员暗意的函数来产生办法极点的 embedding 向量。FastGCN 采样的是图中的极点而不是邻居。通过界说样本的损成仇样本梯度的蒙特卡洛近似筹画积分,并可以进一步篡改采样踱步来减少近似方差。
为此,咱们提议了 LPS-GNN 框架,差异对图分割和子图数据增强进行了优化。此外,咱们的框架可以生动的遴选即兴 GNN 算法。率先关于大界限 GCN 框架的第一部分图分割算法。现在主流的图分割算法有两大污点,一是能处理的图大小仍有放弃,二是很容易行程超等社区,而超等社区关于并行筹画的负载平衡性能有额外大的影响。在现存图分割算法里,Metis 是弘扬较为自若的经典算法。关联词,Metis 可以处理的图大小有限。为此咱们遐想了基于 label Propagation 的 LP-Metis 图分割算法。它勾通了社区发现和 Metis 的优点。咱们率先用标签传播算法多伦迭代进行多档次图合并,在对最终的缩略图作念Metis分割图后,递归得到原图分区。标签传播算法保留了原图的蹙迫结构信息。然则针对其容易变成超等社区的劣势,咱们遐想了 stable 机制,在标签传播时同期斟酌邻居的情况和子图的大小,以此来保险并行算法的负载平衡。最终咱们的 lpmetis 图分割算法,可以在 9 小时跑完千亿大的图,而况与其他图分割算法对比,它切图更均匀,保留的边更多,速率更快,且切出来的图应用于卑鄙 GCN 任务准确度更高。
切图会带来信息的亏空。为此咱们遐想了一系列子图数据增强的纰谬,来提高子图质料,已减小图切割带来的信息亏空。咱们率先借助大盘联统统据的力量,使用无监督 GNN 算法学习基于玩家大盘联系集结来得到玩家合座的游戏酬酢偏好作为单游戏单场景的信息补充。在识别舞弊玩家这么的标签较少的场景下,可以有用的提高计算准确度。其次,斟酌到每个子图只保留了局部信息,咱们将子图手脚节点,子图之间变成有权重的边,组成了包含了全局信息的缩略图。对该缩略图进行表征学习可以得到通盘大图的全局信息。除了特征增强,咱们还尝试了对联图结构进行优化。咱们尝试了不同的计策,比如立时删掉一些边,基于表征通常度来对图的边进行调遣。但从松手泄漏,最优的纰谬是基于主见首领对图的影响更大,咱们去除了子图中 pagerank 最低的 5% 的节点对联图结构进行去噪。这一步是带来了 4.6% 的准确度的提高。此外,咱们还发现关于超等大图,只采样一部分子图进行多伦迭代锤真金不怕火由于对全图进行锤真金不怕火。不仅时期显耀下跌,准确度也显耀提高。
最终,应用到本色场景时,基于不同的办法和数据,咱们可以生动遴选符合的 GNN 算法。该框架在腾讯游戏多个场景落地,在线上 AB 实验中均取得显耀效果提高。
好友保举
在游戏内有许多排序的场景,需要给玩家按照他们的喜好来保举他们可能感风趣的好友、谈具、游戏、玩法模式等。其中一个场景是好友调回行为,当玩家流失不再登录游戏时,咱们会期骗照旧流失玩家的好友来邀请他们转头游戏,并赐与两边奖励。为了罢了这一办法,咱们需要对活跃玩家的统统已流失好友进行排序,将更有可能经受邀请转头游戏的好友排在前边。
这个问题濒临两个挑战。率先,玩家在游戏内的步履各样,咱们需要期骗他们的历史步履和特征来提高升沉率。其次,施行场景中存在大齐无标签数据。以好友调回行为为例,有标签的是指在往期行为中曝光过的好友,被邀请且回流是正样本,未被邀请和被邀请未回流是负样本。但只好 0.5% 的数据有标签,咱们需要期骗 99% 以上的无标签数据来提高保举任务的奏着力。
往日的保举纰谬经常接管章程或节点分类纰谬,比如优先保举与玩家交互更多的好友。但这些纰谬莫得同期期骗统统参与用户的特征和历史交互。为了惩处这个问题,咱们将好友排序问题从头界说为链路计算问题,判断两个玩家之间是否存在奏效的邀请边。这么,咱们可以同期斟酌两个玩家的特征、历史交互特征和历史行为信息。咱们尝试了多种链路计算纰谬,包括传统的启发式算法、基于 embedding 的纰谬、凯旋对边的特征锤真金不怕火分类模子以及使用模子自动学习权重的 bilinear 纰谬 [8]。在离线实验中,bilinear 纰谬的效果清亮优于其他纰谬。
关联词,bilinear 纰谬莫得充分期骗交互特征,而咱们不雅察到交互特征在计算邀请边时是蹙迫的判断依据。受到常识图谱表征学习论文 ConvKB [9] 的启发,咱们遐想了 Edge CNN 算法,将边两头玩家的特征和交互特征和会起来建模。该算法克服了 bilinear 纰谬莫得斟酌交互特征的污点,在线上好友排序场景中提高了4.23%的升沉率。关联词,Edge CNN 只可学习归并维度特征的计划性,不成开脱学习即兴两维特征之间的联系。因此,咱们遐想了 Edge Transformer [10],期骗多头注重力机制充分学习即兴两个特征之间的计划性。在在线上实验中,Edge Transformer 进一步提高了 2.2% 的升沉率。
左:Edge Transformer模子,右:Edge MAE模子
由于链路计算莫得斟酌图结构的全局信息,咱们使用特征传播增强计策,在判断一条边是否存在时,斟酌了该玩家的其他好友的气象和特征。这个操作可以用 spark 罢了踱步式并行筹画,而况在 OGB 竞赛中取得了第别称 [11]。此外,为了充分期骗无标签数据,咱们遐想了 Edge MAE 预锤真金不怕火模子 [10],通过 encoder-decoder 结构学习无标签样本中的集结结构信息。在有监督任务上,Edge MAE 弘扬出了自若的效果提高,并逾越了学术界最前沿的算法。
咱们的链路预筹画法不仅在好友保举场景中落地,还应用到了其他场景,比如谈具保举。在线上实验中,咱们的算法带来了可以的购买率提高。
总结
腾讯游戏 Deltaverse 在大界限游戏复杂集结量度中取得了丰硕恶果,并将其奏效应用于多个场景,有用提高了游戏运营和保举的着力和效果。异日,咱们将无间探索 Graph+AI 时代,为游戏行业带来更多翻新和价值。
参考文件
[1] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." Journal of machine Learning research 3, no. Jan (2003): 993-1022.
[2] Feng Nie, Zhixiu Ye, Sifa Xie, Shuang Wu, Xin Yuan, Liang Yao, Jiazhen Peng, and Xu Cheng. "TIEG-Youpu’s Solution for NeurIPS 2022 WikiKG90Mv2-LSC."
[3] https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2
[4] Jie Tang, Jimeng Sun, Chi Wang, and Zi Yang. "Social influence analysis in large-scale networks." In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 807-816. 2009.
[5] Jie Chen, Tengfei Ma, and Cao Xiao. "FastGCN: Fast Learning with Graph Convolutional Networks via Importance Sampling." In International Conference on Learning Representations. 2018.
[6] Wei-Lin Chiang, Xuanqing Liu, Si Si, Yang Li, Samy Bengio, and Cho-Jui Hsieh. "Cluster-gcn: An efficient algorithm for training deep and large graph convolutional networks." In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, pp. 257-266. 2019.
[7] Will Hamilton, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs." Advances in neural information processing systems 30 (2017).
[8]Bilinear — PyTorch 2.5 documentation
[9] Dai Quoc Nguyen, Tu Dinh Nguyen, Dat Quoc Nguyen, and Dinh Phung. "A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network." In Proceedings of NAACL-HLT, pp. 327-333. 2018.
[10] Liang Yao, Jiazhen Peng, Shenggong Ji, Qiang Liu, Hongyun Cai, Feng He, and Xu Cheng. "Friend Ranking in Online Games via Pre-training Edge Transformers." In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 2016-2020. 2023.
[11] https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-collab