第13章大模型在计算机视觉上的测试应用

13.5 大语言模型文生视频能力评测

13.5.1 视频质量评测的重要性

为什么需要评测视频质量

在基于大语言模型的文生视频技术中，视频质量评测的重要性不言而喻。这种技术涉及到将文本信息转化为视觉元素，然后再将这些元素合成为视频。在这个过程中，视频质量的好坏直接影响到最终的输出结果，也就是视频的观看体验。

首先，视频质量的好坏会直接影响到观众的观看体验。高质量的视频可以提供清晰的图像和流畅的动画，使观众能够更好地理解和享受视频内容。相反，低质量的视频可能会有模糊的图像、卡顿的动画和不同步的音频，这会降低观众的观看体验，甚至可能使观众放弃观看。

其次，视频质量也会影响到信息的传递。在基于大语言模型的文生视频中，视频是将文本信息转化为视觉信息的重要方式。如果视频质量低，可能会影响到信息的清晰度和准确性，从而影响到观众的理解和接受。

最后，视频质量也是视频制作和发布的重要考量因素。对于视频制作人来说，他们需要通过评测视频质量来优化视频制作过程，提高视频质量。对于视频发布平台来说，他们需要通过评测视频质量来选择和推荐视频，提高用户满意度。

因此，评测视频质量是非常重要的。通过评测视频质量，我们可以了解视频的优点和缺点，优化视频制作和发布过程，提高观众的观看体验和满意度。

视频质量评测的挑战和问题

虽然视频质量评测非常重要，但是它也面临着一些挑战和问题。

首先，视频质量的定义和标准是一个挑战。视频质量可能包括图像质量、动画流畅度、音频同步性等多个方面，每个方面都有多个可能的评测指标。例如，图像质量可能包括清晰度、色彩准确性和噪声等指标，动画流畅度可能包括帧率、延迟和卡顿等指标，音频同步性可能包括音视频同步误差和音频延迟等指标。因此，如何定义和选择评测指标是一个挑战。

其次，视频质量的评测方法是一个问题。目前，视频质量的评测主要有主观评测和客观评测两种方法。主观评测是通过人的观感来评测视频质量，它可以提供直观和准确的评测结果，但是它需要大量的人力和时间，且结果可能受到个人偏好和环境因素的影响。客观评测是通过计算机算法来评测视频质量，它可以快速和自动地进行评测，但是它需要复杂的算法和大量的计算资源，且结果可能受到算法和模型的限制。

再者，基于大语言模型的文生视频技术的特性也带来了一些特殊的挑战。例如，如何准确地将文本信息转化为视觉元素，如何有效地将这些元素合成为视频，如何处理和优化大语言模型的输出结果等。

最后，视频质量的优化和改进是一个挑战。评测视频质量的目的是为了优化和改进视频质量。然而，视频质量的优化和改进需要对视频制作和发布过程进行深入的理解和分析，需要结合多种技术和方法，这是一个复杂和困难的任务。

总的来说，视频质量评测是一个重要但是复杂的任务。我们需要深入理解和研究视频质量的定义、评测方法和优化策略，以应对这些挑战和问题。

例如，我们可以通过研究和比较不同的评测指标，来定义一个全面和准确的视频质量标准。我们可以通过开发和优化评测算法，来提高客观评测的准确性和效率。我们可以通过分析和理解大语言模型的工作原理，来优化文生视频的生成过程。我们可以通过实验和反馈，来改进视频质量的优化策略。

此外，我们还可以借鉴其他领域的经验和技术，来帮助我们进行视频质量评测。例如，我们可以借鉴图像处理和计算机视觉领域的技术，来评测和优化图像质量。我们可以借鉴机器学习和深度学习领域的技术，来自动化和优化评测过程。我们可以借鉴用户体验和服务质量领域的技术，来评测和改进观众的观看体验。

总的来说，视频质量评测是一个重要但是复杂的任务。它需要我们深入理解和研究视频质量的定义、评测方法和优化策略，需要我们结合多种技术和方法，需要我们不断地实验和反馈。只有这样，我们才能有效地评测视频质量，提高视频的观看体验和满意度，推动基于大语言模型的文生视频技术的发展。

13.5.2 VBench评测标准

VBench[13]是一个全面的视频生成模型评测套件，它的设计目标是为视频生成模型提供一个多维度、与人类感知对齐、富有洞察力的评估。

图13-30 VBench评测流程

VBench评测流程

以下是VBench评测流程的介绍，参见图13-30：

(1) 评估维度套件（Evaluation Dimension Suite）：VBench将视频生成质量分解为多个定义明确的维度，以便于进行细粒度和客观的评估。这些维度包括视频质量（如主题一致性、背景一致性、时间闪烁等）和视频条件一致性（如语义、风格等），详细评估维度清单参见图13-31。

图13-31 VBench生成视频质量评估维度

(2) 提示套件（Prompt Suite）：针对每个评估维度和每个内容类别，VBench设计了专门的提示（prompts）作为测试案例。这些提示用于引导视频生成模型产生特定的输出。

(3) 生成视频（Generated Videos）：使用一组视频生成模型，根据提示套件生成视频。这些视频将用于后续的评估和比较。

(4) 评估方法套件（Evaluation Method Suite）：对于每个评估维度，VBench设计了特定的评估方法或指定的流程来进行自动客观评估。这些方法可能包括计算特征相似性、美学质量预测、成像质量评估等。

(5) 人类偏好注释（Human Preference Annotation）：VBench收集了人类对生成视频的偏好注释，以验证评估方法与人类感知的一致性。这些注释也可用于未来调整生成和评估模型，以提高与人类感知的一致性。

(6) 多维度和多类别评估：VBench不仅在多维度上评估T2V（文本到视频）模型，还跨不同内容类别进行评估，以揭示模型在不同内容类型中的不同能力。

(7) 实验和洞察（Experiments and Insights）：VBench通过实验提供了对视频生成模型在不同维度和类别上的表现的深入洞察。这些洞察有助于理解现有模型的优势和劣势，并指导未来视频生成模型的架构和训练设计。

(8) 开源和社区参与：VBench计划开源其评估维度套件、评估方法套件、提示套件、生成的视频和人类偏好注释数据集。同时，鼓励更多的视频生成模型参与到VBench挑战中，以推动视频生成领域的发展。

(9) 结果可视化：VBench将评估结果以图表的形式进行可视化，如雷达图，清晰地展示不同模型在各个维度上的表现。

视频质量评估维度

视频质量是评估视频生成模型时考虑的一个重要方面，它主要关注视频本身的观感质量，而不考虑与文本提示的一致性。视频质量被进一步细分为两个独立的方面：“时间质量”（Temporal Quality）和“帧质量”（Frame-Wise Quality）。

(1) 时间质量（Temporal Quality）

时间质量关注的是视频帧之间的一致性和动态效果，具体包括以下几个维度：

主题一致性（Subject Consistency）：评估视频中的主题（如人物、车辆等）在整个视频过程中的外观是否保持一致。使用DINO（"Dense Interactive Network for Object Recognition"，密集交互网络用于目标识别）特征相似性来计算。
背景一致性（Background Consistency）：评估视频背景场景的时间一致性，通过计算CLIP（"Contrastive Language–Image Pre-training"，对比语言-图像预训练）特征相似性来实现。
时间闪烁（Temporal Flickering）：评估生成视频中局部和高频细节的不完美时间一致性，通过计算帧之间的平均绝对差异来实现。
运动平滑性（Motion Smoothness）：评估视频中生成的运动是否平滑，并遵循现实世界物理定律，使用视频帧插值模型的运动先验来评估。
动态程度（Dynamic Degree）：评估视频生成的动态程度，即使完全静态的视频在其他时间质量维度上可能得分较高，也需要评估模型生成非静态视频的倾向。

(2) 帧质量（Frame-Wise Quality）

帧质量关注的是不考虑时间质量情况下，每个单独帧的质量，具体包括：

审美质量（Aesthetic Quality）：使用LAION（”Large-scale Artificial Intelligence Open Network"，大规模人工智能开放网络）审美预测器评估每个视频帧的艺术和美学价值，反映布局、颜色丰富度和和谐性、照片现实感、自然性和艺术质量。
成像质量（Imaging Quality）：评估生成帧中的失真（例如过曝、噪声、模糊），使用MUSIQ（"Multi-Scale Image Quality Transformer"，多尺度图像质量变换器）图像质量预测器进行评估。

(3) 评估方法

对于上述每个维度，VBench 设计了专门的评估方法，这些方法使用精心设计的计算方式或指定的流程来实现自动客观评估。例如：

使用DINO和CLIP特征来评估主题和背景的一致性。DINO模型用于从视频中提取每一帧的特征，并通过计算这些特征之间的相似性来评估视频中的主题（如人物、车辆等）是否在视觉上保持一致。如果视频中的主题外观在连续帧之间变化不大，那么DINO提取的特征之间的相似性会较高，从而得到较高的一致性评分。CLIP模型用于从视频中的每一帧提取特征。然后，通过比较连续帧之间的特征相似性，可以评估背景场景是否在时间上保持一致。如果背景在连续帧中看起来相似，那么CLIP提取的特征之间会有较高的相似性，从而得到较高的一致性评分。
利用静态帧和计算帧之间的平均绝对差来评估时间闪烁。时间闪烁是指视频中局部区域在连续帧之间亮度或颜色的快速变化，给人眼造成闪烁的不适感。评估时间闪烁的原理是通过比较视频中连续帧之间的像素级差异来实现的。具体操作是，首先从视频中提取静态帧，即假设视频中的某些部分在时间上是不变化的。然后，计算这些帧之间的平均绝对差值（Mean Absolute Difference, MAD），即对每一对连续帧，逐像素计算绝对差值后取平均。
较高的平均绝对差值表明帧与帧之间存在较大的视觉变化，这可能意味着较严重的时间闪烁问题。相反，较低的差值则表明视频帧之间变化较小，时间闪烁较少或没有。通过这种计算，可以量化视频中的时间闪烁程度，为视频质量评估提供依据。这种方法简单直观，能够有效地评估视频在时间一致性上的表现。
使用视频帧插值模型来评估运动平滑性。视频帧插值模型评估运动平滑性的原理是通过估计视频中物体的运动并在连续帧之间生成中间帧来实现。这种模型基于假设：短时间内物体的运动是平滑的，可以近似为线性或二次变化。利用运动矢量或光流技术，模型预测物体在两帧之间的可能位置和姿态，然后生成视觉上连贯的中间帧。生成的中间帧与实际视频帧之间的差异通过计算像素级误差（如均方误差）来衡量。较小的误差表明运动更加平滑自然，而较大的误差则暗示运动的不连贯或突兀。最终，根据误差大小对视频的运动平滑性进行评分，分数越高，表示视频在视觉上的运动流畅性和连贯性越好。
使用LAION审美预测器和MUSIQ图像质量预测器来评估帧的美学和成像质量。LAION审美预测器是一个由LAION研究组织开发的工具，用于评估图像或视频帧的审美质量。这个预测器通过深度学习模型来分析视觉内容，并给出一个审美评分，这个评分反映了多个美学维度，LAION审美预测器可以自动地为视频帧打分，帮助评估视频生成模型在生成具有艺术感和视觉吸引力内容方面的能力。MUSIQ通过分析图像的多个尺度和方面来预测图像质量，能够检测出包括过曝、噪声、模糊等在内的多种图像失真问题。

视频条件一致性评估维度

视频条件一致性关注的是视频内容是否与用户提供的条件（例如文本提示）保持一致。这一类别主要分为两个方面：“语义”（Semantics）和“风格”（Style），每个方面又进一步细分为更具体的维度。

(1) 语义（Semantics）

语义维度评估视频内容是否符合文本提示中描述的实体类型及其属性，具体包括：

对象类别（Object Class）：评估生成视频中是否成功包含了文本提示中指定的对象类别。使用GRiT进行对象检测来评估。
多个对象（Multiple Objects）：评估视频中是否同时包含了文本提示中提到的所有对象类别。同样使用GRiT进行评估。
人类动作（Human Action）：评估视频中的人物是否准确执行了文本提示中提到的特定动作。使用UMT对动作进行分类评估。
颜色（Color）：评估合成对象的颜色是否与文本提示中指定的颜色一致。使用GRiT进行颜色描述和比较。
空间关系（Spatial Relationship）：评估视频中对象的空间关系是否遵循文本提示中的描述。采用基于规则的评估方法。
场景（Scene）：评估合成视频是否与文本提示中描述的场景一致。使用Tag2Text对生成的场景进行描述，并与文本提示中的场景描述进行对比。

(2) 风格（Style）

风格维度评估视频在视觉上是否符合用户请求的风格，具体包括：

外观风格（Appearance Style）：评估生成视频的样式是否与文本提示中描述的风格一致，例如“油画风格”、“黑白风格”等。使用CLIP计算合成帧与风格描述之间的特征相似度。
时间风格（Temporal Style）：评估视频是否展现了文本提示中指定的时间风格，如不同的摄像机运动等。使用ViCLIP（"Video Contrastive Language-Image Pretraining"，视频对比语言-图像预训练模型）计算视频特征与时间风格描述特征的相似度。
整体一致性（Overall Consistency）：使用ViCLIP计算视频与文本提示在语义和风格上的一致性，作为辅助指标。

(3) 评估方法

对于上述每个维度，VBench 设计了专门的评估方法，这些方法使用特定的工具和技术来实现自动客观评估。例如：

使用GRiT（"Generative Region-to-Text"，生成区域到文本）进行对象检测和颜色描述，以评估对象类别、多个对象和颜色维度。GRiT是一种用于视觉识别和描述的深度学习模型，它能够识别图像中的物体，并生成描述这些物体的文本。GRiT模型的设计使得它能够处理多种视觉任务，包括但不限于目标检测、图像描述和视觉问答。
使用UMT（"Untrimmed Matched Template"，未修剪匹配模板）对人类动作进行分类，以评估人类动作维度。UMT是一种用于视频理解和分析的深度学习模型，特别适用于处理视频中的人类动作识别和分类任务。UMT模型通过从视频中提取特征并将其与动作类别进行匹配，来识别和分类视频中的人类动作。
使用Tag2Text对生成的场景进行描述，以评估场景维度。Tag2Text是一种用于图像或视频内容描述的深度学习模型，它能够将视觉内容转换为文本描述。这种模型通常基于视觉-语言预训练技术，能够识别图像或视频中的元素，并生成相应的描述性文本。
使用CLIP和ViCLIP计算视频帧或视频与文本提示之间的特征相似度，以评估外观风格和时间风格维度。ViCLIP是CLIP模型的扩展，专门为处理视频内容而设计。它通过对视频和相关文本描述进行预训练，学习将视频内容与文本映射到共享的嵌入空间，从而能够理解和评估视频内容与文本描述之间的一致性。

VBench的局限性

VBench作为一个视频生成模型的评测套件，虽然在多维度评估和与人类感知对齐方面具有显著优势，但仍存在一些局限性。以下是VBench可能面临的一些限制：

特定任务的评估：VBench主要针对文本到视频的生成任务设计。对于视频生成的其他任务，如视频编辑或图像到视频的转换，可能需要额外的评估维度或方法。
自动化评估的局限性：自动化评估工具可能无法完全捕捉到人类对视频的所有感知方面，如情感表达、创意内容等。
数据集偏差：如果评估使用的数据集存在偏差，可能会影响评估结果的公正性和普遍性。
评估维度的扩展性：随着视频生成技术的发展，可能需要不断更新和扩展评估维度，以覆盖新兴的评估需求和技术特点。
人类评估的可扩展性：人类评估虽然能提供细致的反馈，但可能难以扩展到大规模数据集的评估。
文化和主观性：人类评估可能受到评估者个人文化背景和主观偏好的影响。
安全性和伦理考量：视频生成技术可能被滥用来生成虚假内容，VBench在未来的迭代中需要考虑安全性和伦理维度的评估。
评估标准的更新：随着研究的进步和新技术的出现，现有的评估标准可能需要定期更新以保持其相关性和有效性。

13.5.2 SuperCLUE-Video评测标准

SuperCLUE-Video[14]是为中文视频生成模型设计的评测基准，旨在提供标准化的测试流程和评估指标，帮助研究人员和开发者更好地评估和比较不同模型的性能。

能力评估范围

中文原生文生图视频能力评估: 针对中文环境，评估模型对中文提示词的理解和视频生成能力。
世界物理引擎模拟能力评估: 考察模型对物理规律的学习能力，如物体运动、重力、惯性等。
应用潜力评估: 针对影视、短视频、广告、娱乐等重点领域进行评估。

评估方法与思路

测评集构建: 构建专用测评集，每个维度进行细粒度评估。
评分方法: 结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本输入、视频帧（图像）送入超级模型进行评估，并获得每一个维度的评估结果。

指标体系

SuperCLUE-Video文生视频的评测指标体系，参见图13-32：

图13-32 SuperCLUE-Video 文生视频评测体系

(1) 视频感官质量评估: 包括外观一致性、画面稳定性、认知一致性、动态真实性和流畅性。

外观一致性：视频中的对象应具有一致的形态特征，例如人物的外貌和服装，以及物体的形状等。举例来说，人物在整个视频中的着装应保持一致。
画面稳定性：视频画面应尽可能地减少噪声和失真。例如，应避免在场景转换时出现画面的闪烁。
认知一致性：视频应具有清晰的色彩和边界，以及美观的整体布局。也就是说，颜色的搭配应该自然，场景的布局应该和谐。
动态真实性：视频应该展示真实的动态效果，与静态图像有明显的区别。例如，人物的行走动作应该流畅自然。
流畅性：对象的移动和场景的变换应该过渡自然，没有明显的断层。例如，当摄像机平移时，背景应该连续，没有跳跃。

(2) 文本与视频对齐: 包括对象一致性、要素完整性、特征准确性、程度区分和时空表现。

对象一致性：视频应根据文本准确地生成对象。例如，如果文本描述的是“行走的人”，那么视频应该展示的是人，而不是其他生物。
内容完整性：视频应全面地反映文本描述的内容。例如，如果文本提到了“一群人”，那么视频应该展示多个人物。
特征精确性：视频应准确地体现文本描述的特征。例如，如果文本中提到了“红色”，那么视频应该展示相应的红色物体。
程度区分：视频应体现文本中描述的词语的强度差异。例如，“快速行驶的车”与“飞速行驶的车”在视频中应有明显的速度区别。
时空呈现：视频应准确地展现文本中事件的时间顺序和空间关系。例如，如果文本描述了按顺序发生的事件，那么视频应该按照这个顺序进行展示。

(3) 物理真实性模拟: 包括流体动力表现、光影效果和交互仿真度。

流体动力表现：视频应准确地模拟流体的运动，例如云雾和水流。例如，流动的水应该模拟真实的水流动态。
光影效果：视频应逼真地模拟在不同光线条件下的光影效果。例如，不同时间的阳光照射应该产生不同的阴影变化。
交互仿真度：视频中的物体间的互动应该像真实世界一样。例如，打碎的玻璃杯应该展示出碎裂飞溅的效果。

(4) 中文原生场景支持: 包括语言逻辑理解、语义完整表现和文化元素呈现。

语言逻辑理解：模型应能准确掌握中文的语序和场景描述。例如，能正确解析“乌云盖顶，即将下雨”的描述，并生成预示着即将下雨的景象。
语义完整表现：模型应理解并展现出成语或俗语的含义。例如，“载歌载舞”应呈现出欢快跳舞的场景。
文化元素呈现：视频中应准确地体现出中文文化元素。例如，“庆春节”应展示出装饰有灯笼、窗花等元素的场景。

13.6 总结

在本章，我们首先以ChatGPT和AIGC文生图为例，讲解如何将大模型应用到我们前面章节介绍的AI模型测试中。然后我们系统介绍了大语言模型的三种能力的评测，包括：基础能力评测、文生图能力评测以及文生视频能力评测。针对每种能力，我们详细介绍了常见的评测标准及其各自的局限性。

大模型的技术更新速度令人瞩目，从2018年的GPT-1到2020年的GPT-3，模型的参数量从1.1亿个增长到了1750亿个，2年的时间内增长了1000多倍。而2023年发布的GPT4据悉已达到了万亿级别的参数。

在中国，2023~2024年也迎来的“百模大战”的时代，基础大模型不断推出，比如：百度的“文心”大模型，阿里的“通义”大模型，腾讯的“混元”大模型，华为的“盘古”大模型，以及来自清华的ChatGLM等。

在单模态通用大模型的基础上，各个行业的垂直大模型也在不断涌现，如：教育大模型、工业大模型、医疗大模型、金融大模型、代码大模型等。同时，多模态大模型正成为当前大模型的最新的演进方向。

相信这些大模型的发展，会给AIGC的发展提供更大的基础动力。这种快速的发展为研究者和开发者提供了无尽的可能性，但同时也带来了巨大的挑战。因为技术更新快，需要我们不断学习新的知识和技能，以跟上这个领域的发展步伐。我们需要抓住这个领域的快速发展带来的机遇，同时也要面对并解决伴随而来的挑战。只有这样，我们才能推动大模型的技术不断前进，实现其在更多领域的应用。

13.7 参考文献

[1] ControlNet：

[2] Text2Video：

[3] Sora: /

[4] Magic3D：/

[5] Text2Room：/

[6] HELM：/

[7] SuperCLUE：.html

[8]HPS：.09341

[9]TIFA：.11897

[10]PickScore：.01569

[11]LLMScore：.11116

[12]SuperCLUE-Image：.html

[13] VBench: /

[14]SuperCLUE-Video:.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-02-09，如有侵权请联系 cloudcommunity@tencent 删除计算机视觉模型视频测试对象

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始

第13章大模型在计算机视觉上的测试应用