推广 热搜： 二手净利2626万北京二手车 SMM废铜现货交易日评企业全国汽车三星公司

Microsoft用GPT-4V解析视频，了解电影还能讲给盲人听，1小时不是问题

日期：2024-10-24 来源：www.nnntw.com 作者：二手网浏览：625 评论：0

核心提示：[db:简介]

机器之心报道

编辑：Panda、陈萍

差不多已经学会语言能力的大模型正在进军视觉范围，但具备里程碑意义的 GPT-4V 也仍有很多不足之处，参阅《试过 GPT-4V 后，Microsoft写了个 166 页的评测报告，业内人士：高级用户必读》。日前，Microsoft Azure 人工智能将 GPT-4V 与一些专用工具集成到一块，塑造出了更强大的 MM-Vid，其不只拥有其它 LMM 的基本能力，还能剖析长达一小时的长视频与解释说明视频给视障人士听。

世界各地的大家天天都会创造很多视频，包含用户直播的内容、短视频、电影、体育比赛、广告等等。

视频是一种多功能媒介，可以通过文本、视觉和音频等多种模态传递信息和内容。假如可以开发出能学习多模态数据的办法，就能帮助大家设计出拥有强大能力的认知机器它不会受限于经过人工调整的数据集，而是可以剖析原生态的真实世界视频。但，在研究视频理解时，多模态这种丰富的表征会带来很多挑战，特别是当视频较长时。

理解长视频是非常复杂的任务，需要能剖析多个片段的图像和音频序列的先进办法。不只这样，另一大挑战是提取不同来源的信息，譬如分辨不一样的说话人、辨别人物与维持叙述连贯性。除此之外，基于视频中的证据回答问题也需要深入理解视频的内容、语境和字幕。当剖析的是直播或游戏视频时，还存在实时处置动态环境的难点，这需要语义理解和长期方案规划能力。

近段时间，大型预练习视频模型和视频 - 语言模型带来了巨大进步，它们在视频内容上的推理能力已经显现。但，这类模型一般是用短视频片段练习的（譬如 Kinetics 和 VATEX 中的 10 秒视频）或预概念了动作类别（Something-Something v1 有 174 类）。由此导致的后果是，这类模型可能很难详细理解真实世界视频的复杂微妙。

为了让模型能更全方位地理解大家日常遇见的视频，大家需要能解决这类复杂挑战的办法。

日前，Microsoft Azure 人工智能为这类问题给出了我们的解答：MM-Vid。该团队表示这种技术可以直接用于理解真实世界视频。简单来讲，他们的办法涉及将长视频分解成连贯叙述，然后再借助这类生成的故事来剖析视频。

论文地址：https://arxiv.org/pdf/2310.19773.pdf

项目地址：https://multimodal-vid.github.io/

MM-Vid 是近来处于人工智能社区关注中心的大型多模态模型（LMM）的新成员；而 LMM 中最具代表性的 GPT-4V 已经展示出了突破性的能力可以同时处置输入的图像和文本，实行多模态理解。为了达成视频理解，MM-Vid 将 GPT-4V 与一些专用工具集成到了一块，实验结果也证明了这种办法的有效性。图 1 展示了 MM-Vid 可以达成的多种能力。

MM-Vid 办法介绍

图 2 展示了 MM-Vid 系统的工作步骤。MM-Vid 以视频文件为输入，输出一个描述该视频内容的脚本。这种生成的脚本让 LLM 可以达成多种视频理解能力。

MM-Vid 包括四个模块：多模态预处置、外部常识采集、视频片段层面的视频描述生成、脚本生成。

多模态预处置。对于输入的视频文件，预处置模块第一用已有些 ASR 工具从视频中提取出转录文本。之后，将视频切分成多个短视频片段。此过程需要对视频帧进行均匀采样，使得每一个片段由 10 帧组成。为了提高帧采样的整体水平，研究者用了 PySceneDetect 等成熟的场景测试工具来帮助辨别重点的场景边界。

外部常识采集。在 GPT-4V 的输入 prompt 中，研究者使用了集成外部常识的办法。该办法涉及采集可用的信息，譬如视频的元数据、标题、摘要和人物面部照片。在实验中，研究者采集的元数据、标题和摘要来自 YouTube。

片段层面的视频描述生成。在多模态预处置阶段，输入视频会被切分为多个视频片段。每一个片段一般包括 10 帧，研究者的做法是用 GPT-4V 来为每一个片段生成视频描述。通过将视频帧与有关的文本 prompt 一块输入到 GPT-4V 模型，便能得到捕获了这类帧中描绘的视觉元素、动作和事件的详细描述。

除此之外，研究者还探索了视觉 prompt 设计，即在 GPT-4V 的输入中不只提供人物的名字，还提供人物的面部照片。实验结果表明这种视觉 prompt 设计能够帮助提高视频描述的水平，特别能够帮助更准确地辨别人物。

用 LLM 生成脚本。在为每一个视频片段生成描述之后，再用 GPT-4 将这类片段层面的描述整理成一个连贯的脚本。该脚本是对整个视频的全方位描述，可被 GPT-4 用于解决各种视频理解任务。

用于流输入的 MM-Vid

图 3 展示了用于流输入的 MM-Vid。

在这样的情况下，MM-Vid 的运作模式是作为动态环境中的一个智能体（agent），其主要输入为流视频帧。该智能领会将持续输入的流视频帧视为状况，其代表了在该环境中不断揭示的持续性视觉信息。然后再由 GPT-4V 处置这类状况，从而得到有信息依据的决策并生成响应。

通过持续剖析流视频帧，MM-Vid 可将原始视觉数据转换成有意义的见解，进而为视频游戏、具身智能体和 GUI 引导等应用提供有价值的帮忙。

实验

实验设置

该团队达成的 MM-Vid 基于 MM-React 代码库。他们用的自动语音辨别（ASR）工具是通过 Azure Cognitive Services API 用的公开可用工具，场景测试则是用了 PySceneDetect。

MM-Vid 的功能

研究者在论文中展示了多个 MM-Vid 完整实行步骤的示例。

下面是一个 MM-Vid 实行步骤示例。

经过这类步骤后，MM-Vid 生成的脚本汇总了对视频内容的理解。从而让后续 LLM 可以基于此处置具体的任务。研究者讨论过的具体任务包含：有依据的问答、多模态推理、理解长达一小时的视频、多视频情景剖析、人物辨别、说话人辨别、音频描述生成、自我调优、迅速变化的短视频。具体详细情况请参阅原论文，但总体而言，MM-Vid 都展示出了很好的成效。

下面是一个说话人辨别的示例。

应用于交互式环境

研究者也评估了 MM-Vid 应用于流输入时的状况。MM-Vid 可作为交互式环境中的智能体，持续接收流视频帧输入。

具身智能体。下图展示了将 MM-Vid 应用于一段头戴式相机拍摄的第一人称视频的状况。这段视频来自 Ego4D 数据集，简单展示了拍摄者在家居环境中的平时生活。值得注意的是，MM-Vid 理解这种视频内容的能力得到了体现，并且还能辅助用户完成一些实质任务。

玩视频游戏。下面的视频示例是将 MM-Vid 用于视频游戏《超级玛丽》。实验中，智能领会持续地以三帧视频作为输入的状况，然后计算下一个可能的控制动作。结果表明，这个智能体可以理解这种特定的视频游戏动态，并能生成可以有效打游戏的合理动作控制。

GUI 导引。下图给出了一个示例。这里，智能体持续接收的输入是 iPhone 屏幕截图和之前的用户动作。结果发现，该智能体可以有效预测用户用手机时的下一步可能动作，譬如点击正确的购物应用，然后搜索有兴趣的产品，最后下单购买。这类结果表明 MM-Vid 能与图形用户界面进行有效的交互，能通过数字接口达成无缝且自动化的用户导引。

用户研究

研究者探索 MM-Vid 帮助盲人或弱视者的潜力。音频描述（AD）能在视频的音轨中增加音频叙述，这能提供主视频音轨中没提供的要紧视觉详细情况。如此的描述能为视觉障碍人士传达重点的视觉内容。

为了评估 MM-Vid 在生成音频描述方面的有效性，研究者进行了一场用户研究。他们邀请了 9 位参与者参与评估。其中 4 位参与者失明或视力低下，其余 5 名视力正常。所有参与者听力都正常。

下面的视频是 MM-Vid 的音频描述应用示例：

结果如图 5 所示，对于以李克特量表计量的参与者总体认可度（0 = 不认可到 10 = 很认可），MM-Vid 生成的音频描述平均比人工给出的音频描述低 2 分。

在听 MM-Vid 生成的音频描述时，参与者提出的困难包含：1）音频描述与原始视频中的对话偶尔重叠，2）因为 GPT-4V 的幻觉问题而出现错误描述。尽管总体认可度有差异，但所有参与者都认可这一点：MM-Vid 生成的音频描述是一种本钱高效且可扩展的解决方法。因此，对于没办法被专业人士描述成音频的很多视频来讲，就能用 MM-Vid 如此的工具来处置它们，从而造福视觉障碍社区。

标签： 微软 GPT-4V 电影

打赏

更多>同类二手资讯

0 条相关评论

热门推荐

推荐图文

兄弟打印机1618驱动下	全方位分析：国内三大
全球前十免费邮箱排名	淘宝背2024水一战

推荐二手资讯

点击排行

• MicrosoftBING以图搜图惊艳全球，Google神话不	• Microsoft首席实行官：大型科技公司正在争夺练
• 电脑Microsoft商店查询购买记录的办法	• 昔日轻薄本标杆宣告退场：Microsoft终止Surface
• Windows 10系统如何在线更新Microsoft补丁	• Surface Pro 9 5G测评：5G是它最大的卖点
• Microsoft官方下载Windows 10系统在线安装的办	• Microsoft将推免费P图软件：向上叫板王者Adobe
• 热闹与隐忧 ChatGPT大火背后人工智能留给人类	• MicrosoftWin11真的来了，体积比10降低将近40%