LLaVA-Video

4 个月前

视频理解多模态学习数据合成指令调优基准测试

LLaVA-Video是一个专注于视频指令调优的大型多模态模型（LMMs），通过创建高质量的合成数据集LLaVA-Video-178K来解决从网络获取大量高质量原始数据的难题。该数据集包括详细的视频描述、开放式问答和多项选择问答等任务，旨在提高视频语言模型的理解和推理能力。LLaVA-Video模型在多个视频基准测试中表现出色，证明了其数据集的有效性。