潇大

Feb 25, 2024

Video2Article: 追求更深度的视频理解(1)

背景

如果要问国内最具有深度的视频来源,我想非B站莫属,而我本人也是B站的10年深度用户。有一大批的up主精心制作、或者从其他地方转载内容,有的就是“图一乐”,也有相当不错的学习教程。
而对于那些长达30分钟的教程视频而言,能够完整看完那一定是有充分兴趣的。但是看完以后能将其消化的比重却不多,一方面较少有运用的机会,另一方面也是它没有形成可以直接沉淀下来的内容。如果作者愿意将其整理共享成一篇文章的形式,未来则能更加高效的引用、检索。
而视频教程未必是所有人的首选,据推测应该有相当一部分人是更偏好图文形式的学习材料,这样自己便更容易地控制其节奏。

AI Summay can do this. But Why ?

最近一年,ChatGPT 的流行使得 AI 总结的服务风生水起,通过语音转文本技术先将视频转录为文本,再从中提取关键要点,即可得到一份还算不错的总结。正如我在更早一篇博客中提到的那样,AI总结在从高信息密度压缩之后,容易出现幻觉和错误,未必能真实代表创作者的想法。而且,AI 总结呈现的是一种结论性的东西,而真正重要的思考过程被有意识地忽略掉了。
对于意识频率不够高的人来说,AI 容易将其诱惑;若能对事物有更深的思考,AI 则能成为你的工具。
当技术人员在谈及AI能做xxx时,有个声音总想在背后问一句,why?在追求对视频含义的更深度理解上,AI 总结无疑是个不小的诱惑。因此,后续流程将避免涉及AI总结的部分。

方案

大概在1~2个月前,我开始调研关于视频信息理解的相关技术。这一块涉及的知识点和工程点都比较多,而且最前沿的多模态领域仍处于发展之中。综合来看,对于视频信息转图文,目前设计的工作流程整体如下图所示:
基础版本的视频转图文工作流
基础版本的视频转图文工作流
工作流将从一条 url 链接开始,调用下载工具分别下载其视频部分和音频部分。对于视频部分,通过 ffmpeg 提取出其中的关键帧(带时间戳)。对于音频部分,调用语音转文字工具,将其转录为字幕形式的一句句话,再借助大语言模型的帮助将其合并为一个完整的段落。
最后,将文本段落内容,和关键帧的截图,放置到一起,则成为一个图文并排的文章。
 

当前进展

最早的方案只有右边一侧的流程,已经能够基本跑通。但是看到密密麻麻的文字时,体验仍然不好,原因有如下几个方面:
  1. 识别准确率的问题,转录并非完美,而将其沉淀为文章内容,对其中信息的准确性,要远远高于总结类任务。如果是在知识领域内的错误,读者可能会感到困惑,而在知识领域外的错误,读者可能根本发现不了,这会引起非信任感
  1. 视频内容具有其独特的视觉信息,在其中加入图片(哪怕只是截图),也会提升阅读时的体验感
  1. 如果文字内容涉及“如图表所示”但最终结果却不包含图表的话,就会产生信息丢失,不利于深度理解
基于以上几个原因,我又在图中增加了左边的视频处理流程。这个流程目前还在不断开发完善中(主要是要从头学 ffmpeg 的各种操作命令),仍然需要时间去完善。
 
 

Copyright © 2025 潇大

logo