最近喜欢用“拼图”来类比模块,4个拼图可以拼成更大的图案,每个拼图内部也有很多更小的拼图组成。当你正在搭建的拼图逐渐显现雏形时,是继续完善它补全它,还是去寻找下一块拼图的轮廓,这确实是个问题。
背景
本文是偏探索性质的思考,写在“视频转图文”有了一些里程碑进展之后。就在昨天(2024/04/06),我跑通了将 B 站视频转成文章的工作流。相比较一些要点总结的工作,它新增了如下的特性:
- 自动将视频切分段落
- 概括段落的标题、以及关键要点
- 给出原始文本(适当归整后)以供查阅真实性和溯源

现如今,这并不是什么值得惊讶的内容,而且随着多模态的发展,未来的科技很可能会发展到,把这个过程内化为某个更加智能体系的一部分。
同时它也存在一些限制,因为刨析其背后技术的话,它其实与视频本身无关,只需要一段带时间戳的文本流作为输入即可。
而这项能力,势必要成为一个更大的技术拼图的一部分,那么这个拼图长什么样?基于此我开始了如下的探索。
缘起
说来也巧,之前在公司报名的一个录播课程有了回放,是一个有关技术商业化的分享,全程3小时干货满满。主办方贴心的提供了视频回看地址,以及主讲人的 PPT,以及内容的文稿(以时间戳字幕的方式)。
我似乎看到了另外一块拼图的边缘在隐隐闪光。
是的,就是这个 PPT 的内容,我也翻了一下看。由于直播时也听了一部分,所以翻看时大略时会想起一些当时讲的内容。然而翻到后面的内容我就开始懵逼了,由于不了解背景,只看上面的概括性文字,则很难理解讲了什么,更无法谈及消化理解和吸收了。
这时候我希望能提供两个选项:
- 直接跳到那一段回放,再看一遍,有个感性的认识
- 关于这一段内容的文字版整理,就像看书一样
最好那自然是两者都有了。
挑战
这件事情有什么难的呢?首先是时长,动辄3个小时的视频内容和信息量,直接挑战原有的内容处理系统(之前只测试过1个小时级别的)。
其次是幻灯片的图片,PPT 上往往对内容提供了更加精炼的表达。这件要求内容处理系统,能够理解 PPT 上在讲什么,并且能与文本流关联起来。PPT 属于一类特殊的图片,所以也可以算作是多模态的技术。
最后是对信息的组织和呈现要求更高。需要图文并茂,层次清晰。
现有技术
其实关于图片处理,目前大家的思路还是用 CLIP 模型把图文变成 token,然后再和基于文本 token 部分放到一起,作为模型的输入。或者是先用一个模型去描述提取图片中讲了什么,然后作为上下文。大致思路是这样,详细的技术需要再另外调研看看。
同步(Synchronize)
这里的同步是指在时间层面,将不同模态的内容关联起来的技术。
我的输入是一段视频,以及一份 PPT 内容。借助转录技术,可以将视频中的音频部分提取成带时间戳的文字。然后要将没有时间戳信息的 PPT 内容,与文字之间做一个同步。(另一做法是通过视频提取监控PPT的换页,更准确,但这是另一个更大的拼图了,现在先不考虑视频内容的分离)

同步完成以后,将会得到类似下面的结构:一个图片帧,对应这若干文字的章节,并各自按照时间轴的顺序去排列。
对齐(Align)
这里的对齐是指将提取的内容,与人的兴趣意图关联起来的过程。
这个过程是完全个性化的,因为人对事物的认知会经历若干的过程:未知期、探索期、完善期、沉淀期。展开讲讲的话:
- 沉淀期:已经熟练掌握某个内容,深深的刻录在脑子了,并且可以快速迁移其体系,以及与其它事物建立链接。
- 完善期:某个概念听过很多次了,能说出定义,但是还未与已有事物建立关联,暂时是不稳固的。
- 探索期:有这方面的基础,但是提到了一个之前不了解的角度,或者是出现了新闻、新技术、新事件,需要花时间去适应和接受。
- 未知期:完全新的概念。你不了解它是什么,也不了解它的背景。
对于完善期的内容,我可能发现某一页内容很重要,已经理解了,这时需要将其记录下来。在这个过程中查漏补缺。
对于探索期的内容,只有大纲总结是远远不够的,需要更加详细的思考、论证,并逐渐形成自己的理解。
这个信息处理系统必然包含一个与个体的对齐过程,才能适应使用者的需求。后面可能就是一个 Take Note 的模块,转化成笔记,并融入到知识体系中去。
总体设计
正如标题所述,【同步】和【对齐】正是要寻找的下一块拼图。在已有将文本流转为文章段落的基础上,去探索更大的版图。

另外,如果你对如何生成“视频文本段落切分”感兴趣,也可以参看这篇文章。