信息处理：同步与对齐

最近喜欢用“拼图”来类比模块，4个拼图可以拼成更大的图案，每个拼图内部也有很多更小的拼图组成。当你正在搭建的拼图逐渐显现雏形时，是继续完善它补全它，还是去寻找下一块拼图的轮廓，这确实是个问题。

本文是偏探索性质的思考，写在“视频转图文”有了一些里程碑进展之后。就在昨天（2024/04/06），我跑通了将 B 站视频转成文章的工作流。相比较一些要点总结的工作，它新增了如下的特性：

现如今，这并不是什么值得惊讶的内容，而且随着多模态的发展，未来的科技很可能会发展到，把这个过程内化为某个更加智能体系的一部分。

同时它也存在一些限制，因为刨析其背后技术的话，它其实与视频本身无关，只需要一段带时间戳的文本流作为输入即可。

而这项能力，势必要成为一个更大的技术拼图的一部分，那么这个拼图长什么样？基于此我开始了如下的探索。

说来也巧，之前在公司报名的一个录播课程有了回放，是一个有关技术商业化的分享，全程3小时干货满满。主办方贴心的提供了视频回看地址，以及主讲人的 PPT，以及内容的文稿（以时间戳字幕的方式）。

我似乎看到了另外一块拼图的边缘在隐隐闪光。

是的，就是这个 PPT 的内容，我也翻了一下看。由于直播时也听了一部分，所以翻看时大略时会想起一些当时讲的内容。然而翻到后面的内容我就开始懵逼了，由于不了解背景，只看上面的概括性文字，则很难理解讲了什么，更无法谈及消化理解和吸收了。

这时候我希望能提供两个选项：

最好那自然是两者都有了。

这件事情有什么难的呢？首先是时长，动辄3个小时的视频内容和信息量，直接挑战原有的内容处理系统（之前只测试过1个小时级别的）。

其次是幻灯片的图片，PPT 上往往对内容提供了更加精炼的表达。这件要求内容处理系统，能够理解 PPT 上在讲什么，并且能与文本流关联起来。PPT 属于一类特殊的图片，所以也可以算作是多模态的技术。

最后是对信息的组织和呈现要求更高。需要图文并茂，层次清晰。

其实关于图片处理，目前大家的思路还是用 CLIP 模型把图文变成 token，然后再和基于文本 token 部分放到一起，作为模型的输入。或者是先用一个模型去描述提取图片中讲了什么，然后作为上下文。大致思路是这样，详细的技术需要再另外调研看看。

这里的同步是指在时间层面，将不同模态的内容关联起来的技术。

我的输入是一段视频，以及一份 PPT 内容。借助转录技术，可以将视频中的音频部分提取成带时间戳的文字。然后要将没有时间戳信息的 PPT 内容，与文字之间做一个同步。（另一做法是通过视频提取监控PPT的换页，更准确，但这是另一个更大的拼图了，现在先不考虑视频内容的分离）

同步完成以后，将会得到类似下面的结构：一个图片帧，对应这若干文字的章节，并各自按照时间轴的顺序去排列。

这里的对齐是指将提取的内容，与人的兴趣意图关联起来的过程。

这个过程是完全个性化的，因为人对事物的认知会经历若干的过程：未知期、探索期、完善期、沉淀期。展开讲讲的话：

对于完善期的内容，我可能发现某一页内容很重要，已经理解了，这时需要将其记录下来。在这个过程中查漏补缺。

对于探索期的内容，只有大纲总结是远远不够的，需要更加详细的思考、论证，并逐渐形成自己的理解。

这个信息处理系统必然包含一个与个体的对齐过程，才能适应使用者的需求。后面可能就是一个 Take Note 的模块，转化成笔记，并融入到知识体系中去。

正如标题所述，【同步】和【对齐】正是要寻找的下一块拼图。在已有将文本流转为文章段落的基础上，去探索更大的版图。

另外，如果你对如何生成“视频文本段落切分”感兴趣，也可以参看这篇文章。