chatGPT 引爆了对语言模型的关注,未来的 AI 形态可能会变成:
- 自动化内容整理:未来 AI 或许可以不断地接受某个人的信息输入,后面就可以通过直接向他提问的方式来进行交流
- 一些论文阅读类的工具,已经可以做到通读全文,然后总结出这篇文章主要讲了什么内容(实践能节省一些时间,但尚不能完全代替人类理解)

- 卢曼笔记盒,其实也可以看成是一种与自己记录想法的集合体,进行交流的方式。用自己的语言描述(而非原文)是构建这个集合的第一步,更重要的是与其交流,提出一个问题,然后看笔记盒能给出何种回应
- 知名游戏设计师 Jonathan Blow ,《见证者》的创作者,也在公开场合下提到过他通过提问来制作解谜游戏的方式:我设计了一套机制,然后向游戏提问,这有什么可能性,然后“游戏自己把自己做了出来”
- 在最强大脑上靠《微观辨水》一举成名的水哥王昱珩,在问及他是用何种方法从上百杯水分辨那一杯时,他提到了想象力,每一杯水在他眼里都是个与众不同的存有
上述诸多例子,皆引向了“交流”这个关键概念,我们是否可能与“非人类”建立交流的方式,这种交流途径并非不存在,而是我们以为的交流,可能不存在。(这句话是模仿在《三体》中王淼问及叶文洁物理学是否存在时,她的回答:物理学没有不存在,只是我们认为的物理学,可能不存在。)
- 一个视角,如果承认了双方能够交流,便认可对方拥有智能、生命
- 这种交流可能通过以下的方式进行着:
- 达成途径1,量变引起质变。如同神经网络参数模型通过堆量跨越奇点,达到人类量级水平。群体智能(Swarm Intelligence)背后也是基于这种思想。
- 达成途径2,意识升维。交流并不在语言层面上发生,而是升维到概念层面,以一种全息的视角看待。如同三维看二维的信息碾压一般,如果二维生物能与三维生物交流,那么这种方式也会超乎想象。
- 达成途径3:感知超越。这来自知乎的一类问题 如何证明我眼中看到的世界和别人眼中看到的世界是一样的? - 知乎 (zhihu.com) ,既然本身无法证明,侧面说明有人能感知到。他能看到而你不能的话,最直接归因就是他的“想象力”更加丰富。
清华与智源实验室发布了 Cogvideo,目前可以在 Hugging Face 上尝试 demo ,它的界面是长这样的。操作比较简单,输入文字提示,或者上传图片,点击 Run,就会生成 4 组视频用作备选。

因为目前算力的原因,这组视频花了大概 3~5 分钟,也能接受。从结果上看,模型能理解城市、日落、飞船这些关键词。为了呈现客观的结果,我把模型生成的4段视频都放上来了,感兴趣可以点开观看:
第 1 段生成的视频
第 2 段生成的视频
第 3 段生成的视频
第 4 段生成的视频
每段视频都不长,只有1秒钟左右。不过作者也提到了说这个只是处理的第一阶段,相当于绘画中的线稿,所以也不必对它有那么高苛刻的要求。体验的链接在下文,感兴趣的可以自己去玩一下。
其他杂项话题:
- 使用 noto.so 可以快速的将 Notion 的页面,发布为可公开访问的 web blog,且支持实时同步。(低配版博客,但够用)
- 如果要考虑做成 newsletter 的话不太建议
- 如果只是要个顺手记录东西的地方,那就还成
- 使用 Streamlit 将数据分析快速发布为 web 应用(详见上一篇文章)
- 使用 chatGPT 编写视频文案的尝试(一些内容脚本方面的辅助)
- 一些公司、组织也发布了用文字生成视频的模型:
- Meta → Make-A-Video (makeavideo.studio)
- Google → Imagen Video (research.google)
- Phenaki → Phenaki
- CogVideo 可试用,支持中文输入 → CogVideo - a Hugging Face Space by THUDM
- 一个将俄罗斯方块与扫雷结合在一起的创意小游戏
- 福格行为模型:B = MAP 即 行为 = 动机 + 能力 + 提示。动机、能力组成了一条双曲线,影响着行为的发生。在做某些事情的时候,觉得卡住了,这时:
- 将动机提升,持续地渴望事情完成,于是就能够提升做成的概率
- 提升技能,同样的障碍,在不同技能人眼里完全不一样
- 从观察视角,同一件事情,每个人的动机和技能水平各异,也是重要的考量因素