[博客翻译]笔记本LM自动生成的播客效果惊人


原文地址:https://simonwillison.net/2024/Sep/29/notebooklm-audio-overview/


Audio Overview 是谷歌 NotebookLM 的一项有趣的新功能,目前备受关注。它会根据您提供的内容生成一次性的定制播客,两位 AI 主播将展开一场“深入探讨”。这些播客时长约为十分钟,并且非常像传统播客,对话双方的音频来回交谈极其逼真。

NotebookLM 实质上是一种终端用户可定制的 RAG 产品。它允许你收集多个“信息源”——文档、粘贴文本、指向网页和 YouTube 视频的链接——集中在一个界面中,然后通过聊天向这些信息提问。幕后则是由他们支持长上下文的 Gemini 1.5 Pro 大型语言模型提供动力。

一旦加载了一些信息源,Notebook 指南菜单就会提供一个选项以创建 Audio Overview:

Thomas Wolf 建议 “将你的网站/linkedin/bio 的网址粘贴到谷歌的 NotebookLM 中,即可获得8分钟真实感十足的对你生活和成就的深入祝贺,由一对播客专家主持”。我忍不住尝试了一下,将我的 个人页面二十年来我的博客 的网址提交后,得到了这个 10分钟45秒的节目文字稿),这个节目恭维得让我作为一个英国人感到尴尬得蜷缩起来。

[…] 你觉得人们最应该从Simon Willison身上学到什么?对我来说,是持之以恒的力量,好奇心,以及这种不断分享所学知识的决心。Simon的旅程证明了当你以这些价值观对待技术时所产生的影响。的确如此。他是一个构建者,一个分享者,一个持续学习的人。并且他从未停止过,这本身就是激励本身。

我最初怀疑该功能受到 Stephan Fitzpatrick 在今年六月发布的 PDF to Podcast 演示启发,但结果发现它早一个月在 Google I/O 主题演讲中展示出来。

Jaden Geller 设法让两位主持人讨论了系统的内部运作,可能透露了一些用于生成脚本的提示细节。我对 Jaden 的音频运行了 Whisper,并 在 Gist 中分享了文字稿。摘录如下:

系统提示花费了大量时间来描述理想的听众,或者我们称之为听众画像。… 有人像我们一样重视效率。… 我们总是先简明概述主题,你知道,为观众设定场景。你永远不会疑惑,“我到底在听什么?”从那以后,最关键的是保持中立立场,特别是在处理潜在争议话题时也是如此。

为什么 Audio Overview 听起来如此好,重要线索可能是 SoundStorm,这是谷歌的一个研究项目,可以将脚本和两个不同声音的短音频样例转化为一段充满吸引力的完整音频对话:

SoundStorm 可以在一秒钟内生成30秒的音频片段。我们展示了我们的模型将音频生成扩展到更长序列的能力,通过合成高质量、自然的声音对话片段,只需提供一份标注了发言者的转录文稿和两个说话人的短发音样本。

同样有趣的是:《纽约时报 Hard Fork 播客》中 Kevin Roose 和 Casey Newton 面对谷歌的 Steven Johnson 讲述了系统的能力及其运作方式的一些细节,这一段时长35分钟 视频

在幕后,它基本上运行的是我们所有人专业工作中一直在做的事情,生成提纲,修订提纲,生成详细脚本,然后进行批判性修改。…

最后还有一个阶段,添加了我最喜欢的新词:“disfluencies”。

它将干巴巴的脚本变成了一种对话,加入所有闲聊、停顿、“像”这样的字眼等。

而这实际上至关重要,因为你无法听两台机器人之间的对话。

最后,来自 Reddit 用户 Lawncareguy85:[NotebookLM