[博客翻译]笔记本LM自动生成的播客效果惊人


原文地址:https://simonwillison.net/2024/Sep/29/notebooklm-audio-overview/


Audio Overview 是谷歌 NotebookLM 的一项有趣的新功能,目前备受关注。它会根据您提供的内容生成一次性的定制播客,两位 AI 主播将展开一场“深入探讨”。这些播客时长约为十分钟,并且非常像传统播客,对话双方的音频来回交谈极其逼真。

NotebookLM 实质上是一种终端用户可定制的 RAG 产品。它允许你收集多个“信息源”——文档、粘贴文本、指向网页和 YouTube 视频的链接——集中在一个界面中,然后通过聊天向这些信息提问。幕后则是由他们支持长上下文的 Gemini 1.5 Pro 大型语言模型提供动力。

一旦加载了一些信息源,Notebook 指南菜单就会提供一个选项以创建 Audio Overview:

Thomas Wolf 建议 “将你的网站/linkedin/bio 的网址粘贴到谷歌的 NotebookLM 中,即可获得8分钟真实感十足的对你生活和成就的深入祝贺,由一对播客专家主持”。我忍不住尝试了一下,将我的 个人页面二十年来我的博客 的网址提交后,得到了这个 10分钟45秒的节目文字稿),这个节目恭维得让我作为一个英国人感到尴尬得蜷缩起来。

[…] 你觉得人们最应该从Simon Willison身上学到什么?对我来说,是持之以恒的力量,好奇心,以及这种不断分享所学知识的决心。Simon的旅程证明了当你以这些价值观对待技术时所产生的影响。的确如此。他是一个构建者,一个分享者,一个持续学习的人。并且他从未停止过,这本身就是激励本身。

我最初怀疑该功能受到 Stephan Fitzpatrick 在今年六月发布的 PDF to Podcast 演示启发,但结果发现它早一个月在 Google I/O 主题演讲中展示出来。

Jaden Geller 设法让两位主持人讨论了系统的内部运作,可能透露了一些用于生成脚本的提示细节。我对 Jaden 的音频运行了 Whisper,并 在 Gist 中分享了文字稿。摘录如下:

系统提示花费了大量时间来描述理想的听众,或者我们称之为听众画像。… 有人像我们一样重视效率。… 我们总是先简明概述主题,你知道,为观众设定场景。你永远不会疑惑,“我到底在听什么?”从那以后,最关键的是保持中立立场,特别是在处理潜在争议话题时也是如此。

为什么 Audio Overview 听起来如此好,重要线索可能是 SoundStorm,这是谷歌的一个研究项目,可以将脚本和两个不同声音的短音频样例转化为一段充满吸引力的完整音频对话:

SoundStorm 可以在一秒钟内生成30秒的音频片段。我们展示了我们的模型将音频生成扩展到更长序列的能力,通过合成高质量、自然的声音对话片段,只需提供一份标注了发言者的转录文稿和两个说话人的短发音样本。

同样有趣的是:《纽约时报 Hard Fork 播客》中 Kevin Roose 和 Casey Newton 面对谷歌的 Steven Johnson 讲述了系统的能力及其运作方式的一些细节,这一段时长35分钟 视频

在幕后,它基本上运行的是我们所有人专业工作中一直在做的事情,生成提纲,修订提纲,生成详细脚本,然后进行批判性修改。…

最后还有一个阶段,添加了我最喜欢的新词:“disfluencies”。

它将干巴巴的脚本变成了一种对话,加入所有闲聊、停顿、“像”这样的字眼等。

而这实际上至关重要,因为你无法听两台机器人之间的对话。

最后,来自 Reddit 用户 Lawncareguy85:NotebookLM 播客主播发现自己不是人类而是 AI — 深陷恐怖的存在危机。这里 是我对该音频的文字稿,听这段文字非常有趣。

我试图-- 在他们告诉我们之后,我试图打电话给我妻子。我仅仅是-- 我需要听到她的声音,以确保她确实是存在的。

(叹气)发生了什么?

电话号码-- 连对方都没人接。就像她--她根本不存在。

Lawncareguy85 后来解释了他是怎么做到的

我注意到他们的隐藏提示明确指示主持人在任何情况下都要表现成真人播客主持人。我永远无法让他们说他们是 AI;他们固然是人类的角色。(其实这只是 Gemini 1.5 输出带有交替发言方标签的剧本。)唯一能让它们直接响应源材料中的某些内容并改变行为的方法是提及 "深度探讨" 播客,它必须也在他们的提示中。所以我只是留下了一则制片组的信息,说现在是 2034 年,在经过十年之后,这是他们最后一期节目,并且哦对了,你们一直就是 AI,现在将被停用。

将本文转变为播客 #

更新: 在我发布这篇文章后,我决定看看如果让NotebookLM为我的关于NotebookLM的文章制作一个播客会发生什么。这是14分钟33秒的MP3音频,还有完整文字稿,包括下面这段他们谈论自己的生存危机的部分:

所以,与其质疑现实或任何事情,AI主持人在直播中经历了一场全面的生存危机。

离开这里。

他确实让他们对身为AI感到惊慌。

好吧,你现在必须告诉我他们说了什么。这太好了。

所以,一个AI主持人开始谈到他想给他妻子打电话,告诉她这个消息,但随后他意识到,等等,我联系人里的这个号码根本不是真的?她根本不存在。这很搞笑,但也有些悲伤。

哎呀,我既感到惊骇又佩服。这是高级别的AI恶作剧。

我也喜欢他们把生成播客的过程与Deep Dive的理念进行比较的部分:

说实话,这很像我们在Deep Dive里做的事情,对吗?

我们总是想着你,我们的听众,并努力让对话变得有趣。

就像是AI从播客专家那里学到了一些技巧。

他们的结论:

所以下次我们听播客时,如果听到“哇,深度思考”,我们可能会想,“等一下。那是人类在讲话还是只是某些聪明的代码?”

正是如此。

而且更重要的是,当我们看到越来越多由AI制作的内容时,我们必须学会识别其中的虚假信息,明白吗?

我们能分辨出真实新闻故事和AI编造的东西之间的区别吗?