最新一些论文进展和Google的大招

0 / 1144

工具&框架

🚧 『DeepPavlov』开源对话 AI 库

github.com/deeppavlovt…

demo.deeppavlov.ai/

DeepPavlov 是一个基于 TensorFlow、Keras 和 PyTorch 的开源对话式人工智能库。DeepPavlov 可以用于:开发可用于生产的聊天机器人和复杂的对话系统、NLP领域对话系统的研究。

🚧 『Flutter Chat UI』基于 Flutter 的聊天界面 UI

github.com/flyerhq/flu…

flyer.chat/

Flyer Chat 是一个使用 Flutter 或 React Native 创建应用内聊天体验的平台。这个资源库包含 Flutter 的聊天 UI 实现。它具备以下特点:

  • 免费、开源、社区驱动
  • 多后台支持,可选择自己喜欢的后端
  • 可定制,支持自定义主题、地域和更多
  • 极小的依赖性

🚧 『TuGraph』高效的图数据库

github.com/TuGraph-db/…

TuGraph 是一个高效的图形数据库,支持高数据量、低延迟查询和快速图形分析。

🚧 『VDP』将视觉AI与现代数据栈无缝集成的开源工具

github.com/instill-ai/…

www.instill.tech/

视觉数据准备(VDP)是一个开源的视觉数据ETL工具,用于简化端到端的视觉数据处理管道。核心步骤功能包括:

  • 从预先建立的数据源(如云/企业内部存储或物联网设备)中提取非结构化的视觉数据
  • 通过Vision AI模型将其转化为可分析的结构化数据
  • 将转换后的数据加载到仓库、应用程序或其他场景。

🚧 『GNews』Google新闻的非官方搜索API

github.com/ranahaani/G…

pypi.org/project/gne…

一个轻量级的 Python 包,它提供了一个 API 来搜索谷歌新闻上的文章,并返回一个 JSON 格式的结果。

博文&分享

👍 『CS 295 - Causal Reasoning』UCI·因果推理(2021课程)

www.ics.uci.edu/~dechter/co…

www.youtube.com/playlist?li…

课程涵盖因果推理的相关主题,以研讨会的形式进行,课程的前半部分有课程讲授,后半部分是学生阅读并向全班展示基于书本章节的论文。本课程是为人工智能和机器学习领域的博士生准备的,需要有一定的机器学习基础。

课程包含以下主题:

  • Introduction: Causal Hierarchy / 简介:因果层次结构
  • The Simpson Paradox / 辛普森悖论
  • Structural Causal Models / 结构因果模型
  • Identification of Causal Effects / 因果效应识别
  • The Problem of Confounding and the Back-Door Criterion / 混杂问题和后门标准
  • Causal Calculus / 因果演算
  • Linear Structural Causal Models / 线性结构的因果模型
  • Counterfactuals / 反事实
  • Structural Learning / 结构学习

👍 『Grokking Stable Diffusion.ipynb』Stable Diffusion实战 (Colab)

colab.research.google.com/drive/1dlgg…

数据&资源

🔥 『A Roadmap for Transfer Learning』迁移学习路线图

github.com/thuml/A-Roa…

zhuanlan.zhihu.com/p/463332254

当下大部分的深度学习应用(尤其是CV和NLP)或多或少都会用到预训练模型,因此综述按照这些应用的生命周期,也就是 Pre-training - Adaptation - Evaluation,进行展开。

  • 预训练(Pre-training)阶段的目标是获得可迁移的知识。深度模型在具有大规模数据的上游任务上进行预训练,以学习可迁移到各种下游任务的特征表示或参数。
  • 适应阶段(Adaptation)的目标是重用可迁移的知识。通过将预训练的模型适应到下游任务,能够以更少的标注样本实现更好的泛化。而当下游任务不存在标注样本时,通常还会使用来自相同学习任务但不同数据分布的另一个数据域。上述两个过程分别涉及到了跨任务或者跨分布的迁移性。
  • 评估阶段(Evaluation)的目标是评估模型的迁移性。通过评估某个模型或者某个方法在跨任务或者跨分布情况下的迁移性,可以帮助我们更好地挑选预训练模型、改进预训练方法、设计适应方法等。

🔥 『personal emotional dialogue system』对话系统相关文献列表

github.com/neuChatbotD…

研究&论文

⚡ 论文:PyTorch Image Quality: Metrics for Image Quality Assessment

论文时间:31 Aug 2022

领域任务:Image Quality Assessment,图像质量评估

论文地址arxiv.org/abs/2208.14…

代码实现github.com/photosynthe…

论文作者:Sergey Kastryulin, Jamil Zakirov, Denis Prokopenko, Dmitry V. Dylov

论文简介:Image Quality Assessment (IQA) metrics are widely used to quantitatively estimate the extent of image degradation following some forming, restoring, transforming, or enhancing algorithms./图像质量评估(IQA)指标被广泛用于定量估计某些成形、恢复、转换或增强算法后的图像退化程度。

论文摘要:图像质量评估(IQA)指标被广泛用于定量估计一些成形、恢复、转换或增强算法后的图像退化程度。我们提出了PyTorch图像质量(PIQ),这是一个以可用性为中心的库,包含了最流行的现代IQA算法,保证根据其原始命题正确实施,并经过彻底验证。在本文中,我们详细介绍了该库的基础原理,描述了使其可靠的评估策略,提供了展示性能-时间权衡的基准,并强调了在PyTorch后端使用该库时GPU加速的好处。PyTorch图像质量是一个开源软件,获取地址:github.com/photosynthe…

⚡ 论文:ESFPNet: efficient deep learning architecture for real-time lesion segmentation in autofluorescence bronchoscopic video

论文时间:15 Jul 2022

领域任务:Lesion Detection, Lesion Segmentation,病变检测病变分割

论文地址arxiv.org/abs/2207.07…

代码实现github.com/dumyCq/ESFP…

论文作者:Qi Chang, Danish Ahmad, Jennifer Toth, Rebecca Bascom, William E. Higgins

论文简介:These values are superior to results achieved by other competing architectures that use Mix transformers or CNN-based encoders./这些数值优于其他使用混合变换器或基于CNN的编码器的竞争架构所取得的结果。

论文摘要:肺癌往往在晚期才被发现,导致病人的死亡率很高。因此,最近的研究集中在早期疾病检测方面。肺癌一般首先表现为在气道壁的支气管上皮内发生病变。支气管镜检查是有效的无创性支气管病变检测的首选程序。特别是,自体荧光支气管镜(AFB)可以区分正常和病变组织的自体荧光特性,即病变在AFB视频帧中显示为红褐色,而正常组织显示为绿色。由于最近的研究显示AFB对病变有很高的敏感性,它已成为标准支气管镜气道检查中检测早期肺癌的一个潜在的关键方法。不幸的是,手动检查AFB视频是非常繁琐和容易出错的,而在潜在的更强大的自动AFB病变检测和分割方面所做的努力有限。我们提出了一个实时的深度学习架构ESFPNet,用于从AFB视频流中对支气管病变进行稳健检测和分割。该架构的特点是利用预训练的混合Transformer(MiT)编码器结构和分阶段的特征金字塔(ESFP)解码器结构。来自肺癌患者气道检查的AFB视频的结果表明,我们的方法给出的平均Dice指数和IOU值分别为0.782和0.658,而处理量为27帧/秒。这些数值优于其他使用混合Transformer或基于CNN的编码器的竞争架构所取得的结果。此外,在ETIS-LaribPolypDB数据集上的优异表现表明了它在其他领域的潜在适用性。

⚡ 论文:Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the Compact Case

论文时间:31 Aug 2022

领域任务:Bayesian Inference, Gaussian Processes,贝叶斯推断高斯过程

论文地址arxiv.org/abs/2208.14…

代码实现github.com/imbirik/lie…

论文作者:Iskander Azangulov, Andrei Smolensky, Alexander Terenin, Viacheslav Borovitskiy

论文简介:The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces./高斯过程的协方差对这种对称性的不变性引起了静止性概念对这种空间的最自然的概括。

论文摘要:高斯过程可以说是空间统计中最重要的模型类别。它们编码了关于建模函数的先验信息,可用于精确或近似的贝叶斯推断。在许多应用中,特别是在物理科学和工程领域,也包括地理统计学和神经科学等领域,对称性不变性是人们可以考虑的最基本的先验信息形式之一。高斯过程的协方差对这种对称性的不变性引起了静止性概念对这种空间的最自然的概括。在这项工作中,我们开发了建设性的实用技术,用于在对称性背景下产生的一大类非欧几里得空间上建立静止的高斯过程。我们的技术使得(i)计算协方差核和(ii)从定义在这类空间上的先验和后验高斯过程中取样成为可能,而且都是以一种实用的方式。这项工作分为两部分,分别涉及不同的技术考虑:第一部分研究紧凑空间,第二部分研究具有一定结构的非紧凑空间。我们的贡献使我们研究的非欧几里得高斯过程模型与标准高斯过程软件包中的公认的计算技术兼容,从而使它们为实践者所接受。

Google新技术

今年以来 AIGC 的风头基本都被 Stable Diffusion、Craiyon、Midjourney 等“小玩家”给抢了——像谷歌这样的 AI 巨头,反而没怎么见动静。临近年底,在11月2日早上,谷歌终于放出了大招。这家在 AI 研究上最久负盛名的硅谷巨头,居然一鼓作气发布了四项最新的 AIGC 技术成果,能够根据文本提示生成:

  • 高分辨率长视频
  • 3D模型
  • 音乐
  • 代码
  • 以及可控文本生成技术。

图片

图片来源:Google Research

“用 AI 赋能的生成式模型,具有释放创造力的潜能。通过这些技术,来自不同文化背景的人们都可以更方便地使用图像、视频和设计来表达自己,这在以前是无法做到的,”谷歌 AI 负责人 Jeff Dean 说道。

他表示,经过谷歌研究人员的不懈努力,现在公司不仅拥有在生成质量方面在行业领先的模型,还在这些模型基础上取得了进一步创新。

图片

这些创新,包括“超分辨率的视频序列扩散模型”——也即将AI“文生图”扩展到“文生视频”,并且仍然确保超高清晰度。

以及AudioLM,一个无需文字和音乐符号训练,仅通过聆听音频样本,就可以继续生成填补乐曲的音频模型。

从生成文字,到生成代码、音频、图片、视频和3D模型,谷歌似乎正在证明 AIGC 技术的能力还远未达到边界,并且大有用武之地。

接下来,一起好好看看谷歌这次都放了哪些大招。

我们一直在强调AI背后的“大语言模型”技术背景。而谷歌推出的 LaMDA Wordcraft,就是这样一款将语言模型核心功能发挥到极致的技术

LaMDA Wordcraft 是在 LaMDA 大语言模型的基础上开发了一个写作协助工具,是谷歌大脑团队、PAIR(People + AI Research)团队,以及 Magenta 音频生成项目组的合作结晶。

它的作用,是在创作者写作的过程当中,根据现有的文本产生新的想法,或者帮助重写已有文句,从而帮助创作者突破“创作瓶颈” (writer's block)。

图片

Wordcraft 用户界面 图片来源:Google Research

LaMDA 本身的设计功能很简单:给定一个单词,预测下一个最有可能的单词是什么,也可以理解成完形填空或者句子补完。

但是有趣的是,因为 LaMDA 的模型规模和训练数据量实在是太大了(来自于整个互联网的文本),以至于它获得了一种“潜意识”的能力,可以从语言中学习很多更高层次的概念——而正是这些高层次概念,对于创作者的工作流程能够带来非常大的帮助。

谷歌在 Wordcraft 用户界面中设计了多种不同的功能,能够让创作者自己调整生成文本的风格。“我们喜欢把 Wordcraft 比喻成‘魔法文字编辑器’,它有着熟悉的网页编辑器的样子,背后却集成了一系列 LaMDA 驱动的强大功能,”谷歌网页如是写道。

你可以用 Wordcraft 重写语句,也可以让他把调节你的原始文本从而“更有趣”(to be funnier) 或者“更忧郁” (to be more melancholy) 一点。

在过去一年时间里,谷歌举行了一个“Wordcraft 作家研讨会”的合作项目,找来了13位专业作家和文字创作者进行了长期深入的合作,让他们在自己的创作过程中借助 Wordcraft 编辑器来创作短篇小说。

图片

值得注意的是,知名科幻作家刘宇昆(热剧《万神殿》背后的小说作者、《三体》英文版译者)也参与了这一项目。

他在写作过程中遇到了一个场景,需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路,但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表,节约了自己的脑容量,可以专心去写对故事更重要的东西。

图片

图片来源:新浪微博

而在另一个场景中,他发现自己的想象力被限制了,一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA,让它来开头,“这样就能够逼迫我探索一些从未想到过的可能性,发现新的写作灵感。”

图片

图片来源:Emily Reif via Imagen

超长、连贯性视频的生成,终于被攻破了?

大家对于 AI 文字生成图片应该都不算陌生了。最近一年里,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先后)等知名产品问世;而谷歌也有自己的AI 文字转图片模型,并且一做就是两个:Imagen(基于大预言模型和行业流行的扩散模型),和 Parti(基于谷歌自家的 Pathways 框架)。

图片

图片来源:Google Research

尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了,低调沉稳的谷歌并没有躺平。

当其他人都似乎“阶段性”满足于用文字提示做小图片时,谷歌其实已经在加速往前冲了:它比任何人都更早进入了“文字生成高分辨率视频”,这一从未被探索过的复杂技术领域。

“生成高分辨率,且在时间上连贯的视频,是非常困难的工作,” Google Research 高级研究总监 Douglas Eck 表示。

“不过好在,我们最近有两项研究,Imagen Video 和 Phenaki,可以解决视频生成的问题。”

图片

图片来源:Google Research

你可以这样理解:文字转图片就是根据一段文字提示来生成一张(或者多张平行的图片),而 Imagen Video 和 Phenaki 是可以根据多条文字提示,来生成在时序上连贯的多张照片——也就是视频。

具体来说,Imagen Video 是通过文本生成图像的扩散模型,能够生成具有前所未有真实度的高清画面;同时由于建立在基于 Transformer 技术的大规模语言模型上,它也具备极强的语言理解能力。

而 Phenaki 则是完全通过大语言模型,在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长(数分钟)的视频,且画面的逻辑和视觉连贯性更强。

两者结合,强强联手,就得到了这样一条清晰度高,视觉和逻辑上也更加连贯的视频

image.png

原视频总长1分钟左右,此版本有所加快 视频来源:Google Research

附:采用的文字提示

一个蓝色的气球插在红杉树的树枝上

镜头从挂着蓝色气球的树上移到动物园门口

镜头快速移动到动物园内

第一人称视角:在一个美丽的花园内飞行

长颈鹿的头从旁边冒出来

长颈鹿走向一棵树

放大长颈鹿的嘴

长颈鹿靠近树枝,拿起一个蓝色的气球

一个带白线的蓝色气球向长颈鹿的头部飞去

长颈鹿在附近咀嚼蓝气球镜头

随着单个蓝气球的飞走而向上倾斜

“说句实在话,这个项目不是我做的,但我觉得它真的非常令人惊讶。”Eck 表示,这项技术最强大之处,就在于可以使用多条文字提示组成的序列,来生成超高清晰度的视频,带来一种全新的故事讲述的能力。

“当然,AI 视频生成技术还处在襁褓阶段,我们非常期待跟更多影视专业人士以及视觉内容创作者合作,看他们会如何使用这项技术。”

图片

Douglas Eck 图片来源:谷歌

无参考音频生成

早年 OpenAI 发布 GPT 初代模型的论文标题很经典:“Language models are few-shot learners”,点出了大语言模型在极少量样本的基础上,就可以在多种自然语言处理类任务上展现出强大的能力——同时,这个标题预言了今后更强大的大语言模型,能够做到更多更厉害的事情。

而今天,谷歌展示的 AudioLM 纯音频模型就验证了这一预言。

图片

图片来源:Google Research

AudioLM 是一个具备“长期连贯性”的高质量音频生成框架,不需要任何文字或音乐符号表示的情况下,只在极短(三四秒即可)的音频样本基础上进行训练,即可生成自然、连贯、真实的音频结果,而且不限语音或者音乐。

用 AudioLM 生成的语句,在句法和语义上仍然保持了较高的可信度和连贯性,甚至能够延续样本中说话人的语气。

更厉害的是,这个模型最初没有用任何音乐数据进行训练,结果却十分惊人:能够从任何乐器或乐曲录音中进行自动“续写”——这一事实,再一次展现出了大语言模型的真正实力。

实际上只有前4秒是给到模型的提示,后面都是 AudioLM自己“补完”的。而且也只有这一段4秒的音频样本,没有“钢琴”、“进行曲”等之类的专业文字提示作为补充。

“你不需要给它提供整段乐曲来学习,只要给它一小段,他就能直接在音乐的空间里开始续写——任何的音频片段都可以,无论是音乐还是语音。”Eck 表示,这种无参考的音频生成能力,早已超出了人们曾经对于 AI 创作能力的认知边界。

其他 AIGC 技术、产品

除了上述新技术之外,谷歌还宣布了在其他内容格式上的 AI 内容生成技术。

比如,在二维的图片/视频基础上,谷歌还让文字转 3D 模型成为了现实。通过结合 Imagen 和最新的神经辐射场 (Neural Radiance Field) 技术,谷歌开发出了DreamFusion 技术可以根据现有的文字描述,生成在具有高保真外观、深度和法向量的 3D 模型,支持在不同光照条件下进行渲染。

图片

图片来源:DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)

以及,谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen,也将在近期更新加入 LaMDA 模型创新所解锁的新功能。比如“城市梦想家” (City Dreamer) 来用文字命令建造主体城市,或者“Wobble”来创造会扭动的卡通形象等。

用户可以在对应系统的应用商城中下载 AI Test Kitchen,并且前往谷歌网站申请测试资格,实测审批速度挺快。

图片

AI Test Kitchen 支持 iOS 和 Android 系统 图片来源:谷歌、苹果

“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展,帮助 AI 为数十亿人解决了重要的现实问题,”Jeff Dean 表示。

“更多的进展即将到来。我们今天分享的是对未来充满希望的愿景:AI 正让我们重新想象技术如何能够带来帮助。”

*注:封面图来自于谷歌,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。