• [论文翻译]EVA:一个具有大规模生成式预训练的开放域中文对话系统

    EVA 是一个专门针对中文设计的开放域对话系统,它利用了大规模生成式预训练技术,能够与用户进行自然流畅的多轮对话。该系统通过大量的文本数据训练,具备了广泛的知识覆盖面和强大的语言生成能力,可以应用于各种场景,如智能客服、聊天机器人等。在开发过程中,EVA 采用了先进的 Transfo...
  • [论文翻译]VAR视觉自回归建模:通过下一尺度预测生成可扩展的图像Visual Autoregressive Modeling:  Scalable Image Generation via Next-Scale Prediction

    我们提出了视觉自回归建模(VAR),这是一种新一代范式,它将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”,与标准光栅扫描“下一个分辨率”不同。 Token 预测”。 这种简单、直观的方法使自回归 (AR) 转换器能够快速学习视觉分布,并且可以很好地泛化:VAR第一次使 GPT 式 AR 模型在图像生成方面超越了扩散转换器。 在 ImageNet 256×256 基准测试中,VAR 通过将 Fréchet inception distance (FID) 从 18.65 提高到 1.73,inception score (IS) 从 80.4 提高到 350.2,显著提高了 AR 基线,推理速度提高了 20×倍。 实证还验证了 VAR 在图像质量、推理速度、数据效率和可扩展性等多个维度上均优于 Diffusion Transformer (DiT)。 放大 VAR 模型表现出与大语言模型中观察到的清晰的幂律缩放定律,其中线性相关系数接近−0.998作为确凿的证据。 VAR 进一步展示了零样本在图像修复、修复和编辑等下游任务中的泛化能力。 这些结果表明 VAR 初步模拟了大语言模型的两个重要特性:缩放定律和零样本泛化。 我们已经发布了所有模型和代码,以推动 AR/VAR 模型在视觉生成和统一学习方面的探索。
  • [论文翻译]ZeroNVS:基于单张图像的零样本 360 度视角合成

    我们介绍了一种基于 3D 感知的扩散模型 ZeroNVS,用于野外场景的单图像新视角合成。 现有的方法是为具有遮罩背景的单个物体设计的,而我们提出了新的技术来应对野外具有复杂背景的多物体场景带来的挑战。 具体来说,我们在一个混合数据源上训练一个生成先验,该数据源捕捉以物体为中心、室内和室外的场景。 为了解决数据混合带来的深度尺度模糊等问题,我们提出了一种新的相机条件参数化和归一化方案。 此外,我们观察到分数蒸馏采样(SDS)在 360 度场景蒸馏过程中往往会截断复杂背景的分布,并提出了“SDS 锚定”来提高合成新视角的多样性。 即使超过专门在 DTU 数据集上训练的方法,我们的模型在零样本设置下也获得了 DTU 数据集上 LPIPS 的最新结果。 我们进一步将具有挑战性的 Mip-NeRF 360 数据集改编为单图像新视角合成的新基准,并在这种设置下展示了强大的性能。 代码和模型可在[此网址](https://kylesargent.github.io/zeronvs/)获得。
  • [论文翻译]EchoMimicV2:迈向惊艳、简单的半身真人动画

    最近关于人体动画的研究通常涉及音频、姿势或运动图谱条件,从而实现逼真的动画质量。 然而,这些方法往往面临实际挑战,例如额外的控制条件、繁琐的条件注入模块或头部区域驱动限制。 因此,我们想知道在简化不必要的条件的同时,是否可以实现令人惊艳的半身体人体动画。 为此,我们提出了一种半身体人体动画方法,名为 EchoMimicV2,该方法利用新颖的音频-姿势动态协调策略,包括姿势采样和音频扩散,以增强半身体细节、面部和姿态表达力,同时减少条件冗余。 为了弥补半身体数据稀缺的问题,我们利用头部局部注意力将头部照片数据无缝地融入我们的训练框架,这在推理过程中可以省略,为动画提供了一种免费的“午餐”。 此外,我们设计了特定阶段的去噪损失,分别指导动画在特定阶段的动作、细节和低级质量。 此外,我们还提出了一个新的基准来评估半身体人体动画的有效性。 广泛的实验和分析表明,EchoMimicV2 在定量和定性评估方面都超过了现有方法。
  • [知识百科]燃爆职场:激活员工积极性的策略,从环境到领导艺术与实战案例

    现代职场中,员工积极性是提升组织效率和创新的关键。通过优化物理与心理工作环境、灵活工作安排、系统培训、适应性领导风格,以及定期评估与反馈,企业能激发员工的主动性和满意度。良好环境、灵活政策、职业发展和适宜的领导方式相结合,助力员工成长,提升团队协作,从而推动公司业绩增长。
  • [知识百科]智能旋风:AI重塑经济版图,机遇挑战并存——从医疗到金融,伦理对决科技革新

    人工智能快速发展,重塑全球经济,提升效率,催生新产业。医疗、金融、交通等行业受益,但隐私保护、算法公平性、就业影响等伦理法律问题浮现。AI起源于20世纪50年代,深度学习推动其在视觉和语言处理上突破。各国政府和企业重视AI,寻求技术与社会责任的平衡。AI推动经济增长,催生新职业,如医疗诊断、金融决策和数据分析。挑战包括规模化应用、数据安全、算法偏见和社会适应性。未来机遇在于经济增长、新职位增加以及全球范围内合作与政策制定。
  • [博客翻译]Prompts是程序

    在本文中,我们将探讨人工智能模型提示(AI Model Prompts)与传统软件程序之间的紧密联系。自从2022年12月发布的ChatGPT大受欢迎以来,我们对大型语言模型(LLMs)的能力和使用方式有了深刻理解。人们已经认识到,向模型输入的提示(User Prompt)具有强大的影响力,它们能够理解并回应我们的指令,还能进行有深度的对话,帮助我们调整响应。然而,尽管如此,许多用户在使用聊天机器人时仍面临挑战,比如如何准确地表述意图,以及如何确保模型输出符合特定格式,如JSON对象。此外,与编写和调试代...
  • [博客翻译]我在Stripe工作的那些时光

    在2024年10月28日,我做了一件人们通常不会做的事:我在没有找到新工作的情况下,离开了Stripe。 在离职前,我深思熟虑了离开的方式。这个决定既让我害怕又充满动力,我整夜辗转反侧,思考着如何表达。我把我的想法写成了公司内部博客长文,反复修改,甚至读给妻子听,让她帮助我提炼出真正触动人心的内容——真实讲述我们的故事。 我想把我的经历分享给更多人,因为也许有人正独自面对困境。公开分享这件事让我感到恐惧,担心它会如何影响我。我犹豫了数月,但最终还是决定“豁出去”。 我一直珍视诚实,我的价值观之一就是“谦逊的...
  • [博客翻译]根据OSI的新定义,开源AI必须公开其训练数据

    开源倡议组织 (OSI) 已发布其关于“开放”人工智能的官方定义,这为与像Meta这样的科技巨头之间的冲突埋下了伏笔——这些巨头的模型并不符合新规则。OSI长期以来一直设定行业标准,定义什么是开源软件,但AI系统包含了一些不受传统许可涵盖的元素,如模型训练数据...
  • [博客翻译]如何使用Cursor编写代码

    在关于人工智能和编程的论坛上,我经常看到经验丰富的软件开发者提出这样的疑问:Cursor这类工具真的有用吗?它的订阅费用是否值得?我使用Cursor作为日常开发工具已经几个月了,现在我想分享一些关于它是必备工具还是昙花一现的看法,以及一些快速上手策略,或许能帮助你试用它。有些人可能试过但觉得它不尽如人意,我的建议可能会激发你们再试一次的兴趣。我不是Cursor的代言人,也不是产品评论员。我只是分享我个人使用它的体验。我是谁?这篇文章的目标读者是谁?我有36年的编程经验,主要在C语言游戏引擎和Go/Py...
  • [博客翻译]我如何击败MMO游戏黑客作者

    我在一家小众的大型多人在线游戏(MMO)公司工作。我们的团队不大,预算有限,但有一群忠实的玩家。这是一款完全靠技巧而非常规道具取胜的游戏,玩家们享受着挑战的乐趣。然而有一天,我们听说游戏里出现了一个作弊软件,玩家们顿时变得愤怒。由于只有四位程序员,我主动请缨去调查此事。大家坚信在游戏中杀死他们的人都是因为使用了作弊工具。我们尽力安抚他们,但我们对这种现象的严重程度一无所知。要知道,我在这里描述的情况可能早已过时。我们支持Windows和Mac,但Windows似乎是主要目标;不过,当时只有1...
  • [论文翻译]OmniParser 用于纯视觉的基于 GUI 的代理

    近年来大型视觉语言模型的成功表明,在推动在用户界面上运行的代理系统方面具有巨大潜力。 但是,我们认为,由于缺乏强大的屏幕解析技术,像 GPT-4V 这样的多模态模型在不同应用程序跨多个操作系统作为通用代理的能力被严重低估了。
  • [博客翻译]生成型人工智能何时符合合理使用的条件?

    尽管生成模型很少产出与训练输入高度相似的结果,但训练这类模型的过程涉及复制受版权保护的数据。如果这些复制未经授权,可能会被视为侵权,这取决于模型的具体使用是否符合“合理使用”的原则。由于合理使用的判断是具体情况具体分析,我们无法给出一个通用的结论。相反,我会针对ChatGPT对其训练数据的使用进行具体分析,但许多其他生成式AI产品的情况也大致适用...
  • [博客翻译]Raspberry Pi 3快速启动不到2秒

    在这个教程中,我们将探索如何让Raspberry Pi 3(RPI)在短短1.75秒内从电源开启直接进入Linux shell,以及在2.82秒内启动Qt(QML)应用。整个过程涉及硬件优化和软件配置,让我们一步步来了解。
  • [博客翻译]高收入的不稳定之路

    几周前,我在Reddit上看到一篇帖子,讲述了一个关于FAANG(Facebook、Apple、Amazon、Netflix和Google)领域里的警示故事: 亨利(High Earning Not Rich Yet,尚未实现财务自由但收入颇丰)的生活经历。想象一下这样的场景:你已经工作了两年,生活安逸,事业有成,积累了大量未兑现的股票期权(RSUs)。再过几年,你可能就实现了财务自由!然而,突然间,裁员...
  • [博客翻译]扩散模型的收敛速度提高了20倍

    基于去噪的生成模型,如扩散模型和流模型,已经成为生成高维视觉数据的可扩展方法。近期研究开始探索将扩散模型作为表示学习工具,其隐藏状态能捕捉有意义的区分特征。我们发现,训练扩散模型的主要挑战在于学习高质量的内部表示。具体来说:当扩散模型得到另一个模型(如自监督视觉编码器)提供的高质量外部表示支持时,生成性能会有显著提升。 我们提出了一种简单的方法——表示对齐(REPA),它建立在最新的扩散变压器架构上。REPA将预训练的自监督视觉表...
  • [博客翻译]别让字典毁了你的代码——Python编程中的替代方案

    在编程中,字典(dict)因其简洁而常被滥用,但过度依赖它们可能会带来维护难题。让我们来看看字典存在的问题,并探讨如何用现代Python工具来优化。当你编写接受字典作为参数的函数时,扩展和修改这些函数就像噩梦一样。要改变处理字典的函数,你可能需要追溯到字典创建的地方,这在程序复杂且无规划增长时尤为困难,可能导致数据结构不一致。程序员常常滥用字典的可变性,随意修改其值以适应特定工作流程。这种即席修改会破坏...
公告

AI千集是一个智能写作平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,写作快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理