• [博客翻译]用外行的术语解释llm.c

    训练大型语言模型(如ChatGPT)涉及大量的代码和复杂性。例如,一个典型的LLM训练项目可能会使用PyTorch深度学习库。PyTorch非常复杂,因为它实现了非常通用的张量抽象(一种用于排列和操作数组的方法,这些数组包含神经网络的参数和激活),以及一种非常通用的Autograd引擎来进行反向传播(训练神经网络参数的算法),以及您可能希望在神经网络中使用的大量深度学习层。PyTorch项目的源代码有11,449个文件,共3,327,184行代码。除此之外,PyTorch是用Python编写的,而Pyth...
  • [博客翻译]503天全职投身开源项目:经验和教训分享

    在正式投入一个全职开源项目之前,我发现了一个有趣的事实:通过非传统途径寻找工作机会变得越来越容易,尤其是在互联网时代。如果你在找工作,提交简历或者填写表格确实能收到回应,但这次并非我找到Textualize工作的常规方式。我要告诉你的是,我在Twitter上的活跃互动如何帮助我获得这个职...
  • [博客翻译]为什么现在的软件如此糟糕?

    随着互联网的发展,软件的角色变得越来越重要,以至于我们的世界现在严重依赖于它。软件在各种操作中起着关键作用,从将卫星送入轨道到管理庞大的供应链网络。无论是在驾驶汽车、乘坐飞机还是购买杂货时,我们都会依赖它。 然而,尽管出现了专门的角色,如用户体验专家和质量保证工程师,以尽量减少软件中的错误数量,但随着软件解决方案的数量持续增长,人们仍然会遇到性能和可用性问题。本文旨在探讨这种持续的质量危机背后的原因,并揭示为何尽管取得了进步,但软件质量仍然是一个关键问题。...
  • [博客翻译]编程何去何从?

    关于我们离真正的人工智能还有多远,我们何时才能到达那里,它是有意识的还是无意识的,以及它有多危险等问题,有很多争论。不管怎样,机器能够自我编程的时代正在加速到来,而且比我们想象的要快得多。无论是两年、五年还是十年,现在开始思考编程、程序和编程语言的未来都不算太早。尽管最新的工具在许多方面都很出色,但值得指出的是它们仍然与自然智能有所不同。训练要求。人类不需要阅读整个互联网就能学会说话。儿童确实会接收到几年...
  • [机器生成]探索未来创新:深入解析AI驱动的内容生成(AIGC)的力量

    随着深度学习进步,AIGC能理解语义、模拟人类思维,创作新闻、社交媒体内容甚至艺术作品。机器学习模型通过大量文本学习,高效生成定制内容。然而,这也带来版权、原创性及就业挑战。我们需要在推进技术的同时,关注伦理和法律问题,确保人与AI和谐共存。AIGC潜力巨大,将持续塑造我们的信息世界。关注其发展,平衡利用,保持人类价值核心地位。
  • [博客翻译]OpenAI对NTIA关于开放模型权重的评论

    OpenAI认为,广泛开发和使用人工智能可以提升人们的生活并开启更美好的未来。进步依赖于创新和市场竞争。在这些大原则的框架下,人们可以通过多种途径推进人工智能的潜力。OpenAI是首批面临如何分配超凡能力基础模型益处的AI开发者之一,我们首先提供这段历史背景来帮助NTIA的审议。2019年,我们创造了GPT-2,它具备生成连贯文本段落的新能力,我们面临的问题是如何部署它。一方面,模型似乎很有用;另一方面,我们不确定它是否可用于恶意目的,比如生成钓鱼邮件。我们选择了“分阶段发布”的策略。
  • [博客翻译]Xz软件包埋入后门事件分析

    在一个普通的周五早晨(2024年3月29日),我在浏览黑客新闻时,看到一篇快速升温的文章——“xz/liblzma上游代码后门导致SSH服务器被入侵”。文章讲述了令人不安的故事:一名叫Andres Freund的工程师正在调查Postgres性能问题,他发现SSH的CPU使用率异常升高。 经过调查,Andres发现问题源于一个名为xz/liblzma的依赖库中的注入代码。他进一步揭示了恶意代码的执行条件以及它如何在SSH认证过程中的RSA部分发挥作用。这一发现拉响了警报,Andres联系了多个组织和个人来验...
  • [博客翻译]你应该使用的现代Git命令和功能

    我们这些软件工程师每天都在使用 git,然而大多数人只是使用最基本的命令,比如 add、commit、push 或 pull,好像还停留在 2005 年。但是,Git 自那时起引入了许多特性,使用它们可以让你的生活变得更加轻松,所以让我们来探索一些你应该知道的近期添加的现代 Git 命令。
  • [博客翻译]如何处理开源项目的身份问题

    最近有一些关于颠覆开源项目的小争议。那起事件让我思考一些通常在我脑海中的事情。那个想法再次被那起事件触发,但并不是对它的回应。我想谈谈作为一个开源贡献者和维护者的一些压力,但特别是关于一些多年来我一直不确定的事情:匿名性和使用化名。 多年来,很明显有些人在开...
  • [博客翻译]MiniGemini:挖掘多模态视觉语言模型的潜力

    在这篇论文中,作者介绍了“迷你双子星(Mini-Gemini)”——一个增强多模态视觉语言模型(VLMs)的简单而有效的方法。尽管现有的VLMs在基本的视觉对话和推理方面有所进步,但它们的表现仍然落后于像GPT-4和Gemini这样的高级模型。为了缩小这一差距,研究者从三个方面挖掘VLMs的潜力,即:高分辨率视觉令牌、高质量数据和VLM引导的生成。他们提出使用额外的视觉编码器来提升高分辨率的视觉令牌,而不增加视觉令牌的数量,并构建了一个促进精确图像理解和基于推理的生成的高质量数据集,从而扩大了当前VLMs的...
  • [博客翻译]软件需要变得更贵

    软件,就像咖啡一样,过于人为地便宜,我们需要让它变得更贵。我有一个建议可以实现这一目标。咖啡行业的詹姆斯·霍夫曼(James Hoffmann)——或许是咖啡界最有影响力的推广者——一直在努力宣传“咖啡需要更贵”。咖啡行业臭名昭著地剥削劳工。尽管独立咖啡馆的利润率相对较低,但关于供应链中劳动力剥削甚至奴隶制的可怕故事却层出不穷。霍夫曼先生在一系列视频和访谈中指出,部分问题可以通过监管措施解决。制造商和政府对供应链政策的执行可以帮助发现并避免此类剥削。消费者也可以...
  • [博客翻译]Dart中JavaScript互操作的历史

    随着Dart 3.3版本的到来,Flutter Beta版现在支持了WebAssembly(Wasm),这得益于Dart与JavaScript交互的一个重要里程碑。让我们回顾一下Dart与JavaScript互操作性长达十年的历程。自Dart于2011年发布之初,互操作性就是其核心关注点。Dart设计为可嵌入且跨平台,可以在独立虚拟机上运行,嵌入浏览器,甚至编译为JavaScript。2015年Flutter诞生时,我们已经准备...
  • [博客翻译]使用只读根文件系统运行Raspberry Pi

    许多在 Raspberry Pi 和类似单板计算机上运行的应用程序——比如将数据报告到中心数据库服务器的环境数据记录器——实际上并不需要在 Pi 的 SD 卡上本地存储任何状态。这意味着你可以使用只读根文件系统运行 Pi,这样可以极大地延长 SD 卡的使用寿命。
  • [博客翻译]从MongoDB到PostgreSQL的大迁移

    过去一年,Infisical发展迅速,每天处理超过5000万份秘密数据,将应用配置和秘密信息发送给需要它们的团队、CI/CD管道和服务器应用。随着使用量持续增长,我们不得不不断升级我们的架构。最近,Infisical完成了一次全面的从MongoDB到PostgreSQL的数据库迁移。这个过程包括深思熟虑该举措、采用新技术、创建新的数据库模式、重构逻辑、重写查询,并迁移数百万(甚至数十亿)数据库记录到PostgreSQL。这是一个复杂的过程,但无疑是必要的,对平台的提升大有裨益...
  • [博客翻译]大型语言模型的涌现能力是一种幻觉

    斯蒂芬·奥内斯科学3月24日,2024年08:00大型语言模型的涌现能力可能是个幻象在一项名为“超越模仿游戏基准”(Beyond the Imitation Game benchmark, 或 BIG-bench)的项目中,450位研究人员编纂了一份包含204项任务的列表,旨在测试大型语言模型(如ChatGPT聊天机器人)的能力。在大多数任务中,随着模型的规模扩大,性能通常会稳定提升——模型越大,表现越好...
  • [博客翻译]量子密码学规模太大了

    大型量子计算机一旦出现,将能破解当前互联网广泛使用的非对称加密算法。目前它们还未存在。2022年,NIST宣布了PQC竞赛中的最终密钥交换和签名方案,标志着互联网向后量子加密的转变开始。关于各种算法和标准化流程的讨论已经很多。普遍的看法是,向后量子加密的过渡需要很长时间,因此即使量子计算机还未真正出现,我们也要开始标准化并部署相关技术。NIST竞赛的结果将被采用。然而,关于NIST标准化的方案是否足够在公共网络上部署的问题却没有充分讨论。我们需要更...
  • [博客翻译]中年孤独:美国和欧洲之间的差距正在扩大

    新研究揭示了美国和欧洲中年人之间显著的孤独感差距,其中美国人体验到更高的水平。这项研究利用超过53,000名参与者的数据来探索跨三代人的孤独趋势,发现美国成年人报告的孤独感增加,尤其是在年轻一代中。导致这种差异的关键因素包括文化规范、社会经济因素以及美国较弱的社会安全网,这表明需要政策干预以解决这一公共卫生问题。这些发现强调了孤独作为一种流行病挑战,强调了社交联系和支持政策在减轻其影响中的作用。
  • [博客翻译]裁员后,初创企业如何筹集资金和招聘新员工?

    2023年面临诸多经济挑战,其中科技行业的裁员潮尤为显著。裁员潮的一个主要推手可以追溯到疫情的影响。封锁措施和在家办公的规定带动了电子商务和云服务的繁荣,大型科技公司在需求激增期间扩大业务并推高了估值。然而,疫情结束后需求迅速下滑,全球市场也大幅收缩。为了应对过度扩张,谷歌、Meta(原Facebook)和微软等科技巨头开始大规模裁员,2023年也因此被称为“效率之年”。这一举动在科技行业产生了连锁反应,据统计,美国科技公司在2023年大规模裁员中解雇了超过19.1万员工。尽管2024年初的经济环境稍有...
  • [机器生成]自动驾驶:通向安全与便捷的未来之路,我们该如何应对挑战?

    自动驾驶技术正在逐步实现,有望提升交通安全、优化交通流量并帮助特殊人群。然而,它也面临挑战,包括复杂环境下的判断难题、数据隐私保护和法规限制。要推进这项技术,我们需要提高系统可靠性、保障数据安全并推动政策改革。自动驾驶的未来将反映我们对更安全、高效和便捷生活的追求,值得我们共同期待和参与。
  • [博客翻译]PCA不是万灵药(2013)

    Patreon 今年早些时候,我参加了一家知名科技初创公司的面试,这家公司是众多声称比谷歌有更难的面试、更具挑战性的工作和更聪明员工的公司之一。我的第一位面试官约翰给我展示了一番标准流程:配备了健康零食与糖果的迷你厨房;围绕着桌上足球的二十多岁的白人男性;明亮的空间配以可爱主题;还有一个用于视频游戏的大电视;最后是洗手间。他带我进入一间类似壁橱大小的会议室,我们开始进入正题。在讨论了基本的数据结构和算法之后,我们进入了核心问题:你会如何设计一个针对“foo”的分类系统2?我们讨论了...
公告

AI千集是一个AIGC自动创作平台
在这里您可以获得本平台自训练的
LLM和AI绘画的模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,让你的AIGC成长更有意义
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai为好友

题灵是连通AI学研和就业的桥梁
登陆小程序
获取千集AI课程和论文
挑战万道AI面试题

题灵