• [博客翻译]JuiceFS:如何管理数十亿文件的元数据

    JuiceFS是一个用Go语言编写的云原生分布式文件系统,它能够在单一命名空间中管理数十亿个文件。其元数据引擎采用全内存处理方式,并实现了显著的内存优化,能够使用30 GiB内存处理3亿个文件,响应时间为100微秒。通过内存池、手动内存管理、目录压缩和紧凑型文件格式等技术,元数据内存使用量减少了90%。
  • [博客翻译]冷静工作:一种不同寻常的商业哲学

    当阿曼达·纳蒂维达德(Amanda Natividad)加入SparkToro后不久,她创造了“冷静工作”(Chill Work)这个术语,以描述我们建立这家企业时不同寻常的、成熟稳重、悠然自得的方式。在过去的三年里,这种理念越来越多地影响了我对公司的看法,乃至于我在职业上所做的一切。 今天,我想分享一段由LinkedIn和Hubspot合作制作的关于冷静工作的纪录片片段(尽管他们没有使用这个准确的词汇),并更深入地探讨我们所拥抱的这种不寻常的实践。我的目标...
  • [博客翻译]互联网复兴

    不久前,我曾说:“得益于对大型科技公司的不信任、为开发者创造的更佳工具,以及普通人奇特而美妙的创造力,我们正见证一个极不可能的复兴:网络再次繁荣起来。”当时,出于对我的这种乐观想法是否仅仅是一厢情愿的质疑,以及许多人认为要想让开放、人性化的网络重新成为一个主要的社会力量,需要在主流科技产业的权力动态中发生巨大转变,因此存在一些怀疑声音。 然而,最近科技界的情况有所变化。技术世界的权力转移往往是因为一项解决旧问题的戏剧性新发明而发生的。但在当前时代,当大部分获得资金和炒作的只是各种企图削弱工人权益和控制消费者...
  • [博客翻译]Bluesky是如何工作的?

    BlueSky是一个去中心化社交平台。我对BlueSky充满热情的一个原因是其工作方式。因此,在这篇文章中,我将阐述我所理解的BlueSky设计及其背后的原则。我不是BlueSky团队的成员,所以这些都是我个人的观点。
  • [博客翻译]Rust与C的速度比较

    Rust语言编写的程序在运行时速度和内存使用上应与C语言编写的程序大致相同,但由于这两种语言的编程风格差异较大,很难概括它们的速度。以下是它们相同之处、C语言更快之处以及Rust更快之处的概述。 免责声明:此比较并非旨在作为揭示这些语言不容置疑真理的客观基准。理论上这些语言能够实现的和实际使用中的差异是显著的。此次比较基于我个人的主观经验,包括面临截止日期、编写错误和懒惰情绪。我已经使用Rust作为我的主要编程语言超过4年,而在此之前使用C语言达十年之久。我在这里特别只将Rust与C语言进行比较,因为与C+...
  • [博客翻译]数据不会告诉你该怎么做

    见微知著:洞察力胜于数据 工作于数据领域长达十五载,颇感唏嘘的是,最佳创意往往并非源自数据。数据或许能确切告诉你,将按钮颜色从黄变绿能提升0.15个百分点的转化率,但却无法揭示那些可能产生十倍影响的其他创意。若你有玩过电子游戏,便会明白这类似于你开始时几乎全是未知的地图。固然,你可以继续探索那1%已知的领域,但真正的丰厚奖励却在那未知之域,当你抵达奥妮克希亚的巢穴时。 顶尖的创意往往复杂且需要坚持,你可能要尝试五次才能成功。更糟糕的是,事后看来它们显得如此显而易见,使得旁观者轻易地质疑,“你怎么花了这么长时...
  • [博客翻译]什么是矢量数据库?

    理解向量数据库 向量数据库是执行基于相似性的搜索的首选工具,在推荐您下一个喜爱的电影、识别照片中的某人或挖掘与您搜索内容共鸣的文本等人工智能驱动的应用中扮演着关键角色。这些应用的核心是向量嵌入,这是一种复杂的数据形式,超出了传统数据库的存储和检索能力。 向量嵌入的作用 向量嵌入是一种将复杂的非数值数据(如单词、句子甚至图像)转换为数值格式的方法,同时保留它们的语义意义和关系。嵌入是由机器学习模型生成的多维对象,每个维度代表数据的不同特征或方面。为了正确捕捉数据的复杂性,向量的维度可以从几十到数千不等,这取...
  • [博客翻译]Techstars出了什么问题

    Techstars的兴衰:战略选择的后果 Techstars曾是全球领先的创业加速器之一,然而随着时间的推移,它逐渐被Y Combinator所超越。近期,Techstars宣布了一系列高管离职和项目关闭的消息,包括终止其最古老且最成功的西雅图项目。尽管Techstars和Y Combinator有着相似的起点,但Techstars选择了不同的战略道路,这些决策随着时间的积累,加强了Y Combinator而削弱了Techstars。本文将提供一些关键战略决策的内部视角,以探讨导致Techstars衰退...
  • [博客翻译]在100美元的预算上移动10亿Postgres行

    受到1BR挑战的启发,我想探究将10亿行数据从Postgres迁移到Snowflake的成本。转移10亿行数据绝非易事。这一过程不仅涉及数据的传输,还需确保数据的完整性、错误恢复以及迁移后的一致性。 此任务的核心在于工具和技术的选择。我们将讨论开源工具的使用、自定义脚本、从Postgres读取数据的方法,以及Snowflake数据加载能力。诸如并行处理、高效读取Postgres的WAL日志、数据压缩以及在Snowflake上增量批量加载等关键方面将被着重强调。 我将列举并讨论一些为最小化计算、网络和仓库成本...
  • [博客翻译]若加拿大航空聊天机器人承诺提供折扣,则航空公司必须兑现

    几年前,英国哥伦比亚居民杰克·莫法特的祖母在安大略去世后,他访问了加拿大航空网站预订参加葬礼的航班。据最近的一项民事解决法庭决定,他在聊天机器人的帮助下购买了一张近600美元的次日机票。该聊天机器人告诉他,只要在90天内申请,根据航空公司的丧亲政策,他可以拿回部分钱。然而,当莫法特后来试图获得折扣时,他发现聊天机器人错了。加拿大航空公司只为在飞行前提交请求的乘客提供丧亲费用。航空公司后来辩称,聊天机器人是一个“对自己的行为负责”的独立法律实体……
  • [博客翻译]用LlamaIndex和W&B Weave构建基于RAG的数字餐厅菜单

    引言数字便利性几乎是所有企业的必需品。然而,在外出就餐时,我们还没有看到太多变化。虽然餐馆在COVID疫苗可用后采用了电子菜单,但大多数都是静态PDF或模拟在线订购的体验,而实际上用户是在餐厅里。实体菜单是可以的。它们完成了工作。但如果我们要真正改进它们,当前的方法错过了目标。它们提供的交互性和灵活性有限。搜索大多数菜单的方法要么是通读整个菜单,要么使用“命令+F”(这在大多数手机上也不太理想)。这就是我们看到真正改善的一个好窗口:语义搜索。用户可以以更微妙的方式与菜单互动,不需要确切知道他们想要什么,而是...
  • [博客翻译]表示工程: Mistral-7B的迷幻之旅

    在2023年10月,一批来自人工智能安全中心的研究者们联合发布了一篇名为《表示工程:一种实现AI透明度的自顶向下方法》的论文。该研究探讨了“表示工程”的几种方法,即计算一个“控制向量”,在推理过程中可以直接读取或添加到模型激活中,以解读或控制模型的行为,无需进行提示工程或微调(与此相似的工作也在2023年5月关于引导GPT-2-XL的研究中有过报道)。
  • [博客翻译]基于RingAttention的百万级视频+文字世界模型

    当前的语言模型在理解非文字所能轻易描述的世界层面有所欠缺,对于复杂且篇幅较长的任务处理也显得力不从心。视频序列提供了语言和静态图像中缺失的宝贵时间信息,使其成为与语言联合建模的理想选择。这样的模型有望融合人类的文字知识与物理世界的理解,从而开启更广泛的人工智能辅助人类的能力。然而,从数百万个视频和语言序列令牌中学习面临着内存限制、计算复杂度高以及数据集有限的挑战。 为了解决这些问题,我们汇编了一个包含多样化视频和书籍的大规模数据集,采用RingAttention技术以可扩展的方式训练长序列,并逐步将上下文大...
  • [博客翻译]一个能闻到帕金森氏症的女人正在激发对诊断的研究 (2020)

    嗅觉超能力:发现帕金森病的秘密气味 平凡中的非凡天赋 乔伊·米尔恩一生中拥有一种她自己完全未察觉的超能力。她浑然不知自己拥有一个令人惊叹且略带恐惧的生物学礼物,科学家们对此跃跃欲试,渴望研究。如果不是她的丈夫莱斯·米尔恩,乔伊或许会一直蒙在鼓里。 两人在高中相识,当时莱斯是一名17岁的游泳运动员,而16岁的乔伊是新转来的学生。她在一次聚会上与他共舞,被他那迷人的男性体香所吸引。“他有种美妙的男性气息,真的。”她回忆道。 莱斯的一切都让乔伊着迷。他深思熟虑,通常沉默寡言,但幽默感十足。 大学毕业后,他们步入...
  • [机器生成]深度学习入门:揭示机器学习新维度的革新力量与实战应用

    深度学习是AI领域的革新力量,它模拟人脑神经网络结构,通过多层非线性变换自动提取数据特征,实现模式识别、图像分类(CNN)、语音识别(RNN)等技术突破。初学者需掌握神经网络基础、反向传播算法,并建立数学基础。实践中,理论与应用并重,如Google改进搜索引擎、Facebook人脸识别。展望未来,鼓励投身深度学习研究,共同挖掘智慧宝藏,推动人工智能发展。
  • [博客翻译]NeuralRad器官和肿瘤分割云服务背后的故事

    上月,我收到了一条消息,来自我们老朋友——郝江(网名coolwulf)的讯息。他告知我关于他的最新项目——NeuralRad,据他所言,这是“史上首个免费的器官与肿瘤分割云端服务”。只需上传CT或MRI扫描图像,人工智能能在几分钟内自动识别并分割全身器官。针对大脑,还专门设有描绘脑部肿瘤的功能。熟悉我们的观众可能对coolwulf的名字并不陌生。郝江,网名coolwulf,曾因在南京大学物理学的学术成就以及密歇根大学核工程与放射科学博士学位……
  • [博客翻译]Nvidia 的 Chat with RTX 是一款在您的 PC 上本地运行的 AI 聊天机器人

    RTX 聊天助手:本地化AI聊天机器人初探 英伟达今日推出了RTX版聊天助手的早期版本,这是一个演示应用,允许用户在个人电脑上运行AI聊天机器人。你可以喂给它YouTube视频和自己的文档,生成摘要并根据你的数据获取相关答案。这一切都在本地PC上运行,你只需一块拥有至少8GB显存的RTX 30或40系列GPU。 过去一天,我短暂试用了RTX聊天助手,尽管该应用尚待完善,但我已经能够预见其对于记者或需要分析文档集合的任何人来说,在数据研究中的潜在价值。 视频与文档搜索利器 RTX聊天助手能处理YouTube视...
  • [博客翻译]数学的魅力与神经网络:分形之美

    几个月前,我的五岁女儿从幼儿园回家,对我们宣称数学是愚蠢的!自那以后,我们一直在努力(至今成效显著)激发她对数学的热情,并为她的数学成就感到自豪。其中一项成功是她现在对分形产生了浓厚的兴趣,特别喜欢观看曼德布罗特集和曼德尔球分形的深度缩放视频,还喜欢吃罗马花椰菜。
  • [博客翻译]居中策略:CSS布局的艺术与技巧

    长期以来,在其父元素中居中定位一个元素一直是一项令人惊讶地棘手的任务。随着CSS的发展,我们获得了越来越多的工具来解决这个问题。如今,我们在中心化策略上拥有丰富的选择!本文旨在帮助您理解不同方法之间的权衡,并提供一套适用于各种场景的中心化策略。
  • [博客翻译]非代码贡献:开放源码生态的关键力量

    数学教师萨拉·雷恩斯伯格在重构合唱团网站时,并未打算成为一名开源贡献者。她只是出于兴趣想学习JavaScript和Web开发。她说:“我并非程序员,但经常发现自己是团队中唯一具备一定技术背景的人。这就是我最初构建合唱团网站的原因。”
个人成就
  • 积分
    79
  • 文章
    133
  • 评论
    19
  • 注册排名
    10