上周逛GitHub Trending那会刷到一个项目,名字起得那是相当狂,叫做GordenSuperPPTSkills,副标题更是直接写着AI PPT赛道终结者,史上超级超级强PPT Skill。换成平时碰到这种标题我通常就会直接划走,但917个Star明晃晃摆在那里情况就不一样了,点进去对它的思路进行研究之后,确实跟以往见过的所有AI PPT方案都不太一样。
说起做PPT这档子事,AI已经折腾了两年多的时间了,Gamma、讯飞智文、百度文库AI、AiPPT,大大小小十几个产品,功能越堆越多,模板也是越做越好看。但有一个问题所有产品都在有意无意地回避,那就是生成出来的PPT到底能不能进行修改操作。
听起来像是一句废话对吧,PPT不就是拿来改的嘛。其实还真不是这么回事,现有AI PPT工具所生成的文件主要分成两种。第一种是直接输出PPTX格式,排版很丑,字体乱七八糟,间距也不一致,换台电脑打开可能连格式都变了样。你说把这种东西拿去汇报,领导看一眼保准让你重做。第二种则是输出高清图片,视觉效果那叫一个炸裂,渐变、立体字、光影效果全都有,但你拿到手就是一张张死图,想改个数字都得重新跑一遍生成流程,改一句话就得整页推翻重来。
这两种路线各有各的坑,选哪个都让人心里不舒服,要么得到一个能改却丑得没法看的东西,要么得到一个好看却完全不能动的东西。偏偏在实际的现实场景里你需要的是既要好看又要能改。
GordenSun这个项目的做法彻底绕开了这种对立局面,先让GPT生成图片格式的高质量PPT,视觉层面随便怎么发挥都行,然后交给第二个技能把图片逐层进行拆解操作,拆成背景图、框架结构、图标装饰和文本四个图层,再按坐标拼装回PPTX文件里面。这样一来就等于走了一条先画画再搭骨架的路子,顺序跟传统做法完全反过来了。
这思路其实还挺狡猾的。咱们正常人做PPT的逻辑是先写大纲,再填内容,然后再排版美化,属于从骨架到皮肤的流程。这个项目偏偏反过来,先让AI把皮肤画出来,再从皮肤里面把骨架还原出来,那么好处是什么呢,视觉层面完全不受PPTX排版能力的限制,GPT生成图片的时候想怎么花哨就怎么花哨,渐变、立体、阴影随便来,那些在PPTX里不好实现的字体效果也不碍事,因为在图片阶段压根不需要用到字体,文字直接就是图像的一部分。等到还原成PPTX的时候,再借助python-pptx把每一个文本块、装饰元素和背景图按坐标塞进去,各归各位。
整个处理过程拆成了三个独立技能,GordenImagePPTGen负责出图,GordenImage2PPTX负责把图片转成可编辑的PPTX,GordenSuperPPTSkill则把前两个串起来实现一键跑。拆开之后的好处就是显得非常灵活,你只想出图那就选用头一个,要是说你已经有一张截图想转成PPTX那就运用第二个,不需要每次都非得走完整流程。这种模块化设计对于想做二次开发的开发者来说同样很友好,你可以把GordenImage2PPTX单独拿出来接进自己的工作流里面,比如跟Midjourney的出图能力搭配起来运用也是可以的,不过跨平台拼接的稳定性还有待进一步验证。
不过这个东西目前只能在Codex上运行,因为得依靠GPT的图片生成能力和视觉解析能力,这两者缺一不可,作者也说了理论上凭借Opus加GPT生图接口也能搞,但没做专门适配。我自己也试着跑了一下,单页转换大概等了四十秒左右,出来的效果确实比直接选用PPTX模板强的不是一点半点,尤其是渐变和光影细节这些传统PPTX很难搞的效果,生成的页面还真能看。另外转换一张图片大概要消耗Plus订阅5小时额度的10%,做一套十页的PPT下来额度就没了小半,免费用户基本不用想了,这个门槛直接把大部分个人开发者挡在了外面,同时还限制了社区贡献者参与测试和反馈的速度,一个需要付费订阅才能跑通的项目,确实很难像其他开源工具那样凭借社区力量快速进行迭代。
说实话这个成本问题其实比技术本身更值得关注。AI PPT赛道过去两年的核心矛盾不是做不出来,是做出来的东西不够好改,现在这个项目证明技术上确实能解决,但代价是每张图都要跑一遍GPT的视觉推理,这个算力消耗要是摊到商业场景里面就变成了谁买单的问题。企业内部用还行,反正额度由公司出,要是做成面向消费者的产品这笔账就很不好算,单次生成成本可能比用户付的会员费还要高,除非能找到更轻量的视觉解析方案把成本压下来,否则商业化路径就会很窄,这也是为什么目前主流AI PPT产品都选择了模板路线而不是生成路线的根本原因。
我翻了一下这个项目的数据,6月7号创建的,一周多时间拿到了917个Star,89个Fork,发了不到三天就冲到了首页,海外开发者的反馈比国内还要快,作者GordenSun是个2013年就注册GitHub的老号,50个关注者,不算大V但也不是新手,看上去在AI工具领域深耕了一段时间,仓库里面有好几个跟图像处理相关的项目。项目依赖也就三个库,python-pptx、pillow、numpy,没有什么乱七八糟的第三方依赖,代码层面比较干净,部署起来也没什么坑。这种轻依赖的项目在国内网络环境下反而是个加分项,不用担心pip装半天装不上。
顺带说几句竞争对手的情况,同样在做AI PPT的可不止这一家。Gamma凭借模板和在线编辑跑出了千万用户,讯飞智文走语音输入一键生成的路线,百度文库AI直接嵌入WPS生态,AiPPT和比格PPT这些垂直选手也在各自圈地。但所有这些产品的PPTX输出都有同样的问题,要么就是排版粗糙,要么就是文本块不可编辑,要么换个设备就变形。GordenSun的项目算不上成熟方案,但思路确实是目前看到的头一个从根本上绕开PPTX排版限制的,这也是它能在一周内拿到近千Star的原因,开发者群体对这个痛点实在是太有共鸣了。
当然短板也很明显。只支持Codex,严重依赖OpenAI的封闭能力,社区里有人问能不能接到开源绘图模型上,作者目前还没回应。转换一张图消耗的额度偏高,做长PPT累加起来成本可不低。输出的PPTX虽然号称可编辑,但图标和装饰元素还原出来的是图片素材而不是矢量形状,想换个颜色还得自己去替换图片文件,并不是点几下就能搞定的事。这些细节决定了它现在更适合用来开展技术验证工作和充当灵感起点,离真正拿去做商务汇报还有一段距离。尤其是协作场景下图标不可编辑这个问题,对团队使用来说简直是硬伤,你做完发给同事,同事想改个图表颜色都改不了,还不如你自己截图发给对方来得方便,至少对方还能裁剪一下。
不过我觉得这个项目有意思的地方不在于它现在好不好用,而在于它证明了一种可能性,让AI先把好看的版本画出来,再从好看版本里面把可编辑的结构还原出来。这条路要是能继续进行优化下去就意味着从根本上绕开了PPTX的排版瓶颈,这样一来就不再需要跟微软的格式规范较劲,这种范式转移一旦跑通会彻底改变整个AI PPT赛道的竞争逻辑。
举个不太恰当的例子,这有点像当年网页设计领域的切图时代。设计师先在Photoshop里面把页面做得漂漂亮亮,前端工程师再一张张切图拼成HTML,后来CSS3和组件化框架来了,这个流程就被彻底革新了。AI PPT现在可能就站在类似的转折点上,既然先有人证明了先画再拆走得通,后面一定会有更优雅的方案把成本和精度问题一起收拾掉,这块的能力提升才是决定这个方向天花板的关键变量,什么时候开源视觉模型能够做到GPT-4o视觉级别百分之七八十的精度,同时成本只有十分之一,那这个方向就彻底跑通了。
搞不好几年后回过头来看,终结PPT赛道的未必是哪家大公司,而是一个GitHub上917个Star的技能包。
阅读全文
请
登录后发表观点
