超越Devin!姚班带队,他们创大模型编程新世界纪录

发布日期:2024-11-13 14:23

来源类型:大国将令 | 作者:洛朗·加默隆

阅读提醒: 允中 发自 凹非寺量子位 | 公众号 QbitAI 超越Devin!SWEBench排行榜上迎来了新玩家—— StarShip CodeGen Agent,姚班带队初创公司OpenCS...
【澳门免费大全精准版】 【新奥最准免费资料大全】 【新澳门特马走式图片大全】 【新澳全年免费资料大全】 【2024澳门天天六开彩直播】 【新奥资料免费精准期期准】 【新澳免费资料网站大全】 【2024新澳资料大全免费】 【新澳门精准全年资料免费】 【2024澳门天天彩免费正版资料】 【澳门版全年免费大全】 【澳门天天六开彩正版澳门】 【2024新澳精准正版资料】

允中 发自 凹非寺量子位 | 公众号 QbitAI

超越Devin!SWEBench排行榜上迎来了新玩家——

StarShip CodeGen Agent,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。

同时创造了非GPT-4o基模的最高纪录(SOTA)

我们都知道,SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。

在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。

OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

大模型编程,到底有多难?

2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。

Devin不仅能够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

为什么Devin敢于挑战GPT4等基础模型的编程能力呢?

核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景,普林斯顿大学提出了SWEBench,这是一种量化评估端到端代码生成能力的工具。

GPT-4在SWEBench上的评分仅有1.74%,即使加上RAG技术,评分也不到3%,这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。

3月份,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域,这项记录被连续改写。

截止2024年4月底,最好的记录由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。

较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项高难度的挑战中国公司鲜少参与,直到这一次OpenCSG改写了这一纪录。

来自中国创业公司

SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率,这一成绩不仅超过了Devin和Amazon的成绩。

OpenCSG(开放传神)成立仅一年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

团队在开源及大模型复合经验十分深厚——

CEO陈冉是开源软件领域的知名企业家,曾成功打造过多家开源领域的商业公司。

CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验。

公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。

那么这样一支团队是如何打造出新的记录的呢?

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化

Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。

算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

“StarShip就是各种家电电器”

如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位,OpenCSG CEO陈冉表示:

StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。

CTO王伟则表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是’是’或者’否’的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”

除StarShip之外,OpenCSG团队还相当高产:CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品定位精准,在业内颇受好评。

这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。

让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGHub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。

OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。

CTO王伟这样总结,我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。

“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。”

— 完 —

量子位 QbitAI · 头条号签

关注我们,第一时间获知前沿科技动态约

【2024新澳精准资料免费提供下载】 【新澳门开奖结果2024开奖记录】 【新澳门彩历史开奖记录走势图香港】 【澳门正版资料大全】 【新澳新澳门正版资料】 【2024正版资料免费公开】 【新奥彩2024最新资料大全】 【新澳资料免费大全】 【香港今晚六给彩开奖结果七十八】 【新澳天天彩免费资料大全特色】 【澳门必玩的三个景点】 【新澳门精准四肖期期中特公开】 【2004新澳门天天开好彩大全正版】 【澳门天天开彩免费资料大全新版】
【澳门精准正版免费大全14年新】 【新澳天天开奖资料大全】 【2024澳门天天六开彩免费】 【2024正版资料大全】 【新澳门彩4949最新开奖记录】 【2024新澳门天天彩】 【最精准澳门免费资料大全】 【新澳好彩免费资料大全最新版本】 【新澳精准资料免费提供网】 【奧門資料大全免費資料】 【2024澳门精准正版免费大全】 【7777788888王中王中恃】 【新澳正版资料免费提供】 【二四六香港天天开彩大全】

下载中心

视频封面

视频名称:美国被迫下场中东,普京高兴了,懂王一旦上台,势必执行两大政策

大小: 7.3GB 下载:(61973) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:2025公务员省考报名陆续开启 多地将同日开考

大小: 6.9GB 下载:(509380) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:马斯克被爆吸毒?3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 3.6GB 下载:(933850) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:黑神话悟空发售日期什么时候?你所期待的终于要来了。

大小: 8.6GB 下载:(657536) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:官宣!《暗区突围》将于7月上线,来快爆预约赢5G手机、游戏周边

大小: 4.7GB 下载:(932825) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:借资产重组股价涨了685%后,双成药业能否避免披星戴帽

大小: 3.9GB 下载:(990480) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:第9集 我前面笑的有多大声 这集哭的就有多悲痛 #丁禹兮

大小: 4.1GB 下载:(133363) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:昨天,我让2个儿媳来家里坐月子,今天再婚老伴跑了:自己伺候吧

大小: 2.1GB 下载:(100226) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:演绎劳模故事致敬劳模精神 校园原创话剧《黄宝妹》在沪首演

大小: 2.8GB 下载:(561672) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:信息量很大!2024中国新媒体大会开幕

大小: 9.9GB 下载:(217750) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:高铁站员工被曝上班慵懒盘核桃,网友:提前过上退休大爷生活

大小: 8.3GB 下载:(949723) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:网上追逃会通知家属吗?

大小: 3.5GB 下载:(289155) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:《边水往事》:泪水中的坚强,成长的代价难以承受,连最爱的拓子哥也无力回天3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 1.5GB 下载:(41570) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:进博会最大、最贵、最古老展品竟都是文物艺术品,首现消费品展区意味着啥?

大小: 3.6GB 下载:(768268) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:还有猛料!曝现役国脚卷入“假赌黑”丑闻:有些已认罪+退钱安徽科技学院、皖南医学院更名加速,将由学院升为大学,值得高兴

大小: 6.1GB 下载:(478839) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:广西东兴公路口岸(北仑河二桥)首票进境龙虾通关终于盼来了!又一职场剧来袭,刘奕君领衔全员实力派,有好戏看了

大小: 4.8GB 下载:(226473) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:彭文生:需要从根本上反思财政政策理念

大小: 1.4GB 下载:(243614) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:偷拍者已被抓!妇幼保健院暗藏针孔摄像头,警方:系个人行为

大小: 5.4GB 下载:(468882) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:伊能静陪俩娃看演出,与儿子哈利同框像姐弟,女儿小米粒又瘦又高闻起来很香的白茶,就是加了香精吗?3点技巧教你辨别香精茶

大小: 5.7GB 下载:(945249) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:权威发布四川大学2024年普通类本科招生章程

大小: 4.4GB 下载:(603111) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:人大决议公布,股市化债金额定案!6 万亿与预期 10 万亿的差距,资本市场风云再起

大小: 3.7GB 下载:(158020) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:厮杀东南亚,瑞幸库迪开辟第二战场

大小: 4.5GB 下载:(703581) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:赶紧查!偷拍摄像头容易藏这,该怎么发现?

大小: 7.6GB 下载:(535108) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:三大创新躬身践行ESG 平安健康坚持创造长期价值

大小: 8.4GB 下载:(660928) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:一个家庭有没有福气,看房子就知道3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 5.2GB 下载:(963989) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:女生拒洗胃住院称河豚中毒会死,饭店:遭其索高额赔偿!

大小: 8.2GB 下载:(275544) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:大学生晒1613元工资,以为是“验证码”,网友:验证码可没这么短

大小: 1.9GB 下载:(504614) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:中国大学10余所名校抢着开,“铁饭碗”专业到底香不香?

大小: 2.9GB 下载:(210400) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:大新闻:中汽检测显示新能源车电池 4 年近 25% 衰减,增程车更严重,咋回事?

大小: 1.3GB 下载:(561832) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:赵丽颖黄晓明造城者官微开通引热议,实力派演员新剧造型大变样

大小: 8.1GB 下载:(403286) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:老美要干什么?43只实验猴从实验室逃脱,会携带致命病毒吗?

大小: 2.9GB 下载:(517988) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)

评论

打开APP查看64条评论

海茵茨

3秒前

如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。

祝延平

6分钟前

大模型编程,到底有多难?

成佳慧

7天前

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化。

发表您的评论: