扬子晚报2024年11月13日发布:超越Devin!姚班带队,他们创大模型编程新世界纪录

⭐发布日期:2024年11月13日 | 来源:扬子晚报

⭐作者:张炽 责任编辑:Admin

⭐阅读量:585 评论:3人 转发:2次

【新澳免费资料网站大全】

【新澳2024年正版资料】

【奥门123免费精准资料一大全】 【2024澳门特马今晚开奖亿彩网】 【2024澳门天天六开彩开奖结果】 【2024澳门天天彩免费正版资料】 【2024新澳正版挂牌之全扁】 【新奥门特免费资料大全澳门传真】 【2024新澳资料免费大全】 【新澳最准免费资料】
【2024年新奥门免费资料17期】 【2024新澳精准资料兔费】 【2024新澳最精准资料】 【新澳特精准资料】 【新澳门正版免费大全】 【2024正板资料免费公开】 【新澳好彩免费资料大全最新版本】 【新澳门精准免费大全】

允中 发自 凹非寺量子位 | 公众号 QbitAI

超越Devin!SWEBench排行榜上迎来了新玩家——

StarShip CodeGen Agent,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。

同时创造了非GPT-4o基模的最高纪录(SOTA)

我们都知道,SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。

在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。

OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

大模型编程,到底有多难?

2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。

Devin不仅能够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

为什么Devin敢于挑战GPT4等基础模型的编程能力呢?

核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景,普林斯顿大学提出了SWEBench,这是一种量化评估端到端代码生成能力的工具。

GPT-4在SWEBench上的评分仅有1.74%,即使加上RAG技术,评分也不到3%,这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。

3月份,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域,这项记录被连续改写。

截止2024年4月底,最好的记录由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。

较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项高难度的挑战中国公司鲜少参与,直到这一次OpenCSG改写了这一纪录。

来自中国创业公司

SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率,这一成绩不仅超过了Devin和Amazon的成绩。

OpenCSG(开放传神)成立仅一年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

团队在开源及大模型复合经验十分深厚——

CEO陈冉是开源软件领域的知名企业家,曾成功打造过多家开源领域的商业公司。

CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验。

公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。

那么这样一支团队是如何打造出新的记录的呢?

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化

Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。

算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

“StarShip就是各种家电电器”

如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位,OpenCSG CEO陈冉表示:

StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。

CTO王伟则表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是’是’或者’否’的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”

除StarShip之外,OpenCSG团队还相当高产:CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品定位精准,在业内颇受好评。

这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。

让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGHub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。

OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。

CTO王伟这样总结,我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。

“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。”

— 完 —

量子位 QbitAI · 头条号签

关注我们,第一时间获知前沿科技动态约

【新澳资彩免费大全】 【澳门二四六免费资料大全499】
【正版资料免费精准新奥生肖卡】 【新奥精准资料免费提供】
【新澳门精准免费资料大全】 【澳门一码一肖一待一中四不像】
【2024今晚新澳开奖号码】 【2024新澳门天天开好彩大全正版】
【澳门二四六天下彩天天免费大全】 【2024新奥正版资料最精准免费大全】
【澳门天天彩正版免费挂牌】 【2024新澳正版免费资料】 【2024新澳免费资料大全】
上一条新闻 下一条新闻

推荐文章

发表评论

康杰

1秒前:SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.

IP:47.49.6.*

江瑜

3秒前:根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。

IP:49.48.1.*

小野武彦

5秒前:67%的成绩获得全球第二名的成绩。

IP:32.30.4.*

何夏

1秒前:未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。

IP:61.13.6.*

万君逸

4秒前:大模型编程,到底有多难?

IP:91.46.5.*

扬子晚报APP介绍

APP图标

澳门准六肖期期准免费公开APP名:扬子晚报

版本:V4.24.917

更新时间:2024-11-12 19:17

2024新澳门,今晚澳门正版资料免费大全这是一个功能强大的7777788888王中王狗APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:StarShip CodeGen Agent,姚班带队初创公司OpenCSG出品,以23.

新奥门精准资料免费APP介绍

APP图标

2024新澳最精准资料大全APP名:扬子晚报

版本:V7.82.724

更新时间:2024-11-12 13:23

无论是新澳2024大全正版免费资料快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新澳最新最快资料APP介绍

APP图标

新澳天天开奖资料大全最新100期APP名:扬子晚报

版本:V8.13.100

更新时间:2024-11-12 13:18

2024新澳资料免费精准资料应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

2024澳门天天开好彩大全打开网站免费大全APP介绍

APP图标

澳门内部最精准免费资料APP名:扬子晚报

版本:V4.47.217

更新时间:2024-11-12 22:20

新澳门彩历史开奖结果走势图表这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新澳新奥门正版资料APP介绍

APP图标

新奥天天免费资料的注意事项APP名:扬子晚报

版本:V2.75.999

更新时间:2024-11-12 24:16

这是一款功能强大的新澳今天最新资料应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

澳彩资料免费的资料大全wweAPP介绍

APP图标

2024澳门天天六开彩今晚开APP名:扬子晚报

版本:V1.84.184

更新时间:2024-11-12 23:22

这是一款功能强大的2024澳门天天开好彩大全2024应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

新奥最新版精准特APP介绍

APP图标

新澳2024大全正版免费APP名:扬子晚报

版本:V8.31.426

更新时间:2024-11-12 22:19

这是一款功能强大的新澳天天开奖资料大全下载安装应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新澳门资料免费大全资料的APP介绍

APP图标

新澳准资料免费提供APP名:扬子晚报

版本:V5.35.838

更新时间:2024-11-12 18:22

今天的最新动态包括:CTO王伟则表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是’是’或者’否’的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

新奥门资料免费大全最新更新内容APP介绍

APP图标

新澳门六开奖结果记录APP名:扬子晚报

版本:V2.34.574

更新时间:2024-11-12 22:14

这是一款功能强大的2024年天天彩免费资料大全应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。。

澳门免费大全精准版APP介绍

APP图标

新澳全年免费资料大全APP名:扬子晚报

版本:V9.68.100

更新时间:2024-11-12 13:22

这款功能强大的新奥免费精准资料大全应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

7777788888王中王传真APP介绍

APP图标

2024年资料大全免费APP名:扬子晚报

版本:V3.54.283

更新时间:2024-11-12 18:24

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

新澳正版资料免费提供APP介绍

APP图标

新澳彩资料免费提供APP名:扬子晚报

版本:V4.17.497

更新时间:2024-11-12 14:19

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。