本文为2016字,建议阅读5分钟
2024年3月12日,Cognition AI公司认知实验室(Cognition Labs)推出了世界上首位全自主人工智能软件工程师——Devin
这看起来是代理推理领域的一次巨大飞跃。他们声称,Devin 可以在几分钟内独立完成整个软件项目,能够进行复杂的多步骤推理,即使执行了数千项任务也不会出错
Devin是一款类似于Copilot的软件开发助手,后者由GitHub、微软和OpenAI共同开发,但Devin的功能更为先进,不再局限于提供编程建议和自动完成部分任务,而是能够独立接手并完成整个软件项目
得益于长期推理和规划技术的提升,Devin具备策划并执行涉及数千个决策点的复杂工程任务的能力,且能在每一步骤中准确回忆相关上下文,随着时间推移不断学习并修正错误。同时,Devin配备了一整套开发工具,包括命令行界面、代码编辑器以及沙箱计算环境内的浏览器,使其拥有与人类工程师同等的工作条件
尤为引人注目的是,Devin能够实时报告工作进度、接受反馈,并根据需要与用户进行主动协作,共同探讨设计决策。其具体能力涵盖:
学习新技术:通过阅读博客文章后,Devin能够在Modal平台上运行ControlNet生成定制的含有隐藏信息的图像
完成端到端应用构建与部署:Devin创建了一个模拟生命游戏的互动网站,能够根据用户需求逐步添加功能,并将其部署至Netlify平台
自主查找修复代码库中的bug:例如帮助维护调试开源编程书籍,或是直接从GitHub链接入手解决开源项目中的问题
自我训练和优化模型:仅凭一个指向GitHub研究仓库的链接,训练和微调自己的人工智能模型
细节:https://www.cognition-labs.com/blog
Devin性能评估
在性能评估方面,Devin在SWE-bench基准测试中表现卓越,该测试要求智能体解决源自Django和scikit-learn等实际开源项目的GitHub问题。
结果显示,Devin成功解决了其中13.86%的问题,这一结果远超前一最高水平1.96%,即使其他顶级模型在明确告知需编辑的文件时,也仅能解决4.80%的问题。
值得注意的是
在此测试中,Devin未经任何辅助指导,而所有其他模型则是在得到精确文件提示的情况下参与比拼
令人惊叹的是,将Devin置于Upwork这样的真实工作场景时,它同样表现出色,能够编写和调试用于运行计算机视觉模型的代码,并在最后阶段对数据进行采样编撰报告
Devin背后神秘华人公司
Cognition AI成立时间极短且一直低调行事,直到两个月前才正式注册为法人实体,公司只有十名员工,其中有8位是华人,已经获得了Peter Thiel的风投公司Founders Fund和其他知名品牌投资者的2100万美元投资,其中就包括前Twitter高管Elad Gil。他们押注的就是Cognition AI团队及其核心产品——Devin
Cognition AI的创始人团队包括首席执行官Scott Wu(上图戴中间带眼镜的)、首席技术官Steven Hao和首席产品官Walden Yan。Steven Hao曾是Scale AI的顶级工程师之一,而Walden Yan则是哈佛大学背景的新星,尚未向父母透露自己的创业决定。Scott Wu自青少年时期起即屡次参赛IOI(国际信息学奥林匹克竞赛)并获得冠军
Cognition AI团队成员均是竞技编程大神,创始团队拥有 10 枚 IOI 金牌,其中包括曾工作于Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等尖端AI应用公司的领导者和建设者。Scott Wu认为,这种背景赋予他们在AI竞争中的独特优势:“教会AI成为程序员实际上是一个非常深层次的算法问题,需要系统做出复杂的决策,并向前展望几步来确定应采取的最佳路径。”他表示:
Devin的关键突破在于显著提升了计算机的推理能力,使其不仅仅能够预测文本中的下一个单词或代码片段,更能接近于思考和理性分析问题的方式
OpenAI联合创始人,人工智能大神
Andrej Karpathy评价Devin
在我看来,软件工程自动化将类似于自动驾驶。例如,在自动驾驶中,随着自主性和抽象性的不断提高,会出现以下情况
1.首先,人类手动执行所有驾驶操作
2.然后,人工智能帮助保持车道
3.然后,它为前车减速
4.然后,它也进行车道变换和走岔路
5.然后,它也在路标/红绿灯处停车并转弯
6.最终,你会得到一个功能完整的解决方案,并不断提高质量,直到实现完全自动驾驶。
人工智能会做得更多,而人类会做得更少,但仍会提供监督。
在软件工程领域,也有类似的发展过程:
1. 首先,人类手动编写代码
2. 然后,GitHub Copilot 自动完成几行代码
3. 然后,ChatGPT 编写大块代码
4. 然后,代码差异越来越大(例如,Cursor copilot++ 风格)
5....
Devin 是一个令人印象深刻的演示,展示了接下来可能会发生的事情:
协调开发人员编写代码所需的大量工具:终端、浏览器、代码编辑器等、以及抽象程度越来越高的人工监督。
不仅在人工智能方面,在用户界面/用户体验方面也有很多工作要做。人类如何进行监督? 他们在看什么?他们如何引导人工智能走向不同的道路?如何调试出错的地方?我们很有可能需要对代码编辑器进行重大改动。
无论如何,软件工程都将发生重大变化。它将看起来更像是监督自动化,同时用英语提出高级命令、想法或进展策略
祝团队好运!
结语
Devin现正处于早期访问阶段,随着产能扩大,有意向的公司可以通过指定途径或发送邮件至info@cognition-labs.com来雇佣Devin进行工程工作
Peter Thiel自始至终都将Cognition AI定位为新兴的AI巨头,他在声明中表示,虽然Founders Fund并未广泛投资AI公司,但他们相信Cognition AI与所支持的DeepMind、OpenAI和Scale一样,有着成为行业领导者的潜力
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
华人闪耀AI,有没有?👇👇