人工智能领域又迎来了一项重大突破。3 月 31 日,智谱在中关村论坛上正式发布了全新智能体 AutoGLM 沉思。这一智能体可不简单,它不仅拥有深度研究能力,还具备实际操作能力,直接将 AI Agent 推进到了 “边想边干” 的崭新时代。
以往的 AI 智能体,在处理问题时往往存在一定局限性,要么思考深度不够,要么无法将思考转化为实际行动。而 AutoGLM 沉思的出现,彻底打破了这种局面。它就像是一个聪明且行动力十足的助手,当接到任务后,能够深入思考,模拟人类面对复杂问题时的推理和决策过程,同时还能像人类一样去感知周围环境信息,并调用和操作各种工具,最终完成复杂任务。
AutoGLM 沉思之所以如此强大,背后有着一套严谨的技术演进路径。它从 GLM - 4 基座模型出发,这是整个体系的基础,为后续的发展提供了通用能力。然后进化到 GLM - Z1 推理模型,该模型使得智能体在推理方面有了进一步提升。接着是 GLM - Z1 - Rumination 沉思模型,通过强化学习,让模型学会自我批评、反思甚至沉思,突破了实时联网搜索、动态工具调用、深度分析和自我验证,实现真正的长程推理和任务执行。最终形成了功能全面的 AutoGLM 模型。
值得一提的是,智谱还基于最新技术积累,重新训练了一个 320 亿参数的基座模型 GLM - 4 - Air - 0414。在预训练阶段,加入了更多代码类、推理类数据,并在对齐阶段针对智能体能力进行优化。这使得该模型在工具调用、联网搜索、代码等智能体任务上的能力大大加强,而且以 32B 参数量就能比肩更大参数量的国内外主流模型,在适配智能体任务方面特别有效。基于 GLM - 4 - Air - 0414,智谱又推出了全新的深度思考模型 GLM - Z1 - Air,在性能表现上可与 DeepSeek - R1 媲美,并且在推理速度上相比 R1 提升了 8 倍,成本降低至 1/30,实现了高性能与高性价比的双重突破。
在实际应用中,AutoGLM 沉思展现出了卓越的能力。例如在 Phone Use 基准(AndroidLab & AndroidWorld)中,AutoGLM - Phone 的任务成功率较此前最佳成绩提升超过 20%;在 Browser Use 基准上,AutoGLM - Web 也全面超越 OpenAI GPT - 4o 和 Anthropic Claude - 3.5 - Sonnet,在网页交互场景中处于领先地位。它可以像人类一样打开并浏览网页,完成数据检索、分析,甚至生成报告,真正做到了 “边想边干”。
对于广大开发者和行业从业者来说,一个好消息是,AutoGLM 沉思核心链路的模型和技术将于 4 月 14 日正式开源。这无疑将为行业生态发展注入强大动力,更多的开发者可以基于这些开源技术,开发出更丰富、更强大的 AI 应用,推动整个 AI 行业迈向新的高度。智谱此次发布 AutoGLM 沉思,是 AI 发展历程中的一座重要里程碑,开启了 AI “边想边干” 的全新篇章,让我们共同期待它在未来能带来更多惊喜。
发表评论