OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测，这意味着什么？

发表时间：2025-06-22 00:00:17
来源：

（又从草稿箱翻出一篇本该四月写完的文章…我的草稿箱里究竟还藏着多少 TODO 啊…）先问大家两个问题：各家 AI 现在都做了 Deep Research，那么如何比较不同的深度研究之间的能力高低呢？***设一道题目客观上存在唯一正确答案，且相关信息线索绝对可以在互联网上搜到，在允许使用搜索引擎的情况下，你觉得自己能做出来吗？当下最先进的 AI Agent 呢？为了验证大模型、Agent 网上冲浪的能力，OpenAI 编了一套超难的试卷，里面有 …。

OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测，这意味着什么？

你在出租房屋发现过什么前租客留下的“宝藏”？

如何看待 Rust 写的 PNG 解码器比 C 实现更快？

推荐资讯

2025-06-20 22:30:16南宁的你，择偶的标准是怎样的？
2025-06-20 22:25:16如果在山上挖一个池塘不放鱼，里面会慢慢有鱼吗？
2025-06-20 21:20:15为什么国外网站总喜欢弹出cookie访问权限弹窗，国内网站却没有，这么做有什么意义？
2025-06-20 21:20:15海贼王为什么现在被全网黑?
2025-06-20 21:55:15周杰伦为什么不告粥饼伦黑伦侵犯他的名誉权?
2025-06-20 21:30:16coreldraw软件算是冷门软件吗？
2025-06-20 22:25:16如果发动机热效率达到100%，一升汽油大概可以让汽车行驶多少公里？
2025-06-20 22:25:162025年，歼16与美军机50分钟缠斗，为什么知乎上没有任何消息？
2025-06-20 21:35:16以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的？
2025-06-20 22:25:16电视剧《长安的荔枝》17-20 集拍得如何？有哪些值得关注的剧情点？

推荐产品

怎么向老婆简单解释nas的用途？
我老婆在移不动上班，原来是营业厅员工，后来升岗去市分做后勤。
美国真会下场对伊朗开战吗？
如果美国亲自开战，那将会改变未来20-30年的全球局势。
如何看待伊朗国家电视台发文称“今晚将会发生一件大事，让世界铭记几个世纪”？
伊朗这个推特是伊朗时间昨天(2025年6月17日)晚上8点半
现在个人博客不能备案了吗？
我之前给博客备案，然后接到电话说名字不可以叫“xx博客”，我