Python Py.test - 搜索 News

15 天

从“越用越好用”的 AI Agent 说起：测试开发如何打造自己的专属智能 ...

最近，一个名为 OpenClaw 的开源 AI Agent 框架在技术圈引发了不少讨论。很多人说它“越用越好用”，也有人吐槽“不好用”。作为一名测试开发工程师，我带着好奇读完了它的源码，发现了一个被大多数人忽略的本质——它的智能，不来自复杂的算法，而来自一堆普普通通的 .md 文件。这听起来有点反直觉，但背后的设计思想，恰恰是当前 AI 工程化落地非常值得借鉴的思路。本文将结合测试开发的实际工作 ...

11 天on MSN

AI评测信任危机：10行代码拿下SWE-bench满分主流基准集体“沦陷”

AI评测领域近日掀起轩然大波，多个主流基准测试的可靠性遭到严重质疑。伯克利大学研究团队通过开发自动化漏洞扫描工具，成功攻破八大权威评测体系，其中SWE-bench编程基准更被10行Python代码轻松破解，500道测试题全部获得满分却未修复任何真实漏洞。

聆心手语识别系统

聆心（Lingxin）是一个基于深度学习的实时手语识别系统，支持孤立词和连续手语识别。聆听心灵的声音，搭建无声与有声 ...

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

【新智元导读】伯克利团队造了个专门作弊的AI，用10行Python代码拿下SWE-bench满分！500道题全过，0个bug修复。8大主流评测基准，全部沦陷。同一周，两份独立审计确认：排行榜上的作弊早已不是假设，而是现实。

此外，还有更多的进阶思路，在此处抛砖引玉：

在对一个网站或网页进行爬虫时，选择正确的方法往往能够事半功倍，因此观察网站结构和网站提供的各种API就非常重要，下面我们将举例对不用方法进行分析。直接从网页上抓取顾名思义，该方法就是通过直接分析网页页面，抓取到网页内容。例如在本例中 ...

我让 Claude Code 当裁判，横评 DeepSeek V4 和 GLM-5.1

而整个测试，我全都是让 Claude Code（Opus 4.7）自己完成的：让它自己设计测试方案，自己写 prompt，分别使用 GLM 5.1 和 DeepSeek V4 Pro 跑同样的任务，最后自己评判结果。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果