日韩欧美一级二级,中文字幕免费一区二区,电影一区二区在线观看

智東西

(資料圖片)

作者 | 李水青

編輯 | 心緣

智東西10月13日報道，近日，西湖大學研究團隊推出一款“AI科學家”智能體系統——DeepScientist，首次大規模實證AI能夠在前沿科學任務上逐步超越人類的SOTA（行業最佳）。

▲DeepScientist開源界面

DeepScientist僅用兩周就取得了相當于人類研究者三年研究成果的進展。研發團隊通過三個前沿AI任務——智能體故障歸因、大語言模型推理加速和AI文本檢測，對此進行了驗證。

▲DeepScientist用兩周就取得相當于人類三年研究成果的進展

結果非常亮眼：DeepScientist僅用16塊H800 GPU，花了一個月，最后在三個任務上都超過了人類的最先進方法——分別提升了183.7%、1.9%和7.9%。截至2025年9月，這一成績也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。

▲DeepScientist在三個任務上都超過了人類的最先進方法

在這個過程中，DeepScientist就像人類科學家一樣，明確目標、提假設、做驗證、分析結果，還會一邊記憶一邊探索新方向。它總共想出約5000個科研點子，驗證了1100個，最終有21個帶來了科學創新。團隊強調，這些點子都是通過自主重新設計核心方法，而非簡單組合現有技術。

在使用DeepReviewer與其他AI科學家系統的28篇公開論文進行基準測試時，DeepScientist是唯一能產出接受率達60%的論文的AI科學家系統。

▲DeepScientist接受率達60%

背后，DeepScientist的創新之處在于將科學發現形式化為一個貝葉斯優化問題，其架構通過一個配備開放知識系統和持續積累的發現記憶（Findings Memory）的多智能體系統，平衡對新假設的探索與利用，從而在預算受限的情況下最大限度地提高發現效率。

DeepScientist將采取四階段漸進式開源。其目前已開源了前端和后端代碼，并邀請小部分用戶試用；計劃在10月15日之前開源基礎組件，支持用戶構建自己的DeepScientist，11月之后還將發布實驗數據以及開源DeepScientist的源代碼。

▲DeepScientist論文截圖

GitHub地址：

https://github.com/ResearAI/DeepScientist

論文地址：

https://arxiv.org/abs/2509.26603

體驗申請地址：

http://ai-researcher.net/

一、3個AI任務驗證：兩周取得人類三年研究成果，超越人類183.7%

盡管此前的AI科研系統已能想出一些新點子，但它們往往缺乏針對性，無法解決緊迫的人類定義挑戰，難以產出具有科學價值的成果。

西湖大學研究團隊推出的DeepScientist系統，試圖通過在長達數月的時間里進行目標導向的、完全自主的科學發現，來克服這一局限。

首先來看看三個AI任務，DeepScientist是如何取得科研成果的。

第一個AI任務是具有較高復雜度的“智能體故障歸因”，即找出多AI系統里哪個AI導致任務失敗。

DeepScientist發現當前方法缺乏歸因所必需的反事實推理能力。通過反復試驗、不斷糾錯以及綜合新發現，最終提出了一種名為A2P（Abduction-Action-Prediction，溯因-行動-預測）的全新方法。

其核心創新在于將任務從簡單的模式識別提升到結構化的因果推理，通過預測某個提議的解決方案是否本可帶來成功，填補了反事實能力方面的關鍵空白。

這種新方法在Who&When基準測試的“算法生成”設置中獲得了47.46分，比人類的SOTA基準提高了183.7%。截至2025年9月，無需訓練的A2P方法仍保持著最先進水平的地位，也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成績。

▲DeepScientist完成的研究論文截圖

論文地址：

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf

二是大語言模型的推理加速任務，即讓大語言模型運算更快。

此過程中，系統進行了許多不同的嘗試，例如使用卡爾曼濾波器動態調整鄰接矩陣，以解決原始方法缺乏記憶功能的問題。盡管這些嘗試大多失敗了，但系統生成的ACRA方法最終通過識別穩定的后綴模式，如圖3所示，將MPBB從人類的最優水平190.25 tokens/秒提升到了193.90 tokens/秒。

從科學角度而言，這項創新意義重大，因為它利用這些額外的上下文信息動態調整解碼猜測，有效地為該過程植入了長期記憶，打破了標準解碼器的上下文坍縮問題。這一發現凸顯了該系統的主要目標：創造人類未知的新知識，而非僅僅進行工程優化。

▲DeepScientist將MPBB提升到了193.90 tokens/秒

（該論文暫未上傳GitHub）

三是AI文本檢測，即讓它判斷一段文字是人類寫的還是AI寫的。

DeepScientist僅用兩周就取得了相當于人類三年研究成果的進展。它通過在無需人類干預的情況下，實現目標導向、持續且迭代式的科學發現，克服了傳統研究效率低的難題。

DeepScientist自主生成了2472個獨特的研究思路，實現了600個最有前景的假設，并最終開發出在RAID數據集上將AUROC得分提高7.9%的方法，同時降低了推理延遲。

該系統產生了三種截然不同、且性能逐步提升的方法：T-Detect、TDT和PA-Detect。

首先，T-Detect通過穩健的t分布修正了核心統計數據，隨后，TDT和PA-Detect在概念上進行了演進，它們將文本視為一種信號，并使用小波和相位一致性分析來精確定位異常。從科學角度來看，這種轉變揭示了AI生成文本的“非平穩性”，緩解了先前范式中因平均化局部證據而產生的信息瓶頸。

如下圖所示，這一完整的發現軌跡展示了DeepScientist在逐步推進前沿科學發現方面的能力，它建立了新的SOTA，AUROC提高了7.9%，同時推理速度也提升了一倍。

▲DeepScientist在AUROC得分提高了7.9%

▲DeepScientist完成的研究論文截圖

論文地址：

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf

▲DeepScientist完成的研究論文截圖

論文地址：

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf

二、僅用8塊英偉達H800 GPU完成AI課題，DeepScientist架構解讀

三項AI任務背后，團隊僅為DeepScientist配備了兩臺服務器，每臺服務器帶有8塊英偉達H800 GPU。

背后，DeepScientist的創新之處在于將科學發現形式化為一個貝葉斯優化問題，并通過“提出假設、驗證和分析”的分層評估流程加以實現。在這種分層方案中，只有展現出潛力的研究思路才會進入成本更高的評估階段，從而在預算受限的情況下最大限度地提高發現效率。

DeepScientist的架構通過一個配備開放知識系統和持續積累的發現記憶（Findings Memory）的多智能體系統，實現了貝葉斯優化循環。其在探索新假設與挖掘最有前景的發現之間實現智能平衡，并將最具潛力的成果推進到更高保真度的驗證階段。

DeepScientist基于西湖大學此前已有研發成果，僅用兩個月、花費約10萬美元（約合71.3萬元人民幣）就搭建完成。來自西湖大學團隊的文章第一作者Yixuan Weng最新采訪記錄公開，記錄如下：

1、問：你之前的項目是CycleResearcher。為什么將這個新項目命名DeepScientist為而不是DeepResearcher？

答：早在2024年9月，我就計劃將我現在的工作命名為“DeepResearcher”，類似于DeepReviewer。然而，OpenAI后來用了這個名字。所以我決定將我的項目命名為DeepScientist。

2、問：什么時候開源？

答：我會在確保足夠安全的情況下才會開源，因為我還不能完全確定它DeepScientist給學術界帶來的益處是否大于其潛在的風險。因此，我必須采取謹慎的態度。

（問：為什么要采取分階段開源策略？）

因為社區熱情高漲——幾乎每個人都迫不及待地想讓我開源它！我計劃利用國慶節和中秋節假期來修改代碼，以便社區能夠盡早體驗該系統，并探索它如何加速不同領域的科學發現。

感謝中關村研究院的支持，我們將能夠免費向社區提供完整的DeepScientist系統。

3、問：我有機會重現或改進DeepScientist嗎？

答：當然！我們只用了兩個月就基于ResearStudio構建了它。我相信你可以輕松創建類似“Open-DeepScientist”或“nano-DeepScientist”的項目。我們強烈鼓勵社區開展此類項目。

（ResearStudio是首個用于構建可人工干預的深度研究智能體的開源框架。它實現了人機實時協作，允許用戶在執行過程中暫停、編輯和引導AI智能體，而非傳統的“發射后不管”模式。其Agent核心層采用了規劃器（GPT-4）和執行器（GPT-4o-mini/o3）。）

GitHub地址：

https://github.com/ResearAI/ResearStudio?tab=readme-ov-file

4、問：您是否認為AI驅動的科學發現存在縮放定律？

答：我堅信AI驅動的科學發現遵循其自身的“縮放定律”。但這并非孤立現象——它是人類不斷加速的科學發現的自然延伸和放大。縱觀歷史，科學進步的速度一直在不斷加快，在現代，這種加速尤為明顯。從中學開始，我就喜歡玩《席德·梅爾的文明》，游戲中知識和技術的積累會更快地帶來“尤里卡時刻”。我相信，我們現在正在進入一個由AI驅動的現實世界的“尤里卡時代”。

5、問：目前，所謂的“AI科學家”看起來更像是“高通量試錯機器”，而不是真正具有深刻洞察力的“發現者”。我們如何才能提升他們的科學直覺？

答：首先，隨著模型能力的提升，我已經感受到它們識別科學問題局限性的能力在提升。早期的DeepSeek-R1版本，它的觀察結果非常膚淺。但Qwen-3-235B-Thinking-2507發布后，它的洞察力和假設生成能力明顯提升。在我看來，只有比Qwen-3-235B版本更強大的模型才能產生真正有價值的發現。

RLVR（基于可驗證獎勵的強化學習）是一個很有前景的方向，但它也面臨挑戰：成本高昂、訓練效率低，大約需要1000個GPU小時才能生成一個有用的樣本。

6、問：這項研究的總成本約為10萬美元（約合71.3萬元人民幣）。與資助一名人類博士生進行類似研究周期相比，您認為目前這筆費用是否劃算？

答：我認為兩者各有優勢。失敗是成功之母，而AI最大的優勢在于它能夠持續探索而不疲倦。

一方面，我們可以依靠AI嘗試許多不同的策略——即使發現某種方法在某個領域失敗了，本身也是一個有意義的發現。另一方面，這僅僅是個開始。未來幾年，由于能力的提升和推理成本的降低，AI的成本將大幅下降。

7、問：您論文中最令人興奮的發現之一是計算資源與研究產出之間的“近線性關系”。您預測這種趨勢會隨著GPU數量的增加而無限期地持續下去嗎？還是很快就會遇到瓶頸？下一個瓶頸可能是什么？

答：我認為這種情況不會無限期地持續下去。我們即將遇到瓶頸。下一個瓶頸將是“探索效率”，而不是“探索規模”。目前，大多數計算資源都浪費在低價值的探索上。未來的挑戰是如何避免這種低價值的工作。

雖然DeepScientist偶爾會通過反復試驗發現新的方法來提高性能，但收益往往微乎其微。只有當我們能夠進行大規模、高價值的探索時，真正的突破才會到來。

8、問：還有其他驚喜嗎？

答：是的！10月初，我們雙方將全面開源一款工具。我相信每位研究人員都會對此感興趣——它顯著增強了DeepScientist的演示能力。

三、4步漸進式開源：10月中用戶可構建自己的AI科學家

DeepScientist的整個開源計劃會分為四個階段。

階段0：通用智能體框架