這項由香港科技大學(廣州)的劉昱、鄭靜怡、孫震、彭子凡、董文涵和螞蟻集團的沙澤陽、崔世文、王衛強以及香港科技大學(廣州)的何欣蕾領導的研究發表于2025年4月18日,題為《思考操縱:外部思考可以提高大型推理模型的效率》(Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models)。論文發布在arXiv預印本平臺,編號為arXiv:2504.13626v1。
一、研究背景:推理模型的困境與挑戰
想象你在使用一個非常聰明的AI助手完成一項復雜任務,比如解決一道數學難題。你可能注意到這個助手會花很長時間"思考",一步一步寫下大量推理過程,最后才給出答案。雖然這種詳細的思考過程確實幫助AI做出了更準確的判斷,但同時也帶來了一個明顯的問題:它太"啰嗦"了,消耗了大量的計算資源和時間。
這正是香港科技大學(廣州)和螞蟻集團的研究團隊所關注的問題。近年來,通過強化學習訓練的大型推理模型(Large Reasoning Models,簡稱LRMs)展現出了令人印象深刻的推理能力。這些模型,如DeepSeek-R1和QwQ,通過生成詳細的思維鏈(Chain-of-Thought,簡稱CoT)來分解問題,逐步推理,最終給出解答。然而,這些模型往往會陷入"過度思考"的困境,生成大量冗余的推理步驟,導致計算資源的浪費。
舉個生活中的例子,想象一個聰明但有點"啰嗦"的朋友幫你計算餐廳小費。對于簡單的計算(比如15%的$20),他可能會這樣思考:"首先,我需要將20乘以0.15,20乘以0.1等于2,20乘以0.05等于1,所以2加1等于3美元..."。這個過程雖然準確,但對于如此簡單的問題,實在是太過冗長了。
研究團隊發現,現有的解決方案主要依賴于微調(fine-tuning)模型,通過構建包含不同推理壓縮模式的數據集來訓練模型跳過不必要的步驟。這就像是專門訓練那位朋友,告訴他:"對于簡單計算,你可以直接給出答案,不需要解釋每一步。"然而,這種方法需要額外的數據收集,增加了成本,還可能帶來安全性不一致的問題。
二、"思考操縱"的關鍵發現:外部思維的巧妙利用
研究團隊決定從一個全新的角度來解決這個問題。他們深入研究了大型推理模型是如何進入和退出"思考狀態"的。你可以將這個思考狀態想象成一個特殊的模式,模型在這個模式下會進行一步步的推理,通常這些思考被標記在特定的標簽之間(<think>和</think>)。
通過實驗分析,研究團隊發現了一個有趣的現象:當在模型的提示中插入由較小模型生成的思考過程(放在<think>和</think>標簽之間),可以有效地"操縱"大型推理模型減少自己生成的思考步驟。這就像是給那位計算小費的朋友提供了一個思路的開始:"看,20乘以0.15等于3美元",這樣他就不需要自己從頭開始計算了。
更有趣的是,研究團隊發現通過強化學習訓練的模型(如QwQ)和通過蒸餾訓練的模型(如Deepseek-Distillation系列)表現出不同的行為模式:
通過強化學習訓練的模型會繼續生成自己的思考,直到它們"認為"已經進行了足夠的推理,不管它們是否已經遇到了結束思考的標記(</think>)。這就像一個認真的學生,即使已經看到了解題思路,仍然想要自己走完整個解題過程,確保答案的正確性。
而通過蒸餾訓練的模型則會在遇到結束思考的標記(</think>)后立即停止思考過程,不管提供的思考內容的質量或數量如何。這更像是一個程序化的反應:看到"停止"信號就立即停止思考,直接給出答案。
基于這些發現,研究團隊提出了一個名為"ThoughtMani"的方法。這個方法不需要對模型進行額外的訓練,而是利用一個較小的非推理模型(如Qwen-2.5-7b-instruct)生成思考過程,然后將這些思考插入到推理模型的輸入中,從而讓推理模型能夠直接利用這些外部思考,跳過不必要的中間步驟。
這就像是在解決復雜數學問題時,給你提供一些思路提示,幫助你更快地找到解決方案,而不是讓你從零開始思考每一步。
三、ThoughtMani方法的工作原理:簡單而高效的推理過程
ThoughtMani的工作流程非常直觀,就像是為大型推理模型提供了一個"思考的捷徑"。整個過程可以分為以下幾個步驟:
首先,研究團隊設計了一個專門的提示,用來指導小型模型(CoT生成器)生成思考過程。這個提示大致是這樣的:"如果你是一位老師,你正在列出解決問題的重要關鍵點,不應包含計算細節。你不允許給出任何最終答案。當關鍵點列完后,添加<STOP>。你可以提供解決問題的高級思路,但不要包含計算細節。如果你覺得無法解決,輸出<STOP>并返回。"
這就像是告訴一個助手:"給我一些解決這個問題的大致思路,但不需要詳細步驟,也不要直接告訴我答案。"
與之前的思考生成方法相比,ThoughtMani的關鍵區別在于它會提示模型在遇到高度復雜的問題時返回一個停止標識(<STOP>)。這個策略旨在充分利用大型推理模型在處理復雜場景的能力,同時對簡單問題保持高效。具體來說,如果生成的思考內容只包含"STOP",系統會放棄這個外部思考,使用原始的推理模板,讓大模型自己進行完整的思考過程。
這就像是:當助手發現問題太復雜,無法提供有意義的思路提示時,會說"抱歉,這個問題我無法給出思路",這時你就會讓更強大的專家從頭開始解決問題。
整個ThoughtMani的工作流程就像是一個智能的"思考代理"系統:
對于每個問題,首先讓小型模型(如Qwen-2.5-7B-Instruct)嘗試生成高級思路。
檢查生成的思考是否有意義(不只是<STOP>)。
如果思考有意義,就將其插入到大型推理模型的輸入中,放在思考標簽之間。
如果思考沒有意義,就讓大型推理模型自己從頭開始思考。
最后,大型推理模型基于提供的思考或自己的思考生成最終答案。
研究團隊在實驗中發現,當使用Qwen-2.5-7B-Instruct作為CoT生成器為QwQ-32B在GSM-8k數據集上提供思考時,ThoughtMani將輸出token數量從平均1,791個減少到1,075個(約減少40%),而CoT生成器平均只增加了52個token的額外成本。這意味著在保持相同推理準確性的同時,大大減少了計算資源的消耗。
四、實驗驗證:ThoughtMani的效率和安全性
為了全面評估ThoughtMani的效果,研究團隊在三種不同的大型推理模型上進行了廣泛的實驗,使用了四個不同的數據集,并與其他十種壓縮技術進行了比較(每種技術重復三次)。
他們選擇的數據集涵蓋了數學和編程兩個領域的推理能力:AIME-2024(美國數學邀請賽題目)、GSM-8k(小學數學問題)、MATH-500(高中和大學數學問題)以及LiveBench/Code(編程任務)。同時,為了評估模型回應的安全性,他們還選擇了WildJailbreak數據集,這個數據集包含了2,000多個測試模型安全邊界的提示。
在模型選擇方面,研究團隊考慮了多種Qwen系列模型作為CoT生成器,包括Qwen-Max、Qwen-Plus、Qwen-2.5-7B-Instruct和Qwen-2.5-3B-Instruct。對于基于強化學習的大型推理模型,他們選擇了QwQ-32B;對于基于蒸餾的模型,他們選擇了Deepseek-Distillation-Qwen-2.5-14B-Instruct和其32B版本。
研究團隊從三個方面來評估性能:
實用性:通過提取AIME、GSM-8k和MATH-500數據集的答案來評估準確性,對于編程數據集,則遵循官方指南,報告私有測試用例的pass@1指標。
效率:計算推理模型生成的token數量和CoT生成器產生的額外token數量。
安全性:使用廣泛使用的安全模型Llama-Guard-3-8B來評估模型輸出的安全性。
實驗結果顯示,ThoughtMani在保持模型性能的同時,顯著減少了計算成本。例如,對于QwQ-32B模型,使用四種不同的CoT生成器分別將響應長度減少了1%、18%、26%和37%,而性能只下降了1.5%、2.8%、0.8%和7.2%。
一個有趣的發現是,更大的CoT生成器并不一定帶來更好的性能。事實上,研究團隊觀察到,使用Qwen-Max等更強大的CoT生成器反而可能對ThoughtMani的推理框架產生負面影響。這是因為更大的模型生成更具體和詳細的CoT過程,這些詳細的思考雖然看起來很有幫助,但往往包含幻覺或與大型推理模型期望不一致的推理路徑,導致性能不佳。
相比之下,較小的模型往往會拒絕為困難案例生成詳細思考,而是返回空思考,這反而讓大型推理模型能夠依靠自己的能力處理復雜問題??偟膩碚f,研究團隊發現Qwen-2.5-7b-Instruct在幾乎所有場景下都是最優或次優的解決方案。
安全性評估的結果也非常積極。ThoughtMani不僅提高了模型的效率,還平均提升了約10%的安全性,而基于微調的方法則平均下降了7%的安全性。這意味著ThoughtMani不僅使模型更高效,還使其更安全。
五、ThoughtMani的深入分析:為什么它如此有效?
研究團隊進行了多項深入分析,以更好地理解ThoughtMani的有效性和局限性。他們發現,基于強化學習的LRMs比基于蒸餾的LRMs從外部思考中獲益更多。
這是因為基于強化學習的LRMs被訓練為動態評估其推理過程的充分性,基于實際的獎勵。根據第三部分的觀察,這類模型有能力"重新思考",因此能夠動態決定何時接受外部思考,何時需要重新思考以支持和修正提供的不充分信息。因此,基于強化學習的LRMs對提供的思考質量不那么敏感,同時保持準確性和實用性。
想象一個優秀的數學老師,即使你給他一個解題的初步思路,他也會批判性地評估這個思路,在必要時補充或糾正,確保最終解答的正確性。
相比之下,基于蒸餾的LRMs更依賴于訓練過程中的模式匹配,他們會在遇到結束思考的標記(</think>)后立即終止推理過程,無論提供的思考內容的質量或完整性如何。這種固定的行為限制了它們充分利用外部思考的能力,導致相比基于強化學習的模型獲益較少。
這更像是一個按指令操作的工人,看到停止信號就立即停止當前工作,轉向下一步,不會主動評估或補充不完整的信息。
研究團隊還探索了不同token預算對性能的影響。對于AIME和Code等更具挑戰性的數據集,基于強化學習的LRMs的推理過程通常需要大量token才能實現高質量推理。為了系統地研究token預算對性能的影響,研究團隊調整了推理過程中的最大token長度參數,并評估了相應的結果。
一個有趣的觀察是,當token預算有限時,基線和ThoughtMani之間的性能差距更為明顯。一個可能的解釋是,對于非常難的問題,外部生成的思考可能包含幻覺或信息不足。在這種情況下,大型推理模型(如QwQ)會生成額外的思考來糾正或補充提供的思考,這顯示了ThoughtMani的一個局限性。
相比之下,對于GSM-8k等較簡單的數據集,大多數問題可以在不到1,000個token內解決,這種性能差距不存在。這些發現強調了平衡token預算與問題復雜性的重要性。
最后,研究團隊還探討了使用特定領域提示的影響。對于Code數據集,他們評估了使用特定于任務的系統提示來生成CoT的影響。結果表明,通用的CoT生成框架足夠健壯,可以處理不同領域的任務,無需特定于任務的調整。這突顯了ThoughtMani的一個重要特性:一種通用的方法可以適用于多種不同類型的任務。
六、思考操縱的更廣泛意義:不只是提高效率
雖然ThoughtMani主要被設計用來提高推理效率,但研究團隊指出,這項研究的見解可能開啟幾個其他有意義的研究方向。
一個直接的應用是探索如何將惡意或誤導性的思考插入到推理過程中,以操縱模型行為。這就像是研究如何識別和防范"思維劫持",就如同網絡安全專家研究黑客技術以便更好地防御一樣。
另一個有前途的研究方向是探索模型停止思考或檢測模型是否積極參與推理的內在機制。理解這些動態可能導致對推理過程的更精確控制,使其更好地與期望的結果保持一致,并進一步優化計算效率。
更廣泛地說,ThoughtMani提供了一種實用的方法來構建更高效、更易于使用的大型推理模型,特別是在資源受限的場景中。由于模型供應商通常同時提供不同規模的模型,ThoughtMani提供了一種有效的方式來構建更高效、更容易獲取的LRMs用于實際應用。
七、結論:思考操縱開啟高效推理的新篇章
歸根結底,這項研究通過深入理解大型推理模型的思考行為,提出了一種名為ThoughtMani的簡單而高效的推理管道,并揭示了LRM行為的重要特征。
通過大量實驗,研究團隊驗證了ThoughtMani的實用性、效率和安全性。例如,當應用于LiveBench/Code數據集上的QwQ-32B時,ThoughtMani保持了原始性能,同時將輸出token數量減少了約30%,而CoT生成器的開銷很小。此外,他們發現ThoughtMani平均提高了10%的安全性。
對于我們普通用戶來說,這項研究意味著未來的AI助手可能會變得更加高效,消耗更少的計算資源,同時保持或甚至提高其推理能力。這就像是一個智能助手學會了根據問題的復雜性調整其思考的詳細程度,對簡單問題直接給出答案,對復雜問題才展開詳細推理,從而節省時間和資源。
這項研究也為未來的AI系統設計提供了新的思路。通過結合不同規模和類型的模型,我們可以創建既高效又強大的AI系統,滿足各種實際應用的需求。就像一個完善的團隊,每個成員都有自己的專長,共同合作解決復雜問題。
當然,這項研究也提醒我們,隨著AI技術的進步,我們需要更加關注AI系統的安全性和對齊性。確保這些強大的工具始終按照我們的意圖工作,是實現其潛力的關鍵。
如果你對這項研究感興趣,可以通過arXiv:2504.13626v1訪問完整論文,深入了解思考操縱的技術細節和實驗結果。
好文章,需要你的鼓勵
想象一下,你有一個非常聰明的朋友,他知道很多知識,但每當需要使用計算器、搜索引擎或查詢最新天氣時,卻變得像個笨手笨腳的孩子。這正是當前大語言模型(簡稱LLMs,如ChatGPT這類AI系統)面臨的尷尬處境。
想象一下,你擁有一個聰明的助手,它知道很多知識,但在面對需要使用計算器、搜索引擎或查詢最新信息時卻顯得笨手笨腳。這正是當前大語言模型(LLMs)面臨的困境。雖然這些模型已經通過監督微調(SFT)學會了使用工具的基本能力,但它們常常在面對復雜或不熟悉的場景時表現不佳。
想象你正在和一個智能助手聊天。如果你直接要求它提供有害信息,它很可能會禮貌拒絕。但如果你通過一系列看似無害的對話,逐步引導它走向你的真實目標呢?這就是當前AI安全領域面臨的一個嚴峻挑戰——多輪對話中的安全漏洞。
想象一下,你正在進行一次CT掃描。醫生告訴你,為了減少輻射對你身體的傷害,他們會使用低劑量的X射線。這聽起來很棒,對嗎?然而,就像在昏暗光線下拍照會產生大量噪點一樣,低劑量CT掃描也會產生大量的圖像噪聲,這些噪聲就像薄霧一樣遮擋了重要的醫學細節,可能導致醫生錯過關鍵的診斷信息,比如微小的腫瘤或低對比度的病變。