Skip to main content

#AI/COT

:Ket: 整串貼文禁止以任何方式轉出奶茶店進行發佈或轉載,謝謝注意

💭什麼是 Chain-of-Thought(CoT)?

Chain-of-Thought,簡稱 CoT,是一種用來引導大型語言模型(LLM)**在回答前先進行「有邏輯地逐步思考」的提示技巧。

這種方式不會讓LLM直接跳出答案,而是讓它模擬人類的思考推理過程,一步一步列出中間的解釋或計算,再得出最終結果。

這個方法最早是由 Wei 等人在 2022 年提出 [1] ,目的是幫助LLM在處理像數學題、邏輯謎題這類多步驟任務時,減少答錯或答得亂七八糟的情況

🤖 LLM 是怎麼運作的?為什麼 LLM 需要 CoT ?

LLM的核心原理,是根據訓練語料中學到的大量詞彙與語句之間的統計關聯來預測最可能出現的詞語。這種方式其實並不涉及真正的理解或邏輯推理,LLM其實並不真的「理解」你的問題,只是收到你的訊息後,會把句子拆成一個個token,根據機率預測「下一個最可能出現的字是什麼」,排出它認為最自然、最可能的回應

這種方式對簡單問題有效,但當問題變得複雜、牽涉連貫邏輯時,LLM很容易會跳步、答錯、出現推理不完整或邏輯矛盾的情況,答非所問。尤其在 AI 角色扮演中,像是角色的行動、面對道德的選擇、推理解謎、戰略行動這類劇情,要是沒有邏輯就會讓人出戲。

而 CoT 就是來解決這問題的。它會要求LLM模仿「人類思考流程」**,把問題拆成好幾段,一步步處理、逐段驗證結果,進而降低錯誤率。

🧩CoT 的核心原理

問題拆解(Problem Decomposition):
CoT 透過拆解問題,像是在算術時將原本的問題分成一小步一小步。LLM每次只處理一個步驟,有助於進行像是運算、邏輯判斷或符號處理這類多步驟問題。例如在偵探 RP 中推敲每條線索,或在多線角色對話中分別分析誰說了什麼、為什麼。[2]

推理過程的生成(Reasoning Sequence Generation):
當LLM看到提示詞中有明確的推理步驟,它會學會模仿這種格式,在遇到類似問題時會產生一系列邏輯步驟來先進行「思考」,而不是直接回答。這不僅提升準確率,也更方便辨認與修正錯誤。這讓它在角色選擇、情節推進、戰略決策等場合表現更自然、有邏輯。[1]

這在 RP 時會很有幫助,例如:

  • 玩DND/推理類 RP,需要一步步思考「誰有動機」「誰不在場」
  • 玩劇情或戰略任務時,讓角色根據條件「慢慢分析該不該讓角色出場推進」
  • 甚至是角色情緒內心戲,也能用 CoT 指令讓 AI 解釋「為什麼他會有這個反應」

⚙️CoT 回應生成流程

  1. 輸入提示詞(Prompt Input):
    使用者提供的CoT提示詞中,明確寫出推理要求或示範思考步驟,像是 「我們來一步一步想」「先整理一下發生過什麼事」 等語句引導。

  2. 產生推理過程(Reasoning Sequence Generation):
    LLM根據CoT提示詞,生成中間推理和思考步驟,比如說先回顧資訊、判斷邏輯、再推導結果。

  3. 導出答案(Answer Extraction):
    最終答案是根據最後一個推理步驟邏輯地推導而來,而不是根據LLM基本語料訓練機率亂猜或直接噴回應。

  4. 輸出內容(Final Output):
    LLM會輸出整個思路過程 + 結論。視乎使用者的設定,你會看到它怎麼想、為什麼這麼回答,讓整體思路更清晰,也便於檢查。

📌CoT 如何提升LLM的推理能力

當LLM看到類似「Let’s think step by step.(讓我們一步一步想)」這種CoT提示詞時,它就會知道要「進行思考」,每個中間步驟參照CoT提示詞對內文進行處理。

LLM會把前面每一步輸出當成「推理草稿紙」,每一段思考都會被用來當作下段文字的上下文,讓它每一步都可以檢查「我前面有沒有講錯」,確保每一步都合理、完整。

這種方式不會讓LLM一次想完所有事情,而是逐步拆解、逐步推論,有助於減少錯誤,也讓你能看到「AI 腦子裡的想法」,更好 debug。

🧾CoT 提示的擺放位置與語句設計

通常建議將 CoT 放在接近LLM的回應區域,例如:
「Q: 今天發生了什麼事?A: Let’s think step by step.(讓我們一步一步想)
這種格式能明確地告訴LLM,回答要從「思考」開始。 若CoT被夾在長提示詞的中段或不是在回答的前方,效果會明顯減弱。

有效語句設計例子:
經研究實驗測試實證 [3] ,「Let’s think step by step (讓我們一步一步想) 」是其中一句最有效引導推理的語句,其他變化如「Let’s think this through step-by-step」、「Let’s work this out one step at a time」也具備良好效果。這反映出LLM對語句細節非常敏感,準確用詞可顯著提升輸出品質。

研究也發現: 明確的推理指令(如 "Let’s think step by step")比起較模糊的語句(如 "Let’s solve the problem.")或完全沒有提示時,能更穩定產生高品質推理結果。[4]

💬使用者提示詞 vs 系統提示詞的 CoT 效果差異

在聊天場景下,CoT 可以透過兩種方式觸發:

  • 使用者提示詞(User Prompt):
    只要在使用者訊息(對話輸入欄中的內容)中加入 CoT 相關的請求,通常就足以讓回答中展現出 CoT。LLM 會將其解讀為「要顯示推理過程」的直接指令,因此通常會公開展示它的思考步驟。
  • 系統提示詞(System Prompt):
    寫在後台系統的 CoT 指令(例如:System should internally reason step-by-step "系統應內部進行逐步推理")則會在背後改善回應的推理品質不一定會向使用者展示那些中間步驟

不論 CoT 提示詞是直接來自使用者輸入還是系統內部輸入,你自己打的,還是藏在 Bot 設定裡的,只要出現在上下文中,都會觸發LLM的 CoT 行為。主要差異在於:使用者提示旨在「可見化推理過程」,而系統提示可能只作為「提升回應品質」的內部指令。

🎭 CoT 在 AI 角色扮演中有什麼用處?

即使現在的 LLM(如 ChatGPT-o4)已具備強大的推理能力,在 AI 角色扮演的用途,CoT依然是提升RP品質的關鍵,特別是應對以下的情況:[5]

1. 處理個人化 & 原創內容

RP通常涉及獨特且由使用者產生的原創內容,例如詳細的時間線、特定的世界觀,以及個性化的角色設定。由於大部分 LLM 和平台本身缺乏內建資料庫與持久的長期記憶,因此難以持續追蹤這些個人化元素。因此,對於有需要玩複雜、細節多、長時間進行的RP時,需要透過 CoT 或 Prompt Engineering(提示詞工程),像是把角色設定、世界觀、角色表與時間線等相關文檔整理好,指導 LLM 如何讀取和參照這些資訊,作為「記憶 & 邏輯輔助」,維持 RP 敘事的連貫性和時間邏輯。[6]

2. 盡可能解決上下文限制的問題

大多數 LLM 的上下文視窗(context window)有限(如 ChatGPT 大部分模型大約為 128K tokens),意思是它每次只能「看到」某個範圍內的對話量(比如最多記得前面幾萬字)。當對話拉長,LLM 可能會「遺忘」重要的早期細節,例如角色已經失去一條腿。

適當的 CoT 提示詞能夠持續引導LLM回溯必要的背景並維持邏輯脈絡。

3. 提升邏輯一致性

在包含複雜推理的 RP 情境中(如解謎、道德難題、角色行動的決策),CoT 能幫助 LLM 條理分明地表達推理步驟,例如一步步拆解角色的推理與選擇,劇情邏輯會更強,讓RP體驗更有說服力與沉浸感。

4. 梳理多輪互動劇情中的邏輯

長時間或劇情複雜的 RP,像是魔法學院八年制還要經歷三次大戰,在沒有CoT的情況下,角色關係、事件順序都會讓 LLM 很難處理。CoT 能夠透過逐步推理指示指引 LLM 追蹤角色的狀態、事件進程與對話節奏,讓 LLM 生成的角色回應和行動都能有邏輯地參考角色設定,減少情節跳躍、邏輯崩壞或角色「失憶」的情況。[7]

5. 推理過程提升沉浸感

你有時候會想知道:為什麼這個角色會選擇這樣做?他心裡是在想什麼? CoT 能讓 LLM 展示角色的「思考過程」,讓使用者更易理解角色的決定與行動,增強整體沉浸體驗。

✅ 總結

雖然隨著 LLM 的進步變得越來越聰明,對於使用者自訂CoT的需求沒那麼大,比較簡單、輕鬆的 RP 中(像日常對話、搞笑段子劇情、腦洞探討(headcanons)),不用加 CoT讓它自然講反而更順。 [8]

但在處理複雜劇情、多角色互動、或自創世界觀的RP時,透過善用 CoT 不只讓LLM 「想得清楚」,還能 「說得清楚」,整體的角色行為邏輯、劇情節奏與RP體驗都能大幅提升,特別是在需要深入角色心理或複雜情節的RP中,CoT能有效提升沉浸感。

參考資料

  1. Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” NeurIPS 2022.​arxiv.orgarxiv.org Accessed 20 Apr. 2025.
  2. What is chain of thought (COT) prompting?. NVIDIA. (n.d.). https://www.nvidia.com/en-us/glossary/cot-prompting/ Accessed 20 Apr. 2025.
  3. Kojima et al., “Large Language Models are Zero-Shot Reasoners,” 2022 (arXiv 2205.11916).​arxiv.orgarxiv.org Accessed 20 Apr. 2025.
  4. Yang, Chengrun, et al. LARGE LANGUAGE MODELS as OPTIMIZERS. 15 Apr. 2024.
  5. “Learn Prompting: Your Guide to Communicating with AI.” Learnprompting.org.
  6. Tu, Quan, et al. “CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation.” ArXiv.org, 9 Jan. 2024, arxiv.org/abs/2401.01275.
  7. Kong, Aobo, et al. “Better Zero-Shot Reasoning with Role-Play Prompting.” OpenReview, 2024, https://openreview.net/forum?id=amsM9Gbp7H. Accessed 20 Apr. 2025.
  8. Chen, Jiuhai, et al. “When Do You Need Chain-of-Thought Prompting for ChatGPT?” ArXiv.org, 18 Apr. 2023, https://arxiv.org/abs/2304.03262.