LLMs Usage FAQ in Mandarin: Difference between revisions

LLMs Usage FAQ in Mandarin (edit)

Revision as of 23:21, 8 June 2025

2,025 bytes added , 8 June 2025

→‎我想產生更長的文章內容

Planetoid

Bureaucrats, Administrators

15,047

edits

@@ Line 39: / Line 39: @@
 {{Tip | tip= 以 [https://platform.openai.com/docs/models/o3 OpenAI o3] 模型為例：(1) Context Window (200,000)：輸入 + 輸出的總額度、(2) Max Output Tokens (100,000)：單次回答上限。實際輸入空間：200,000 - 預計輸出長度}}
+== 如何讓 AI 處理長篇文章 ==
+📝 問題：上下文長度限制
+LLMs 模型受到上下文窗口（context window）長度的限制，以翻譯長文章為例，由於無法一次處理全部內容，我們需要將文章分段進行處理。
+💬 處理方式：分塊處理與保持上下文連貫的策略
+處理長文時需要採用分段切塊（Chunking）的技術策略。為了讓模型在處理後續段落時能夠理解前面章節的脈絡，一個有效的方法是：
+# 先將前面章節進行摘要
+# 將摘要與待處理的下一章節全文一起輸入給 AI
+# 這樣既能保持上下文連貫性，又能節省 token 使用量
+'''重疊式切塊策略'''
+另一種切塊策略適用於處理逐字稿的編輯。逐字稿的格式通常包含時間戳記和對應的字幕內容：
+<pre>
+:00:00,001 --> 00:00:02,000
+所以你先回答我
+:00:02,000 --> 00:00:06,000
+有哪一個國家讓憲法把你空窗那麼久的
+:00:06,000 --> 00:00:10,000
+你再來跟我說有哪一個國家沒有這樣制定
+</pre>
+如果直接將第 3 段獨立送到 AI 編輯，很容易因為缺乏前面的對話脈絡而產生錯誤。此時可以採用「允許部分重疊（overlap）」的內容切塊策略。以下是一個改善中文逐字稿的 prompt 範例<ref>[https://errerrors.blogspot.com/2024/11/add-punctuation-to-whisper-output.html 如何改善 Whisper 逐字稿可讀性：AI 標點符號教學]</ref>：
+<pre>
+你的任務是改善中文口語訪談的逐字稿段落。您需要增加標點符號、確保段落連貫、保持原意，並視需要重寫部分文字。請使用台灣常用的繁體中文。
+這是前文段落：
+<previous_paragraph>
+{PREVIOUS_PARAGRAPH}
+</previous_paragraph>
+這是目前的段落：
+<current_paragraph>
+{CURRENT_PARAGRAPH}
+</current_paragraph>
+這是後文段落：
+<next_paragraph>
+{NEXT_PARAGRAPH}
+</next_paragraph>
+</pre>
+這種方法讓 AI 能夠同時參考前後文內容，確保處理結果的連貫性和準確性。
 == 如何解決 AI 會忘記訓練內容 ==

LLMs Usage FAQ in Mandarin: Difference between revisions

LLMs Usage FAQ in Mandarin (edit)

Revision as of 23:21, 8 June 2025

Navigation menu

Search