LLMs Usage FAQ in Mandarin: Difference between revisions

Jump to navigation Jump to search
Line 39: Line 39:


{{Tip | tip= 以 [https://platform.openai.com/docs/models/o3 OpenAI o3] 模型為例:(1) Context Window (200,000):輸入 + 輸出的總額度、(2) Max Output Tokens (100,000):單次回答上限。實際輸入空間:200,000 - 預計輸出長度}}
{{Tip | tip= 以 [https://platform.openai.com/docs/models/o3 OpenAI o3] 模型為例:(1) Context Window (200,000):輸入 + 輸出的總額度、(2) Max Output Tokens (100,000):單次回答上限。實際輸入空間:200,000 - 預計輸出長度}}
== 如何讓 AI 處理長篇文章 ==
📝 問題:上下文長度限制
LLMs 模型受到上下文窗口(context window)長度的限制,以翻譯長文章為例,由於無法一次處理全部內容,我們需要將文章分段進行處理。
💬 處理方式:分塊處理與保持上下文連貫的策略
處理長文時需要採用分段切塊(Chunking)的技術策略。為了讓模型在處理後續段落時能夠理解前面章節的脈絡,一個有效的方法是:
# 先將前面章節進行摘要
# 將摘要與待處理的下一章節全文一起輸入給 AI
# 這樣既能保持上下文連貫性,又能節省 token 使用量
'''重疊式切塊策略'''
另一種切塊策略適用於處理逐字稿的編輯。逐字稿的格式通常包含時間戳記和對應的字幕內容:
<pre>
1
00:00:00,001 --> 00:00:02,000
所以你先回答我
2
00:00:02,000 --> 00:00:06,000
有哪一個國家讓憲法把你空窗那麼久的
3
00:00:06,000 --> 00:00:10,000
你再來跟我說有哪一個國家沒有這樣制定
</pre>
如果直接將第 3 段獨立送到 AI 編輯,很容易因為缺乏前面的對話脈絡而產生錯誤。此時可以採用「允許部分重疊(overlap)」的內容切塊策略。以下是一個改善中文逐字稿的 prompt 範例<ref>[https://errerrors.blogspot.com/2024/11/add-punctuation-to-whisper-output.html 如何改善 Whisper 逐字稿可讀性:AI 標點符號教學]</ref>:
<pre>
你的任務是改善中文口語訪談的逐字稿段落。您需要增加標點符號、確保段落連貫、保持原意,並視需要重寫部分文字。請使用台灣常用的繁體中文。
這是前文段落:
<previous_paragraph>
{PREVIOUS_PARAGRAPH}
</previous_paragraph>
這是目前的段落:
<current_paragraph>
{CURRENT_PARAGRAPH}
</current_paragraph>
這是後文段落:
<next_paragraph>
{NEXT_PARAGRAPH}
</next_paragraph>
</pre>
這種方法讓 AI 能夠同時參考前後文內容,確保處理結果的連貫性和準確性。


== 如何解決 AI 會忘記訓練內容 ==
== 如何解決 AI 會忘記訓練內容 ==

Navigation menu