Data science glossary: Difference between revisions

From LemonWiki共筆
Jump to navigation Jump to search
mNo edit summary
 
(8 intermediate revisions by the same user not shown)
Line 1: Line 1:
資料科學相關詞彙
資料科學、生成式 AI (Generative AI) 相關詞彙


{{Template:Draft}}
{{Template:Draft}}
== C ==
* [https://zh.wikipedia.org/wiki/%E9%80%97%E5%8F%B7%E5%88%86%E9%9A%94%E5%80%BC CSV] (Comma-Separated Values) 逗號間隔的檔案。相關設定:
** 記錄分隔字元:通常每筆紀錄的記錄分隔字元使用[[Return symbol | 換行符號]]
** 欄位分隔符號、欄位分隔字元 (field delimiter, column delimiter, separator):通常使用逗號,只會有一個字元 (character)。部分廣義的 CSV 檔案會使用分號、定位鍵作為欄位分隔符號。
** 文字辨識符號 (field enclosure character, text qualifier):通常使用雙引號符號,只會有一個字元 (character)。
** escape:當欄位值包含文字辨識符號,則需要 escape
** 欄位開始列、資料開始列。通常欄位開始列是第1列、資料開始列是第2列。有時候第2列會加上欄位說明,導致資料開始列是第3列。


== D ==
== D ==
Line 26: Line 34:
* Quantitative data [繁] 量化資料、定量資料 [簡] 定量数据。
* Quantitative data [繁] 量化資料、定量資料 [簡] 定量数据。
* Quantitative research [繁] [http://terms.naer.edu.tw/detail/1678721/ 量化研究] [簡] [https://baike.baidu.com/item/%E5%AE%9A%E9%87%8F%E7%A0%94%E7%A9%B6 定量研究]。相關頁面: [[Quantitative research and qualitative research integration | 量化分析與質化分析研究的整合]]
* Quantitative research [繁] [http://terms.naer.edu.tw/detail/1678721/ 量化研究] [簡] [https://baike.baidu.com/item/%E5%AE%9A%E9%87%8F%E7%A0%94%E7%A9%B6 定量研究]。相關頁面: [[Quantitative research and qualitative research integration | 量化分析與質化分析研究的整合]]
== R ==
* RAG (Retrieval Augmented Generation) [繁] 檢索增強生成、 [簡] 检索增强生成:「為了解決機器幻覺問題,Meta的研究人員發表了一篇關於一種名為「檢索增強生成」(Retrieval Augmented Generation,簡稱RAG)的技術論文。這種技術為文本生成模型增加了一個資訊檢索組件,這是大型語言模型(LLM)已經擅長的。這允許對LLM的內部知識進行微調和調整,使其更精準且更新。」<ref>[https://vercel.com/guides/retrieval-augmented-generation What is Retrieval Augmented Generation (RAG)?]</ref>


== S ==
== S ==
* [https://en.wikipedia.org/wiki/Database_schema (database) schema] [繁] [https://zh.wikipedia.org/wiki/Schema_(%E6%95%B0%E6%8D%AE%E5%BA%93) (資料庫) 模式、架構] [簡] (数据库) 模式、架构。"Schema is a set of interrelated database objects, such as tables, table columns, data types of the columns, indexes, foreign keys, and so on." (MySQL<ref>[https://dev.mysql.com/doc/refman/5.7/en/glossary.html#glos_schema MySQL :: MySQL 5.7 Reference Manual :: MySQL Glossary]</ref>) 相關文件: [[Create database schema document]]
* [https://en.wikipedia.org/wiki/Database_schema (database) schema] [繁] [https://zh.wikipedia.org/wiki/Schema_(%E6%95%B0%E6%8D%AE%E5%BA%93) (資料庫) 模式、架構] [簡] (数据库) 模式、架构。"Schema is a set of interrelated database objects, such as tables, table columns, data types of the columns, indexes, foreign keys, and so on." (MySQL<ref>[https://dev.mysql.com/doc/refman/5.7/en/glossary.html#glos_schema MySQL :: MySQL 5.7 Reference Manual :: MySQL Glossary]</ref>) 相關文件: [[Create database schema document]]
* system prompt, system message [繁] 系統提示、系統訊息、[簡] 系统提示:「系統訊息有助於設定助理的行為模式。例如,您可以修改助理的個性或提供關於其在對話過程中應如何行為的具體指示。」<ref>[https://platform.openai.com/docs/guides/text-generation Text generation - OpenAI API]</ref>、「使用系統提示,您可以為對話設定基調 (stage),指定角色、個性、語氣或其他相關資訊信息,以幫助更好地理解和回應用戶的輸入。系統提示可以包括: (1) 任務指示和目標、(2) 個性特徵、角色和語調指南、(3) 用戶輸入的情境資訊、(4) 創意限制和風格指導、(5) 外部知識、數據或參考材料、(6) 規則、指導方針和限定話題邊界 (guardrails)、(7) 輸出驗證標準和要求」<ref>[https://docs.anthropic.com/claude/docs/system-prompts#what-is-a-system-prompt System prompts]</ref>


== T ==
== T ==
Line 37: Line 50:
<references/>
<references/>


[[Category:Academic]]
[[Category: Academic]]
[[Category:Glossary]]
[[Category: Glossary]]
[[Category:Data Science]]
[[Category: Data Science]]
[[Category: Artificial intelligence]]
[[Category: Generative AI]]

Latest revision as of 16:51, 22 April 2024

資料科學、生成式 AI (Generative AI) 相關詞彙


icon_scale_pencil.png 這篇文章「Data science glossary」內容還在撰寫中,如果有不完整的部分,歡迎你直接動手修改


C[edit]

  • CSV (Comma-Separated Values) 逗號間隔的檔案。相關設定:
    • 記錄分隔字元:通常每筆紀錄的記錄分隔字元使用 換行符號
    • 欄位分隔符號、欄位分隔字元 (field delimiter, column delimiter, separator):通常使用逗號,只會有一個字元 (character)。部分廣義的 CSV 檔案會使用分號、定位鍵作為欄位分隔符號。
    • 文字辨識符號 (field enclosure character, text qualifier):通常使用雙引號符號,只會有一個字元 (character)。
    • escape:當欄位值包含文字辨識符號,則需要 escape
    • 欄位開始列、資料開始列。通常欄位開始列是第1列、資料開始列是第2列。有時候第2列會加上欄位說明,導致資料開始列是第3列。

D[edit]

  • data [繁] 資料 [簡] 数据。「指未經過處理的原始記錄。」(資料來源: 維基百科)
  • Data extraction [繁] 資料萃取、資料提取[1] [簡] 数据提取、数据抽取。「從資料來源萃取資料的流程,通常資料來源是非結構化資料。以利進一步資料處理或資料儲存。[2]」。相關詞彙: Extract, transform, load (ETL)
  • Data ingestion [繁] 資料擷取 [簡] 数据获取、数据摄取、数据接入。「將不同來源的資料,集中放置或匯入到同一目的地的流程[3][4]」。
  • Data transformation [繁] 資料轉換、資料變換[5] [簡] 数据转换。「將資料轉換成不同的格式或結構的流程。資料轉換是 資料整合資料管理 的基礎,其任務包含了資料整理 (data wrangling)、資料倉儲 (Data warehouse) 等。[6]」依據資料分析目的,「將原始資料轉換成乾淨的、檢核過的、可以使用的格式。 (cleansed, validated, and ready-to-use form) [7]

E[edit]

K[edit]

  • Knowledge discovery in databases (KDD) [繁] 資料庫的知識探索 [簡] 数据库的知识发现。KDD 處理程序包含「data preparation, data selection, data cleaning, incorporation of appropriate prior knowledge, and proper interpretation of the results of mining, are essential to ensure that useful knowledge is derived from the data. 」從原始資料中萃取有價值的知識。(Fayyad, Piatetsky-Shapiro, and Smyth 1996[9])

M[edit]

P[edit]

  • pattern [繁] 樣式 [簡] 模式。「從資料中找出隱藏的規則性或因果關係,即尋找樣式」(資料來源: 陳允傑, 2018[10])

Q[edit]

R[edit]

  • RAG (Retrieval Augmented Generation) [繁] 檢索增強生成、 [簡] 检索增强生成:「為了解決機器幻覺問題,Meta的研究人員發表了一篇關於一種名為「檢索增強生成」(Retrieval Augmented Generation,簡稱RAG)的技術論文。這種技術為文本生成模型增加了一個資訊檢索組件,這是大型語言模型(LLM)已經擅長的。這允許對LLM的內部知識進行微調和調整,使其更精準且更新。」[11]

S[edit]

  • system prompt, system message [繁] 系統提示、系統訊息、[簡] 系统提示:「系統訊息有助於設定助理的行為模式。例如,您可以修改助理的個性或提供關於其在對話過程中應如何行為的具體指示。」[13]、「使用系統提示,您可以為對話設定基調 (stage),指定角色、個性、語氣或其他相關資訊信息,以幫助更好地理解和回應用戶的輸入。系統提示可以包括: (1) 任務指示和目標、(2) 個性特徵、角色和語調指南、(3) 用戶輸入的情境資訊、(4) 創意限制和風格指導、(5) 外部知識、數據或參考材料、(6) 規則、指導方針和限定話題邊界 (guardrails)、(7) 輸出驗證標準和要求」[14]

T[edit]

參考資料[edit]