Data science glossary: Difference between revisions

Jump to navigation Jump to search
m
no edit summary
(→‎D: Data transformation)
mNo edit summary
 
(12 intermediate revisions by the same user not shown)
Line 1: Line 1:
資料科學相關詞彙
資料科學、生成式 AI (Generative AI) 相關詞彙


{{Template:Draft}}
{{Template:Draft}}
== C ==
* [https://zh.wikipedia.org/wiki/%E9%80%97%E5%8F%B7%E5%88%86%E9%9A%94%E5%80%BC CSV] (Comma-Separated Values) 逗號間隔的檔案。相關設定:
** 記錄分隔字元:通常每筆紀錄的記錄分隔字元使用[[Return symbol | 換行符號]]
** 欄位分隔符號、欄位分隔字元 (field delimiter, column delimiter, separator):通常使用逗號,只會有一個字元 (character)。部分廣義的 CSV 檔案會使用分號、定位鍵作為欄位分隔符號。
** 文字辨識符號 (field enclosure character, text qualifier):通常使用雙引號符號,只會有一個字元 (character)。
** escape:當欄位值包含文字辨識符號,則需要 escape
** 欄位開始列、資料開始列。通常欄位開始列是第1列、資料開始列是第2列。有時候第2列會加上欄位說明,導致資料開始列是第3列。


== D ==
== D ==
* [https://en.wikipedia.org/wiki/Data data] [繁] [https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE 資料] [簡] 数据。「指未經過處理的原始記錄。」(資料來源: [https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE 維基百科])
* [https://en.wikipedia.org/wiki/Data data] [繁] [https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE 資料] [簡] 数据。「指未經過處理的原始記錄。」(資料來源: [https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE 維基百科])
* [https://en.wikipedia.org/wiki/Data_extraction Data extraction] [繁] 資料萃取、資料提取<ref>[http://terms.naer.edu.tw/detail/393649/ data extraction - 資料提取]</ref> [簡] 數據提取、数据抽取。「從資料來源萃取資料的流程,通常資料來源是非結構化資料。以利進一步資料處理或資料儲存。<ref>[https://en.wikipedia.org/wiki/Data_extraction Data extraction - Wikipedia]</ref>」。相關詞彙: [https://en.wikipedia.org/wiki/Extract,_transform,_load Extract, transform, load (ETL)]
* [https://en.wikipedia.org/wiki/Data_extraction Data extraction] [繁] 資料萃取、資料提取<ref>[http://terms.naer.edu.tw/detail/393649/ data extraction - 資料提取]</ref> [簡] 数据提取、数据抽取。「從資料來源萃取資料的流程,通常資料來源是非結構化資料。以利進一步資料處理或資料儲存。<ref>[https://en.wikipedia.org/wiki/Data_extraction Data extraction - Wikipedia]</ref>」。相關詞彙: [https://en.wikipedia.org/wiki/Extract,_transform,_load Extract, transform, load (ETL)]
* Data ingestion [繁] 資料擷取 [簡] 数据获取、数据摄取、数据接入。「將不同來源的資料,集中放置或匯入到同一目的地的流程<ref>[https://whatis.techtarget.com/definition/data-ingestion What is data ingestion? - Definition from WhatIs.com]</ref><ref>[https://www.alooma.com/blog/what-is-data-ingestion What is Data Ingestion? | Alooma]</ref>」。
* Data ingestion [繁] 資料擷取 [簡] 数据获取、数据摄取、数据接入。「將不同來源的資料,集中放置或匯入到同一目的地的流程<ref>[https://whatis.techtarget.com/definition/data-ingestion What is data ingestion? - Definition from WhatIs.com]</ref><ref>[https://www.alooma.com/blog/what-is-data-ingestion What is Data Ingestion? | Alooma]</ref>」。
* Data transformation [繁] 資料轉換、資料變換<ref>[http://terms.naer.edu.tw/detail/3131165/ data transformation - 資料轉換法]</ref> [簡] 數據轉換。「將資料轉換成不同的格式或結構。資料轉換是 [https://en.wikipedia.org/wiki/Data_integration 資料整合] 或 [https://en.wikipedia.org/wiki/Data_management 資料管理] 的基礎,其任務包含了資料改寫 ([https://en.wikipedia.org/wiki/Data_wrangling data wrangling])、資料倉儲 ([https://en.wikipedia.org/wiki/Data_warehouse Data warehouse]) 等。」(資料來源: [https://en.wikipedia.org/wiki/Data_transformation Data transformation 維基百科])
* Data transformation [繁] 資料轉換、資料變換<ref>[http://terms.naer.edu.tw/detail/3131165/ data transformation - 資料轉換法]</ref> [簡] 数据转换。「將資料轉換成不同的格式或結構的流程。資料轉換是 [https://en.wikipedia.org/wiki/Data_integration 資料整合] 或 [https://en.wikipedia.org/wiki/Data_management 資料管理] 的基礎,其任務包含了資料整理 ([https://en.wikipedia.org/wiki/Data_wrangling data wrangling])、資料倉儲 ([https://en.wikipedia.org/wiki/Data_warehouse Data warehouse]) 等。<ref>[https://en.wikipedia.org/wiki/Data_transformation Data transformation - Wikipedia]</ref>」依據資料分析目的,「將原始資料轉換成乾淨的、檢核過的、可以使用的格式。 (cleansed, validated, and ready-to-use form) <ref>[https://www.import.io/post/best-practices-data-transformation/ Top 7 Best Practices for Data Transformation | Import.io]</ref>」


== E ==
== E ==
Line 26: Line 34:
* Quantitative data [繁] 量化資料、定量資料 [簡] 定量数据。
* Quantitative data [繁] 量化資料、定量資料 [簡] 定量数据。
* Quantitative research [繁] [http://terms.naer.edu.tw/detail/1678721/ 量化研究] [簡] [https://baike.baidu.com/item/%E5%AE%9A%E9%87%8F%E7%A0%94%E7%A9%B6 定量研究]。相關頁面: [[Quantitative research and qualitative research integration | 量化分析與質化分析研究的整合]]
* Quantitative research [繁] [http://terms.naer.edu.tw/detail/1678721/ 量化研究] [簡] [https://baike.baidu.com/item/%E5%AE%9A%E9%87%8F%E7%A0%94%E7%A9%B6 定量研究]。相關頁面: [[Quantitative research and qualitative research integration | 量化分析與質化分析研究的整合]]
== R ==
* RAG (Retrieval Augmented Generation) [繁] 檢索增強生成、 [簡] 检索增强生成:「為了解決機器幻覺問題,Meta的研究人員發表了一篇關於一種名為「檢索增強生成」(Retrieval Augmented Generation,簡稱RAG)的技術論文。這種技術為文本生成模型增加了一個資訊檢索組件,這是大型語言模型(LLM)已經擅長的。這允許對LLM的內部知識進行微調和調整,使其更精準且更新。」<ref>[https://vercel.com/guides/retrieval-augmented-generation What is Retrieval Augmented Generation (RAG)?]</ref>


== S ==
== S ==
* [https://en.wikipedia.org/wiki/Database_schema (database) schema] [繁] [https://zh.wikipedia.org/wiki/Schema_(%E6%95%B0%E6%8D%AE%E5%BA%93) (資料庫) 模式、架構] [簡] (数据库) 模式、架构。"Schema is a set of interrelated database objects, such as tables, table columns, data types of the columns, indexes, foreign keys, and so on." (MySQL<ref>[https://dev.mysql.com/doc/refman/5.7/en/glossary.html#glos_schema MySQL :: MySQL 5.7 Reference Manual :: MySQL Glossary]</ref>) 相關文件: [[Create database schema document]]
* [https://en.wikipedia.org/wiki/Database_schema (database) schema] [繁] [https://zh.wikipedia.org/wiki/Schema_(%E6%95%B0%E6%8D%AE%E5%BA%93) (資料庫) 模式、架構] [簡] (数据库) 模式、架构。"Schema is a set of interrelated database objects, such as tables, table columns, data types of the columns, indexes, foreign keys, and so on." (MySQL<ref>[https://dev.mysql.com/doc/refman/5.7/en/glossary.html#glos_schema MySQL :: MySQL 5.7 Reference Manual :: MySQL Glossary]</ref>) 相關文件: [[Create database schema document]]
* system prompt, system message [繁] 系統提示、系統訊息、[簡] 系统提示:「系統訊息有助於設定助理的行為模式。例如,您可以修改助理的個性或提供關於其在對話過程中應如何行為的具體指示。」<ref>[https://platform.openai.com/docs/guides/text-generation Text generation - OpenAI API]</ref>、「使用系統提示,您可以為對話設定基調 (stage),指定角色、個性、語氣或其他相關資訊信息,以幫助更好地理解和回應用戶的輸入。系統提示可以包括: (1) 任務指示和目標、(2) 個性特徵、角色和語調指南、(3) 用戶輸入的情境資訊、(4) 創意限制和風格指導、(5) 外部知識、數據或參考材料、(6) 規則、指導方針和限定話題邊界 (guardrails)、(7) 輸出驗證標準和要求」<ref>[https://docs.anthropic.com/claude/docs/system-prompts#what-is-a-system-prompt System prompts]</ref>


== T ==
== T ==
Line 37: Line 50:
<references/>
<references/>


[[Category:Academic]]
[[Category: Academic]]
[[Category:Glossary]]
[[Category: Glossary]]
[[Category:Data Science]]
[[Category: Data Science]]
[[Category: Artificial intelligence]]
[[Category: Generative AI]]

Navigation menu