Data Science Glossary: Difference between revisions
Jump to navigation
Jump to search
(→S: semantic analysis) |
mNo edit summary |
||
| (37 intermediate revisions by the same user not shown) | |||
| Line 1: | Line 1: | ||
資料科學 (Data Science)、自然語言處理(Natural Language Processing, NLP)相關詞彙 | |||
{{Template:Draft}} | {{Template:Draft}} | ||
== C == | == C == | ||
* [https://en.wikipedia.org/wiki/Catastrophic_interference Catastrophic Forgetting] 災難性遺忘、災難性失憶; 灾难性遗忘。「災難性遺忘是神經網路在學習新資訊時忘記舊資訊的問題,這與人類記憶的穩定性形成對比。減少干擾的方法:包括使用正交向量、半分佈表示、創新規則、預訓練、重複機制和生成重放等技術。」(資料來源:[https://en.wikipedia.org/wiki/Catastrophic_interference 維基百科]) | |||
* [https://en.wikipedia.org/wiki/Computational_linguistics computational linguistics]; [https://zh.wikipedia.org/zh-tw/%E8%AE%A1%E7%AE%97%E8%AF%AD%E8%A8%80%E5%AD%A6 計算語言學]、電腦語言學; 计算语言学 | * [https://en.wikipedia.org/wiki/Computational_linguistics computational linguistics]; [https://zh.wikipedia.org/zh-tw/%E8%AE%A1%E7%AE%97%E8%AF%AD%E8%A8%80%E5%AD%A6 計算語言學]、電腦語言學; 计算语言学 | ||
* [https://en.wikipedia.org/wiki/Coreference Coreference]; [https://zh.wikipedia.org/zh-tw/%E6%8C%87%E4%BB%A3 指代] | * [https://en.wikipedia.org/wiki/Coreference Coreference]; [https://zh.wikipedia.org/zh-tw/%E6%8C%87%E4%BB%A3 指代] | ||
* Coreference Resolution; 指代消解、共指消解; | * Coreference Resolution; 指代消解、共指消解; 指代消解 | ||
== D == | == D == | ||
* [https://en.wikipedia.org/wiki/Discourse_analysis discourse analysis]; [https://zh.wikipedia.org/zh-tw/%E7%AF%87%E7%AB%A0%E5%88%86%E6%9E%90 篇章分析]、言談分析; 篇章分析、[https://baike.baidu.com/item/%E8%AF%AD%E7%AF%87%E5%88%86%E6%9E%90 语篇分析]。「分析口語、書面語言、手語、肢體語言等等不同的語言行為(Speech acts)及言外行為。」(資料來源: 維基百科 [https://zh.wikipedia.org/zh-tw/%E7%AF%87%E7%AB%A0%E5%88%86%E6%9E%90 篇章分析]) | * [https://en.wikipedia.org/wiki/Discourse_analysis discourse analysis]; [https://zh.wikipedia.org/zh-tw/%E7%AF%87%E7%AB%A0%E5%88%86%E6%9E%90 篇章分析]、言談分析; 篇章分析、[https://baike.baidu.com/item/%E8%AF%AD%E7%AF%87%E5%88%86%E6%9E%90 语篇分析]。「分析口語、書面語言、手語、肢體語言等等不同的語言行為(Speech acts)及言外行為。」(資料來源: 維基百科 [https://zh.wikipedia.org/zh-tw/%E7%AF%87%E7%AB%A0%E5%88%86%E6%9E%90 篇章分析]) | ||
* Data Voids; 資料空白:2018 年由 Michael Golebiewski 和 danah boyd 提出「某些關鍵詞彙在網路上缺乏足夠、可靠、或多元的內容,使搜尋引擎在回應這些查詢時容易呈現偏頗、低品質或被操弄的資訊。」<ref>Data Voids: | |||
Where Missing Data Can Easily Be Exploited https://datasociety.net/wp-content/uploads/2018/05/Data_Society_Data_Voids_Final_3.pdf</ref> | |||
== E == | |||
* EMNLP (Empirical Methods in Natural Language Processing) is a "leading conference in the area of natural language processing and artificial intelligence."<ref>[https://en.wikipedia.org/wiki/Empirical_Methods_in_Natural_Language_Processing Empirical Methods in Natural Language Processing - Wikipedia]</ref> 「自然語言處理實務研討會」,研討會網站 [https://2021.emnlp.org/ EMNLP 2021]。 | |||
== I == | == I == | ||
* intent (意圖):讓電腦了解「使用者聊天內容的問題類型」,從對話內容萃取實體參數 (entity type),進而決定電腦後續如何操作。(參考資料:[https://cloud.google.com/dialogflow/es/docs/intents-overview?hl=en Intents | Dialogflow ES | Google Cloud]、[https://blog.yoctol.com/%E5%A6%82%E4%BD%95%E5%88%86%E9%A1%9E%E6%84%8F%E5%9C%96-4ba2e3ad3997 如何分類意圖?. 意圖是什麼? 意圖怎麼分? 意圖不應該怎麼分類? | by Umy Chang | YOCTOL.AI]) | |||
* [https://en.wikipedia.org/wiki/Information_extraction Information Extraction]; [https://zh.wikipedia.org/zh-tw/%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96 資訊擷取]; [http://wiki.mbalib.com/zh-tw/%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96 信息抽取]。「資訊擷取是由文件中擷取事先預設所需的資訊」(資料來源: 國家教育研究院雙語詞彙 [http://terms.naer.edu.tw/detail/1679021/ 資訊擷取]) | * [https://en.wikipedia.org/wiki/Information_extraction Information Extraction]; [https://zh.wikipedia.org/zh-tw/%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96 資訊擷取]; [http://wiki.mbalib.com/zh-tw/%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96 信息抽取]。「資訊擷取是由文件中擷取事先預設所需的資訊」(資料來源: 國家教育研究院雙語詞彙 [http://terms.naer.edu.tw/detail/1679021/ 資訊擷取]) | ||
| Line 18: | Line 26: | ||
* Lexical Semantics; 詞彙語義、詞彙語義學、詞匯語義學<ref>ISBN 9787506272995 [http://www.books.com.tw/products/CN10143163 博客來-詞匯語義學(英文版)]</ref>; 词汇语义、[https://baike.baidu.com/item/%E8%AF%8D%E6%B1%87%E8%AF%AD%E4%B9%89%E5%AD%A6 词汇语义学] "Lexical Semantics is about the meaning of words." (來源: D. A. Cruse, 1986)<ref>ISBN 9780521276436 [http://admin.cambridge.org/academic/subjects/languages-linguistics/semantics-and-pragmatics/lexical-semantics?format=PB#lSg4hz4FFWYy0BGH.97 Lexical semantics | Semantics and pragmatics | Cambridge University Press]</ref> | * Lexical Semantics; 詞彙語義、詞彙語義學、詞匯語義學<ref>ISBN 9787506272995 [http://www.books.com.tw/products/CN10143163 博客來-詞匯語義學(英文版)]</ref>; 词汇语义、[https://baike.baidu.com/item/%E8%AF%8D%E6%B1%87%E8%AF%AD%E4%B9%89%E5%AD%A6 词汇语义学] "Lexical Semantics is about the meaning of words." (來源: D. A. Cruse, 1986)<ref>ISBN 9780521276436 [http://admin.cambridge.org/academic/subjects/languages-linguistics/semantics-and-pragmatics/lexical-semantics?format=PB#lSg4hz4FFWYy0BGH.97 Lexical semantics | Semantics and pragmatics | Cambridge University Press]</ref> | ||
* Linguistic Science; [http://terms.naer.edu.tw/detail/1313402/ 語言科學]、語言學、语言科学。「對於語言系統的科學研究,主要在研究人類語言系統的本質、結構、單位及變遷等。」(來源: 國家教育研究院雙語詞彙 [http://terms.naer.edu.tw/detail/1313402/ 語言科學]) | * Linguistic Science; [http://terms.naer.edu.tw/detail/1313402/ 語言科學]、語言學、语言科学。「對於語言系統的科學研究,主要在研究人類語言系統的本質、結構、單位及變遷等。」(來源: 國家教育研究院雙語詞彙 [http://terms.naer.edu.tw/detail/1313402/ 語言科學]) | ||
== N == | |||
* [https://en.wikipedia.org/wiki/Named-entity_recognition Named-entity recognition] (NER); [https://zh.wikipedia.org/zh-tw/%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB 命名實體識別]; 命名实体识别。「識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等,以及時間、數量、貨幣、比例數值等文字。」(資料來源: [https://zh.wikipedia.org/zh-tw/%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB 维基百科])。相關頁面:[[Named entity recognition tools]] | |||
* Neologism learning (新詞學習) | |||
* NLU ([https://en.wikipedia.org/wiki/Natural-language_understanding Natural-language understanding]): [https://zh.wikipedia.org/zh-tw/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E7%90%86%E8%A7%A3 自然語言理解] / 自然语言理解。「目標研究如何讓電腦讀懂人類語言。商業應用有電腦理解、機器翻譯、對話、新聞蒐集、語音介面」(資料來源: [https://zh.wikipedia.org/zh-tw/%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB 维基百科]) | |||
* NLP ([https://en.wikipedia.org/wiki/Natural_language_processing Natural language processing]): [https://zh.wikipedia.org/zh-tw/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 自然語言處理] / 自然语言处理。「此領域探討如何處理及運用自然語言;自然語言處理的挑戰包括有語音識別、自然語言理解、自然語言生成等部分。」(資料來源: [https://zh.wikipedia.org/zh-tw/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 维基百科]) | |||
== O == | |||
* OOV, [https://www.igi-global.com/dictionary/out-of-vocabulary/21613 Out of Vocabulary] [繁] 未登錄詞、遺失字、未見字 [簡] 未登录词。 | |||
== P == | |||
* POS (part-of-speech) 詞性。:[http://terms.naer.edu.tw/detail/1678982/ 圖書館學與資訊科學大辭典]:「字詞(word)是語言系統中具有獨立語意或扮演特定語法功能,且可以自由使用的最小語言單位。依據字詞在句法結構或語言形態上扮演的角色,經由詞性分類賦予語句中每個字詞適當之詞性符號或標記的過程,則稱為詞性標記(part-of-speech tagging,或稱POS tagging)。」 | |||
== Q == | |||
* Quantitative content analysis 量化內容分析 | |||
== S == | == S == | ||
* [https://en.wikipedia.org/wiki/Semantics Semantics]; [https://zh.wikipedia.org/zh-tw/%E8%AF%AD%E4%B9%89%E5%AD%A6 語義學]、語意學; 语义学。「語意學就是專門研究『語言意義』(meaning of Language) 的一門學問;屬於語言學 (Linguistics) 的一部分。」(來源: 國家教育研究院雙語詞彙 [http://terms.naer.edu.tw/detail/1313389/ Semantics - 語意學]) | * [https://en.wikipedia.org/wiki/Semantics Semantics]; [https://zh.wikipedia.org/zh-tw/%E8%AF%AD%E4%B9%89%E5%AD%A6 語義學]、語意學; 语义学。「語意學就是專門研究『語言意義』(meaning of Language) 的一門學問;屬於語言學 (Linguistics) 的一部分。」(來源: 國家教育研究院雙語詞彙 [http://terms.naer.edu.tw/detail/1313389/ Semantics - 語意學]) | ||
* [https://en.wikipedia.org/wiki/Semantic_analysis_(machine_learning) semantic analysis]; [https://zh.wikipedia.org/zh-tw/%E8%AA%9E%E6%84%8F%E5%88%86%E6%9E%90 語意分析]; 语意分析、语义分析;「將一長串的文字或內容,從其中分析出該個段落的摘要以及大意,甚至更進一步,將整篇文章的文意整理出來。」(來源: 维基百科 [https://zh.wikipedia.org/zh-tw/%E8%AA%9E%E6%84%8F%E5%88%86%E6%9E%90 語意分析]) | * [https://en.wikipedia.org/wiki/Semantic_analysis_(machine_learning) semantic analysis]; [https://zh.wikipedia.org/zh-tw/%E8%AA%9E%E6%84%8F%E5%88%86%E6%9E%90 語意分析]; 语意分析、语义分析;「將一長串的文字或內容,從其中分析出該個段落的摘要以及大意,甚至更進一步,將整篇文章的文意整理出來。」(來源: 维基百科 [https://zh.wikipedia.org/zh-tw/%E8%AA%9E%E6%84%8F%E5%88%86%E6%9E%90 語意分析]) | ||
== T == | |||
* [https://en.wikipedia.org/wiki/Telicity Telicity] (動詞的終結點): | |||
** (1) telic: 有事件或狀態的終結點 (endpoint) 的動詞,例如「約翰蓋了一間房子」 | |||
** (2) atelic: 沒有終結點的動詞,例如「約翰蓋房子蓋了一個月」。參考資料:[https://en.wikipedia.org/wiki/Telicity 維基百科]、[https://blog.droidtown.co/post/189716361582/telicity 中文文法:telicity 這動作有停下來的一天嗎? - Droidtown.co] | |||
* [https://en.wikipedia.org/wiki/Text_mining Text mining] ([https://zh.wikipedia.org/wiki/%E6%96%87%E6%9C%AC%E6%8C%96%E6%8E%98 文本挖掘]、文字探勘、文本挖掘) 「從文本處理過程中取得高質量的訊息」 (來源: [https://zh.wikipedia.org/wiki/%E6%96%87%E6%9C%AC%E6%8C%96%E6%8E%98 維基百科]) | |||
* [https://en.wikipedia.org/wiki/Text_segmentation Text segmentation], Segmentation of words 斷詞。相關工具:[[Text segmentation tools | 中文斷詞工具]] | |||
== W == | == W == | ||
* [https://en.wikipedia.org/wiki/Word-sense_disambiguation Word-sense disambiguation]; [https://zh.wikipedia.org/zh-tw/%E8%AF%8D%E4%B9%89%E6%B6%88%E6%AD%A7 詞義消歧]; 词义消歧。一詞多義 | * [https://en.wikipedia.org/wiki/Word-sense_disambiguation Word-sense disambiguation]; [https://zh.wikipedia.org/zh-tw/%E8%AF%8D%E4%B9%89%E6%B6%88%E6%AD%A7 詞義消歧]; 词义消歧。一詞多義 | ||
== | |||
== 延伸閱讀 == | |||
# [https://zh.wikipedia.org/zh-tw/Category:%E8%AE%A1%E7%AE%97%E8%AF%AD%E8%A8%80%E5%AD%A6 分類:計算語言學 - 維基百科,自由的百科全書] 或 [https://en.wikipedia.org/wiki/Category:Computational_linguistics Category:Computational linguistics - Wikipedia] | |||
# [https://en.wikipedia.org/wiki/Category:Natural_language_processing Category:Natural language processing - Wikipedia] | |||
# [[Generative AI glossary]] | |||
== 參考資料 == | |||
<references/> | <references/> | ||
[[Category:NLP]] | |||
[[Category:Glossary]] | [[Category:Glossary]] | ||
[[Category:Data Science]] | [[Category:Data Science]] | ||
Latest revision as of 09:45, 15 March 2026
資料科學 (Data Science)、自然語言處理(Natural Language Processing, NLP)相關詞彙
C[edit]
- Catastrophic Forgetting 災難性遺忘、災難性失憶; 灾难性遗忘。「災難性遺忘是神經網路在學習新資訊時忘記舊資訊的問題,這與人類記憶的穩定性形成對比。減少干擾的方法:包括使用正交向量、半分佈表示、創新規則、預訓練、重複機制和生成重放等技術。」(資料來源:維基百科)
- computational linguistics; 計算語言學、電腦語言學; 计算语言学
- Coreference; 指代
- Coreference Resolution; 指代消解、共指消解; 指代消解
D[edit]
- discourse analysis; 篇章分析、言談分析; 篇章分析、语篇分析。「分析口語、書面語言、手語、肢體語言等等不同的語言行為(Speech acts)及言外行為。」(資料來源: 維基百科 篇章分析)
- Data Voids; 資料空白:2018 年由 Michael Golebiewski 和 danah boyd 提出「某些關鍵詞彙在網路上缺乏足夠、可靠、或多元的內容,使搜尋引擎在回應這些查詢時容易呈現偏頗、低品質或被操弄的資訊。」[1]
E[edit]
- EMNLP (Empirical Methods in Natural Language Processing) is a "leading conference in the area of natural language processing and artificial intelligence."[2] 「自然語言處理實務研討會」,研討會網站 EMNLP 2021。
I[edit]
- intent (意圖):讓電腦了解「使用者聊天內容的問題類型」,從對話內容萃取實體參數 (entity type),進而決定電腦後續如何操作。(參考資料:Intents | Dialogflow ES | Google Cloud、如何分類意圖?. 意圖是什麼? 意圖怎麼分? 意圖不應該怎麼分類? | by Umy Chang | YOCTOL.AI)
- Information Extraction; 資訊擷取; 信息抽取。「資訊擷取是由文件中擷取事先預設所需的資訊」(資料來源: 國家教育研究院雙語詞彙 資訊擷取)
L[edit]
N[edit]
- Named-entity recognition (NER); 命名實體識別; 命名实体识别。「識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等,以及時間、數量、貨幣、比例數值等文字。」(資料來源: 维基百科)。相關頁面:Named entity recognition tools
- Neologism learning (新詞學習)
- NLU (Natural-language understanding): 自然語言理解 / 自然语言理解。「目標研究如何讓電腦讀懂人類語言。商業應用有電腦理解、機器翻譯、對話、新聞蒐集、語音介面」(資料來源: 维基百科)
- NLP (Natural language processing): 自然語言處理 / 自然语言处理。「此領域探討如何處理及運用自然語言;自然語言處理的挑戰包括有語音識別、自然語言理解、自然語言生成等部分。」(資料來源: 维基百科)
O[edit]
- OOV, Out of Vocabulary [繁] 未登錄詞、遺失字、未見字 [簡] 未登录词。
P[edit]
- POS (part-of-speech) 詞性。:圖書館學與資訊科學大辭典:「字詞(word)是語言系統中具有獨立語意或扮演特定語法功能,且可以自由使用的最小語言單位。依據字詞在句法結構或語言形態上扮演的角色,經由詞性分類賦予語句中每個字詞適當之詞性符號或標記的過程,則稱為詞性標記(part-of-speech tagging,或稱POS tagging)。」
Q[edit]
- Quantitative content analysis 量化內容分析
S[edit]
- Semantics; 語義學、語意學; 语义学。「語意學就是專門研究『語言意義』(meaning of Language) 的一門學問;屬於語言學 (Linguistics) 的一部分。」(來源: 國家教育研究院雙語詞彙 Semantics - 語意學)
- semantic analysis; 語意分析; 语意分析、语义分析;「將一長串的文字或內容,從其中分析出該個段落的摘要以及大意,甚至更進一步,將整篇文章的文意整理出來。」(來源: 维基百科 語意分析)
T[edit]
- Telicity (動詞的終結點):
- (1) telic: 有事件或狀態的終結點 (endpoint) 的動詞,例如「約翰蓋了一間房子」
- (2) atelic: 沒有終結點的動詞,例如「約翰蓋房子蓋了一個月」。參考資料:維基百科、中文文法:telicity 這動作有停下來的一天嗎? - Droidtown.co
- Text mining (文本挖掘、文字探勘、文本挖掘) 「從文本處理過程中取得高質量的訊息」 (來源: 維基百科)
- Text segmentation, Segmentation of words 斷詞。相關工具: 中文斷詞工具
W[edit]
- Word-sense disambiguation; 詞義消歧; 词义消歧。一詞多義
延伸閱讀[edit]
參考資料[edit]
- ↑ Data Voids: Where Missing Data Can Easily Be Exploited https://datasociety.net/wp-content/uploads/2018/05/Data_Society_Data_Voids_Final_3.pdf
- ↑ Empirical Methods in Natural Language Processing - Wikipedia
- ↑ ISBN 9787506272995 博客來-詞匯語義學(英文版)
- ↑ ISBN 9780521276436 Lexical semantics | Semantics and pragmatics | Cambridge University Press