Extract url from text: Difference between revisions

Revision as of 10:45, 11 October 2016

使用正規表示法 (Regular expression) ，從文章內容中擷取網址 (又稱統一資源定位符, Uniform Resource Locator)。

擷取完整網址

使用 Google 試算表 REGEXEXTRACT 函數，從文章內容擷取第一個網址。

=REGEXEXTRACT(A1, "(http[s]?://[a-zA-Z0-9\-_\\._~\:\/\?#\[\]@\!\$&'\(\)\*\+,;\=%]+)")

輸入:

Yahoo! 新聞 https://tw.news.yahoo.com/abc

輸出:

https://tw.news.yahoo.com/abc

說明:

網址可能是 http:// 或 https:// 開頭，所以條件是 http[s]?://
根據 RFC 3986 的 Section 2: Characters 網址允許的文字有 ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-._~:/?#[]@!$&'()*+,;=，其他文字則需要加上比例符號 % 編碼。 ^[1]

擷取網址中的網域部分

=REGEXEXTRACT(A1, "(http[s]?\://[^/]+)")

輸入:

Yahoo! 新聞 https://tw.news.yahoo.com/abc

輸出:

https://tw.news.yahoo.com/

說明:

網域指 http:// 或 https:// 開頭，在符號 / 前的那一段文字。因此規則改成找不是符號 / 的多個文字。[^/]+

資料驗證用

文章內容是否包含網址

使用 Google 試算表 REGEXMATCH 函數，符合正規表示法的規則的話，回傳 TRUE。若不符合，則回傳 FALSE。

=REGEXMATCH(A1, "http")

輸入1:

Yahoo! 新聞 https://tw.news.yahoo.com/abc

輸出1:

TRUE

輸入2:

Yahoo! 新聞

輸出2:

FALSE

文章內容是否包含網域

原始資料包含網域，但是網域前面不包含 http e.g. tw.news.yahoo.com 或 www.bbc.co.uk。使用 Google 試算表 REGEXMATCH 函數，符合正規表示法的規則的話，回傳 TRUE。若不符合，則回傳 FALSE。以下語法未處理 IP 形式的網域。

=REGEXMATCH(A1, ("[a-zA-Z0-9]{2,}\.[a-z]{2,}$"))

輸入1:

www.bbc.co.uk

輸出1:

TRUE

輸入2:

Yahoo! 新聞

輸出2:

FALSE

References

↑ validation - Which characters make a URL invalid? - Stack Overflow

[1] validation - Which characters make a URL invalid? - Stack Overflow

[1]

Revision as of 09:43, 11 October 2016 (edit) Planetoid (talk \| contribs) m (→‎文章內容是否包含網域) ← Older edit		Revision as of 10:45, 11 October 2016 (edit) (undo) Planetoid (talk \| contribs) mNo edit summary Newer edit →
Line 1:		Line 1:
	使用正規表示法 ([[Regular expression]]) ~~，從文章內容中擷取網址。~~		使用正規表示法 ([[Regular expression]]) ，從文章內容中擷取網址 (又稱 [https://zh.wikipedia.org/zh-tw/%E7%BB%9F%E4%B8%80%E8%B5%84%E6%BA%90%E5%AE%9A%E4%BD%8D%E7%AC%A6 統一資源定位符], [https://en.wikipedia.org/wiki/Uniform_Resource_Locator Uniform Resource Locator])。

	== 擷取完整網址 ==		== 擷取完整網址 ==

Extract url from text: Difference between revisions

Revision as of 10:45, 11 October 2016

Contents

擷取完整網址

擷取網址中的網域部分

資料驗證用

文章內容是否包含網址

文章內容是否包含網域

References

Navigation menu

Extract url from text: Difference between revisions

Revision as of 10:45, 11 October 2016

擷取完整網址

擷取網址中的網域部分

資料驗證用

文章內容是否包含網址

文章內容是否包含網域

References

Navigation menu

Search