Regular expression
正規表示法 (Regular Expression):以行為單位來處理字串,處理方式例如取代符合特定規則的字串。[1]
有問題嗎? 看板 RegExp 文章列表 - 批踢踢實業坊或其他問答服務
Regular expression online tools
- Online regex tester and debugger: JavaScript, Python, PHP, and PCRE (example) 有提供語法解說
- Rubular: a Ruby regular expression editor and tester (example)
- RegExr: Learn, Build, & Test RegEx (example)
- PHP Live Regex [Last visited: 2014-11-25]
- HiFi Regex Tester - Live JavaScript Regular Expression Tester for Javascript [Last visited: 2014-12-23]
case
將Email清單,轉成Email軟體可以使用的寄信名單 (取代換行符號)
原 [email protected] [email protected] [email protected] 改成 [email protected], [email protected], [email protected]
方案1: Sublime Text, EmEditor
語法適用 Sublime Text, EmEditor軟體 (以下為 EmEditor 的操作說明)
- Menu: Search -> Replace
- click "Use Regular Expression"
- Find: \n
- Replace with: ,
- click "Replace all"
方案2: Notepad++
使用Notepad++軟體
- 選單: 尋找 -> 取代
- 搜尋模式: 勾選「增強模式」 (不是勾選「用類型表式」)
- 尋找目標: \r\n
- 取代成: ,
- 勾選全部取代
相關資料: How To Replace Line Ends, thus changing the line layout last visited: 2010-01-27
方案3: Microsoft Word
使用Microsoft Word 2002軟體
- 選單: 編輯 -> 取代
- 勾選增強模式
- 尋找目標: ^p (段落標記)
- 取代為: ,
- 勾選全部取代
方案4: Sed command for linux
sed 's/要被取代的字串/新的字串/g' old.filename > new.filename[2]
(1)要被取代的字串: :a;N;$!ba;s/\n (2)新的字串: ;
sed ':a;N;$!ba;s/\n/; /g' old.filename > new.filename [3]
Find IP address
使用Notepad++軟體 v.5.9.5
- 選單: 尋找 -> 取代
- 搜尋模式: 勾選「用類型表式」
- 尋找目標: \d\d?\d?\.\d\d?\d?\.\d\d?\d?\.\d\d?\d?
note: not support {n} syntax
參考資料: SourceForge.net: Notepad++: Regular expression for IP addresses
移除記事本純文字檔的黑色方塊(UNIX系統的換行符號 LF )
使用notepad++軟體
- 選單: 尋找 -> 取代
- 搜尋模式: 勾選「增強模式」
- 尋找目標: \n\n (註: 2個LF )
- 取代成: \r\n (註: CR與LF )
用記事本打開純文字檔時,就不會看到黑色方塊
將陣列的每項元素,都加上引號框起來
Elmo, Emie, Granny Bird, Herry Monster, 喀喀獸 修改成 'Elmo', 'Emie', 'Granny Bird', 'Herry Monster', '喀喀獸'
使用 PHP
$users = array('Elmo', 'Emie', 'Granny Bird', 'Herry Monster', '喀喀獸'); //「單引號」相隔每個元素 $result = implode(",", preg_replace('/^(.*?)$/', "'$1'", $users)); //「雙引號」相隔每個元素 //$result = implode(",", preg_replace('/^(.*?)$/', "\"$1\"", $users)); echo $result;
Thanks, Joshua! More on PHP - Wrap Implode Array Elements in Quotes » Me Like Dev
取代非英文的文字
適用: Google Drive 的 RegExReplace 函數、Notepad++的搜尋
[^\x00-\x80]+
適用: Total commander 的 Multi-Rename tool[4]
[^\u0000-\u0080]+
參考資料: javascript - Regular expression to match non-english characters? - Stack Overflow
將每行文字的行頭加上逗號符號
使用notepad++軟體
- 選單: 尋找 -> 取代
- 搜尋模式: 勾選「用類型表示」
- 尋找目標: (.*) 或者是 ^(.*)$
- 取代成: ,\1 或者是 ,$1。
知道前面跟後面的文字,但是中間文字忘記了
使用notepad++軟體
- 選單: 尋找 -> 取代
- 搜尋模式: 勾選「用類型表示」
- 尋找目標: a(.*)le 就可以找到(1)apple (2)apps lesson ... 等a開頭、le結尾的文字,中間可夾雜空白。 中文字串搜尋,建議將文件的編碼改成 UTF-8 編碼
移除空白行
移除一行空白或多行空白(含空白字元)
- 尋找: ^[\s\t]*$\n --> 取代為: 空白 (適用 Sublime Text 與 EmEditor 軟體, 不適用 Notepad++ 軟體)[5]
- Notepad++ 軟體選單: 編輯 -> 行列 -> 移除空行(含空白字元)[6]
移除一行空白或多行空白
- 尋找: ^$\n --> 取代為: 空白 (適用 Sublime Text 與 EmEditor 軟體, 不適用 Notepad++ 軟體)
- 尋找: \r\n[\r\n]* 或 \r\n[\r\n]+ --> 取代為: \r\n (適用 Notepad++ 軟體,需勾選「用類型表式)
- 尋找: \n(\n)+ --> 取代為: \n(適用 Sublime Text 軟體,需 勾選「regular expression」)
移除一行空白
- 尋找: \n\n --> 取代為: \n (適用 Sublime Text 與 EmEditor 軟體,需勾選「使用規則運算式」)
尋找非空白的文字
- 尋找: [^\s]+ online demo
文字類型 | 包含 | 不包含 |
---|---|---|
任意一個文字(包含空白) | . | |
任意文字(包含空白),出現1次或0次 | .? = .{0,1} | |
任意多個文字(包含空白) | .* = .{0,} | |
任意文字(包含空白),至少出現1次 | .+ = .{1,} | |
任意多個文字(不包含空白) | [^\s]+ = [^\s]{1,} | |
任意英文和數字文字(包含空白) | [\x00-\x80]+ | 非英文或數字的文字,出現任意次 [^\x00-\x80]+ |
任意英文和數字文字(不包含空白) | [\w]+ |
Search unmatched string
case: find un-commented console.log
original format: some lines contains un-commented Javascript debug information
console.log("un-commented debug information"); //console.log("commented debug information");
Search pattern: find not started with the / symbol before the string "console.log"
[^/](console\.log)
batch action
- RegReplace 執行多個取代命令 "Simple find and replace sequencer plugin for Sublime Text" Quoted from official webpage. [Last visited: 2014-10-25]
syntax
- 換行符號: \r\n (適用: Notepad++選項: 增強模式 & 用類型表式)
- tab鍵的固定空白分隔: \t (適用: Notepad++選項: 增強模式)
- 數字: \d (適用: Notepad++選項: 用類型表式。 不適用: Notepad++選項: 增強模式)
further reading
- Regular Expression Library
- SourceForge.net: Searching And Replacing - notepad-plus, SourceForge.net: Regular Expressions - notepad-plus
- regex - text extraction with sublime text - Stack Overflow [Last visited: 2014-09-26]
unicode
- Regex Tutorial - Unicode Characters and Properties [Last visited: 2014-04-02]
- PHP: Unicode character properties - Manual [Last visited: 2014-04-02]
references
- ↑ 鳥哥的 Linux 私房菜 -- 正規表示法 (regular expression, RE) 與文件格式化處理
- ↑ 鳥哥的 Linux 私房菜 -- 正規表示法 (regular expression, RE) 與文件格式化處理
- ↑ 參考 unix - sed: How can I replace a newline?
- ↑ 取代非英文的文字,但是不包含 . 符號: [^\u0000-\u0080|.]+
- ↑ Regex: delete multiple blank lines
- ↑ regex - Removing empty lines in Notepad++ - Stack Overflow
替代方案
- 將資料以 Tab來隔開,貼到Google Drive的Spreadsheet或MS Excel,會自動儲存到不同欄位。所以將需要處理的原始資料中,需要擷取的資料的前後,使用Tab來隔開,複製後貼到於Google Drive的Spreadsheet或MS Excel,就會自動儲存到不同欄位,方便做進一步處理。
Copy multiple rows & paste
- Copy to dreamweaver from MS Excel 2002: ok
- Copy to dreamweaver from Google Docs: not ok
- Copy to MS Excel 2002 from Google Docs: ok