記錄程式相關的一些實用語法: [轉貼] 正則表達式30分鐘入門教程(第二版)

作者：deerchao來源:unibetter大學生社區轉載請註明來源本文第一版

本文目標

30分鐘內讓你明白正則表達式是什麼，並對它有一些基本的瞭解，讓你可以在自己的程序或網頁裡使用它。

如何使用本教程

別被下面那些複雜的表達式嚇倒，只要跟著我一步一步來，你會發現正則表達式其實並不像你想像中的那麼困難。當然，如果你看完了這篇教程之後發現自己明白了很多，卻又幾乎什麼都記不得，那也是很正常的——其實我認為沒接觸過正則表達式的人在看完這篇教程後能把提到過的語法記住80%以上的可能性為零。這裡只是讓你明白基本道理，以後你還需要多練習，多查資料，才能熟練掌握正則表達式。
除了作為入門教程之外，本文還試圖成為可以在日常工作中使用的正則表達式語法參考手冊（就作者本人的經歷來說，這個目標還是完成得不錯的）。
文本格式約定：專業術語 元字符/語法格式正則表達式正則表達式中的一部分(用於分析) 用於在其中搜索的字符串 對正則表達式或其中一部分的說明

什麼是正則表達式？

在編寫處理字符串的程序或網頁時，經常會有查找符合某些複雜規則的字符串的需要。正則表達式就是用於描述這些規則的工具。換句話說，正則表達式就是記錄文本規則的代碼。
很可能你使用過Windows/Dos下用於文件查找的通配符(wildcard)，也就是*和?。如果你想查找某個目錄下的所有的Word文檔的話，你會搜索*.doc。在這裡，*會被解釋成任意的字符串。和通配符類似，正則表達式也是用來進行文本匹配的工具，只不過比起通配符它能更精確地描述你的需求——當然，代價就是更複雜。比如你可以編寫一個正則表達式來查找所有以0開頭，後面跟著2-3個數字，然後是一個連字號「-」，最後是7或8位數字的字符串(像010-12345678或0376-7654321)。

正則表達式是用於進行文本匹配的工具，所以本文裡多次提到了在字符串裡搜索/查找，這種說法的意思是在給定的字符串中，尋找與給定的正則表達式相匹配的部分。有可能字符串裡有不止一個部分滿足給定的正則表達式，這時每一個這樣的部分被稱為一個匹配。匹配在本文裡可能會有三種意思：一種是形容詞性的，比如說一個字符串匹配一個表達式；一種是動詞性的，比如說在字符串裡匹配正則表達式；還有一種是名詞性的，就是剛剛說到的「字符串中滿足給定的正則表達式的一部分」。

入門

學習正則表達式的最好方法是從例子開始，理解例子之後再自己對例子進行修改，實驗。下面給出了不少簡單的例子，並對它們作了詳細的說明。
假設你在一篇英文小說裡查找hi，你可以使用正則正則表達式hi。
這是最簡單的正則表達式了，它可以精確匹配這樣的字符串：由兩個字符組成，前一個字符是h,後一個是i。通常，處理正則表達式的工具會提供一個忽略大小寫的選項，如果選中了這個選項，它可以匹配hi,HI,Hi,hI這四種情況中的任意一種。
不幸的是，很多單詞裡包含hi這兩個連續的字符，比如him,history,high等等。用hi來查找的話，這裡邊的hi也會被找出來。如果要精確地查找hi這個單詞的話，我們應該使用\bhi\b。
\b是正則表達式規定的一個特殊代碼（好吧，某些人叫它元字符，metacharacter），代表著單詞的開頭或結尾，也就是單詞的分界處。雖然通常英文的單詞是由空格或標點符號或換行來分隔的，但是\b並不匹配這些單詞分隔符中的任何一個，它只匹配一個位置。（如果需要更精確的說法，\b匹配這樣的位置：它的前一個字符和後一個字符不全是\w）
假如你要找的是hi後面不遠處跟著一個Lucy，你應該用\bhi\b.*\bLucy\b。
這裡，.是另一個元字符，匹配除了換行符以外的任意字符。*同樣是元字符，不過它代表的不是字符，也不是位置，而是數量--它指定*前邊的內容可以重複任意次以使整個表達式得到匹配。因此，.*連在一起就意味著任意數量的不包含換行的字符。現在\bhi\b.*\bLucy\b的意思就很明顯了：先是一個單詞hi,然後是任意個任意字符(但不能是換行)，最後是Lucy這個單詞。
如果同時使用其它的一些元字符，我們就能構造出功能更強大的正則表達式。比如下面這個例子：
0\d\d-\d\d\d\d\d\d\d\d匹配這樣的字符串：以0開頭，然後是兩個數字，然後是一個連字號「-」，最後是8個數字(也就是中國的電話號碼。當然，這個例子只能匹配區號為3位的情形)。
這裡的\d是一個新的元字符，匹配任意的數字(0，或1，或2，或……)。-不是元字符，只匹配它本身——連字號。
為了避免那麼多煩人的重複，我們也可以這樣寫這個表達式：0\d{2}-\d{8}
這裡\d後面的{2}({8})的意思是前面\d必須連續重複匹配2次(8次)。

測試正則表達式

如果你不覺得正則表達式很難讀寫的話，要麼你是一個天才，要麼，你不是地球人。正則表達式的語法很令人頭疼，即使對經常使用它的人來說也是如此。由於難於讀寫，容易出錯，所以很有必要創建一種工具來測試正則表達式。
由於在不同的環境下正則表達式的一些細節是不相同的，本教程介紹的是Microsoft .Net 2.0下正則表達式的行為，所以，我向你介紹一個.Net下的工具Regex Tester。首先你確保已經安裝了.Net Framework 2.0，然後下載Regex Tester，下載完後打開壓縮包，運行setup.exe安裝。
下面是Regex Tester運行時的截圖：

元字符

現在你已經知道幾個很有用的元字符了，如\b,.,*，還有\d.當然還有更多的元字符，比如\s匹配任意的空白符，包括空格，製表符(Tab)，換行符，中文全角空格等。\w匹配字母或數字或下劃線或漢字。
下面來試試更多的例子：
\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b)，然後是字母a,然後是任意數量的字母或數字(\w*)，最後是單詞結束處(\b)（好吧，現在我們說說這裡的單詞是什麼意思吧：就是幾個連續的\w。不錯，這與學習英文時要背的成千上萬個同名的東西的確關係不大）。
\d+匹配1個或更多連續的數字。這裡的+是和*類似的元字符，不同的是*匹配重複任意次(可能是0次)，而+則匹配重複1次或更多次。
\b\w{6}\b 匹配剛好6個字母/數字的單詞。
代碼說明

表1.常用的元字符
.	匹配除換行符以外的任意字符
\w	匹配字母或數字或下劃線或漢字
\s	匹配任意的空白符
\d	匹配數字
\b	匹配單詞的開始或結束
^	匹配字符串的開始
$	匹配字符串的結束

元字符^（和6在同一個鍵位上的符號）以及$和\b有點類似，都匹配一個位置。^匹配你要用來查找的字符串的開頭，$匹配結尾。這兩個代碼在驗證輸入的內容時非常有用，比如一個網站如果要求你填寫的QQ號必須為5位到12位數字時，可以使用：^\d{5,12}$。
這裡的{5,12}和前面介紹過的{2}是類似的，只不過{2}匹配只能不多不少重複2次，{5,12}則是必須重複最少5次，最多12次，否則都不匹配。
因為使用了^和$，所以輸入的整個字符串都要用來和\d{5,12}來匹配，也就是說整個輸入必須是5到12個數字，因此如果輸入的QQ號能匹配這個正則表達式的話，那就符合要求了。
和忽略大小寫的選項類似，有些正則表達式處理工具還有一個處理多行的選項。如果選中了這個選項，^和$的意義就變成了匹配行的開始處和結束處。

字符轉義

如果你想查找元字符本身的話，比如你查找.,或者*,就出現了問題：你沒法指定它們，因為它們會被解釋成其它的意思。這時你就必須使用\來取消這些字符的特殊意義。因此，你應該使用\.和\*。當然，要查找\本身，你也得用\\.
例如：www\.unibetter\.com匹配www.unibetter.com，c:\\windows匹配c:\windows,2\^8匹配2^8(通常這是2的8次方的書寫方式)。

重複

你已經看過了前面的*,+,{2},{5,12}這幾個匹配重複的方式了。下面是正則表達式中所有指定重複的方式：
代碼/語法說明

表2.常用的限定符
*	重複零次或更多次
+	重複一次或更多次
?	重複零次或一次
{n}	重複n次
{n,}	重複n次或更多次
{n,m}	重複n到m次

下面是一些使用重複的例子：
Windows\d+匹配Windows後面跟1個或更多數字
13\d{9}匹配以13後面跟9個數字(中國的手機號)
^\w+匹配一行的第一個單詞(或整個字符串的第一個單詞，具體匹配哪個意思得看選項設置)

字符類

要想查找數字，字母或數字，空白是很簡單的，因為已經有了對應這些字符集的元字符，但是如果你想匹配沒有預定義元字符的字符集比如元音字母(a,e,i,o,u),怎麼辦？
很簡單，你只需要在中括號裡列出它們就行了，像[aeiou]就匹配任何一個元音字母，[.?!]匹配標點符號(.或?或!)(英文語句通常只以這三個標點結束)。注意，我們不需要寫成[\.\?!]。
我們也可以輕鬆地指定一個字符範圍，像[0-9]代表的含意與\d就是完全一致的：一位數字，同理[a-z0-9A-Z_]也完全等同於\w（如果只考慮英文的話）。
下面是一個更複雜的表達式：\(?0\d{2}[) -]?\d{8}。
這個表達式可以匹配幾種格式的電話號碼，像(010)88886666，或022-22334455，或02912345678等。我們對它進行一些分析吧：首先是一個轉義字符\(,它能出現0次或1次(?),然後是一個0，後面跟著2個數字({2})，然後是)或-或空格中的一個，它出現1次或不出現(?)，最後是8個數字(\d{8})。不幸的是，它也能匹配010)12345678或(022-87654321這樣的「不正確」的格式。要解決這個問題，請在本教程的下面查找答案。

反義

有時需要查找不屬於某個能簡單定義的字符類的字符。比如想查找除了數字以外，其它任意字符都行的情況，這時需要用到反義：
代碼/語法說明

表3.常用的反義代碼
\W	匹配任意不是字母，數字，下劃線，漢字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非數字的字符
\B	匹配不是單詞開頭或結束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou這幾個字母以外的任意字符

例子：\S+匹配不包含空白符的字符串。
]+> 匹配用尖括號括起來的以a開頭的字符串。

替換

好了，現在終於到了解決3位或4位區號問題的時間了。正則表達式裡的替換指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。聽不明白？沒關係，看例子：
0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。
$0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼，其中區號可以用小括號括起來，也可以不用，區號與本地號間可以用連字號或空格間隔，也可以沒有間隔。你可以試試用替換|把這個表達式擴展成也支持4位區號的。
\d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字，或者用連字號間隔的9位數字。之所以要給出這個例子是因為它能說明一個問題：使用替換時，順序是很重要的。如果你把它改成\d{5}|\d{5}-\d{4}的話，那麼就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配替換時，將會從左到右地測試每個分枝條件，如果滿足了某個分枝的話，就不會去管其它的替換條件了。
Windows98|Windows2000|WindosXP這個例子是為了告訴你替換不僅僅能用於兩種規則，也能用於更多種規則。

分組

我們已經提到了怎麼重複單個字符（直接在字符後面加上限定符就行了）；但如果想要重複一個字符串又該怎麼辦？你可以用小括號來指定子表達式(也叫做分組)，然後你就可以指定這個子表達式的重複次數了，你也可以對子表達式進行其它一些操作(後面會有介紹)。
(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式，請按下列順序分析它：\d{1,3}匹配1到3位的數字，(\d{1,3}\.}{3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重複3次，最後再加上一個一到三位的數字(\d{1,3})。
不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每個數字都不能大於255)。如果能使用算術比較的話，或許能簡單地解決這個問題，但是正則表達式中並不提供關於數學的任何功能，所以只能使用冗長的分組，選擇，字符類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?，這裡我就不細說了，你自己應該能分析得出來它的意義。

後向引用

使用小括號指定一個子表達式後，匹配這個子表達式的文本可以在表達式或其它程序中作進一步的處理。默認情況下，每個分組會自動擁有一個組號，規則是：從左向右，以分組的左括號為標誌，第一個出現的分組的組號為1，第二個為2，以此類推。
後向引用用於重複搜索前面某個分組匹配的文本。例如，\1代表分組1匹配的文本。難以理解？請看示例：
\b(\w+)\b\s+\1\b可以用來匹配重複的單詞，像go go, kitty kitty。首先是一個單詞，也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b)，然後是1個或幾個空白符(\s+，最後是前面匹配的那個單詞(\1)。
你也可以自己指定子表達式的組號或組名。要指定一個子表達式的組名，請使用這樣的語法：(? \w+) ,這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容，你可以使用\k ,所以上一個例子也可以寫成這樣：\b(? \w+)\b\s*\k \b 。
使用小括號的時候，還有很多特定用途的語法。下面列出了最常用的一些：
捕獲位置指定註釋

表4.分組語法
(exp)	匹配exp,並捕獲文本到自動命名的組裡
(? exp)	匹配exp,並捕獲文本到名稱為name的組裡，也可以寫成(?'name'exp)
(?:exp)	匹配exp,不捕獲匹配的文本
(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp後面的位置
(?!exp)	匹配後面跟的不是exp的位置
(?	匹配前面不是exp的位置
(?#comment)	這種類型的組不對正則表達式的處理產生任何影響，只是為了提供讓人閱讀註釋

我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式，只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裡面。

位置指定

接下來的四個用於查找在某些內容(但並不包括這些內容)之前或之後的東西，也就是說它們用於指定一個位置，就像\b,^,$那樣，因此它們也被稱為零寬斷言。最好還是拿例子來說明吧：
(?=exp)也叫零寬先行斷言，它匹配文本中的某些位置，這些位置的後面能匹配給定的後綴exp。比如\b\w+(?=ing\b)，匹配以ing結尾的單詞的前面部分(除了ing以外的部分)，如果在查找I'm singing while you're dancing.時，它會匹配sing和danc。
(?<=exp)也叫零寬後行斷言，它匹配文本中的某些位置，這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分)，例如在查找reading a book時，它匹配ading。
假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了)，你可以這樣查找需要在前面和裡面添加逗號的部分：((?<=\d)\d{3})*\b。請仔細分析這個表達式，它可能不像你第一眼看出來的那麼簡單。
下面這個例子同時使用了前綴和後綴：(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調，不包括這些空白符)。

負向位置指定

表5.懶惰限定符
*?	重複任意次，但盡可能少重複
+?	重複1次或更多次，但盡可能少重複
??	重複0次或1次，但盡可能少重複
{n,m}?	重複n到m次，但盡可能少重複
{n,}?	重複n次以上，但盡可能少重複

表6.尚未詳細討論的語法
\a	報警字符(打印它的效果是電腦嘀一聲)
\b	通常是單詞分界位置，但如果在字符類裡使用代表退格
\t	製表符，Tab
\r	回車
\v	豎向製表符
\f	換頁符
\n	換行符
\e	Escape
\0nn	ASCII代碼中八進制代碼為nn的字符
\xnn	ASCII代碼中十六進制代碼為nn的字符
\unnnn	Unicode代碼中十六進制代碼為nnnn的字符
\cN	ASCII控制字符。比如\cC代表Ctrl+C
\A	字符串開頭(類似^，但不受處理多行選項的影響)
\Z	字符串結尾或行尾(不受處理多行選項的影響)
\z	字符串結尾(類似$，但不受處理多行選項的影響)
\G	當前搜索的開頭
\p{name}	Unicode中命名為name的字符類，例如\p{IsGreek}
(?>exp)	貪婪子表達式
(? - exp)	平衡組
(?im-nsx:exp)	在子表達式exp中改變處理選項
(?im-nsx)	為表達式後面的部分改變處理選項
(?(exp)yes\|no)	把exp當作零寬正向先行斷言，如果在這個位置能匹配，使用yes作為此組的表達式；否則使用no
(?(exp)yes)	同上，只是使用空表達式作為no
(?(name)yes\|no)	如果命名為name的組捕獲到了內容，使用yes作為表達式；否則使用no
(?(name)yes)	同上，只是使用空表達式作為no

前面我們提到過怎麼查找不是某個字符或不在某個字符類裡的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現，但並不想去匹配它時怎麼辦？例如，如果我們想查找這樣的單詞--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣：
\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳，直接就觀察出來了)，你會發現，如果q出現在單詞的結尾的話，像Iraq,Benq，這個表達式就會出錯。這是因為[^u]總是匹配一個字符，所以如果q是單詞的最後一個字符的話，後面的[^u]將會匹配q後面的單詞分隔符(可能是空格，或者是句號或其它的什麼)，後面的\w+\b將會匹配下一個單詞，於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題，因為它只匹配一個位置，並不消費任何字符。現在，我們可以這樣來解決這個問題：\b\w*q(?!u)\w*\b。
零寬負向先行斷言(?!exp)，只會匹配後綴exp不存在的位置。\d{3}(?!\d)匹配三位數字，而且這三位數字的後面不能是數字。
同理，我們可以用(?,零寬負向後行斷言來查找前綴exp不存在的位置：(?匹配前面不是小寫字母的七位數字(實驗時發現錯誤？注意你的「區分大小寫」先項是否選中)。
一個更複雜的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裡的內容。()指定了這樣的前綴：被尖括號括起來的單詞(比如可能是)，然後是.*(任意的字符串),最後是一個後綴(?=<\/\1>)。注意後綴裡的\/，它用到了前面提過的字符轉義；\1則是一個反向引用，引用的正是捕獲的第一組，前面的(\w+)匹配的內容，這樣如果前綴實際上是的話，後綴就是了。整個表達式匹配的是和之間的內容(再次提醒，不包括前綴和後綴本身)。

註釋
小括號的另一種用途是能過語法(?#comment)來包含註釋。例如：2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。
要包含註釋的話，最好是啟用「忽略模式裡的空白符」選項，這樣在編寫表達式時能任意的添加空格，Tab，換行，而實際使用時這些都將被忽略。啟用這個選項後，在#後面到這一行結束的所有文本都將被當成註釋忽略掉。
例如，我們可以前面的一個表達式寫成這樣：

(?<= # 查找前綴，但不包含它 <(\w+)> # 查找尖括號括起來的字母或數字(標籤) ) # 前綴結束 .* # 匹配任意文本 (?= # 查找後綴，但不包含它 <\/\1> # 查找尖括號括起來的內容：前面是一個"/"，後面是先前捕獲的標籤 ) # 後綴結束

貪婪與懶惰
當正則表達式中包含能接受重複的限定符(指定數量的代碼，例如*,{5,12}等)時，通常的行為是（在使整個表達式能得到匹配的前提下）匹配盡可能多的字符。考慮這個表達式：a.*b，它將會匹配最長的以a開始，以b結束的字符串。如果用它來搜索aabab的話，它會匹配整個字符串aabab。這被稱為貪婪匹配。
有時，我們更需要懶惰匹配，也就是匹配盡可能少的字符。前面給出的限定符都可以被轉化為懶惰匹配模式，只要在它後面加上一個問號?。這樣.*?就意味著匹配任意數量的重複，但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧：
a.*?b匹配最短的，以a開始，以b結束的字符串。如果把它應用於aabab的話，它會匹配aab和ab（為什麼第一個匹配是aab而不是ab？簡單地說，最先開始的區配最有最大的優先權——The Match That Begins Earliest Wins）。

表5.懶惰限定符

*? 重複任意次，但盡可能少重複

+? 重複1次或更多次，但盡可能少重複

?? 重複0次或1次，但盡可能少重複

{n,m}? 重複n到m次，但盡可能少重複

{n,}? 重複n次以上，但盡可能少重複

平衡組
如果想要匹配可嵌套的層次性結構的話，就得使用平衡組了。舉個例子吧，如何把「xx aa> yy」這樣的字符串裡，最長的括號內的內容捕獲出來？
這裡需要用到以下的語法構造：

(? )把捕獲的內容命名為group,並壓入堆棧

(?<-group>)從堆棧上彈出最後壓入堆棧的名為group的捕獲內容，如果堆棧本來為空，則本分組的匹配失敗

(?(group)yes|no)如果堆棧上存在以名為group的捕獲內容的話，繼續匹配yes部分的表達式，否則繼續匹配no部分

(?!)零寬負向先行斷言，由於沒有後綴表達式，試圖匹配總是失敗

如果你不是一個程序員（或者你是一個對堆棧的概念不熟的程序員），你就這樣理解上面的三種語法吧：第一個就是在黑板上寫一個（或再寫一個）"group"，第二個就是從黑板上擦掉一個"group"，第三個就是看黑板上寫的還有沒有"group"，如果有就繼續匹配yes部分，否則就匹配no部分。
我們需要做的是每碰到了左括號，就在黑板上寫一個"group"，每碰到一個右括號，就擦掉一個，到了最後就看看黑板上還有沒有－如果有那就證明左括號比右括號多，那匹配就應該失敗（為了能看得更清楚一點，我用了(?'group')的語法）：

< #最外層的左括號 [^<>]* #最外層的左括號後面的不是括號的內容 ( ( (?'Open'<) #碰到了左括號，在黑板上寫一個"Open" [^<>>]* #匹配左括號後面的不是括號的內容 )+ ( (?'-Open'>) #碰到了右括號，擦掉一個"Open" [^<>]* #匹配右括號後面不是括號的內容 )+ )* (?(Open)(?!)) #在遇到最外層的右括號前面，判斷黑板上還有沒有沒擦掉的"Open"；如果還有，則匹配失敗 > #最外層的右括號

還有些什麼東西沒提到
我已經描述了構造正則表達式的大量元素，還有一些我沒有提到的東西。下面是未提到的元素的列表，包含語法和簡單的說明。你可以在網上找到更詳細的參考資料來學習它們--當你需要用到它們的時候。如果你安裝了MSDN Library,你也可以在裡面找到關於.net下正則表達式詳細的文檔。

表6.尚未詳細討論的語法

\a 報警字符(打印它的效果是電腦嘀一聲)

\b 通常是單詞分界位置，但如果在字符類裡使用代表退格

\t 製表符，Tab

\r 回車

\v 豎向製表符

\f 換頁符

\n 換行符

\e Escape

\0nn ASCII代碼中八進制代碼為nn的字符

\xnn ASCII代碼中十六進制代碼為nn的字符

\unnnn Unicode代碼中十六進制代碼為nnnn的字符

\cN ASCII控制字符。比如\cC代表Ctrl+C

\A 字符串開頭(類似^，但不受處理多行選項的影響)

\Z 字符串結尾或行尾(不受處理多行選項的影響)

\z 字符串結尾(類似$，但不受處理多行選項的影響)

\G 當前搜索的開頭

\p{name} Unicode中命名為name的字符類，例如\p{IsGreek}

(?>exp) 貪婪子表達式

(? - exp) 平衡組

(?im-nsx:exp) 在子表達式exp中改變處理選項

(?im-nsx) 為表達式後面的部分改變處理選項

(?(exp)yes|no) 把exp當作零寬正向先行斷言，如果在這個位置能匹配，使用yes作為此組的表達式；否則使用no

(?(exp)yes) 同上，只是使用空表達式作為no

(?(name)yes|no) 如果命名為name的組捕獲到了內容，使用yes作為表達式；否則使用no

(?(name)yes) 同上，只是使用空表達式作為no

一些我認為你可能已經知道的術語的參考

字符

程序處理文字時最基本的單位，可能是字母，數字，標點符號，空格，換行符，漢字等等。

字符串

0個或更多個字符的序列。

文本

文字，字符串。

匹配

符合規則，檢驗是否符合規則，符合規則的部分。

網上的資源及本文參考文獻

微軟的正則表達式教程

專業的正則表達式教學網站(英文)

關於.Net下的平衡組的詳細討論（英文）

Mastering Regular Expressions (Second Edition)

第二版更新說明

修正了幾個細節上的錯誤和不準確的地方

增加了對處理中文時的一些說明

更改了幾個術語的翻譯（採用了MSDN的翻譯方式）

增加了平衡組的介紹

放棄了對The Regulator的介紹，改用Regex Tester

Updated on: 2006-10-12

記錄程式相關的一些實用語法

2013年9月3日星期二

[轉貼] 正則表達式30分鐘入門教程(第二版)

目錄

本文目標

如何使用本教程

什麼是正則表達式？

入門

測試正則表達式

元字符

字符轉義

重複

字符類

反義

替換

分組

後向引用

位置指定

負向位置指定

註釋

貪婪與懶惰

平衡組

還有些什麼東西沒提到

一些我認為你可能已經知道的術語的參考

網上的資源及本文參考文獻

第二版更新說明

沒有留言:

張貼留言

2013年9月3日 星期二

[轉貼] 正則表達式30分鐘入門教程(第二版)

目錄

本文目標

如何使用本教程

什麼是正則表達式？

入門

測試正則表達式

元字符

字符轉義

重複

字符類

反義

替換

分組

後向引用

位置指定

負向位置指定

註釋

貪婪與懶惰

平衡組

還有些什麼東西沒提到

一些我認為你可能已經知道的術語的參考

網上的資源及本文參考文獻

第二版更新說明

沒有留言:

張貼留言

2013年9月3日星期二