正则表达式 <整>

发表于 2019-09-15 更新于 2021-04-19 分类于技术文档

本文字数： 10k 阅读时长 ≈ 9 分钟

简单介绍正则表达式，包括：简单介绍，元字符，用法，捕获组和非捕获组，贪婪、勉强和独占模式等。

正则表达式

第一节常用格式

（1）校验数字的表达式

数字：^[0-9]*$
n位的数字：^\d{n}$
至少n位的数字：^\d{n,}$
m-n位的数字：^\d{m,n}$
零和非零开头的数字：^(0|[1-9])[1-9]*$
非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$
正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$
有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
非零的正整数：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
非零的负整数：^-[1-9][0-9]*$
非负整数：^\d+$ 或 ^[1-9]\d*|0$
非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
非负浮点数：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
非正浮点数：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
正浮点数：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
负浮点数：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
浮点数：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

（2）校验字符的表达式

汉字：^[\u4e00-\u9fa5]{0,}$
英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
长度为3-20的所有字符：^.{3,20}$
由26个英文字母组成的字符串：^[A-Za-z]+$
由26个大写英文字母组成的字符串：^[A-Z]+$
由26个小写英文字母组成的字符串：^[a-z]+$
由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}
中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
可以输入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+
禁止输入含有~~的字符`[^~~\x22]+`

其它：

.*匹配除 \n 以外的任何字符。
/[\u4E00-\u9FA5]/ 汉字
/[\uFF00-\uFFFF]/ 全角符号
/[\u0000-\u00FF]/ 半角符号

（3）特殊需求表达式

Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]\w{5,17}$
强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
日期格式：^\d{4}-\d{1,2}-\d{1,2}
一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$
一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$
xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
中文字符的正则表达式：[\u4e00-\u9fa5]
双字节字符：[^\x00-\xff] (包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))
空白行的正则表达式：\n\s*\r (可以用来删除空白行)；替换空行：^\s*$\n
HTML标记的正则表达式：<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)
首尾空白字符的正则表达式：^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)
中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)
抽取注释：
查找CSS属性:^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
提取页面超链接:(<a\\s*(?!.*\\brel=)[^>]*)(href="https?:\\/\\/)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^" rel="external nofollow" ]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
提取网页图片:\\< *[img][^\\\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
提取网页颜色代码:^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
文件扩展名效验:^([a-zA-Z]\\:|\\\\)\\\$[^\\\\]+\\\$*[^\\/:*?"<>|]+\\.txt(l)?$
判断IE版本：^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$

贪婪匹配：123456789 2.*8 -> 2345678

多行模式：123456789 ABCDEFG (?s)23(.*?)C

第二节介绍

正则表达式（Regular expression）是一组由字母和符号组成的特殊文本, 用来从文本中找出满足条件格式的句子。

一个正则表达式是一种从左到右匹配主体字符串的模式。“Regular expression”可以用缩写的术语“regex”或“regexp”代替。正则表达式可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等。

假设有如下限制：用户名只能包含小写字母、数字、下划线和连字符，并且限制用户名长度在3~15个字符之间。

^[a-z0-9_-]{3,15}&

^是开始标记，a-z0-9_-表示字母(a-z)、数字(0-9)、下划线和连字符，3-15表示允许3~15个字符长度，$是结束标记。

第三节匹配模式

3.1 基本匹配

正则表达式是大小写敏感的，简单的“the”就表示规则：t紧接h再紧接e。

“the” => The fat cat sat on the mat.

3.2 元字符

正则表达式主要依赖于元字符。元字符不代表他们本身的字面意思，他们都有特殊的含义。

元字符	描述
.	句号匹配任意单个字符除了换行符。
[ ]	字符种类。匹配方括号内的任意字符。
[^ ]	否定的字符种类。匹配除了方括号里的任意字符
*	匹配>=0个重复的在*号之前的字符。
+	匹配>=1个重复的+号前的字符。
?	标记?之前的字符为可选.
{n,m}	匹配num个大括号之间的字符 (n <= num <= m).
(xyz)	字符集，匹配与 xyz 完全相等的字符串.
\|	或运算符，匹配符号前或后的字符.
\	转义字符,用于匹配一些保留的字符: [ ] ( ) { } . * + ? ^ $ \ \|
^	从开始行开始匹配.
$	从末端开始匹配.

3.2.1 点运算符 .

.是元字符中最简单的例子。 .匹配任意单个字符，但不匹配换行符。

“.ar” => The car parked in the garage.

3.2.2 字符集

字符集也叫做字符类。方括号用来指定一个字符集。在方括号中使用连字符来指定字符集的范围。在方括号中的字符集不关心顺序。例如，表达式[Tt]he 匹配 the 和 The。

“[Tt]he” => The car parked in the garage.

方括号的句号就表示句号。

“ar[.]” => A garage is a good place to park a car.

否定字符集

一般来说 ^ 表示一个字符串的开头，但它用在一个方括号的开头的时候，它表示这个字符集是否定的。 =

“[^c]ar” => The car parked in the garage.

3.2.3 重复次数

后面跟着元字符 +，* or ? 的，用来指定匹配子模式的次数。

（1） * 号

* 号匹配在 * 之前的字符出现大于等于0次。例如，表达式 a* 匹配0或更多个以a开头的字符。表达式[a-z]* 匹配一个行中所有以小写字母开头的字符串。

“[a-z]“ => Th*e car parked in the garage #21.

* 字符和 . 字符搭配可以匹配所有的字符 .* 。 * 和表示匹配空格的符号 \s 连起来用，如表达式\s*cat\s* 匹配0或更多个空格开头和0或更多个空格结尾的cat字符串。

“\scat\s“ => The fat cat sat on the concatenation.

（2） + 号

+号匹配+号之前的字符出现 >=1 次。例如表达式c.+t 匹配以首字母c开头以t结尾，中间跟着至少一个字符的字符串。

“c.+t” => The fat cat sat on the mat.

（3） ? 号

在正则表达式中元字符 ? 标记在符号前面的字符为可选，即出现 0 或 1 次。例如，表达式 [T]?he 匹配字符串 he 和 The。

“[T]he” => The car is parked in the garage.

“[T]?he” => The car is parked in the garage.

3.2.4 符号 {}

在正则表达式中 {} 是一个量词，常用来一个或一组字符可以重复出现的次数。例如，表达式 [0-9]{2,3} 匹配最少 2 位最多 3 位 0~9 的数字。

“[0-9]{2,3}” => The number was 9.9997 but we rounded it off to 10.0.

我们可以省略第二个参数。例如，[0-9]{2,} 匹配至少两位 0~9 的数字。

“[0-9]{2,}” => The number was 9.9997 but we rounded it off to 10.0.

如果逗号也省略掉则表示重复固定的次数。例如，[0-9]{3} 匹配3位数字

“[0-9]{3}” => The number was 9.9997 but we rounded it off to 10.0.

3.2.5 (…) 特征标群

特征标群是一组写在 (…) 中的子模式。例如之前说的 {} 是用来表示前面一个字符出现指定次数。但如果在 {} 前加入特征标群则表示整个标群内的字符重复 N 次。例如，表达式 (ab)* 匹配连续出现 0 或更多个 ab。

我们还可以在 () 中用或字符 | 表示或。例如，(c|g|p)ar 匹配 car 或 gar 或 par.

“(c|g|p)ar” => The car is parked in the garage.

3.2.6 | 或运算符

或运算符就表示或，用作判断条件。例如 (T|t)he|car 匹配 (T|t)he 或 car。

“(T|t)he|car” => The car is parked in the garage.

3.2.7 转码特殊字符

反斜线 \ 在表达式中用于转码紧跟其后的字符。用于指定 { } [ ] / \ + * . $ ^ | ? 这些特殊字符。如果想要匹配这些特殊字符则要在其前面加上反斜线 \。

例如 . 是用来匹配除换行符外的所有字符的。如果想要匹配句子中的 . 则要写成 \. 以下这个例子 \.?是选择性匹配.

“(f|c|m)at.?” => The fat cat sat on the mat.

3.2.8 锚点

在正则表达式中，想要匹配指定开头或结尾的字符串就要使用到锚点。^ 指定开头，$ 指定结尾。

(1) ^ 号

^ 用来检查匹配的字符串是否在所匹配字符串的开头。

例如，在 abc 中使用表达式 ^a 会得到结果 a。但如果使用 ^b 将匹配不到任何结果。因为在字符串 abc 中并不是以 b 开头。

例如，^(T|t)he 匹配以 The 或 the 开头的字符串。

“(T|t)he” => The car is parked in the garage.

“^(T|t)he” => The car is parked in the garage.

(2) $ 号

同理于 ^ 号，$ 号用来匹配字符是否是最后一个。

例如，(at.)$ 匹配以 at. 结尾的字符串。

“(at.)” => The fat cat. sat. on the mat.

“(at.)$” => The fat cat. sat. on the mat.

3.3 简写字符集

正则表达式提供一些常用的字符集简写。如下:

简写	描述
.	除换行符外的所有字符
\w	匹配所有字母数字，等同于 [a-zA-Z0-9_]
\W	匹配所有非字母数字，即符号，等同于： [^\w]
\d	匹配数字： [0-9]
\D	匹配非数字： [^\d]
\s	匹配所有空格字符，等同于： [\t\n\f\r\p{Z}]
\S	匹配所有非空格字符： [^\s]
\f	匹配一个换页符
\n	匹配一个换行符
\r	匹配一个回车符
\t	匹配一个制表符
\v	匹配一个垂直制表符
\p	匹配 CR/LF（等同于 \r\n），用来匹配 DOS 行终止符

3.4 零宽度断言（前后预查）

先行断言和后发断言都属于非捕获簇（不捕获文本，也不针对组合计进行计数）。先行断言用于判断所匹配的格式是否在另一个确定的格式之前，匹配结果不包含该确定格式（仅作为约束）。

例如，我们想要获得所有跟在 $ 符号后的数字，我们可以使用正后发断言 (?<=$)[0-9.]*。这个表达式匹配 $ 开头，之后跟着 0,1,2,3,4,5,6,7,8,9,. 这些字符可以出现大于等于 0 次。

零宽度断言如下：

符号	描述
?=	正先行断言-存在
?!	负先行断言-排除
?<=	正后发断言-存在
?<!	负后发断言-排除

3.4.1 ?=… 正先行断言

?=… 正先行断言，表示第一部分表达式之后必须跟着 ?=…定义的表达式。

返回结果只包含满足匹配条件的第一部分表达式。定义一个正先行断言要使用 ()。在括号内部使用一个问号和等号： (?=…)。

正先行断言的内容写在括号中的等号后面。例如，表达式 (T|t)he(?=\sfat) 匹配 The 和 the，在括号中我们又定义了正先行断言 (?=\sfat) ，即 The 和 the 后面紧跟着 (空格)fat。

“(T|t)he(?=\sfat)” => The fat cat sat on the mat.

3.4.2 ?!… 负先行断言

负先行断言 ?! 用于筛选所有匹配结果，筛选条件为其后不跟随着断言中定义的格式。正先行断言定义和负先行断言一样，区别就是 = 替换成 ! 也就是 (?!…)。

表达式 (T|t)he(?!\sfat) 匹配 The 和 the，且其后不跟着 (空格)fat。

“(T|t)he(?!\sfat)” => The fat cat sat on the mat.

3.4.3 ?<= … 正后发断言

正后发断言记作(?<=…) 用于筛选所有匹配结果，筛选条件为其前跟随着断言中定义的格式。例如，表达式 (?<=(T|t)he\s)(fat|mat) 匹配 fat 和 mat，且其前跟着 The 或 the。

“(?<=(T|t)he\s)(fat|mat)” => The fat cat sat on the mat.

3.4.4 ?<!… 负后发断言

负后发断言记作 (?<!…) 用于筛选所有匹配结果，筛选条件为其前不跟随着断言中定义的格式。例如，表达式 (?<!(T|t)he\s)(cat) 匹配 cat，且其前不跟着 The 或 the。

“(?<!(T|t)he\s)(cat)” => The cat sat on cat.

3.5 标志

标志也叫模式修正符，因为它可以用来修改表达式的搜索结果。这些标志可以任意的组合使用，它也是整个正则表达式的一部分。

标志	描述
i	忽略大小写。
g	全局搜索。
m	多行修饰符：锚点元字符 ^ $ 工作范围在每行的起始。

3.5.1 忽略大小写（Case Insensitive）

修饰语 i 用于忽略大小写。例如，表达式 /The/gi 表示在全局搜索 The，在后面的 i 将其条件修改为忽略大小写，则变成搜索 the 和 The，g 表示全局搜索。

“The” => The fat cat sat on the mat.

“/The/gi” => The fat cat sat on the mat.

3.5.2 全局搜索（Global search）

修饰符 g 常用于执行一个全局搜索匹配，即（不仅仅返回第一个匹配的，而是返回全部）。例如，表达式 /.(at)/g 表示搜索任意字符（除了换行）+ at，并返回全部结果。

“/.(at)/“ => The fat cat sat on the mat.

“/.(at)/g” => The fat cat sat on the mat.

3.5.3 多行修饰符（Multiline）

多行修饰符 m 常用于执行一个多行匹配。

像之前介绍的 (^,$) 用于检查格式是否是在待检测字符串的开头或结尾。但我们如果想要它在每行的开头和结尾生效，我们需要用到多行修饰符 m。

例如，表达式 /at(.)?$/gm 表示小写字符 a 后跟小写字符 t ，末尾可选除换行符外任意字符。根据 m 修饰符，现在表达式匹配每行的结尾。

“/.at(.)?$/“ => The fat
cat sat
on the mat.

“/.at(.)?$/gm” => The fat
cat sat
on the mat.

3.6 贪婪匹配与惰性匹配（Greedy vs lazy matching）

正则表达式默认采用贪婪匹配模式，在该模式下意味着会匹配尽可能长的子串。我们可以使用 ? 将贪婪匹配模式转化为惰性匹配模式。

“/(.*at)/“ => The fat cat sat on the mat.

“/(.*?at)/“ => The fat cat sat on the mat.

第三节捕获组和非捕获组

捕获组就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号或显式命名的组里，方便后面引用。当然，这种引用既可以是在正则表达式内部，也可以是在正则表达式外部。一般一个小括号括起来就是一个捕获组。捕获组可以进行嵌套。以深度优先进行编号，在js中编号从1开始。

参与匹配却不进行分组编号的捕获组，其形式为（?:exp）组成，还有其他的形式

第四节贪婪、勉强和独占模式

4.1 贪婪模式

匹配最长。在贪婪量词模式下，正则表达式会尽可能长地去匹配符合规则的字符串，且会回溯。

String source = "<ol><li>Ggicci's Blog</li><li>Ggicci's Facebook</li></ol>";
Pattern pattern = Pattern.compile("<li>.*</li>");
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
    System.out.println(matcher.group());
}

输出：

1	<li>Ggicci's Blog</li><li>Ggicci's Facebook</li>

解释：首先 .* 匹配任何字符（在非 DOTALL 模式下不匹配 \n,\r,\a 一类字符），在 source 中第一个被匹配的 < li > 后面直至最后一个字符（也就是< /ol >的 >）都符合 .* 的匹配规则，但是显然如果 .* 匹配到最后一个字符，那么没有剩余的字符去匹配正则表达式中还未匹配的 < /li > 的，那么会引起匹配失败。但是失败后会回溯（这一点与独占量词不同，下面会讲到）。回溯后这段正则表达式将匹配到 source 中第一个 < li > 和第二个 < /li > 以及之间的内容，如上面的输出所示。

4.2 勉强模式

匹配最短。在勉强量词模式下，正则表达式会匹配尽可能短的字符串。

String source = "<ol><li>Ggicci's Blog</li><li>Ggicci's Facebook</li></ol>";
Pattern pattern = Pattern.compile("<li>.*?</li>");
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
    System.out.println(matcher.group());
}

输出：

1 2	<li>Ggicci's Blog</li> <li>Ggicci's Facebook</li>

解释：source 中第一个< li >匹配到之后到第一个< /li >之间的字符都符合 .* 的匹配规则，同时如果继续匹配 < /li > 也符合这个规则，但是勉强模式下，它会尽可能短地匹配字符串，故第一个找到的字符串应该是 < li >Ggicci’s Blog< /li >，如上面输出所示。然后它会继续匹配剩余的字符串，找到第二个。

4.3 独占模式

同贪婪一样匹配最长。不过在独占量词模式下，正则表达式尽可能长地去匹配字符串，一旦匹配不成功就会结束匹配而不会回溯。

String source = "<ol><li>Ggicci's Blog</li><li>Ggicci's Facebook</li></ol>";
Pattern pattern = Pattern.compile("<li>.*+</li>");
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
    System.out.println(matcher.group());
}

解释：这段正则表达式将不会在 source 找到任何匹配的内容，因为 < li > 匹配到后， .*+ 所能匹配的字符尽可能长地匹配下去，直到 source 的最后一个字符，这必将引起匹配失败，但是在独占模式下一旦匹配失败就不会回溯，故不存在像贪婪模式一样回溯之后找到 < /ol >之前的< /li > 的情况。

参考：

🔗 《learn-regex》

🔗 《常用正则表达式大全》