使用Python验证常见的50个正则表达式-益强资讯全景

域名: 使用Python验证常见的50个正则表达式
时间：2010-12-5 17:23:32  作者：数据库   来源：系统运维  查看：  评论：0
内容摘要：00 Python如何支持正则？我用的是python来实现正则，并使用Jupyter Notebook编写代码。Python通过re模块支持正则表达式，re 模块使 Python 语言拥有全部的正则表

00 Python如何支持正则？使用式
我用的是python来实现正则，并使用Jupyter Notebook编写代码。验证
Python通过re模块支持正则表达式，正则re 模块使 Python 语言拥有全部的表达正则表达式功能。
这里要注意两个函数的使用式使用：
re.compile用于编译正则表达式，生成一个正则表达式（ Pattern ）对象; .findall用于在字符串中找到正则表达式所匹配的验证所有子串，并返回一个列表，正则如果没有找到匹配的表达，则返回空列表。使用式 # 导入re模块  import re
01 邮箱
包含大小写字母，验证下划线，正则阿拉伯数字，表达点号，使用式中划线
表达式：
[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?验证:\.[a-zA-Z0-9_-]+)
案例：
pattern = re.compile(r"[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:\.[a-zA-Z0-9_-]+)")  strs = 我的私人邮箱是zhuwjwh@outlook.com，公司邮箱是正则123456@qq.org，麻烦登记一下？  result = pattern.findall(strs)  print(result)
[zhuwjwh@outlook.com, 123456@qq.org]
02 身份证号
xxxxxx yyyy MM dd 375 0 十八位
地区：[1-9]\d{ 5} 年的前两位：(18|19|([23]\d)) 1800-2399 年的后两位：\d{ 2} 月份：((0[1-9])|(10|11|12)) 天数：(([0-2][1-9])|10|20|30|31) 闰年不能禁止29+ 三位顺序码：\d{ 3} 两位顺序码：\d{ 2} 校验码：[0-9Xx]
表达式：
[1-9]\d{ 5}(18|19|([23]\d))\d{ 2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{ 3}[0-9Xx]
案例：
pattern = re.compile(r"[1-9]\d{ 5}(?:18|19|(?:[23]\d))\d{ 2}(?:(?:0[1-9])|(?:10|11|12))(?:(?:[0-2][1-9])|10|20|30|31)\d{ 3}[0-9Xx]")  strs = 小明的身份证号码是342623198910235163，手机号是13987692110  result = pattern.findall(strs)  print(result)  [342623198910235163]
03 国内手机号码
手机号都为11位，且以1开头，第二位一般为3、5、站群服务器6、7、8、9 ，剩下八位任意数字
例如：13987692110、15610098778
表达式：
1(3|4|5|6|7|8|9)\d{ 9}
案例：
pattern = re.compile(r"1[356789]\d{ 9}")  strs = 小明的手机号是13987692110，你明天打给他  result = pattern.findall(strs)  print(result)
[13987692110]
04 国内固定电话
区号3~4位，号码7~8位
例如：0511-1234567、021-87654321
表达式：
\d{ 3}-\d{ 8}|\d{ 4}-\d{ 7}
案例：
pattern = re.compile(r"\d{ 3}-\d{ 8}|\d{ 4}-\d{ 7}")  strs = 0511-1234567是小明家的电话，他的办公室电话是021-87654321  result = pattern.findall(strs)  print(result)
[0511-1234567, 021-87654321]
05 域名
包含http:\\或https:\\
表达式：
(?:(?:http:\/\/)|(?:https:\/\/))?(?:[\w](?:[\w\-]{ 0,61}[\w])?\.)+[a-zA-Z]{ 2,6}(?:\/)
案例：
pattern = re.compile(r"(?:(?:http:\/\/)|(?:https:\/\/))?(?:[\w](?:[\w\-]{ 0,61}[\w])?\.)+[a-zA-Z]{ 2,6}(?:\/)")  strs = Python官网的网址是https://www.python.org/  result = pattern.findall(strs) print(result)
[https://www.python.org/]
06 IP地址
IP地址的长度为32位(共有2^32个IP地址)，分为4段，每段8位，用十进制数字表示
每段数字范围为0～255，段与段之间用句点隔开
表达式：
((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){ 3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
案例：
pattern = re.compile(r"((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){ 3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))")  strs = 请输入合法IP地址，非法IP地址和其他字符将被过滤！  增、删、改IP地址后，请保存、关闭记事本！  192.168.8.84  192.168.8.85  192.168.8.86  0.0.0.1  256.1.1.1  192.256.256.256  192.255.255.255  aa.bb.cc.dd  result = pattern.findall(strs)  print(result)
[192.168.8.84, 192.168.8.85, 192.168.8.86, 0.0.0.1, 56.1.1.1, 192.255.255.255]
07 日期
常见日期格式：yyyyMMdd、yyyy-MM-dd、yyyy/MM/dd、yyyy.MM.dd
表达式：
\d{ 4}(?:-|\/|.)\d{ 1,2}(?:-|\/|.)\d{ 1,2}
案例：
pattern = re.compile(r"\d{ 4}(?:-|\/|.)\d{ 1,2}(?:-|\/|.)\d{ 1,2}")  strs = 今天是服务器租用2020/12/20，去年的今天是2019.12.20，明年的今天是2021-12-20  result = pattern.findall(strs)  print(result)
[2020/12/20, 2019.12.20, 2021-12-20]
08 国内邮政编码
我国的邮政编码采用四级六位数编码结构前两位数字表示省（直辖市、自治区）第三位数字表示邮区；第四位数字表示县（市）最后两位数字表示投递局（所）
表达式：
[1-9]\d{ 5}(?!\d)
案例：
pattern = re.compile(r"[1-9]\d{ 5}(?!\d)")  strs = 上海静安区邮编是200040  result = pattern.findall(strs)  print(result)
[200040]
09 密码
密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)
表达式：
[a-zA-Z]\w{ 5,17}
强密码(以字母开头，必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)
表达式：
[a-zA-Z](?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{ 8,10}
pattern = re.compile(r"[a-zA-Z]\w{ 5,17}")  strs = 密码：q123456_abc  result = pattern.findall(strs)  print(result)  [q123456_abc]  pattern = re.compile(r"[a-zA-Z](?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{ 8,10}")  strs = 强密码：q123456ABc，弱密码：q123456abc  result = pattern.findall(strs)  print(result)
[q123456ABc，]
10 中文字符
表达式：
[\u4e00-\u9fa5]
案例：
pattern = re.compile(r"[\u4e00-\u9fa5]")  strs = apple：苹果  result = pattern.findall(strs) print(result)
[苹, 果]
11 数字
验证数字：^[0-9]*$ 验证n位的数字：^\d{ n}$ 验证至少n位数字：^\d{ n,}$ 验证m-n位的数字：^\d{ m,n}$ 验证零和非零开头的数字：^(0|[1-9][0-9]*)$ 验证有两位小数的正实数：^[0-9]+(.[0-9]{ 2})?$ 验证有1-3位小数的正实数：^[0-9]+(.[0-9]{ 1,3})?$ 验证非零的正整数：^\+?[1-9][0-9]*$ 验证非零的负整数：^\-[1-9][0-9]*$ 验证非负整数（正整数 + 0） ^\d+$ 验证非正整数（负整数 + 0） ^((-\d+)|(0+))$ 整数：^-?\d+$ 非负浮点数（正浮点数 + 0）：^\d+(\.\d+)?$ 正浮点数 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$ 非正浮点数（负浮点数 + 0） ^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 负浮点数 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$ 浮点数 ^(-?\d+)(\.\d+)?$
12 字符串
英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{ 4,40}$ 长度为3-20的所有字符：^.{ 3,20}$ 由26个英文字母组成的字符串：^[A-Za-z]+$ 由26个大写英文字母组成的字符串：^[A-Z]+$ 由26个小写英文字母组成的字符串：^[a-z]+$ 由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$ 由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{ 3,20}$ 中文、亿华云英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$ 中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{ 2,20}$ 可以输入含有^%&,;=?$\”等字符：`[^%&,;=?$\x22]+` 禁止输入含有~的字符：[^~\x22]+
附：正则表达式语法详解
\：将下一个字符标记为一个特殊字符（File Format Escape，清单见本表）、或一个原义字符（Identity Escape，有^$()*+?.[{ |共计12个)、或一个向后引用（backreferences）、或一个八进制转义符。例如，“n”匹配字符“n”。“\n”匹配一个换行符。序列“\\”匹配“\”而“\(”则匹配“(”。 ^：匹配输入字符串的开始位置 $：匹配输入字符串的结束位置 *：匹配前面的子表达式零次或多次。例如，zo*能匹配“z”、“zo”以及“zoo”。*等价于{ 0,}。 +：匹配前面的子表达式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{ 1,}。 ?：匹配前面的子表达式零次或一次。例如，“do(es)?”可以匹配“does”中的“do”和“does”。?等价于{ 0,1}。 { n}：n是一个非负整数。匹配确定的n次。例如，“o{ 2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。 { n,}：n是一个非负整数。至少匹配n次。例如，“o{ 2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{ 1,}”等价于“o+”。“o{ 0,}”则等价于“o*”。 { n,m}：m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{ 1,3}”将匹配“fooooood”中的前三个o。“o{ 0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。 ?：非贪心量化（Non-greedy quantifiers）：当该字符紧跟在任何一个其他重复修饰符（*,+,?，{ n}，{ n,}，{ n,m}）后面时，匹配模式是「非」贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。 .：匹配除“\r”“\n”之外的任何单个字符。要匹配包括“\r”“\n”在内的任何字符，请使用像“(.\|\r\|\n)”的模式。 (pattern)：匹配pattern并获取这一匹配的子字符串。该子字符串用于向后引用。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“$”或“$”。可带数量后缀。 (?:pattern)：匹配pattern但不获取匹配的子字符串（shy groups），也就是说这是一个非获取匹配，不存储匹配的子字符串用于向后引用。这在使用或字符“(\|)”来组合一个模式的各个部分是很有用。例如“industr(?:y\|ies)”就是一个比“industry\|industries”更简略的表达式。 (?=pattern)：正向肯定预查（look ahead positive assert），在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。 (?!pattern)：正向否定预查（negative assert），在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始 (?<=pattern)：反向（look behind）肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。 (?<!pattern)：反向否定预查，与正向否定预查类似，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。 x\|y：没有包围在()里，其范围是整个正则表达式。例如，“z\|food”能匹配“z”或“food”。“(?:z\|f)ood”则匹配“zood”或“food”。 [xyz]：字符集合（character class）。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。特殊字符仅有反斜线\保持特殊含义，用于转义字符。其它特殊字符如星号、加号、各种括号等均作为普通字符。脱字符^如果出现在首位则表示负值字符集合；如果出现在字符串中间就仅作为普通字符。连字符 - 如果出现在字符串中间表示字符范围描述；如果如果出现在首位（或末尾）则仅作为普通字符。右方括号应转义出现，也可以作为首位字符出现。 [^xyz]：排除型字符集合（negated character classes）。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plin”。 [a-z]：字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。 [^a-z]：排除型的字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。 [:name:]：增加命名字符类（named character class）中的字符到表达式。只能用于「方括号表达式」。 [=elt=]：增加当前locale下排序（collate）等价于字符“elt”的元素。例如，[=a=]可能会增加ä、á、à、ă、ắ、ằ、ẵ、ẳ、â、ấ、ầ、ẫ、ẩ、ǎ、å、ǻ、ä、ǟ、ã、ȧ、ǡ、ą、ā、ả、ȁ、ȃ、ạ、ặ、ậ、ḁ、ⱥ、ᶏ、ɐ、ɑ 。只能用于方括号表达式。 [.elt.]：增加排序元素elt到表达式中。这是因为某些排序元素由多个字符组成。例如，29个字母表的西班牙语， "CH"作为单个字母排在字母C之后，因此会产生如此排序“cinco, credo, chispa”。只能用于方括号表达式。 \b：匹配一个单词边界，也就是指单词和空格间的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。 \B：匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。 \cx：匹配由x指明的控制字符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字符。控制字符的值等于x的值最低5比特（即对3210进制的余数）。例如，\cM匹配一个Control-M或回车符。\ca等效于\u0001, \cb等效于\u0002, 等等… \d：匹配一个数字字符。等价于[0-9]。注意Unicode正则表达式会匹配全角数字字符。 \D：匹配一个非数字字符。等价于[^0-9]。 \f：匹配一个换页符。等价于\x0c和\cL。 \n：匹配一个换行符。等价于\x0a和\cJ。 \r：匹配一个回车符。等价于\x0d和\cM。 \s：匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。注意Unicode正则表达式会匹配全角空格符。 \S：匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 \t：匹配一个制表符。等价于\x09和\cI。 \v：匹配一个垂直制表符。等价于\x0b和\cK。 \w：匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。注意Unicode正则表达式会匹配中文字符。 \W：匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。 \xnn：十六进制转义字符序列。匹配两个十六进制数字nn表示的字符。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。. \num：向后引用（back-reference）一个子字符串（substring），该子字符串与正则表达式的第num个用括号围起来的捕捉群（capture group）子表达式（subexpression）匹配。其中num是从1开始的十进制正整数，其上限可能是9、31、99，甚至无限。例如：“(.)\1”匹配两个连续的相同字符。 \n：标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。 \nm：3位八进制数字，标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。 \nml：如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。 \un：Unicode转义字符序列。其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配著作权符号（©）。
优先权
最高：\ 高：()、(?:)、(?=)、[] 中：*、+、?、{ n}、{ n,}、{ n,m} 低：^、$、中介字符次最低：串接，即相邻字符连接在一起最低：\|
记住那句话，域名向来不属于任何人，谁先买就归谁，购买期过后，域名又不再属于任何人。
这个不用多说，不同平台的注册价格不同，且不同平台对域名释放交易的把控与曝光不同，当然价格相对便宜且平台渠道广操作便利的平台最好。

最近更新

2025-10-03 21:15:40
旧域名的外链是否会对新建站点产生影响？
2025-10-03 21:15:40
漫话：如何给女朋友解释为什么Java线程没有Running状态？
2025-10-03 21:15:40
如何快速实现一个连接池？
2025-10-03 21:15:40
Dubbo先启动客户端再启动服务端，线上收银系统崩了
2025-10-03 21:15:40
公司名字不但要与其经营理念、活动识别相统一，还要能反映公司理念，服务宗旨、商品形象，从而才能使人看到或听到公司的名称就能产生愉快的联想，对商店产生好感。这样有助于公司树立良好的形象。
2025-10-03 21:15:40
用uid分库，uname上的查询怎么办？
2025-10-03 21:15:40
一起玩Dubbo，万字长文揭秘服务暴露
2025-10-03 21:15:40
一个函数超过1000行，可以不？

热门排行

2025-10-03 21:15:40
什么是im域名？新手需要了解im域名哪些？
2025-10-03 21:15:40
谷歌、Facebook频繁发现CPU内核不可靠，出现无法预测计算错误
2025-10-03 21:15:40
N-API之Promise篇
2025-10-03 21:15:40
Python 添加类型标注 | 散发着自由松散气息的代码
2025-10-03 21:15:40
尽量不要在域名中出现特殊字符，这样的域名很容易导致访问者输入错误，同时给人留下不专业的印象，降低网站的可信度，并流失大量潜在客户。
2025-10-03 21:15:40
与 Coveralls 的不解之缘
2025-10-03 21:15:40
全面解读Python垃圾回收机制
2025-10-03 21:15:40
系统由单体架构到微服务架构到底是如何演进的？

友情链接