正则表达式基础入门

正则表达式（Regular Expression, 简称regex）是一种强大的工具，能够帮助我们对字符串进行模式匹配操作。它广泛应用于文本处理、数据批量处理、网络爬虫等领域，极大提升了数据处理效率。本文将从基础概念出发，逐步解析正则表达式的核心知识。

基本字符匹配

正则表达式的核心在于定义匹配的字符。常见的字符匹配方式包括：

# 匹配单个字符

. 匹配任意单个字符（注意：\n除外）

[] 匹配特定字符集合

\d 匹配数字（0-9）

\D 匹配非数字

\s 匹配空白字符（包括空格和制表符）

\S 匹配非空白字符

\w 匹配单词字符（字母、数字和下划线）

\W 匹配非单词字符

支持中文：在某些正则库支持中文字符，默认情况下\w包含中文汉字

以下是通过正则表达式匹配的示例：

rec = re.match(r'速度与激情[1-23-4a-bg-y]', '速度与激情h')

以上代码的意思是：匹配"速度与激情"后跟任意一个由[1-23-4a-bg-y]中字符组成的单字符组合。例如，如果输入为"速度与激情哈"，则h不在匹配集合中，因此无法匹配；而"速度与激情12"则能成功匹配，因为\d匹配数字。

多字符匹配

正则表达式也支持匹配多个字符，这通过使用 * 、 + 、 ? 、 {m} 、 {m,n} 等量词来实现。具体含义如下：

1. * ：前一个字符出现0次或更多次（可有可无）

2. +：前一个字符出现至少一次或更多次

3. ?：前一个字符出现0次或一次

4. {m}：前一个字符恰好出现m次

5. {m,n}：前一个字符的出现次数范围在m到n之间（包含两者）

例如，用正则表达式'速度与激情\d{1,2}'匹配"速度与激情12"和"速度与激情1"都能成功，因为\d{1,2}表示匹配1位或2位的数字。而"速度与激情123"则不匹配，因为3位数字超出了{1,2}的范围。

下列代码展示了如何匹配带有格式化符号的电话号码：

rec = re.match('021-?\d{8}', '021-123156465')

这里的021-?表示以"021-"开头，后面跟一个可选的"-"，再匹配8位数字。因此，输入"021-123156465"能成功匹配，因为在-后映射了8位数字。但"023456789"则不匹配，因为没有-符号。

此外，当要匹配包含换行或特殊字符的任意文本时，需要在正则表达式中添加re.S标志，允许.匹配所有字符，包括换行符。例如：

rec = re.match('.*', html, re.S)

这样，.将匹配包括换行在内的任意单字符，允许.*匹配整个文本文件内容。

分组与引用

正则表达式的分组功能允许我们将模式中的部分内容单独提取，并在其他部分引用这些内容。分组的方式有以下几种：

简单分组：(ab)表示将ab作为一组匹配内容。

引用分组：可以使用\1、\2等表示引用前面分组的内容。

起别名分组：(?P$name)为分组取一个别名，后续可以通过\name引用。

例如，在处理HTML标签时，常常需要提取标签内的内容并进行替换。以下代码实现了将HTMLışık中的内 Bren进行提取和替换：

rec = re.match(r'<(\w*)>.*
   
 
   ', h)

这里的(\w*)表示匹配<后面的任意单词字符>，并将其作为第一组分组记录。然后.*匹配任意文本，最后部分将使用第一组的内容进行替换。这意味着，在h中如果存在<cat>，则会匹配整个<cat>并提取cat到第一组，然后替换为 cat，从而得到cat被加粗显示的结果。

常用正则表达式的方法

除了匹配文本，正则表达式还可以与字符串进行替换、分割、搜索等操作。以下是常用的函数：

match()：仅匹配字符串开头部分，返回匹配结果或None。

search()：在整个字符串中搜索匹配，并返回第一个匹配的结果。

findall()：找到所有与模式匹配的子串，返回为一个列表。

sub()：将匹配的子串替换为指定字符串。

split()：根据正则表达式切割字符串，返回子串列表。

例如，提交一个包含字母、数字和下划线的邮箱地址，使用正则表达式验证格式是否正确。以下代码展示了一个简短的验证逻辑：

def main(): email = input("请输入邮箱地址:") rec = re.match(r'[a-zA-Z0-9_]{4,18}@(163|126|qq)\.com$', email) if rec: print("成功:%s" % email) else: print("失败:%s" % email)if __name__ == '__main__': main()