On this page

Python 正则表达式

Python 正则表达式全面指南

正则表达式(Regular Expression)是处理字符串的强大工具,Python通过re模块提供完整的正则表达式支持。

1. 正则表达式基础

导入模块

import re

基本匹配

pattern = r"hello"  # 原始字符串(raw string)
text = "hello world"

# 检查是否匹配
match = re.search(pattern, text)
if match:
    print("找到匹配:", match.group())  # "hello"

2. 常用元字符

元字符描述
.匹配任意字符(除换行符)
^匹配字符串开头
$匹配字符串结尾
*前一个字符0次或多次
+前一个字符1次或多次
?前一个字符0次或1次
{m}前一个字符m次
{m,n}前一个字符m到n次
[]字符集,匹配其中任意一个
\|或,匹配左边或右边
()分组,捕获匹配内容

3. 特殊序列

序列描述
\d匹配数字,等价于[0-9]
\D匹配非数字
\s匹配空白字符
\S匹配非空白字符
\w匹配单词字符[a-zA-Z0-9_]
\W匹配非单词字符
\b匹配单词边界
\B匹配非单词边界

4. re模块主要方法

re.search()

# 在字符串中搜索第一个匹配
match = re.search(r"\d+", "用户ID: 12345")
if match:
    print("找到数字:", match.group())  # "12345"

re.match()

# 从字符串开头匹配
match = re.match(r"\d+", "12345 是用户ID")
if match:
    print("开头是数字:", match.group())  # "12345"

re.findall()

# 查找所有匹配(返回列表)
numbers = re.findall(r"\d+", "1只猫, 2只狗, 3只鸟")
print(numbers)  # ['1', '2', '3']

re.finditer()

# 查找所有匹配(返回迭代器)
matches = re.finditer(r"\d+", "1只猫, 2只狗, 3只鸟")
for match in matches:
    print(match.group(), match.span())  # 数字和位置

re.sub()

# 替换匹配内容
text = "今天是2023-07-15"
new_text = re.sub(r"\d{4}-\d{2}-\d{2}", "YYYY-MM-DD", text)
print(new_text)  # "今天是YYYY-MM-DD"

re.split()

# 用正则表达式分割字符串
words = re.split(r"\W+", "Hello, world! This is Python.")
print(words)  # ['Hello', 'world', 'This', 'is', 'Python', '']

5. 匹配对象方法

当使用search()match()成功匹配后,返回匹配对象,常用方法:

方法描述
group()返回匹配的字符串
group(n)返回第n个分组匹配
groups()返回所有分组匹配的元组
start()返回匹配的开始位置
end()返回匹配的结束位置
span()返回(start, end)元组
match = re.search(r"(\d{4})-(\d{2})-(\d{2})", "日期: 2023-07-15")
if match:
    print("完整匹配:", match.group())    # "2023-07-15"
    print("年:", match.group(1))        # "2023"
    print("月:", match.group(2))        # "07"
    print("日:", match.group(3))        # "15"
    print("所有分组:", match.groups())  # ('2023', '07', '15')
    print("匹配位置:", match.span())    # (3, 13)

6. 编译正则表达式

对于频繁使用的正则表达式,可以预编译提高效率:

pattern = re.compile(r"\d{4}-\d{2}-\d{2}")

# 使用编译后的模式
match = pattern.search("日期: 2023-07-15")
if match:
    print(match.group())

7. 高级正则技巧

非贪婪匹配

# 贪婪匹配(默认)
match = re.search(r"<.*>", "<h1>标题</h1><p>段落</p>")
print(match.group())  # "<h1>标题</h1><p>段落</p>"

# 非贪婪匹配(加?)
match = re.search(r"<.*?>", "<h1>标题</h1><p>段落</p>")
print(match.group())  # "<h1>"

前瞻和后顾断言

# 正向前瞻(?=...)
match = re.search(r"\w+(?=@)", "email: [email protected]")
print(match.group())  # "user"

# 负向前瞻(?!...)
match = re.search(r"\d{3}(?!\d)", "1234 567")
print(match.group())  # "567" (后面没有数字的3位数字)

# 正向后顾(?<=...)
match = re.search(r"(?<=\$)\d+", "价格: $100")
print(match.group())  # "100"

# 负向后顾(?<!...)
match = re.search(r"(?<!\$)\d+", "价格: $100, 折扣: 20")
print(match.group())  # "20" (前面没有$的数字)

命名分组

match = re.search(r"(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})", "2023-07-15")
if match:
    print(match.groupdict())  # {'year': '2023', 'month': '07', 'day': '15'}
    print(match.group('year'))  # "2023"

注释和详细模式

pattern = re.compile(r"""
    ^                   # 字符串开头
    (\d{3})            # 3位区号
    \D*                 # 任意非数字分隔符
    (\d{3})            # 前3位号码
    \D*                 # 任意非数字分隔符
    (\d{4})            # 后4位号码
    $                   # 字符串结尾
""", re.VERBOSE)

match = pattern.search("(123) 456-7890")
if match:
    print(match.groups())  # ('123', '456', '7890')

8. 常用正则表达式示例

邮箱验证

pattern = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
emails = ["[email protected]", "invalid.email", "[email protected]"]
for email in emails:
    if re.match(pattern, email):
        print(f"{email} 是有效邮箱")
    else:
        print(f"{email} 是无效邮箱")

URL提取

text = "访问 https://www.example.com 或 http://test.org/path?query=1"
urls = re.findall(r"https?://[^\s/$.?#].[^\s]*", text)
print(urls)  # ['https://www.example.com', 'http://test.org/path?query=1']

HTML标签内容提取

html = "<h1>标题</h1><p class='content'>段落内容</p><div>其他</div>"
titles = re.findall(r"<h1>(.*?)</h1>", html)
contents = re.findall(r"<p.*?>(.*?)</p>", html)
print(titles)    # ['标题']
print(contents)  # ['段落内容']

中文匹配

text = "Hello 你好 世界!123"
chinese_chars = re.findall(r"[\u4e00-\u9fa5]+", text)
print(chinese_chars)  # ['你好', '世界']

9. 性能优化与注意事项

  1. 预编译正则表达式:对于频繁使用的模式
  2. 避免回溯灾难:谨慎使用嵌套量词
  3. 使用非贪婪匹配:当需要最小匹配时
  4. 合理使用字符集[a-z](a|b|c|...|z)高效
  5. 避免过度使用正则:简单字符串操作可能更高效

回溯灾难示例

# 危险的正则 - 可能导致性能问题
dangerous_pattern = r"(a+)+$"  # 多个嵌套量词

# 安全替代方案
safe_pattern = r"a+$"

10. 常见问题与解决方案

匹配多行文本

text = """第一行
第二行
第三行"""

# 默认.不匹配换行符
match = re.search(r"^第二行$", text)  # 不匹配

# 使用多行模式
match = re.search(r"^第二行$", text, re.MULTILINE)
if match:
    print("找到:", match.group())  # "第二行"

忽略大小写匹配

match = re.search(r"hello", "HELLO World", re.IGNORECASE)
if match:
    print("找到:", match.group())  # "HELLO"

处理Unicode字符

# 匹配Unicode字母(包括中文等)
match = re.search(r"\w+", "こんにちはHello你好", re.UNICODE)
if match:
    print(match.group())  # "こんにちはHello你好"

11. 实际应用案例

日志分析

log_entries = [
    "ERROR 2023-07-15 14:30:45 服务器崩溃",
    "INFO 2023-07-15 14:31:00 服务启动",
    "WARNING 2023-07-15 14:35:23 内存使用率高"
]

pattern = r"(ERROR|INFO|WARNING)\s(\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2})\s(.*)"

for entry in log_entries:
    match = re.match(pattern, entry)
    if match:
        level, time, message = match.groups()
        print(f"{time} [{level}] {message}")

数据清洗

dirty_data = [
    "价格: $12.99",
    "特价: ¥99.00",
    "折扣价: EUR 8.50"
]

# 提取价格数字
for item in dirty_data:
    match = re.search(r"[\$¥EUR]?\s*(\d+\.\d{2})", item)
    if match:
        price = float(match.group(1))
        print(f"清洗后价格: {price}")

密码强度验证

def validate_password(password):
    """验证密码强度:
    - 至少8个字符
    - 包含大小写字母
    - 包含数字
    - 包含特殊字符
    """
    if len(password) < 8:
        return False
    if not re.search(r"[A-Z]", password):
        return False
    if not re.search(r"[a-z]", password):
        return False
    if not re.search(r"\d", password):
        return False
    if not re.search(r"[!@#$%^&*(),.?\":{}|<>]", password):
        return False
    return True

print(validate_password("Weak1"))      # False
print(validate_password("Strong@123")) # True

12. 总结

Python正则表达式功能强大,可以总结为:

功能方法/模式
基础匹配., ^, $, *, +, ?
字符类[], \d, \w, \s
分组捕获(), (?:...), (?P<name>...)
断言(?=...), (?!...), (?<=...), (?<!...)
匹配方法search(), match(), findall(), finditer()
替换分割sub(), subn(), split()
标志re.IGNORECASE, re.MULTILINE, re.DOTALL

掌握正则表达式可以大幅提升文本处理能力,但也要注意合理使用,避免过度复杂化。对于简单的字符串操作,Python内置的字符串方法可能更高效。