博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python实用技法第23篇:正则:文本模式的匹配和查找
阅读量:5879 次
发布时间:2019-06-19

本文共 2562 字,大约阅读时间需要 8 分钟。

上一篇文章:
下一篇文章:

1、需求?

我们想要按照特定的文本模式进行匹配或查找。

2、解决方案?

如果想要匹配的只是简单的文字,那么通常只需要用基本的字符串方法就可以了,比如str.find()、str.endswith()、str.startswith()或类似函数。

示例:

text='mark ,帅哥,18,183 帅,mark'print(text=='mark')print(text.startswith('mark'))print(text.startswith('mark'))print(text.find('帅哥'))

结果:

FalseTrueTrue6

如果更为复杂的匹配则需要使用正则表达式以及re模块。为了说明使用正则表达式的基本流程,假设我们想匹配以数字形式构成的日期,比如"11/27/2018"。示例如下:

import retext1='11/27/2018'text2='Nov 27, 2018'if re.match(r'\d+/\d+/\d+',text1):    print('符合模型:数字/数字/数字')else:    print('不符合模型:数字/数字/数字')if re.match(r'\d+/\d+/\d+',text2):    print('符合模型:数字/数字/数字')else:    print('不符合模型:数字/数字/数字')

运行结果:

符合模型:数字/数字/数字不符合模型:数字/数字/数字

如果打算针对同一模型做多次匹配,那么通常会先将正则表达式模式预编译成一个模式对象。

例如:

import retext1='11/27/2018'text2='Nov 27, 2018'datepat=re.compile(r'\d+/\d+/\d+')if datepat.match(text1):    print('符合模型:数字/数字/数字')else:    print('不符合模型:数字/数字/数字')if datepat.match(text2):    print('符合模型:数字/数字/数字')else:    print('不符合模型:数字/数字/数字')

结果:

符合模型:数字/数字/数字不符合模型:数字/数字/数字

match()方法总是尝试在字符串的开头找到匹配项。如果想针对整个文本搜索出所有的匹配项,那么就应该使用findall()方法,例如:

import retext='今天是 11/27/2018,昨天是11/26/2018'datepat=re.compile(r'\d+/\d+/\d+')print(datepat.findall(text))

运行结果:

['11/27/2018', '11/26/2018']

当定义正则表达式时,我们常会将部分模式用括号包起来的方式引入捕获组,捕获组通常简化后续对匹配文本的处理,因为每个组的内容都可以单独提取出来。findall()方法搜索整个文本并找出所有的匹配项然后将它们以列表的形式返回。如果想以迭代的方式找出匹配项,可以使用finditer()方法。

例如:

import re#加入捕获组datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)')m=datepat.match('11/27/2018')print(m.group(0))print(m.group(1))print(m.group(2))print(m.group(3))print(m.groups())month,day,year=m.groups()print(month)print(day)print(year)print('*'*20)text='今天是 11/27/2018,昨天是11/26/2018'for month,day,year in datepat.findall(text):    print('{}-{}-{}'.format(year,month,day))print('*'*20)for m in datepat.finditer(text):    print(m.groups())

结果:

11/27/201811272018('11', '27', '2018')11272018********************2018-11-272018-11-26********************('11', '27', '2018')('11', '26', '2018')

3、分析?

本节主要介绍了re模块对文本匹配和搜索的基本功能,首先用re.compile()对模式进行编译,然后使用想match()、findall()、finditer()这样的方法做匹配和搜索。

当指定模式时我们通常会使用原始字符串,例如:

r'(\d+)/(\d+)/(\d+)'

这样的字符串不会对反斜字符转义,这在正则表达式中非常有用。否则,我们需要用双反斜杠线来标识一个单独的'',例如:

'(\\d+)/(\\d+)/(\\d+)'

请注意match()方法只会检查字符的开头,有可能出现的匹配的结果并不是你想要的,例如:

import re#加入捕获组datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)')m=datepat.match('11/27/2018xxxx')print(m)

结果:

如果想要精确匹配,可以加一个结束标记:$

import re#加入捕获组datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)$')m1=datepat.match('11/27/2018xxxx')m2=datepat.match('11/27/2018')print(m1)print(m2)

结果:

None

如果只是执行简单的文本匹配和搜索操作,可以省略编译步骤。

如果打算执行很多匹配或查找操作的话,通常需要先将模式编译然后重复使用。模块级的函数会对最近编译过的模式做缓存处理,并且比较省步骤。

上一篇文章:
下一篇文章:

转载地址:http://yccix.baihongyu.com/

你可能感兴趣的文章
页面无刷新 省市二级联动
查看>>
spring boot 1.5.6版本整合LCN5.0
查看>>
今天给大家介绍下mysql简单优化
查看>>
Unity中的定时器与延时器
查看>>
【Visual C++】游戏开发笔记之五——游戏画面绘图(二)绘制位图
查看>>
解决Charles https抓包显示<unknown>
查看>>
20155328 《Java程序设计》实验三 敏捷开发与XP实践 实验报告
查看>>
20155328 《网络对抗》 实验八:Web基础
查看>>
Postman带Token的接口测试
查看>>
pip -i 和 -U 参数
查看>>
简单控件的应用(二)—学生管理系统
查看>>
EHCache学习笔记1
查看>>
MySQL 中 savepoint 的使用
查看>>
现实世界的 Windows Azure: IT 公司提高其旗舰产品,为更多客户提供云解决方案
查看>>
main方法中注入Spring bean
查看>>
解决service层无法注入
查看>>
了解lpk.dll是什么病毒以及lpk.dll病毒专杀方法
查看>>
接口隔离原则(设计模式4)
查看>>
StarUML使用说明-指导手册
查看>>
LeetCode--020--括号匹配(java版)
查看>>