博客
关于我
python之re模块详细梳理(二)
阅读量:710 次
发布时间:2019-03-16

本文共 2229 字,大约阅读时间需要 7 分钟。

sub

参数说明

re.sub(pattern, repl, string, count=0, flags=0)

patten:正则表达式。

repl:要替换的字符串。

string:要匹配的字符串。

count:替换参数,默认值0表示不限制次数,可传参指定替换次数。

flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

返回值

返回值是替换后的新字符串。

用途

根据正则表达式对字符串的内容按repl参数进行替换。

案例

print(re.sub( '\d+','——', '123abc567def98ghi'))print(re.sub( '\d+','——', '123abc567def98ghi',1))out:——abc——def——ghi——abc567def98ghi

subn

参数说明

参数和sub完全一致。

返回值

返回值是一个元组,元素0是替换后的新字符串,元素1是成功替换的次数。

用途

根据正则表达式对字符串的内容按repl参数进行替换。

案例

print(re.subn( '\d+','——', '123abc567def98ghi'))str1, times = re.subn( 'ABC', '——','123abc567def98ghi')print(str1, times)out:('——abc——def——ghi', 3)123abc567def98ghi 0

finditer

参数说明

参数和findall完全一致。

返回值

从字符串开头开始匹配,一直匹配到结尾都匹配不到结果则返回None;匹配到结果则返回迭代器,迭代器的内容是re.Match对象(关于re.Match对象详细说明请查看re.search的返回值部分)。

用途

用迭代器的方式从字符串中按正则表达式查找或提取内容,优点是节省内存,缺点是取值不直观。

案例

result = re.finditer('\d+','123abc567def98')for i in result:    print(i.group())out:12356798

complie

参数说明

re.compile(pattern, flags=0)

patten:正则表达式。

flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

返回值

返回的是正则表达式类(class ‘re.Pattern’)。

用途

对正则表达式进行预编译,在某个正则表达式需要多次使用时建议进行预编译,可提高运行效率。

案例

ret = re.compile('\d+')res1 = ret.search('123abc567def98')res2 = ret.findall('123abc567def98')print(res1)print(res1.group())print(res2)out:
123['123', '567', '98']

fullmatch

参数说明

参数和match完全一致。

返回值

返回值和match完全一致。区别在于match是开头匹配,开头匹配成功就返回re.Match对象;fullmatch是完全匹配,从头到尾完全匹配才返回re.Match,匹配失败则返回None。

用途

校验用户输入的内容是否完全符合正则表达式。

案例

result1 = re.fullmatch('\d+','123abc567def98')print(result1)if result1:    print(result1.group())result2 = re.fullmatch('\d+','12345678')print(result2)print(result2.group())out:None
12345678

escape

escape函数可用来取消转义符,但不建议学习和使用它,请学好正则表达式,忘了escape吧。

re模块flags

请留心看re模块的函数,几乎都有flags参数。flags参数可以修改正则表达式的一些运行方式。多个标志可以通过使用按位运算符 | 来同时生效。如 re.I | re.M 。flags有两种书写形式,简写或全写均可。

I或IGNORECASE

忽略字母大小写。

L或LOCALE

影响 \w, \W, \b, 和 \B,具体取决于本地化设置。

M或MULTILINE

使用本标志后,‘^’和‘$’匹配行首和行尾时,会增加换行符之前和之后的位置。

S或DOTALL

使 “.” 特殊字符完全匹配任何字符,包括换行符(没有这个标志, “.” 匹配除换行符外的任何字符)。

X或VERBOSE

当该标志被指定时,在正则表达式中的空白符被忽略,除非该空白符在字符组中或在反斜杠之后。它还可以让你在正则表达式中用#写注释。

案例

result = re.findall('[a-z]+','123abc567def98HIJ')print(result)result = re.findall('[a-z]+','123abc567def98HIJ',re.I)print(result)out:['abc', 'def']['abc', 'def', 'HIJ']

转载地址:http://ysrqz.baihongyu.com/

你可能感兴趣的文章
NLP 项目:维基百科文章爬虫和分类【01】 - 语料库阅读器
查看>>
NLP_什么是统计语言模型_条件概率的链式法则_n元统计语言模型_马尔科夫链_数据稀疏(出现了词库中没有的词)_统计语言模型的平滑策略---人工智能工作笔记0035
查看>>
NLP、CV 很难入门?IBM 数据科学家带你梳理
查看>>
NLP三大特征抽取器:CNN、RNN与Transformer全面解析
查看>>
NLP入门(六)pyltp的介绍与使用
查看>>
NLP学习笔记:使用 Python 进行NLTK
查看>>
NLP度量指标BELU真的完美么?
查看>>
NLP的不同研究领域和最新发展的概述
查看>>
NLP的神经网络训练的新模式
查看>>
NLP采用Bert进行简单文本情感分类
查看>>
NLP问答系统:使用 Deepset SQUAD 和 SQuAD v2 度量评估
查看>>
NLP项目:维基百科文章爬虫和分类【02】 - 语料库转换管道
查看>>
NLP:从头开始的文本矢量化方法
查看>>
NLP:使用 SciKit Learn 的文本矢量化方法
查看>>
NLTK - 停用词下载
查看>>
nmap 使用总结
查看>>
nmap 使用方法详细介绍
查看>>
nmap使用
查看>>
nmap使用实战(附nmap安装包)
查看>>
Nmap哪些想不到的姿势
查看>>