正则表达式是一种强大的文本处理工具,它可以通过预定义的模式匹配文本中的内容,其中一个常见的应用是匹配数字。Python的re模块提供了丰富的正则表达式操作工具,本文将从多个方面详细介绍Python正则匹配数字的相关知识。
一、Python正则匹配数字空格
正则表达式提供了很多元字符,在匹配数字时,空格也是需要考虑的一个因素。下面是一个Python示例:
import re text = "有8个苹果和 15 个梨子" pattern = r"d+s*w+" match = re.findall(pattern, text) print(match)
首先,我们使用re.findall函数对字符串text应用正则表达式pattern进行匹配。其中,d表示数字,+表示一个或多个,s表示空白字符,*表示0个或多个,w表示单词字符(字母或数字),+表示一个或多个。因此,该模式匹配一个或多个数字加上可能存在的一个或多个空格,再加上一个或多个单词字符。
上述代码输出的结果是:[‘8个苹果’, ’15个梨子’],即匹配到两个数字加上其后面的单词。这个例子中,正则表达式中的s*这个部分意思是,可能存在0个或多个空格,所以8和15前面可能有0到多个空格,都可以匹配到。
二、Python正则匹配文件名
有时,我们需要从文件路径中抽取文件名,匹配文件名的正则表达式通常是从文件路径中使用倒数第一个斜杠后面的字符。下面是Python实现这个功能的示例:
import re path = "C:/Users/User/Desktop/example.txt" filename = re.findall(r"[^\/:*?"|]+.[^\/:*?"|]+", path) print(filename)
其中,[^\/:*?”|]表示匹配任何不是、/、:、*、?、”、、|的字符,+表示一个或多个。.后面再加上一个[^\/:*?”|]+表示匹配除了、/、:、*、?、”、、|以外的任何字符。因此,该正则表达式匹配的是路径中的最后一个斜杠后面的字符,即文件名以及文件扩展名,输出结果为[‘example.txt’]。
三、Python正则匹配数字开头的字符串
如果想要匹配以数字开头的字符串,可以使用字符串的内建函数isdigit(),其返回值为True或False,该方法返回True说明字符串全为数字。下面是一个用正则表达式匹配数字开头字符串的Python示例:
import re text = "2021 is a good year!" pattern = r"^d+D+" match = re.findall(pattern, text) print(match)
其中,^表示从字符串开头开始匹配,d表示一个或多个数字,D表示不是数字的字符,+表示一个或多个。因此,该正则表达式表示匹配以一个或多个数字开头,后面跟着一个或多个非数字字符的字符串。
上述代码输出的结果为[‘2021 is a’],即匹配到了以数字2021开头,后面跟着一个空格的字符串。
四、Python正则匹配
在Python的re模块中,我们可以通过compile创建一个正则表达式对象,然后使用match或者search方法进行匹配。
import re text1 = "11aabbcc" text2 = "aabb11cc" regex_obj = re.compile(r"d+w+") print(regex_obj.match(text1)) print(regex_obj.match(text2)) print(regex_obj.search(text2))
其中,d表示数字,+表示一个或多个,w表示字母或数字,+表示一个或多个。因此,该正则表达式匹配的是至少一个数字加上至少一个字母或数字。
上述代码中,regex_obj.match(text1)返回的是匹配的结果,因为text1的开头就是数字,所以可以匹配成功;而regex_obj.match(text2)返回的是None,因为text2的开头是字母,与d不匹配。
因此,我们可以使用regex_obj.search(text2)方法,从text2中找到与正则表达式pattern匹配的第一个字符串’11cc’
五、Python正则匹配数字1-2
有时候我们并不关心一个数究竟能否被解析为浮点数,我们只是想匹配一到两位数字,下面是Python实现的一个示例:
import re text = "123 abc 5678 12345" pattern = r"bd{1,2}b" match = re.findall(pattern, text) print(match)
其中,d表示数字,{1,2}表示匹配1到2个数字,b表示单词边界,即匹配单独的数值,不会匹配到任意两个数字间的临时字符。因此,该正则表达式匹配的是所有单独的1到2位数字。
上述代码输出的结果为[’23’, ’78’],即匹配到了单独的23和78。而数字123和数字5678后面都跟了非数字的字符,所以不会被匹配。
六、Python正则匹配数字字母
有时候我们需要匹配既有数字又有字母的字符串,可以使用[a-zA-Z0-9]这个字符类来匹配,下面是Python实现的一个示例:
import re text = "My code is 20210618" pattern = r"[a-zA-Z0-9]+" match = re.findall(pattern, text) print(match)
其中,[a-zA-Z0-9]表示数字或字母,+表示一个或多个。因此,该正则表达式匹配的是文本中所有既有数字又有字母的字符串。
上述代码输出的结果为[‘My’, ‘code’, ‘is’, ‘20210618’],即匹配到了4个既有数字又有字母的字符串。
七、Python正则匹配数字连续
有时候我们需要匹配连续的数字,我们可以使用d+进行匹配,下面是Python实现的一个示例:
import re text = "7, 8, 11, 20" pattern = r"d+" match = re.findall(pattern, text) print(match)
其中,d表示数字,+表示一个或多个。因此,该正则表达式匹配的是文本中所有连续的数字。
上述代码输出的结果为[‘7’, ‘8’, ’11’, ’20’],即匹配到了4个连续的数字。
八、Python正则表达式规则
正则表达式是一种强大的文本处理工具,但同时也比较复杂。下面是一些常见的正则表达式规则:
- d:匹配数字
- w:匹配字母或数字
- s:匹配空格
- ^:匹配字符串开头
- $:匹配字符串结尾
- *
- +:匹配一个或多个
九、Python正则匹配任意字符
有时候我们需要匹配任意字符,可以使用点号”.”完成匹配。下面是Python实现的一个示例:
import re text = "going somewhere new? meet someone new!" pattern = r"n.w" match = re.findall(pattern, text) print(match)
其中,.表示匹配任意字符,而w前面的正则表达式字符n和后面的字符w是固定的。因此,该正则表达式匹配的是所有包括一个n和一个w之间只隔了一个任意字符的字符串。
上述代码输出的结果为[‘new’, ‘new’],即匹配到了两个字符串’new’。
十、Python正则表达式匹配数字
Python中的re模块提供了很多操作函数,下面是一个匹配数字的示例。
import re text = "this is a test message, with 10 numbers: 123, 456, 789, 987, 654, 321" pattern = r"d+" res = re.findall(pattern, text) print(res)
其中,d表示匹配数字字符,+表示匹配一到多个数字字符。因此,该正则表达式匹配的是字符串中包含的所有数字。
上述代码输出结果为[’10’, ‘123’, ‘456’, ‘789’, ‘987’, ‘654’, ‘321’],即匹配到了7个数字字符串。
本文从多个方面详细介绍了Python正则表达式中如何匹配数字的相关知识。通过学习,我们可以准确快速地匹配到我们所需要的数字字符串,方便地进行后续的数据分析和处理。