Skip to main content
 首页 » 编程设计

python之正则表达式 unicode 字符

2025年05月04日67findumars

以下正则表达式在线工作但不能在 python 代码中工作并且没有显示匹配项: https://regex101.com/r/lY1kY8/2

s=re.sub(r'\x.+[0-9]',' ',s)

要求:

re.sub(r'\x.+[0-9]* ',' ',r'cats\xe2\x80\x99 faces')

输出[23]:'猫脸'

基本上是想去掉unicode特殊字符"\xe2\x80\x99"

请您参考如下方法:

作为不需要正则表达式的另一个选项,您可以通过删除 string.printable 中未列出的任何内容来删除 unicode 字符。

>>> import string 
>>> ''.join(i for i in 'cats\xe2\x80\x99 faces' if i in string.printable) 
'cats faces'