python3用单反斜杠替换双反斜杠

问题内容：

这个问题已经在这里有了答案 ：

2年前关闭。

我需要在python3\\中用\复杂的字符串替换。我知道这个问题已经被问过几次了，但是大多数情况下都是针对简单的字符串，因此，（接受的）答案中的任何一个都不真正适用于复杂的字符串。

这也是 不同的 ，从这个地方的问题可以用来解决.decode('unicode_escape')这对于这个问题无法正常工作。 见下文 。

假设字符串为：

my_str = '\\xa5\\xc0\\xe6aK\\xf9\\x80\\xb1\\xc8*\x01\x12$\\xfbp\x1e(4\\xd6{;Z\\x'

直接的方法是：

my_str.replace('\\','\')

这导致：

SyntaxError：扫描字符串文字时停产

该答案建议使用：

my_str.replace('\\\\','\\')

结果是：

'\\xa5\\xc0\\xe6aK\\xf9\\x80\\xb1\\xc8*\x01\x12$\\xfbp\x1e(4\\xd6{;Z\\x'

因此，没有变化。

这个答案表明：

b = bytes(my_str, encoding='utf-8')
b.decode('unicode-escape')

但这不适用于如此复杂的字符串：

UnicodeDecodeError：’unicodeescape’编解码器无法解码位置49-50的字节：截断的\ xXX转义

利用解码（如建议在这里），其结果是：

my_str.decode('unicode_escape')

AttributeError：’my_str’对象没有属性’decode’

使用进行编码和解码的组合会unicode_esacpe返回一个完全不同的字符串（可能是由于使用了utf-16，但会utf-8导致错误，请参见上文。此外，例如，latin1它不起作用）：

my_str.encode('utf-16').decode('unicode_escape')
'ÿþ\\\x00x\x00a\x005\x00\\\x00x\x00c\x000\x00\\\x00x\x00e\x006\x00a\x00K\x00\\\x00x\x00f\x009\x00\\\x00x\x008\x000\x00\\\x00x\x00b\x001\x00\\\x00x\x00c\x008\x00*\x00\x01\x00\x12\x00$\x00\\\x00x\x00f\x00b\x00p\x00\x1e\x00(\x004\x00\\\x00x\x00d\x006\x00{\x00;\x00Z\x00\\\x00x\x00'

问题答案：

仔细看看字符串，它们都是单斜线。

In [26]: my_str[0]
Out[26]: '\\'

In [27]: my_str[1]
Out[27]: 'x'

In [28]: len(my_str[0])
Out[28]: 1

而且my_str.replace('\\','\')不会起作用，因为这里的令牌是令牌\'，它逃逸'并等待另一个关闭'。
使用my_str.replace('\\', '')替代

更新：再过几天，我意识到以下讨论也可能会有所帮助。如果带有转义符（'\\x'或'\\u'）的字符串的含义最终是十六进制/
Unicode文字，则可以使用对其进行解码escape_decode。

import codecs
print(len(b'\x32'), b'\x32')                # 1 hex literal, '\x32' == '2'
print(len(b'\\x32'), b'\\x32')              # 4 chars including escapes
print(codecs.escape_decode('\\x32', 'hex')) # chars->literal, 4->1

# 1 b'2'
# 4 b'\\x32'
# (b'2', 4)

s = '\\xa5\\xc0\\xe6aK\\xf9\\x80\\xb1\\xc8*\x01\x12$\\xfbp\x1e(4\\xd6{;Z'
ed, _ = codecs.escape_decode(s, 'hex')
print(len(s), s)
print(len(ed), ed)

# 49 \xa5\xc0\xe6aK\xf9\x80\xb1\xc8*$\xfbp(4\xd6{;Z
# 22 b'\xa5\xc0\xe6aK\xf9\x80\xb1\xc8*\x01\x12$\xfbp\x1e(4\xd6{;Z'

python3用单反斜杠替换双反斜杠

微信关注