提问者:小点点

将UTF-8转换为ASCII


正确的答案是你不能。然而,我在寻找一个有用而不是正确的答案。

垃圾邮件发送者将垃圾邮件ASCII关键字转换(甚至拼写正确)为不同的非ASCIIUTF-8字符,典型的(西方)人类很容易(并且不正确地)将其误认为原始的7位ASCII垃圾邮件关键字。

我想要的是一个转换工具,它将执行与垃圾邮件发送者所做的相反的操作,错误地将UTF-8字符串转换回类似的7位ASCII序列,该序列看起来像作弊用户希望我误读的垃圾美国英语单词(即使,迂腐地说,UTF-8不是来自ASCII子集)。

我正在寻找可以在电子邮件的主题行上使用的东西。然后我可以在花费5分钟通过我的高速110波特声学链接下载它之前终止网页或电子邮件的其余部分。

平台是通用Linux系统上常见的任何语言,例如运行Raspbian或Ubuntu的Raspberry Pi。


共1个答案

匿名用户

令人烦恼的是,答案仍然是你不能。

基本思想是合理的,但是人类喜欢让生活变得复杂,所以一些字母在语言之间的形状有很大的变化。

这意味着对于给定的字符序列,不一定清楚该序列应该类似于哪个美式英语单词。

除此之外,即使你能可靠地减少字符序列,英语也与许多欧洲语言密切相关,这些语言都使用自己独特的字母变化。

对于exannple,减少“Høst Fæst!”到“快速托管!”(也可能)会导致您错误地将来自明尼苏达州表弟邀请您参加感恩节的略带混杂的挪威电子邮件标记为托管服务提供商垃圾邮件。

当然,引用这些东西中的任何一个都是过河取水:

只需考虑(全ASClI)主题行“PilIs! PiIls!PiIIs!”。