如何在句子的熊猫列中使用自动更正


问题内容

我有一列句子,我像这样拆分

df['ColTest'] = df['ColTest'].str.lower().str.split()

我想做的是遍历每个句子中的每个单词并应用autocorrect.spell()

for i in df['ColTest']:
for j in i:
    df['ColTest'][i][j].replace(at.spell(j))

这引发了一个错误

AttributeError:“ float”对象没有属性“ replace”

自动拼写

DataFrame看起来像

ColTest
This is some test string
that might contain a finger
but this string might contain a toe
and this hass a spel error

我的专栏中没有数字…有什么想法吗?


问题答案:

使用自动更正库,您需要遍历数据框的行,然后遍历给定行中的单词以应用该spell方法。这是一个工作示例:

from autocorrect import spell 
import pandas as pd

df = pd.DataFrame(["and this hass a spel error"], columns=["colTest"])
df.colTest.apply(lambda x: " ".join([spell(i) for i in x.split()]))

同样,正如@jpp在下面的注释中建议的那样,我们可以避免使用lambda以下方法:

df["colTest"] = [' '.join([spell(i) for i in x.split()]) for x in df['colTest']]

输入内容如下所示:

                      colTest
0  and this hass a spel error

输出:

0    and this has a spell error
Name: colTest, dtype: object