从一个随机创建两个列表


问题内容

我正在使用熊猫从CSV文件导入很多数据,一旦读取,我便将其格式化为仅包含数字数据。然后,这将返回列表中的列表。然后,每个列表包含约140k位数据。numericalData[][]

从这个列表中,我希望创建TestingTraining Data。对于我的测试数据,我想拥有30%的读取数据numericalData,因此我使用下面的代码;

testingAmount = len(numericalData0[0]) * trainingDataPercentage / 100

工作请客。然后,我使用numpy从导入的每一列中选择该数据量numericalData

testingData.append(np.random.choice(numericalData[x], testingAmount)  )

然后,这将返回一个具有38列的示例(循环运行),其中每列具有大约49k数据元素,这些数据是从我导入的中随机选择的numericalData

问题是,我trainingData需要保留其他70%的数据,但是我不确定如何做到这一点。我试图比较我的每个元素testingData,如果两个元素都不相等,则将其添加到我的中trainingData。这导致了错误,并且无法正常工作。接下来,我尝试testingData从导入的数据中删除选定的内容,然后将该新列保存到我的trainingData菜单中,但是该方法本来就不起作用。

过去一周我只使用python,所以我对现在尝试的内容有些迷茫。


问题答案:

random.shuffle之后,您可以使用和拆分列表。对于玩具示例:

import random
data = range(1, 11)

random.shuffle(data)

training = data[:5]
testing = data[5:]

要获取更多信息,请阅读docs