从一个随机创建两个列表
问题内容:
我正在使用熊猫从CSV文件导入很多数据,一旦读取,我便将其格式化为仅包含数字数据。然后,这将返回列表中的列表。然后,每个列表包含约140k位数据。numericalData[][]
。
从这个列表中,我希望创建Testing
和Training Data
。对于我的测试数据,我想拥有30%的读取数据numericalData
,因此我使用下面的代码;
testingAmount = len(numericalData0[0]) * trainingDataPercentage / 100
工作请客。然后,我使用numpy从导入的每一列中选择该数据量numericalData
;
testingData.append(np.random.choice(numericalData[x], testingAmount) )
然后,这将返回一个具有38列的示例(循环运行),其中每列具有大约49k数据元素,这些数据是从我导入的中随机选择的numericalData
。
问题是,我trainingData
需要保留其他70%的数据,但是我不确定如何做到这一点。我试图比较我的每个元素testingData
,如果两个元素都不相等,则将其添加到我的中trainingData
。这导致了错误,并且无法正常工作。接下来,我尝试testingData
从导入的数据中删除选定的内容,然后将该新列保存到我的trainingData
菜单中,但是该方法本来就不起作用。
过去一周我只使用python,所以我对现在尝试的内容有些迷茫。
问题答案:
random.shuffle
之后,您可以使用和拆分列表。对于玩具示例:
import random
data = range(1, 11)
random.shuffle(data)
training = data[:5]
testing = data[5:]
要获取更多信息,请阅读docs。