load_data
函数keras.datasets.california_housing.load_data(
version="large", path="california_housing.npz", test_split=0.2, seed=113
)
加载加州房价数据集。
该数据集来自 StatLib 存储库。
它是一个连续回归数据集,包含 20,640 个样本,每个样本有 8 个特征。
目标变量是一个标量:加州各地区房屋价值的中位数,以美元为单位。
8 个输入特征如下:
该数据集源自 1990 年的美国人口普查,每个普查街区组使用一行。街区组是美国人口普查局发布样本数据的最小地理单位(一个街区组通常有 600 到 3,000 人)。
家庭是指居住在房屋内的一群人。由于此数据集中提供的房间和卧室的平均数量是按家庭计算的,因此对于家庭数量很少且空置房屋很多的街区组(如度假胜地),这些列可能会出现非常大的值。
参数
"small"
或 "large"
。小型版本包含 600 个样本,大型版本包含 20,640 个样本。小型版本的目的是作为已弃用的 boston_housing
数据集的近似替代品。~/.keras/datasets
)。返回
(x_train, y_train), (x_test, y_test)
。x_train
,x_test
: 形状为 (num_samples, 8)
的 numpy 数组,包含训练样本(对于 x_train
)或测试样本(对于 y_train
)。
y_train
,y_test
: 形状为 (num_samples,)
的 numpy 数组,包含目标标量。目标是通常介于 25,000 到 500,000 之间的浮点标量,表示房屋价格(以美元为单位)。