► Keras 3 API 文档 / 内置小型数据集 / 加州住房价格回归数据集

加州住房价格回归数据集

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

加载加州住房数据集。

该数据集来自 StatLib 存储库。

这是一个连续回归数据集，包含 20,640 个样本，每个样本有 8 个特征。

目标变量是一个标量：加州地区的房屋中值，单位为美元。

8 个输入特征如下：

该数据集源自 1990 年美国人口普查，每行代表一个人口普查街区群体。街区群体是美国人口普查局发布样本数据的最小地理单位（一个街区群体通常包含 600 至 3,000 人）。

家庭是指居住在房屋中的一群人。由于该数据集中的平均房间数和卧室数是按家庭提供的，因此对于家庭数量很少且有许多空置房屋的街区群体（例如度假村），这些列的值可能会异常高。

参数

version: "small" 或 "large"。小型版本包含 600 个样本，大型版本包含 20,640 个样本。小型版本的目的是作为已弃用的 boston_housing 数据集的近似替代品。
path: 在本地缓存数据集的路径（相对于 ~/.keras/datasets）。
test_split: 保留作为测试集的样本比例。
seed: 在计算测试集之前，用于打乱数据的随机种子。

x_train, x_test: 形状为 (num_samples, 8) 的 numpy 数组，包含训练样本（对于 x_train）或测试样本（对于 x_test）。

y_train, y_test: 形状为 (num_samples,) 的 numpy 数组，包含目标标量。目标是浮点标量，通常在 25,000 到 500,000 之间，代表房屋价格（美元）。