Keras 3 API 文档 / 内置小型数据集 / 加州住房价格回归数据集

加州住房价格回归数据集

[源代码]

load_data 函数

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

加载加州住房数据集。

该数据集来自 StatLib 存储库

这是一个连续回归数据集,包含 20,640 个样本,每个样本有 8 个特征。

目标变量是一个标量:加州地区的房屋中值,单位为美元。

8 个输入特征如下:

  • MedInc: 街区群体的收入中值
  • HouseAge: 街区群体的房屋年龄中值
  • AveRooms: 每户家庭的平均房间数
  • AveBedrms: 每户家庭的平均卧室数
  • Population: 街区群体的人口数量
  • AveOccup: 每户家庭的平均成员数
  • Latitude: 街区群体的纬度
  • Longitude: 街区群体的经度

该数据集源自 1990 年美国人口普查,每行代表一个人口普查街区群体。街区群体是美国人口普查局发布样本数据的最小地理单位(一个街区群体通常包含 600 至 3,000 人)。

家庭是指居住在房屋中的一群人。由于该数据集中的平均房间数和卧室数是按家庭提供的,因此对于家庭数量很少且有许多空置房屋的街区群体(例如度假村),这些列的值可能会异常高。

参数

  • version: "small""large"。小型版本包含 600 个样本,大型版本包含 20,640 个样本。小型版本的目的是作为已弃用的 boston_housing 数据集的近似替代品。
  • path: 在本地缓存数据集的路径(相对于 ~/.keras/datasets)。
  • test_split: 保留作为测试集的样本比例。
  • seed: 在计算测试集之前,用于打乱数据的随机种子。

返回

  • Numpy 数组元组(x_train, y_train), (x_test, y_test)

x_train, x_test: 形状为 (num_samples, 8) 的 numpy 数组,包含训练样本(对于 x_train)或测试样本(对于 x_test)。

y_train, y_test: 形状为 (num_samples,) 的 numpy 数组,包含目标标量。目标是浮点标量,通常在 25,000 到 500,000 之间,代表房屋价格(美元)。