Keras 3 API 文档 / 内置小型数据集 / 加州房价回归数据集

加州房价回归数据集

[来源]

load_data 函数

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)

加载加州房价数据集。

此数据集来自 StatLib 存储库

这是一个包含 20,640 个样本的连续回归数据集,每个样本具有 8 个特征。

目标变量是一个标量:加州地区的房屋中位数价值(以美元计)。

8 个输入特征如下

  • MedInc:街区组的中位数收入
  • HouseAge:街区组的房屋中位数年龄
  • AveRooms:每个家庭的平均房间数
  • AveBedrms:每个家庭的平均卧室数
  • Population:街区组人口
  • AveOccup:平均家庭成员数
  • Latitude:街区组纬度
  • Longitude:街区组经度

此数据集源自 1990 年美国人口普查,每个普查街区组一行。街区组是美国人口普查局发布样本数据的最小地理单位(一个街区组通常有 600 到 3,000 人)。

家庭是指居住在同一房屋内的一群人。由于此数据集中提供了每个家庭的平均房间数和卧室数,因此对于家庭数量少且空置房屋多的街区组(例如度假胜地),这些列可能会出现令人惊讶的大值。

参数

  • version"small""large"。小型版本包含 600 个样本,大型版本包含 20,640 个样本。小型版本的目的是作为已弃用的 boston_housing 数据集的近似替代。
  • path:数据集在本地缓存的路径(相对于 ~/.keras/datasets)。
  • test_split:保留为测试集的数据的比例。
  • seed:在计算测试集拆分之前,用于对数据进行混洗的随机种子。

返回值

  • NumPy 数组的元组(x_train, y_train), (x_test, y_test)

x_trainx_test:形状为 (num_samples, 8) 的 NumPy 数组,包含训练样本(对于 x_train)或测试样本(对于 y_train)。

y_trainy_test:形状为 (num_samples,) 的 NumPy 数组,包含目标标量。目标是通常在 25,000 到 500,000 之间的浮点标量,表示房屋价格(以美元计)。