Keras 2 API 文档 / 内置小型数据集 / 波士顿房价回归数据集

波士顿房价回归数据集

[源代码]

load_data 函数

tf_keras.datasets.boston_housing.load_data(
    path="boston_housing.npz", test_split=0.2, seed=113, cache_dir=None
)

加载波士顿房价数据集。

此数据集来自卡内基梅隆大学维护的 StatLib 库。

警告:此数据集存在伦理问题:此数据集的作者包含一个变量“B”,该变量可能暗示种族隔离影响房价。因此,我们强烈建议不要使用此数据集,除非是在说明数据科学和机器学习中的伦理问题的背景下。

样本包含 20 世纪 70 年代末波士顿郊区不同地区房屋的 13 个属性。目标是特定地区房屋的中值(以千美元计)。

属性本身在 StatLib 网站上定义。

参数

  • path: 在本地缓存数据集的路径(相对于 ~/.keras/datasets)。
  • test_split:用于保留为测试集的_数据比例。
  • seed:在计算测试集拆分之前_用于随机打乱数据的种子。
  • cache_dir: 用于在本地缓存数据集的目录。如果为None,则默认为~/.keras/datasets

返回

  • Numpy 数组元组(x_train, y_train), (x_test, y_test)

x_train, x_test:形状为 (num_samples, 13) 的 numpy 数组,包含训练样本(对于 x_train)或测试样本(对于 y_train)。

y_train, y_test:形状为 (num_samples,) 的 numpy 数组,包含目标标量。目标是浮点标量,通常在 10 到 50 之间,代表房屋价格(以千美元计)。