Keras 2 API 文档 / 内置小型数据集 / 波士顿房价回归数据集

波士顿房价回归数据集

[源]

load_data 函数

tf_keras.datasets.boston_housing.load_data(
    path="boston_housing.npz", test_split=0.2, seed=113, cache_dir=None
)

加载波士顿房价数据集。

这是来自 StatLib 库的数据集,该库由卡内基梅隆大学维护。

警告:此数据集存在道德问题:数据集的作者包含了一个变量“B”,该变量似乎假定种族自我隔离会影响房价。因此,我们强烈不建议使用此数据集,除非是在说明数据科学和机器学习中的道德问题的背景下。

样本包含 20 世纪 70 年代后期波士顿郊区不同位置房屋的 13 个属性。目标是该位置房屋的中位数价值(单位:千美元)。

属性本身在 StatLib 网站中定义。

参数

  • path:在本地缓存数据集的路径(相对于 ~/.keras/datasets)。
  • test_split:保留作为测试集的数据比例。
  • seed:在计算测试集分割之前用于打乱数据的随机种子。
  • cache_dir:在本地缓存数据集的目录。如果为 None,则默认为 ~/.keras/datasets

返回值

  • Numpy 数组元组(x_train, y_train), (x_test, y_test)

x_train, x_test:形状为 (num_samples, 13) 的 numpy 数组,包含训练样本(对应 x_train)或测试样本(对应 x_test)。

y_train, y_test:形状为 (num_samples,) 的 numpy 数组,包含目标标量。目标是通常介于 10 到 50 之间的浮点标量,代表房屋价格(单位:千美元)。