SAMMaskDecoder
类keras_hub.layers.SAMMaskDecoder(
hidden_size,
num_layers,
intermediate_dim,
num_heads,
embedding_dim=256,
num_multimask_outputs=3,
iou_head_depth=3,
iou_head_hidden_dim=256,
activation="gelu",
**kwargs
)
Segment Anything 模型 (SAM) 的掩码解码器。
这个轻量级模块有效地将图像嵌入和一组提示嵌入映射到输出掩码。在应用 Transformer 解码器之前,该层首先将学习到的输出标记嵌入插入到提示嵌入集中,该嵌入将在解码器的输出处使用。为简单起见,这些嵌入(不包括图像嵌入)统称为“标记”。
图像嵌入、位置图像嵌入和标记通过 Transformer 解码器传递。解码器运行后,该层使用两个转置卷积层将更新后的图像嵌入上采样 4 倍(现在相对于输入图像缩小了 4 倍)。然后,标记再次关注图像嵌入,并且更新后的输出标记嵌入传递到一个小的 3 层 MLP,该 MLP 输出一个与上采样图像嵌入的通道维度匹配的向量。
最后,通过上采样图像嵌入和 MLP 输出之间的空间逐点乘积预测掩码。
参数
256
。1 + num_multimask_outputs
。默认为 3
。3
。256
。"gelu"
。