公开数据集快速验证清单

文档状态：Stable

这份清单的目标不是覆盖所有公开医学数据集，而是先给 MedFusion 用户一批最适合做“快速验证”的数据入口。

先说明边界：

这页适合你先把主链跑通
它不是“从公开数据集直接发明一个新模型”的入口
如果你接下来要迁移到自己的 YAML，请先看如何新建模型与 YAML

迁移时仍然遵循同一套规则：

普通用户复制主链模板
高级用户走 Builder / 代码做结构实验
真正新的模型能力先扩 runtime，再扩 YAML

适用场景：

还没有私有数据，想先确认框架能不能跑起来
想给导师、同学、合作方演示 MedFusion 的闭环
想给 GitHub README、小红书、B 站内容提供一个可复现入口

筛选原则：

公开可下载
社区常见，容易解释
任务定义明确
适合当前 MVP 的训练 -> 结果 -> 报告链路

Dataset	官方入口	模态	任务	规模/门槛	推荐用途
MedMNIST	medmnist.com/v2 / GitHub	医学图像（2D/3D）	分类、多标签分类、序数分类	低门槛，可通过 `pip install medmnist` 获取	最适合新用户第一轮验证
UCI Heart Disease	UCI 官方页	表格	二分类	很轻量	适合验证 tabular 主链和基础指标输出

Dataset	官方入口	模态	任务	规模/门槛	推荐用途
ISIC Challenge 2018 / 2019	ISIC Challenge Data	皮肤镜图像	分类、分割	中等	适合演示医学图像分类、分割和结果图表
HAM10000	ISIC Challenge Data	皮肤镜图像	多分类	中等	常见皮肤镜分类入门集，传播上辨识度高
NIH ChestXray14	NIH 下载页	胸部 X-ray	多标签分类	较大	适合做更像真实医学影像项目的公开验证

Dataset	官方入口	模态	任务	规模/门槛	推荐用途
ISIC MILK10k	ISIC Archive / ISIC Challenge Data	成对图像 / 多视图	病灶分类	中等	适合讲多视图、节点式建模和“更像多模态”的内容

用户流程图（无私有数据场景）

mermaid

flowchart TB
  A[没有私有数据] --> B[medfusion public-datasets list]
  B --> C[选一个数据集 PathMNIST BreastMNIST 或 UCI]
  C --> D[medfusion public-datasets prepare dataset_name --overwrite]
  D --> E[medfusion train --config 对应 quickstart.yaml]
  E --> F[medfusion build-results --config config_path --checkpoint best_ckpt]
  F --> G[查看 metrics validation summary report artifacts]
  G --> H{需要对外演示?}
  H -->|是| I[保留区分能力曲线 混淆矩阵 注意力图 报告截图]
  H -->|否| J[进入下一轮调参或换数据集]

先用公开数据把链路跑通，再迁移到私有数据，通常是成本最低、成功率最高的方式。

当前建议的第一批接入顺序

PathMNIST
BreastMNIST
UCI Heart Disease
ISIC 2018 / 2019
NIH ChestXray14
ISIC MILK10k

这个顺序的原因很简单：

先降低新用户上手门槛
再增加医学影像内容的可信度
最后补更贴多视图 / 多模态叙事的数据

可直接复制的最短命令

统一入口先看：

bash

uv run medfusion public-datasets list
uv run medfusion public-datasets show uci-heart-disease

✅ 预期输出（公开数据集路径）

每条 quickstart 路径执行后，都应该至少包含：

outputs/public_datasets/<dataset_run>/checkpoints/best.pth
outputs/public_datasets/<dataset_run>/logs/history.json
outputs/public_datasets/<dataset_run>/metrics/metrics.json
outputs/public_datasets/<dataset_run>/metrics/validation.json
outputs/public_datasets/<dataset_run>/reports/summary.json
outputs/public_datasets/<dataset_run>/reports/report.md
outputs/public_datasets/<dataset_run>/artifacts/*（如区分能力曲线 / 混淆矩阵 / 校准曲线 / 注意力图）

如果结果目录只看到 checkpoint 没看到 metrics/ 与 reports/，通常是还没执行 build-results 或 checkpoint 路径传错。

PathMNIST

适合先验证图像训练、结果页和报告产物。

bash

uv pip install medmnist
uv run medfusion public-datasets prepare medmnist-pathmnist --overwrite
uv run medfusion train --config configs/public_datasets/pathmnist_quickstart.yaml
uv run medfusion build-results \
  --config configs/public_datasets/pathmnist_quickstart.yaml \
  --checkpoint outputs/public_datasets/pathmnist_quickstart/checkpoints/best.pth

输出目录固定为：

data/public/medmnist/pathmnist-demo/
outputs/public_datasets/pathmnist_quickstart/

BreastMNIST

适合做最小二分类图像 quick validation，也更适合做短视频和首轮市场演示。

bash

uv pip install medmnist
uv run medfusion public-datasets prepare medmnist-breastmnist --overwrite
uv run medfusion train --config configs/public_datasets/breastmnist_quickstart.yaml
uv run medfusion build-results \
  --config configs/public_datasets/breastmnist_quickstart.yaml \
  --checkpoint outputs/public_datasets/breastmnist_quickstart/checkpoints/best.pth

输出目录固定为：

data/public/medmnist/breastmnist-demo/
outputs/public_datasets/breastmnist_quickstart/

UCI Heart Disease

适合先验证 tabular 指标链路和二分类结果展示。

bash

uv run medfusion public-datasets prepare uci-heart-disease --overwrite
uv run medfusion train --config configs/public_datasets/uci_heart_disease_quickstart.yaml
uv run medfusion build-results \
  --config configs/public_datasets/uci_heart_disease_quickstart.yaml \
  --checkpoint outputs/public_datasets/uci_heart_disease_quickstart/checkpoints/best.pth \
  --attention-samples 0

输出目录固定为：

data/public/uci/heart-disease-demo/
outputs/public_datasets/uci_heart_disease_quickstart/

当前适配说明

这里需要把实现边界讲清楚。

当前 MedFusion CLI 的稳定主链还是统一的“图像 + 表格”多模态训练接口，还不是分别为 image-only / tabular-only 单独收敛好的入口。

所以第一批公开数据集 quick validation 做了两层适配：

PathMNIST
- 不强行伪造临床表格数据
- 直接走数据加载器的 dummy tabular fallback
- 目标是先验证多分类图像训练、artifact 和结果展示链路
BreastMNIST
- 同样走 dummy tabular fallback
- 目标是补一个更轻量、二分类、更适合演示的图像 quick validation 路径
UCI Heart Disease
- 保留真实表格特征
- 自动生成一张中性 placeholder 图像
- 目标是先验证 tabular 指标、validation 和报告链路

这层适配是为了让公开数据集尽快进入当前 MVP 主链，不是最终的数据接入形态。

README 和内容侧的使用建议

在 README 里不要一次性堆太多数据集，建议只保留：

一个“最快开始”的数据集入口
一个“表格任务”入口
一个“真实医学影像”入口

在小红书和 B 站内容里可以这样分工：

小红书：优先展示 MedMNIST、ISIC 这类画面直观、容易理解的内容
B 站：可以展开讲 ChestXray14、MILK10k 这类更贴真实研究场景的数据

后续建议

下一步最好继续补三类资产：

每个数据集对应的最小 demo config
数据下载后的目录约定
README 中可直接复制的最短命令

公开数据集快速验证清单

推荐优先级

P0：最快验证

P1：真实公开医学影像

P2：更贴近多视图 / 多模态叙事

用户流程图（无私有数据场景）

推荐验证路径

路径 A：10 分钟内跑通

路径 B：先验证表格能力

路径 C：做对外演示素材

当前建议的第一批接入顺序

可直接复制的最短命令

✅ 预期输出（公开数据集路径）

PathMNIST

BreastMNIST

UCI Heart Disease

当前适配说明

README 和内容侧的使用建议

后续建议

公开数据集快速验证清单 ​

推荐优先级 ​

P0：最快验证 ​

P1：真实公开医学影像 ​

P2：更贴近多视图 / 多模态叙事 ​

用户流程图（无私有数据场景） ​

推荐验证路径 ​

路径 A：10 分钟内跑通 ​

路径 B：先验证表格能力 ​

路径 C：做对外演示素材 ​

当前建议的第一批接入顺序 ​

可直接复制的最短命令 ​

✅ 预期输出（公开数据集路径） ​

PathMNIST ​

BreastMNIST ​

UCI Heart Disease ​

当前适配说明 ​

README 和内容侧的使用建议 ​

后续建议 ​

公开数据集快速验证清单

推荐优先级

P0：最快验证

P1：真实公开医学影像

P2：更贴近多视图 / 多模态叙事

用户流程图（无私有数据场景）

推荐验证路径

路径 A：10 分钟内跑通

路径 B：先验证表格能力

路径 C：做对外演示素材

当前建议的第一批接入顺序

可直接复制的最短命令

✅ 预期输出（公开数据集路径）

PathMNIST

BreastMNIST

UCI Heart Disease

当前适配说明

README 和内容侧的使用建议

后续建议