Skip to content

公开数据集快速验证清单

文档状态:Stable

这份清单的目标不是覆盖所有公开医学数据集,而是先给 MedFusion 用户一批最适合做“快速验证”的数据入口。

先说明边界:

  • 这页适合你先把主链跑通
  • 它不是“从公开数据集直接发明一个新模型”的入口
  • 如果你接下来要迁移到自己的 YAML,请先看 如何新建模型与 YAML

迁移时仍然遵循同一套规则:

  • 普通用户复制主链模板
  • 高级用户走 Builder / 代码做结构实验
  • 真正新的模型能力先扩 runtime,再扩 YAML

适用场景:

  • 还没有私有数据,想先确认框架能不能跑起来
  • 想给导师、同学、合作方演示 MedFusion 的闭环
  • 想给 GitHub README、小红书、B 站内容提供一个可复现入口

筛选原则:

  1. 公开可下载
  2. 社区常见,容易解释
  3. 任务定义明确
  4. 适合当前 MVP 的训练 -> 结果 -> 报告链路

推荐优先级

P0:最快验证

先用这些数据集验证“框架能跑 + 结果页能看 + 报告能出”。

Dataset官方入口模态任务规模/门槛推荐用途
MedMNISTmedmnist.com/v2 / GitHub医学图像(2D/3D)分类、多标签分类、序数分类低门槛,可通过 pip install medmnist 获取最适合新用户第一轮验证
UCI Heart DiseaseUCI 官方页表格二分类很轻量适合验证 tabular 主链和基础指标输出

P1:真实公开医学影像

这些更接近常见论文和公开 benchmark,但下载和清洗成本更高。

Dataset官方入口模态任务规模/门槛推荐用途
ISIC Challenge 2018 / 2019ISIC Challenge Data皮肤镜图像分类、分割中等适合演示医学图像分类、分割和结果图表
HAM10000ISIC Challenge Data皮肤镜图像多分类中等常见皮肤镜分类入门集,传播上辨识度高
NIH ChestXray14NIH 下载页胸部 X-ray多标签分类较大适合做更像真实医学影像项目的公开验证

P2:更贴近多视图 / 多模态叙事

这些不是当前 MVP 的第一落点,但很适合后续内容升级。

Dataset官方入口模态任务规模/门槛推荐用途
ISIC MILK10kISIC Archive / ISIC Challenge Data成对图像 / 多视图病灶分类中等适合讲多视图、节点式建模和“更像多模态”的内容

用户流程图(无私有数据场景)

mermaid
flowchart TB
  A[没有私有数据] --> B[medfusion public-datasets list]
  B --> C[选一个数据集 PathMNIST BreastMNIST 或 UCI]
  C --> D[medfusion public-datasets prepare dataset_name --overwrite]
  D --> E[medfusion train --config 对应 quickstart.yaml]
  E --> F[medfusion build-results --config config_path --checkpoint best_ckpt]
  F --> G[查看 metrics validation summary report artifacts]
  G --> H{需要对外演示?}
  H -->|是| I[保留区分能力曲线 混淆矩阵 注意力图 报告截图]
  H -->|否| J[进入下一轮调参或换数据集]

先用公开数据把链路跑通,再迁移到私有数据,通常是成本最低、成功率最高的方式。

推荐验证路径

路径 A:10 分钟内跑通

目标:最快看到训练与结果产物。

  1. 用 MedMNIST 下载一个最小子集,如 PathMNISTChestMNISTBreastMNIST
  2. 跑一次基础训练
  3. 检查是否能稳定产出:
    • 训练历史
    • 区分能力曲线(ROC / AUC)
    • 混淆矩阵(阳性/阴性判别情况)
    • 逐例评估摘要
    • 结果报告

路径 B:先验证表格能力

目标:用最轻量的数据确认结构化输入链路。

  1. 使用 UCI Heart Disease
  2. 先跑 tabular baseline
  3. 检查:
    • accuracy / precision / recall / F1
    • threshold analysis
    • calibration summary

路径 C:做对外演示素材

目标:产出更适合 README、小红书、B 站的图。

  1. 使用 ISIC 2018 / 2019 或 HAM10000
  2. 跑图像分类任务
  3. 优先保留:
    • 区分能力曲线
    • 归一化混淆矩阵
    • 注意力图
    • 结果摘要页截图

当前建议的第一批接入顺序

  1. PathMNIST
  2. BreastMNIST
  3. UCI Heart Disease
  4. ISIC 2018 / 2019
  5. NIH ChestXray14
  6. ISIC MILK10k

这个顺序的原因很简单:

  • 先降低新用户上手门槛
  • 再增加医学影像内容的可信度
  • 最后补更贴多视图 / 多模态叙事的数据

可直接复制的最短命令

统一入口先看:

bash
uv run medfusion public-datasets list
uv run medfusion public-datasets show uci-heart-disease

✅ 预期输出(公开数据集路径)

每条 quickstart 路径执行后,都应该至少包含:

  • outputs/public_datasets/<dataset_run>/checkpoints/best.pth
  • outputs/public_datasets/<dataset_run>/logs/history.json
  • outputs/public_datasets/<dataset_run>/metrics/metrics.json
  • outputs/public_datasets/<dataset_run>/metrics/validation.json
  • outputs/public_datasets/<dataset_run>/reports/summary.json
  • outputs/public_datasets/<dataset_run>/reports/report.md
  • outputs/public_datasets/<dataset_run>/artifacts/*(如区分能力曲线 / 混淆矩阵 / 校准曲线 / 注意力图)

如果结果目录只看到 checkpoint 没看到 metrics/reports/,通常是还没执行 build-results 或 checkpoint 路径传错。

PathMNIST

适合先验证图像训练、结果页和报告产物。

bash
uv pip install medmnist
uv run medfusion public-datasets prepare medmnist-pathmnist --overwrite
uv run medfusion train --config configs/public_datasets/pathmnist_quickstart.yaml
uv run medfusion build-results \
  --config configs/public_datasets/pathmnist_quickstart.yaml \
  --checkpoint outputs/public_datasets/pathmnist_quickstart/checkpoints/best.pth

输出目录固定为:

  • data/public/medmnist/pathmnist-demo/
  • outputs/public_datasets/pathmnist_quickstart/

BreastMNIST

适合做最小二分类图像 quick validation,也更适合做短视频和首轮市场演示。

bash
uv pip install medmnist
uv run medfusion public-datasets prepare medmnist-breastmnist --overwrite
uv run medfusion train --config configs/public_datasets/breastmnist_quickstart.yaml
uv run medfusion build-results \
  --config configs/public_datasets/breastmnist_quickstart.yaml \
  --checkpoint outputs/public_datasets/breastmnist_quickstart/checkpoints/best.pth

输出目录固定为:

  • data/public/medmnist/breastmnist-demo/
  • outputs/public_datasets/breastmnist_quickstart/

UCI Heart Disease

适合先验证 tabular 指标链路和二分类结果展示。

bash
uv run medfusion public-datasets prepare uci-heart-disease --overwrite
uv run medfusion train --config configs/public_datasets/uci_heart_disease_quickstart.yaml
uv run medfusion build-results \
  --config configs/public_datasets/uci_heart_disease_quickstart.yaml \
  --checkpoint outputs/public_datasets/uci_heart_disease_quickstart/checkpoints/best.pth \
  --attention-samples 0

输出目录固定为:

  • data/public/uci/heart-disease-demo/
  • outputs/public_datasets/uci_heart_disease_quickstart/

当前适配说明

这里需要把实现边界讲清楚。

当前 MedFusion CLI 的稳定主链还是统一的“图像 + 表格”多模态训练接口,还不是分别为 image-only / tabular-only 单独收敛好的入口。

所以第一批公开数据集 quick validation 做了两层适配:

  1. PathMNIST

    • 不强行伪造临床表格数据
    • 直接走数据加载器的 dummy tabular fallback
    • 目标是先验证多分类图像训练、artifact 和结果展示链路
  2. BreastMNIST

    • 同样走 dummy tabular fallback
    • 目标是补一个更轻量、二分类、更适合演示的图像 quick validation 路径
  3. UCI Heart Disease

    • 保留真实表格特征
    • 自动生成一张中性 placeholder 图像
    • 目标是先验证 tabular 指标、validation 和报告链路

这层适配是为了让公开数据集尽快进入当前 MVP 主链,不是最终的数据接入形态。

README 和内容侧的使用建议

在 README 里不要一次性堆太多数据集,建议只保留:

  • 一个“最快开始”的数据集入口
  • 一个“表格任务”入口
  • 一个“真实医学影像”入口

在小红书和 B 站内容里可以这样分工:

  • 小红书:优先展示 MedMNIST、ISIC 这类画面直观、容易理解的内容
  • B 站:可以展开讲 ChestXray14、MILK10k 这类更贴真实研究场景的数据

后续建议

下一步最好继续补三类资产:

  1. 每个数据集对应的最小 demo config
  2. 数据下载后的目录约定
  3. README 中可直接复制的最短命令

Released under the MIT License.