DDPTransSeg：基于DAFM的双路径Transformer用于3D多模态心脏分割框架

DDPTransSeg：基于DAFM的双路径Transformer用于3D多模态心脏分割框架
霍连昊李碧原（通讯作者）

天津职业技术师范大学电子工程学院，天津，300222；

摘要：心血管疾病为全球首要致死原因，准确心脏分割对诊疗至关重要。但心脏形态高度可变、结构边界细微，单模态成像难以应对这一挑战。为此，我们提出 DDPTransSeg 多模态心脏分割方法，基于 CT/MRI 数据构建双路径 Transformer 框架：以 Swin Transformer 为编码器捕获模态特定特征，通过双注意力融合模块（DAFM）动态校准通道贡献，保留互补信息并抑制冗余；SEFA 块进一步强化特征选择，解码器则恢复空间分辨率以实现精确边界定位。在 MM-WHS 2017 数据集上评估，DDPTransSeg 表现卓越：Dice 分数达 82.96%，MIoU 为 72.33%，HD95 降至 8.39 毫米，性能优于现有 CNN-Transformer 模型，证实其在多模态心脏分割中的有效性与临床潜力。

关键词：多模态心脏分割；双路径编码器-解码器；基于Transformer的架构

参考文献

[1]Kumar A S, Rekha R. An improved hawks optimizer based learning algorithms for cardiovascular disease prediction[J]. Biomedical Signal Processing and Control, 2023, 81: 104442.

[2]World health statistics 2024: monitoring health for the SDGs, Sustainable Development Goals. Geneva: World Health Organization; 2024. Licence: CC BY-NC-SA 3.0 IGO.

[3]Gao Y, Zhang J, Wei S, et al. PFormer: An efficient CNN-Transformer hybrid network with content-driven P-attention for 3D medical image segmentation[J]. Biomedical Signal Processing and Control, 2025, 101: 107154.

[4]Zhang X, Liu J, **an X, et al. PSVT: Pyramid Shifted Window based Vision Transformer for cardiac image segmentation[J]. Biomedical Signal Processing and Control, 2025, 102: 107339.

[5]Ma X, Shan S, Sui D. SAMP-Net: a medical image segmentation network with split attention and multi-layer perceptron[J]. Medical & Biological Engineering & Computing, 2025: 1-14.

[6]Liu Y, Wu Y H, Sun G, et al. Vision transformers with hierarchical attention[J]. Machine Intelligence Research, 2024, 21(4): 670-683.

[7]Li X, Jiang A, Qiu Y, et al. TPFR-Net: U-shaped model for lung nodule segmentation based on transformer pooling and dual-attention feature reorganization[J]. Medical & Biological Engineering & Computing, 2023, 61(8): 1929-1946.

[8]Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 10012-10022.

[9]Fan X, Liu L, Zhang H. multi-modal information interaction for medical image segmentation[J]. arxiv preprint arxiv:2404.16371, 2024.

[10]A. Vaswani,“Attention is all you need,”in Proc. 31st Conf. Neural Inf. Process. Syst., 2017, pp. 1–11.

[11]Ali Hatamizadeh, V. Nath, Yucheng Tang, Dong Yang, Holger R. Roth, and Daguang Xu,“Swin unetr: Swin transformers for semantic segmentation of brain tumors in mri images,”in BrainLes@MICCAI, 2022.

[12]Dolz J, Gopinath K, Yuan J, et al. HyperDense-Net: a hyper-densely connected CNN for multi-modal image segmentation[J]. IEEE transactions on medical imaging, 2018, 38(5): 1116-1126.

[13]Liang M, Yang B, Chen Y, et al. Multi-task multi-sensor fusion for 3d object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 7345-7353.

[14]Zhang J, Liu H, Yang K, et al. CMX: Cross-modal fusion for RGB-X semantic segmentation with transformers[J]. IEEE Transactions on intelligent transportation systems, 2023, 24(12): 14679-14694.

[15]Zhu X, Li Y. A Latent Multi-Scale Residual Transformer Approach for Cross-Modal Medical Image Synthesis[J]. IEEE Access, 2025.

[16]X. Zhuang et al.,“Evaluation of algorithms for multi-modality whole heart segmentation: An open-access grand challenge,”Med. Image Anal., vol. 58, 2019, Art. no. 101537.

[17]Zhou H Y, Guo J, Zhang Y, et al. nnformer: Interleaved transformer for volumetric segmentation[J]. arxiv preprint arxiv:2109.03201, 2021.

[18]Peiris H, Hayat M, Chen Z, et al. A robust volumetric transformer for accurate 3D tumor segmentation[C]//International conference on medical image computing and computer-assisted intervention. Cham: Springer Nature Switzerland, 2022: 162-172.

[19]Cao H, Wang Y, Chen J, et al. Swin-unet: Unet-like pure transformer for medical image segmentation[C]//European conference on computer vision. Cham: Springer Nature Switzerland, 2022: 205-218.

[20]Saikat Roy, Gregor Koehler, Constantin Ulrich, Michael Baumgartner, Jens Petersen, Fabian Isensee, Paul F. Jaeger, and Klaus H. Maier-Hein,“Mednext: Transformer-driven scaling of convnets for medical image segmentation,”ArXiv, vol. abs/2303.09975, 2023.

DDPTransSeg：基于DAFM的双路径Transformer用于3D多模态心脏分割框架霍连昊 李碧原（通讯作者）

DDPTransSeg：基于DAFM的双路径Transformer用于3D多模态心脏分割框架
霍连昊李碧原（通讯作者）