杜睿
首都经济贸易大学,北京,100071;
摘要:本研究基于MNIST手写数字数据集,探讨了超高维数据下支持向量机(SVM)与随机森林(RandomForest)分类模型的性能差异,并分析了主成分分析(PCA)降维技术对模型效率与准确率的影响。通过PCA保留95%方差降维后,SVM模型在测试集上的准确率仍达0.9644,与未降维模型性能接近,但显著提升了计算效率。研究进一步通过混淆矩阵、ROC曲线及AUC值评估了模型的分类能力,发现降维后模型在保持高准确率的同时,降低了数据存储与计算复杂度。结论表明,在计算资源有限或需增强可解释性时,降维是有效策略,但需权衡潜在特征丢失风险。本文为高维数据处理与分类模型优化提供了实践参考。
关键词:MNIST数据集降维;支持向量机;随机森林;主成分分析
参考文献
[1]杨舟,崔彩霞.基于异质Stacking集成学习的大学生学业风险预测及早预警[J].太原师范学院学报(自然科学版),2025,24(01):22-29+39.
[2]张晏濒.基于深度学习的英文手写词汇数据集构建方法[J].电脑知识与技术,2025,21(03):34-38.DOI:10.14004/j.cnki.ckt.2025.0119.
[3]郭尚志,廖晓峰,李刚,等.基于PCA的大数据降维应用[J].计算机仿真,2024,41(05):483-486.
[4]翁雪慧,汪晓锋,应鹏,等.基于SVM与K-means的多层级雷达信号开集识别[J/OL].北京航空航天大学学报,1-12[2025-04-14].https://doi.org/10.13700/j.bh.1001-5965.2024.0369