欢迎访问新加坡聚知刊出版有限公司官方网站
65 84368249info@juzhikan.asia
超高维数据分析
  • ISSN:3041-0673(Online)3041-0681(Print)
  • DOI:10.69979/3041-0673.25.08.014
  • 出版频率:月刊
  • 语言:中文
  • 收录数据库:ISSN:https://portal.issn.org/ 中国知网:https://scholar.cnki.net/journal/search

超高维数据分析  

杜睿  

首都经济贸易大学,北京,100071;  

摘要:本研究基于MNIST手写数字数据集,探讨了超高维数据下支持向量机(SVM)与随机森林(RandomForest)分类模型的性能差异,并分析了主成分分析(PCA)降维技术对模型效率与准确率的影响。通过PCA保留95%方差降维后,SVM模型在测试集上的准确率仍达0.9644,与未降维模型性能接近,但显著提升了计算效率。研究进一步通过混淆矩阵、ROC曲线及AUC值评估了模型的分类能力,发现降维后模型在保持高准确率的同时,降低了数据存储与计算复杂度。结论表明,在计算资源有限或需增强可解释性时,降维是有效策略,但需权衡潜在特征丢失风险。本文为高维数据处理与分类模型优化提供了实践参考。  

关键词:MNIST数据集降维;支持向量机;随机森林;主成分分析  

参考文献  

[1]杨舟,崔彩霞.基于异质Stacking集成学习的大学生学业风险预测及早预警[J].太原师范学院学报(自然科学版),2025,24(01):22-29+39.  

[2]张晏濒.基于深度学习的英文手写词汇数据集构建方法[J].电脑知识与技术,2025,21(03):34-38.DOI:10.14004/j.cnki.ckt.2025.0119.  

[3]郭尚志,廖晓峰,李刚,等.基于PCA的大数据降维应用[J].计算机仿真,2024,41(05):483-486.  

[4]翁雪慧,汪晓锋,应鹏,等.基于SVM与K-means的多层级雷达信号开集识别[J/OL].北京航空航天大学学报,1-12[2025-04-14].https://doi.org/10.13700/j.bh.1001-5965.2024.0369