
info@juzhikan.asia
公诚管理咨询有限公司,广东广州,510610;
摘要:针对传统工程造价数据采集范围有限、预处理效率低、多源数据融合难等问题,结合工程造价咨询行业数字化转型需求,设计并开发基于分布式架构的工程造价大数据采集与预处理系统。系统采用Hadoop分布式文件系统(HDFS)存储海量工程数据,通过Flume与Kafka构建多源数据实时采集通道,依托Spark框架实现数据清洗、标准化、融合等预处理操作,并创新性引入工程造价领域特征词典优化数据解析精度。经测试验证,系统可支持200+并发数据源接入,单批次100GB工程数据(含图纸、清单、合同等)采集延迟≤5min,预处理准确率达98.7%,较传统集中式系统效率提升3.2倍,有效解决了工程造价数据“采不全、处理慢、用不好”的行业痛点,为后续造价分析、智能清标等应用提供高质量数据支撑。
关键词:分布式架构;大数据采集;数据预处理;Spark;HDFS;工程造价
参考文献
[1]中国建设工程造价管理协会.2024年中国工程造价咨询行业发展报告[R].北京:中国计划出版社,2024.
[2]住房和城乡建设部。建设工程工程量清单计价标准(GB50500-2023)[S].北京:中国建筑工业出版社,2023.
[3]公诚管理咨询有限公司。基于大数据的工程造价分析系统开发研究项目计划书[Z].2024.