
info@juzhikan.asia
1 北方工业大学信息学院,北京,100043;
2 大规模流数据集成与分析技术北京市重点实验室,北京,100043;
摘要:在医保监督业务中,检察人员常常需要对存储在关系数据库中的各种线索信息进行高效而准确的查询。而专用的SQL语法和逻辑对检察人员来说难以理解,迫切希望能够以自然语言方式来满足查询需求。大语言模型的出现使得基于自然语言的数据查询成为可能。然而,在医保欺诈监督背景下数据查询的大模型解决方案,仍然面临以下困难:一方面,大语言模型无法准确理解医保欺诈监督领域的专业关键词,导致查询结果的精度不高;另一方面,大语言模型在处理需要多轮对话或者一次性处理大量数据的复杂查询任务时,响应速度较慢,查询效率受限。针对上述问题,本文提出了一种基于大语言模型面向医保欺诈监督的数据查询服务。首先,针对大语言模型难以准确理解医保欺诈监督领域专业关键词的问题,通过动态构建Few-Shot组建提示词工程,达到提升查询准确率的效果。其次,针对复杂查询任务响应速度较慢的问题,通过RAG方法对向量数据库进行模式匹配,达到提升查询速度的效果。通过在真实数据上的实验证明了本文方法的效果与效率,同时本文方法也在医保欺诈检察业务中获得实际应用验证。
关键词:大语言模型;Text2SQL;RAG;向量数据库
参考文献
[1]全筱筱,熊文举,潘军杰,等.基于大语言模型的数据查询机器人在医学领域的应用[J].医学新知,2024,34(09):1057-1063.
[2]朱兵,张勇,唐波,等.基于大数据的电力信息通信预警技术探索[J]. 电子世界,2019(16):199-200.
[3]林哲毅.基于知识增强的垂直领域大语言模型研究与应用[D].杭州电子科技大学,2024.DOI:10.27075/d.cnki.ghzdc.2024.001917.
[4]张浩然,郝文宁,靳大尉,等.DF-RAG:基于查询重写和知识选择的检索增强生成方法[J/OL].计算机科学,1-12[2025-04-25].
[5]王娟,梁倩,王磊,等.大语言模型驱动的油气田勘探开发数据智能检索方法[J].西安工业大学学报,2024,44(06):795-802.DOI:10.16185/j.jxatu.edu.cn.2024.06.306.
[6]翁玉鹏.基于大语言模型的NL2SQL方法研究[D].西安石油大学,2024.DOI:10.27400/d.cnki.gxasc.2024.000460.
[7]路沙.向量数据库突显含金量[N].中国信息化周报,2023-08-14(022).DOI:10.28189/n.cnki.ndnjy.2023.000236.
[8]李思卓,赵辉,耿晓燕,等.关系数据库中地理空间数据存储优化研究[J].测绘与空间地理信息,2023,46(04):158-161.
[9]王玉珏.基于提示学习的少样本分类方法研究[D]. 哈尔滨:黑龙江大学,2024.DOI:10.27123/d.cnki.ghlju.2024.000945.
[10]文婧.小样本语义分割方法研究[D].武汉:中南民族大学,2022.DOI:10.27710/d.cnki.gznmc.2022.000721.