2025年7月1日,河海大学地理与遥感学院王增利副教授课题组及其合作者在地理信息科学领域期刊《International Journal of Geographical Information Science (IJGIS)》上发表了题为“Differential effects of data omissions and positional errors on the minimum acceptable geocoding hit rate”的研究论文,该研究系统探讨了地理编码过程中的两类常见不确定性:地址遗漏和位置误差,对最小可接受地理编码匹配率(Minimum Acceptable Hit Rate, MAHR)的差异性影响,并揭示了点密度与聚集程度对MAHR的显著调节作用,为高质量空间数据获取及空间分析结果的可靠性评估提供了科学依据。
地理编码是将地址信息转换为空间坐标的关键过程,广泛应用于城市犯罪、流行病学、公共安全等领域的空间分析。然而,受限于街道网络复杂性、地址库的时效性和匹配算法精度等因素,地理编码结果常常存在匹配失败和位置偏移等问题。这些不确定性不仅会降低数据利用率,还可能引入空间偏差,从而影响空间统计分析的准确性。尽管已有研究探讨了地址遗漏对空间模式的影响,但位置误差及点分布参数对地理编码质量的综合影响仍缺乏系统研究。
为深入揭示这一科学问题,该团队构建了模拟实验框架,基于模拟数据与真实数据结合的方式,探讨了不同场景下MAHR的变化趋势,并首次在相同模拟条件下对比了地址遗漏与位置误差对MAHR的影响差异。主要发现如下:
1)在存在地址遗漏的情形下,当事件点密度较低或聚集程度较高时,MAHR可低至80%以下即可维持原始空间分布特征;而在点密度升高时,MAHR标准随之提高。
2)相较于地址遗漏,位置误差对空间模式的影响更为显著,尤其在高密度或低聚集情形下,MAHR需达到90%甚至更高才能确保点分布不发生显著变化。
图1.不同点密度与聚集水平下数据缺失情形下的MAHR估算结果(社区尺度)
图2.不同点密度与聚集水平下数据缺失情形下的MAHR估算结果(街道尺度)
图3.不同点密度与聚集水平下位置偏移情形下的MAHR估算结果(社区尺度)
图4.不同点密度与聚集水平下位置偏移情形下的MAHR估算结果(街道尺度)
研究结果不仅为不同质量地理编码数据的可接受性评估提供了标准,也对地理空间数据不确定性建模和偏差控制提出了理论支撑。相关模拟代码与数据已在Figshare平台公开(DOI: https://doi.org/10.6084/m9.figshare.25600593.v8),为同行学者在其他城市或应用领域复现和扩展研究提供便利。
地球科学与工程学院硕士研究生朱宣霖为本研究第一作者,王增利副教授为通讯作者,中国地质大学(武汉)李晶晶教授为本研究提供了重要指导。研究得到了教育部人文社会科学研究项目(22YJAZH108)和中央高校基本科研业务费专项资金(B220201021)资助。
论文信息:Zhu, X., Wang, Z., and Li, J., 2025. Differential effects of data omissions and positional errors on the minimum acceptable geocoding hit rate. International Journal of Geographical Information Science, 1-22. doi:10.1080/13658816.2025.2524757.
原文链接:https://www.tandfonline.com/doi/full/10.1080/13658816.2025.2524757