
摘 要:时空信息新型基础设施的建设离不开新的软件中间件与地理信息服务模式。传统时空数据基础设施在云计算、人工智能和大数据的驱动下,正从数据服务正走向智能计算服务。本文围绕时空智能计算服务平台,以数字地球立方体就绪型服务为目标,研究地球时空大数据组织、计算、推理等关键技术,研发算力-数据-算法深度耦合与开放共享的数字地球引擎系统,提供数据就绪、分析就绪、决策就绪的地球时空数据-信息-知识服务体系,构建“存-算-推”一体化开放地球引擎(OGE),形成基于时空立方体管理与分析地球时空大数据的新型时空信息基础设施。在此基础上研发了OGE原型系统,通过接入武汉大学及相关单位累积的多类型对地观测数据,开展了涵盖栅格、矢量与专题数据的典型时空分析试验,验证了OGE的地球时空大数据管理与分析能力。
关键词:地理信息服务;时空信息基础设施;开放地球引擎;时空智能计算;时空立方体
1 引言
随着地球观测技术、物联网、无线通信和计算机等技术的飞速发展,人类得以全面、及时地获取从地球整体到微观单元(如建筑物)的状态及变化信息[1,2]。通过轨道传感器、地面物联网接入、现场测量以及计算机模拟等方式,我们正在持续生成带有时空标签的地球时空大数据,这些数据涵盖陆地、海洋、大气及人类活动,展现了多样性和多源性[3]。如,我国已拥有在轨遥感卫星超过220颗,初步构建了全球综合观测体系[4]。技术的快速发展推动了地球时空大数据的爆发式增长,并丰富了数据类型,为资源利用、经济发展、国家安全和社会治理等领域提供了核心数据资产[5-7]。地球时空大数据不仅反映了从不同粒度、时间相位、方向和层次上对地球表面的观测,还揭示了地球圈层演化机理、城市运行规律及人类活动模式[8,9],并推动传统空间数据基础设施(Spatial Data infrastructure,SDI)向新型时空信息基础设施发展。
在时空大数据时代,随着大数据管理、基于云的分布式计算和人工智能等技术的深度融合,人类已具备更强的能力去理解和辨识地球动态[10-12]。构建从数据管理到计算分析的地球时空大数据框架,已成为当前数字地球研究的重点领域[13-15]。传统的地球空间信息服务形态存在局限性,难以适应多源异构时空数据关联组织,分布式高效计算就绪能力不足,缺乏大范围时空计算推理能力。从数据服务到计算服务,再到智能计算的发展表明(图1),仅提供数据已无法满足复杂地球系统研究的需求[16]。美国基金委“地球立方”计划连续资助十年[17],旨在建立支持地球系统科学数据、信息、知识集成共享服务的网络信息基础设施(Cyber infrastructure)。国际地球观测卫星委员会(CEOS)提出了“开放数据立方体”项目[18],旨在提供对地观测大数据的一体化管理开源解决方案。以谷歌地球引擎(Google Earth Engine, GEE)为代表的计算服务平台,通过大规模并行计算和海量数据调用能力,将遥感数据的处理与分析从繁琐的单机计算转变为云端高效协作,极大地推动了地球科学研究和行业应用的进展[19,20]。当前谷歌地球引擎正在推动深度云端互操作性以及与人工智能的集成,如,GEE与谷歌云的Vertex AI展开集成。传统GEE仍为基于CPU的物理模型计算,通过互操作接口将AI推理任务外委给支持GPU的谷歌云Vertex AI平台[21],形成了“计算、推理”两张皮,无法像时空立方一样提供统一的用户视图[22]。 我国在时空信息基础设施的自主研发上也紧跟世界前沿,推出了国家地理信息公共服务平台“天地图”,以及系列国产时空信息云计算平台,包括航天宏图公司PIE Engine平台、阿里AI Earth、中科星图GEOVIS Earth等,已经具备了数字地球引擎的初步能力,但在关键技术与应用规模上与GEE还有较大的差距,面向多源时空数据的联合处理与大规模计算推理能力不足,亟须进行理论方法创新与技术架构革新。
本文探讨了如何构建新一代高效、智能的开放地球时空智能计算服务平台—开放地球引擎(OGE)。OGE从地球时空大数据组织、计算、推理的关键技术出发,实现了算力-数据-算法深度耦合与开放共享的数字地球引擎系统,提供数据就绪、分析就绪、决策就绪的地球时空数据-信息-知识服务体系,形成基于时空立方体管理与分析地球时空大数据的“存-算-推”一体化新型时空信息基础设施。通过多源时空立方体,解决多类型、多尺度地球时空大数据的一体化组织问题。基于云原生的弹性计算特性,实现了时空数据的高效分布式处理,并结合进程与线程的混合并行计算模式,优化了遥感影像与大规模时空数据的计算效率。通过引入机器学习方法,OGE提升了地理信息分析的智能化水平,使时空计算从传统物理模型向数据驱动的智能方法转变。研究成果有助于为构建新型时空信息基础设施提供技术支撑,并推动地理信息服务向高效、智能与开放共享的方向发展。

图1 从时空数据服务到时空智能计算服务
Fig.1 From spatiotemporal data services to spatiotemporal intelligent computing services.
2 OGE系统设计
OGE的研制旨在构建一套时空信息智能处理服务体系,其核心在于从关键技术的突破到服务能力的提升,再到系统生态的打造,为全球性的时空信息基础设施提供理论依据与技术支撑。其中面临若干研究挑战:
1)多类型、多尺度地球时空大数据的统一组织问题。传统时空数据组织面向存储,面向计算分析的就绪化程度不高,存在“矢量图-影像景”割裂组织、“存、算”两张皮等问题。地球时空大数据具有数据海量、来源多样、结构复杂、维度丰富的特点,传统的时空数据组织沿用“图层-对象”组织模式,以“景”为单位来处理对地观测数据,以“图层”为粒度来叠置多源时空数据,并没有从数据模型层面解决多源时空数据的融合表达与联合分析问题。
2)多源海量异构时空数据的分布式高效计算问题。大数据环境下的地理信息处理面临着数据与计算基础设施的深刻变革,表现为空间数据组织与计算的分布式重构。分布式环境下时空数据的高效计算是地理信息服务的难点,尤其是其中计算任务的分解与集群计算资源的动态适配问题。传统地理计算强度评估进入瓶颈期,国际沿用的非线性评估方法依赖先验公式,由于地理计算问题自身的空间异质性与计算特征差异,易导致评估不准,调度失衡[23-24]。
3)时空智能计算正从物理模型走向AI模型的计算推理,传统时空计算难以满足大范围地理场景的AI计算推理。现有时空计算架构侧重物理模型的计算求解,缺乏时空AI模型集成的分布式计算推理框架,难以满足大范围与长时序的大规模时空数据的智能化处理需求。传统以物理模型为代表的时空计算模式,正走向与AI模型融合的时空智能计算模式,需要发展大尺度的时空智能计算推理方法,以支持新一代开放地球时空智能计算服务。
4)如何突破领域知识的束缚、超越用户水平的限制,朝着具备一定自主能力与复杂任务求解的新一代AI SDI方向发展[25]。从服务计算的角度出发,地理数据、算法模型等资源以SDI服务的形式组合集成,满足各类时空分析决策应用。然而已有的时空分析决策主要服务于专业用户,普通用户缺乏相关领域知识,在数据获取、算法应用以及地学分析流程构建方面面临困难和障碍,限制了地理信息服务与SDI的应用潜能。需要聚合地球时空分析领域的处理方法、分析算法、人工智能模型和地学知识图谱,构建标准化的多层次就绪型服务体系与基础设施架构。
针对上述挑战,OGE发展了AI SDI的理论与方法体系,在地理信息服务向时空智能服务演化升级的背景下,构思数据就绪、分析就绪、决策就绪的时空智能服务体系,构建数据、模型、计算耦合的数字地球服务,通过时空数据组织、计算与推理等关键技术研究,为数字地球提供了时空智能计算支撑:(1)针对时空数据与计算耦合度低、实时数据处理能力弱的难题,发展面向计算的时空立方体组织模型;(2)针对时空大数据的分布式计算难题,突破时空立方体与云环境之间的高效映射技术,建立了云原生分布式时空立方体对象,提出学习型时空计算克服传统地理计算强度评估的先验依赖,验证时空计算特征学习方法克服异质性的有效性;(3)针对大范围时空计算推理能力受限问题,从Data Cube发展为AI Cube,建立集成AI模型库的时空立方体分布式计算推理,支撑大范围异质场景的CPU/GPU协同推理计算。(4)针对AI SDI智能服务问题,形成基于时空立方体的多层次就绪型地球引擎系统架构。
在大数据与云计算背景下,地球时空大数据的处理范式正在发生深刻变革,朝着就绪型时空信息基础设施发展[25-26]。“就绪”提法源于CEOS提出的分析就绪数据(Analysis Ready Data, ARD) [27],旨在为用户预处理好数据,简化用户的数据准备流程,避免耗时的重复性预处理工作。国家标准《地理信息 数字数据和元数据保存 第2部分:地球观测数据和衍生数字产品的内容规范》中,将ARD解读为按照最低要求进行处理,并被组织成一种数据的形式,使得用户能够以最小的额外工作量立刻进行分析,以及在时间上与其它数据集互操作的数据。其概念近年来进一步被国际开放地理信息协会(OGC)和学者衍生到地理信息服务领域,派生出决策就绪信息(Decision Ready Information, DRI)[28]、计算就绪(Ready for HPC)[26]、AI就绪(AI-ready SDI)[25]等。本文从用户对数据、分析、决策的不同服务需求出发,指出就绪型时空信息基础设施能够为用户屏蔽数据、算法、AI资源准备细节,提供数据组织就绪、分析计算就绪、决策支持就绪的服务能力。OGE的系统设计充分体现了就绪型服务理念,图2展示了OGE多层次就绪开放系统架构,自底向上由硬件基础设施、基础数据资源、数据就绪基础设施、分析就绪基础设施和决策就绪基础设施组成。

图2 OGE总体架构
Fig.2 Overview of OGE architecture.
1)硬件基础设施作为OGE架构的底层支撑,提供了支持国产云的高性能计算集群和大规模存储阵列,确保系统具备强大的计算能力和数据存储能力。高性能计算集群使OGE能够处理海量遥感数据并快速进行空间分析,存储阵列结合云优化文件与数据库等多元混合存储技术,确保了时空数据的高效存储和快速访问。通过这种硬件资源的保障,OGE能够支持大规模的时空数据管理和实时计算任务。
2)基础数据资源层面,OGE系统汇集了多源异构数据,构建了一个完整的数据管理体系。包括全球矢量数据、数字高程模型(DEM)、地表影像、定量遥感产品等基础数据资源,这些数据为OGE系统的时空分析与智能推理提供了原始材料。OGE还集成了LuojiaSet等训练样本数据[29],为人工智能分析和模型训练提供了支撑。基础数据资源层为OGE提供了一个强大的数据基础,支持后续知识抽取、分析与决策任务的开展。
3)数据就绪基础设施为OGE系统提供了对基础数据资源的统一组织和管理。OGE设计了一种全球时空大数据的统一组织和管理架构,旨在为多源、异构、海量感知数据提供统一的时空基准与组织模型,确保数据能够在符合特定分析要求的情况下进行高效访问。该基础设施不仅包括数据的预处理和清洗,还包括对数据质量的控制,确保用户能够获取标准化的、处理就绪的时空数据。这一层的基础设施支撑OGE系统提供快速、准确的分析数据,提高了数据的可靠性和一致性,使得用户可以专注于数据分析,而不必处理繁琐的数据准备工作,从而形成数据就绪的时空信息基础设施,为孪生地球提供可时空感知的统一数据组织基底。
4)分析就绪基础设施基于安全可控协议的开源分布式计算框架,提出结合深度特征的时空分析计算强度估计方法,以及计算资源负载均衡模型,采用批处理/流计算、CPU/GPU异构并行和线程/进程混合并行等模式,构建分析就绪基础设施,支持复杂三维建模、大范围空间分析和人工智能解译等复杂地学处理任务的资源自适应调度与分布式计算。它集成了Spark、CUDA等多种异构计算技术,适应从大规模批处理到实时分析的广泛需求。系统提供一套标准、高效、开放的时空算子库,涵盖了地图代数运算、时序分析、空间几何分析、遥感光谱分析、SAR数据处理、时序变化检测、路径优化等计算密集型任务。开放接口和高性能计算框架的设计让用户可以灵活接入并自定义模型与工具,同时实现全球范围内的数据实时处理与共享。通过结合任务计算复杂度与依赖分析设计资源分配策略,计算引擎能够智能化调整任务的执行顺序和计算资源分配,保证在并发任务多节点环境中的高效性和稳定性。
5)决策就绪基础设施针对时空决策面临的复杂时空任务理解能力差、弱领域知识用户受限问题,发展AI与SDI服务联合的时空问题求解服务模式,从而使其能提供应急响应等决策就绪型智能服务。该基础设施通过集成机器学习和深度学习模型,结合大模型与知识图谱,对地理空间数据进行深度分析,使得用户能够从数据中提取更为复杂的模式和趋势,降低用户使用门槛,从传统的数据查询与分析,转向更为复杂的问题解决与智能决策。在服务后端,通过建立分布式计算推理框架,集成时空AI模型库,实现AI推理就绪,支撑大范围异质场景的遥感影像智能矢量制图CPU/GPU协同推理计算。在服务前端,构建SDI服务学习能力,发展面向SDI服务语义知识的指令数据构建与领域大模型微调技术,形成SDI服务规划策略,构建基于SDI服务智能体的时空决策模式。
3 OGE关键技术
下面围绕OGE针对地球时空大数据组织、计算与推理的主要关键技术进行介绍。
3.1 时空立方体组织

图3 GeoCube时空数据组织
Fig.3 GeoCube spatiotemporal data organization
地球时空大数据具有多源异构、结构复杂、时空分异、数据量大等特点,如何统一表达、组织与管理一直是地理信息科学领域的痛点问题。并且多源地球时空观测数据时-空-谱分辨率以及参考坐标系通常不一致,需求大量时间用于预处理和融合方面的工作。此外,地球时空大数据类型多样,而现有时空大数据管理框架往往面向特定类型数据优化设计,无法满足海量异构地球时空大数据的大规模计算和联合分析需求。为此,提出地球时空大数据立方体模型GeoCube,见图3所示,通过设计多源数据对齐、时空信息融合的立方体表达结构,对不同传感器、不同分辨率、不同参考系的时空数据进行面向高性能分析的统一表达,并通过重采样、重投影等处理,以瓦片的组织模式将多源海量地球观测数据组织在一个统一时空基准的立方体中。GeoCube基于事实星座建模思想,具有时间、空间、产品和波段四个维度:时间维度表示数据的获取时间;空间维度由一系列规则网格组成,记录了空间网格的大小、分辨率和参考坐标等信息,每个网格通过网格编码和使用的网格基准来唯一标识;产品维度用于记录异构数据产品的类型;波段维度特定于栅格数据,指特定的波段。通过各个维度值可以索引到相应的多源瓦片事实,支持维度检索和在线联机分析(Online Analytical Processing, OLAP)。
不同于国际上的单一影像立方体,GeoCube支持栅格、矢量等不同类时空数据联机分析操作,构建多维时空立方体的统一表达和数据融合机制。通过灵活组合不同维度,针对特定应用场景创建定制化的时空立方体数据模型。结合就绪型数据处理的数据接入、转换、组合、处理等各个环节,形成时空立方体数据管道。设计转换和映射策略,建立时空数据在共享时空参考下的统一表达;设计数据的组合方式,使得多源异构数据能够在时空立方体中关联融合,形成一致就绪的时空表达。面向不同时空尺度下的数据需求,实现基于可变时空网格的多尺度数据融合分析方法。针对全球大范围立方体分析的不同地图形变需求,支持面向不同投影方式的多种时空网格,涵盖地球统一剖分网格和局部自定义优化网格,提供保角、保长、保面积等多种策略。
在GeoCube的时空立方体模型中,时空临近度量被聚合为事实瓦片,已经为大规模分布式计算打下了数据结构基础,通过结合云计算技术,可以实现快速高效的数据处理。充分发挥分布式文件与数据库存储,以及关系与非关系存储的各自优势,OGE设计了基于云优化GeoTiff、分布式文件系统minIO、非关系数据库HBase与关系-对象数据库PostgreSQL的混合组织方案,将GeoCube元数据存储于关系数据库中,事实瓦片数据存储于非关系数据中,遥感影像存储于分布式文件系统中,三者通过立方体单元的唯一时空编码来进行关联。在查询处理方法上,充分利用混合存储模式及其索引结构,提出了基于多级粗过滤的时空范围查询优化算法,进一步引入就近计算思想,将粗过滤步骤下沉到存储端,从而有效降低网络通信量。
3.2 云原生分布式计算
OGE采用云原生弹性分布式数据集(Resilient Distributed Dataset,RDD)技术,提供了一种高效的分布式数据处理和计算框架,专门针对时空数据的管理和分析需求进行优化。通过对传统RDD模型的扩展,云原生RDD适应了云计算环境,能够高效处理海量数据并支持并行计算。OGE系统通过将时空数据转换为多种分布式数据集类型,提出了一套分布式立方体对象CubeRDD,实现了GeoCube模型到云计算环境的无缝映射,如图4所示。该映射设计一方面可以继承 Spark RDD 分布式计算能力,另一方面可以兼容立方体多源数据类型,如RasterRDD、FeatureRDD和TabularRDD等,使得不同类型的时空数据能够在计算节点之间高效分配和处理。
云原生RDD的设计充分利用了Spark的分布式计算框架,采用键值对结构,每条数据记录都映射为一个时空立方体单元,确保数据在计算过程中的高效存储和访问。OGE将时空数据按类型映射到相应的RDD,如栅格数据使用RasterRDD、矢量数据使用FeatureRDD,而表格数据则通过TabularRDD进行处理。每个RDD类型通过合理的分区和键值映射,确保计算任务能够在多个节点间并行执行,从而显著提高处理效率。以RasterRDD为例,OGE能够灵活处理卫星影像或其他栅格数据,在进行时空分析时,支持通过时间或空间维度进行分组,从而适应不同分析任务的需要。为了适应不同的分析需求,OGE还提供了如PointRDD、PolylineRDD、PolygonRDD等不同类型的分布式数据结构,它们能够根据具体任务的需求进行灵活转换。

图4 云原生RDD对象实现[30]
Fig.4 Implementation of Cloud Native RDD Object[30]
基于云原生RDD的弹性特性,OGE能够将数据切分为多个小单元并分配到不同的计算节点,使得每个节点的计算任务独立进行,同时保证了节点失效时系统的容错能力。不仅提高了计算过程中的数据可靠性,还降低了由于单点故障而导致的任务延误或数据丢失的风险,确保了时空数据处理过程的稳定性和连续性。进一步地,OGE通过结合进程和线程的混合并行模式提升了计算效率(图5)。任务在分布式计算节点中被拆分为多个Map任务,这些任务通过并行计算快速执行,最终通过Reduce任务进行汇总和分析。这一分布式处理模型特别适用于大规模遥感影像数据的处理,能够灵活适配不同的计算粒度和分析需求,减少了因数据传输带来的延迟,提高了整体计算性能。

图5 OGE进程和线程混合并行模式
Fig.5 OGE process and thread hybrid parallel mode
针对实时数据接入与适应流批一体化处理的时空立方体计算,设计基于发布/订阅模型的时空立方体数据传递模型,通过观测设备生产的实时数据接入发布/订阅中心,待数据被订阅后,将其构建为时空立方体,用于后续分析与计算;采用OGC SensorThings API和OGC Pub/Sub接口标准,实现了数据发布者与数据订阅者之间的数据交互。具体工作流程包括创建订阅、过滤条件设定、数据匹配、异步传递消息、到期时间设置、续订和取消订阅。结合Spark Streaming流计算等技术,设计时空立方体流批一体化计算方式,耦合面向大规模时空数据的批计算和面向实时数据的流计算,提升多源时空大数据在多计算模式下的就绪服务水平[31]。基于面向多源时空数据的统一分布式对象模型,实现批处理和流处理的数据转换,建立点、线、面、观测流与云计算弹性数据集/流计算对象的映射。根据数据的时效性和计算的复杂性,引入动态调度策略,自适应地选择合适的处理方式,以提高计算效率。围绕计算模块的复用性和可维护性,进行计算的标准化封装,定义标准的接口规范,用于批处理和流处理算法的统一调用。
3.3 学习型时空计算
GeoCube立方体模型采用全球多级网格对时空数据进行切片,并以瓦片形式进行聚合组织,便于实现分布式并行计算,充分调度计算资源。但是,地球时空大数据,尤其是矢量数据,在空间上存在分布不规律、异质性突出等问题,易造成分布式计算过程中负载失衡问题。国际学界提出了代表性的基于计算域的地理计算分解方法,但计算强度的评估尚依赖先验公式,计算强度评估误差较大,难以实现计算任务的均衡分解。
OGE从时空计算的人工智能优化角度出发,通过数据驱动的机器学习方法来刻画数据/算法特征,实现对地理空间域复杂度的合理表征,完成计算强度的自动化预测(图6)。如在矢量空间相交分析中,多边形数量、多边形顶点数量、多边形分布方差等可作为候选特征,据此可以结合多种机器学习特征选择算法和回归模型训练算法,根据精度评价指标从候选特征中选择出最优特征子集,同时得到最优计算强度预测模型。在此基础上,OGE执行引擎通过预测模型感知计算流图中各任务的计算强度,进行计算强度自适应的资源分配,实现任务与资源之间的适配,提升时空分析任务的计算性能。
OGE的学习型时空计算技术打破了传统地理计算方法中依赖经验公式与线性拟合的局限,通过引入机器学习算法,提高了时空数据分析的精度和效率[32-33]。传统的地理计算方法常因空间异质性导致评价失误,而学习型时空计算通过智能算法自适应调整,能更加精确地处理复杂时空数据,从而克服了传统方法在应对多变环境时的不足。OGE的学习型时空计算通过训练机器学习模型,能够自动从大量历史数据中学习时空数据的规律与特征,并优化数据的时空拟合方式。这使得OGE能够根据实时输入的时空数据进行更加准确的预测和分析,与传统基于专家经验的分析方法相比,减少了人为干预和误差,显著提升了分析结果的准确性与执行效率,有效克服了地理计算特征的空间异质性难点,实现了不规则数据地理计算任务分配的AI负载均衡,且负载均衡指数相对已有方法提升一个量级[32]。同时也发现,与影像智能解译受限于样本人工标注不同,由于样本的计算代价可以通过机器运算时间来自动标注,1~2天即可实现十万量级样本机器自动标注,实用化门槛大大降低。

图6 OGE学习型时空计算流程
Fig.6 OGE learned spatiotemporal computing
3.4 分布式推理计算
数据与地理AI模型的耦合是实现大范围推理的基础。由于地理现象在空间上的异质性,地理AI模型(如遥感智能解译模型)在不同区域、季节和尺度数据上的推理能力存在差异,数据的多样性、多模态进一步导致了推理的复杂性。单个地理AI模型在大范围异质场景下存在推理任务精度低、速度慢等问题,而且模型往往具备不同的任务类型,由于地面样本数据稀疏、不同遥感数据间的可迁移性差、以及模型算法的差异,复杂场景下地理AI模型的发现与匹配颇为重要。如何结合大范围异质场景,建立适应区域差异性的地理AI模型协同推理机制,是AI赋能数字地球分析的关键问题之一。
OGE的AI赋能体系建立在自主可控的遥感深度学习框架LuojiaNet和开源遥感样本库LuojiaSet之上,通过计算流图的方式,实现了遥感数据处理全流程的高效管理和优化[34]。LuojiaNet针对遥感影像的特点,提供了专用的深度学习模型训练和推理框架,而LuojiaSet则构建了大规模、高质量的标准化样本库,支撑遥感AI模型的开发与验证。整个体系在遵循OGC地理人工智能国际开放标准(Training Data Markup Language for AI ,TDML-AI)的基础上,建立了统一的数据标注、任务管理和模型适配机制,从而增强了遥感AI模型的可解释性和跨场景迁移能力[35-36]。同时,OGE结合TDML-AI标准的规范性要求,进一步构建了从数据到模型的全生命周期管理流程,确保模型训练、验证、部署各环节的标准化执行,提升了AI在遥感领域的泛化能力和可靠性。
在此基础上,OGE进一步构建了AI Cube框架,作为对AI模型的一种智能管理机制(图7)。AI Cube并非对AI模型本身的升级,而是以更高层次的框架对模型进行统一调度、管理和优化,使其更好地适配不同任务需求[22]。AI Cube借鉴了Data Cube的理念,将AI推理能力融入时空数仓分布式计算架构,使其不仅能够高效管理深度学习推理库,还能够根据具体的预测任务,智能匹配最优模型并进行动态调度。同时,该框架支持多源数据的融合分析,并通过CPU/GPU协同计算,实现大范围、异质场景下的高效地理AI推理。借助AI Cube,OGE能够更精准地调整不同类型AI任务的计算需求,例如遥感影像分割、目标检测、变化检测等,从而提高推理效率,降低计算成本。此外,AI Cube还具备自适应学习能力,通过对历史任务数据的分析,优化模型选择和参数调整策略,使得AI模型的应用更加高效和智能。
OGE的AI Cube框架不仅提升了遥感AI任务的自动化和智能化水平,也为未来更加复杂的地理智能应用奠定了基础。通过将AI推理与大规模地理数据管理深度融合,OGE构建了一个兼具灵活性、可扩展性和高效性的智能计算体系,使遥感AI分析能够在不同数据、不同任务和不同算力环境下实现最优适配和高效执行,为地理空间信息的智能挖掘和决策支持提供了更强大的技术支撑。

图7 AI Cube分布式推理
Fig.7 AI Cube distributed reasoning.
4 OGE系统实现
4.1 系统功能概述
作为时空信息新型基础设施,为用户提供多源海量的数据资源和智能高效的分析能力是OGE系统的主要功能。OGE系统主要通过资源中心、开发中心、应用中心为用户提供数据获取、处理、分析和应用等服务(图8)。资源中心包括数据中心和模型中心,分别管理着平台内的数据和算子,用户可以在此进行数据和模型的检索和查询。开发中心则为用户提供在线的服务调取接口,用户可以通过代码编辑器或者模型组合器调取平台内的所有数据和算进行地理云计算,最后根据需求选择实时在线上图或者批处理下载到本地。OGE系统内还集成了多种地学应用工具,例如Cube长时序分析、GeoChat地学问答等,通过应用中心全面支持各类地理空间信息应用需求。

图8 OGE系统功能模块
Fig.8 OGE system functional modules
在数据能力方面,OGE系统通过时空立方体GeoCube,实现了全球大规模对地观测数据的高效就绪型管理。GeoCube基于时空数据的多维度管理和分布式计算架构,能够将全球范围内的遥感影像、数字高程模型(DEM)、数字正射影像图(DOM)等数据进行统一存储、集成和检索,支持海量数据的快速访问和处理。OGE通过GeoCube实现了数据的高效管理,并提供分析就绪型数据,确保数据在存储、处理和分析中的高效流动。图9展示了OGE系统内的数据资源,包括全球覆盖的数据产品,如Landsat,MODIS,以及12.5m/30m分辨率的全球数字高程模型和10m分辨率的数字正射影像图等,以及丰富的定量遥感产品,如地表反射率、反照率、叶面积指数等。平台内还提供高分辨率的国产遥感对地观测数据产品,如GF1和GF6数据,并在国内范围内形成密集覆盖。除了遥感对地观测数据外,OGE还支持全球遥感样本数据的共享,涵盖超过500万个开放获取样本,涉及多个遥感应用领域,包括场景分类、目标检测、地表覆盖分类、变化检测和三维重建等。

图9 OGE系统数据资源
Fig.9 OGE system data resource.
在分析能力方面,OGE系统集成了数百个开放分析算子,涵盖栅格数据处理、空间分析、专题分析等领域。这些算子不仅包括基本的遥感数据处理工具,还涵盖了复杂的时空分析功能,可以执行大范围的空间分析任务。在GeoCube框架下,这些算子既可以作用于逐景的遥感影像数据,也可以作用于数据立方体。图10展示了OGE系统基于GeoCube提供的对多源遥感数据的大规模处理分析能力。首先,OGE系统提供了完备且精细的 ARD 数据生产流程,从原始数据与辅助数据的输入开始,历经辐射定标、几何校正、逐像素元数据生成、网格划分、大气校正和一致性处理等一系列复杂操作,生产高质量的ARD数据。然后OGE系统可以根据具体的任务需求,调用合适的ARD数据,构建对应的数据立方体。最后,在数据立方体的基础上,高效执行地理分析任务,如AI智能推理和全球尺度的分析。图11展示了在OGE上综合使用各类算子完成长江经济带城市群碳排放的分析,除此之外,OGE还提供了其他实验案例的示例代码供用户参考,例如水体提取、植被生长、干旱分析等,通过丰富算子及组合定制满足用户复杂多样的实际应用需求。

图10 OGE系统分析能力
Fig.10 OGE system analysis capability

图11 OGE典型时空计算分析任务案例
Fig.11 Typical cases of spatio-temporal computational analytics in OGE
图12展示了OGE系统在大规模的数据查询、获取和计算上的性能评估结果。测试所使用的数据来源于2013至2018年间湖北省的Landsat-8影像数据。该数据集为TB级大小的时空立方体,网格基准为1°×1°,分辨率为4000×4000的瓦片数据,所有数据存储为单精度浮点型格式。测试的分析任务为NDVI计算,计算过程主要涉及到波段的提取和栅格计算等。图12(a)展示了在OGE系统内对不同数据量的数据进行查询和获取所需要的时间,结果表明查询的时间非常短,对于25GB的数据查询也仅需要数秒。数据获取的时间虽然随着数据量的增大而变大,但增长的速度并不快,对于25GB的数据获取也能控制在百秒以内。图12(b)展示了OGE系统在面对不同数据量的分析任务所需要的时间,结果表明对于数据量在200GB左右的数据分析任务,OGE系统可以控制在10min左右完成,对于1.1TB的数据处理任务,OGE可以在1h左右完成。由此可见,OGE系统对于大规模数据的访问和处理均有较好的性能表现。与已有的遥感云计算平台相比,由于GEE大规模实验受限以及计算资源存在较大差异等问题,主要开展了与CEOS 发布的OpenDataCube开源软件平台进行比较,在同等计算资源条件下,实验表明在TB级数据处理上节省了将近一半时间[30]。

图12 OGE系统大规模数据性能测试结果(a)查询和获取数据消耗的时间(b)计算数据消耗的时间
Fig.12 OGE system large-scale data performance test results (a) Time consumed for data querying and retrieving (b) Time consumed for data computing
4.2 开放服务能力
OGE系统的开放服务接口设计严格遵循OGC标准,旨在确保系统能够与全球其他地理信息系统实现无缝对接,促进遥感数据的共享与应用。通过全面实施OGC标准,OGE提供了一系列高效的服务接口,涵盖遥感数据的访问、处理、分析与智能推理等功能(图13)。这些标准接口支持不同的数据格式和服务类型,使得OGE能够为各类地理信息应用提供灵活、可扩展的解决方案。




图13 OGE平台模块实现的OGC服务接口
Fig.13 OGC service interface implemented by OGE platform module
在OGE系统中,OGC API - Features和OGC API - Coverages是核心的数据访问接口。OGC API - Features标准支持地物特征数据的查询与分析,用户可以通过标准化接口如/collections/{collectionId}/items访问具体的数据项,从而获取和操作地物特征数据。OGC API - Coverages则主要针对栅格数据,如遥感影像和其他覆盖数据,用户可以通过接口如/collections/{collectionId}/coverage进行访问与处理。这些接口的设计确保了OGE能够高效地集成全球范围的遥感数据,并支持多种数据格式的转换与处理,保证了数据的高效利用和跨平台的兼容性。在数据处理方面,OGE遵循OGC API - Processes标准,提供了丰富的遥感数据处理能力。用户可以通过/processes/{processId}接口调用特定的处理过程(如影像分析、变化检测等),根据具体任务执行灵活的处理操作。通过标准化的接口,OGE在遥感数据的处理与分析中提供了一致性和高效性,极大提升了系统的自动化和智能化能力。
为了更方便高效地调用这些符合OGC API标准的服务,OGE通过OGEScript提供了便捷的脚本化接口,使用户能够以更加直观的方式调用OGE系统中的标准化服务。图14展示了OGEScript与OGC API的映射关系,OGEScript封装了OGC API的调用逻辑,使用户可以通过简洁的代码实现数据获取、处理和可视化等功能。这样的设计不仅降低了用户操作的复杂性,也提升了数据处理的灵活性和开发效率。用户可以借助OGEScript编写脚本,调用OGC标准接口执行数据查询、分析任务和图层可视化等操作,从而进一步增强OGE的集成性和功能扩展能力。

图14 OGEScript脚本对象与OGC API系列标准的映射关系
Fig.14 The mapping relationship between OGEScript script objects and OGC API series standards
基于OGEScript的这一封装机制,用户能够高效调用OGE中的各类资源,并简化与OGC API的交互过程。在实际应用中,以归一化植被指数(NDVI)计算为例,用户可以通过OGEScript便捷地检索、处理和可视化遥感数据,具体的流程如图15所示。首先,用户需要检索遥感数据。在OGE的资源中心,用户可以使用getCoverage接口,根据影像的ID(如Landsat-8影像)获取所需的遥感数据。接下来,通过查找并调用相应的算子(如Coverage.selectBands算子选择红光波段和近红外波段),用户可以利用OGE的标准化算子执行数据处理任务。对于NDVI计算,OGE提供了相应的算子(如Coverage.calculateNDVI),用户可以通过这些算子实现波段运算和指数计算,最后得到NDVI值。当计算任务完成后,OGE的服务接口能够根据用户需求提供结果的可视化。通过设置可视化参数,如最小值、最大值、色彩调色板等,用户可以在OGE开发中心的地图客户端中直观地查看NDVI的空间分布和变化情况。

图15 OGE地理分析流程(以NDVI计算为例)
Fig.15 OGE Geographic Analysis Process (Taking NDVI Calculation as an Example)
5 结论
OGE从地球时空大数据组织、计算、推理的关键技术出发,实现了算力-数据-算法深度耦合与开放共享的数字地球引擎系统。通过设计多源数据对齐、时空信息融合的立方体表达结构,解决多类型、多尺度地球时空大数据的一体化组织问题,为“存-算-推”提供一体化模型基础。基于云原生RDD的弹性计算特性,实现了时空数据的高效管理与分布式处理,并结合进程与线程的混合并行计算模式,优化了遥感影像与大规模时空数据的计算效率。通过引入机器学习方法,OGE提升了地理信息分析的智能化水平,使时空计算从传统物理模型向数据驱动的智能方法转变。研究表明,OGE在多源时空数据集成、并行计算优化以及时空决策推理方面展现出优势,并推动地理信息服务向高效、智能与开放共享的方向发展。
在时空信息成为新型基础设施的背景下,OGE研究为构建新一代高效、智能的时空计算服务平台提供了理论与技术支持。通过依托于云计算设施,以GeoCube时空立方体模型动态汇聚与管理全球范围的地球观测数据、数字高程模型、定量遥感产品、遥感样本、虚拟星座数据、物联网数据等多源、异构、海量时空数据,实现大规模时空数据的组织管理和复杂时空分析的计算负载均衡,基于分布式计算框架聚合地学分析领域的处理方法、分析算法与人工智能模型,从而实现了开放的数据集成、一体化的数据管理、高效的数据计算,以及灵活的应用使能,具备标准化的数据就绪型、分析就绪型和决策就绪型时空信息智能服务体系。下一步,OGE将在分布式计算引擎优化、智能模型方法、三维时空计算、应用服务拓展等方面开展进一步研究,以提升OGE时空计算服务的广度和深度,为构建新型时空信息基础设施提供了坚实基础。
参考文献(References)
[1] ZHAO Qiang, YU Le, DU Zhenrong, et al. An overview of the applications of earth observation satellite data: impacts and future trends[J]. Remote Sensing, 2022, 14(8): 1863.
[2] LI Yansheng, MA Jiayi, ZHANG Yongjun. Image retrieval from remote sensing big data: A survey[J]. Information Fusion, 2021, 67: 94-115.
[3] GUO Huadong. Big Earth data: A new frontier in Earth and information sciences[J]. Big Earth Data, 2017, 1(1-2): 4-20.
[4] LI Deren, WANG Mi, WU Qianyu. Fast, accurate and smart applications of intelligent remote sensing satellites[J]. Advanced Small Satellite Technology, 2024, 1(1): 1-9.( 李德仁,王密,仵倩玉.论智能遥感卫星的“快、准、灵”应用服务[J].先进小卫星技术(中英文),2024,1(1):1-9. )
[5] LI Deren, WANG Mi, JIANG Jie. China’s high-resolution optical remote sensing satellites and their mapping applications[J]. Geo-spatial information science, 2021, 24(1): 85-94.
[6] CHEN Liangfu, Letu H, FAN Meng, et al. An introduction to the Chinese high-resolution Earth observation system: Gaofen-1~ 7 civilian satellites[J]. Journal of Remote Sensing, 2022.
[7] LI Deren. From the Luojia Series Satellites to the Oriental Smart Eye Constellation[J].Geomatics and Information Science of Wuhan University,2023,48(10):1557-1565.(李德仁.从珞珈系列卫星到东方慧眼星座[J].武汉大学学报(信息科学版),2023,48(10):1557-1565.)
[8] WULDER M A, LOVELAND T R, ROY D P, et al. Current status of Landsat program, science, and applications[J]. Remote sensing of environment, 2019, 225: 127-147.
[9] NGUYEN M D, BAEZ-VILLANUEVA O M, BUI D D, et al. Harmonization of landsat and sentinel 2 for crop monitoring in drought prone areas: Case studies of Ninh Thuan (Vietnam) and Bekaa (Lebanon)[J]. Remote Sensing, 2020, 12(2): 281.
[10] DATA M. Multimodal artificial intelligence foundation models: Unleashing the power of remote sensing big data in earth observation[J]. Innovation, 2024, 2(1): 100055.
[11] DIMITROVSKI I, KITANOVSKI I, KOCEV D, et al. Current trends in deep learning for Earth Observation: An open-source benchmark arena for image classification[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 197: 18-35.
[12] LI Deren. Towards Geo-spatial Information Science in Big Data Era[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(4): 379-384.(李德仁.展望大数据时代的地球空间信息学[J].测绘学报,2016,45(04):379-384.)
[13] LI Wenwen, HSU C Y. GeoAI for large-scale image analysis and machine vision: recent progress of artificial intelligence in geography[J]. ISPRS International Journal of Geo-Information, 2022, 11(7): 385.
[14] LI Ying, ZHANG Haokui, XUE Xizhe, et al. Deep learning for remote sensing image classification: A survey[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2018, 8(6): e1264.
[15] RAIHAN A. A comprehensive review of the recent advancement in integrating deep learning with geographic information systems[J]. Research Briefs on Information and Communication Technology Evolution, 2023, 9: 98-115.
[16] ZHANG Bing, WU Yuanfeng, ZHAO Boya, et al. Progress and challenges in intelligent remote sensing satellite systems[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 1814-1822.
[17] RUBIN K, RAMAMURTHY M. Update on The EarthCube Initiative[C]//Geophysical Research Abstracts. 2019, 21.
[18] KILLOUGH B. Overview of the open data cube initiative[C]//IGARSS 2018-2018 IEEE international geoscience and remote sensing symposium. IEEE, 2018: 8629-8632.
[19] YANG Liping, DRISCOL J, SARIGAI S, et al. Google Earth Engine and artificial intelligence (AI): a comprehensive review[J]. Remote Sensing, 2022, 14(14): 3253.
[20] VELASTEGUI-MONTOYA A, MONTALVÁN-BURBANO N, CARRIÓN-MERO P, et al. Google Earth Engine: a global analysis and future trends[J]. Remote Sensing, 2023, 15(14): 3675.
[21] GEE, 2024. Looking back on a year of deeper connectivity across Earth Engine and Cloud, available at https://cloud.google.com/blog/topics/sustainability/look-back-at-a-year-of-earth-engine-advancements, Accessed on February 25, 2025.
[22] LIU Shuaiqi, YUE Peng, XU Hanwen, et al. An OGC TrainingDML-AI approach for making EO training datasets ready in deep learning frameworks[C]//2023 11th International Conference on Agro-Geoinformatics (Agro-Geoinformatics). IEEE, 2023: 1-6.
[23] WANG Shaowen, ARMSTRONG M P. A theoretical approach to the use of cyberinfrastructure in geographical analysis[J]. International Journal of Geographical Information Science, 2009, 23(2): 169-193.
[24] YUE Peng. High-Performance Geocomputation[M]. Science Press, 2023.(乐鹏. 高性能地理计算. 科学出版社, 2023.)
[25] YUE Peng, SHANGGUAN Boyi, HU Lei, et al. Towards a training data model for artificial intelligence in earth observation[J]. International Journal of Geographical Information Science, 2022, 36(11): 2113-2137.
[26] GAO Fan, YUE Peng, CAO Zhipeng, et al. A multi-source spatio-temporal data cube for large-scale geospatial analysis[J]. International Journal of Geographical Information Science, 2022, 36(9): 1853-1884.
[27] Lewis A, Lacey J, Mecklenburg S, et al. CEOS analysis ready data for Land (CARD4L) overview[C]//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2018: 7407-7410.
[28] OGC, 2021. OGC Disaster Pilot 2021 Engineering Report, available at https://docs.ogc.org/per/21-064.html, Accessed on February 25, 2025.
[29] CAO Zhipeng, JIANG Liangcun, YUE Peng, et al. A large scale training sample database system for intelligent interpretation of remote sensing imagery[J]. Geo-Spatial Information Science, 2024, 27(5): 1489-1508.
[30] GAO Fan, YUE Peng, JIANG Liangcun, et al. GeoCube: A spatio-temporal cube toward massive and multi-source EO data analysis[J]. National Remote Sensing Bulletin, 2022, 26(6): 1051-1066.( 高凡,乐鹏,姜良存,等.GeoCube:面向大规模分析的多源对地观测时空立方体[J].遥感学报,2022,26(06):1051-1066.)
[31] LIU Ruixiang, YUE Peng, SHANGGUAN Boyi, et al. RTGDC: a real-time ingestion and processing approach in geospatial data cube for digital twin of earth[J]. International Journal of Digital Earth, 2024, 17(1): 2365386.
[32] YUE Peng, GAO Fan, SHANGGUAN Boyi, et al. A machine learning approach for predicting computational intensity and domain decomposition in parallel geoprocessing[J]. International Journal of Geographical Information Science, 2020, 34(11): 2243-2274.
[33] GAO Fan, LU Wei, GAN Linlu. A ConvNets-based method for computational intensity prediction and spatial domain decomposition[J]. Geomatics and Information Science of Wuhan University, 2024.(高凡, 路威, 甘麟露. 基于卷积神经网络的地理空间域计算强度预测与分解方法[J]. 武汉大学学报(信息科学版), 2024.)
[34] ZHANG Zhan, ZHANG Mi, GONG Jianya, et al. LuoJiaAI: A cloud-based artificial intelligence platform for remote sensing image interpretation[J]. Geo-Spatial Information Science, 2023, 26(2): 218-241.
[35] YUE Peng, WANG Kaixuan, XU Hanwen, et al. From Geospatial Data Cube to AI Cube: the Open Geospatial Engine (OGE) Approach[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2024, 10: 441-446.
[36] YUE Peng, LIU Ruixiang, SHANGGUAN Boyi, et al. GeoAI training data: model, quality, and services[J]. Geomatics and Information Science of Wuhan University, 2023, 48(10): 1616–1631. (乐鹏, 刘瑞祥, 上官博屹, 等. 地理人工智能样本: 模型, 质量与服务[J]. 武汉大学学报(信息科学版), 2023, 48(10): 1616–1631.)
来源:武汉大学信息遥感工程学院