DOI: http://dx.doi.org/10.13140/RG.2.2.27862.24645
ARTÍCULO ORIGINAL
Técnicas semánticas en la localización geoespacial de los suelos en Cuba utilizando medidas de similitud espacial
Semantic techniques in the spatial location of soils in Cuba using spatial similarity measures
Dr.C. Neili Machado-García,I M.Sc. Minelkis Machado-Molina,I M.Sc. C. Izarys Rodríguez-Lohuiz,I Dr.C. Carlos Balmaseda-Espinosa,II
IUniversidad Agraria de la Habana, Facultad de Ciencias Técnicas, Departamento de Informática, San José de las Lajas, Mayabeque, Cuba.
IIUniversidad Estatal Península de Santa Elena, Facultad de Ciencias Agrarias, Ecuador.
RESUMEN
Durante los últimos años, múltiples organizaciones se han dado a la tarea de recopilar información geográfica, la cual en diferentes contextos puede servir para diversos propósitos. Consecuentemente, localizar esta información se convierte en una prioridad para los usuarios que necesitan acceder a ella. En este trabajo se presenta un sistema de recuperación que manipula relaciones espaciales entre objetos geográficos y mejora la gestión de esta información. Esta propuesta introduce de forma novedosa las relaciones espaciales en la determinación de la similitud semántica entre conceptos geoespaciales para resolver consultas que combinan aspectos textuales y espaciales. Otra cualidad importante de este sistema es presentar de manera amigable los resultados, permitiendo navegar por la cartografía que proporciona el sistema. La información indexada puede ser consultada fácilmente por los usuarios y se visualiza de manera clara y organizada para el apoyo a la toma de decisiones. Esta herramienta puede ser utilizada tanto para la caracterización y localización geoespacial de los suelos, como para el manejo de los suelos agrícolas en Cuba.
Palabras clave: Relaciones espaciales, Similitud semántica, Ontología, Recuperación de Información Geográfica.
ABSTRACT
In last years, many organizations have been given the task of collecting geographic information, which can be used in different contexts for different purposes. Consequently, locating this information becomes a priority for users who need to access it. In this paper a recovery system that manipulates spatial relations between geographic objects is presented. This proposal introduces of novel way the spatial relations to determinate semantic similarity between concepts to solve geospatial queries combining textual and spatial aspects. Another important feature of this system is to present the results in a friendly way, allowing navigate the mapping provided by the system. The indexed information can be easily accessed by users and displayed in a clear and organized to support decision-making way. This tool can be used for both characterization and geospatial location of the soil, as for the management of agricultural soils in Cuba.
Key words: Spatial relation, Semantic similarity, Ontology, Geographic Information Retrieval.
INTRODUCCIÓN
En el dominio de la información geográfica el desarrollo de tecnologías para capturar información sobre la Tierra y el incremento en la distribución de los Sistemas de Información Geográfica (SIG) en la Web ha generado el almacenamiento de gran cantidad de información geoespacial. Debido a este gran cúmulo de información las técnicas de organización y búsqueda de la información geográfica han cobrado gran importancia para poder extraer de los datos toda la información útil que sea posible. Sin embargo, los datos geográficos poseen características específicas que dificultan su manipulación, la ubicación espacial, o sea el estar en una localización sobre la superficie de la tierra referida a un sistema de coordenadas, la temporalidad y las relaciones espaciales con otros objetos o datos, además, presentan gran heterogeneidad y volumen de almacenamiento.
Las ontologías han sido analizadas en la Geociencia como un procedimiento de estandarización que facilita la traducción entre diferentes fuentes de información (Batet et al., 2013; Gan et al., 2013). La similitud semántica es fundamental para este tipo de procesamiento de datos geoespaciales, establece el grado de interoperabilidad entre ellos o los diferentes SIG y constituyen las bases para la recuperación y la integración de información semántica (Janowicz et al., 2011; Li et al., 2012; Ballatore et al., 2013a, b).
La investigación dentro de la recuperación semántica de información geográfica enfrenta diversos retos como la extensión del enfoque sintáctico al semántico y espacial y la determinación de intención del usuario expresada en las consultas. Algunos autores sugieren un modelo de recuperación1, que integra un criterio semántico con criterios geoespaciales y en el que se propone como trabajos futuros complementar el modelo de recuperación con un módulo de Procesamiento de Lenguaje Natural, para procesar consultas y proponer componentes de análisis topológico a través de la implementación de medidas de similitud semántica, propuesta que coincide con la realizada por Harispe et al. (2015).
Larín (2013), desarrolla un método para la representación semántica multidimensional de objetos geoespaciales integrados en un entorno de Sistemas de Información Geográfica Gobernados por Ontologías (SIGGO). No obstante, no considera las relaciones topológicas.
En este trabajo se presenta un sistema de recuperación semántica de información geoespacial, el cual utiliza una ontología que conceptualiza la Nueva Clasificación Genética de los Suelos de Cuba (Hernández et al., 1999), y aplica la medida de similitud semántica DIS-C (Vizcarra et al., 2013),entre los conceptos representados para identificar y recuperar los elementos que comparten propiedades similares.
MATERIALES Y MÉTODOS
El principal objetivo de un sistema de recuperación de información geográfica es resolver consultas que combinen una componente textual y una componente espacial. En ambos casos es importante la interpretación de su semántica. La búsqueda en el sistema propuesto comienza con una solicitud del usuario (Figura 1). Para mejorar el criterio de búsqueda se puede especificar el tipo de relación.
El primer paso en la cadena de búsqueda introducida por el usuario consiste en identificar las entidades y posteriormente simplificar y normalizar las palabras de la consulta. Para este paso se utiliza el analizador morfológico Freeling (Atserias et al., 2006). Aquí hay una excepción con las palabras de paradas porque las preposiciones son fundamentales para identificar las relaciones espaciales.
Recuperación semántica de objetos geográficos
Para llevar a cabo la recuperación de la información geográfica se propone la API (en inglés Application Program Interface) de Jena que incluye un motor de inferencia basado en reglas. Con el puente que se genera entre Jena y Protégé (software editor de ontologías) se lleva a cabo la recuperación de las instancias de los conceptos geográficos.
Posteriormente se activan los términos similares a los términos de búsqueda. Para identificar los conceptos similares en la ontología se utiliza el algoritmo de DIS-C. La idea principal de este algoritmo es determinar el valor de la distancia conceptual entre cada uno de los tipos de relaciones en la ontología. Esto se logra al convertir esta última en un grafo dirigido y ponderado en el que cada concepto se convierte en un nodo y cada relación se convierte en un par de aristas. Una vez que se tiene el grafo, se calculan las distancias mínimas, con lo que se puede hallar la distancia entre conceptos que no se encuentran directamente relacionados.
Análisis espacial
Se realiza un análisis de los objetos espaciales recuperados. Para esto a cada objeto le corresponde una cadena de texto estándar, la cual es propuesta por la OGC (Open Geospatial Consortum - por sus siglas en inglés) para el intercambio de información geométrica denominada WKT (Well Known Text– por sus siglas en inglés). Esta cadena se encarga de enumerar todos los nodos y vértices que conforman un objeto espacial.
Las cadenas de texto WKT contienen un tipo de dato “primitivo” en las bases de datos extendidas espacialmente, como es el caso de PostGIS (Postgress + Extensiones GIS), por lo que se pueden almacenar en un campo dentro de cualquier tabla de la base de datos (BD). Una vez que se tiene la cadena WKT, se puede invocar a todos los métodos de análisis topológico y geométrico que soporta JTS, con el fin de calcular la similitud espacial.
El modelo TDD se implementa como una extensión del Plano de Coordenadas Paralelas (PCP-por sus siglas en inglés) (Inselberg, 1985). En esta implementación, PCP se trabaja con tres ejes que representan las relaciones topológicas, de dirección y de distancia.
Para visualizar las relaciones espaciales cualitativas, el eje vertical del PCP tradicional se reemplaza por una red del vecindario conceptual. En el eje de las relaciones topológicas, se representan seis nodos para los diferentes tipos de relaciones topológicas: igual, separado, adyacentes, superposición, contiene y cubre (Figura 2a).
Las longitudes de los arcos en el eje entre los nodos reflejan el peso definido en la red topológica. La relación entre el peso y la longitud métrica de cada arco en el eje se describe como:
(1)
Una excepción es el arco de contiene a “cubre a” en este caso el peso es 1, de “superposición” a los otros nodos es 2 y de “igual a” a otros nodos es 3. El análisis de las relaciones topológicas utiliza los métodos que soporta la API JTS a partir de la especificación de la OGC del DE-9IN (Dimensionally-Extended 9 IntersectionMatrix –por sus siglas en inglés).
En el eje de la relación de dirección (Figura 2(b)) las cinco relaciones son iguales, Este, Oeste, Noreste, Sureste, Norte, Sur, Noroeste y/o Suroeste. El peso puesto para cada arco es 2. Es posible establecer dichas relaciones con JTS porque se pueden considerar las coordenadas (x,y) del centroide de un objeto espacial directamente o de su polígono convexo. Después de comparar dichas coordenadas, y asumiendo que la región espacial en estudio está al Norte orientado hacia “arriba”, es fácil comparar la coordenada X de dos objetos geográficos y determinar la que tenga un valor mayor (más a la derecha) estará “al Este” de dicho objeto (que entonces está al Oeste).
De la misma forma, se pueden comparar las coordenadas Y de dos objetos geográficos y establecer el que tenga la coordenada con mayor valor (hacia arriba) entonces estará al Norte del otro objeto (que se encuentra al Sur).
El eje de la relación de distancia (ver Figura 2 (c)) representa geométricamente la distancia métrica con una línea y cuatro puntos que representan las cuatro relaciones de distancia: igual, cerca, medio y lejos.
Integración de los cri terios de recuperación
Debido a que se tienen definidos dos criterios en la valoración de la similitud, conceptual y espacial, es necesario establecer cómo se integrarán.
En la Figura 3 se visualiza que los valores más cercanos a cero satisfacen mejor la consulta del usuario. Para un objeto que satisface una consulta Oi, será representado como una tupla de Oi valores (ε, σ) en el espacio. Con las siguientes definiciones:
El valor de la similitud conceptual se define como el valor de similitud obtenido al aplicar el algoritmo DIS-C: si ε→0 si entonces el objeto Oies muy similar al buscado, si ε = 0 entonces el objeto satisface exactamente a la consulta.
El valor de la similitud espacial se define como el valor de similitud obtenido al aplicar el algoritmo TDD: si σ→0 entonces el objeto Oies muy similar, en cuanto a sus relaciones espaciales, al buscado, si σ = 0 entonces el objeto satisface exactamente a la consulta.
El valor de relevancia R, de cada resultado, es decir, cada punto en el espacio para la integración de criterios, es calculado como señala la ecuación 2:
(2)
Donde Cison los criterios de recuperación, wi los pesos asignados a cada criterio y n el número de criterios a utilizar en este caso n=2.
La ecuación 2 permite determinar los resultados que más se aproximan o satisfacen la consulta. De manera tal que, si Rw→1 entonces el resultado satisface totalmente la consulta. Según la Figura 3 el objeto es más satisfactorio por estar más próximo al origen. En este ejemplo, σ1<σ2 y ε1<ε2 .
RESULTADOS Y DISCUSIÓN
Los datos con los que se ha trabajado proceden de los mapas de suelos de la región de San José de Las Lajas en la provincia de Mayabeque, el mapa de la propia provincia de Mayabeque y el de la provincia de Pinar del Río, región occidental de Cuba.
Se tiene una superficie del municipio San José de Las Lajas que posee diversos tipos de temáticas. La región está compuesta por polígonos de tipos de suelos (Ps), por perfiles (Pf) y por elementos hidrológicos (Hd) dentro de los que se encuentran 21 objetos de tipo polígono, 1 objeto de tipo línea y 19 de tipo punto.
Además, se cuenta con 26 imágenes de los diferentes tipos de suelos que están representados en esos polígonos. Estas imágenes son utilizadas en la carrera de Ingeniería Agronómica, en la cual un alto porcentaje de sus asignaturas emplea este tipo de objeto como apoyo a los diferentes procesos de identificación y diagnóstico que se estudian en esta carrera.
Ontología espacial como estructura de indexación
La ontología propuesta modela este espacio conceptual, por lo que permite instanciar todos los objetos que se encuentran dentro de los mapas utilizados, así como las relaciones que existen entre ellos. Además, tiene instancias de los documentos y archivos con extensión .jpg que se encuentran almacenados en una base de datos relacional.
Una vez que se lanza la recuperación, es necesario seleccionar las instancias que representan objetos geográficos, con el objetivo de verificar si existe relación entre las mismas; entonces si se cumple esta condición se genera una parte de la descripción para este par de instancias. Por ejemplo, de acuerdo con el escenario presentado, el cual está compuesto de varios objetos geográficos, que reflejan una relación de existencia “es”: “R1 es Objeto Lineal”. Además, el concepto relación “Intersecta” está vinculado con R1 y varios de los polígonos de suelos; donde R1 es un objeto lineal e instancia del concepto “río”. A su vez, la relación “Intersecta” está generalizada como una relación topológica, que dentro de la ontología hereda de la clase “relación_geográfica”. De esta forma se instancian tanto las imágenes provenientes de la base de datos relacional como los objetos geográficos de la BD geográfica.
Recuperación semántica de información geoespacial
Para llevar a cabo la recuperación dentro del sistema propuesto por Machado et al. (2014), se implementaron las funcionalidades básicas existentes en los SIG convencionales accesibles a través de la barra de herramientas, estas son: carga y visualización de capas de datos, interacción con el mapa (Paneo, Zoom, Restablecer) y consulta a los datos.
La aplicación también posee un visor de mapas en el cual se pueden observar los datos cargados a través de su componente espacial permitiendo realizar búsquedas de información de los diferentes tipos de suelos. Al seleccionar la opción buscar, por ejemplo, si se lanza una búsqueda de determinado tipo de suelo “ferralítico rojo”, se recupera un mapa de la región en el cual se visualiza la localización de este tipo de suelo. Además, se mostrarán todas las imágenes relacionadas con la solicitud.
Con la implementación de esta aplicación se logra un ahorro de tiempo en la realización de los análisis espaciales. Esto es debido a que se eliminan una serie de pasos que conllevan a un gasto de tiempo. Además, se le simplifica el trabajo al usuario y se evita que cometa errores en la recuperación ya que no tiene que generar una consulta en lenguaje SQL, porque puede plantear su búsqueda en lenguaje natural.
En la Tabla 1 se presentan los resultados comparativos en cuanto a eficiencia de los métodos propuestos. Estos resultados ponen de manifiesto como las relaciones existentes entre los objetos, en este caso las relaciones topológicas, resultan útiles en tareas como la visualización automática de la clasificación de los suelos.
Los resultados demuestran que la recuperación de la información mediante el método propuesto aumenta la calidad de los análisis pues reduce los posibles errores en las operaciones que deben realizar, por ejemplo, al crear la consulta.
Estos resultados muestran que el uso de la ontología como una capa intermedia entre el sistema de recuperación y las fuentes de datos permite el manejo de los objetos a través de su representación conceptual (abstracción). Dando la posibilidad de que el sistema disponga de herramientas para el procesamiento semántico de los datos geoespaciales. Esto permite que los diferentes tipos de análisis realizados sobre esos tipos de datos puedan ser realizados tanto por especialistas como por usuarios no expertos en el uso de SIG.
CONCLUSIONES
La aplicación desarrollada utiliza las relaciones espaciales en la determinación de la similitud semántica entre conceptos geoespaciales para resolver consultas que combinan aspectos textuales y espaciales.
Los resultados de la búsqueda se presentan de manera amigable, permitiendo navegar por la cartografía que proporciona el sistema.
Con base en los elementos característicos identificados de los objetos geoespaciales se definió de forma inédita una ontología que conceptualiza la Nueva Versión de Clasificación Genética de los Suelos de Cuba con la anotación semántica de los mapas de suelos de las regiones de Pinar del Río, Mayabeque y San José de Las Lajas. Esta ontología permite simular el rol de un experto al que se le puede preguntar acerca de un tópico.
Se implementó un módulo con técnicas de Procesamiento del Lenguaje Natural para que pueda ser gestionado por personas NO expertas y una aplicación de experimentación en la cual se evaluaron los métodos propuestos.
NOTA
*La mención de marcas comerciales de equipos, instrumentos o materiales específicos obedece a propósitos de identificación, no existiendo ningún compromiso promocional con relación a los mismos, ni por los autores ni por el editor.
BIBLIOGRAFÍA
ATSERIAS, J.; CASAS, B.; COMELLES, E.; GONZÁLEZ, M.; PADRÓ, L.; PADRÓ, M.: “FreeLing 1.3: Syntactic and semantic services in an open-so urce NLP library”, [en línea], En: V International Conference on Language Resources and Evaluation, Ed. European Language Resources Association, Evaluation and Language resources Distribution Agency, Istituto di Linguistica Computazionale, Genoa, Italy, pp. 2281-2286, 2006, Disponible en: http://www.lrec-conf.org/proceedings/lrec2006/pdf/198_pdf.pdf, [Consulta: 21 de septiembre de 2016].
BALLATORE, A.; BERTOLOTTO, M.; WILSON, D.C.: “Geographic knowledge extraction and semantic similarity in OpenStreetMap”, Knowledge and Information Systems, 37(1): 61-81, octubre de 2013a, ISSN: 0219-1377, 0219-3116, DOI: http://dx.doi.org/10.1007/s10115-012-0571-0.
BALLATORE, A.; WILSON, D.C.; BERTOLOTTO, M.: “Computing the semantic similarity of geographic terms using volunteered lexical definitions”, International Journal of Geographical Information Science, 27(10): 2099-2118, octubre de 2013b, ISSN: 1365-8816, 1362-3087, DOI: http://dx.doi.org/10.1080/13658816.2013.790548.
BATET, M.; SÁNCHEZ, D.; VALLS, A.; GIBERT, K.: “Semantic similarity estimation from multiple ontologies”, Applied Intelligence, 38(1): 29-44, enero de 2013, ISSN: 0924-669X, 1573-7497, DOI: http://dx.doi.org/10.1007/s10489-012-0355-y.
GAN, M.; DOU, X.; JIANG, R.: “From Ontology to Semantic Similarity: Calculation of Ontology-Based Semantic Similarity”, The Scientific World Journal, 2013: 1-11, 2013, ISSN: 1537-744X, DOI: http://dx.doi.org/10.1155/2013/793091.
HARISPE, S.; RANWEZ, S.; JANAQI, S.; MONTMAIN, J.: “Semantic Similarity from Natural Language and Ontology Analysis”, Synthesis Lectures on Human Language Technologies, 8(1): 1-254, 23 de mayo de 2015, ISSN: 1947-4040, 1947-4059, DOI: http://dx.doi.org/10.2200/S00639ED1V01Y201504HLT027.
HERNÁNDEZ, J.A.; PÉREZ, J.M.; BOSCH, D.; RIVERO, L.; CAMACHO, E.; RUÍZ, J.; SALGADO, E.J.; MARSÁN, R.; OBREGÓN, A.; TORRES, J.M.; GONZÁLES, J.E.; ORELLANA, R.; PANEQUE, J.; RUIZ, J.M.; MESA, A.; FUENTES, E.; DURÁN, J.L.; PENA, J.; CID, G.; PONCE DE LEÓN, D.; HERNÁNDEZ, M.; FRÓMETA, E.; FERNÁNDEZ, L.; GARCÉS, N.; MORALES, M.; SUÁREZ, E.; MARTÍNEZ, E.: Nueva versión de clasificación genética de los suelos de Cuba, Ed. AGROINFOR, La Habana, Cuba, 64 p., 1999, ISBN: 959-246-022-1.
INSELBERG, A.: “The plane with parallel coordinates”, The Visual Computer, 1(2): 69-91, agosto de 1985, ISSN: 0178-2789, 1432-2315, DOI: http://dx.doi.org/10.1007/BF01898350.
JANOWICZ, K.; RAUBAL, M.; KUHN, W.: “The semantics of similarity in geographic information retrieval”, Journal of Spatial Information Science, 2011(2): 29-57, 25 de mayo de 2011, ISSN: 1948-660X, DOI: http://dx.doi.org/10.5311/JOSIS.2011.2.26.
LARÍN, R.: Nuevo tipo de ontología para la representación semántica de objetos espaciales, Ed. CENATAV, La Habana, Cuba, 2013.
LI, W.; RASKIN, R.; GOODCHILD, M.F.: “Semantic similarity measurement based on knowledge mining: an artificial neural net approach”, International Journal of Geographical Information Science, 26(8): 1415-1435, agosto de 2012, ISSN: 1365-8816, 1362-3087, DOI: http://dx.doi.org/10.1080/13658816.2011.635595.
MACHADO, G.N.; GONZÁLEZ, R.L.; BALMASEDA, E.C.: “Recuperación de objetos geoespaciales utilizando medidas de similitud semántica”, Revista Cubana de Ciencias Informáticas, 8(2): 132-144, junio de 2014, ISSN: 2227-1899.
VIZCARRA, J.; TORRES, M.; QUINTERO, R.; MORENO-IBARRA, M.: “SemGsearch: An Approach to Semantically Retrieve Geospatialobjects from Different Geographic Servers”, Journal of Web Engineering, 12(5): 403–421, octubre de 2013, ISSN: 1540-9589.
Recibido: 28/12/2015
Aprobado: 08/07/2016
Neili Machado-García, Prof. Titular, Universidad Agraria de la Habana, Facultad de Ciencias Técnicas, Departamento de Informática, San José de las Lajas, Mayabeque, Cuba. Email: neili@unah.edu.cu