sabinaNSDM

Contenidos

Resumen

El paquete de R sabinaNSDM genera modelos de distribución de especies jerárquicos anidados espacialmente (NSDMs) que integran modelos de distribución de especies (SDMs) en diferentes escalas espaciales (i.e. diferente extensión geográfica y resolución). Estos modelos están diseñados para resolver el truncamiento del nicho y producir predicciones más fiables que los SDMs tradicionales no jerárquicos. sabinaNSDM combina dos SDMs calibrados con ocurrencias de especies y covariables ambientales, uno a escala global y otro a escala regional. El modelo a escala global permite capturar nichos ecológicos amplios (normalmente climático), mientras que el modelo a escala regional permite incorporar factores que alteran la distribución de las especies a alta resolución y menores extensiones

sabinaNSDM optimiza la preparación de datos, calibración, integración y proyección de modelos. Automatiza (si es necesario) la generación de puntos de fondo, el thinning espacial de ocurrencias y ausencias de especies (si están disponibles), la selección de covariables, la creación de los modelos global y regional, y la generación de NSDMs (combinación del modelo global y regional) mediante dos enfoques (“covariate” y “multiply”). Los modelos de sabinaNSDM utilizan un enfoque de modelización de consenso (ensemble modelling) que combina múltiples técnicas estadísticas con el paquete biomod2, y la selección de covariables con el paquete covsel.

Más información en GitHub y en nuestro artículo publicado en Methods in Ecology and Evolution.

Introducción a sabinaNSDM

Introducción a sabinaNSDM: Un nuevo paquete de R para mejorar los modelos de la distribución de especies basado en modelos jerárquicos anidados espacialmente

Teresa Goicolea, Alejandra Zarzo

 Los Modelos de Distribución de Especies (SDMs, por sus siglas en inglés) son herramientas esenciales para que científicos y especialistas de la conservación puedan predecir dónde es probable encontrar especies, dónde han existido en el pasado y dónde podrían aparecer en el futuro. Ante problemas urgentes como el cambio climático y la pérdida de biodiversidad, generar predicciones precisas es más importante que nunca para identificar áreas clave para aplicar medidas de conservación. Sin embargo, los SDMs a menudo tienen problemas de precisión, especialmente debido al truncamiento de nicho y problemas de extrapolación ambiental.

Ahí es donde se encuadra el nuevo paquete de R sabinaNSDM. Diseñado por nuestro equipo de investigación SABINA, este paquete utiliza un nuevo enfoque para construir SDMs, conocido como modelos jerárquicos anidados espacialmente (N-SDMs). Al combinar patrones globales a gran escala con características regionales más finas, sabinaNSDM permite generar predicciones más precisas de las distribuciones de las especies. Esto convierte al nuevo paquete en un recurso potente para la planificación de la conservación y la investigación ecológica.

El problema con los SDMs tradicionales

Los SDMs estándar presentan un conjunto de limitaciones. La mayoría de los modelos se clasifican en una de dos categorías: regional o global.

  • Los modelos regionales se centran en áreas específicas, como un país o una región. Si bien pueden ofrecer información detallada sobre las condiciones locales, carecen de la perspectiva ambiental más amplia que da forma a la distribución de una especie. Esto lleva a lo que se llama el truncamiento de nicho, donde los modelos no consideran el rango completo de condiciones que una especie experimenta a lo largo de su distribución (es decir, el nicho ecológico). Estos modelos restringidos espacialmente también sufren de una mayor proporción de condiciones no análogas, lo que genera problemas al proyectar a otras áreas (por ejemplo, para predecir la expansión de especies invasoras) o períodos (para predecir el impacto del cambio climático en la distribución de especies).
  • Por otro lado, los modelos globales cubren todo el rango de una especie, pero a menudo se basan en datos poco detallados y de baja resolución. Además, suelen basarse únicamente en variables bioclimáticas, ya que otros factores ambientales no están disponibles a gran escala, y de datos de especies imprecisos. Como resultado, carecen de los detalles finos necesarios para predicciones localizadas precisas.

 La solución: Modelos de Distribución de Especies Anidados (N-SDMs)

Los SDMs jerárquicos anidados espacialmente (N-SDM) abordan estos problemas combinando la perspectiva amplia de los modelos globales con el detalle fino de los modelos regionales para obtener lo mejor de ambos. Los modelos globales proporcionan una visión general, capturando el nicho ecológico completo de una especie a lo largo de su rango y teniendo en cuenta factores como el clima a una resolución gruesa. Luego, los modelos regionales se centran en detalles más finos, como el uso del suelo o las condiciones de microhábitat y datos de distribución de especies más precisos, que suelen estar disponibles para áreas más pequeñas, como a nivel nacional. Estos detalles finos son críticos para hacer predicciones precisas y de alta resolución.

Figura. Ventajas (en verde) y limitaciones (en rojo) de los modelos tradicionales de distribución de especies (tanto a escala global como regional), en comparación con los beneficios de combinarlos en un Modelo de Distribución de Especies Jerárquico Anidado Espacialmente (N-SDM).

 Características clave del paquete sabinaNSDM

sabinaNSDM está diseñado para hacer que este enfoque N-SDM sea más accesible para investigadores y especialistas de la conservación. Aquí están algunas de sus características clave:

  1. Generar N-SDMs: El paquete combina modelos globales y regionales.
  2. Diferentes estrategias de anidamiento: Los usuarios pueden elegir entre dos métodos para combinar modelos: el enfoque de covariables, que utiliza la salida del modelo global como entrada para el modelo regional, o el enfoque múltiple, que promedia las predicciones global y regional.
  3. Modelos de consenso: sabinaNSDM utiliza modelos de consenso, una técnica que combina múltiples algoritmos estadísticos para aumentar la fiabilidad y precisión de las predicciones.
  4. Flujo de trabajo integral: el paquete es una herramienta que integra (a) la generación de datos de fondo; (b) la preparación y el filtrado espacial de ocurrencias de especies (y ausencias si están disponibles); (c) selección de covariables ambientales; y (d) calibración, evaluación y proyección de N-SDMs.
  5. Eficacia demostrada: En un estudio aplicado sobre 77 especies de árboles y arbustos en la Península Ibérica, sabinaNSDM superó a los SDMs tradicionales, ofreciendo predicciones más precisas de las distribuciones de estas especies.
  6. Código abierto y fácil de usar: sabinaNSDM está disponible de manera gratuita en GitHub, y estamos trabajando para que esté disponible en CRAN. Este paquete está diseñado para ser fácil de usar, lo que lo hace accesible para ecólogos y especialistas de la conservación con diversos niveles de experiencia en programación.

 Impacto en el mundo real

La capacidad de modelar con precisión las distribuciones de especies tiene consecuencias en el mundo real, y las capacidades mejoradas de modelado de sabinaNSDM pueden desempeñar un papel crucial para orientar de manera más efectiva los esfuerzos de conservación. Por ejemplo, el paquete puede predecir cómo el cambio climático podría alterar la distribución de las especies, guiar programas de restauración para señalar áreas con el mayor potencial para proteger la biodiversidad, o anticipar la propagación de especies invasoras. Una de nuestras aplicaciones clave ha sido crear un geoportal que muestra la distribución prevista de 200 especies de plantas leñosas en España bajo condiciones actuales y bajo cuatro escenarios climáticos futuros. El geoportal ofrece diversas aplicaciones prácticas como la generación de listas de los arbustos y árboles con la mayor idoneidad para ubicaciones específicas. Esto puede ayudar a informar los esfuerzos de restauración al identificar las especies más propensas a prosperar tanto ahora como en el futuro. sabinaNSDM ya ha demostrado su potencial en nuestro trabajo, y nos entusiasma ver cómo otros investigadores y especialistas de la conservación lo utilizan en sus proyectos.

 Empieza a usar sabinaNSDM

Si estás interesado en probar sabinaNSDM, puedes descargar el paquete y explorar sus características en nuestro repositorio de GitHub. Para una inmersión más profunda en su funcionamiento, consulta nuestro artículo publicado en Methods in Ecology and Evolution. También hemos incluido material suplementario y tutoriales para ayudarte a empezar a trabajar con modelos de una o varias especies. Si estás interesado en saber más sobre sabinaNSDM o tienes alguna pregunta, no dudes en ponerte en contacto.

Novedades de sabinaNSDM

5

Versión 1.1.0

Esta actualización incluye mejoras clave que hacen el flujo más flexible, rápido y fácil de usar, incluyendo:

  • Validación cruzada espacial: Nuevo argumento spatialCV para realizar validaciones cruzadas que respetan la estructura espacial de los datos. Esto ayuda a reducir el riesgo de sobreestimar el rendimiento de los modelos cuando las observaciones están espacialmente autocorrelacionadas.
  • Modelado a una sola escala: Ahora es posible ejecutar un flujo completo para un modelo simple (no anidado). Basta con proporcionar datos en los argumentos `regional` de `NSDM.InputData` (dejando la parte global como NULL) y seguir el flujo habitual [NSDM.InputData() -> NSDM.FormattingData() -> NSDM.SelectCovariates() -> NSDM.Regional()], lo que hace que el proceso sea más rápido y sencillo cuando no se requiere un diseño anidado.
  • Thinning optimizado: El proceso de reducción/adelgazamiento de ocurrencias y ausencias se ha optimizado dentro del paquete, eliminando dependencias externas y mejorando la velocidad.
  • Mapas de incertidumbre en ensembles: Se añade una nueva capa de salida (EMcv.tif) que muestra el coeficiente de variación (sd/media) entre modelos del ensemble. Permite identificar de forma clara las áreas con mayor consenso y aquellas con mayor discrepancia en las predicciones.

Versión 1.0.0

Primera versión pública de sabinaNSDM, presentada en Methods in Ecology and Evolution. Incluye el flujo completo del modelado jerárquico anidado:

  • Preparación y formateo de datos.
  • Selección de covariables ambientales.
  • Ajuste de modelos a escala global y regional.
  • Estrategias jerárquicas para combinar escalas: Covariate y Multiply.

Cómo citar sabinaNSDM

Mateo, R. G., Morales-Barbero, J., Zarzo-Arias, A., Lima, H., Gómez-Rubio, V., & Goicolea, T. (2024). sabinaNSDM: An R package for spatially nested hierarchical species distribution modelling. Methods in Ecology and Evolution, 15, 1796–1803. https://doi.org/10.1111/2041-210X.14417 DOI

Cómo instalar sabinaNSDM

library(remotes)
remotes::install_github("geoSABINA/sabinaNSDM")

Tutoriales

Ejemplos de uso

Preguntas frecuentes

  1. How do I install sabinaNSDM?
  2. How should I cite sabinaNSDM?
  3. How can I run a single-level (non-nested) model? Provide your data only in the regional argument of NSDM.InputData() (set the global input as NULL). Then follow the standard workflow: NSDM.InputData(regional = my_data) %>% NSDM.FormattingData() %>% NSDM.SelectCovariates() %>% NSDM.Regional()
  4. How do I run models in parallel for multiple species?
  5. Is there a minimum number of species occurrences required? No, it depends on the user. However, at least 15 occurrences are strongly recommended to ensure more robust and stable model fitting.
  6. What is the format of input data? Species occurrences should be provided as a data.frame with exactly two columns: x and y, representing the species presence coordinates. Do not include row names. The coordinate projection must match that of the environmental covariates.Environmental variables for each spatial scale (i.e., global and regional) should be provided as SpatRaster objects, with each band corresponding to a different covariate. The regional-scale SpatRaster must include all covariates present in the global-scale file, and may additionally include covariates that are only available at the regional level. Additionally, a regional-scale SpatRaster or a list of SpatRaster objects corresponding to the covariates used to project the models under one or more alternative scenarios (e.g., future climate projections) can be provided.
  7. How are background points generated? By default, background points are automatically created by the package if not provided in NSDM.InputData(). In this case, the NSDM.FormattingData() function generates 10,000 background points per scale (default, user-customizable), which can be randomly distributed (default) or stratified. Random method: background points are generated by selecting random cells from the environmental rasters at each scale and extracting their coordinates. Stratified method: based on a PCA of all environmental covariates. The first two principal components are divided into quartiles and combined to create 16 strata. Background points are then sampled randomly within each stratum in proportion to its area, using the sgsR R package (Goodbody et al., 2023).
  8. How do I generate uncertainty maps for ensemble models? rom version 1.1.0 onward, an additional raster layer EMcv.tif is produced automatically, showing the coefficient of variation (standard deviation / mean) across ensemble models. This allows users to easily identify areas of high consensus and areas with greater disagreement among models.
  9. What statistical algorithms are used? sabinaNSDM supports an ensemble approach using multiple algorithms. Currently implemented methods include: GAM (Generalized Additive Models) GBM (Generalized Boosted Models) GLM (Generalized Linear Models) MARS (Multivariate Adaptive Regression Splines) MAXNET (Maximum Entropy models) RF (Random Forests)
  10. What types of validation are used? By default, k-fold cross-validation is implemented, where the number of folds is user-defined. From version 1.1.0 onward, the package also supports block spatial cross-validation, where both the number of folds and block size are user-defined. This method accounts for spatial autocorrelation and provides more reliable model evaluation in spatially structured datasets.