Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura

Tesis (Doctor en Ciencias Agropecuarias) -- UNC- Facultad de Ciencias Agropecuarias, 2024

Bibliographic Details
Main Author: Suarez, Franco Marcelo
Other Authors: Córdoba, Mariano Augusto
Format: doctoralThesis
Language:spa
Published: 2024
Subjects:
Online Access:http://hdl.handle.net/11086/553312
_version_ 1808112634353942528
author Suarez, Franco Marcelo
author2 Córdoba, Mariano Augusto
author_facet Córdoba, Mariano Augusto
Suarez, Franco Marcelo
author_sort Suarez, Franco Marcelo
collection Repositorio Digital Universitario
description Tesis (Doctor en Ciencias Agropecuarias) -- UNC- Facultad de Ciencias Agropecuarias, 2024
format doctoralThesis
id rdu-unc.553312
institution Universidad Nacional de Cordoba
language spa
publishDate 2024
record_format dspace
spelling rdu-unc.5533122024-08-19T15:43:32Z Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura Suarez, Franco Marcelo Córdoba, Mariano Augusto Balzarini, Mónica Graciela Estadística Métodos estadísticos Análisis de datos Análisis multivariante Técnicas de predicción Cartografía SIG Tesis (Doctor en Ciencias Agropecuarias) -- UNC- Facultad de Ciencias Agropecuarias, 2024 Fil: Franco Marcelo Suarez. Universidad Católica de Córdoba. Facultad de Ciencias Agropecuarias; Argentina. Fil: Córdoba, Mariano Augusto. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Córdoba, Mariano Augusto. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Córdoba, Mariano Augusto. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Balzarini, Mónica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. La generación continua de datos en todas las áreas disciplinares demanda el desarrollo de nuevas metodologías estadísticas computacionales para su análisis. En agricultura, los modelos de aprendizaje automático (ML) tiene el potencial de impulsar aún más la investigación y el desarrollo de la producción inteligente y sostenible. El objetivo de esta tesis es el desarrollo de protocolos de análisis de datos que combine el uso de técnicas de ciencia de datos, del campo del análisis multivariado y ML, para el tratamiento de datos georreferenciados en agricultura. Se busca implementar y validar protocolos para la predicción espacial a dos escalas: intralote y regional. A escala intralote se comparó desempeño predictivo de bosques de regresión cuantílica (QRF), generalized boosted regression model (GBM), extreme gradient boosting (XGB), red neuronal de bases radial (RBFN), regresión por mínimos cuadrados parciales (PLSR), interpolación ponderada por la inversa de la distancia (IDW) y Kriging ordinario (KG) para mapear la variabilidad espacial del rendimiento en granos en el interior del lote. QRF redujo el error de predicción entre el 8 y 13% respecto al clásico KG, brindando además un buen mapa de incertidumbre de predicción. A nivel regional, se compararon estadísticamente combinaciones de métodos de selección de variables (Stepwise forward, Filtrado, Algoritmo genético, Boruta y LASSO con métodos de ajuste de modelos (regresión logística, RL y bosques aleatorios, RF) como herramientas que permiten usar variables climáticas en la predicción del riesgo de enfermedad en distintos patosistemas vegetales. El método Stepwise forward, junto con RL, generó modelos con menos variables y más precisos. Finalmente, se evaluó el impacto del tamaño de la muestra en la precisión de las predicciones espaciales a escala intralote (usando QRF y KG) y regional (usando RF y RL). Las métricas de rendimiento del modelo como la precisión aumentan más rápidamente al principio con el incremento de tamaño muestral independientemente del modelo utilizado. Los métodos de ML, como QRF y RF, mostraron una capacidad mayor para manejar diferentes tamaños de muestra. En conclusión, la integración de diferentes técnicas de análisis estadístico y de ML permitirán mejorar la precisión de la predicción tanto se trabaje a escala de lote como a escala regional. The continuous generation of data across all disciplinary areas demands the development of new computational statistical methodologies for its analysis. In agriculture, machine learning (ML) models have the potential to further drive research and the development of intelligent and sustainable production. The aim of this thesis is to develop data analysis protocols that combine the use of data science techniques from the field of multivariate analysis and ML for the treatment of georeferenced data in agriculture. The goal is to implement and validate protocols for spatial prediction at two scales: intra-field and regional. At the intra-field scale, the predictive performance of quantile regression forests (QRF), generalized boosted regression model (GBM), extreme gradient boosting (XGB), radial basis function network (RBFN), partial least squares regression (PLSR), inverse distance weighting interpolation (IDW), and ordinary kriging (KG) was compared to map the spatial variability of grain yield within the field. QRF reduced prediction error by 8 to 13% compared to the classical KG, also providing a good uncertainty map of the prediction. At the regional level, combinations of variable selection methods (Stepwise forward, Filtering, Genetic algorithm, Boruta, and LASSO) with model fitting methods (logistic regression, LR and random forests, RF) were statistically compared as tools that allow the use of climatic variables in predicting disease risk in different plant systems. The Stepwise forward method, together with LR, generated models with fewer and more precise variables. Finally, the impact of sample size on the precision of spatial predictions at the intra-field scale (using QRF and KG) and regional scale (using RF and LR) was evaluated. Model performance metrics such as precision increase more rapidly at first with the increase in sample size regardless of the model used. ML methods, such as QRF and RF, showed a greater capacity to handle different sample sizes. In conclusion, the integration of different statistical analysis and ML techniques will improve the precision of prediction whether working at the field or regional scale. Fil: Franco Marcelo Suarez. Universidad Católica de Córdoba. Facultad de Ciencias Agropecuarias; Argentina. Fil: Córdoba, Mariano Augusto. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Córdoba, Mariano Augusto. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Córdoba, Mariano Augusto. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Balzarini, Mónica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. 2024-08-16T14:12:25Z 2024-08-16T14:12:25Z 2024 doctoralThesis http://hdl.handle.net/11086/553312 spa Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ 115 p. : fotografías, mapas, gráficos, tablas color
spellingShingle Estadística
Métodos estadísticos
Análisis de datos
Análisis multivariante
Técnicas de predicción
Cartografía
SIG
Suarez, Franco Marcelo
Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_full Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_fullStr Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_full_unstemmed Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_short Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_sort avances estadisticos computacionales para procesar informacion georreferenciada con aplicacion en agricultura
topic Estadística
Métodos estadísticos
Análisis de datos
Análisis multivariante
Técnicas de predicción
Cartografía
SIG
url http://hdl.handle.net/11086/553312
work_keys_str_mv AT suarezfrancomarcelo avancesestadisticoscomputacionalesparaprocesarinformaciongeorreferenciadaconaplicacionenagricultura