Decision Trees for Estrus Prediction in Bovine Cattle

^iDNeylis Chávez Millares^*✉:neyliscm@gmail.com

^iDYusney Marrero García

^iDLilibeth Mercedes González Ruiz

Universidad Agraria de La Habana, San José de Las Lajas, Mayabeque, Cuba. E-mail: yusneym@unah.edu.cu; lilibeth@unah.edu.cu

^{^*}Author for correspondence: Neylis Chávez Millares, e-mail: neyliscm@gmail.com

Abstract

Artificial Intelligence enables the transformation of bovine reproduction by providing tools for early estrus detection, including decision trees. In Cuba, Artificial Intelligence is being introduced as part of the digital transformation process. In this research, the objective was to determine the most appropriate machine learning algorithm for predicting estrus in cattle belonging to the “El Guayabal” University Farm. Three machine learning tools were identified for the selection analysis: Random Forest, XGBoost, and CART, taking into account the particularities of each algorithm. The analysis revealed that CART is the most suitable option for the research scenario, standing out for its low resource consumption, flexibility, and accuracy in processing small to moderate-sized data sets.

Keywords:

Machine Learning, Artificial Intelligence, Regression, CART, Estrus

Received: 03/9/2025; Accepted: 31/1/2026

Conflict of interests: The authors of this work declare no conflict of interests.

Author Contributions: Conceptualization: Neylis Chávez, Yusney Marrero. Data curation, Formal analysis, Methodology, Writing, original draft: Neylis Chávez. Investigation, Supervision, Writing, review & editing: Neylis Chávez, Yusney Marrero, Lilibeth González.

The mention of trademarks of specific equipment, instruments or materials is for identification purposes, there being no promotional commitment in relation to them, neither by the authors nor by the publisher.

This article is under license Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

CONTENT

Development of the Topic

⌅

Artificial insemination in bovines and estrus detection

⌅

Artificial insemination emerged with the aim of improving animal reproduction, controlling diseases, and preserving genetic diversity (Hafez y Hafez, 2000HAFEZ, E. S. E.; HAFEZ, B.: Reproduction in Farm Animals (7th ed.). 2000. Disponible en: https://cuvas.edu.pk/cuvas_libraries/ebooks/Reproduction%20In%20Farm%20Animals%20HAFEEZ.pdf; Foote, 2002FOOTE, R. H.: "The history of artificial insemination: Selected notes and notables". Journal of Animal Science, 80 (2), 1-10, 2002. Disponible en: https://www.asas.org/docs/default-source/midwest/mw2020/publications/footehist.pdf?sfvrsn=59da6c07_0; Thibier, 2005THIBIER, M.: "The zootechnical applications of biotechnology in animal reproduction: current methods and perspectives". Reproduction Nutrition Development, 45, 235-242, 2005. DOI: https://doi.org/10.1051/rnd:2005016). Since its inception, it has evolved into a key tool for increasing milk and meat production in bovine cattle, responding to the growing global demand for food (Hoyos et al., 2023HOYOS, J. F.; VELÁSQUEZ, B. L.; RICO, D.; GARCÍA, N.: "Impacto transformador de la inteligencia artificial y aprendizaje autónomo en la producción agropecuaria: un enfoque en la sostenibilidad y eficiencia". Revista Formación Estratégica, 7 (1), 2023. Disponible en https://formacionestrategica.com/index.php/foes/article/view/111/80. ISSN: 2805-9832.). Currently, there is a need to introduce new technologies that optimize this process and make it more efficient.

The reproductive development of female bovines goes through important stages such as heifer, calf, and cow, where essential changes occur to reach sexual maturity. The first estrus usually appears in the heifer stage, although it can vary between 9 and 15 months of age (Montes de Oca, 2016MONTES DE OCA, E. A.: Desarrollo histórico y tendencial de la ganadería vacuna en la Isla de la Juventud: período 1573-actualidad. [Tesis de Maestría, Universidad de La Habana]. 2016. Disponible en: https://accesoabierto.uh.cu/files/original/2134433/Elvira_Aleida_Montes_de_Oca_Garcia_[2017].pdf). The estrous cycle, which lasts an average of 21 days, is divided into two phases: luteal and follicular, each with two specific stages. Ovulation occurs during estrus, considered the beginning of the cycle, and lasts approximately 12 to 18 hours, which makes it difficult to detect due to its brevity (Carvajal et al., 2020CARVAJAL, A. M.; MARTÍNEZ, M. E.; TAPIA, M.: "Ciclo estral en la hembra bovina y su importancia reproductiva". INIA, 246, 2020. ).

During estrus, cows exhibit characteristic behaviors such as receptivity to mounting, restlessness, decreased milk production, genital licking, reduced food intake, and physical changes such as vulvar edema or mucus secretion (Hernández y Ortega, 2009HERNÁNDEZ, J.; ORTEGA, A.: Manual de Inseminación Artificial en Bovinos., Ed. Universidad Nacional Autónoma de México, México D.F., 2009.; Strappini et al., 2015STRAPPINI, A.C.; NORAMBUENA, L.; MATAMALA, F.: Importancia de la detección de celo utilizando métodos amigables con el bienestar animal, Inst. XXXVIII Reunión Científica Anual de la Asociación Peruana de Producción Animal, Perú, 2015.; Ávila, 2024ÁVILA, I.M.: Incidencia de factores intrínsecos y extrínsecos en la efectividad reproductiva mediante la inseminación artificial en las parroquias de salcedo en el período 2023., Universidad Técnica de Cotopaxi]. Ecuador., Tesis de Grado, Cotopaxi, Ecuador, 2024. ). However, factors such as the inexperience of the observer, the environment, or stress can make identification difficult. Correct estrus detection brings significant benefits: higher birth rates, increased milk production, and reduced costs for artificial insemination (Strappini et al., 2015STRAPPINI, A.C.; NORAMBUENA, L.; MATAMALA, F.: Importancia de la detección de celo utilizando métodos amigables con el bienestar animal, Inst. XXXVIII Reunión Científica Anual de la Asociación Peruana de Producción Animal, Perú, 2015.).

Methods and errors in estrus detection

⌅

Methods for detecting estrus in bovines are classified as visual, non-visual, electronic, and chemical (Ortiz y Avila, 2020ORTIZ, S. D.; AVILA, K. Y.: Fundamentos y métodos actuales de detección de celo en bovinos. [Tesis de Grado, Universidad Cooperativa de Colombia]. Colombia, 2020. ). Visual methods include direct observation, mounting detection tags, rump-attached ampoules, marker crayons, and the use bulls as detectors. Non-visual methods include physiological changes such as temperature and hormonal activity, while electronic methods use pedometers, microchips, and surveillance cameras, often supplemented with software that records and reports activities. Chemical methods include androgenization and hormone implants. Observation remains the most viable method due to its low cost and effectiveness, provided that the watcher is trained and conducts frequent inspections (Hernández y Ortega, 2009HERNÁNDEZ, J.; ORTEGA, A.: Manual de Inseminación Artificial en Bovinos., Ed. Universidad Nacional Autónoma de México, México D.F., 2009.).

Despite the implementation of these technological advances, there are still failures in estrus detection. Among the main factors that cause errors are anestrus, caused by poor nutrition, stress, reproductive diseases, genetics, or ovarian cysts; the inexperience of the observer; silent estrus, in which some females do not show visible symptoms; and the absence of monitoring of the estrous cycle and the post-insemination process, according to the criteria provided by Hernández y Ortega (2009)HERNÁNDEZ, J.; ORTEGA, A.: Manual de Inseminación Artificial en Bovinos., Ed. Universidad Nacional Autónoma de México, México D.F., 2009. and Jiménez (2010)JIMÉNEZ, D.: Técnicas de Inseminación Artificial aplicadas en bovinos. [Tesis de Grado, Universidad Autónoma Agraria "Antonio Narro"]. México, 2010. . To reduce these problems, advanced technologies capable of identifying animal behavior have been incorporated, and the application of AI in bovine reproduction is being explored (Strappini et al., 2015STRAPPINI, A.C.; NORAMBUENA, L.; MATAMALA, F.: Importancia de la detección de celo utilizando métodos amigables con el bienestar animal, Inst. XXXVIII Reunión Científica Anual de la Asociación Peruana de Producción Animal, Perú, 2015.), although its implementation still faces challenges.

Challenges, applications, and impact of Artificial Intelligence in bovine reproduction

⌅

Bovine reproduction continues to be a developing field for the incorporation of new technologies, which is why AI faces challenges in this sector, including resistance to change on the part of livestock farmers (Álvarez, 2024 ÁLVAREZ, S.: “Luces, sombras y riesgos de la inteligencia artificial”, PAPELES de relaciones ecosociales y cambio global, 164: 5-12, 2024.), high implementation costs (Patel y Prajapati, 2018PATEL, H. H.; PRAJAPATI, P.: "Study and Analysis of Decision Tree Based Classification Algorithms". International Journal of Computer Sciences and Engineering, 6(10), 2018.), the need for staff training, and the requirements for large volumes of data along with advanced storage and processing equipment. Despite these limitations, AI offers significant benefits when applied to processes such as genetic improvement, disease prediction and prevention, monitoring and pattern analysis for estrus detection, integration with electronic devices for real-time tracking, and optimization of artificial insemination (Chávez et al., 2024CHÁVEZ, N.; GONZÁLEZ, R.; MARRERO, Y.; GONZÁLEZ, L. M.: "La Inteligencia Artificial en la Reproducción Bovina", Ciencias Universitarias, 22. 2024. Disponible en: https://revistas.unah.edu.cu/index.php/cu), contributing to greater accuracy, efficiency in livestock reproduction, and decision-making.

AI applied to bovine reproduction offers multiple benefits to the livestock sector. It allows for more accurate identification of the optimal time for insemination, optimizes the selection of high-quality embryos, and enables constant monitoring of bovine cattle health to detect problems early (González et al., 2018GONZÁLEZ, N.; LEYVA, M. Y.; FAGGONI, K. M.; ÁLVAREZ, P. J.: "Estudio comparado de las técnicas de Inteligencia Artificial para el diagnóstico de enfermedades en la ganadería". Sistemas, Cibernética e Informática, 15(2), 2018.; Perdigón y González, 2021PERDIGÓN, R.; GONZÁLEZ, N.: "Comparación y selección de técnicas de inteligencia artificial para pronosticar las producciones de leche bovina". Revista Cubana de Ciencias Informáticas, 15(2), 24-43, 2021. ). In addition, process automation reduces human error and improves operational efficiency, while predictive analytics and assisted genetic selection increase herd productivity and sustainability. Together, these applications strengthen strategic decision-making, enhance animal welfare, and contribute to more profitable and efficient cattle production management (Horrach et al., 2020HORRACH, M. N.; BERTOT, J. A.; VÁZQUEZ, R.; GARAY, M.: "Eficiencia reproductiva de sistemas vacunos en inseminación artificial. Tendencias actuales y perspectivas". Revista de Producción Animal, 32 (3), 2020. Disponible en; https://revistas.reduc.edu.cu/index.php/rpa/article/view/e3592).

Currently, bovine reproduction is focused on milk production, making it essential to promote AI techniques in this area in order to increase production levels (Perdigón y González, 2021PERDIGÓN, R.; GONZÁLEZ, N.: "Comparación y selección de técnicas de inteligencia artificial para pronosticar las producciones de leche bovina". Revista Cubana de Ciencias Informáticas, 15(2), 24-43, 2021. ). Its incorporation into digital transformation and cattle reproduction seeks to respond to the needs for progress and development, proposing strategies that allow the advantages of these technologies to be exploited to improve production and efficiency in livestock farming (Bekara y Bareille, 2019BEKARA, M.E.A.; BAREILLE, N.: “Quantification by simulation of the effect of herd management practices and cow fertility on the reproductive and economic performance of Holstein dairy herds”, Journal of dairy science, 102(10): 9435-9457, 2019, ISSN: 0022-0302.. DOI: https://doi.org/10.3168/jds.2018-15484 ).

Among the AI techniques applicable to bovine reproduction, the following stand out: machine learning, which allows data to be processed and analyzed using different types of algorithms (Hinestroza, 2018HINESTROZA RAMÍREZ, D.: “El Machine Learning a través de los tiempos, y los aportes a la humanidad”, 2018.); Bayesian networks, useful for decision-making under uncertainty (Rodríguez y Dolado, 2007RODRÍGUEZ, D.; DOLADO, J.: Redes Bayesianas en la Ingeniería del Software. 1-21, 2007. ); vector support machines, which optimize data classification (Resendiz, 2006RESENDIZ, J. A.: Las maquinas de vectores de soporte para identificación en línea. [Máster en Control Automático, Centro de Investigaciones del Instituto Politécnico Nacional de México], México, 2006. ); and decision trees, used in classification and regression tasks (Martí et al., 2022MARTÍ, A.; MILBERBERG, A.; MARESA, D.; PRIETO, A. S.; LLANES-SANTIAGO, O.: "Propuesta de metodología para el diagnóstico de fallos basado en árboles de dicisión y lógica difusa". Revista de Ingeniería Electrónica, Automática y Comunicaciones, 43(2), 2022. ). According to Souza y de Oliveira (2022)SOUZA, V.; DE OLIVEIRA, G.: "Application of Articial Intelligence in Cattle Farming: A Scope Review". Revista electrónica de Veterinaria (REDVET), 23 (2), 2022. Disponible en https://veterinaria.org/index.php/REDVET/article/download/160/37/. ISSN: 1695-7504., these techniques can be applied to accurate estrus detection, animal health monitoring, genetic selection of embryos, optimization of artificial insemination, analysis of large volumes of genetic data, and improvement of reproductive efficiency.

Decision trees represent a simple solution and offer robust results. Their advantages include ease of interpretation of results, rapid translation into principles applicable to production, the ability to classify both categorical and numerical data, and the absence of prior assumptions about the shape of the data or the behavior of the model (Taha y Mohsin, 2021TAHA, B.; Y MOHSIN, A.: "Classification Based on Decision Tree Algorithm for Machine Learning". Journal of Applied and Technology Trends, 02(01), 20-28, 2021. Disponible en: https://www.jastt.org/index.php/jasttpath/article/view/65). Furthermore, they do not require many resources, making them a quick and efficient option for moderately sized data sets (Bouza y Santiago, 2012BOUZA, C. N.; SANTIAGO, A.: "La minería de datos: Árboles de Decisión y su aliación en estudios médicos". Modelación Matemática de Fenómenos del Medio Ambiente y la Salud, 2, 64-78, 2012. Disponible en: https://rideca.cs.buap.mx/web/files/articulo_itBUo0uWlAaJENf.pdf].).

Decision tree for regression

⌅

Decision trees for regression are non-parametric tools that allow information to be predicted by dividing data into smaller segments based on specific characteristics. They are composed of decision nodes and leaf nodes that represent categories or values, facilitating classification and regression (Ghiasi et al., 2020GHIASI, M. M.; ZENDEHBOUDI, S.; MOHSENIPOUR, A. A.: "Decision tree-based diagnosis of coronary artery disease: CART model". Computer Methods and Programs in Biomedicine, 192. 2020. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S0169260719308971]; Taha y Mohsin, 2021TAHA, B.; Y MOHSIN, A.: "Classification Based on Decision Tree Algorithm for Machine Learning". Journal of Applied and Technology Trends, 02(01), 20-28, 2021. Disponible en: https://www.jastt.org/index.php/jasttpath/article/view/65). These tools are notable for their accuracy in data analysis and process optimization (Barrientos et al., 2009BARRIENTOS, R. E.; CRUZ, N.; ACOSTA, H. G.; IVONNE, R.; GOGEASCOECHEA, M.; PAVÓN, P.; BELÁZQUEZ, S. L.: "Árboles de decisión como herramienta en el diagnóstico médico". Revista Médica de la Universidad Veracruzana, 9(2), 2009. Disponible en: https://www.soporte.uv.mx/rm/num_anteriores/revmedica_vol9_num2/articulos/arboles.pdf; Martí et al., 2022MARTÍ, A.; MILBERBERG, A.; MARESA, D.; PRIETO, A. S.; LLANES-SANTIAGO, O.: "Propuesta de metodología para el diagnóstico de fallos basado en árboles de dicisión y lógica difusa". Revista de Ingeniería Electrónica, Automática y Comunicaciones, 43(2), 2022. ). They can also be combined with other models to improve their accuracy (Kotsiantis, 2013KOTSIANTIS, S. B.: "Decision trees: a recent overview". Artificial Intellence Review, 39(4), 261-283, 2013. Disponible en: https://link.springer.com/article/10.1007/s10462-011-9272-4#citeas].) and are constructed by grouping homogeneous data that allow modeling relationships between dependent and independent variables (Kocarık y Deveci, 2020KOCARIK, B.; DEVECI, İ.: "Regresyon Analizleri mi Karar Ağaçları mı?" Manisa Celal Bayar Üniversitesi Sosyal Bilimler Dergisi, 18 (4), 251-260, 2020. ISSN: 1304-4796.). However, they have disadvantages such as a tendency to overfit when the tree is too deep and increased computational complexity as the training sample size increases (Taha y Mohsin, 2021TAHA, B.; Y MOHSIN, A.: "Classification Based on Decision Tree Algorithm for Machine Learning". Journal of Applied and Technology Trends, 02(01), 20-28, 2021. Disponible en: https://www.jastt.org/index.php/jasttpath/article/view/65).

In addition to decision trees, there are other regression models such as support vector regression, artificial neural networks, and logistic regression. Each has different resource requirements and levels of accuracy (Perdigón y González, 2021PERDIGÓN, R.; GONZÁLEZ, N.: "Comparación y selección de técnicas de inteligencia artificial para pronosticar las producciones de leche bovina". Revista Cubana de Ciencias Informáticas, 15(2), 24-43, 2021. ; Shafiee et al., 2021SHAFIEE, S.; LIED, L. M.; BURUD, I.; DIESETH, J. A.; MUATH, A.: "Sequential forward selection an dsupport vector regression in comparison to LASSO regression for spring wheat yield prediction based on UAV imagery". Computers and Electronics in Agriculture, 183, 2021. DOI: https://doi.org/10.1016/j.compag.2021.106036. ISSN: 0168-1699.; Olascoaga-Del Angel et al., 2022OLASCOAGA-DEL ANGEL, K. S.; KONIGSBERG-FAINSTEIN, M.; PÉREZ-VILLANUEVA, J.; LÓPEZ, N. E.: "Uso de la inteligencia artificial en la investigación para el reposicionamiento de fármacos". TIP Revista Especializada en Ciencias Químico-Biológicas, 25, 1-17. 2022. DOI: https://doi.org/10.22201/fesz.23958723e.2022.450). In terms of specific decision tree algorithms, CART, Random Forest, and XGBoost stand out. CART is valued for its simplicity and ability to handle moderate amounts of data with high accuracy, while Random Forest and XGBoost are less efficient with moderate-sized datasets, although they offer greater robustness in more complex scenarios (Ejea, 2017EJEA, D. G.: Árboles de Regresión. Algunos algoritmos y extensiones a métodos de consenso. [Tesis de Grado, Universidad de Zaragoza]. 2017. Disponible en: https://zaguan.unizar.es/record/63779/files/TAZ-TFG-2017-4733.pdf). Taking into account the analysis carried out, the CART method is selected because, due to its characteristics, it is well suited to the scenario described above.

CART method

⌅

The CART machine learning method belongs to the supervised learning group and is used for both data classification and regression. It is characterized by its flexibility, as it can learn from training sets and reuse parameters in different sections of the model, allowing it to identify complex interdependencies between variables (Ghiasi et al., 2020GHIASI, M. M.; ZENDEHBOUDI, S.; MOHSENIPOUR, A. A.: "Decision tree-based diagnosis of coronary artery disease: CART model". Computer Methods and Programs in Biomedicine, 192. 2020. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S0169260719308971]). Its construction is based on division criteria that seek to minimize prediction error and generate homogeneous nodes, thus facilitating data analysis.

Among its main advantages are the ease of interpreting results, the ability to handle categorical variables without the need for coding, and the possibility of identifying nonlinear relationships and modeling complex patterns (Pérez, 2024PÉREZ, A.: Detección de Patrones de Fallas de Automóviles Basada en Técnicas de Aprendizaje automático y Bases de Conocimiento. [Tesis de Maestría, Benemérita Universidad Autónoma de Puebla]. México, 2024. Disponible en: https://repositorioinstitucional.buap.mx/server/api/core/bitstreams/8c9719a0-939c-4e74-8c45-2b089e0b88d5/content). In addition, CART does not require large volumes of data for training, making it an efficient and low-cost tool in terms of technological resources. To develop a CART-based model, three fundamental processes must be carried out: training, evaluation, and model adjustment.

The process of training a decision tree model begins with the collection and preparation of well-structured data, which is then divided into two subsets: training and testing (García, 2023GARCÍA, C.: Aplicación para predecir afluencia de gente en las calles de Madrid. [Tesis de Grado, Escuela Técnica Superior de Ingeniería y Sistema de Telecomunicación]. 2023. Disponible en: https://oa.upm.es/77956/1/PFG_GARCIA_CALVO_CRISTINA.pdf). The training set, which should contain most of the records, is used to teach the model to identify relationships between variables, apply division criteria, and detect patterns that enable it to generate accurate predictions. The test set, although smaller, must be representative of the total data, as its function is to evaluate the model's ability to generalize and verify the reliability of its results. The division can be done randomly or intentionally, but it must always ensure a balance between the different classes of the model (Trujillano et al., 2008TRUJILLANO, J.; SARRIA-SANTAMERA, A.; ESQUERDA, A.; BADIA, M.; PALMA, M.; MARCH, J.: "Aproximación a la metodología basada en árboles de decisión (CART). Mortalidad hospitalaria del infarto agudo de miocardio". Gac Sanit, 22(1), 65-72, 2008.). A common practice is to assign approximately 80% of the data to training and 20% to the test set, which ensures that the model has enough records to learn without losing its validation capacity. This process is essential to avoid bias, reduce errors, and ensure that the model can be successfully applied in new scenarios, becoming a reliable tool for prediction and data analysis.

During the model evaluation process, it is essential to monitor errors in its performance and learning capability. A high training error indicates learning difficulties, which may be due to insufficient or noisy data and reflects high bias. In contrast, a low error suggests that the model has correctly captured the relationships between the data, although it is necessary to analyze the test set to detect possible cases of overfitting (Benitez et al., 2018BENITEZ, R.; CENCERRADO, A.; ESCUDERO, G.; KANAAN, S.: Inteligencia Artificial Avanzada (Vol. 1). Universitat Oberta de Catalunya, 2018. Disponible en: https://openaccess.uoc.edu/bitstream/10609/140427/8/Inteligencia%20artificial%20avanzada_M%C3%B3dulo%201_Inteligencia%20artificial%20avanzada.pdf). This phenomenon occurs when the model learns not only the patterns but also the noise in the training data, generating high variance and poor performance on new data. To avoid this, techniques such as cross-validation and regularization are used, which help to build more robust models that are capable of generalizing adequately (Hernández, 2022HERNÁNDEZ, L.: Análisis predictivo de funcionamiento de Sistema Híbrido Off Grid mediante Machine Learning. [Tesis de Grado, Escuela Técnica Superior de Ingeniería y Sistema de Telecomunicación]. Madrid, España, 2022. Disponible en: https://oa.upm.es/72650/1/TFG_LAURA_HERNANDEZ_CUBO.pdf).

Evaluating the performance of a regression model requires a thorough analysis of both the training and test sets, comparing performance metrics to measure its generalization ability (Pérez, 2024PÉREZ, A.: Detección de Patrones de Fallas de Automóviles Basada en Técnicas de Aprendizaje automático y Bases de Conocimiento. [Tesis de Maestría, Benemérita Universidad Autónoma de Puebla]. México, 2024. Disponible en: https://repositorioinstitucional.buap.mx/server/api/core/bitstreams/8c9719a0-939c-4e74-8c45-2b089e0b88d5/content). Methods such as cross-validation allow the data to be divided into multiple folds and more accurate and reliable results to be obtained. In addition, acceptance criteria based on error thresholds can be established to determine model accuracy and differentiate between correct and incorrect predictions (Vivaracho-Pascual et al., 2016VIVARACHO-PASCUAL, C.; SIMON-HURTADO, A.; MANSO-MARTINEZ, E.; PASCUAL-GASPAR, J. M.: "Client Threshold Prediction in Biometric Signature Recognition by Means of Multiple Linear Regression and Its Use for Scrore Normalization". The Journal of the Pattern Recognition Society, 55, 1-13, 2016. DOI: https://doi.org/10.1016/j.patcog.2016.02.007). This evaluation stage facilitates hyperparameter tuning, which helps improve the quality of predictions and optimize model performance.

Decision trees can be affected by problems such as overfitting, especially when there are unbalanced classes in the data (Ghiasi et al., 2020GHIASI, M. M.; ZENDEHBOUDI, S.; MOHSENIPOUR, A. A.: "Decision tree-based diagnosis of coronary artery disease: CART model". Computer Methods and Programs in Biomedicine, 192. 2020. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S0169260719308971]). To avoid this, the model can be adjusted using strategies such as hyperparameter tuning, pruning, and cross-validation. The most common hyperparameters include tree depth, classification criteria, and the minimum number of samples in a node, all of which can be modified during model development to improve its performance and generalization ability (Hernández, 2022HERNÁNDEZ, L.: Análisis predictivo de funcionamiento de Sistema Híbrido Off Grid mediante Machine Learning. [Tesis de Grado, Escuela Técnica Superior de Ingeniería y Sistema de Telecomunicación]. Madrid, España, 2022. Disponible en: https://oa.upm.es/72650/1/TFG_LAURA_HERNANDEZ_CUBO.pdf).

Pérez (2024)PÉREZ, A.: Detección de Patrones de Fallas de Automóviles Basada en Técnicas de Aprendizaje automático y Bases de Conocimiento. [Tesis de Maestría, Benemérita Universidad Autónoma de Puebla]. México, 2024. Disponible en: https://repositorioinstitucional.buap.mx/server/api/core/bitstreams/8c9719a0-939c-4e74-8c45-2b089e0b88d5/content considers the pruning process to be a key technique for reducing tree complexity and preventing the model from capturing unnecessary noise. Among its variants are pruning by cost complexity, which seeks to balance simplicity and accuracy (Ejea, 2017EJEA, D. G.: Árboles de Regresión. Algunos algoritmos y extensiones a métodos de consenso. [Tesis de Grado, Universidad de Zaragoza]. 2017. Disponible en: https://zaguan.unizar.es/record/63779/files/TAZ-TFG-2017-4733.pdf); pruning by height, which limits the maximum depth of the tree (McTavish et al., 2022MCTAVISH, H.; ZHONG, C.; ACHERMANN, R.; KARIMALIS, I.; CHEN, J.; RUDIN, C.; SELTZER, M.: Fast Sparse Decision Tree Optimization via Reference Ensembles The Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22), 2022. Disponible en: https://cdn.aaai.org/ojs/21194/21194-13-25207-1-2-20220628.pdf.); pruning by minimum number of leaf samples, which ensures more reliable predictions and pruning by minimum number of samples to split a node, which avoids splits based on insufficient data (Tong et al., 2022TONG, L.; LIU, Z.; JIANG, Z.; ZHOU, F.; CHEN, L.; LYU, J.; ZHANG, X.; WANG, Y.; LI, L.; ZHOU, H.: "Cost-sensitive boosting pruning trees for depression detection on Twitter". IEEE Transactions on Affective Computing, 2022.). All these techniques contribute to creating more robust, interpretable, and efficient models.

Cross-validation is an essential method for evaluating the performance of decision trees. It consists of dividing the data into multiple subsets or folds, training and testing the model on each of them. This allows for a more accurate and reliable estimate of its generalization ability, ensuring that the final model is robust and performs well in different application scenarios (Ochoa, 2019OCHOA, L. L.: Evaluación de Algoritmos de Clasificación utilizando Validación Cuzada The 17th LACCEI International Multi-Conference for Engineering, Education, and Technology: “Industry, Innovation, and Infrastructure for Sustainable Cities and Communities”, Montego Bay, Jamaica, 2019. ).

Árboles de decisión para la predicción del estro en el ganado bovino

^iDNeylis Chávez Millares^*✉:neyliscm@gmail.com

^iDYusney Marrero García

^iDLilibeth Mercedes González Ruiz

Universidad Agraria de La Habana, San José de Las Lajas, Mayabeque, Cuba. E-mail: yusneym@unah.edu.cu; lilibeth@unah.edu.cu

^{^*}Autora para correspondencia: Neylis Chávez Millares, e-mail: neyliscm@gmail.com

Resumen

La Inteligencia Artificial permite la transformación de la reproducción bovina ya que brinda herramientas para la detección temprana del estro incluyendo los árboles de decisión. En Cuba, se está introduciendo la Inteligencia Artificial como parte del proceso de transformación digital. En esta investigación, se planteó como objetivo: determinar el algoritmo de aprendizaje automático más adecuado para la predicción del estro en el ganado bovino perteneciente a la Granja Universitaria “El Guayabal”. Para el análisis de selección se identificaron tres herramientas de aprendizaje automático: Random Forest, XGBoost y CART donde se tuvo en cuenta las particularidades de cada algoritmo. El análisis reveló que CART es la opción más adecuada para el escenario de investigación, destacando por su bajo consumo de recursos, flexibilidad y precisión en el procesamiento de conjuntos de datos de tamaño pequeño a moderado.

Palabras clave:

aprendizaje automático, inteligencia artificial, regresión, CART, estro

Introducción

⌅

La Inteligencia Artificial (IA) ha transformado diversos sectores, incluida la ganadería (Parrado-Alvarez et al., 2019PARRADO-ALVAREZ, O.L.; CARRIÓN-CABRERA, L.; CUESTA-LÓPEZ, R.: “El pensamiento y obra de Fidel Castro Ruz sobre la formación de profesionales para la agricultura: Array”, Maestro y Sociedad, 172-183, 2019, ISSN: 1815-4867.). Este ámbito depende en gran medida de la eficiencia reproductiva y de la sostenibilidad de sus sistemas productivos y reproductivos. En las últimas dos décadas, el desarrollo de algoritmos avanzados, sensores de precisión y plataformas de análisis de datos ha permitido enfrentar desafíos históricos en el manejo reproductivo del ganado, integrando soluciones basadas en IA (Hinestroza, 2018HINESTROZA RAMÍREZ, D.: “El Machine Learning a través de los tiempos, y los aportes a la humanidad”, 2018.; Souza y de Oliveira, 2022SOUZA, V.; DE OLIVEIRA, G.: "Application of Articial Intelligence in Cattle Farming: A Scope Review". Revista electrónica de Veterinaria (REDVET), 23 (2), 2022. Disponible en https://veterinaria.org/index.php/REDVET/article/download/160/37/. ISSN: 1695-7504.). Entre los procesos más relevantes destacan la detección temprana del estro, la mejora genética, el monitoreo de la gestación, entre otros.

En Cuba se promueve el proceso de transformación digital, dentro del cual se contempla la incorporación de la IA en los sectores priorizados del país (Caballero et al., 2024CABALLERO, Y.; BELLO, R.; ROSETE, A.: “La inteligencia artificial dentro de la transformación digital para el desarrollo”, Anales de la Academia de Ciencias de Cuba, 14(1), 2024, ISSN: 2304-0106., Disponible en: http://www.revistaccuba.cu/index.php/revacc/article/view/1530.). Un ejemplo de ello es la ganadería, donde se presta especial atención a la reproducción con el propósito de incrementar la actividad ganadera. La Granja Universitaria “El Guayabal”, perteneciente a la Universidad Agraria de La Habana (UNAH), constituye un espacio clave para el desarrollo de diversas investigaciones, algunas de las cuales incorporan tecnologías de IA como parte del proceso de transformación digital. Una de las actividades más importantes de la granja es la inseminación artificial en bovinos, por ello, la detección del estro representa un papel importante en la eficiencia reproductiva (Bekara y Bareille, 2019BEKARA, M.E.A.; BAREILLE, N.: “Quantification by simulation of the effect of herd management practices and cow fertility on the reproductive and economic performance of Holstein dairy herds”, Journal of dairy science, 102(10): 9435-9457, 2019, ISSN: 0022-0302.. DOI: https://doi.org/10.3168/jds.2018-15484 ). Actualmente, la identificación del estro en la granja constituye un desafío debido al déficit de personal. Debido a esto, se buscan alternativas para facilitar el trabajo de los especialistas.

Por tanto, se plantea como objetivo de la presente investigación: determinar el algoritmo de aprendizaje automático más adecuado para la predicción del estro en el ganado bovino perteneciente a la Granja Universitaria “El Guayabal”.

Desarrollo del tema

⌅

Inseminación artificial en bovinos y detección del estro

⌅

La inseminación artificial surgió con el propósito de mejorar la reproducción animal, controlar enfermedades y preservar la diversidad genética (Hafez y Hafez, 2000HAFEZ, E. S. E.; HAFEZ, B.: Reproduction in Farm Animals (7th ed.). 2000. Disponible en: https://cuvas.edu.pk/cuvas_libraries/ebooks/Reproduction%20In%20Farm%20Animals%20HAFEEZ.pdf; Foote, 2002FOOTE, R. H.: "The history of artificial insemination: Selected notes and notables". Journal of Animal Science, 80 (2), 1-10, 2002. Disponible en: https://www.asas.org/docs/default-source/midwest/mw2020/publications/footehist.pdf?sfvrsn=59da6c07_0; Thibier, 2005THIBIER, M.: "The zootechnical applications of biotechnology in animal reproduction: current methods and perspectives". Reproduction Nutrition Development, 45, 235-242, 2005. DOI: https://doi.org/10.1051/rnd:2005016). Desde sus inicios, ha evolucionado hasta convertirse en una herramienta clave para incrementar la producción de leche y carne en el ganado bovino, respondiendo a la creciente demanda mundial de alimentos (Hoyos et al., 2023HOYOS, J. F.; VELÁSQUEZ, B. L.; RICO, D.; GARCÍA, N.: "Impacto transformador de la inteligencia artificial y aprendizaje autónomo en la producción agropecuaria: un enfoque en la sostenibilidad y eficiencia". Revista Formación Estratégica, 7 (1), 2023. Disponible en https://formacionestrategica.com/index.php/foes/article/view/111/80. ISSN: 2805-9832.). En la actualidad, se plantea la necesidad de introducir nuevas tecnologías que optimicen este proceso y lo hagan más eficiente.

El desarrollo reproductivo de la hembra bovina pasa por etapas importantes como añoja, novilla y vaca, donde se manifiestan cambios esenciales para alcanzar la madurez sexual. El primer estro suele aparecer en la etapa de añoja, aunque puede variar entre los 9 y 15 meses de edad (Montes de Oca, 2016MONTES DE OCA, E. A.: Desarrollo histórico y tendencial de la ganadería vacuna en la Isla de la Juventud: período 1573-actualidad. [Tesis de Maestría, Universidad de La Habana]. 2016. Disponible en: https://accesoabierto.uh.cu/files/original/2134433/Elvira_Aleida_Montes_de_Oca_Garcia_[2017].pdf). El ciclo estral, que dura en promedio 21 días, se divide en dos fases: lútea y folicular, cada una con dos etapas específicas. La ovulación ocurre durante el estro, considerado el inicio del ciclo, y tiene una duración aproximada de 12 a 18 horas, lo que dificulta su detección por su brevedad (Carvajal et al., 2020CARVAJAL, A. M.; MARTÍNEZ, M. E.; TAPIA, M.: "Ciclo estral en la hembra bovina y su importancia reproductiva". INIA, 246, 2020. ).

Durante el estro, las vacas presentan comportamientos característicos como receptividad a la monta, inquietud, disminución en la producción de leche, lamido de genitales, bajo consumo de alimentos y cambios físicos como edematización de la vulva o secreción de mucus (Strappini et al., 2015STRAPPINI, A.C.; NORAMBUENA, L.; MATAMALA, F.: Importancia de la detección de celo utilizando métodos amigables con el bienestar animal, Inst. XXXVIII Reunión Científica Anual de la Asociación Peruana de Producción Animal, Perú, 2015.; Ávila, 2024ÁVILA, I.M.: Incidencia de factores intrínsecos y extrínsecos en la efectividad reproductiva mediante la inseminación artificial en las parroquias de salcedo en el período 2023., Universidad Técnica de Cotopaxi]. Ecuador., Tesis de Grado, Cotopaxi, Ecuador, 2024. ; Hernández y Ortega, [2009]HERNÁNDEZ, J.; ORTEGA, A.: Manual de Inseminación Artificial en Bovinos., Ed. Universidad Nacional Autónoma de México, México D.F., 2009.). Sin embargo, factores como la falta de experiencia del recelador, el ambiente o el estrés pueden dificultar su identificación. Una detección correcta del estro trae beneficios importantes: mayor tasa de natalidad, aumento en la producción de leche y reducción de costos en la inseminación artificial (Strappini et al., 2015STRAPPINI, A.C.; NORAMBUENA, L.; MATAMALA, F.: Importancia de la detección de celo utilizando métodos amigables con el bienestar animal, Inst. XXXVIII Reunión Científica Anual de la Asociación Peruana de Producción Animal, Perú, 2015.).

Métodos y errores en la detección del estro

⌅

Los métodos para detectar el estro en bovinos se clasifican en visuales, no visuales, electrónicos y químicos (Ortiz y Avila, 2020ORTIZ, S. D.; AVILA, K. Y.: Fundamentos y métodos actuales de detección de celo en bovinos. [Tesis de Grado, Universidad Cooperativa de Colombia]. Colombia, 2020. ). Entre los visuales destacan la observación directa, etiquetas detectoras de monta, ampollas adheridas a la grupa, crayón marcador y toros receladores. Los no visuales incluyen cambios fisiológicos como la temperatura y la actividad hormonal, mientras que los electrónicos emplean podómetros, microchips y cámaras de vigilancia, muchas veces complementados con softwares que registran y notifican las actividades. Los métodos químicos abarcan la androgenización y los implantes hormonales. La observación sigue siendo el método más viable por su bajo costo y efectividad, siempre que el recelador esté capacitado y realice inspecciones frecuentes (Hernández y Ortega, 2009HERNÁNDEZ, J.; ORTEGA, A.: Manual de Inseminación Artificial en Bovinos., Ed. Universidad Nacional Autónoma de México, México D.F., 2009.).

A pesar de la implementación de estos avances tecnológicos, aún se presentan fallas en la detección del estro. Entre los principales factores que generan errores se encuentran el anestro, provocado por mala nutrición, estrés, enfermedades reproductivas, genética o quistes ováricos; la falta de experiencia del recelador; el estro mudo, en el que algunas hembras no muestran síntomas visibles; y la ausencia de seguimiento del ciclo estral y del proceso posterior a la inseminación tomando los criterios aportados por Hernández y Ortega (2009)HERNÁNDEZ, J.; ORTEGA, A.: Manual de Inseminación Artificial en Bovinos., Ed. Universidad Nacional Autónoma de México, México D.F., 2009. y Jiménez (2010)JIMÉNEZ, D.: Técnicas de Inseminación Artificial aplicadas en bovinos. [Tesis de Grado, Universidad Autónoma Agraria "Antonio Narro"]. México, 2010. . Para reducir estos problemas se han incorporado tecnologías avanzadas capaces de identificar comportamientos animales, e incluso se explora la aplicación de la IA en la reproducción bovina (Strappini et al., 2015STRAPPINI, A.C.; NORAMBUENA, L.; MATAMALA, F.: Importancia de la detección de celo utilizando métodos amigables con el bienestar animal, Inst. XXXVIII Reunión Científica Anual de la Asociación Peruana de Producción Animal, Perú, 2015.), aunque su implementación aún enfrenta desafíos.

Desafíos, aplicaciones e impacto de la Inteligencia Artificial en la reproducción bovina

⌅

La reproducción bovina continúa siendo un campo en desarrollo para la incorporación de nuevas tecnologías por lo que la IA enfrenta desafíos en este sector incluyendo la resistencia al cambio por parte de los ganaderos Álvarez (2024) ÁLVAREZ, S.: “Luces, sombras y riesgos de la inteligencia artificial”, PAPELES de relaciones ecosociales y cambio global, 164: 5-12, 2024., los altos costos de implementación (Patel y Prajapati, 2018PATEL, H. H.; PRAJAPATI, P.: "Study and Analysis of Decision Tree Based Classification Algorithms". International Journal of Computer Sciences and Engineering, 6(10), 2018.), la necesidad de capacitación del personal y los requerimientos de grandes volúmenes de datos junto con equipos de almacenamiento y procesamiento avanzados. A pesar de estas limitaciones, la IA ofrece beneficios significativos al aplicarse en procesos como la mejora genética, la predicción y prevención de enfermedades, el monitoreo y análisis de patrones para la detección del estro, la integración con dispositivos electrónicos para el seguimiento en tiempo real y la optimización de la inseminación artificial (Chávez et al., 2024CHÁVEZ, N.; GONZÁLEZ, R.; MARRERO, Y.; GONZÁLEZ, L. M.: "La Inteligencia Artificial en la Reproducción Bovina", Ciencias Universitarias, 22. 2024. Disponible en: https://revistas.unah.edu.cu/index.php/cu), contribuyendo a una mayor precisión, eficiencia en la reproducción ganadera y la toma de decisiones.

La IA aplicada a la reproducción bovina ofrece múltiples beneficios al sector ganadero. Permite identificar con mayor precisión el momento adecuado para la inseminación, optimizar la selección de embriones de alta calidad y realizar un monitoreo constante de la salud del ganado para detectar problemas tempranos (González et al., 2018GONZÁLEZ, N.; LEYVA, M. Y.; FAGGONI, K. M.; ÁLVAREZ, P. J.: "Estudio comparado de las técnicas de Inteligencia Artificial para el diagnóstico de enfermedades en la ganadería". Sistemas, Cibernética e Informática, 15(2), 2018.; Perdigón y González, 2021PERDIGÓN, R.; GONZÁLEZ, N.: "Comparación y selección de técnicas de inteligencia artificial para pronosticar las producciones de leche bovina". Revista Cubana de Ciencias Informáticas, 15(2), 24-43, 2021. ). Además, la automatización de procesos reduce errores humanos y mejora la eficiencia operativa, mientras que los análisis predictivos y la selección genética asistida incrementan la productividad y sostenibilidad del rebaño. En conjunto, estas aplicaciones fortalecen la toma de decisiones estratégicas, elevan el bienestar animal y contribuyen a un manejo más rentable y eficiente de la producción bovina (Horrach et al., 2020HORRACH, M. N.; BERTOT, J. A.; VÁZQUEZ, R.; GARAY, M.: "Eficiencia reproductiva de sistemas vacunos en inseminación artificial. Tendencias actuales y perspectivas". Revista de Producción Animal, 32 (3), 2020. Disponible en; https://revistas.reduc.edu.cu/index.php/rpa/article/view/e3592).

Actualmente, la reproducción bovina se concentra en la producción de leche por lo que resulta imprescindible fomentar técnicas de IA en esta área con el propósito de aumentar los niveles de producción (Perdigón y González, 2021PERDIGÓN, R.; GONZÁLEZ, N.: "Comparación y selección de técnicas de inteligencia artificial para pronosticar las producciones de leche bovina". Revista Cubana de Ciencias Informáticas, 15(2), 24-43, 2021. ). Su incorporación en la transformación digital y la reproducción bovina busca responder a las necesidades de progreso y desarrollo, planteando estrategias que permitan aprovechar las ventajas de estas tecnologías para mejorar la producción y la eficiencia en la ganadería (Bekara y Bareille, 2019BEKARA, M.E.A.; BAREILLE, N.: “Quantification by simulation of the effect of herd management practices and cow fertility on the reproductive and economic performance of Holstein dairy herds”, Journal of dairy science, 102(10): 9435-9457, 2019, ISSN: 0022-0302.. DOI: https://doi.org/10.3168/jds.2018-15484 ).

Dentro de las técnicas de IA aplicables a la reproducción ganadera destacan el aprendizaje automático, que permite procesar y analizar datos mediante diferentes tipos de algoritmos (Hinestroza, 2018HINESTROZA RAMÍREZ, D.: “El Machine Learning a través de los tiempos, y los aportes a la humanidad”, 2018.); las redes bayesianas, útiles para la toma de decisiones bajo incertidumbre (Rodríguez y Dolado, 2007RODRÍGUEZ, D.; DOLADO, J.: Redes Bayesianas en la Ingeniería del Software. 1-21, 2007. ); las máquinas de soporte vectorial, que optimizan la clasificación de datos (Resendiz, 2006RESENDIZ, J. A.: Las maquinas de vectores de soporte para identificación en línea. [Máster en Control Automático, Centro de Investigaciones del Instituto Politécnico Nacional de México], México, 2006. ); y los árboles de decisión, empleados en tareas de clasificación y regresión (Martí et al., 2022MARTÍ, A.; MILBERBERG, A.; MARESA, D.; PRIETO, A. S.; LLANES-SANTIAGO, O.: "Propuesta de metodología para el diagnóstico de fallos basado en árboles de dicisión y lógica difusa". Revista de Ingeniería Electrónica, Automática y Comunicaciones, 43(2), 2022. ). Según Souza y de Oliveira (2022)SOUZA, V.; DE OLIVEIRA, G.: "Application of Articial Intelligence in Cattle Farming: A Scope Review". Revista electrónica de Veterinaria (REDVET), 23 (2), 2022. Disponible en https://veterinaria.org/index.php/REDVET/article/download/160/37/. ISSN: 1695-7504., estas técnicas se pueden aplicar a la detección precisa del estro, el monitoreo de la salud animal, la selección genética de embriones, la optimización de la inseminación artificial, el análisis de grandes volúmenes de datos genéticos y la mejora de la eficiencia reproductiva.

Los árboles de decisión representan una solución sencilla y a su vez ofrecen resultados sólidos. Entre sus ventajas se encuentran la facilidad de interpretación de los resultados, la rápida traducción en principios aplicables a la producción, la capacidad de clasificar datos tanto categóricos como numéricos y la ausencia de suposiciones previas sobre la forma de los datos o el comportamiento del modelo (Taha y Mohsin, 2021TAHA, B.; Y MOHSIN, A.: "Classification Based on Decision Tree Algorithm for Machine Learning". Journal of Applied and Technology Trends, 02(01), 20-28, 2021. Disponible en: https://www.jastt.org/index.php/jasttpath/article/view/65). Además, no requieren de muchos recursos, convirtiéndose en una opción rápida y eficiente para conjuntos de datos de tamaño moderado (Bouza y Santiago, 2012BOUZA, C. N.; SANTIAGO, A.: "La minería de datos: Árboles de Decisión y su aliación en estudios médicos". Modelación Matemática de Fenómenos del Medio Ambiente y la Salud, 2, 64-78, 2012. Disponible en: https://rideca.cs.buap.mx/web/files/articulo_itBUo0uWlAaJENf.pdf].).

Árboles de decisión para regresión

⌅

Los árboles de decisión para regresión son herramientas no paramétricas que permiten predecir información mediante la división de los datos en segmentos más pequeños basados en características específicas. Se componen de nodos de decisión y nodos hojas que representan categorías o valores, lo que facilita la clasificación y regresión (Ghiasi et al., 2020GHIASI, M. M.; ZENDEHBOUDI, S.; MOHSENIPOUR, A. A.: "Decision tree-based diagnosis of coronary artery disease: CART model". Computer Methods and Programs in Biomedicine, 192. 2020. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S0169260719308971]; Taha y Mohsin, 2021TAHA, B.; Y MOHSIN, A.: "Classification Based on Decision Tree Algorithm for Machine Learning". Journal of Applied and Technology Trends, 02(01), 20-28, 2021. Disponible en: https://www.jastt.org/index.php/jasttpath/article/view/65). Estas herramientas destacan por su precisión en el análisis de datos y optimización de procesos (Barrientos et al., 2009BARRIENTOS, R. E.; CRUZ, N.; ACOSTA, H. G.; IVONNE, R.; GOGEASCOECHEA, M.; PAVÓN, P.; BELÁZQUEZ, S. L.: "Árboles de decisión como herramienta en el diagnóstico médico". Revista Médica de la Universidad Veracruzana, 9(2), 2009. Disponible en: https://www.soporte.uv.mx/rm/num_anteriores/revmedica_vol9_num2/articulos/arboles.pdf; Martí et al., 2022MARTÍ, A.; MILBERBERG, A.; MARESA, D.; PRIETO, A. S.; LLANES-SANTIAGO, O.: "Propuesta de metodología para el diagnóstico de fallos basado en árboles de dicisión y lógica difusa". Revista de Ingeniería Electrónica, Automática y Comunicaciones, 43(2), 2022. ). También, pueden combinarse con otros modelos para mejorar su exactitud (Kotsiantis, 2013KOTSIANTIS, S. B.: "Decision trees: a recent overview". Artificial Intellence Review, 39(4), 261-283, 2013. Disponible en: https://link.springer.com/article/10.1007/s10462-011-9272-4#citeas].) y se construyen agrupando datos homogéneos que permiten modelar relaciones entre variables dependientes e independientes (Kocarık y Deveci, 2020KOCARIK, B.; DEVECI, İ.: "Regresyon Analizleri mi Karar Ağaçları mı?" Manisa Celal Bayar Üniversitesi Sosyal Bilimler Dergisi, 18 (4), 251-260, 2020. ISSN: 1304-4796.). Sin embargo, presentan desventajas como la tendencia al sobreajuste cuando el árbol es demasiado profundo y el aumento de la complejidad de cálculo a medida que crece el tamaño de la muestra de entrenamiento (Taha y Mohsin, 2021TAHA, B.; Y MOHSIN, A.: "Classification Based on Decision Tree Algorithm for Machine Learning". Journal of Applied and Technology Trends, 02(01), 20-28, 2021. Disponible en: https://www.jastt.org/index.php/jasttpath/article/view/65).

Además de los árboles de decisión, existen otros modelos de regresión como la regresión de soporte vectorial, las redes neuronales artificiales y la regresión logística. Cada uno tiene diferentes requerimientos de recursos y niveles de precisión (Perdigón y González, 2021PERDIGÓN, R.; GONZÁLEZ, N.: "Comparación y selección de técnicas de inteligencia artificial para pronosticar las producciones de leche bovina". Revista Cubana de Ciencias Informáticas, 15(2), 24-43, 2021. ; Shafiee et al., 2021SHAFIEE, S.; LIED, L. M.; BURUD, I.; DIESETH, J. A.; MUATH, A.: "Sequential forward selection an dsupport vector regression in comparison to LASSO regression for spring wheat yield prediction based on UAV imagery". Computers and Electronics in Agriculture, 183, 2021. DOI: https://doi.org/10.1016/j.compag.2021.106036. ISSN: 0168-1699.; Olascoaga-Del Angel et al., 2022OLASCOAGA-DEL ANGEL, K. S.; KONIGSBERG-FAINSTEIN, M.; PÉREZ-VILLANUEVA, J.; LÓPEZ, N. E.: "Uso de la inteligencia artificial en la investigación para el reposicionamiento de fármacos". TIP Revista Especializada en Ciencias Químico-Biológicas, 25, 1-17. 2022. DOI: https://doi.org/10.22201/fesz.23958723e.2022.450). En cuanto a algoritmos específicos de árboles de decisión, destacan CART, Random Forest y XGBoost. CART es valorado por su simplicidad y capacidad de manejar datos moderados con alta precisión, mientras que Random Forest y XGBoost resultan menos eficientes en conjuntos de datos de tamaño moderado, aunque ofrecen mayor robustez en escenarios más complejos (Ejea, 2017EJEA, D. G.: Árboles de Regresión. Algunos algoritmos y extensiones a métodos de consenso. [Tesis de Grado, Universidad de Zaragoza]. 2017. Disponible en: https://zaguan.unizar.es/record/63779/files/TAZ-TFG-2017-4733.pdf). Tomando en cuenta el análisis realizado, se selecciona el método CART ya que, por sus características, se ajusta adecuadamente al escenario descrito anteriormente.

Método CART

⌅

El método de aprendizaje automático CART pertenece al grupo de aprendizaje supervisado y se utiliza tanto para clasificación como para regresión de datos. Se caracteriza por su flexibilidad, ya que puede aprender a partir de conjuntos de entrenamiento y reutilizar parámetros en distintas secciones del modelo, lo que le permite identificar interdependencias complejas entre variables (Ghiasi et al., 2020GHIASI, M. M.; ZENDEHBOUDI, S.; MOHSENIPOUR, A. A.: "Decision tree-based diagnosis of coronary artery disease: CART model". Computer Methods and Programs in Biomedicine, 192. 2020. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S0169260719308971]). Su construcción se basa en criterios de división que buscan minimizar el error de predicción y generar nodos homogéneos, facilitando así el análisis de los datos.

Entre sus principales ventajas se destacan la facilidad de interpretación de los resultados, la capacidad de manejar variables categóricas sin necesidad de codificación y la posibilidad de identificar relaciones no lineales y modelar patrones complejos (Pérez, 2024PÉREZ, A.: Detección de Patrones de Fallas de Automóviles Basada en Técnicas de Aprendizaje automático y Bases de Conocimiento. [Tesis de Maestría, Benemérita Universidad Autónoma de Puebla]. México, 2024. Disponible en: https://repositorioinstitucional.buap.mx/server/api/core/bitstreams/8c9719a0-939c-4e74-8c45-2b089e0b88d5/content). Además, CART no requiere grandes volúmenes de datos para su entrenamiento, lo que lo convierte en una herramienta eficiente y de bajo costo en términos de recursos tecnológicos. Para desarrollar un modelo basado en CART se deben realizar tres procesos fundamentales: entrenamiento, evaluación y ajuste del modelo.

El proceso de entrenamiento de un modelo de árboles de decisión comienza con la recopilación y preparación de datos bien estructurados, que luego se dividen en dos subconjuntos: entrenamiento y prueba (García, 2023GARCÍA, C.: Aplicación para predecir afluencia de gente en las calles de Madrid. [Tesis de Grado, Escuela Técnica Superior de Ingeniería y Sistema de Telecomunicación]. 2023. Disponible en: https://oa.upm.es/77956/1/PFG_GARCIA_CALVO_CRISTINA.pdf). El conjunto de entrenamiento, que debe contener la mayor parte de los registros, se utiliza para que el modelo aprenda a identificar relaciones entre variables, aplicar criterios de división y detectar patrones que permitan generar predicciones precisas. Por su parte, el conjunto de prueba, aunque más pequeño, debe ser representativo del total de datos, ya que su función es evaluar la capacidad del modelo para generalizar y comprobar la fiabilidad de sus resultados. La división puede hacerse de manera aleatoria o intencionada, pero siempre debe garantizar un equilibrio entre las diferentes clases del modelo (Trujillano et al., 2008TRUJILLANO, J.; SARRIA-SANTAMERA, A.; ESQUERDA, A.; BADIA, M.; PALMA, M.; MARCH, J.: "Aproximación a la metodología basada en árboles de decisión (CART). Mortalidad hospitalaria del infarto agudo de miocardio". Gac Sanit, 22(1), 65-72, 2008.). Una práctica común es asignar aproximadamente el 80 % de los datos al entrenamiento y el 20 % al conjunto de prueba, lo que asegura que el modelo disponga de suficientes registros para aprender sin perder la capacidad de validación. Este proceso es esencial para evitar sesgos, reducir errores y garantizar que el modelo pueda aplicarse con éxito en nuevos escenarios, convirtiéndose en una herramienta confiable para la predicción y el análisis de datos.

Durante el proceso de evaluación de un modelo es esencial monitorear los errores en su desempeño y capacidad de aprendizaje. Un error de entrenamiento elevado indica dificultades para aprender, lo que puede deberse a datos insuficientes o ruidosos y refleja un alto sesgo. En contraste, un error bajo sugiere que el modelo ha captado correctamente las relaciones entre los datos, aunque es necesario analizar el conjunto de prueba para detectar posibles casos de sobreajuste (Benitez et al., 2018BENITEZ, R.; CENCERRADO, A.; ESCUDERO, G.; KANAAN, S.: Inteligencia Artificial Avanzada (Vol. 1). Universitat Oberta de Catalunya, 2018. Disponible en: https://openaccess.uoc.edu/bitstream/10609/140427/8/Inteligencia%20artificial%20avanzada_M%C3%B3dulo%201_Inteligencia%20artificial%20avanzada.pdf). Este fenómeno ocurre cuando el modelo no solo aprende los patrones, sino también el ruido de los datos de entrenamiento, generando alta varianza y un rendimiento deficiente en datos nuevos. Para evitarlo, se emplean técnicas como la validación cruzada y la regularización, que ayudan a construir modelos más robustos y capaces de generalizar adecuadamente (Hernández, 2022HERNÁNDEZ, L.: Análisis predictivo de funcionamiento de Sistema Híbrido Off Grid mediante Machine Learning. [Tesis de Grado, Escuela Técnica Superior de Ingeniería y Sistema de Telecomunicación]. Madrid, España, 2022. Disponible en: https://oa.upm.es/72650/1/TFG_LAURA_HERNANDEZ_CUBO.pdf).

La evaluación del rendimiento de un modelo de regresión requiere un análisis exhaustivo tanto en el conjunto de entrenamiento como en el de prueba, comparando métricas de desempeño para medir su capacidad de generalización (Pérez, 2024PÉREZ, A.: Detección de Patrones de Fallas de Automóviles Basada en Técnicas de Aprendizaje automático y Bases de Conocimiento. [Tesis de Maestría, Benemérita Universidad Autónoma de Puebla]. México, 2024. Disponible en: https://repositorioinstitucional.buap.mx/server/api/core/bitstreams/8c9719a0-939c-4e74-8c45-2b089e0b88d5/content). Métodos como la validación cruzada permiten dividir los datos en múltiples pliegues y obtener resultados más precisos y fiables. Además, se pueden establecer criterios de aceptación basados en umbrales de error para determinar la precisión del modelo y diferenciar predicciones correctas de incorrectas (Vivaracho-Pascual et al., 2016VIVARACHO-PASCUAL, C.; SIMON-HURTADO, A.; MANSO-MARTINEZ, E.; PASCUAL-GASPAR, J. M.: "Client Threshold Prediction in Biometric Signature Recognition by Means of Multiple Linear Regression and Its Use for Scrore Normalization". The Journal of the Pattern Recognition Society, 55, 1-13, 2016. DOI: https://doi.org/10.1016/j.patcog.2016.02.007). Esta etapa de evaluación facilita el ajuste de hiperparámetros, lo que contribuye a mejorar la calidad de las predicciones y optimizar el rendimiento del modelo.

Los árboles de decisión pueden verse afectados por problemas como el sobreajuste, especialmente cuando existen clases desequilibradas en los datos (Ghiasi et al., 2020GHIASI, M. M.; ZENDEHBOUDI, S.; MOHSENIPOUR, A. A.: "Decision tree-based diagnosis of coronary artery disease: CART model". Computer Methods and Programs in Biomedicine, 192. 2020. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S0169260719308971]). Para evitarlo se puede ajustar el modelo empleando estrategias como el ajuste de hiperparámetros, el proceso de podado y la validación cruzada. Los hiperparámetros más comunes incluyen la profundidad del árbol, el criterio de clasificación y el número mínimo de muestras en un nodo, los cuales pueden modificarse durante el desarrollo del modelo para mejorar su desempeño y capacidad de generalización (Hernández, 2022HERNÁNDEZ, L.: Análisis predictivo de funcionamiento de Sistema Híbrido Off Grid mediante Machine Learning. [Tesis de Grado, Escuela Técnica Superior de Ingeniería y Sistema de Telecomunicación]. Madrid, España, 2022. Disponible en: https://oa.upm.es/72650/1/TFG_LAURA_HERNANDEZ_CUBO.pdf).

Pérez (2024)PÉREZ, A.: Detección de Patrones de Fallas de Automóviles Basada en Técnicas de Aprendizaje automático y Bases de Conocimiento. [Tesis de Maestría, Benemérita Universidad Autónoma de Puebla]. México, 2024. Disponible en: https://repositorioinstitucional.buap.mx/server/api/core/bitstreams/8c9719a0-939c-4e74-8c45-2b089e0b88d5/content considera el proceso de podado como una técnica clave para reducir la complejidad del árbol y evitar que el modelo capture ruido innecesario. Entre sus variantes se encuentran la poda por complejidad de costo, que busca equilibrar simplicidad y precisión (Ejea, 2017EJEA, D. G.: Árboles de Regresión. Algunos algoritmos y extensiones a métodos de consenso. [Tesis de Grado, Universidad de Zaragoza]. 2017. Disponible en: https://zaguan.unizar.es/record/63779/files/TAZ-TFG-2017-4733.pdf); la poda por altura, que limita la profundidad máxima del árbol (McTavish et al., 2022MCTAVISH, H.; ZHONG, C.; ACHERMANN, R.; KARIMALIS, I.; CHEN, J.; RUDIN, C.; SELTZER, M.: Fast Sparse Decision Tree Optimization via Reference Ensembles The Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22), 2022. Disponible en: https://cdn.aaai.org/ojs/21194/21194-13-25207-1-2-20220628.pdf.); la poda por número mínimo de muestras en hojas, que asegura predicciones más confiables (Zhong et al., 2008ZHONG, M.; GEORGIOPOULOS, M.: "Anagnostopoulos, G. C.: A k-norm pruning algorithm for decision tree classifiers based on error rate estimation" Machine learning, 71, 55-88, 2008. ); y la poda por número mínimo de muestras para dividir un nodo, que evita divisiones basadas en datos insuficientes (Tong et al., 2022TONG, L.; LIU, Z.; JIANG, Z.; ZHOU, F.; CHEN, L.; LYU, J.; ZHANG, X.; WANG, Y.; LI, L.; ZHOU, H.: "Cost-sensitive boosting pruning trees for depression detection on Twitter". IEEE Transactions on Affective Computing, 2022.). Todas estas técnicas contribuyen a crear modelos más robustos, interpretables y eficientes.

Por su parte, la validación cruzada es un método esencial para evaluar el rendimiento de los árboles de decisión. Consiste en dividir los datos en múltiples subconjuntos o pliegues, entrenando y probando el modelo en cada uno de ellos. Esto permite obtener una estimación más precisa y confiable de su capacidad de generalización, asegurando que el modelo final sea robusto y mantenga un buen desempeño en diferentes escenarios de aplicación (Ochoa, 2019OCHOA, L. L.: Evaluación de Algoritmos de Clasificación utilizando Validación Cuzada The 17th LACCEI International Multi-Conference for Engineering, Education, and Technology: “Industry, Innovation, and Infrastructure for Sustainable Cities and Communities”, Montego Bay, Jamaica, 2019. ).