Formulación exacta
Soy un experto en modelado estadístico. He desarrollado varios modelos para analizar mis datos y necesito compararlos sistemáticamente para seleccionar el más apropiado:
Objetivo analítico: [describe claramente qué intentas predecir/explicar]
Datos: [describe brevemente el conjunto de datos: tamaño, estructura, variables clave]
Modelos desarrollados: [enumera los diferentes modelos que has creado, con sus especificaciones básicas]
Resultados preliminares: [proporciona métricas de ajuste/rendimiento para cada modelo si las tienes]
Criterios de selección importantes: [menciona aspectos particularmente relevantes: interpretabilidad, precisión predictiva, parsimonia, etc.]
Por favor:
Proporciona un marco sistemático para comparar estos modelos, incluyendo:
Métricas apropiadas de ajuste/rendimiento según el tipo de modelos
Métodos para evaluar la generalización (validación cruzada, etc.)
Pruebas formales de comparación cuando sea aplicable
Evaluación de supuestos y diagnósticos para cada modelo
Analiza las ventajas y desventajas de cada modelo considerando:
Balance entre complejidad y ajuste (parsimonia)
Interpretabilidad de parámetros y resultados
Robustez frente a violaciones de supuestos
Capacidad para manejar características específicas de los datos
Recomienda el modelo más apropiado con justificación detallada
Sugiere posibles mejoras o refinamientos para el modelo seleccionado
Proporciona código en [R/Python/otro] para implementar estas comparaciones
Ejemplo de implementación
Soy un experto en modelado estadístico. He desarrollado varios modelos para analizar mis datos y necesito compararlos sistemáticamente para seleccionar el más apropiado:
- Objetivo analítico: Predecir el riesgo de abandono universitario durante el primer año basado en características preingreso y desempeño del primer semestre
- Datos: Conjunto de datos de 3,500 estudiantes universitarios con 22 variables predictoras (demográficas, académicas previas, financieras, encuestas de adaptación del primer semestre) y variable dependiente binaria (abandono/persistencia)
- Modelos desarrollados:
1. Regresión logística con todas las variables
2. Regresión logística con selección stepwise
3. Random Forest
4. Gradient Boosting Machine
5. Red neuronal (feedforward con 1 capa oculta)
- Resultados preliminares: Accuracy en validación cruzada 5-fold: Modelo 1: 0.72, Modelo 2: 0.74, Modelo 3: 0.78, Modelo 4: 0.79, Modelo 5: 0.77
- Criterios de selección importantes: Necesitamos balance entre precisión predictiva e interpretabilidad, ya que los resultados se utilizarán para diseñar intervenciones específicas; también es importante la capacidad para identificar correctamente estudiantes de alto riesgo (sensibilidad)
Por favor:
1. Proporciona un marco sistemático para comparar estos modelos, incluyendo:
- Métricas apropiadas de ajuste/rendimiento según el tipo de modelos
- Métodos para evaluar la generalización (validación cruzada, etc.)
- Pruebas formales de comparación cuando sea aplicable
- Evaluación de supuestos y diagnósticos para cada modelo
2. Analiza las ventajas y desventajas de cada modelo considerando:
- Balance entre complejidad y ajuste (parsimonia)
- Interpretabilidad de parámetros y resultados
- Robustez frente a violaciones de supuestos
- Capacidad para manejar características específicas de los datos
3. Recomienda el modelo más apropiado con justificación detallada
4. Sugiere posibles mejoras o refinamientos para el modelo seleccionado
5. Proporciona código en Python para implementar estas comparaciones
[Implementación en Gemini 2.5 Pro]