Curso 2: Aprendizaje Automático y Analítica de Datos

Este debate tiene 4 respuestas, 4 mensajes y ha sido actualizado por última vez el hace 3 meses, 1 semana por Diego Quiroz.

Viendo 5 entradas - de la 1 a la 5 (de un total de 5)

Autor

Entradas
07/03/2026 a las 10:51 AM #2544
AuxiliarCIES
Superadministrador
- Este debate fue modificado hace 3 meses, 2 semanas por AuxiliarCIES.
10/03/2026 a las 4:59 PM #2573

Alessandra Charlotte Arteaga Molina
Miembro

Pregunta dejada en clase (05/03/26):
¿Por qué la desviación estándar se ve más afectada por los outliers que los cuartiles?
Porque la desviación estándar se calcula con la distancia de cada dato a la media y eleva esas diferencias al cuadrado (según su fórmula); es decir, cuantifica la dispersión de los datos y mira el tamaño de las diferencias, por lo que los valores extremos tienen mucho peso. Los cuartiles, por otro lado, son más robustos, solo dependen de la posición de los datos ordenados (no miran el valor de los datos), así que los outliers casi no cambian su valor.

10/03/2026 a las 5:19 PM #2574

Alessandra Charlotte Arteaga Molina
Miembro

Pregunta 2 dejada en clase (05/03/26):
¿Qué método usamos para tratar outliers (capping, winsorización, asegurar positividad, etc)? ¿Con cuál me quedo?
La elección dependería del tipo de dato y del objetivo del modelo. Por ejemplo, usaría capping si quiero limitar los valores extremos según un criterio propio, o winsorización si quiero un enfoque más estadístico, ajustando los outliers según percentiles. En realidad, me parece que todo depende de la intención y del objetivo que tenga con los datos.

15/03/2026 a las 8:02 PM #2584

Isabella Albarrán Chávez
Miembro

Buenas noches Profesor,
En nuestro grupo tenemos un par de dudas en base al trabajo final:
1. Queremos proponer un nuevo tema en el que la pregunta de investigación sea: ¿Qué factores predicen tener secundaria completa? y en el que la variable objetivo binaria sea: Completó la secundaria / No completó la secundaria. ¿Esta propuesta le parece bien?
2. Hemos identificado 4 variables predictoras: etnicidad, sexo, área geográfica y pobreza monetaria. ¿Esta cantidad de variables está bien o nos sugiere explorar más?
3. En la sección de entregables de los lineamientos se menciona: Base final trabajada y explicación clara de cómo fue construida a partir de la fuente original. Queremos saber si la explicación de esta construcción corresponde a los 4 ítems dentro del punto 5.2 del índice: Módulo(s) usados / Filtros y transformaciones aplicadas / Tratamiento básico de valores perdidos / Variables predictoras incluida, o se espera que incluya más detalle?
4. ¿El entregable del Script puede ser en Stata, o sólo en R o Python?
Muchas gracias desde ya por su apoyo y tiempo.

18/03/2026 a las 3:52 PM #2588

Diego Quiroz
Miembro

Hola, Isabella:

Sobre tus dudas:

1. Si, es factible. Solo tengan cuidado al construir la variable binaria: 1 si la persona tiene secundaria completa o un nivel educativo mayor, y 0 en caso contrario.

2. Me parecen bien las variables, pero tengo dudas sobre etnicidad sino aparece de manera tan directa en la ENAHO. Si no fuera el caso, podrían reemplazarla por lengua materna u omitir.

3. Si, es correcto lo que mencionas. Recuerden también adjuntar la base final trabajada. La explicación de cómo llegaron a esa base no debe ser muy extensa, pero que si permita entender con claridad la transición desde la fuente original.

4. No, Stata no, solo R o python, por favor.

Saludos,

Diego
Autor

Entradas

Viendo 5 entradas - de la 1 a la 5 (de un total de 5)

Debes estar registrado para responder a este debate.