MODULO IV DATASET SOBRE EL RENDIMIENTO DE ESTUDIANTES EN UN EXAMEN

                                                               DIPLOMA DO

                                         EN INTELIGENCIA ARTIFICIAL

                                                               MODULO IV  

              APRENDIZAJE AUTOMATICO CON PYTHON Y ASISTENTES INTELIGENTES

Ortega Irusta Mireya Elena

Interacción con chat GPT

https://chat.openai.com/share/ce316da9-a21b-4892-b3e5-6b3ce5acedbc

Un dataset, o conjunto de datos, es simplemente una colección estructurada de datos. Puede ser tan simple como una lista de números o tan complejo como una base de datos relacional completa con múltiples tablas interconectadas.

 Estos conjuntos de datos pueden venir en diferentes formas y tamaños. Pueden incluir datos tabulares (como hojas de cálculo con filas y columnas), datos de texto, imágenes, archivos de audio, videos o cualquier otra forma de información que se pueda almacenar y analizar.

 Un dataset suele contener:

 1. Observaciones/Filas: Cada fila representa una entrada individual o una instancia de datos.

2. Atributos/Columnas: Cada columna proporciona información específica sobre esa instancia, como características, variables o atributos.

 Por ejemplo, un dataset de temperatura corporal podría tener filas representando a diferentes personas u horas del día y columnas que incluyen información como la temperatura registrada, la fecha y hora, la ubicación, la edad, el sexo, etc.

 Estos conjuntos de datos son fundamentales en el análisis de datos y el aprendizaje automático, ya que proporcionan la materia prima para entrenar modelos, extraer patrones, tomar decisiones basadas en datos y obtener información valiosa.

DATASET SOBRE EL RENDIMIENTO DE ESTUDIANTES EN UN EXAMEN



Imagina un dataset sobre el rendimiento de estudiantes en un examen. Podría tener la siguiente estructura:

Estudiante IDEdadGéneroHoras de estudioPuntuación del examen
118M585
220F370
319M690
421F475

Aquí, cada fila representa a un
estudiante individual, y las columnas representan diferentes atributos:

 - Estudiante ID: Un identificador único para cada estudiante.

- Edad: La edad del estudiante.

- Género: El género del estudiante (M para masculino, F para femenino).

- Horas de estudio: La cantidad de horas que el estudiante dedicó al estudio antes del examen.

- Puntuación del examen: La puntuación obtenida por el estudiante en el examen.

Este dataset podría usarse para analizar la relación entre la edad, el género, las horas de estudio y la puntuación del examen. Por ejemplo, podrías investigar si hay una correlación entre el tiempo de estudio y la puntuación obtenida, o si el género o la edad tienen algún impacto en el rendimiento del estudiante en el examen.

En el aprendizaje automático, este tipo de dataset se usaría para entrenar modelos predictivos que podrían predecir la puntuación del examen en función de las otras variables proporcionadas.

Ejemplo simple en Python utilizando el conjunto de datos de estudiantes que mencionamos anteriormente. Vamos a calcular la correlación entre las horas de estudio y la puntuación del examen.

Primero, necesitaríamos tener los datos en una estructura en Python, por ejemplo, en listas o en un DataFrame de Pandas. Aquí tienes un ejemplo con Pandas:

Ejecutado este código tenemos los siguientes resultados.

Python

import pandas as pd

# Creamos un diccionario con los datos
data = {
    'Estudiante ID': [1, 2, 3, 4],
    'Edad': [18, 20, 19, 21],
    'Género': ['M', 'F', 'M', 'F'],
    'Horas de estudio': [5, 3, 6, 4],
    'Puntuación del examen': [85, 70, 90, 75]
}

# Creamos un DataFrame de Pandas
df = pd.DataFrame(data)

# Mostramos el DataFrame
print(df)

 Interaccion con google colab

Estudiante ID Edad Género Horas de estudio Puntuación del examen 0 1 18 M 5 85 1 2 20 F 3 70 2 3 19 M 6 90 3 4 21 F 4 75

Esto creará un DataFrame con los datos de los estudiantes. Ahora, para calcular la correlación entre las horas de estudio y la puntuación del examen, puedes hacer lo siguiente:

 Python

# Calculamos la correlación entre 'Horas de estudio' y 'Puntuación del examen'
correlation = df['Horas de estudio'].corr(df['Puntuación del examen'])
print("Correlación entre Horas de estudio y Puntuación del examen:", correlation)

Interacción con chat GPT

 Correlación entre Horas de estudio y Puntuación del examen: 0.9899494936611666

Este código calculará la correlación entre las horas de estudio y la puntuación del examen utilizando Pandas. La correlación puede variar entre -1 y 1, donde 1 significa una correlación positiva perfecta, 0 significa ninguna correlación, y -1 significa una correlación negativa perfecta.

Utilizando el mismo DataFrame de Pandas que creamos anteriormente, podemos generar algunas visualizaciones simples para entender mejor nuestros datos. Vamos a crear un gráfico de dispersión para visualizar la relación entre las horas de estudio y la puntuación del examen, y también un histograma para ver la distribución de las puntuaciones obtenidas en el examen.

 Para el gráfico de dispersión:

Python

import matplotlib.pyplot as plt

# Gráfico de dispersión: Horas de estudio vs Puntuación del examen
plt.figure(figsize=(8, 6))
plt.scatter(df['Horas de estudio'], df['Puntuación del examen'], color='blue')
plt.title('Relación entre Horas de estudio y Puntuación del examen')
plt.xlabel('Horas de estudio')
plt.ylabel('Puntuación del examen')
plt.grid(True)
plt.show()




Este código generará un gráfico de dispersión que muestra cómo se distribuyen las puntuaciones del examen en función de las horas de estudio.

 Ahora, para el histograma de las puntuaciones del examen:

Python

# Histograma: Distribución de las Puntuaciones del examen
plt.figure(figsize=(8, 6))
plt.hist(df['Puntuación del examen'], bins=10, color='green', alpha=0.7)
plt.title('Distribución de las Puntuaciones del examen')
plt.xlabel('Puntuación del examen')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()



Histograma: Distribución de las Puntuaciones del examen

 Este código generará un histograma que muestra la distribución de las puntuaciones obtenidas en el examen.

 Ambos gráficos proporcionarán una visualización rápida y útil de los datos que tenemos, permitiendo una mejor comprensión de la relación entre las horas de estudio y las puntuaciones del examen, así como la distribución de las puntuaciones.

 Recuerda que este es un ejemplo simple. En proyectos reales, el preprocesamiento de datos, la visualización y el modelado serían mucho más detallados y complejos.

Conclusiones:

1. Relación entre horas de estudio y puntuación del examen: Observamos una tendencia positiva entre las horas de estudio y las puntuaciones del examen. A medida que aumentan las horas de estudio, tiende a haber un aumento en las puntuaciones.

2. Distribución de las puntuaciones: El histograma muestra cómo se distribuyen las puntuaciones del examen. Podríamos notar si hay agrupaciones de puntajes en ciertos rangos que podrían indicar diferentes niveles de rendimiento.

 Reflexiones:

1. Correlación no implica causalidad: Aunque vemos una correlación entre las horas de estudio y las puntuaciones, no podemos afirmar que estudiar más causará automáticamente puntajes más altos. Podría haber otros factores involucrados que no están representados en nuestros datos.

2. Variables no consideradas: Este conjunto de datos es limitado y no incluye todas las variables relevantes. Factores como la motivación, el tipo de material de estudio o incluso la calidad del sueño podrían influir en el rendimiento del estudiante.

3. Limitaciones del análisis: Nuestro análisis es básico y no tiene en cuenta la complejidad de las interacciones entre las variables. En un escenario real, se requeriría un análisis más profundo y posiblemente la aplicación de modelos predictivos más sofisticados para obtener conclusiones más sólidas.

4. Contexto y aplicabilidad: Los hallazgos obtenidos pueden ser específicos para este conjunto de datos y no aplicables universalmente. Dependiendo del contexto y la población estudiantil, los resultados podrían variar.

En resumen, los análisis de datos son valiosos, pero también es crucial ser consciente de sus limitaciones y asegurarse de interpretar los resultados con cautela, considerando siempre el contexto y la complejidad del fenómeno estudiado.

 Conclusiones y reflexiones:  Es de gran importancia poder conocer estas herramientas de data set  (aprendizaje supervisado),  para mejorar nuestra práctica docente empleado estas nuevas herramientas en el proceso de enseñaza apredizaje.

 


Comentarios

Entradas populares de este blog

MODULO IV APLICACIÓN PRÁCTICA: REGRESIÓN LOGÍSTICA (APRENDIZAJE SUPERVISADO) EJEMPLO DE REGRESIÓN LOGÍSTICA PARA PREDECIR EL ESTADO DE SALUD BASADO EN EL ÍNDICE DE MASA CORPORAL (IMC).

MODULO IV CLASIFICACIÓN DE CARIES DENTAL SEGÚN LA METODOLOGÍA DE BLACK.