Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Feedback #1

Open
wants to merge 6 commits into
base: feedback
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from 3 commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
1 change: 1 addition & 0 deletions datos/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
Fuente: https://data.buenosaires.gob.ar/dataset/uso-tiempo
2,337 changes: 2,337 additions & 0 deletions datos/encuesta_uso_tiempo_2016.csv

Large diffs are not rendered by default.

25 changes: 25 additions & 0 deletions datos/tas_part_lad_sexo__2005__g_g_activ_limpio.csv
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
anio,sexo,porc_poblacion,grupos_actividad
2005,TOTAL,45.9,Trabajo para el mercado
2005,TOTAL,80.6,Trabajo doméstico no remunerado
2005,TOTAL,8.4,Servicios a la comunidad y ayudas no pagas
2005,TOTAL,13.9,Educación
2005,TOTAL,90.4,Convivencia social y actividades recreativas
2005,TOTAL,89.1,Uso de medios de comunicación
2005,TOTAL,25.9,Trabajo de cuidado no remunerado a miembros del hogar
2005,TOTAL,100.0,Cuidado personal
2005,m,35.7,Trabajo para el mercado
2005,m,92.6,Trabajo doméstico no remunerado
2005,m,10.9,Servicios a la comunidad y ayudas no pagas
2005,m,14.1,Educación
2005,m,91.4,Convivencia social y actividades recreativas
2005,m,90.0,Uso de medios de comunicación
2005,m,30.9,Trabajo de cuidado no remunerado a miembros del hogar
2005,m,100.0,Cuidado personal
2005,v,58.3,Trabajo para el mercado
2005,v,65.8,Trabajo doméstico no remunerado
2005,v,5.2,Servicios a la comunidad y ayudas no pagas
2005,v,13.6,Educación
2005,v,89.3,Convivencia social y actividades recreativas
2005,v,88.1,Uso de medios de comunicación
2005,v,19.6,Trabajo de cuidado no remunerado a miembros del hogar
2005,v,100.0,Cuidado personal
25 changes: 25 additions & 0 deletions datos/tas_part_lad_sexo__2016__g_g_activ_limpio.csv
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
anio,sexo,porc_poblacion,grupos_actividad
2016,TOTAL,49.14036509651854,Trabajo para el mercado
2016,TOTAL,86.81027906681074,Trabajo doméstico no remunerado
2016,TOTAL,8.40047782510118,Servicios a la comunidad y ayudas no pagas
2016,TOTAL,16.63585348109536,Educación
2016,TOTAL,88.29425621031368,Convivencia social y actividades recreativas
2016,TOTAL,76.2,Uso de medios de comunicación
2016,TOTAL,26.494042195523352,Trabajo de cuidado no remunerado a miembros del hogar
2016,TOTAL,100.0,Cuidado personal
2016,m,42.82019103733207,Trabajo para el mercado
2016,m,90.77317789342095,Trabajo doméstico no remunerado
2016,m,10.140580735400054,Servicios a la comunidad y ayudas no pagas
2016,m,17.1,Educación
2016,m,86.80157830301737,Convivencia social y actividades recreativas
2016,m,75.3,Uso de medios de comunicación
2016,m,30.833115291062214,Trabajo de cuidado no remunerado a miembros del hogar
2016,m,100.0,Cuidado personal
2016,v,56.76104119683885,Trabajo para el mercado
2016,v,82.03193465839381,Trabajo doméstico no remunerado
2016,v,6.3023139871388905,Servicios a la comunidad y ayudas no pagas
2016,v,15.939090841814576,Educación
2016,v,90.09408240925751,Convivencia social y actividades recreativas
2016,v,77.25390760410215,Uso de medios de comunicación
2016,v,21.262118149277686,Trabajo de cuidado no remunerado a miembros del hogar
2016,v,100.0,Cuidado personal
216 changes: 209 additions & 7 deletions informe.Rmd
Original file line number Diff line number Diff line change
@@ -1,36 +1,238 @@
---
title: "titulo"
author: "nombres"
title: "Tp 1 y 2 GRUPO 26"
author: "Claudia Magliano"
output: html_document
---


```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
# Cargar los paquetes necesarios acá


library(readr)
library(dplyr)
library(ggplot2)
library(tidyr)
```


## Introducción


Este informe se centra en los datos provenientes de la Encuesta sobre Uso del Tiempo realizada en la Ciudad Autónoma de Buenos Aires durante el año 2016. Dicha encuesta fue instrumentada por la Dirección General de Estadísticas y Censos del Gobierno de la Ciudad y sus resultados fueron publicados en formato abierto en 2017. (https://data.buenosaires.gob.ar/dataset/uso-tiempo)
Captura información sobre distintas variables de personas residentes en CABA: sexo, edad, nivel de estudios, horas dedicadas al trabajo productivo/pago, horas dedicadas al trabajo doméstico no pago, horas dedicadas a tareas de cuidado, tipo de hogar, ingresos (por quintiles) y estado ocupacional, entre otras. Incluye datos discretos dicotómicos como el sexo y datos continuos como el tiempo para cada tarea.
A partir del análisis de los datos arrojados por esta encuesta se podría ponderar la diferencia en el uso del tiempo entre varones y mujeres (sobre todo en la esfera de los cuidados), el índice de la feminización de las tareas de cuidado, etc.

## Exploración de los datos
```{r}
uso_tiempo_2016<-read.csv("datos/encuesta_uso_tiempo_2016.csv")

```

¿Qué variables tiene? Tiene variables cuantitativas y cualitativas
¿Cuántas observaciones hay? Hay 2336 filas (observaciones)
¿Cuántas variables? 27 variables

```{r}
# Código para cargar o leer los datos
uso_tiempo_2016|>
select(sexo,edad,trabajo_pago,trabajo_pago2,trabajo_domestico_no_pago,trabajo_domestico_no_pago2,tareas_cuidados, tareas_cuidados2,nivel_educativo,estado_ocupacional,recreacion,recreacion2)

```
magliweb marked this conversation as resolved.
Show resolved Hide resolved

Conforme lo señalado en la consigna se seleccionaron las variables de interés y se asignó la info generada a una variable. En este punto tuvimos un problema de interpretación del dataset que no pudimos resolver, aún habiendo consultando el Informe 2017 sobre esta encuesta y el cuestionario de relevamiento. Como se observa, hay variables con misma denominación diferenciadas con el "2" que tienen valores disímiles en las observaciones. Ej: tareas_cuidados y tareas_cuidados2, ¿qué tipo de tareas de cuidado engloban esas distinciones? no lo sabemos..... La variable quintil_ingreso también la eliminamos porque tenía una sola categoría en las observaciones: 5to quintil de ingresos (procentaje de población más rica). También nos resultó raro porque en el Informe dice que se entrevistaron personas residentes en distintos barrios y asentamientos.

```{r}
filter(uso_tiempo_2016,edad>=18)|>
group_by(sexo)|>
summarise(conteo = n())
```

Con la ejecución de este código nuestra idea fue ver cómo se compone la muestra excluyendo personas entrevistadas menores de 18 años, es decir que excluimos niños, niñas y adolescentes (conf. Ley N° 26.061). Lo que vimos es que hay 1316 observaciones (filas) correspondientes a mujeres y 953 a varones dentro de la variable sexo.


```{r}
# Cödigo de R acá
# Agregá más bloques según sea necesario
uso_tiempo_2016|>
filter (edad>=18)|>
group_by(sexo)|>
summarise(valor_prom_recreacion = mean(recreacion))
```
Los valores promedios del tiempo dedicado por hombres y mujeres de 18 años o más en CABA a actividades de recreación es parejo: 3 horas cada une aprox.

```{r}
#Poblacion_activa_uso_del_tiempo <-
uso_tiempo_2016|>
filter(edad > "18" & edad < "70" ) |>

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

edad es un número, no tiene sentido la comparación el texto "18". Igual acá creo R te salva porque automáticamente hace la conversión a texto y luego compara en órden alfabético y justo coincide con el orden numérico. Pero la comparación tiene que ser con 18, no con "18" (idem para 70).

Esto está repetido otras veces en el código.

#Poblacion_activa <-
select("trabajo_pago", "recreacion", "trabajo_domestico_no_pago", "estudio_educacion")

```



```{r}
uso_tiempo_2016 |>
select(sexo,trabajo_pago,trabajo_pago2,trabajo_domestico_no_pago,trabajo_domestico_no_pago2,tareas_cuidados, tareas_cuidados2, quintil_ingreso,rango_etario)
```

Conforme la consigna se seleccionaron las variables de interés y se asignó la info generada por la selección a una variable.

```{r}
filter(uso_tiempo_2016, edad == "14")
```

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Acá también el código devuelve tablas enteras y no guarda la selección ni el filtro. Recordá que la tabla nunca se modifica, sino que las acciones de filtrar, seleccionar, etc... devuelven un nueva tabla con el resultado de esas acciones. Para guardar ese resultado hay que asignarlo a una variable.

Realizamos un filtro de encuestado de 14 años

```{r}
uso_tiempo_2016|>
count("Varon", sexo)

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Esto devuelve lo mismo que está más arriba salvo que agrega una columna con el valor constante "Varon". No hace falta poner ese "Varon".

```

cuenta la cantidad de varones y mujeres encuestadas

```{r}
summarize(uso_tiempo_2016, proporción_media = mean ("estudio_educacion", na.rm = TRUE))

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Esto te está dando NA porque estás calculando la media del texto "estudio_educacion" que, como es un texto, no tiene media. Tenés que sacarle las comillas.

```

Calculamos la media poblacional del tiempo empleado en educacion

```{r}
#uso_tiempo_2016_b <- read_csv("datos/encuesta_uso_tiempo_2016.csv")
uso_tiempo_2016|>
filter(edad >"18") |>
group_by(sexo) |>
summarize( tiempo_Max = max(trabajo_pago), tiempo_Mim = min(trabajo_pago), desvio = sd(trabajo_pago), na.rm = TRUE)

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

El na.rm = TRUE tiene que ir dentro de las funciones max, sd, etc. Acá está como un argumento a summarize() y lo que hace es agregar una columna con el nombre na.rm y valor TRUE. En estos casos no hay valores faltantes, así que no hace falta que lo pongas.


```
Analisis sobre de la distribucion del tiempo del trabajo remunerado diferenciado por sexo con bariables estadisticas

```{r}
uso_tiempo_2016|>
filter(edad > "18" & edad < "70", ) |>
select( "trabajo_pago", "recreacion", "trabajo_domestico_no_pago", "tareas_cuidados")

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Esto también devuelve un montón de datos.

```



Analizamos el tiempo que le dedican las personas mayores de 18 y menores a 70 a las tareas principales de la semana




## Hipótesis

1 ¿Influye la falta de trabajo para que la poblacion masculina se dedique mas a tareas domenticas no remuneradas o del cuidado de personas ?

```{r}
Tiempo_activos <- uso_tiempo_2016|>
#group_by(sexo=="Varon") |>
filter(edad > "18" & edad < "65", sexo=="Varon" ) |>
select( "edad","trabajo_pago", "trabajo_domestico_no_pago", "tareas_cuidados")
```

Agrupamos por sexo, para seleccionar solo los varones y luego filtramos por edad lavorable

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

En el código la agrupación está comentada así que no corre. El grupo no selecciona únicamente a los varones. Quizás este texto te quedó de una versión anterior del código?

```{r}
Tiempo_activos<-mutate(Tiempo_activos, trabajoDelHogar =(trabajo_domestico_no_pago+tareas_cuidados ))
```

armamos una tabla con dos columans trabajo_pago que esta en la tabla original y trabajoDelHogar que suma trabajo_domestico no pago y cuidado de personas

```{r}
vargrap <- Tiempo_activos|>
group_by(edad)|>
summarise(mediadelhogar = mean(trabajoDelHogar,na.rm=TRUE), trabajopago = mean(trabajo_pago,na.rm=TRUE))

```

calculamos media de ambas variables

```{r}
ggplot()+
geom_line(data=vargrap,aes(y=mediadelhogar,x= edad,colour="mediadelhogar"),size=1 )+
geom_line(data=vargrap,aes(y=trabajopago,x= edad,colour="trabajopago"),size=1) +
scale_color_manual(name = "Promedios", values = c("mediadelhogar" = "darkblue", "trabajopago" = "red")) +
labs(title='Tiempo ocupado en tareas hogareneas VS trabajo pago', y = "Tiempo empleado")

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Para hacer este gráfico lo que te conviene es usar pivot_longer() para alargar la tabla y luego usar un solo geom_line(). Algo así:

vargrap |> 
  pivot_longer(cols = -edad) |>    # alarga todas las columnas menos edad
  ggplot(aes(edad, value)) +
  geom_line(aes(color = name))

```


Segun el analisis de datos podemos inferir que ambas variables se comportan en forma independiente, es decir que no depende del grado de ocupasion fuera del hogar poara que los hombres se ocupen mas o menos de las tareas domesticas y de cuidado de personas. Si notamos mas intensidad de la actividad del hogar entre los 30 y 55 años de edad, y supongo que se relaciona con que es la edad en que se tienen a la guarda primero los hijos y luego los padres ancianos


2 ¿Es decisivo el grupo etario a la hora de repartir mayor tiempo a las aplicaciones, es decir depende de la edad el mayor o menor tiempo que las personas dedican a las aplicaciones, los adolescentes las valoran mas que otros entretenimientos?

```{r}
vargrap2 <- uso_tiempo_2016 |>
group_by(edad)|>
filter(edad < 70) |>
summarise(Promedio_Aplicaciones = mean(aplicaciones,na.rm=TRUE),
DesvStandard = sd(aplicaciones,na.rm=TRUE))
```

Generamos una tabla agrupado por edad que nos da la media poblacional y el desvio estandar del uso de aplicaciones

```{r}
vargrap2 <- rbind (
vargrap2 |> filter(edad < 23) |>
summarise(edad = "grupo 1",prom =mean(Promedio_Aplicaciones), dev = mean(DesvStandard)),

vargrap2 |> filter(edad >= 23 & edad < 35 ) |>
summarise(edad = "grupo 2",prom =mean(Promedio_Aplicaciones), dev = mean(DesvStandard)),

vargrap2 |> filter(edad >= 35 & edad < 45 ) |>
summarise(edad = "grupo 3",prom =mean(Promedio_Aplicaciones), dev = mean(DesvStandard)),

vargrap2 |> filter(edad >= 45 & edad < 55 ) |>
summarise(edad = "grupo 4",prom =mean(Promedio_Aplicaciones), dev = mean(DesvStandard)),

vargrap2 |> filter(edad >= 55 & edad < 70 ) |>
summarise(edad = "grupo 5",prom =mean(Promedio_Aplicaciones), dev = mean(DesvStandard))
)



```

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ojo que en los datos ya hay una variable llamada rango_etario que tiene la edad categorizada por rango. Si querés hacer un recorte con otras edades, podés usar la función cut() para crear una nueva variable edad_categorica (o como quieras llamarla) con la edad por rangos y luego agrupar por esa variable.


Para poder visualizar mejor el comportamiento de las variables agrupamos la edad en grupos de frecuencia segun los cortes etarios


```{r}
#grafico
ggplot(vargrap2, aes(x = edad, y = prom)) +
geom_bar(width = 0.5, colour="red", fill="skyblue", stat = "identity")
labs(title='Tiempo ocupado en el uso de aplicasiones segun grupo etario')

ggplot(vargrap2, aes(x = edad, y = dev)) +
geom_bar(width = 0.5, colour="red", fill="lightgreen", stat = "identity")

```


para analisar los datos de una forma mas panoramica, hemos agrupado las edades en grupos generacionales:
1 Grupo 1 : adolescentes de 14 a 22
2 Grupo 2: jovenes de 23 a 34
3 Grupo3 : Adultos jovenes de 35 a 44
4 Grupo 4: adultos medios de 45 a 54
5 Grupo 5: adultos extendidos de 55 a 70
Al observar las graficas podemos inferir que si es desisivo el grupo etario con el tiempo que se les dedica a las aplicacions puesto que los desvios estandar dan valores similares a las medias, esto significa que los datos, el tiempo dedicado, por grupo etario esta bastante agrupado sobre su media. Por otro lado contrario a los que se pensaba inicialmente, hemos comprobado que el grupo etario mayor utiliza casi el mismo tiempo en aplicaciones que el grupo adolescente. No sabemos con este dato si utilizan la misma cantidad de aplicaciones o solo el mismo tiempo por ser mas lentos al usarlas. El resto de los grupos etarios que coinciden con las edades mas ocupadas lavoralmente utilizan cantidades de tiempo similares y al rededo de la mitad de los extremos, por lo cual se podria suponer que en el 2016 las aplicaciones cumplian principalmente la funsion de entretenimiento, a diferencia del presente que se utilizan para la mayoria de los tramites y actividades cotidianas



3 ¿ El promedio de tiempo que le dedican al estudio las personas entre 18 y 25 años, disminulle en relacion con el de las personas que aun no estan en edad lavorable?

```{r}
vargrap3 <- uso_tiempo_2016 |>
filter(edad >= 14 & edad < 25 ) |>

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Acá podrías no filtrar por edad para ver toda la curva.

group_by (edad)|>
summarise (educa = mean(estudio_educacion,na.rm=TRUE))
```

Generamos una tabla para ver el promedio de tiempo que le dedican a la educacion las personas hasta los 24 años


```{r}
ggplot(vargrap3, aes(x = edad, y = educa)) +
geom_line(width = 0.5, colour="red", stat = "identity")
```


En este caso coroboramos la hipotesis y vemos que al aumentar la edad lavorable baja el tiempo de estudio, ya sea porque se titulan y no continuan otra formacion o porque abandonan el estudio formal para dedicarse a trabajar. El hecho de que alla un pico a los 20 se puede entender como que muchas personas a esa edad se estabilizaron de la finalizacion del secundario e ingresan a estudios superiores que luego terminan abandonando. tambien se puede interpretar como que a esa edad estan a mitad de la carrera de formacion y es cuando mas tiempo le requiere, pero el descenso hacia los 24 es inminente.
20,539 changes: 20,470 additions & 69 deletions informe.html

Large diffs are not rendered by default.