Desafio 5: Análises Avançados de Tipos de Dados Diversos

O prazo para entregar Desafio 5 por email com título “[FLS6397] - D5” à minha conta é 09/07/2021. Por favor entregue (i) o arquivo .Rmd (ou .Rnw se preferir), e (ii) o arquivo .html ou .PDF.


Instruções

Siga as instruções abaixo. Documente todos os seus passos em um script. Comente no seu script todos os seus passos e explique a si mesma(o) suas escolhas e estratégias. Se você se beneficiou da assistência de outra pessoa, sempre reconheça isso em comentários no código.

Roteiro

Análise Espacial

  1. Instale e abra o pacote geobr do IBGE. Leia as instruções no site de github sobre o pacote e use a função read_municipality() para acessar todos os municípios do estado de São Paulo em 2018.

  2. Use a funcionalidade da família de map para aplicar a função read_municipality para os seguintes cinco estados seguintes em uma única linha de código: SP, RJ, MT, RS e RN (todos para o ano de 2018).

  3. Baixe, descompacte e abre em R o arquivo da população paulista em 2010 do site do IBGE, ‘Censos’ -> ‘Censo_Demografico_2010’ -> ‘resultados’ -> ‘total_populacao_sao_paulo.zip’.

  4. Queremos mapear dados da população por município. Identifique a chave apropriada, e cruze o banco da população com o banco das fronteiras dos municípios de SP.

  5. Usando o seu banco de dados de Questão 5, calcule a proporção da população urbana na população total em cada município e apresente os seus resultados por meio de um mapa bem-formatado dessa taxa por município em 2010. Aplique uma escala de cores desejada.

Testes Estatísticos e Regressões

  1. Faça um teste de shapiro para avaliar se a taxa de urbanização do município é distribuída de forma normal.

  2. Execute uma regressão linear para avaliar se a taxa de urbanização do município (a variável dependente) é associada com a população total do município (a variável independente). Apresente o resultado numa tabela bem-formatada.

  3. Mostre um gráfico do efeito marginal (o coeficiente) da variável da população na regressão da questão anterior em Questão 8 e o intervalo de confiança do coeficiente.

Análise de Texto

  1. Use este link para acessar em R um PDF da discussão na Câmara dos Deputados no dia 21 de Maio de 2020. Transforme o PDF em texto simples.

  2. Precisamos processar e preparar o texto para a análise. Siga os seguintes passos:

    1. Insira o texto num tibble
    2. No PDF é possível ver que as falas dos deputados distintos sempre começam com ‘O SR.’ ou ‘A SRA.’ então vamos usar estes strings para dividir o texto por Deputado. Use str_split para dividir o texto baseado nos strings ‘O SR.’ ou ‘A SRA.’ e salve os resultados numa nova coluna.
    3. Em seguida, unnest() os dados para que cada fala de cada deputado fique em uma linha separada no tibble.
    4. Use separate para dividir a fala de cada deputado em duas colunas: O nome do Deputado, e o Discurso, usando o seguinte string como divisor: "\\) - "
    5. O resultado deve conter umas linhas em que a coluna ‘Deputado’ não é uma pessoa, mas começa com “Sessão”. Use filter para remover essas linhas que começam com “Sessão” na coluna de ‘Deputado’.
    6. Ainda, o nome do deputado fica desarrumado por causa de conteúdo em parênteses. Para identificar os deputados únicos, use separate para dividir a coluna do nome de Deputado em (i) nome e (ii) conteúdo nos parênteses (que não importa para nós), usando o seguinte string como divisor: " \\(".
    7. Tire as colunas desnecessárias para que sobre apenas as duas colunas: Nome do Deputado, e Discurso.
  3. Agora, com o tibble produzido em Questão 17, vamos desagregar e padronizar os discursos:

    1. ‘Tokenize’ os discursos dos deputados em palavras únicas para que o seu tibble contenha uma linha por palavra.
    2. Remova os stopwords de português. Se quiser, pode incluir mais stopwords que você julgue não ser relevante para a análise.
    3. Transforme as palavras em suas raízes, os ‘stems’.
  4. Gere um ‘wordcloud’ dos stems das palavras usadas pelos Deputados.

  5. Execute uma análise de sentimento para identificar no documento inteiro qual Deputado usa as palavras mais otimistas e qual Deputado usa as palavras mais pessimistas.