Introdução à

Ciência de Dados

Slides Referências Scripts Datasets Contato

Slides

Introdução à ciência de dados

O curso tem como objetivo discutir diferentes metodologias para estudar e analisar conjuntos de dados, o que possibilita a toma de decisões mais informadas. O curso é dividido em várias aulas, sendo que cada aula é composta por aulas teóricas e práticas.

Referências Bibliográficas

As referências bibliográficas estão compostas por livros físicos, livros online e alguns sites com assuntos relacionados à áreas. Os livros online são gratuitos e podem ser acessados diretamente no link. Os livros físicos podem ser adquiridos em livrarias ou em sites de vendas online.

Livros físicos
  1. Brockwell, P. J. and Davis, R. A. (2016) Introduction to Time Series and Forecasting. 3rd Ed., Springer Texts in Statistics, New York.
  2. Brockwell P. J. and Davis R. A. (1991) Time Series: Theory and methods. 2nd Ed., New York: Springer.
Livros online
  1. Bargagliotti, A. and Franklin, C. (2021) Statistics and Data Science for Teachers. Versão para impressão.
  2. Blum, A., Hopcroft, J. and Kannan, R. (2019) Foundations of Data Science.
  3. Bruce, P. and Bruce, A. (2017) Practical Statistics for Data Scientists.
  4. Caffo, B. (2017) Advanced Linear Models for Data Science.
  5. Caffo, B. (2016) Statistical inference for data science.
  6. Das, S. R. (2016) Data Science: Theories, Models, Algorithms, and Analytics.
  7. Daumé, H. (2017) A Course in Machine Learning.
  8. Dean, J. (2014) Big Data, Data Mining, and Machine Learning.
  9. Deisenroth, M. P., Faisal, A. A. and Ong, C. S. (2021) Mathematics for Machine Learning. Errata.
  10. Downey, A. B. (2014) Think Stats: Exploratory Data Analysis in Python.
  11. Fernandez-Granda, C. (2017) Probability and Statistics for Data Science.
  12. Haider, M. (2016) Getting Started with Data Science: Making Sense of Data with Analytics.
  13. Janssens, J. (2015) Data Science at the Command Line.
  14. Jaynes, E. T. (1995) Probability Theory: The Logic of Science.
  15. Kotu, V. and Deshpande, B. (2019) Data Science: Concepts and Practice. 2nd Ed.
  16. Kretz, A. (2019) The Data Engineering Cookbook: Mastering the Plumbing of Data Science.
  17. Kroese, D.P., Botev, Z.I., Taimre, T. and Vaisman, R. (2020) Data Science & Machine Learning: Mathematical ans statistical methods. Errata.
  18. MacKay, D. (2005) Information Theory, Inference and Learning Algorithms.
  19. Molnar, C. (2021) Interpretable Machine Learning.
  20. Morettin, P. & Singer, J. (2021) Introdução à Ciência de Dados.
  21. Murphy, K. P. (2022) Probabilistic Machine Learning: An Introduction.
  22. Overton, J. (2016) Going Pro in Data Science.
  23. Saxe, J. and Sandres, H. (2018) Malware Data Science: Attack Detection and Attribution.
  24. Shalev-Shwartz, S. and Ben-David, S. (2014) Understanding Machine Learning: From Theory to Algorithms. Errata.
  25. Skiena, S. (2017) The Data Science Design Manual.
  26. Stanton, J. (2012) An Introduction to Data Science.
  27. Werness, B., Hu, R. (2021) Chapter: Mathematics for Deep Learning.
Artigos
  1. Beckman, M. D., Çetinkaya-Rundel, M., Horton, N. J., Rundel, C. W., Sullivan, A. J., & Tackett, M. (2021) Implementing Version Control With Git and GitHub as a Learning Objective in Statistics and Data Science Courses. Journal of Statistics and Data Science Education, Vol. 29, No. sup1, S132-S144.
  2. Booz Allen Hamilton Holding Corporation (2015) The Field Guide to Data Science. Github repository.
  3. Cleveland, W. (2001) Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review, Vol. 69, No. 1 (Apr., 2001), p. 21-26.
  4. Donoho, D. (2017) 50 Years of Data Science. Journal of Computational and Graphical Statistics, 26:4, 745-766.
  5. NG, A. (2019) Deep Learning Course Notes. Visual Notes.
  6. Tukey, J. (1962) The Future of Data Analysis.The Annals of Mathematical Statistics, Vol. 33, No. 1, p. 1-67.
Vídeos
  1. Aprendizaje automático e ciencia de datos.
  2. Data Science in a Box.
  3. Data Science - ML.
  4. Intro to data science with R - Davis Langer.
  5. Machine Learning University.
  6. Machine Learning Course for Beginners.
  7. Mathematics for Machine Learning - Linear Algebra.
  8. Teaching Statistics and Data Science Online.
Scripts

Scripts em R e Python estão disponíveis para ilustrar algumas técnicas utilizadas para a análise de dados. Para execução do exemplos são utilizados conjuntos de dados disponíveis na seção de Datasets. Não esqueça de verificar a seção de Referências Bibliográficas para obter mais informações sobre os métodos utilizados.

Datasets

Os conjuntos de dados disponíveis também são proporcionados por diversas plataformas de análise de dados ou por instituições dedicadas ao tratamento estatístico de dados. A maioria dos conjuntos de dados são disponibilizados em formato csv e podem ser baixados diretamente dos links abaixo.

Arquivos csv
  1. Monthly international airline passengers, Jan. 1949 - Dec. 1960 (mensal - milhares de passageiros).
  2. Vazão média anual do rio Nilo abaixo da represa de Aswan Dam 1871 - 1970. (anual - metros cúbicos por segundo).
  3. Sunspot number. (diária - mensal - anual).
Sites
  1. Awesome public datasets.
  2. Awesome list of datasets in 100+ categories.
  3. Base dos Dados Mais.
  4. Bikeshare data portal.
  5. Coronavirus datasets.
  6. Datacamp: Sources of data.
  7. Datasets for Data Science and Machine Learning.
  8. Dataset Search.
  9. Delve (Data for Evaluating Learning in Valid Experiments) Datasets.
  10. Edinburgh Open Data.
  11. European Centre for Disease Prevention and Control: Coronavirus.
  12. Examples of regression data and analysis.
  13. FiveThirtyEight datasets.
  14. Gapminder datapoints.
  15. Generate test data for your database.
  16. Generate test data.
  17. Global public data explorer.
  18. Harvard Dataverse.
  19. John Burkardt's Datasets.
  20. John Hopkins University.
  21. Kaggle datasets.
  22. NHS Scotland Open Data.
  23. OpenIntro datasets.
  24. Open access to Scotland’s official statistics.
  25. Our world in data.
  26. Papers with code.
  27. Portal Brasileiro de Dados Abertos.
  28. PRISM Data Archive Project.
  29. The R Datasets Package.
  30. R for Data Science. Versão em português.
  31. Rami Krispin 's: Coronavirus datasets.
  32. Statistical reference datasets.
  33. Sea Slug Data.
  34. tsdl: Time Series Data Library.
  35. The MNIST database of handwritten digits.
API's
Diversas
  1. Brasil API: Transformando o Brasil em uma API;
  2. Random Data API: Gera dados pseudo-aleatórios para testar aplicações com API'S;
  3. Rapid API: Nesse site você pode encontrar mais de 10.000 API's públicas e 1 milhão de desenvolvedores ativos no local. As categorias disponíveis (free) encontram-se aqui;
  4. Public APIs: a plataforma agrupa API's em 40 categorias, tornando mais fácil navegar e encontrar a API certa para atender às suas necessidades;
  5. API list: O site oferece mais de 500 API's Web, juntamente com informações detalhadas sobre como usá-las;
  6. Public REST APIs: Esta é uma coleção de diferentes API's REST que são completamente públicas e não requerem nenhuma autenticação, tornando mais fácil para os usuários brincar e entender o que são as API's, experimentando as muitas maneiras diferentes pelas quais as API's podem ser usadas;
  7. apipheny: Lista gigantesca de API's publicas (no key);
  8. HG brasil: Disponibiliza API's para dados climáticos, financeiros e localização por meio de IP's;
  9. Catálogo de APIs Governamentais;
  10. Universities List: API que fornece dados e sites de universidades no mundo;
  11. Google APIs Explorer: Catálogo de API's do Google;
  12. JSON placeholder: Proporciona dados fictícios como fotos, publicações, comentários, entre outros para testar suas APP's;
Mapas, localizações e viagens
  1. Google Maps: A API do Google é Uma das mais usadas para mapas;
  2. Bing Maps: API da Microsoft;
  3. Apple API: API da Apple;
  4. Here Maps: Considerada uma das API's de mapas mais atualizadas do mundo;
  5. OpenStreetMaps;
  6. Mapbox: Personaliza mapas digitais usando Here maps;
  7. OnWater: API para verificar se um determinado ponto geográfico está na água ou na terra;
  8. uebermaps API: Plataforma para que todos possam criar e compartilhar mapas com seus lugares favoritos;
  9. Via CEPE API: Para consultar Códigos de Endereçamento Postal (CEP) de todo Brasil;
  10. Buscar CEP: Para consultar Códigos de Endereçamento Postal (CEP) de todo Brasil;
  11. WebmaniaBR: Para consulta de CEP e IBGE grátis diretamente nos Correios;
  12. Travelbriefing: Acesso a informações específicas do país sobre regulamentos de viagem, condições ambientais predominantes, saúde e vacinas, clima, requisitos de visto, moeda, tomadas elétricas e idioma;
  13. Walk Score: Calcula os tempos de viagem entre uma origem e um conjunto de destinos. Visualize os tempos de viagem em um mapa e suporte os tempos de caminhada, transporte público, direção e ciclismo;
Clima
  1. FlightStats Weather API: Informações atualizadas sobre as condições climáticas atuais em um aeroporto;
  2. OpenWeatherMap API;
  3. Climatempo: A Climatempo disponibiliza através de uma API a previsão do tempo e outros dados meteorológicos em tempo real;
  4. CPTEC/INPE: Dados da Previsão de Tempo, IUV e Ondas do CPTEC/INPE no formato XML puro;
  5. RainViewer: Fornece acesso a dados de mapeamento de chuva com base em informações de radares meteorológicos globalmente;
  6. Wunderground: Previsão do tempo local e de longo alcance, boletins meteorológicos, mapas e condições climáticas tropicais para locais em todo o mundo em 80 idiomas;
  7. OpenUV: Busque a previsão global do índice UV em tempo real;
Financeiras
  1. CurrencyLayer: API com informação em tempo-real sobre 168 moedas ao redor do mundo;
  2. Open Exchange Rates: Dados de taxa de câmbio ​​e conversão de moedas;
  3. APIS B3: A B3 disponibiliza APIs para permitir, de forma ágil, interação com o mercado;
  4. Nomics: API com informações de criptomoedas e Bitcoin;
  5. Fixer: Para verificar a taxa de câmbio entre as diferentes moedas;
  6. Blockchain API: Receção de dados de mercado em tempo real, pedido de informações de saldo e realização de trocas;
  7. CoinAPI: Dados de mercado em 274 casas de câmbio integradas em uma única API.
  8. CoinDesk: Acesse dados do Índice de Preços do Bitcoin, que representa uma média dos preços do Bitcoin nas principais bolsas do mundo;
  9. Yahoo finance API: Alternativa da API do Yahoo Finance para mercado de ações, criptomoedas e câmbio;
Notícias
  1. News API: Localize artigos e manchetes de notícias de fontes de notícias e blogs em toda a web;
  2. New York Tİmes API;
Covid-19
  1. Brasil.io: Proporcionam os dados provenientes das 26 Secretarias Estaduais de Saúde e da Secretaria de Saúde do Distrito Federal. Eles fornecem informações de casos para análise, consolidadas e detalhadas, sobre a doença em território nacional;
  2. COVID-19 Brazil API: Notificação de casos no Brasil e no mundo;
  3. COVID19 API - Johns Hopkins: Para dados globais;
  4. NovelCOVID API;
  5. Postman COVID API: Coleção de API's no Postman;
Divertidas
  1. Marvel API;
  2. The Star Wars API;
  3. Rick & Morty API;
  4. Pokemon API;
  5. Harry Potter API;
  6. Unofficial MyAnimeList API: Jikan é uma API PHP e REST de código aberto para a comunidade e banco de dados de anime + mangá online;
  7. Studio Ghibli API: Catálogo de personagens, lugares e diversas coisas encontradas nos filmes produzidos pelo Studio Ghibli;
  8. Superhero API: Super-heróis de multiple universos;
  9. xkcd comics: Biblioteca de comics de romance, sarcasmo, matemática e outros;
  10. DiceBear Avatar API: Para geração de avatares divertidos e exclusivos;
  11. The Open Movie Database (OMDb);
  12. Deck of Cards API: Disponibiliza vários métodos para brincar com cartas de baralho;
  13. Fuck Off As A Service: Disponibiliza xingamentos aleatórios (rsrsrsrsrs);
  14. Cat API: API para quem gosta de gatos;
  15. Dog API: API para quem gosta de cachorros;
  16. Fun Translations API: API que traduz um texto para uma outra linguagem não convencional, por exemplo: Kinglon, Groot, Yoda, Romulano, entre outras;
  17. Advice Slip: API que te retorna um conselho;
  18. Fruityvice: Proporciona informação sobre vários tipos de frutas;
  19. Meme generator;
  20. Movie Reviews API: Acesse mais de 22.000 resenhas de filmes dos críticos do New York Times de hoje até 1924;
  21. nationalize.io: Prevê a nacionalidade com base em um nome;
  22. genderize.io: Prevê o gênero com base em um nome;
  23. agify.io: Prevê a idade com base em um nome;
  24. Numbers API: Fatos sobre números;
  25. Memes populares;
  26. Listly: Organize e publique ótimas listas de sites. Verifica se o status do site é ativo;
  27. Wikipedia: Visualizações diárias para uma página;

Sherlock Holmes

Contato

FALE CONOSCO!

Laboratório de Estatística e Computação Natural -- LECON
Departamento de Estatística | Universidade Federal do Espírito Santo
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES, 29075-910.