Ciência de Dados

ÁREA

Tecnologia da Informação

O que é o Curso

A pós-graduação em Ciência de Dados possui um programa inovador concebido para formar profissionais de diversas áreas multidisciplinares, que buscam combinar competências, como programação, estatística e análise de negócio, para extrair conhecimento de diversas bases de dados. Os profissionais aplicam algoritmos de aprendizado de máquina a diferentes tipos de dados para desenvolver sistemas automatizados capazes de executar tarefas que normalmente exigem inteligência humana. 

Nos últimos anos a demanda por cientistas de dados aumentou em função da necessidade cada vez mais rápida e competitiva das empresas a respostas do mercado, analisando dados e extraindo soluções e oportunidades que possam surgir. Os cientistas de dados são muito requisitados, pois agregam muito valor ao negócio. E em função da falta de profissionais qualificados, proporciona bons salários e muita satisfação no trabalho.

O principal objetivo deste curso é formar profissionais multidisciplinares, capacitando-os com conhecimentos teóricos científicos, técnicos e informacionais, práticos e em sintonia com as novas tecnologias disponíveis em ciência de dados. 

Estas, irão lhe proporcionar apreender métodos de coleta, compilação e análise de dados que são essenciais para acompanhar as demandas competitivas do mercado corporativo.

Objetivos do Curso

  • Formar profissionais capazes de analisar o estado da arte de Big Data e Business Analytics com forte embasamento conceitual e prático;
  • Capacitar os participantes na análise dos problemas empresariais e a projetar, desenvolver e gerenciar projetos que demandam técnicas atuais para análise de grandes volumes de dados, de maneira a apoiar a empresa para que ela alavanque sua competitividade;
  • Mostrar a importância dos dados no âmbito da organização, bem como elaborar e executar o processo de garantia de qualidade dos mesmos e desenvolver os conceitos relacionados à sua governança;
  • Curso com viés prático, análises e estudos de casos;
  • Professores com experiência e formação comprovada;
  • Módulos condensados, com calendário pré-estabelecido, facilitando a organização do tempo do estudante.

Estrutura Curricular:

Módulo 1: Probabilidade Estatística

Ementa: Papel da Estatística em Ciência de Dados; As três grandes áreas da estatística, População e Amostra; Garantia representativa da amostra; Parâmetros x  Estatísticas; Fonte de Dados, Informação, Observação; Variáveis, Estatística Descritiva, Medidas de tendência central, Medidas de Posição relativa, Medidas de Dispersão, Histograma, Covariância, Probabilidade Clássica, Empírica e Subjetiva, Eventos, Variáveis, aleatórias, discretas e contínuas, Papel da Probabilidade em Ciência de Dados, Conceitos e Tipos de Distribuição de Probabilidade, Amostragem Probabilística, Escore z, Nível e intervalo de confiança, valor crítico, Análise de regressão, Teste de Hipótese.

Módulo 2: Linguagem de programação para ciência de dados 

Ementa: Lógica de programação, uso das linguagens Python e R aplicadas à ciência de dados.  Os tópicos abordam desde tipos de variáveis, estruturas de programação até a utilização de bibliotecas que permitam a manipulação e análise de diferentes tipos de dados. 

Módulo 3: Análise de dados

Ementa:   Produção de Dados; Armazenamento Analítico; Análise de Dados; Problemas e Soluções em Análise de Dados; Análise de Dados Categóricos; Métricas de Desempenho; Indicadores; Sistemas de Medição. Formatar e combinar dados. Tabelas Dinâmicas. Uso do Power BI. Criação de Painéis (Dashboard’s). Auditoria de dados. Importação de dados (Texto, Redes Sociais e Bancos Relacionais).

Módulo 4: Métricas e visualização de dados

Ementa: Storytelling e técnicas de apresentação, Métodos de visualização, O aspecto humano da Visualização, A importância das imagens, Organização Visual e Técnicas de visualização, Iconografia e avaliação de estratégias de visualização.

Módulo 5: Banco de Dados

Ementa: Modelagem de dados, armazenamento e recuperação de dados, além do uso de Sistemas Gerenciadores de Banco de Dados Relacionais (SGBDRs). Conceitos de bancos de dados (níveis conceitual, lógico e físico), modelo Entidade-Relacionamento Estendido, Modelo Relacional, mapeamento entre modelos conceitual e lógico, linguagem de consulta SQL, organização física de dados (páginas de disco, arquivos, campos e registros) e estruturas de indexação (árvore-B e variantes, hashing e bitmap). Bancos de Dados NoSQL. Bancos de Dados RDF. Manipulação de bases de dados publicamente disponíveis.

Módulo 6: Extração, tratamento e carregamento de dados (ETL)

Ementa: Extração de dados, tratamento, limpeza de dados e engenharia de novos atributos (Feature Engineering), para posterior carregamento e armazenamento em um sistema que possibilitará a realização de exploração, análises e cruzamentos dessas informações.

Módulo 7: Modelos de Classificação e Clusterização

Ementa: Apresentar modelo de aprendizado de máquina supervisionado e não supervisionado de modelos com variáveis categóricas e técnicas de modelagem e criação desses modelos para solução de problemas reais. Entender como avaliar performance e propor a melhoria contínua dos produtos. Dentre eles podemos destacar KMN, Naive Bayes, K-means, arvores de decisão e redes neurais artificiais.

Módulo 8: Modelos de Regressão 

Ementa: Modelo de Regressão Linear Simples; Modelo de Regressão Linear Múltipla; Inferência: testes de hipótese e intervalos de confiança; Forma funcional, critérios de ajuste, previsão e resíduos; Multicolinearidade: natureza, consequência e diagnósticos; Regressores qualitativos (variáveis dummy), interações e teste de estabilidade estrutural; Heterocedasticidade: natureza, consequência e testes; Problemas de especificação em regressão; Modelo de regressão logística para dados binários.

Módulo 9: Modelos de Processamento de Linguagem Natural (ChatGPT)

Ementa: Definição, Escopo e Terminologia: Linguística Computacional, Processamento de Linguagem Computacional, Processamento de Linguagem Natural (PNL). Uma introdução à linguística computacional por meio de aplicativos. Uma elaboração de diferentes perspectivas linguísticas em inteligência artificial e dos principais recursos linguísticos utilizados na computação linguística.

Módulo 10: Versionamento e Publicação de soluções para Data Science

Ementa: Trazer boas práticas de versionamento, trabalho com múltiplo desenvolvedores e cientistas, manutenção e ciclo de vida de modelos, e publicação de soluções de ciência de dados. Deploy em ambientes On Primise e Cloud, apresentar proposta de trabalho e versionamento de soluções através de git e github.

Metodologia de Ensino:

Aulas Síncronas;
Estudos de caso e simulações;
Discussões em grupo e análise de situações reais;
Visitas técnicas e estágios supervisionados.

 

Periodicidade

Como funciona a Pós-Graduação Digital no UNISANTACRUZ

Modalidade

EAD

Duração

10 Meses

Desconto válido para pagamento da mensalidade no dia 01 do mês para ingressantes do 2024..1. Para demais condições e/ou datas de pagamento,, consulte nosso site e editais.

PÓS Graduação Digital
Inscreva-se