Business Intelligence e Big Data
Business Intelligence (BI) foca na análise de dados para decisões estratégicas, enquanto Big Data gerencia e analisa grandes volumes de dados para insights valiosos que impulsionam o crescimento e a inovação. Ambos são essenciais para a competitividade e transformação digital das empresas hoje.
Big Data
Esse termo é usado para descrever uma base de dados contendo uma enorme quantidade de dados, podendo estar armazenada em um único servidor ou distribuída em vários servidores. Esses dados podem não seguir uma estrutura rigorosa, como é comum em bancos de dados relacionais.
5Vs de Big Data
Os 5Vs do Big Data resumem as principais características dos conjuntos de dados: Volume (quantidade de dados), Velocidade (rapidez de geração e processamento), Variedade (diversidade dos tipos de dados), Veracidade (qualidade e confiabilidade dos dados) e Valor (utilidade dos dados para decisões e criação de valor).
Siglas Importantes
OLTP, OLAP, ROLAP, MOLAP, HOLAP e DOLAP são siglas relacionadas a abordagens e tecnologias para armazenamento, processamento e análise de dados em ambientes empresariais. Elas são essenciais para apoiar a análise de dados e a tomada de decisões, permitindo que as organizações obtenham insights valiosos de seus dados.
Data Lake
Um data lake é um vasto repositório de dados que armazena informações de diversas fontes e formatos, sem necessidade de estruturação prévia. Ele oferece armazenamento flexível e escalável para grandes volumes de dados brutos, permitindo análises posteriores.
Tipos de Dados
Existem três tipos principais de dados: estruturados, semi-estruturados e não estruturados. Dados estruturados são organizados em tabelas com colunas fixas, dados semi-estruturados têm alguma estrutura flexível, como documentos XML ou JSON, e dados não estruturados não possuem uma estrutura definida, como texto livre, áudio e vídeo.
Tipos de Análise de Dados
Existem quatro tipos principais de análise de dados: descritiva (descreve o passado de forma compreensível), diagnóstica (identifica causas e padrões do passado), preditiva (faz previsões sobre o futuro com base em dados passados) e prescritiva (sugere ações para otimizar resultados futuros).
Data Warehouse
Um data warehouse é um sistema centralizado de armazenamento de dados que reúne e organiza informações de várias fontes dentro de uma organização. Ele suporta análises complexas, oferecendo uma visão integrada e histórica dos dados empresariais.
Data Mart
Um Data Mart é um subconjunto de um Data Warehouse, geralmente menor e focado em um tema ou departamento específico da empresa, como marketing ou operações. Ele concentra-se em fornecer dados para análises dentro de uma área temática específica.
Data Mining
Data mining é a busca por padrões e informações úteis em grandes conjuntos de dados, usando técnicas estatísticas e de inteligência artificial para identificar insights valiosos que auxiliam na tomada de decisões e na identificação de tendências e padrões ocultos.
Data Swamp
Data swamp descreve a condição em que os dados de uma organização estão desorganizados, mal gerenciados ou de baixa qualidade, dificultando sua análise e uso eficaz.
ETL X ELT
O ETL é um processo tradicional de transformação de dados com três etapas: extração, transformação e carregamento. O ELT, mais ágil, inverte a ordem das etapas, focando na extração e carregamento inicial dos dados antes da transformação.
Staging Aarea
A staging area é um local temporário onde os dados originais são copiados antes de serem processados ou transformados. Isso permite que os dados sejam tratados antes da entrega pelo processo ETL.
Processo KDD
O KDD (Knowledge Discovery in Databases) é um processo para extrair informações significativas de grandes conjuntos de dados. Envolve etapas como seleção, pré-processamento, transformação, mineração de dados e avaliação para identificar padrões e conhecimentos úteis.
Power BI
O Power BI é uma plataforma que integra serviços, aplicativos e conectores para transformar diversas fontes de dados em informações visualmente atrativas e coerentes. Permite conectar-se a várias fontes, como Excel e data warehouses locais ou na nuvem, facilitando a visualização e compartilhamento de informações importantes.