Registrar | Login | Busca:
 
 
Sinônimos de tipos de conteúdo | Mais visitados |  

Home » Conteúdo » Datawarehouses
 
  DATAWAREHOUSES  
 
  • Visitas: 236
    • Currently 3.5/5 Stars.
    • 1
    • 2
    • 3
    • 4
    • 5
  • Nota: 3.5/5 (9 votos)
Melhores Práticas
Datawarehouses
Criado por sayuri tahara ( USP - NUMA ) em 05 de Fevereiro de 2009 - 11:44.
Sumário:
Descrição:

Introdução

O que é datawarehouse? Uma boa definição seria a de Gupta (1997): "um ambiente estruturado, extensível, projetado para a análise de dados não voláteis, lógica e fisicamente transformados, provenientes de diversas aplicações, alinhados com a estrutura da empresa, atualizados e mantidos por um longo período de tempo, referidos em termos utilizados no negócio e sumarizados para análise rápida".

De forma bastante esquemática, a Figura 1 mostra a arquitetura de um datawarehouse, com os sistemas que o alimentam, seus usuários, o DW propriamente dito e os metadados - cada um desses conceitos será melhor apresentado mais à frente:

Figura 1 – Arquitetura de um Datawarehouse

Do início da década de 90 até os dias de hoje, o conceito e a operação de um data warehouse saíram do âmbito teórico, acadêmico, para a área empresarial, notando-se uma clara tendência no sentido de sua adoção por praticamente todas as empresas que operam em ambientes competitivos - as instituições financeiras, por exemplo, estão começando a fazer uso intensivo desse recurso.

Antes da popularização dos data warehouse e das ferramentas ERP (Enterprise Resource Planning), uma verdadeira integração de dados era apenas um sonho - sistemas trocavam dados na forma que atendesse às necessidades de cada um deles, sendo por isso chamado "sistemas integrados", sem que essa integração sequer se aproximasse do que se vê hoje nos ERP, cujos fornecedores tem sistematicamente dado a seus produtos características que os tornam facilmente fornecedores de dados aos warehouses. Cada aplicativo tinha uma visão do que era um cliente, um produto ou ou uma operação; uma visão corporativa das informações disponíveis era praticamente ficção. Dados históricos não existiam de forma organizada e os dados sintéticos disponíveis mostravam quase sempre apenas uma pequena parte da realidade da empresa.

ERP e datawarehousing podem suprir estas insuficiências, integrando dados, provendo dados históricos, e permitindo a recuperação de informações de forma sintética ou analítica.

A integração dos dados permite a um executivo ter uma visão "corporativa" dos dados; essa integração, ou mais especificamente a migração dos dados mantidos pelos sistemas anteriores, no entanto, não é um processo fácil, nem barato - exige muito planejamento e diz-se que seu custo é 75% do investimento necessário à implantação do warehouse - o assunto é tratado minuciosamente por Inmon (1996).

Há algumas versões de datawarehouse que merecem ser individualizadas por suas características especiais: uma delas, é o Operational Data Store (ODS), que opera diretamente conectado aos dados operacionais, objetivando dar suporte a decisões de natureza operacional, com características que permitem a obtenção de tempos de resposta bastante rápidos, algo que um data warehouse clássico não consegue prover.

Os data marts (DM) podem ser considerados data warehouses departamentalizados; filosoficamente, são bastante semelhantes àqueles, porém com algumas características peculiares, como por exemplo menor volume de dados e padrão de uso bastante previsível - necessitam tecnologia mais simples e barata, face a esse menor volume e a esse padrão previsível, e tem poucos dados detalhados.

Os data marts poderiam ser vistos esquematicamente conforme a Figura 2, que mostra aplicações hipotéticas alimentando data marts voltados para usuários específicos.

Os data marts tem muito apelo, porque eles podem ser construídos de forma simples, rápida e barata - já se fala inclusive em "canned data marts", ou "data marts enlatados", que seriam ferramentas extremamente simples e baratas, destinadas a atender a necessidades bastante estruturadas (Radding, 1999).

Durante algum tempo, esses data marts independentes foram muito populares. Mas, logo sua arquitetura se mostrou falha: quando uma corporação construía vários desses data marts, o volume de redundância de dados (quase sempre dados analíticos) crescia muito, como crescia o número de programas que faziam o interface entre essas estruturas e os sistemas legados; também cresciam os recursos de hardware envolvidos.

Já do ponto de vista da organização, o problema maior talvez seja o de se ter áreas tomando decisões a partir de números diferentes, gerados em função da redundância - quer por erros, quer por diferentes graus de atualização ou critérios de tratamento de dados (o exemplo clássico, embora possa não ser o melhor para esse tema, é o arredondamento versus truncamento de valores).

Figura 2 – Arquitetura de data marts

Constatada essa realidade, percebeu-se que os data marts independentes não eram a solução, evoluindo-se então para o conceito de data marts dependentes. Em uma arquitetura desse tipo, há um warehouse central que alimenta os marts dependentes; é chamada também arquitetura " hub-and-spoke" (cubo-e-raio), onde os marts são os raios e o warehouse, o cubo. Como vantagens dessa estrutura, apresenta-se a integração de dados no cubo e autonomia de processos e nenhuma redundância de dados nos raios.

Os padrões gerais de design de banco de dados ditaram os caminhos de evolução e sofisticação do ambiente de warehousing; em seus primeiros tempos, a normalização de dados clássica era a base para a estruturação; quando a arquitetura cubo-e-raio evoluiu, o padrão passou a ser a normalização e "star join" para o cubo e 'snowflake" para os raios.

Uma vez que o warehouse já esteja construído, a próxima etapa será sua exploração, no sentido de buscar, utilizar, as informações nele contidas. Esse trabalho, que é chamado "data mining", permite descobrir padrões importantes, relações de causa e efeito que vinham passando desapercebidas, tendências a longo prazo, etc., de forma a permitir a melhoria dos processos.

Uma pergunta interessante que quase imediatamente surge é: pode-se fazer data mining sem um warehouse, atuando sobre os sistemas operacionais? Existe tecnologia para isso? A resposta é que "algum" data mining pode ser feito sem warehouse, mas para "efetivo" mining, warehousing é absolutamente essencial, porque a tecnologia de warehousing prepara os dados brutos para a análise - e isso traz muitos benefícios, porque:

  • uma das características básicas do warehouse é que os dados são integrados à medida em que são armazenados. Isso implica em uniformidade e continuidade de conceitos da empresa: o que é um cliente, um produto, uma transação e assim por diante. Dispondo-se do warehouse, pode-se partir imediatamente para análise, o que não aconteceria numa situação diferente, em que os dados precisariam ser coletados, "limpos" (esse processo de limpeza é conhecido como "data scrubbing") e a seguir juntados para análise - esse processo, quase sempre completamente desestruturado, pode tomar tanto tempo que, ao estar pronto, já tenha sido superada a necessidade de análise (e talvez perdida uma oportunidade preciosa para a organização);
  • além disso, datawarehousing coleciona e organiza dados de forma sistemática, formando uma base de dados históricos - quando ele não é utilizado, e há necessidade de dados históricos, além das dificuldades acima pode-se descobrir que eles simplesmente não existem, e
  • o warehouse contém os dados analíticos e também os sintéticos, e estes podem ser úteis no início de um processo de análise, quando ainda está se planejando um estudo qualquer, especialmente por permitir ganhar tempo nessa fase, ajudando-se a escolher certos caminhos ou descartando-se outros.

Outro tema que vem mostrando sua importância são os metadados - uma definição simples diria que metadados são dados a respeito de dados: como, quando e por quem foram coletados, e como são formatados.

Metadados não eram utilizados na primeira geração de warehouses, principalmente porque os usuários tinham pressa em colher os resultados da nova tecnologia, tendo porisso concentrado seus esforços em carregar seus dados; hoje, à medida em que os usuários e administradores dos warehouse amadurecem, pode-se notar cada vez mais ênfase no assunto, evidentemente produto da experiência que se ganhou, fazendo com que os metadados venham se tornando uma ferramenta importante para melhor uso dos warehouses.

As ferramentas disponíveis para acesso às informações devem se tornar mais poderosas, principalmente face aos imensos volumes de dados com que terão que se relacionar - isso é válido para gerenciadores de bancos de dados, planilhas e outras ferramentas manejadas pelo usuário final - imagine-se um usuário final tentando rodar uma query que exija a criação de uma tabela temporária com o produto cartesiano de duas tabelas de um milhão de linhas cada...(nesse caso específico, há ferramentas que permitem evitar a degradação que uma query como essa geraria num sistema convencional).

Os grandes volumes também impactam a armazenagem de dados (financeira e tecnologicamente) em termos de discos magnéticos, seu ambiente padrão na atualidade. Amadurece porém o conceito de que o datawarehouse não precisa estar necessariamente on-line - algo como "near-line" ou quase em linha, talvez seja satisfatório, e é possível que hardware e software near-line surjam.

Uma das técnicas utilizadas para minimizar esses problemas e otimizar o data mining, é a regra conhecida como "80/20" – pode-se afirmar que em qualquer banco de dados muito grande, 80% da informação pode ser encontrada em 20% dos dados – assim, de acordo com a regra, a base de dados pode ser particionada e o volume a ser processado para análise diminui; se ainda assim o volume a ser analisado for muito grande, amostras podem ser coletadas para análise, até que se tenha um conjunto viável e representativo. A Figura 3 ilustra essa regra.

Figura 3 – Regra 80/20

Finalizando, cabe reafirmar que este é um assunto que continua evoluindo, e que apesar do relativamente curto espaço de tempo decorrido desde que as ferramentas para datawarehousing se tornaram populares, elas já são consideradas componentes essenciais da arquitetura de Tecnologia da Informação de toda organização de porte.

Artigos

Radding, Alan (1999), "It's in the can: Analytical applications simplify back-end datamarts", in "Datamation", edição de janeiro de 1999.

Livros

Downes, Larry e Mui, Chunka (1998), "Unleashing the Killer App: Digital Strategies for Market Dominance", Harvard Business School Press.

Inmon, William H. (1996), "Building the Data Warehouse", John Wiley & Sons.

Miller, Stewart S. (1998), "Accelerated SAP", McGraw-Hill

Gupta, Vivek R. (1997) "An Introduction to Data Warehousing", in http://www.system-services.com, em 24.08.98. Fornecedor de soluções datawarehouse.

Data Warehousing Knowledge Center. Http://www.datawarehousing.org. Centro de Informações e tecnologias de datawarehouse.

Palavras-chave: Datawarehouses
Nó: 10286

Comentários

Log in ou crie uma conta de usuário para comentar.

        

 
 
Copyright © 2007 Portal de Conhecimentos