Scaled Agile Framework

Para quem conhece as metodologias Ágeis, este framework dá uma boa idéia do que vem sendo feito para unir essas ótimas práticas com Datawarehousing.

Muito do que é feito hoje em DW/BI é desenvolvido dentro do framework do Ralph Kimball e do Bill Innon. Entretanto, essa abordagem permite que times muito reduzidos possam literalmente entregar grandes DW.

 

DW

Scaled Agile Framework

Resenha: Data Mining with Microsoft SQL Server 2008

Apesar de haver muitos fanboys ao redor do mundo, a Microsoft ainda está muito longe de ter uma ferramenta de mineração de dados decente em termos de ser levada a sério dentro desse segmento, em especial na ótima ferramenta de OLAP que é o Analysis Services. Na verdade parece que a Microsoft só colocou a opção de mineração de dados para não ficar tão para trás em relação aos concorrentes, mas não adiantou.

Ressalvas feitas ao produto, este livro do Jamie MacLennan (que é sem sombra de dúvidas um dos maiores especialistas no SSAS) é um ótimo (para não dizer melhor e único) manual sobre mineração de dados no Analysis Servces; o qual tem como principal característica uma abordagem orientada a implementação desse tipo de estrutura de mineração de dados em ambientes que já tem bancos de dados OLAP da Microsoft.

Apesar dos pesares da ferramenta, o livro coloca de forma bem oportuna uma abordagem voltada a explorar ao máximo os recursos da mineração de dados através do SSAS, e também contar com o trunfo de ter o Excel como front-end, o qual os resultados podem ser analisados não por um departamento estratégico de mineração de dados, mas também por usuários de negócios.

Esse é um livro orientado a desenvolvedores que desejam mais do que implementar a mineração de dados em bases OLAP, mas também construir plug-ins que permitam a visualização e a implementação de novas técnicas, se for o caso.

Este livro é obrigatório para qualquer tipo de implementação de mineração de dados com o SSAS, já que o Books Online (como a ótima linguagem DMX) não cobre grande parte de informação essencial que esse livro aborda. Para implementações Microsoft, este livro é o recurso mais completo em todo o mercado e com certeza será de muito valor a sua aquisição.

Pontos Fontes: Para quem desejar desenvolver aplicativos compatíveis com o SQL Server bem como criar plug-ins personalizados com um dos melhores SGBDs do mercado.

Resenha: Data Mining with Microsoft SQL Server 2008

Agile Data Warehouse

Uma conceito o qual vem ganhando corpo na comunidade de Banco de Dados e Data Warehousing é de Agile Data; que nada mais é do que utilização das abordagens das metodologias agéis aplicadas em projetos de banco de dados; seja em processos de carga ETL chegando até a parte de análises em Mineração de Dados. Essa abordagem se torna interessante em ambientes em que há o desenvolvimento de projetos no qual deve haver diversas entregas (iterativo e incremental) ao longo do projeto; se por exemplo o stakeholder que precisa de uma análise mais apurada sobre um aspecto macro da empresa (financeiro) terá diversas entregas curtas seja de relatórios seja em conjuntos de dados (Ex: fluxo de caixa, forecast, impostos a recolher) de forma modularizada e integrada; com a vantagem de não haver o dilúvio de idéias de brainstorming de reuniões prolixas de projetos de banco com pilhas de requerimentos e pouca ação.

Agile Data Warehouse

Variáveis, Granularidade e Data Model

No momento do levantamento do Data Model é importante ter em mente quais variáveis devem ser utilizadas, e principalmente qual a sua relevância para as análises que serão realizadas, seja em um DW ou mesmo quando se extraí dados de um OLTP.

Esse post do Dean Abbott é bastante interessante para avaliar quais variáveis que devem ser mapeadas para a análise em mineração de dados e a sua importância.

O Data Model é um passo quase que crucial para determinar se haverá uma boa Análise/DW ou não. Simples assim.

Quem trabalha com arquitetura de DW e ou análise de dados em mineração de dados sabe a importância disso, tanto que não é por acaso que o Bill Innon dedica quase um compêndio inteiro de informações no seu livro Building the Data Warehouse sobre granularidade e a sua importância; e mostra os dois lados que são a) que a falta de uma boa granularidade pode matar a análise e tornar o seu DW uma favelinha (com criação de tabelas auxiliares, coluninhas inofensivas, entre outros) ou b) mesmo tornar o DW um monstro sedento por dados que nunca serão acessados, e gerando transtornos em processamento, e performance de consulta em geral.

Variáveis, Granularidade e Data Model

The CRISP-DM Model: The New Blueprint for Data Mining

O Modelo CRISP-DM  (Acrônimo para CRoss-Industry Standard Process for Data Mining, ou Padrões de Processos Inter-Indústrias em Mineração de Dados ) é um framework de boas práticas para projetos de Mineração de Dados; que foi desenvolvido em meados dos anos dos anos 90 por cerca de 200 profissionais que já estavam trabalhando em projetos de mineração e viram que o mercado estava carente de idéias específicas para compreender todos as especificidades de projetos de Mineração de Dados.

Esse artigo, retrata um overview do framework como um todo; e tem como característica principal realizar uma ruptura do projeto de Mineração com os projetos de software em geral, que é muito benéfica quando tratamos de projetos de dados. Bill Inmon em seu livro Building the Datawarehouse especifica que o projeto de dados é muito mais específico e menos tolerante a falhas do que um projeto de software; e que o mesmo tem muitas especificações; e o CRISP-DM leva a risca esse tipo de tratamento com informação, mesmo sem citar diretamente o pai do CIF. Em tempos de ‘gerentes de projetos’ que nunca escreveram uma query ou uma linha de código isso é bem relevante de se dizer; e vale a pena a reflexão de que “será MESMO que o BABOK, PMI, ou outras siglas levam isso em consideração?”. Creio que não.

Em geral o modelo é bem construído e tem uma vantagem de ser de fácil adaptação em relação ao domínio de dados o qual o projeto de mineração de dados é proposto.

The CRISP-DM Model – A Blueprint

The CRISP-DM Model: The New Blueprint for Data Mining

1010data Provides Big Data Analysis in the Cloud with the Trillion Row Spreadsheet

Uma ótima reportagem sobre a Ten-Ten Data, na qual há algumas explicações sobre o conceito de SaaS (Software as a Service) aplicado a área de análise de dados com todos os dados na nuvem. O principal mote do marketing é que a 1010Data pode prover até 1 trilhão de linhas na nuvem. É um modelo de negócios interessante para os dias atuais.

1010data Provides Big Data Analysis in the Cloud with the Trillion Row Spreadsheet