Previsões para Deep Learning para 2017

Por James Kobielus da IBM.

(…)The first hugely successful consumer application of deep learning will come to market: I predict that deep learning’s first avid embrace by the general public will come in 2017. And I predict that it will be to process the glut of photos that people are capturing with their smartphones and sharing on social media. In this regard, the golden deep-learning opportunities will be in apps that facilitate image search, auto-tagging, auto-correction, embellishment, photorealistic rendering, resolution enhancement, style transformation, and fanciful figure inception. (…)

(…)A dominant open-source deep-learning tool and library will take the developer community by storm: As 2016 draws to a close, we’re seeing more solution providers open-source their deep learning tools, libraries, and other intellectual property. This past year, Google open-sourced its DeepMind and TensorFlow code, Apple published its deep-learning research, and the OpenAI non-profit group has started to build its deep-learning benchmarking technology. Already, developers have a choice of open-source tools for development of deep-learning applications in Spark, Scala, Python, and Java, with support for other languages sure to follow. In addition to DeepMind and TensorFlow, open tools for deep-learning development currently include DeepLearning4J, Keras, Caffe, Theano, Torch, OpenBLAS and Mxnet.(…)

(…)A new generation of low-cost commercial off-the-shelf deep-learning chipsets will come to market: Deep learning relies on the application of multilevel neural-network algorithms to high-dimensional data objects. As such, it requires the execution of fast-matrix manipulations in highly parallel architectures in order to identify complex, elusive patterns—such as objects, faces, voices, threats, etc. For high-dimensional deep learning to become more practical and pervasive, the underlying pattern-crunching hardware needs to become faster, cheaper, more scalable, and more versatile. Also, the hardware needs to become capable of processing data sets that will continue to grow in dimensionality as new sources are added, merged with other data, and analyzed by deep learning algorithms of greater sophistication. (…)

(…)The algorithmic repertoire of deep learning will grow more diverse and sophisticated: Deep learning remains a fairly arcane, specialized, and daunting technology to most data professionals. The growing adoption of deep learning in 2017 will compel data scientists and other developers to grow their expertise in such cutting-edge techniques as recurrent neural networks, deep convolutional networks, deep belief networks, restricted Boltzmann machines, and stacked auto-encoders. (…)

Previsões para Deep Learning para 2017

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

 

Essa obra do Graham Williams trás ao cenário da mineração de dados o Rattle que vem cada vez mais se consolidando com uma ferramenta de mineração de dados respeitável, já que tem como internal engine o R; o que garante de antemão a robustez que uma ferramenta de mineração de dados precisa.

Esta obra apresenta os tópicos mais importantes para quem esta aprendendo uma ferramenta de mineração de dados nova: carga de dados, algoritmos básicos, muito how-to e avaliação de modelos; o que forma uma curva de aprendizado baixíssima.

Este livro é fortemente recomendado para quem deseja realizar mudança de tecnologia de mineração de dados, além de migrar para um sistema de retaguarda como R já que todos os seus pacotes estatísticos que já são default.

Um ponto negativo, e aí foge do espectro do livro é que o Rattle ainda não esta tão estável quanto os seus concorrentes open-source (Rapid Miner e WEKA), bem como não possuí uma variedade de técnicas que já estão nessas ferramentas citadas, mas isso é uma questão de tempo para que seja implementado.

Este é um livro estritamente criado para iniciantes no Rattle e principalmente estudantes em mineração de dados; entretanto, o livro possibilita que os mais avançados tirem proveitos da ferramenta, em especial dos sumarizadores estatísticos; além de haver técnicas bem avançadas como SVM e Random Forests que são um primor de didática, how-to e apresentação prática.

Resenha: Data Mining with Rattle and R: The Art of Excavating Data for Knowledge Discovery

Tutoriais de Rapidminer

O WEKA é uma excelente ferramenta de mineração de dados principalmente para iniciantes no qual é uma ferramenta que tem uma curva de aprendizado menor comparado ao R.

Entretanto uma ferramenta também open source que vem agradando diversos praticantes de mineração de dados é o Rapidminer que conta com uma suíte bem sugestiva e tem uma curva de aprendizado muito baixa, além de contar com possibilidade de se realizar ETL de alguns dados na própria suíte.

O excelente site do Neural Market Trends tem uma série de tutoriais que pode auxiliar aqueles que desejam conhecer uma nova ferramenta de mineração de dados.

Tutoriais de Rapidminer

Mloss – machine learning open Source Software

O Mlooss.org é um ambiente no qual pesquisadores, estatísticos e programadores podem reunir idéias e muito código para compartilhar entre a comunidade e os praticantes de aprendizado de máquina. O site é bem acessível e tem um  visual bem light e além disso conta com diversas implementações de códigos para softwares estatísticos.

Mloss – machine learning open Source Software

A utilização do WEKA como Minerador de Dados

O WEKA (Acrônimo para Waikato Environment for Knowledge Analysis) é um software livre com licença General Public License desenvolvido pela Universidade de Waikato na Nova Zelândia para utilização em tarefas de Mineração de Dados.

Há muito escrito sobre o WEKA na web, e o objetivo desse post não é realizar uma comparação com algumas ferramentas de mercado, mas sim ressaltar algumas das boas características do WEKA.

O WEKA contém uma série de algoritmos que são desenvolvidos pela comunidade que contribuí com a ampliação do Software, já que o mesmo é desenvolvido em Java e o projeto é código aberto, o que significa que dia após dia o projeto aumenta cada vez mais já que não há restrições de bibliotecas, bem como não há nenhum tipo de corporação por trás de uma iniciativa exclusivamente acadêmica.

O WEKA conta também com uma grande flexibilidade na utilização de suas técnicas de mineração, nas quais há uma ampla variedade de algoritmos os quais contém a sua respectiva descrição, bem como de acordo com o conhecimento do analista pode representar um diferencial de acordo com a escolha do algoritmo para a base que será analisada, na qual uma representação de um algoritmo pode ter um resultado distinto de acordo com a técnica escolhida.

Dois grandes diferenciais do WEKA em relação a outras ferramentas, é que há um amplo material de referẽncia através da internet, no qual em poucos minutos já é possível utilizar o software sem nenhum tipo de problema em relação a base de conhecimento e/ou documentação. No site http://www.cs.waikato.ac.nz/ml/weka/ há toda a documentação do projeto e a descrição dos componentes que formam a Engine, e também há dois excelentes livros de referência como Data Mining: Practical Machine Learning Tools and Techniques de Hall, Witten e Frank e o Data Mining Methods and Models do Daniel Larose que são livros técnicos com exemplos práticos em WEKA.

Como pode ser visto o WEKA além de ser uma importante ferramenta de análise de dados e descoberta de conhecimento em bases de dados; possuí muitos recursos que o tornam um minerador de dados robusto, flexível e com um corpo de conhecimento muito grande; o qual pode ser muito útil em aplicações com maior grau de especificação e complexidade.

A utilização do WEKA como Minerador de Dados