Comparação entre R e Python utilizando Florestas Aleatórias e Classificação

Neste post do blog do Yhat tem o código, os dados e os resultados.

Pessoalmente gosto muito da abordagem dos autores em comparação de classificadores usando as métricas de Acurácia, Erro Quadrático Médio e  para regressão e tempo de treinamento.

Para projetos curtos de avaliação de uma série de classificadores essas medidas são suficientes para dar uma linha de base. Essas medidas podem auxiliar na escolha de quais modelos estão com melhor convergência e podem indicar um melhor tratamento dos dados em termos de quais variáveis são pertinentes ao modelo escolhido.

 

 

Comparação entre R e Python utilizando Florestas Aleatórias e Classificação

Políticas Afirmativas, Mineração de Dados e Ética

Neste post do The New Republic assinado por Jefferey Rosen apresenta um paralelo bem interessante sobre a questão das ações afirmativas e como a mineração de dados está nesse meio campo através de análises de grupos raciais e a aceitação nas universidades americanas.

O assunto é interessante de discutir no âmbito da ética em mineração de dados, já que uma das premissas relativas à construção de métricas é não levar sob nenhuma hipótese aspectos relativos a questões sensíveis à sociedade (negros, homosexualismo, religião)  em consideração para construção das mesmas, já que pode tornar o julgamento; e em consequência a tomada de decisão tendenciosa.

Entretanto, cabe colocar o dedo nessa ferida a posteriori quanto a absorção dos profissionais graduados no mercado de trabalho, em comparação à aqueles que não foram comtemplados com as políticas de afirmação, utilizando-se de clusters sobre aspectos como remuneração, escalada de cargos corporativa, bônus e participação dos lucros e demais regras de comparação entre profissionais.

Esse efeito relativo às ações afirmativas, sobretudo o acesso das cotas raciais ns universidades será um fenômeno muito interessante de ser observado a alguns anos, e servirá de parâmetro para saber se os empregadores tem discriminação entre esses profissionais; ou bem como os mesmos são absorvidos mais rápidamente mas com rendimentos abaixo do esperado pelo mercado.

Políticas Afirmativas, Mineração de Dados e Ética