Arquivo da Categoria ‘Métodos estatísticos’

KNIME PMML Support: Model Import and Export + Pre-processing

segunda-feira, 12 de dezembro de 2011



What is KNIME? According to knime.com:


KNIME (Konstanz Information Miner) is a user-friendly and comprehensive open-source data integration, processing, analysis, and exploration platform.


Yes, KNIME is user-friendly, not only because it offers an intuitive GUI to analyze data, but also because it is open-source. KNIME is also standards friendly. KNIME 2.0 released in 2008 was the first release to offer PMML support. PMML, the Predictive Model Markup Language, is the de facto standard to represent data mining and predictive analytic models. PMML today is supported by all the top statistical packages, including SAS, IBM SPSS, KXEN, and R.


Since release 2.0, PMML support in KNIME has matured considerably, from the import and export of predictive models all the way to the pre-processing of input variables. KNIME 2.5, released December 01, 2011 offers a series of PMML-enabled pre-processing nodes which can be embedded automatically in the final PMML model. All these features are documented in a paper presented at the KDD 2011 PMML Workshop:


Peer-reviewed article: KDD 2011 – PMML Pre-processing in KNIME

To illustrate some of KNIME capabilities when it comes to PMML, we describe below a workflow we built in KNIME for training a neural network model for classification of the audit data set. This workflow encapsulates the following high-level tasks:

  • The reading in of the audit data set (this data set is supplied as part of the R Rattle package): This is an artificial data set consisting of fictional clients who have been audited, perhaps for tax refund compliance. For each case an outcome is recorded: whether the taxpayer’s claims had to be adjusted or not which in the data is represented by 0 (no) and 1 (yes).
  • The pre-processing of input variables, which involves dummyfication of categorical variables and normalization of numerical variables
  • The training and testing of a neural network model
  • The exporting of the resulting PMML file which includes all pre-processing steps as well as the neural network model itself.



KNIME Workflow – Step-by-Step

Below we describe in 8 steps how we went around building such a workflow.


Step 1: We start by reading the audit data set from a csv file. We simply use node “CSV Reader” for that. We then use node “Number To String” to tell KNIME that our predicted variable “TARGET_Adjusted” should be treated as a string.




Step 2: Since we do not want to use all variables in the data set for training our neural network, we use the node “Column Filter” to filter out variables such as ID and IGNORE_Accounts.




Step 3: We are now ready to start massaging the remaining data. For that we use the new PMML-enabled node “One2Many” to create dummy variables out of the categorical raw input variables. Note that this node comes with a blue port indicating its PMML capabilities. We also use another “Column Filter” node to remove the original categorical variables from our data.



Step 4: We then add PMML-enabled node “Normalizer” to the workflow. This node normalizes all the numerical variables so that they can be presented to the neural network for training. Note that we linked the blue port from the preceding node to this node. This signals KNIME that we would like to have the PMML representation passed between nodes.




Step 5: We then use the node “Partitioning” to partition the audit data into two data sets, one for training and another for testing.




Step 6: We can now use node “RProp MLP Learner” to train our neural network model. Note that this node is also PMML-enabled and so we link the blue port from node “Normalizer” to it. This ensures that the PMML equivalent of the pre-processing operations are being passed to the neural net learner node.




Step 7: Given that the neural network has been trained, it is time to export the resulting PMML file. For that we use the node “PMML Writer”. You can inspect the exported PMML file on your own (see RESOURCES below).




Step 8: As far as PMML is concerned, we are done. But, to complete the model building process, we must evaluate our model against the test data. For that, we connect the test piece of node “Partitioning” to node “MultiLayerPerceptron Predictor”. Note that the trained neural network model is communicated from the learner node to the predictor node via a blue PMML port. Finally, we can then visualize the scoring results using node “Interactive Table”. With this step, our data workflow is complete.




Putting your model to work


Once you have you verified that the model works and that it generalizes over the testing data, you can simply upload the resulting PMML file into ADAPA where it will be made available for execution.


Resources


Learn


Get products and technologies


KNIME, a user-friendly and comprehensive open-source data integration, processing, analysis, and exploration platform. From day one, KNIME has been developed using rigorous software engineering practices and is used by professionals in both industry and academia in over 60 countries.


Fonte: www.adapasupport.zementis.com

Saiba como avaliar se duas ou mais variáveis da sua pesquisa estão correlacionadas.

quinta-feira, 24 de novembro de 2011



A universidade de Standford oferece cursos on line gratuitos.

segunda-feira, 12 de setembro de 2011



Você não pode perder essa oportunidade:


1. Introdução a inteligência artificial: Inteligência Artificial é a ciência de fazer um software de computador dar razões sobre o mundo ao seu redor. Como  robôs humanóides, google googles, carros que dirigem sozinhos , mesmo software que sugere que a música que você gostaria de ouvir são exemplos de AI. Nesta aula, você vai aprender como criar esse software a partir de dois dos líderes no campo. Para maiores informações, clique aqui.



2. Introdução a base de dados: Este curso abrange a concepção de banco de dados e o uso de sistemas de gerenciamento de banco de dados para aplicações. Ele inclui uma ampla cobertura do modelo relacional, álgebra relacional e SQL. Para maiores informações, clique aqui.



3. Machine learning: Este curso fornece uma introdução ampla à aprendizagem de máquina, datamining e reconhecimento de padrões estatísticos. Confira aqui.



Fonte:http://spectrum.ieee.org

Business Intelligence e Recursos Humanos: um casamento feito no céu!

segunda-feira, 22 de agosto de 2011



O departamento de recursos humanos tem muitos dados que o BI pode transformá-los em informações valiosas para tomada de decisões dentro de uma empresa. O RH gerencia grande quantidade de dados dos funcionários: perfis, avaliações, remunerações, etc. Por que não traduzir esses dados para serem utilizados na triagem de um futuro candidato? Implementação de BI em vários níveis de RH permitiria que a empresa utilizasse esses dados e realmente analisasse onde o valor do capital humano de uma organização se encontra.

Sem BI encontrar os melhores candidatos, seria um jogo de Guess who.

BI é indispensável para o departamento de RH, e muitas vezes não é utilizado. Por que? Uma das principais razões é que os dados de recursos humanos são confidenciais e mitas vezes é difícil conseguir o acesso. Soluções de inteligência pode ajudar a solucionar esse problema com nível de segurança flexível. O BIME é sofisticado o suficiente para permitir que os usuários filtrem o acesso a níveis de análise e dados subjacentes. Uma das características modernas de BI, que é muito importante, é ser capaz de adequar o acesso a dados confidenciais.

Outra razão para a falta de implantação de BI não só no departamento de RH, mas em outros departamentos também é que, anteriormente era necessário um treinamento e conhecimento especial para usar a ferramenta.  Hoje em dia é muito simples usar o BI.

Acreditamos que analisar a demografia da força de trabalho poderia se tornar uma função de RH cada vez mais importante no futuro. Empresas, particularmente nos mercados mais tradicionais, enfrentam o problema de uma força de trabalho de envelhecimento e, portanto, com o advento do “trabalhador global”, muitas vezes há uma forte concorrência para os melhores novos talentos. Usando BI para dar sentido a esses dados dará ao RH um papel central na adaptação à dinâmica do mercado em constante mudança.


Fonte: www.wearecloud.com/blog

NYT SOBRE A IMPORTÂNCIA DA PESQUISA DE REPRODUÇÃO

segunda-feira, 25 de julho de 2011



O New York Times inclui um ótimo artigo sobre o fracasso de alguns testes genéticos para detecção de câncer, e as falhas na pesquisa que levou a elas. O artigo apresenta citações de Keith Baggerly do MD Anderson Cancer Center, e inclui uma foto dele e o colega Kevin Coombes em frente a uma página de código do R:






O artigo destaca a importância da pesquisa de reprodução: a menos que outros possam ter acesso aos dados e códigos que fazem o backup das conclusões estatísticas no papel, muitos erros podem ser descobertos. Keith deu uma palestra incrível sobre a investigação forense reprodutível e de dados na conferência Bio Conductor a dois anos atrás ( é certeza que um dos slides da palestra foi a  imagem acima):

A conversa foi sobre um artigo publicado onde os resultados pareciam estranhos. Baggerly tentou em vão se apossar da fonte de dados para reproduzir a análise, mas os autores do artigo não cooperaram. Assim, em uma incrível façanha da ciência forense de dados, ele conseguiu recriar os dados de fontes públicas, combinando com as medidas a partir dos gráficos impressos, e descobriu que haviam erros grosseiros de dados no artigo: etiquetas transpostas, dados duplicados, esse tipo de coisa. As conclusões foram um disparate, mas o jornal se recusou a imprimir uma correção, apesar de isso significar que pacientes reais estavam sendo testados em medicamentos inadequados.


O importante é que essa questão teve grande importância para a mídia. Confira o artigo do New York Times no link abaixo:


www.nytimes.com


INOVAÇÕES KNIME

segunda-feira, 18 de julho de 2011



O KNIME acaba de lançar KNIME v2.4, uma liberação de recursos com um monte de novas funcionalidades e algumas correções de bugs. Os destaques desta versão são:

  • Melhorias em torno de manipulação de meta nó (colapso / expansão e diálogos personalizados);
  • Melhorias de usabilidade (por exemplo:  layout automático, inserção nó rapidamentecom um duplo-clique);
  • Execução do loop polido (por exemplo:  a execução do loop paralelo disponível a partir de laboratórios);
  • Melhor PMML processamento (pré-processamento acrescentou PMML, que também será apresentado na conferência deste ano KDD);
  • Muitos novos nós, incluindo todo um conjunto de nós de processamento XML,tabulação cruzada e nós para pré-processamento de dados e mineração de dados, incluindo métodos de aprendizado conjunto.



Uma lista detalhada das mudanças pode ser encontrada aqui: http://tech.knime.org/changelog-v240. O KNIME desktop v2.4 pode ser baixado através do site:  http: /www.knime.org / / download ou você pode atualizar seu KNIME v2 .3. x  usando a funcionalidade de atualização built-in disponível no menu “Arquivo”(ou ”Help” na versão de desenvolvimento).

Gostaríamos de aproveitar esta oportunidade para lembrá-lo de nossa próxima Oficina de Ciência KNIME Vida, que está acontecendo em San Francisco em 28 de julho de 2011. É um workshop gratuito onde você pode conhecer as pessoas por trás KNIME e os parceiros ciência KNIME vida. A agenda preliminar está disponível em: http://www.knime.org/LifeScienceDay2011

KNIME é o único open-source ferramenta de análise que tem sido desenvolvido desde o primeiro dia usando rigorosos processos de engenharia de software profissional em conjunto com tecnologia de ponta expertise de análise de dados de um grupo deuniversitários. KNIME.com, localizada em Zurique, na Suíça, com distribuidores eparceiros na Europa, EUA, Brasil, China, Japão e oferece consultoria e treinamentopara a plataforma KNIME além de uma gama crescente de produtos da empresa (Report Server, Enterprise Server e KNIME Execução Cluster) eo Report Designer livreKNIME. Visite www.KNIME.com para mais informações.

Case de Sucesso do KNIME na Novartis.

quarta-feira, 25 de maio de 2011

Andy Palmer

“Estamos muito impressionados com o nosso primeiro trabalho com o KNIME. Ser capaz de satisfazer as necessidades dos nossos diferentes tipos de usuários a partir de uma plataforma moderna é muito importante e nos propicia um grande sucesso”. Andy Palmer - Global Head of Software and Database Engineering Novartis

Saiba mais detalhes a respeito deste  Case e aproveite para ler outras novidades no KNIME Newsletter de Abril de 2011.


Knime Newsletter April/2011

20 de Outubro – Dia Mundial da Estatística

quarta-feira, 20 de outubro de 2010


Hoje é comemorado o dia mundial da estatística, proclamado pela Assembléia Geral da ONU com o objetivo de reconhecer a importância da estatística para a sociedade.


As estatísticas permeiam a vida moderna,  fornecendo informações e insight importantes para o governo, intituições de pesquisas e empresas afetando diretamente a vida de milhares de pessoas.


Por isso é importante que as técnicas estatísticas, bem com as informações geradas por ela ,sejam utilizadas com ética e respeito pelas pessoas.

Web Analytics no KNIME

quarta-feira, 13 de outubro de 2010


As empresas de hoje sabem que a Internet é extremamente importante para apoiar as ações de MKT. Ações estas, que visam fortalecer e dar visibilidade a marca, entender o posicionamento no mercado e aumentar o número de vendas.
Dada esta importância, é fundamental que os gestores tenham acesso a relatórios com informações relevantes provenientes da internet. E o Web analytics é o processo que tem como finalidade atender a esta demanda.

Para se desenvolver Web Analyticss é necessário utilizar ferramentas que possibilitem extrair, analisar estatisticamente e gerar relatórios, das informações provenientes da web.

O KNIME possui um excelente módulo analítico para desenvolver Web Analytics.
Através de um ambiente amigável, este módulo possibilita o desenvolvimento de todo o processo de analytics de forma eficiente.
O módulo para desenvolver Web Analytics esta disponível na versão open-source do KNIME.

Redes Sociais: Novos insumos para a Inteligência Analítica.

sexta-feira, 10 de setembro de 2010

RedesSociais

Muitos gestores e analistas que atuam com o desenvolvimento de modelos preditivos ainda trabalham sobre a tese de que toda ou a maior parte da informação sobre o cliente esta no Data Warehouse (DW) da empresa.

Ainda que o modelo apresente um KS alto, existem muitas informações relevantes sobre o cliente que não estão no DW, os bayesianos concordariam sem hesitar com essa afirmação.

O que você acha de ouvir diretamente do seu cliente o que ele pensa sobre os seus serviços ou produtos e poder analisar estas informações e gerar novos insight para o seu negócio?

Que tal identificar os clientes que não têm alta propensão ao churn, mas que podem apresentar o evento porque as pessoas as quais ele tem relacionamento são altamente propensas ao churn?

Como e onde então podem ser obtidas tais informações?

A resposta é, nas redes sociais, tais como Orkut, Twitter, Facebook e Linkdin. São nestes espaços online que cerca de 40 milhões de brasileiros, segundo a Folha Online,  expressam suas idéias, pensamentos e anseios.

Mas o fato e’ que, muitas destas informações não estão sendo utilizadas como insumo no desenvolvimento dos modelos analíticos.

Estudiosos do assunto afirmam que o comportamento das pessoas pode ser refletido nas redes de relacionamentos, desta forma, o uso das redes sociais como um dos insumos para a modelagem preditiva, pode trazer diversos benefícios para os projetos que envolvem inteligência analítica, alguns deles são: a oportunidade de obter, com baixo custo, informações sobre a opinião dos clientes a respeito de um determinado serviço ou produto, ter um melhor entendimento de  relacionamento “virtual” entre os clientes e a sua rede de influência e estudar a associação entre a rede de relacionamento e os eventos de interesse.

Como conseqüência os projetos analíticos poderão obter resultados provenientes de uma visão mais ampla e realista sobre o comportamento do cliente e gerar insumos mais consistentes para a tomada de decisão.

Confira os Web-seminários que iremos realizar sobre o assunto.

By Marcus Vinicius