Existe este zumbido em todo o lado – Aprendizagem Mecânica!
Então, o que é este “Aprendizagem Mecânica(ML)?”
P>Vamos considerar um exemplo prático. Se pudesse imaginar a probabilidade do resultado de uma tarefa feita pela primeira vez, digamos que o trabalho é aprender a andar de carro. Ou seja, como é que se poderia reagir? Com incerteza?
Por outro lado, como gostaria de se auto-representar para a mesma tarefa após um par de anos de prática? Provavelmente, teria a sua mentalidade transitada do parâmetro de incerteza ou de um parâmetro mais certo. Então, como obteve essa perícia na tarefa?
P>É provável que tenha adquirido experiência ao ajustar alguns parâmetros, e que o seu desempenho tenha melhorado. Certo? Isto é Machine Learning.
Diz-se que um programa de computador aprende com a experiência(E) em algumas tarefas (T)para dar o melhor resultado de desempenho(P).
Na mesma linha, as máquinas aprendem através de alguns conceitos matemáticos complexos, e todos os dados para elas estão na forma de 0 e 1. Como resultado, não codificamos a lógica para o nosso programa; em vez disso, queremos que uma máquina descubra a lógica a partir dos dados por si só.
Furthermore, se quiser encontrar a relação entre experiência, nível de emprego, habilidade rara e salário, então precisa de ensinar algoritmos de aprendizagem de máquinas.
De acordo com este estudo de caso, precisa de afinar as características para obter as etiquetas. Mas, não se codifica o Algoritmo, e o foco deve ser nos dados.
Por isso, o conceito é Data + Algoritmo = Insights. Em segundo lugar, os Algoritmos já estão desenvolvidos para nós, e precisamos de saber qual o algoritmo a utilizar para resolver os nossos problemas. Vamos ver o problema de regressão e a melhor maneira de escolher um algoritmo.
A visão geral da aprendizagem da máquina
Segundo Andreybu, um cientista alemão com mais de 5 anos de experiência de aprendizagem da máquina, “Se conseguir compreender se a tarefa de aprendizagem da máquina é um problema de regressão ou de classificação, então escolher o algoritmo certo é canja.”
para enumerar, a principal diferença entre eles é que a variável de saída na regressão é numérica (ou contínua) enquanto que a de classificação é categórica (ou discreta).
Regressão na aprendizagem de máquinas
Para começar, os algoritmos de regressão tentam estimar a função de mapeamento (f) a partir das variáveis de entrada (x) para as variáveis numéricas ou de saída contínua (y). Agora, a variável de saída pode ser um valor real, que pode ser um número inteiro ou um valor de ponto flutuante. Portanto, os problemas de previsão de regressão são normalmente quantidades ou tamanhos.
Por exemplo, se lhe for fornecido um conjunto de dados sobre casas, e lhe for pedido que preveja os seus preços, isso é uma tarefa de regressão porque o preço será um resultado contínuo.
Exemplos dos algoritmos de regressão comuns incluem regressão linear, Regressão Vectorial de Suporte (SVR), e árvores de regressão.
Classificação na Aprendizagem de Máquinas
Por contraste, no caso dos algoritmos de classificação, y é uma categoria que a função de mapeamento prevê. Para elaborar, para uma ou várias variáveis de entrada, um modelo de classificação tentará prever o valor de uma ou várias conclusões.
Por exemplo, se lhe for fornecido um conjunto de dados sobre casas, um algoritmo de classificação pode tentar prever se os preços para as casas “vendem mais ou menos do que o preço a retalho recomendado”. Aqui as duas categorias discretas: acima ou abaixo do referido preço.
Exemplos dos algoritmos de classificação comuns incluem regressão logística, Naïve Bayes, árvores de decisão, e K Vizinhos Mais Próximos.
Escolhendo os Algoritmos Certos
Entenda os Seus Dados
>ul>>>li>Dê uma vista de olhos às estatísticas sumáriasli>Utilizar o parâmetro ‘Percentil’ para identificar os intervalos dos dados
Visualizar os Dados
- As parcelas de caixa podem indicar excepções.
- Gráficos de densidade e histogramas mostram a propagação de dados
- Gráficos de dispersão podem descrever relações de quantidade
Limpar os Dados
- Deal with a missing value. O resultado é sujeito a dar resultados sensíveis no caso (dados em falta para certas variáveis podem resultar em previsões imprecisas)
li>Modelos em árvore são menos sensíveis à presença de outliers, modelos regressivos ou outros modelos que utilizam equações são mais sensíveis a excepçõesli>Basicamente, outliers podem ser o resultado de uma má recolha de dados, ou podem ser valores extremos legítimos
Curar os dados
Outras vezes, ao converter os dados em bruto para um polido em conformidade com os modelos, é preciso ter cuidado com o seguinte :
- Faça os dados mais fáceis de interpretar.
- Capturar dados mais complexos.
- Focalizar na redução da redundância e dimensionalidade dos dados.
- Normalizar os valores das variáveis.
Categorizar o problema através da Variável de Entrada
- Você tem dados etiquetados; é um problema de aprendizagem supervisionado.
- Se você tiver dados não etiquetados e quiser encontrar estrutura, é um problema de aprendizagem não supervisionado.
- Se você quiser optimizar uma função objectiva interagindo com um ambiente, é um problema de aprendizagem reforçado.
Categorize o problema através da Variável de Saída
- O output do seu modelo é um número; é um problema de regressão.
- Quando o output do seu modelo é uma classe, então é um problema de classificação.
- A saída do seu modelo é um conjunto de grupos de entrada; é um problema de agrupamento.
O factor de restrição
- Toma nota da capacidade de armazenamento, pois varia para vários modelos.
- A previsão tem de ser rápida? Por exemplo, em cenários de tempo real como a classificação da sinalização rodoviária ser o mais rápido possível para evitar acidentes.
Finalmente, Find the Algorithm
Agora que tem uma imagem clara dos seus dados, poderia implementar ferramentas adequadas para escolher o algoritmo correcto.
Meanwhile, for a better decision, here is a checklist of the factors for you:
- Ver se o modelo se alinha com o seu objectivo de negócio
- Quanto pré-processamento o modelo requer
- Verifica a precisão do modelo
- Quanto explicável o modelo é
- Quanta rapidez o modelo é: Quanto tempo leva a construir um modelo, e quanto tempo leva o modelo a fazer previsões
- A escalabilidade do modelo
Para acrescentar, é preciso prestar atenção à complexidade do algoritmo enquanto se escolhe.
geralmente falando, pode-se medir a complexidade do modelo usando os parâmetros:
- Quando são necessárias duas ou mais de dez características para aprender e prever o alvo
- baseia-se na engenharia de características mais complexas (por exemplo utilizando termos polinomiais, interacções, ou componentes principais)
- Quando o cenário tem mais overhead computacional (por exemplo, uma única árvore de decisão versus uma floresta aleatória de 100 árvores)
Besides, o mesmo algoritmo pode ser tornado mais complexo manualmente. Depende puramente do número de parâmetros utilizados e do cenário em consideração. Por exemplo, pode-se conceber um modelo de regressão com mais características ou termos polinomiais e termos de interacção. Ou, poderia desenhar uma árvore de decisão com menos profundidade.
Os Algoritmos de Aprendizagem Comum de Máquinas
Regressão Linear
Estes são provavelmente os mais simples.
Poucos dos exemplos em que a regressão linear é utilizada são:
- Primeiro, quando é altura de ir de um local para outro
- Previsão das vendas de um determinado produto no próximo mês
- Impacto do teor de álcool no sangue na coordenação
- Prever as vendas mensais de cartões de oferta e melhorar as projecções de receitas anuais
- Previsão de churrascos de clientes.
- O caso particular de pontuação de crédito ou detecção de fraude.
- Medir a eficácia das campanhas de marketing.
- Decisões de investimento
- Empréstimos bancários
- Qualificações de liderança de vendas
- Reconhecimento da cara
- marcar um e-mail como spam ou não.
- Análise de sentimentos e classificação de texto.
/ul>
Regressão Lógica
Parentemente, há muitas vantagens neste algoritmo – integração de mais características com uma agradável facilidade de interpretação, facilidade de actualização fácil para anexar novos dados.
Para o colocar de forma diferente, poderia usar isto para:
Árvores de decisão
Aparentemente, as árvores únicas são raramente utilizadas, mas na composição, com muitas outras, constroem algoritmos eficientes tais como o Random Forest ou o Gradient Tree Boosting. Contudo, uma das desvantagens é que não suportam a aprendizagem online, pelo que é necessário reconstruir a árvore quando surgem novos exemplos.
As árvores são excelentes para:
Naive Bayes
Mais importante, Naive Bayes é uma escolha certa quando os recursos de CPU e memória são um factor limitativo. Contudo, a sua principal desvantagem é que não pode aprender interacções entre características.
Pode ser usado para:
Conclusão
Por isso, de um modo geral, num cenário em tempo real, é de certa forma difícil, sob o algoritmo de aprendizagem automática correcto para o efeito. No entanto, poderia utilizar esta lista de verificação para fazer uma lista restrita de alguns algoritmos à sua conveniência.
Mais ainda, optar pela solução certa para um problema da vida real requer uma compreensão empresarial especializada juntamente com o algoritmo certo. Assim, ensine os seus dados nos algoritmos certos, execute-os todos em paralelo ou em série, e no final avalie o desempenho dos algoritmos para seleccionar o(s) melhor(es).
Se pretende especializar-se em aprendizagem profunda, então pode verificar este curso através de aprendizagem profunda.