Opções de privacidade

Blog

Publicado em 27 de setembro de 2018

Em junho de 2018 uma das nossas equipes de Data Science teve a oportunidade de participar de uma forma diferente de capacitação profissional: um breve período em uma competição no Kaggle, a maior rede de cientistas de dados.

O desafio consistia em construir um modelo matemático capaz de estimar as probabilidades dos clientes atrasarem o pagamento de alguma parcela para determinados empréstimos. Para tal fim, os competidores dispunham de dados sobre a renda do cliente, seu círculo social, suas condições de moradia, seus empréstimos anteriores, balanços mensais dos seus cartões de crédito dentre várias outras informações. Com tantos dados, as possibilidades de extração de características sobre os clientes são praticamente ilimitadas:

Quantos empréstimos abertos o cliente tem? Qual o tamanho da dívida em relação à sua renda? Qual a magnitude da anuidade em relação à dívida? Quanto o cliente costuma pagar aos bancos por mês e quanto isso representa levando em consideração a dívida atual? O grau de inadimplência do cliente vem aumentando ou diminuindo com o tempo? Qual o peso que eventos mais recentes têm em relação aos mais antigos? Etc, etc…

Além disso, quanto mais complexidade é adicionada ao modelo, maior é o custo computacional para construí-lo. Assim, se faz necessário uma metodologia rigorosa de avaliação de qualidade das informações extraídas dos dados. Quais perguntas realmente enriquecem o modelo e qual o grau de redundância entre as perguntas selecionadas? Todos estes são fatores decisivos para a acurácia do modelo e consequentemente para o sucesso de um investimento pautado em decisões tomadas por um sistema de Aprendizado Automático.

Seguem alguns relatos dos nossos participantes:

Foram muitas lições aprendidas ao longo da competição. De início o grande desafio de entender os dados, a sua semântica, relacionamentos, adentrar no contexto como um analista de risco de crédito foi bastante estimulante. Daí você pode está pensando que para começar a competir é necessário uma grande experiência em machine learning, estatística, programação, mas eu diria que o desejo de aprender, a curiosidade de conhecer coisas novas já basta, mas é claro o empenho não pode faltar. Nas competições do Kaggle somos rodeados de pessoas altamente qualificadas e como se não bastasse todos tem o intuito de ajudar através dos seus Kernels, respondendo perguntas e incentivando os competidores  no aprimoramento dos seus conhecimentos. Com esse ambiente cooperativo nos resta aprender, evoluir e crescer como entusiastas da Ciência de Dados. E você, está esperando o que para começar a competir?
Crislânio Macêdo

Minha experiência no Kaggle foi e continua sendo fantástica, não porque ganhei competições ou fiquei no topo do ranking, mas porque adquiri grandes conhecimentos em pouquíssimo tempo. É muito bom ler as ideias dos Kagglers, analisar seus Kernels públicos e os feedbacks da comunidade. Faz você refletir: “nossa, porque eu não pensei nisso antes” ou até mesmo “nunca vi isso, parece ser bom, vou testar também (risos)”. A gama de pessoas falando sobre o mesmo assunto e a competição saudável me fez sempre melhorar meu resultado final e com isso, aprendi muitos algoritmos, conceitos e técnicas novas na área de Data Science. Outro ponto importante é que o Kaggle nos faz perceber o quanto Data Science é uma área multidisciplinar, isto é, não basta pré-processar os dados, “jogar” para o modelo e pegar o resultado, você tem que entender a natureza do problema. Se você está em uma competição de risco de crédito, você aprende um pouco de análise de risco para gerar features poderosas para o modelo; se a competição é sobre detectar pulsos de estrelas, você aprende um pouco de astrofísica e está a um passo de entrar na NASA (risos). No Kaggle há uma variedade de competições de cada área da natureza e com essa polaridade a difusão de conhecimento e saber é muito prazeroso.
Igor Farias

Foi uma experiência incrível e ter o apoio da liderança do Instituto Atlântico foi fundamental. Nós tivemos a chance de aprender com pessoas altamente capacitadas do mundo todo e à medida que observávamos a melhoria da acurácia dos nossos modelos, acompanhávamos também as discussões no fórum da competição. No ápice do nosso envolvimento com a competição, chegamos a ficar em segundo lugar dentre mais de 1600 equipes! O leque de aprendizado foi bem vasto. Nós aprendemos desde linhas gerais sobre técnicas avançadas de Aprendizado de Máquina até às especificidades do contexto da competição: Análise de Risco de Crédito. E o mais interessante é a partilha do conhecimento, pois buscaremos formas de levar as lições aprendidas para os outros cientistas de dados do Instituto Atlântico. Assim, Análise de Risco de Crédito será uma expertise da própria empresa, o que abrirá novas portas para todos nós.
Arthur Paulino

O Instituto Atlântico segue firme com a política de incentivar a capacitação dos seus profissionais a fim de comportar a demanda da nova onda digital: a era dos dados. Temos encontros internos semanais para o aprofundamento em temas diversos e estamos com muitas vagas em aberto para Cientista de Dados. Confira no nosso site!