De profissionais de RH a interessados em uma oportunidade: debate oferece dicas importantes sobre a Estatística na Ciência de Dados

 

Uma das características mais importantes de um Cientista de Dados é o fato de conseguir olhar os dados de vários ângulos, traduzir seu significado e, em seguida, recomendar maneiras de aplicá-los para melhores resultados. Por isso, é impossível pensar em Ciência de Dados sem pensar em Estatística, afinal de contas, a Estatística fornece a análise necessária para transformar números em tomada de decisão. O Estatístico é treinado durante o bacharelado a pensar analiticamente, a “conversar” com os dados e a eles agregar o máximo de valor possível.

“Na estatística aprendemos a ver os dados além do que o que está empiricamente posto à nossa frente. Estudamos a relação entre a amostra e a população, vieses, discutimos e desenvolvemos sensibilidade em relação às métricas mais adequadas para sumarização de cada tipo de distribuição. Isto além do entendimento mais profundo sobre os modelos preditivos e pontos de atenção/pitfalls que cada técnica carrega. Saber estatística é a forma mais segura de garantir que você está aplicando a técnica correta para os seus objetivos e dados disponíveis. Exemplos? Tomar decisões a partir da média/mediana no caso de uma distribuição bimodal, ou utilizar o resultado de uma base de dados que representa apenas um segmento específico como referência para toda a população de interesse”, explica Nathália Demétrio, vice-presidente do CONRE-3.

Vice-presidente do CONRE-3, Nathália é Cientista de Dados no Itaú-Unibanco, Professora Assistente na Pós-Graduação em Data Science e Decisão do Insper e coorganizadora do capítulo de São Paulo das R-Ladies.

 

Com Mestrado em Economia Aplicada pela FGV-SP, Afonso Yamaguchi possui ampla experiência no trabalho de transformar dados em informação e informação em Inteligência para decisões de negócios. Atua desde grandes instituições financeiras tradicionais (Santander, Citibank e Itaú) a Fintechs (PagSeguro e Digio).

 

Atuante na área acadêmica, Antonio Carlos Pontes, entre suas diversas atividades, trabalhou como docente em disciplinas das áreas de Estatística em diversos cursos na Universidade Federal do Acre – UFAC até se aposentar.

 

 

Esses profissionais contam, de forma detalhada e sincera, por que saber Estatística pode significar a transformação que o seu negócio precisa.

 

1. Qual é o diferencial que o curso de Estatística traz para quem deseja ser um cientista de dados, diferente de demais bacharelados que não possuem foco em Estatística, como Computação, Engenharia, Física ou Economia?

Antonio Carlos – A questão não é apenas saber temas da Estatística e, sim, pensar como um Estatístico. O matemático, o engenheiro e o cientista computacional não conseguem, na maioria das vezes, pensar estatisticamente. Pensar estatisticamente é saber que o mundo é incerto, que os dados são coletados e podem conter erros, que a amostra, mesmo sendo retirada da maneira mais correta possível tem uma margem de erro. É preciso saber todas estas coisas e ainda confiar que os dados são confiáveis e respondem bem aos propósitos das pesquisas. Mesmo havendo poucos erros na amostragem, na coleta dos dados, ainda temos a incerteza da distribuição que utilizamos como suporte para o nosso modelo estatístico. É preciso saber o que ocorre quando as pressuposições são violadas, quais os procedimentos a serem utilizados e como contornar tais problemas.

Pensar estatisticamente exige um exercício diário de todos nós, profissionais da área, de lembrar que vivemos num mundo imperfeito, que não segue a distribuição normal, mas que pode ser modelado por ela em muitas situações.

O bacharel em Estatística, desde sua iniciação, quando é ensinado a descrever os dados utilizando distribuições de frequências (quantos intervalos usar?), gráficos, boxplots etc., aprende que algumas das práticas só serão desenvolvidas com o tempo, realizando experiências e verificando o comportamento dos dados em situações diferentes. Por outro lado, devemos lembrar que esta abordagem é diversa e pode apresentar resultados diferentes, dependendo de algumas escolhas feitas pelo pesquisador. Mesmo com os softwares atuais e toda a facilidade que o uso deles proporciona para o trabalho do pesquisador, algumas escolhas devem ser realizadas, tais como o número de classes na distribuição de frequência, qual metodologia utilizar com base nos dados que temos, que medidas são melhores para representar os dados. Estas escolhas devem ser feitas, muitas vezes, com base na experiência pessoal do pesquisador e em um pensamento mais abrangente, não apenas técnico.

Nathália – Na estatística estudamos dados desde o primeiro dia, permitindo criar uma sensibilidade em relação a formas de entender os dados além do óbvio. Seja por uma leitura mais ampla das distribuições de probabilidades e as melhores formas de sumarizá-las – evitando, por exemplo, medidas de média para distribuições assimétricas, seja tendo cuidados com a relação entre população, amostra, vieses, e objetivos do estudo.

 

2. Muito já se divulgou sobre a importância da Estatística para a Ciência de Dados, mas, mesmo assim, o Estatístico tem perdido espaço para profissionais de outras áreas. Será que o RH continua não compreendendo bem o papel do Estatístico em Ciência de Dados?

Afonso – O assunto da qualificação de um cientista de dados é técnico demais para o RH de uma empresa. E, a não ser que o responsável pelo time de DS (Data Science) tenha uma grande experiência em modelagem estatística e a própria empresa já tenha alguma tradição no uso de dados, a escolha do cientista de dados será bem ruim. Adicionalmente, nas consultorias especializadas em contratação de pessoas super especializadas, o cientista de dados está na vertical de tecnologia. Além disso, para 80% das atividades de um cientista de dados, no setor privado fora de áreas de P&D, não exige tanta estatística assim: imagino que os três primeiros semestres já estejam de bom tamanho para a maioria das empresas.

Qualquer um que seja muito forte em 2 dos 4 requisitos da tabela acima já é uma pessoa sênior ou um especialista. O profissional que tiver os campos de “Conhecimento de Negócios(*) & Competências Interpessoais” e “Comunicação & Visualização”, além dos outros muito fortes já deve ser ter o cargo de Gerente ou mais alto.

Temos que entender que, no fim, o “Conhecimento de Negócios & Competências Interpessoais” é o mais importante, pois é o que garante que o conhecimento em estatística, matemática ou computação está sendo usado para alguma coisa útil no fim. Então esse é realmente o que vai contar para quem contrata.

(*) conhecimento de negócio das áreas que escolheu atuar

Nathália – A área de ciência de dados é relativamente nova, então creio que o desconhecimento dos profissionais de RH pode ser um fator. Porém, em consequência de as empresas ainda terem uma visão superficial da área e dos problemas que possuem, essas acabam procurando perfis unicórnios – profissionais que dão conta de ir de ponta a ponta em um workflow de ciência de dados. De modo que aqueles vindos de outros backgrounds de exatas acabam saindo na frente, por conhecerem melhor o início e o fim do processo (ingestão de dados a deploy de modelos), além da familiaridade com os algoritmos e os termos utilizados em Machine Learning (ML). Os Estatísticos, em geral, nem dominam “as pontas” do workflow, nem as nomenclaturas de ML, apesar de possuírem um conhecimento profundo e robusto de todo o miolo do processo (exploração e modelagem). Frente a tudo isto, sem um esforço intencional de cobrir alguns gaps e se situar sobre determinadas terminologias, o Estatístico não cobre os requisitos de muitas vagas. Aqui vale salientar que, em muitos casos, a lista de requisitos não é coerente com o que é necessário ser feito, além de times multidisciplinares fazerem mais sentido que indivíduos unicórnios.

 

3. Além de saber Estatística, quais outras habilidades passaram a ser necessárias, depois da pandemia, para conquistar uma vaga como Cientista de Dados? E como é possível adquirir essas habilidades?

Afonso – O que empresas do setor privado, fora das áreas de P&D, buscam, de fato, é uma enorme capacidade de execução. Por isso, o grande foco no domínio de uma linguagem de programação como Python (linguagem tipo canivete suíço) e forte entendimento de recursos computacionais baseados em softwares livres (mais econômicos) é tão importante. O mais importante para um cientista que queira trabalhar no setor privado é se interessar em aprender o máximo possível sobre o negócio da empresa. Isso permite que o estatístico aplique seu conhecimento de forma otimizada e permite que se comunique na linguagem corrente do negócio, sem os jargões técnicos do mundo acadêmico.

 

Nathália – Eu vou dividir a minha resposta em duas frentes: hard skill e tradução de negócio.

Hard skill: as habilidades descritas nas vagas em geral são técnicas, como muito bem pontuado pelo Afonso, o(a) cientista de dados precisa conseguir executar. Dados na nuvem, processamento de big data, pipelines de execução, o esperado é que o(a) cientista de dados garanta minimamente todo o processo. Na prática, isso é necessário? Depende do grau de maturidade em dados da empresa e da diversidade de perfis na equipe – ter engenheiros(as) de dados, ML Ops etc. A boa notícia é que tais habilidades podem ser adquiridas por meio de cursos online, muitos gratuitos, inclusive.

– Tradução de Negócio: aqui, apesar de usualmente não ser um pré-requisito das vagas, demonstrar atenção a tradução de problemas de negócio nas entrevistas faz muita diferença. Isto porque é comum que o contratante não esteja preocupado em quais tecnologias o cientista domina, mas sim em como o cientista irá trazer valor. E um candidato que consiga exemplificar oportunidades de negócio segundo uma perspectiva de dados é a contratação ideal. E como adquirir isto? Comunicando-se com outras áreas, em especial as áreas de negócio, procurar entender como as coisas são feitas e o porquê permite que o estatístico traga resultados rápidos, por meio de métricas mais adequadas, segmentações e análises relativamente simples.

 

Afonso – A demanda pelas habilidades de coletar, armazenar, organizar, analisar e interpretar dados deve continuar aumentando nessa década. Nesse sentido, a demanda por profissionais de estatística deverá aumentar. Porém, um foco dos Estatísticos em analisar e interpretar limita um pouco a participação nesse mercado, pois apenas empresas grandes podem pagar por diferentes profissionais para cada uma dessas atividades.

 

Numa pirâmide de necessidades para o uso massivo de dados, é de se supor que haverá sempre mais necessidade pelas funções que estão em sua base, principalmente, se levarmos em conta que as atividades superiores não podem ser bem executadas se as atividades da base não estiverem satisfatoriamente cobertas.

Nathália – Acredito que a área de ciência de dados seguirá sendo segmentada em especialidades, permitindo que o(a) cientista de dados possa ter cada vez mais foco no estudo do problema/dado em si, deixando preocupações de ingestão de dados, infra, desenvolvimento de produtos etc. com outros perfis – o que não significa que o cientista poderá simplesmente ignorar o que ocorre nestes tópicos, mas sim, não precisar se especializar.

 

Dicas importantes

Para ser um Cientista de Dados não basta, logicamente, ter apenas o diploma de Bacharel em Estatística, ou em Ciência da Computação, Matemática, em alguma Engenharia ou Física, muito menos ter apenas um conjunto de certificados de cursos rápidos de “formação em ciência de dados”. No entanto, ter um diploma de Bacharel em Estatística dá ao profissional algumas vantagens técnicas adquiridas durante o curso. Além das disciplinas que abordam muitas técnicas estatísticas, os alunos ainda veem fundamentos da computação (programação) e matemática – este último ajuda a compreender os fundamentos tanto da estatística como da computação.

Não existe uma fórmula única para ser um bom cientista de dados, mas certamente existem dicas que podem ajudar o estatístico a ingressar de forma mais tranquila na área:

1. Aproveite da melhor forma possível todo o potencial da universidade, desde suas bibliotecas, buscando ajuda nas monitorias, cursando disciplinas extras de interesse (mesmo como ouvinte), passando pelos setores esportivos e atividades culturais;

2. Estude inglês, porque num mundo tão globalizado como hoje, a tendência é que, cada vez mais, você seja um integrante de uma equipe não só multidisciplinar, como também internacional. E inglês será, basicamente, a língua comum entre todos. Além disso, há muito mais materiais didáticos de ótima qualidade disponíveis em inglês.

3. Pesquisa e aprenda o máximo que puder sobre a área que escolheu trabalhar, seja ela medicina, finanças, física, química, biologia… “Domain knowledge” fará muita diferença na hora da contração. Na mesma linha, ter cultura geral é sempre uma grande vantagem, já que ajuda nos processos criativos.

4. Seja sempre muito curioso e crítico. Bancos de dados podem conter riquezas que descobertas por aqueles profissionais que conseguirem enxergá-las por vários ângulos.

5. Seja pró-ativo, colaborativo, generoso e ético.

Saber Estatística: detalhes que você não sabia sobre a tomada de decisão em Ciência de Dados