Nota Metodológica – Open Box da Ciência
Por Natália Leão
A coleta dos dados se deu através do “extrator de dados” da Plataforma Lattes. A Plataforma disponibiliza uma página com um arquivo com número de Identificadores dos Currículos Lattes (IDs) ali cadastrados. São fornecidos três arquivos com uma lista de Identificadores Lattes com as variáveis de “grande área” e “formação”. A partir da união desses arquivos nós filtramos uma lista de Identificadores Lattes com apenas os currículos que apresentavam como formação mínima: doutorado.
Para baixar os dados, foi criado um script na linguagem Python que lê a lista de IDs filtrados, como relatado acima, e acessa o site da Plataforma Lattes para baixar o currículo no formato XML. Foram baixados 271.367 arquivos. Posteriormente foi criado um novo script na linguagem Python que interpretou a estrutura do arquivo XML e criou uma estrutura de dados em forma de tabela para cada informação disponível no currículo, como, por exemplo, os artigos publicados, os prêmios recebidos, e assim por diante.
O mesmo script acima inseriu os dados em um banco de dados relacional. Escolhemos o MySQL como sistema gerenciador de base de dados(SGBD). Nesta fase os dados estão organizados em forma de tabela o que facilitou o manuseio. A partir de então, utilizamos o software estatístico R para ler os dados armazenados no SGBD MySQL e processar as informações.
No software estatístico R aplicamos um algoritmo que pontuava a produção de todos os pesquisadores e todas as pesquisadores, de acordo com: quantidade de artigos publicados em revistas de impacto (qualis A1, A2 e B1); ordem de autoria dos artigos; quantidade de premiações recebidas; quantidade de organizações de eventos, congressos, exposições e feiras e; quantidade de participação em eventos, congressos, exposições e feiras. Obtendo assim uma listagem com a pontuação do algoritmo para cada um e cada uma.
As informações sobre o qualis das revistas por área de conhecimento foram obtida através da Plataforma Sucupira. Baixamos uma listagem das revistas que obtinham qualis A1, A2 e B1 em sua respectiva área de conhecimento (Ciência Exatas e da Terra, Ciências Biológicas, Ciências da Saúde, Ciências Sociais Aplicadas ou Engenharias) na classificação de periódicos do quadriênio 2013-2016 e cruzamos este banco de dados com os dados obtidos da Plataforma Lattes.
Foram formados bancos de dados separados por cada grande área de conhecimento e separadas apenas as cinco áreas de interesse a serem analisadas no OpenBox da Ciência, que são: Ciência Exatas e da Terra; Ciências Biológicas; Ciências da Saúde; Ciências Sociais Aplicadas e Engenharias. Os dados das outras grandes áreas de conhecimento foram arquivados.
Com o banco de dados dividido por grandes áreas de conhecimento, filtramos apenas as mulheres presente em cada uma das grandes áreas, assim como as 50 mulheres com maiores pontuações no algoritmo. Para obtermos a informação sobre raça/cor das pesquisadoras, realizamos uma heteroclassificação racial a partir das fotos de seus Currículos Lattes. Quando o Currículo não havia fotos, procuramos nos sites das universidades, redes sociais e notícias veiculadas e disponíveis na internet. Os casos em que não encontramos nenhuma foto, entramos em contato por e-mail e solicitamos as fotos das pesquisadoras para que fosse possível seguir com a mesma metodologia de heteroclassificação racial por meio das fotos. As pesquisadoras que não retornaram nosso contato, entraram na base de dados sem a informação de cor/raça, ou seja, como não aplicável (n.a.). Vale ressaltar que ocorreu um caso específico em que uma pesquisadora entrevistada apresentou a autodeclaração racial destoante da heteroclassificação. Neste caso, mantivemos o padrão da heteroclassificação racial de modo a manter a linearidade da pesquisa.
Nos casos em que não encontramos ao menos cinco pesquisadoras negras, por grande área de conhecimento, removemos as pesquisadoras brancas com menores pontuações na listagem das 50 pesquisadoras e substituímos por pesquisadoras negras, sendo ao menos uma delas, preta. Esta estratégia foi aplicada devido ao escopo da pesquisa, desde sua elaboração, se comprometer em dar visibilidade às pesquisadoras brasileiras levando em consideração a diversidade racial.
Os microdados do Censo do Ensino Superior (Inep) do ano de 2018 também foram utilizados neste projeto. Como o nosso objetivo de análise era a carreira da docente, foi utilizada apenas os dados sobre as docentes mulheres e os dados sobre as Instituições de Ensino Superior. Pela limitação dos microdados do Censo do Ensino Superior, ao não apresentarem a variável “ID do docente” em todos os bancos de dados disponibilizados, não foi possível fazer a junção da completude dos dados de modo a analisar características por curso, área de concentração, instituições e as características das docentes.