Por Lucas Veloso e Mariluce Moura
Em entrevista, Angélica Santana explica sua pesquisa de pós-doutorado no INCT Combate à Fome, que analisa dados de mais de 400 mil notícias de um período de 20 anos para avaliar as políticas públicas nessa área
Se em 2023 denunciava-se que mais 122 milhões de pessoas em todo o mundo haviam sido, desde 2019, empurradas para a fome por crises diversas, em especial a pandemia de covid-19, em julho deste ano organismos internacionais anunciavam a intolerável persistência desse absurdo fenômeno em escala global.
“Cerca de 733 milhões de pessoas passaram fome em 2023, o equivalente a uma em cada 11 pessoas no mundo e a uma em cada cinco na África”, diz a nova edição do relatório anual “Estado da Segurança Alimentar e Nutrição no Mundo (Sofi)”, lançada em 24 de julho passado no Brasil, em reunião ministerial da Força-Tarefa do G20 para uma Aliança Global contra a Fome e a Pobreza. A rigor, na mesma data acontecia o pré-lançamento da Aliança, proposta pelo presidente Lula na reunião do G20 em setembro do ano passado, em nova Delhi, Índia.
Agora, neste mês de novembro, dias 18 e 19, no Rio de Janeiro, o grande acontecimento é o lançamento oficial da Aliança, principal projeto do governo brasileiro para o G20 — que atualmente o preside —, em paralelo à Cúpula de Líderes do grupo. Vale registrar que o G20 reúne os 19 países com as maiores economias do mundo, mais a União Europeia e a União Africana.
Voltando ao “Estado da Segurança Alimentar e Nutrição no Mundo (Sofi)”, organizado por cinco agências da ONU-Organização das Nações Unidas (FAO, FIDA, Unicef, WFP e OMS), o relatório observa que o mundo está falhando gravemente em alcançar o Objetivo de Desenvolvimento Sustentável (ODS) número 2, a fome zero, até 2030. E, ainda, que retrocedeu 15 anos nesse quesito, com níveis de subalimentação comparáveis aos de 2008-2009.
Entretanto, no Brasil, 14,7 milhões de pessoas deixaram de passar fome em 2023, informou o documento. O ano de 2021, o terceiro do governo de extrema direita iniciado em 2019, apresentou os dados de fome mais escandalosos das últimas décadas, com o país retornando ao mapa da fome que deixara em 2014, e com a insegurança alimentar severa atingindo 33 milhões de brasileiros. Em 2022 esse número dramático desceu para 17,2 milhões de brasileiros e, no ano passado, o primeiro do novo governo liderado pelo presidente Lula, caiu para 2,5 milhões. Percentualmente, a queda foi de 15,5% para 8% e, mais recentemente, para 1,2% da população do país.
Apesar dos avanços, o Brasil, segundo os organismos internacionais, precisa ainda de políticas públicas eficazes para erradicar a fome e garantir segurança alimentar para todos, o que passa pelo fortalecimento da agricultura familiar e pela necessidade de um olhar mais amplo e profundo sobre as causas da fome.
Esse olhar certamente envolve a produção de novos e acurados conhecimentos a respeito das múltiplas faces da fome e da (in)segurança alimentar no país para orientar tais políticas. E é nesse campo que floresce, desde o começo de 2023, o Instituto Nacional de Ciência e Tecnologia (INCT) Combate à Fome.
Sediado na Faculdade de Saúde Pública da Universidade de São Paulo (USP), reunindo dezenas de pesquisadores de instituições do país e do exterior organizados em cinco eixos de investigação — políticas públicas, nutrição, cadeia de valores, inteligência artificial e comunicação — o INCT volta-se a um grande número de estudos multidisciplinares essenciais ao desenvolvimento desse campo, sob a coordenação geral dos professores Dirce Marchioni e Marcelo Cândido da Silva.
Num dos seminários do INCT deste semestre, chamou a atenção do Ciência na Rua a apresentação feita por uma pós-doutoranda sobre um projeto de pesquisa cujo alvo era a criação de um algoritmo de avaliação de políticas públicas de combate à fome a partir da análise de material jornalístico. Sim, mais exatamente a base do estudo eram, e são, milhares de notícias que circularam nos últimos 20 anos sobre o programa Bolsa Família, do governo federal, em jornais e revistas impressos e/ou digitais, em sites e blogs online.
A personagem que nos surpreendeu era a pesquisadora Angélica Barbosa Neres Santana, 36 anos, doutora em ciências da saúde, mestra em nutrição e graduada em educação física – modalidade saúde, tudo pela Universidade Federal de São Paulo (Unifesp), campus da Baixada Santista. Seu foco é saúde coletiva, com ênfase em estudo de validação, programas e políticas de nutrição e alimentação, atenção primária à saúde e métodos de avaliação. Em síntese, ela carrega uma formação multidisciplinar que a preparou para a busca de soluções tecnicamente inovadoras voltadas a um antiquíssimo problema do país.
Seguem abaixo os principais trechos da entrevista que Angélica Santana nos concedeu numa conversa via plataforma digital:
Como você chegou até essa pesquisa de um algoritmo para avaliação de políticas de combate à fome?
Quando entrei no processo de seleção para o INCT Combate à Fome, a abordagem proposta foi sobre como usar a programação de linguagem natural para avaliar políticas públicas. Com a pandemia de covid-19, muitas pessoas ficaram em casa, e o uso de redes sociais para avaliações e identificação de comportamentos e percepções aumentou significativamente. Já se utiliza esse recurso, mas temos a Lei de Proteção de Dados Pessoais que precisa ser considerada, além de questões sobre o que é fake news e o que é informação verdadeira. Isso exige um cuidado rigoroso.
Ao ser questionada, imediatamente pensei em discursos midiáticos, pois estamos lidando sempre com notícias. Existem jornalistas, agências e um profissionalismo voltado a verificar e referenciar informações, o que facilita a avaliação de políticas públicas. Hoje, com o avanço da tecnologia aplicada à estatística e à análise, conseguimos usar a programação de linguagem natural para fazer essas avaliações. Minha experiência de trabalho e estudo me permitiu desenvolver um olhar crítico e uma estratégia para utilizar essa ferramenta de forma eficaz.
Há uma diferença entre linguagem natural e linguagem de programação natural. A primeira é estudada há muito tempo e refere-se à nossa fala e a à nossa escrita, que variam de acordo com os interlocutores. Já quando falamos de processamento de linguagem natural, estamos nos referindo ao uso de algoritmos e programas de software treinados para analisar essa linguagem. Minha formação interdisciplinar me permite identificar o objeto de estudo e a melhor forma de processá-lo valendo-me de tecnologias inteligentes aplicáveis em diferentes contextos.
Quais foram os critérios utilizados para selecionar os veículos analisados em sua pesquisa?
A varredura que realizamos para nosso projeto de pesquisa inclui todos os veículos de mídia que conseguimos levantar com base na clipagem de notícias. Quando uma notícia é publicada, ela fica no ar por um tempo e depois desaparece, o que torna difícil encontrá-la posteriormente. No entanto, existem agências e institutos especializados em clipagem, e fizemos parceria com um que realiza esse trabalho há mais de 20 anos. Meu trabalho é focado na segurança alimentar e nutricional, e utilizei o Programa Bolsa Família, que existe há mais de 20 anos, como estudo de caso. Mesmo com todas as mudanças políticas e econômicas no Brasil, o programa manteve-se ativo, com algumas alterações no nome. Considerando isso, fizemos uma varredura das clipagens já existentes em todas as mídias, com o objetivo de garantir uma cobertura nacional, incluindo jornais regionais.
Precisávamos de um volume grande de dados para alimentar a máquina que estamos criando. No total, coletamos notícias sobre o Bolsa Família ao longo de 20 anos, de 2003 a 2023. Foram mais de 400 mil notícias, que ainda estão sendo analisadas. Nossa primeira análise identificou quatro categorias de fontes: jornais impressos e online, revistas impressas e online, sites, e blogs jornalísticos. Assim, a varredura incluiu todas as notícias disponíveis, independentemente de o veículo ser digital ou impresso. A clipagem também incluiu digitalizações de documentos. Na análise, identificamos essas quatro categorias de veículos, cada uma com suas particularidades, especialmente os blogs, que têm uma característica mais livre em sua abordagem.
De que forma os dados obtidos nessa pesquisa podem auxiliar na elaboração de políticas públicas mais eficazes para combater a insegurança alimentar?
O algoritmo ainda está em processo de criação. Estamos completando um ano de pesquisa, enfrentando muitos desafios para sua continuidade, principalmente pela falta de recursos financeiros [não têm sido renovadas, por exemplo, as bolsas de pós-doutoramento fundamentais ao desenvolvimento dos projetos e que, a rigor, equivalem ao salário de pesquisadores altamente produtivos. Com isso, eles são obrigados a abandonar os projetos e buscar novas alternativas de sobrevivência]. O Brasil tem muitas mentes brilhantes, mas carece de investimentos para viabilizar e sustentar esses projetos.
O foco do algoritmo que estamos desenvolvendo é utilizar discursos midiáticos como meio de monitoramento. O governo já monitora o Bolsa Família de forma quantitativa, mês a mês, acompanhando quem recebe e quanto é transferido. Mas nosso objetivo é trazer uma análise qualitativa, avaliando as notícias sobre o programa – se são boas, ruins ou neutras – e identificando onde elas estão geograficamente. Isso será feito por meio de uma análise de sentimento, utilizando uma biblioteca existente no software que estamos usando.
Com isso, poderemos identificar não apenas os números já disponibilizados pelo governo, mas também a qualidade das informações em tempo real, gerando um score que nos ajudará a tomar decisões mais precisas para a formulação de políticas públicas. Esse algoritmo permitirá monitorar tanto notícias antigas quanto atuais, ajudando a identificar regiões críticas e a definir onde as políticas precisam ser ajustadas, não só no aspecto financeiro, mas também na execução do programa e no impacto real sobre as comunidades.
De acordo com dados de 2022 do Atlas da Notícia, houve um aumento de “desertos de notícias” até na Grande São Paulo, onde mais de um milhão de pessoas vivem sem acesso a jornalismo local. A falta de veículos de comunicação nessas regiões as torna vulneráveis à desinformação. Nesses casos, como fica o monitoramento das notícias?
Acredito que esse algoritmo será crucial para o monitoramento, especialmente em desertos de notícias. Ele não indicará a ausência de dados apenas como um simples número, mas mostrará que há uma lacuna significativa de informações em determinados locais. Portanto, essa ferramenta, além de identificar onde não há cobertura de notícias, poderá gerar uma demanda por mais informações nessas áreas. Se não houver dados para analisar, o algoritmo servirá como um alerta, indicando a necessidade de buscar e obter essas informações. Ele complementará as estatísticas já existentes, ajudando a embasar decisões políticas ao sinalizar regiões onde falta transparência e monitoramento adequado.
Aliás, você pode explicar o que exatamente é um algoritmo?
Um algoritmo é como um robô, só que em linguagem de programação. Basicamente, é um programa que, neste caso, lê e analisa notícias de acordo com critérios que nós, programadores, definimos. Por exemplo, eu digo para o “robô”: “olhe para essa notícia e, com base nesses critérios, me diga se ela é positiva, negativa ou neutra.” Então, o algoritmo segue as instruções dadas para avaliar as notícias. É importante lembrar que tudo isso é feito com base em referenciais científicos. E vale destacar que algoritmos já estão presentes no nosso cotidiano, muitas vezes sem percebermos. Por exemplo, quando conversamos perto do celular sobre comprar um carro e, logo em seguida, vemos anúncios de carros ao abrir o Instagram ou o Facebook, isso é o algoritmo trabalhando. Ele ouve a palavra carro e nos direciona anúncios com base nesse interesse. Estamos rodeados por esses “robôzinhos” e nem sempre nos damos conta.
Quais foram as principais dificuldades técnicas e metodológicas na coleta e tratamento de dados de notícias para a criação desse algoritmo?
Temos uma vasta quantidade de pesquisas voltadas à análise de redes sociais e mídias sociais, como Facebook e Instagram. No entanto, precisei retornar à literatura para buscar estudos que focassem na avaliação de notícias, pois elas sempre foram vistas como ferramentas de mudança de comportamento. A novidade aqui é olhar para as notícias sob uma perspectiva de qualidade, especialmente no contexto de políticas públicas.
Eu me inspirei em estudos sobre campanhas de controle do tabaco nos Estados Unidos, que usaram notícias para mudar comportamentos. Também há pesquisas que utilizaram discursos midiáticos para rastrear a disseminação de doenças. Esses exemplos me ajudaram a construir um referencial, pois, embora as redes sociais tenham se tornado o principal canal de comunicação, os jornais online e blogs ainda são relevantes e coexistem com essas plataformas.
Outro desafio metodológico é lidar com a duplicidade e repetição de informações, o que causa uma massificação de notícias. Embora essa repetição ajude a difundir informações amplamente, ela pode prejudicar a originalidade e a identidade das notícias. Muitos veículos replicam conteúdo sem citar as fontes, o que torna o processo de purificação de dados mais complexo. Inicialmente, tínhamos quase 500 mil notícias, mas após o processo de limpeza, restaram apenas 250 mil. Essa aparente perda ocorreu devido a notícias duplicadas e muito semelhantes.
Nosso algoritmo identificou padrões de repetição: títulos idênticos ou semelhantes apareciam até cinco dias após a primeira publicação, enquanto textos semelhantes surgiam até três meses depois. Após o processo de limpeza, 49% das notícias foram descartadas como duplicadas ou muito semelhantes. Em uma análise manual, de 200 notícias, 38 eram idênticas ou semelhantes; o algoritmo, por sua vez, identificou 30 dessas repetições, representando 79% da acurácia do modelo de limpeza.
No final, preferimos manter uma pequena quantidade de notícias semelhantes para evitar a perda de informações relevantes. Atualmente, temos uma base de dados robusta, mapeando 490 veículos de todo o Brasil, com dados sobre títulos, datas e a relação dessas notícias com programas como o Bolsa Família e o Auxílio Brasil.
A análise incluiu veículos nacionais, desde grandes agências até jornais menores, como o Jornal do Sertão de Alagoas e o de Aracaju. Temos muitos veículos de Santa Catarina e do Amazonas, além de outros estados. O trabalho abrange todos os 26 estados e o Distrito Federal.
Você identificou determinadas tendências ou padrões nas notícias mapeadas até agora?
Ainda não consigo falar sobre isso, pois não fizemos essa avaliação. Nosso foco, até o momento, tem sido a sistematização dos dados. As notícias são tratadas como dados, e esses dados precisam ser limpos e organizados, processo que chamamos de higienização. Muitas vezes, uma notícia traz várias informações, não apenas sobre o Bolsa Família, e é necessário identificar onde o programa realmente é mencionado e o que é relevante. Ainda estamos nessa fase, gerenciando e conformando os dados.
Quanto ao tempo que ainda temos, inicialmente o contrato era de um ano, prorrogável por mais um. Estamos na reta final desse primeiro ano e, se tudo correr bem, poderemos estender por mais um ano, o que será essencial. Tudo depende da continuidade da bolsa de pós-doc, mas há uma grande incerteza quanto ao financiamento. O contrato inicial previa essa prorrogação, mas recentemente recebemos a notícia de que ela não seria possível, algo que pegou o grupo de surpresa.
Dentro do INCT, somos seis pós-docs, e todos esses projetos são pensados para dois anos. Além disso, o trabalho é interdisciplinar, envolvendo outros grupos, como o de inteligência artificial em São Carlos. Estamos tentando pressionar para que essas bolsas sejam mantidas. Na semana passada, enviamos uma carta conjunta, solicitando a renovação, já que em junho já havíamos enviado um relatório parcial, apontando a necessidade de continuidade.
Nosso trabalho é muitas vezes invisível, porque passamos o dia todo no computador, analisando dados que não são palpáveis. Só quando apresentamos os números é que as pessoas percebem a magnitude do que estamos fazendo. Temos muitas mentes brilhantes envolvidas nesse projeto, que é fundamental para o desenvolvimento de políticas públicas voltadas para a segurança alimentar e nutricional. Portanto, temos muito contexto e razão para continuar esse trabalho.
Você mencionou que as notícias são classificadas como positivas, negativas ou neutras. Como definiram esses critérios? Afinal, a avaliação de uma notícia pode ser subjetiva até para os próprios jornalistas.
Atualmente, estamos utilizando bibliotecas que identificam sentimentos, positivo, negativo ou neutro, de forma simples. Lembrem-se que estamos lidando com um robô, então ele faz exatamente o que programamos. No momento, estou analisando manualmente um conjunto de notícias para treinar o robô. Eu configuro o algoritmo, ele me dá uma resposta, e então reviso o resultado comparando-o com a realidade. Leio a notícia para verificar se o sentimento foi classificado corretamente, ajusto os critérios e repito o processo.
É um ciclo de testes e ajustes contínuos. Ainda não consigo dar uma resposta final sobre quais palavras estão sendo usadas para esses filtros, pois esse é o trabalho que estamos realizando agora. Por isso, usamos uma base de 20 anos de notícias sobre um programa específico, para entender como ele foi avaliado ao longo do tempo. Essa será a base para determinar quando uma política pública é avaliada como positiva, negativa ou neutra.
Como as informações extraídas da mídia podem complementar os dados tradicionais, como os censos do IBGE (Instituto Brasileiro de Geografia e Estatística), na formulação de políticas públicas mais eficazes?
O IBGE e a POF (Pesquisa de Orçamentos Familiares) realizam vigilâncias domiciliares e outros tipos de investigação, assim como outras redes que investigam questões como a segurança hídrica, por exemplo. O que geralmente falta nesses levantamentos é uma análise mais qualitativa, e é aí que os dados da mídia podem se integrar às análises. Por exemplo, o governo pode fornecer relatórios quantitativos, dizendo quantas famílias foram beneficiadas pelo Bolsa Família e quanto dinheiro foi transferido para determinada região. No entanto, é possível que o impacto dessa política, especialmente no nível local, não seja totalmente captado por esses números.
É aqui que entra o nosso algoritmo, que pode verificar por meio das notícias como as famílias estão realmente sendo impactadas. Se, por exemplo, o governo diz que transferiu uma quantia para uma macrorregião do Sul, o algoritmo pode analisar as notícias locais para verificar se há buracos, como pessoas não contempladas ou regiões ainda em fila de espera. Mesmo em áreas sem cobertura de dados, podemos identificar como as pessoas estão reagindo às políticas públicas por meio da mídia. Esses dados se complementam, e o objetivo final é afunilar essas informações, analisando cidade por cidade. A ideia é que, após testar e validar o modelo, possamos mapear cada município e entender melhor a cobertura e o impacto das políticas públicas em nível local, complementando as estatísticas oficiais com uma visão mais detalhada da realidade.
Nos conte um pouco de sua trajetória pessoal. Como chegou até aqui?
Nasci em São José dos Campos, no interior de São Paulo. Meu pai saiu de Presidente Prudente e minha mãe de Cunha para São José, e aqui se conheceram. Ela vem da roça, enquanto ele, ao chegar aqui, teve a oportunidade de fazer magistério e se tornou professor de matemática. Cresci em uma família trabalhadora e sempre estudei em escolas públicas. Em São José dos Campos, a Embraer (Empresa Brasileira de Aeronáutica, hoje privatizada) criou um colégio focado em oferecer oportunidades para os moradores da região ingressarem em faculdades. O colégio tinha uma abordagem crítica, as vagas eram limitadas, havia um processo seletivo para entrar, então, meu primeiro vestibular foi do fundamental para o ensino médio. Era apenas a segunda turma do colégio, que ainda estava ajustando o modelo. O colégio me ofereceu um ensino integral por três anos, o que me abriu muitas portas. Hoje, o colégio é mais voltado para a formação de mão de obra para empresas da região.
Lá descobri a existência de faculdades públicas. Eles nos davam a chance de escolher até três instituições para o vestibular, e pagavam as inscrições. Eu gostava muito de esportes e tinha um excelente professor de educação física, então, decidi que queria seguir essa carreira. Meus pais sugeriram que eu escolhesse mais duas áreas, para garantir um futuro mais estável e fui aprovada em Engenharia na UERJ (Universidade do Estado do Rio de Janeiro) e em Educação Física na Unifesp, em Santos. Minha mãe, com medo do Rio de Janeiro, me incentivou a optar pela Unifesp.
Minha formação foi interdisciplinar, me apaixonei por matemática e análise de dados e a Unifesp me preparou para transitar entre diferentes disciplinas. Isso ajudou muito em minha carreira, mas ainda enfrento desafios em alguns editais de pesquisa que exigem formação específica em áreas como engenharia ou estatística, ignorando a multidisciplinaridade. Esses editais refletem a cultura tradicional que ainda prevalece no sistema de ciência e tecnologia.
Depois da graduação fui estudar a influência do ambiente sobre o comportamento relativo a atividade física num programa de nutrição. Aí tive que aprender sobre processamento e identificação de território, o que exigiu aprender a utilizar a estatística para explicar numericamente o que acontece. Isso despertou meu interesse por questões metodológicas, fiz o mestrado em nutrição e emendei com no doutorado interdisciplinar em saúde. O título da tese defendida em 2017 é “Ambiente urbano e atividade física no município de Santos: a construção de um modelo de simulação computacional como instrumento de políticas públicas de saúde”.
Tive a possibilidade de fazer um estágio sanduíche com a bolsa do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico) do programa Ciência sem Fronteiras. Fiquei seis meses trabalhando em Rutgers, (Universidade Estadual de Nova Jersey), com um professor muito bom Daniel J. Hoffman) que trabalhava com dados da América Latina e da África, e com ele tive que compilar todas essas informações. Continuei naquilo em que já tinha expertise e foi muito bom ter essa experiência fora do Brasil e identificar a riqueza de nosso país. Embora com algumas complicações no percurso, o doutorado foi muito legal porque criei um modelo de logística, um algoritmo, sem saber que estava criando isso. Mas foi também um momento muito difícil da minha vida, e até falei que não queria mais fazer pesquisa.
Então, comecei a trabalhar na ONG Centro de Recuperação e Educação Nutricional, que atende crianças e adolescentes subnutridos e obesos. Era originalmente um programa de extensão da Unifesp, iniciado em 1980, que virou uma ONG.
Entrei como educadora física, então, comecei a olhar para os dados e logo passei a analista de processamento de dados. Mudei de profissão. Esses dados eram tão ricos que conseguimos uma publicação com a análise sobre a dupla carga em crianças em São Paulo, subnutridas e obesas ao mesmo tempo, que trouxe visibilidade e mais fundos para a instituição. Enfim, estava fazendo pesquisa, logo surgiu a possibilidade de dar aula na Universidade Metropolitana em Santos (Unimes), depois fui apoiadora local na implementação da política pública do Proteja (Estratégia Nacional para a Prevenção e Atenção à Obesidade Infantil) e, em seguida, analista. Com isso, decidi fazer uma pós graduação em gerenciamento de dados em saúde no Hospital Albert Einstein e aí aprendi muito sobre processamento de linguagem natural, enquanto, na implementação do Proteja, realizando um pós-doc, processávamos, em um ano, dados de 1.300 municípios. Trabalhamos com dados secundários do Sisvan (Sistema de Vigilância Alimentar e Nutricional) e dados primários coletados de formulários, sistematizamos todos os bancos do Proteja hoje usados em pesquisas e criamos os relatórios para a OMS (Organização Mundial de Saúde).
Para finalizar, e voltando à sua pesquisa no INCT Combate à Fome, o que dizer em poucas palavras?
Olhar para a fome no Brasil e entender quais são as suas causas resulta numa discussão em que podemos nos prolongar por horas, trazer vários elementos e não chegar a uma conclusão, porque ela é multifatorial. Mas a ideia é que, quanto mais pudermos trabalhar para que menos pessoas passem fome no Brasil, isso é mesmo necessário, tanto na linha de frente quanto na retaguarda, por exemplo, na pesquisa científica. Então, acho que temos muito trabalho a ser feito, muito, muito trabalho.