Parceria da Folha e do Google indexa 2,5 milhões de fotografias

Projeto dá visibilidade a imagens do jornal feitas a partir da década de 1940

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

São Paulo

Um projeto da Folha em parceria com o Google indexou cerca de 2,5 milhões de imagens do acervo do jornal que estavam pouco acessíveis para pesquisa.

Os arquivos estavam abrigados em pastas no servidor da Folha, o que dificultava a busca e o acesso e, na prática, mantinha a coleção obscura. A indexação tem permitido que a equipe do jornal gradualmente passe a ter essas imagens raras à disposição.

Parte da Redação já usa esse novo sistema, e os demais jornalistas terão acesso nas próximas semanas.

Com uma operação conduzida pela Assetway, empresa catarinense de gestão de conteúdos digitais e parceira do Google, a indexação consiste na transformação das informações contidas numa base de dados (de fotos, nesse caso) em conteúdo organizado e facilmente pesquisável.

A iniciativa traz à tona fotografias dos anos 1940 ao fim da década de 1990 produzidas para as Folhas da Manhã, da Tarde e da Noite, os três jornais que dariam origem à Folha. Além disso, também ficam disponíveis os acervos dos jornais Última Hora e do Notícias Populares, ambos comprados pelo Grupo Folha na década de 1960.

Além das fotografias, faz parte do projeto uma coleção de 26 mil charges. Entre elas, está a produção de Belmonte (1896-1947), famoso chargista que trabalhou no jornal desde 1921, o primeiro ano.

Destacam-se fotos de personalidades, de Clarice Lispector a Cacilda Becker, de Guimarães Rosa a Garrincha, além de momentos históricos do Brasil e do mundo, como a campanha de vacinação contra a meningite, em 1975, e o movimento das Diretas Já, em 1984. Mas há ainda imagens de pessoas e situações do cotidiano. Muitas delas nunca tinham sido publicadas.

Esse projeto passa a integrar o dia a dia do jornal em meio às comemorações dos cem anos da Folha, em fevereiro deste ano.

O material havia sido digitalizado entre 2013 e 2016 pela equipe do Banco de Dados, quando o jornal se empenhou para preservar seu conteúdo. A busca das imagens no acervo digital, no entanto, era complicado mesmo para os profissionais dedicados exclusivamente a esse fim.

Agora, esse material tem se tornado facilmente pesquisável por toda a Redação em um site com uma interface semelhante à busca do Google e também poderá ser disponibilizado pela Folhapress, agência da Folha que licencia conteúdos do jornal.

“O projeto vai melhorar o jornalismo que produzimos, já que o conteúdo hoje está praticamente inacessível. Também se beneficiam a comunidade acadêmica e instituições de pesquisa, autores e editores de livros e profissionais da imprensa em geral”, afirma Juliana Laurino, gerente administrativa das Redações e gerente geral da Folhapress e do Banco de Dados.

Iniciada em fevereiro do ano passado, a parceria possibilitou o armazenamento em nuvem do acervo, a leitura rápida das informações textuais na frente e no verso de cada uma das cerca de 2,5 milhões de imagens e a criação da ferramenta de busca inteligente e organizada.

O verso das fotos, à primeira vista espaço de pouca relevância, foi fundamental para o processo. Ali estão informações preciosas para a catalogação das imagens, como nomes, datas e carimbos.

Uma busca por Getúlio Vargas, por exemplo, pode ser filtrada por outra personalidade política, como Juscelino Kubitschek, e o sistema retorna imagens que contêm o nome de ambos em seus metadados (informações sobre cada imagem, como título, conteúdo, data de modificação, entre outras).

A tecnologia de busca também pode encontrar objetos que estão na foto, mas não estão discriminados em palavras nas imagens. É o que acontece com a busca por “Pelé violão”, que apresenta imagens do acervo em que Pelé aparece com o instrumento, embora só o nome do jogador esteja na descrição textual das fotos.

“As APIs [interfaces de programação de aplicações, da sigla em inglês] e a tecnologia Google Cloud operacionalizadas trazem essas possibilidades de maneira escalável e automatizada”, afirma Erica Noda, gerente de parcerias do Google.

Jair dos Santos, bibliotecário do Banco de Dados que coordenou a digitalização em 2013 e o trabalho de indexação junto à Assetway, foi o responsável por analisar detalhadamente as imagens, selecionar o que entraria no escopo do projeto e corrigir erros de registro do acervo para que o robô tivesse menos obstáculos —algumas pastas estavam com nomes errados.

“Havia uma pasta nomeada ‘Carnaval’ como parte das charges. Me pareceu estranho porque ela estava separada por meses”, lembra Santos.

A checagem, ele conta, revelou um erro no processo de digitalização ocorrido alguns anos antes: dentro da pasta, estavam, na verdade, trabalhos do cartunista Carvall.

“Criamos o importador automático, que leu no sistema todos os dados customizados de acordo com os arquivos da Folha, e também as categorias com base na estrutura que o sistema do jornal já tinha. Foi um processo bastante personalizado”, diz Thiago Souza, gerente de produto da Assetway.

A ação faz parte do Google News Initiative, programa global da empresa de tecnologia. Sob esse guarda-chuva, estão projetos de incentivo e parcerias com organizações de notícias e produtores de conteúdo, entre outros.

Uma iniciativa semelhante da empresa digitalizou o acervo fotográfico do jornal The New York Times, abrigado num subsolo do jornal conhecido como “necrotério”, termo que transmite bem a ideia de que a riqueza do arquivo, antes do projeto, estava praticamente sepultada.

O acervo de fotos e negativos da Folha fica em salas do prédio do jornal na alameda Barão de Limeira, sede do jornal no centro de São Paulo, e em um galpão na rua Conselheiro Nébias, localizada nas proximidades. Nesse galpão, há uma sala apelidada de “bunker” pela equipe do Banco de Dados, onde ficam cópias de segurança das edições do jornal e coleções de microfilmes, por exemplo.

Em 2016, um episódio evidenciou a necessidade de preservação e disponibilização digital do conteúdo do acervo. Num período de fortes chuvas, parte da laje de uma das salas caiu em cima de caixas de negativos. Por sorte, o dano foi pequeno porque o material estava em caixas de plástico resistentes.

Cifras do projeto

2,5 milhões
de imagens
26 mil
charges
350 mi
de palavras indexadas
10 terabytes
de informação

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.