São Paulo, domingo, 13 de fevereiro de 1994
Texto Anterior | Índice

Programa para ler Shakespeare

ROBERT MATTHEWS; TOM MERRIAM
DA "NEW SCIENTIST"

Roses, their sharp spines being gone,
Not royal in their smells alone,
But in their hue,
Maiden pinks, of odour faint,
Daisies smell-less, yet most quaint,
And sweet thyme true

(Rosas, sem seus espinhos afiados,/não reais apenas em seus aromas,/mas em suas cores,/Virgens cores de rosa, de tênue olor,/Margaridas inodoras, porém tão graciosas,/E o doce e puro tomilho)

Assim começa o primeiro ato de "The Two Noble Kinsmen" (Os Dois Nobres Parentes), uma peça apresentada pela primeira vez por volta do ano 1613, por uma trupe de atores londrinos conhecida como The King's Men (Os Homens do Rei). Ela conta a história de dois fidalgos, primos e amigos que se descobrem candidatos rivais aos favores de uma mulher. Apesar de seu tema eternamente atual, a peça saiu do repertório da trupe pouco tempo depois e só voltou a ser encenada mais de três séculos mais tarde. Já em 1634, entretanto, circulava um suposto texto da peça que continha no seu frontispício uma inscrição interessante: "Escrita pelos memoráveis dignitários de sua época, o sr. John Fletcher e o sr. William Shakespeare, cavalheiro".
Poderia essa peça obscura ser uma obra não reconhecida do maior dramaturgo de todos? Os eruditos estudaram "The Two Noble Kinsmen" detalhadamente, e alguns a saudaram como uma genuína colaboração entre Shakespeare e Fletcher, que se sabe haver sucedido o Bardo, após sua morte em 1616, no papel de dramaturgo principal dos King's Men. Outros, porém, ainda não estão convencidos de sua autenticidade.
A discussão sobre a origem de "The Two Noble Kinsmen" traz à tona uma questão que é debatida nos círculos literatos há séculos. Podem dúvidas sobre a autoria de textos literários ser resolvidas objetivamente –talvez até mesmo quantitativamente? Muitas pessoas recuariam diante da sugestão de que algo tão impalpável quanto o "estilo literário" possa ser captado em números. Mas os estatísticos e cientistas da computação criaram técnicas que parecem realmente proporcionar uma avaliação quantitativa do estilo.
Em 1851, o lógico inglês Augustus De Morgan aventou a hipótese de que a matemática pode resolver uma discussão sobre a autoria de determinados textos bíblicos. Ele se perguntava, especialmente, se seria possível distinguir as obras de diferentes autores através de diferenças no comprimento das palavras que eles utilizavam.
Na década de 1880 a hipótese de De Morgan chamou a atenção do físico norte-americano Thomas Corwin Mendenhall. Ele elaborou a idéia ainda mais, criando "espectros de palavras". Estes visavam detectar estilos literários diferentes através de mudanças na frequência de palavras de comprimentos diferentes.
Mendenhall aplicou sua técnica à notória discussão sobre se Francis Bacon havia ou não sido o verdadeiro autor das obras de Shakespeare. Em 1901, Mendenhall publicou os resultados de uma gama impressionante de trabalhos acadêmicos, nos quais ele mediu os comprimentos de 200 mil palavras que se sabe haver sido escritas por Bacon e 400 mil de obras geralmente atribuídas a Shakespeare, e elaborou um espectro de palavras para cada um deles.
Mendenhall deixou uma grande contribuição ao estudo de estilos: ele mostrou que é preciso trabalhar com grandes quantidades de texto para se fazer qualquer progresso.
Computadores
O surgimento dos computadores ajudou a reduzir o trabalho pesado e enfadonho que de outro modo seria necessário para se realizar análises de estilo. Isto também fez com que toda uma gama de técnicas passasse a ser utilizada para avaliar questões de autoria.
A maioria dos pesquisadores acredita que são as palavras comuns as mais úteis na caracterização da "assinatura" estilística de um autor. Eles estudam as chamadas palavras de função, que incluem as conjunções ("e", "mas"), as preposições ("em", "sobre"), os artigos ("um", "a") e determinados verbos e advérbios. Estas palavras são necessárias para se construir virtualmente qualquer enunciado, e não dependem especialmente do contexto. Também costumam ser utilizadas inconscientemente. Então, segundo esse raciocínio, sua frequência não será alterada quando um escritor procura mudar –ou imitar– um estilo literário. Entretanto, algumas pesquisas estilométricas tomam como base a visão contrária: que são as palavras raras as que mais claramente caracterizam um estilo literário. Esta é a idéia subjacente a uma técnica de identificação de estilo controvertida, cujas descobertas tiraram a estilometria do mundo acadêmico e a levaram aos jornais.
Desenvolvida pelos estatísticos Bradley Efron, da Universidade Stanford, na Califórnia, e Ronald Thisten, da Universidade de Chicago, as origens da técnica estão numa pergunta curiosa: quantas espécies animais desconhecidas ainda estão por ser descobertas?
Segundo consta, esta pergunta teria sido colocada pela primeira vez nos anos 40 por um naturalista que retornara de uma expedição em busca de novas borboletas. Felizmente, ele conversava com o grande estatístico britânico R.A. Fisher, que mostrou que a pergunta, aparentemente tola, não comportava uma resposta tola. Fazendo pressupostos prováveis sobre a maneira pela qual funciona o processo de captura, Fisher utilizou o número de espécies já capturadas para estimar o número que seria capturado se os naturalistas continuassem caçando sem parar.
Vocabulário
Em meados dos anos 70, Efron e Thisted apontaram que o mesmo raciocínio poderia ser aplicado no caso de palavras diferentes. Nesse caso, as palavras já "capturadas" são aquelas que constam nas obras existentes de um autor, e as palavras ainda a serem descobertas são aquelas que o autor conhecia mas que ele nunca tinha utilizado em suas obras.
Efron e Thisted aplicaram a técnica de Fisher às obras de Shakespeare. O objetivo era estimar o tamanho do vocabulário que o Bardo realmente tinha. Eles utilizaram como ponto de partida as 884.647 palavras contidas em todos os escritos que são oficialmente reconhecidos como sendo genuinamente de Shakespeare. Destas palavras, 14.376 aparecem uma única vez, 4.343 duas vezes e assim por diante. Descobriu-se que Shakespeare usou 31.534 palavras diferentes em suas obras. Utilizando a idéia de Fisher, Efron e Thisted conseguiram demonstrar que um vocabulário publicado deste tamanho sugere que Shakespeare conhecesse pelo menos outras 35.000 palavras que não constam de suas peças e seus poemas. Éuma afirmação interessante, mas será que ela poderia algum dia ser testada? Embora Efron e Thisted não soubessem disso, a resposta estava esquecida nas prateleiras da Biblioteca Bodleian da Universidade de Oxford. Ali, em novembro de 1985, o estudioso de Shakespeare Gary Taylor descobriu um volume antigo contendo um poema anônimo e sem título, que começa com as palavras "Shall I die" (Se eu morrer). O instinto de Taylor o levou a saudar o poema como uma obra até então desconhecida de Shakespeare. Foi uma afirmação controvertida, à qual a mídia deu destaque.
Algumas semanas mais tarde, Thisted leu sobre o assunto em seu jornal de domingo e percebeu que o método de Fisher poderia ser utilizado para testar a afirmação de Taylor. Se "Shall I die" fosse um acréscimo às obras de Shakespeare, deveria conter algumas palavras não vistas antes, tiradas do vocabulário "oculto" do dramaturgo. Trabalhando com Efron, Thisted calculou que se "Shall I die" houvesse sido escrito por Shakespeare, deveria conter cerca de sete palavras não encontradas antes. Na verdade o poema revelou conter nove palavras novas –confirmando a suposição de Taylor.
Mas Thisted e Efron foram ainda muito mais longe: transformaram a teoria básica de Fisher numa série de testes de autoria. Eles criaram três testes que, partindo da análise das obras conhecidas de determinado autor, prevêem: o número total de palavras diferentes que se espera que irão aparecer num trabalho de determinada extensão por esse autor; o número de palavras não vistas anteriormente; e a distribuição das frequências de palavras. Comparando os resultados previstos para os diferentes autores com as correspondentes quantidades encontradas numa obra de autoria disputada, eles poderiam avaliar a probabilidade de a obra ser de um determinado autor.
Thisted e Efron aplicaram seus três testes a "Shall I die". A título de controles experimentais, também testaram alguns poemas escritos indiscutivelmente por Shakespeare e alguns poemas de autores contemporâneos dele, como Christopher Marlowe e Ben Johnson. Emboras testes das diferentes palavras das palavras ocultas fossem apenas moderadamente bem-sucedidos, eles descobriram que o teste que cacteriza a frequência de palavras realmente parecia ser capaz de atribuir os poemas a seus autores corretos. O teste também substanciou as afirmações de Taylor em relação à autoria de "Shall I die".
Com sua fundamentação teórica sólida e seu aparente poder discriminatório, os testes de autoria de Efron e Thisted foram examinados com grande interesse desde sua publicação na revista "Biometrika", em 1987. Utilizando tanto textos genuínos quanto outros gerados por computador, Robert Valenza, do Claremont McKenna College, na Califórnia, descobriu que o uso que Shakespeare faz de palavras em suas peças é notavelmente consistente com a teoria de Thisted e Efron. Ele também descobriu que alguns dos testes distinguiam entre obras de Shakespeare e de Marlowe.
Entretanto, Valenza descobriu que há armadilhas ocultas para os incautos. Os testes de Thisted e Efron não atribuíram a Marlowe algumas obras amplamente aceitas como sendo de sua autoria. Os testes também se mostraram fracos em identificar corretamente alguns dos poemas de Shakespeare. Mais preocupante ainda, Valenza verificou que o uso da linguagem de Shakespeare diferia significativamente entre seus poemas e suas peças. Isto não chega a surpreender: é evidente que a linguagem usada na poesia é mais comprimida do que a usada em peças. Mas esta constatação suscitou graves dúvidas sobre a atribuição de "Shall I die"a Shakespeare, baseada na comparação a todas as obras conhecidas de Shakespeare juntas –tanto poesia quanto peças.
O que deveria haver sido feito era uma comparação entre o uso de palavras em "Shall I die" e nos poemas existentes de Shakespeare. O frustrante, porém, é que não existem poemas de Shakespeare suficientes para garantir a confiabilidade de qualquer comparação desse tipo. Embora as técnicas de Thisted e Efron tenham algum valor, parece que elas jamais conseguirão resolver o mistério de "Shall I die".
Nova leitura
Baseada mais ou menos em idéias tiradas da neurofisiologia, uma rede neural geralmente é um computador comum programado para se comportar como se fosse uma rede de neurônios muito simples. Sua ação equivale à capacidade que o cérebro humano tem de detectar um rosto específico no meio de uma multidão. E as redes chegam a suas decisões sem precisar fazer muitos pressupostos potencialmente falsos sobre as propriedades estatísticas dos dados – diferença da maioria das técnicas de identificação de estilo. Tudo isto sugere que as redes neurais podem ser especialmente úteis para pesquisar questões relativas à autoria. Para descobrir se isso é verdade, decidimos treinar a rede neural para reconhecer os estilos literários de Shakespeare e seus contemporâneos. Nossa rede neural consiste de "sensores", cada um dos quais pega uma medida estilométrica extraída do texto, e "saídas" que, juntos, fornecem uma estimativa do quão "shakespeariano" a rede considera o texto em questão.
A primera tarefa foi treinar a rede. Fizemos isto expondo-a a dados extraídos de grande número de amostras de obras indiscutivelmente de Shakespeare, juntamente com as de seu sucessor no The King's Men, John Fletcher. As amostras tinham o comprimento de aproximadamente 1.000 palavras, e utilizamos 50 amostras de texto de cada autor, num total de 100 mil palavras. Cinco medidas, baseadas nas palavras de função "estão", "em", "não", "de" e "o", foram extraídas de cada texto. As medidas assumiram forma de razões entre o número de vezes que cada palavra de função aparecia no texto e o número total de palavras no texto, e elas foram utilizadas como as entradas da rede. Depois disso os textos foram mostrados repetidas vezes ao computador, até que ele fosse capaz de reconhecer as obras tanto de Shakespeare quanto de Fletcher.
Uma vez treinada, a rede mostrou ser realmente eficiente em reconher obras desses autores que ela nunca antes havia visto. Além de identificar corretamente peças inteiras, descobrimos que a rede neural conseguia até mesmo identificar corretamente os autores de atos individuais de procedência não disputada.
Depois disso, soltamos a rede neural em cima de "The Two Noble Kinsmen". Baseando-se numa ampla variedade de evidências, essencialmente subjetivas, os estudiosos afirmavam que a mão de Shakespeare domina os atos 1 e 5, e que boa parte do resto parece haver sido escrito por Marlowe. Em março do ano passado, nossa rede neural concordou com essas atribuições –e ofereceu a opinião adicional de que Fletcher talvez houvesse recebido bastante ajuda de Shakespeare no ato 4. Em suma, nossa rede neural confirma quantitativamente a visão subjetiva de suas contrapartidas humanas, muito mais sofisticadas, segundo as quais "The Two Noble Kinsmen" é uma genuína colaboração entre Shakespeare e um de seus contemporâneos.

ROBERT MATTHEWS é especialista em computação da Universidade Aston e jornalista do "The Sunday Telegraph". TOM MERRIAM, PhD em identificação de autores por frequência de palavras pelo King's College, é historiador aposentado.

Tradução de Clara Allain

Texto Anterior: Por que os planetas voltam para trás no céu?
Índice


Clique aqui para deixar comentários e sugestões para o ombudsman.


Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da Folhapress.