Marcelo Viana

Diretor-geral do Instituto de Matemática Pura e Aplicada, ganhador do Prêmio Louis D., do Institut de France.

Salvar artigos

Recurso exclusivo para assinantes

assine ou faça login

Marcelo Viana

A misteriosa lei de Zipf

Fenômeno peculiar se aplica à frequência de palavras e também ao tamanho de cidades

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Por volta de 1935, o linguista norte-americano George Zipf observou que quando listava palavras em ordem decrescente de seu uso em diferentes contextos, a frequência da primeira palavra da lista costumava ser (aproximadamente) 2 vezes maior do que a da segunda palavra, 3 vezes maior do que a da terceira, e assim sucessivamente.

Por exemplo, as três palavras mais usadas no inglês são o artigo "the", a preposição "of" e a conjunção "and", sendo que "the" aparece 1,92 vezes mais do que "of" e 2,42 vezes mais do que "and".

Na verdade, este comportamento peculiar já tinha sido apontado antes, pelo estenógrafo francês Jean-Baptist Estoup (1868 – 1950) e pelo físico alemão Felix Auerbach, e também não é privilégio da língua inglesa: ele vale para todos os idiomas conhecidos, inclusive idiomas artificiais como o esperanto.

Pessoa escreve texto em folha de papel
Ao listar palavras, frequência da primeira costumava ser cerca de 2 vezes maior do que a da segunda palavra, 3 vezes maior do que a da terceira e, assim, continuamente - Fred Tanneau/AFP

Mais ainda, ele não se restringe ao domínio da linguística: o mesmo tipo de distribuição ocorre em listas de dados das mais diferentes origens. Uma das situações mais estudadas, já apontada por Auerbach em 1913, diz respeito ao tamanho de cidades.

Por exemplo, quando listamos as cidades brasileiras em ordem decrescente de suas populações observamos que a maior (São Paulo) é 1,92 vezes maior do que a segunda (Rio de Janeiro) e 2,42 vezes maior do que a terceira (Brasília).

A primeira tentativa de explicar este fenômeno matematicamente foi devida ao próprio Zipf e é muito curiosa. Ele partiu do princípio de que tanto quem fala quanto quem escuta quer fazer o menor esforço possível na comunicação, e usou argumentos de estatística para concluir que isso conduziria ao tipo de distribuição de frequências previsto na lei. Mas não é claro como essa ideia poderia ser estendida a outras instâncias da lei de Zipf, fora da linguística.

Outras possíveis explicações científicas foram propostas ao longo dos anos, mas a validade da lei de Zipf continua sendo um mistério. Em parte, isso é devido ao fato de que, ao contrário da maioria das afirmações matemáticas, esta lei é apenas aproximadamente correta: as frequências de palavras na linguagem, as populações de cidades, e outros dados similares têm um comportamento complexo, que a lei de Zipf reflete apenas de forma grosseira.

LINK PRESENTE: Gostou deste texto? Assinante pode liberar cinco acessos gratuitos de qualquer link por dia. Basta clicar no F azul abaixo.

  • Salvar artigos

    Recurso exclusivo para assinantes

    assine ou faça login

Tópicos relacionados

Leia tudo sobre o tema e siga:

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.