As Coisas Que o Google Não Sabe

fevereiro 11, 2015

O site mais acessado do mundo está prestes a ganhar um concorrente à altura. Apesar de muitos usuários idolatrarem a eficiência do Google como buscador, existem coisas que escapam de sua capacidade de pesquisar páginas na internet

Nesta semana, o Brasil está recebendo um novo serviço de busca que promete tentar desbancar a unanimidade do Google como buscador. Trata-se do Qwant, um novo serviço criado na França que se tenta se destacar dos demais por “respeitar a vida privada dos usuários”, conforme explica a própria empresa. Isso significa que, diferente do Google, o site promete não coletar os dados dos usuários a fim de criar seu perfil para poder oferecer anúncios direcionados.

O Qwant surgiu em 2013 na França e expandiu para a Alemanha em 2014, mesmo ano em que atingiu 1,6 bilhões de consultas, presente em 25 países e 15 idiomas.

Será que os internautas tão habituados com as consultas no quase onisciente Google vão aceitar migrar para o novo buscador? Aliás, existem coisas na internet que o todo-poderoso Google ignora. Quer saber quais são? Vamos lá.

Quem fornece a resposta é o blogue Oráculo da revista Superinteressante. Diz o Oráculo: "Quando alguém faz uma pesquisa, na verdade não está procurando em toda a internet, mas sim num índice que o Google cria com os sites que ele conseguiu achar. Para fazer esse índice, que funciona como uma biblioteca em constante expansão, os engenheiros usam programas chamados indexadores (ou spiders, aranha em inglês). Os spiders começam buscando algumas páginas, depois seguem os links dessas páginas e buscam aquelas para as quais elas direcionam, e depois os links, e depois as direções, e assim sucessivamente, até grande parte da web ser indexada. O resultado são bilhões de páginas armazenadas em milhões de máquinas. Quando alguém tecla uma pesquisa no site do Google, o software busca no índice para encontrar o que inclui os termos digitados. E aí está a primeira coisa que ele ignora: tudo o que não foi indexado por seus spiders.

Mas quais os critérios para algo ser selecionado ou não? Bem, alguns sites simplesmente não querem ser encontrados por qualquer pessoa. Um tal de arquivo robots.txt, quando adicionado ao site, funciona como filtro para os robôs buscadores. Os webmasters podem, com ele, controlar as permissões de acesso a determinadas páginas. Outra forma de não entrar para a lista é o Google não conseguir encontrar nenhum link que aponte para o site."
O segundo motivo de ignorância googleiana é a lei, diz o Oráculo. "Tudo que viola as leis nacionais e internacionais não aparecerá na busca. O que é protegido por copyright, como músicas e filmes, além de outras ilegalidades mais sinistras como pornografia infantil, pode até ser encontrado, mas será ignorado na apresentação dos resultados, com exceção de alguns deslizes.
O terceiro é o que viola os padrões da web. Existe um regulamento, mantido pela The World Wide Web Consortium – ou apenas W3C – que diz como a web deve ser e se comportar. Se não está nos padrões, ou se está fora da web, não existe para o Google. Nessa categoria está a já famosa Deep Web, aquele canto obscuro da internet."
Outro ponto importante é que o Google não entende a semântica das coisas, conforme esclarece o blogue da Super. "Ele não é sensível como eu, então não é capaz de ver o que está em imagens sem uma legenda correspondente. Quer dizer, ele até consegue ler um arquivo, mas não entende, somente pela imagem, o que há na foto. É por isso que, mesmo quando indexada, uma imagem pode não ser apresentada como resultado de pesquisa sem uma legenda correspondente." Além do mais,, websites com spam, malwares ou com vírus ficam de fora das buscas também,

Fonte: Oráculo

Pesquisar este blog

Biorritmo

As Coisas Que o Google Não Sabe

Comentários

Postar um comentário

Postagens mais visitadas deste blog

A Mariposa da Morte

Nossa Fauna Atropelada

Sindemia?