Se você tem alguma dúvida sobre segurança da informação (antivírus, invasões, cibercrime, roubo de dados etc.) vá até o fim da reportagem e utilize o espaço de comentários ou envie um e-mail para [email protected]. A coluna responde perguntas deixadas por leitores no pacotão, às quintas-feiras.

>>> 96% da web está na "deep" web?
No momento escrevo o meu Trabalho de Conclusão de Curso (TCC) para o curso de jornalismo e o tema é Deep web e o jornalismo.

Faço contato para esclarecer a seguinte dúvida: vários sites e artigos citam que a Deep web corresponde a 96% de todo o conteúdo da Grande Rede, mas qual a origem desse número? Onde ele foi citado a 1ª vez? É uma convenção?

Desde já agradeço a sua atenção.
Paulo Mesquita

Paulo, você pode não ter percebido, mas sua pergunta toca numa grande "ferida". Eu não descreveria esse número como "convenção". Está mais para "meme".

O resumo da história -- que é útil para começarmos essa conversa -- é que essas estatísticas são chutes e falam de um conceito de deep web diferente do que se imagina. Se você pensa que essa "Deep Web" dos "96%" tem algo a ver com programas como o Tor (foto) ou atividades ilegais, você está estaria cometendo um engano (um engano extremamente comum, inclusive).

Falando do número em si, mesmo que alguém pudesse "enxergar a web inteira" para decidir o que é deep web e qual a parcela que ela representa, seria primeiro necessário atribuir um significado a esse número. Por exemplo: se um arquivo de vídeo com um filme está na web, quantos porcento ele representa? Se ele tem 1 GB (1024 MB) e um livro médio tem 5 MB, seria a presença de um filme equivalente à presença de mais de 200 livros nessa "taxa"? Como ficam as imagens, documentos e textos digitalizados?

Se essa ideia parece um pouco estranha para você, saiba que era exatamente esse tipo de estimativa que se fazia em 2001, quando o termo "Deep Web" foi cunhado pelo pesquisador Michael Bergman. Um estudo dele na época multiplicou o tamanho médio das páginas da web pelo número estimado de páginas em existência para chegar ao tamanho, em terabytes, de toda a web. Isso foi comparado ao volume, também em terabytes, fornecido por administradores de sites que não apareciam em mecanismos de buscas. Pois é: o pesquisador enviou um e-mail pedindo que os donos de algumas dezenas de sites informassem o tamanho dos seus bancos de dados.

É provável que o instituto de patentes dos Estados Unidos, que armazena e publica on-line as patentes registradas por lá, não seja bem o que você associa com "deep web". Mas ele, bem como outros sites do governo americano, inclusive a agência espacial NASA, eram os maiores sites da "deep web" para o estudo de 2001.

O estudo ("The Deep Web: Surfacing Hidden Value") era na verdade um material marketing da tecnologia do buscador BrightPlanet para garimpar informações em bancos se dados consultáveis. Esse buscador existe até hoje -- ele é pago e segue prometendo ser capaz de pinçar dados da "deep web". Já o artigo, apesar de seu intuito publicitário, é o mais citado do pesquisador Michael Bergman: segundo o Google, outros 1,6 mil textos científicos fazem referência a ele.

Embora a influência do trabalho de Bergman tenha popularizado o termo "Deep Web", o conceito em si nasceu como "web invisível". O termo data de 1994 e é atribuído à professora e consultora Jill Ellsworth.

Falar de agências de governo como sendo parte da "deep web" pode ser engraçado se você pensar que o termo "deep web" costuma ser hoje associado a sites de vendas de drogas, pedofilia ou conteúdo macabro. Mas o termo surgiu -- como esta coluna já afirmou diversas vezes -- para definir as páginas que estão fora dos mecanismos de pesquisa.

De fato, muitos bancos de dados do governo estão fora dos mecanismos de pesquisa: tanto nos Estados Unidos como aqui, a maioria das decisões judicais não pode ser acessada por buscadores genéricos, por exemplo. Você precisa consultar os processos nos sites específicos. Os bancos de dados de artigos científicos, cujo acesso depende de uma assinatura, também estão fora dos mecanismos de pesquisa. Mas você normalmente pode acessá-los na biblioteca da sua universidade -- logo, é possível que seu TCC acabe com referências da "Deep Web", mesmo sem essa intenção.

Há ainda páginas menos óbivas, mas muito comuns, nesse conceito de "deep web". Perfis privados no Twitter e uma parte imensa do Facebook não podem ser vistos em pesquisas, seja porque os usuários restringiram o conteúdo ou porque o Facebook exige cadastro para a visualização da postagem. Em outras palavras, o acesso ao Facebook é na verdade um acesso à "Deep Web" porque exige cadastro e o uso de um buscador específico (o do próprio Facebook), além das publicações privadas dos seus amigos que você recebe na sua linha do tempo.

Já nas páginas abertas, existem limitações técnicas. Até 2008, o Google não conseguia "ler" documentos digitalizados em PDF para indexar o texto. Imagens em PDFs (como gráficos) eram invisíveis para o Google até 2015! O "Archive.org", que tem um gigantesco arquivo de páginas antigas da web, não está no Google ou em outros mecanismos de busca similares.




Até 2008, a busca do Google era bem menos precisa para encontrar dados em documentos PDF. Pela definição clássica, tudo que não está em buscadores gerais e exige pesquisa em sites específicos é 'deep web'. (Foto: Reprodução)

Dito isso a página do Archive.org que permite a você fazer essa consulta pode ser facilmente encontrada em qualquer buscador. Em outras palavras, o conteúdo não está tão escondido quanto parece. Como contabilizar isso nas "estatísticas" do tamanho da Deep Web?
 
Existem ainda conteúdos que não são indexados por motivos legais. Um exemplo são os chamados grupos binários da Usenet, que há anos são uma conhecida fonte de conteúdo protegido por direitos autorais. Nenhum grande buscador se envolve com esse conteúdo, e o volume de dados é imenso.

Pode causar muita confusão misturar o entendimento popular sobre a deep web -- de que nela estão sites "alternativos" ou "proibidos" que só podem ser acessados pelo Tor ou outro software semelhante -- com pesquisas e números para os quais a "deep web" são todas as páginas fora de buscadores.

Por outro lado, se você quer restringir sua pergunta do "tamanho da deep web" ao "tamanho da rede anônima Tor", essa pergunta tem alguma resposta. Segundo estatísticas compiladas pelo projeto Tor em fevereiro de 2015, existem 30 mil sites acessíveis na rede. Esses sites geram um total de 600 Mbps de tráfego, ou cerca de 150 terabytes por mês. Esses números representam uma quantidade ínfima do número total de sites em existência e do tráfego da internet: acredita-se que a web tenha mais de 1,8 bilhão de sites (conta do Internet Live Stats) e tráfego de mais de 90 mil petabytes mensais (90 milhões de terabytes, estimativa da Cisco).

>>> O Android precisa de antivírus no acesso a bancos?
Gostaria de saber se há a necessidade de ter algum antivírus instalado no celular para o uso do Internet banking. Pois já tenho o App padrão do Android para verificação de malware e limpeza do sistema.
José Lourenço

José, não sei a qual "app padrão" do Android você se refere. A verificação de aplicativos maliciosos é embutida no Android e faz parte do pacote do Google -- mais especificamente, o Google Play. O Google vem recentemente chamando esse recurso de "Google Play Protect", mas ele já existe há mais tempo, embora fosse mais discreto e menos robusto do que é hoje.

O Google Play Protect não aparece como um aplicativo avulso no Android -- ele é parte integrante da Play Store e, portanto, ele não é "instalado".

Isto esclarecido, vamos à sua pergunta. Não é preciso instalar um antivírus no Android. O mais importante é:

- Possuir um celular de uma marca confiável, homologado pela Anatel.
Não compre aparelhos importados sem certificação da Anatel e, especialmente, sem certificação do Google. Aparelhos sem certificação do Google podem ter versões adulteradas do Android e instalações irregulares dos aplicativos do Google. Alguns deles vêm infectados com vírus já de fábrica.

- Instalar aplicativos apenas do Google Play. Não use lojas "alternativas" e, mais importante, não tente instalar nenhum aplicativo pirata em seu celular. Esse comportamento expõe você a um alto risco de contaminação.

- Use a criptografia de armazenamento no seu celular (foto). A maioria dos aparelhos mais recentes já é criptografada de fábrica -- apenas tome cuidado ao utilizar cartões microSD como "armazenamento externo" ou "armazenamento portátil", pois estes não são criptografados. Se você formatar o cartão como armazenamento interno, ele será criptografado, mas não poderá retirá-lo do celular.

Embora existam muitos riscos em celulares, aplicativos falsos -- especialmente que roubam senhas de banco -- são muito mais raros do que ameaças semelhantes para computadores. Por isso, um antivírus é bem pouco necessário. Tome cuidado com mensagens falsas de SMS. Utilize apenas o aplicativo do seu banco baixado da Play Store.


O pacotão da coluna Segurança Digital vai ficando por aqui. Não se esqueça de deixar sua dúvida na área de comentários, logo abaixo, ou enviar um e-mail para [email protected]. Você também pode seguir a coluna no Twitter em @g1seguranca. Até a próxima!