Dupa cum era de asteptat, dimensiunea reala a acestei parti a internetului este dificil de calculat. Cercetatori de la universitati de renume spun ca ceea ce cunoastem – Facebook, Wikipedia, site-urile de stiri, reprezinta mai putin de 1% din totalitatea www-ului (World Wide Web).

Internetul pe care navigam zilnic nu este decat la suprafata. Ingropate in adancurile retelei sunt zeci de trilioane de pagini – acesta este un numar estimativ, pe care majotitatea oamenilor nu le-au vazut niciodata, de la statistici plictisitoare, la site-uri pe care se vand ilegal organe.

Desi “Deep Web” este putin cunoscut, conceptul este relativ simplu. Pentru a oferi rezultatele pe care fiecare dintre noi le cauta pe internet, Google, Yahoo! sau Bing, de la Microsoft, indexeaza constant pagini. Motoarele de cautare fac acest lucru folosind linkurile dintre site-uri, creand astfel un sistem asemenator unei panze de paianjen (de unde si denumirea). Insa acestea nu pot capta decat paginile statice, ca cele obisnuite pe care intram in fiecare zi.  Ceea ce nu pot capta motoarele de cautare sunt paginile dinamice, cum ar fi cele care contin baze de date.

“Atunci cand un motor de cautare ajunge la o baza de date, nu poate urmari linkurile in profunzime, dincolo de caseta de cautare”, a declarat Nigel Hamilton, fondatorul Turbo10, un motor de cautare destinat tocmai cercetarii “Deep Web”-ului, care acum nu mai functioneaza.

Astfel, Google si alte motoare de cautare nu capteaza paginile din spatele retelelor private sau al asa numitelor “pagini de site statatoare” (standalone), care nu se conecteaza la nimic. Toate acestea fac parte din “Deep Web”.

Majoritatea paginilor care alcatuiesc “Deep Web”-ul contin informatii valoroase. Un raport din 2001 estima ca mai mult de jumatate dintre site-urile de pe internet sunt baze de date, printre cele mai mari regasindu-se cel al Administratiei Nationale Oceanice si Atmosferice a SUA, cel al NASA sau cel pentru patente si marci. Toate acestea sunt publice.

Un alt nivel al “Deep Web”-ului este format din paginile private, pe care companiile le tin secrete si pentru care incaseaza bani pentru a putea fi consultate, cum ar fi cele de documente guvernamentale LexisNexis si Westlaw sau jurnalele academice de pe Elsevier.

Alte 13% dintre pagini sunt ascunse pentru ca pot fi consultate doar prin intemediul retelelor de intranet. Aceste retele cu circuit inchis – ca de exemplu cele ale universitatilor, pot fi consulatte doar de cei care fac parte din ele.

Exista apoi Tor, coltul cel mai intunecat al internetului, o colectie de site-uri secrete, care se termina in “onion” si pentru accesarea carora este nevoie de softuri speciale. Cei care folosesc Tor vor ca activitatea lor pe internet sa nu poata fi urmarita.

Tor a fost infiintat in 2002, sub denumirea The Onion Routing Project, de catre Laboratorul de cercetare navala a SUA, folosit ca metoda de comunicare online anonima. In prezent, unii il folosesc pentru comunicatii secrete, dar a devenit si un hub unde se vand droguri, se sparg conturi bancare, se face pornografie ilegala si piraterie. Prin intermediul Tor se pot angaja chiar si asasini platiti.

In timp ce “Deep Web” ramane ascuns pentru cei mai multi dintre noi, scos la lumina, valoarea sa poate fi imensa. Un motor de cautare care ar putea sa “sape” in aceasta parte intunecata a internetului ar putea furniza date importante pentru cercetare sau despre finantarile guvernamentale.

Universitatea Stanford, de exemplu, a construit un prototip de motor numit Hidden Web Exposer (HiWE), pentru a cauta in profunzime. Alte astfel de motoare accesibile publicului sunt Infoplease, PubMed sau Infomine, al Universitatii California.