Hinné-e: a föld teljes népességének kb. 40 %-a használja a World Wide Web-et!
Tudta? A világháló (angol eredetiben World Wide Web, WWW vagy röviden Web) az interneten működő, egymással úgynevezett hiperlinkekkel összekötött dokumentumok rendszere. A rendszert web böngészőprogram segítségével lehet elérni. Ez a program képes megjeleníteni az egyes dokumentumokat, weblapokat. A felhasználó a lapokon található hiperlinkek segítségével további lapokat kérhet le, amelyeken újabb hiperlinkek lehetnek. A rendszer háló jellegét is ez adja: a dokumentumok a háló csomópontjai, míg a hiperlinkek a háló szálai, amelyeken keresztül egy vagy több lépésben tetszőleges csomóponthoz eljuthatunk 1.
Szórakozás, kapcsolattartás, és hírek, valamint sok-sok egyéb dolog is szerepel a Web szokásos felhasználási listáján. Annak ellenére, hogy egyre több ember használja az internetet, egyre kevesebb online adathoz lehet egyszerűen hozzáférni. Ennek oka, hogy a WWW a felszínen egyáltalán nem annyira „Wide” (azaz széles), mint azt mi gondolnánk.
Egy átlagos felhasználó csak a web felszínén szörföl, vagyis csak az ún. surface web[2]-et használja. A surface web a nagy egész azon részét jelöli, melyet a keresőmotorok is megtalálnak, ez azonban csak a jéghegy csúcsa, mégpedig nagyjából csak a 3%-a a világhálón ténylegesen létező adatmennyiségnek ‒ és ez döbbenetes!
Ha ez így van, akkor mégis hol rejtőzik a web tartalmának több, mint 97%-a?
A Deep Web, a Dark Net és az Internet többi része közötti különbségek
A fentebb feltett kérdésre a válasz első fele: egy része a deep web-en, az internet egy rejtettebb szegmensén, a mélyben, vagyis a láthatatlan weben. Hogy miért láthatatlan? Azért, mert bármely szokásos keresőrendszerrel, egy szokásos kereséssel a web ezen része nem érhető el. Ezek a tartalmak tehát nem feltétlenül titkosak, és többségükben még csak nem is veszélyesek, egyszerűen csak láthatatlanok. Egy kis vigasz: azért annyira mégsem láthatatlanok, de az elérésükhöz egy kicsit több kell…
Először is tegyünk tisztába egy dolgot: a mély háló (deep web) és a sötét háló (dark web) nem ugyanaz. Bár a két kifejezést szinonim módon használják, a sötét háló az, ahol illegális dolgok történnek, míg a mély háló csak olyan rejtett tartalom, amelyet a Google, vagy más, a hozzá hasonlóan működő keresők nem ér el.
A legjobb módja annak, hogy az internetről, és annak tartalmáról képet kapjunk, az egész internetet, mint egy jéghegyet képzeljük el. Többségünk, mint átlagos felhasználó, csak a jéghegy csúcsát láthatja, és ez az, amely a nyilvános internetet képviseli. A felszín alatt azonban hatalmas mennyiségű adat van, amit nem látunk.
Ahhoz, hogy megértsük, hogyan működik ez, figyeljük meg, hogy hogyan csinálja például a Google.
Mielőtt a böngészők, és a keresőmotor-technológiák kifejlesztésre kerültek volna, szinte lehetetlen volt elérni egy új weboldalt anélkül, hogy az oldal linkjéhez (például e-mailen keresztül, vagy egy ismerőstől személyesen) hozzájutottunk volna.
A keresőtechnológiák kidolgozása, elterjedése után ma már csak néhány ügyesen kitalált kulcsszót kell beírnunk a Google-ba, és másodperceken belül több millió webhelyre mutató hivatkozás jelenik meg a böngészőnkben. Az internetezők többsége azt hiszi, illetve úgy gondolja, hogy a Google, vagy más publikus keresők segítségével az egész Interneten szörfölhet, de valójában a keresők az Internet csak nagyon kis részét derítik fel (más szóval indexelik), ezért csak erre a kis részre korlátozódik egy átlagos felhasználó számára sz Internet.
A Google ezeket a webhelyeket crawler, spider vagy spiderbot használatával képes felderíteni 3.
Hogy hogyan? Röviden összefoglalva: ezek a robotok az adott weboldalt a számukra lehetséges mértékben „átfésülik”. Az adott oldalhoz különböző mutatókat rendelnek, amelyeket feljegyeznek annak meghatározására, hogy mely, az oldalra jellemző kulcsszavak szerint rangsorolhatják azt. Ez az indexelés. Amikor a keresőrobotok az első oldalt átfésülték, az oldalon talált összes hivatkozás alapján feltérképezik az új oldalakat is. Mivel ez a folyamat rekurzív, és mivel a weboldalak egymáshoz kapcsolódnak, a kereső a nyilvános megtekintésre is szánt weboldalak nagy részét képes feltérképezni.
Azonban ‒ részben azért is, mert a robotok nem tökéletesek ‒ sok olyan tartalom marad felderítetlenül, amelyhez egyszerűen nem férnek hozzá. Ha egy crawler nem fér hozzá oldalakhoz vagy azok adataihoz, akkor azokat az oldalakat nem is képes indexelni.
Hatalmas mennyiségű olyan adat van az interneten, amely elérhetetlen a robotok számára. Például bármely olyan webhelyet, amely először a bejelentkezéshez szükséges hitelesítő adatok bevitelét követeli meg a felhasználótól, ezen adatok ismerete nélkül a keresőrobotok egyszerűen nem fogják tudni indexelni. Ez viszont azt is jelenti, hogy a legtöbb ilyen tartalom nem lesz elérhető a karesőn keresztül. Ilyen tartalmak akár a közösségi médiában is lehetnek, például a felhasználói azonosítóval és jelszóval védett információk; egy másik példát említve ‒ sok webhelyen tárolt, de nyilvánosan el nem érhető adatot dinamikusan hoznak létre háttér-adatbázisok felhasználásával. Ezek mind-mind a mély web állományát növelik, ugyanakkor nem részei a sötét webnek.
A robotok a fentieken túlmenően különböző biztonsági okok miatt nem férhetnek hozzá egyéb oldalakhoz, tartalmakhoz és szolgáltatásokhoz sem. Ilyenek például leggyakrabban a vállalati hálózatok, amelyek ugyan weboldalakat tárolnak az intraneten, de a tulajdonosaik nagyon nem szeretnék, ha a nyilvánosság hozzáférne ezekhez a weboldalakhoz.
A dolog megértéséhez ‒ egy analógia felvázolásával ‒ tételezzük fel, hogy a Google keresési algoritmusa olyan, mint egy régi telefonkönyv ‒ azonban a név, a címek és a telefonszámok tárolása helyett a Google az webcímeket tárol.
Az analógiánk szerinti telefonkönyvben számos ügyfél adata szerepel, és ‒ legyünk reálisak ‒ sok ügyfél csak saját magának akarja megtartani a saját adatait ‒ titkosíttatja azokat. Ezen analógia szerint ezeknek az ügyfeleknek az adatai a deep web-en találhatóak.
Általánosságban elmondható, hogy a deep web fogalma alatt olyan webhelyeket, tartalmakat vagy szolgáltatásokat értünk, amelyet a Google és/vagy más keresők nem tudnak bejárni, és mint ilyenek, nem is érhetőek el keresőmotorok segítségével. Így például, ha egy iskola, egy egyetem vagy egy vállalkozás egy olyan belső webhelyet működtet, amelyet a Google keresőrobotjai nem tudnak feltérképezni, ez technikailag a mély web egy szeletének minősül.
Összefoglalva az eddigieket fel tudunk állítani egy „ökölszabályt”, amely segít eligazodni a kérdésben:
Ha egy weboldal megtalálható a Google segítségével, akkor az a felszíni web része, ha pedig nem, akkor az az oldal a mély web részét képezi.
A cikket folytatjuk…
1 https://hu.wikipedia.org/wiki/Világháló
2 A Surface Web [a Felszíni Web] (más néven a látható web, indexelt web, indexelhető web) a világháló azon része, amely a nyilvánosság számára könnyen elérhető és kereshető a hagyományos webes keresőmotorokkal.
Egy forrás szerint 2015. június 14-én a Google webes indexe körülbelül 14,5 milliárd oldalt tartalmazott ‒ ez volt akkor a Látható Web mérete.
3 Egy Web crawler (webrobot) ‒ amelyet néha spidernek (póknak) vagy spiderbotnak neveznek, de gyakran rövidítik crawlerként is ‒ olyan internetes bot, amely szisztematikusan átvizsgálja a Webet, jellemzően a webes indexelés (web spidering vagy háló felfedezés) céljából.