Vissza a GOLIAT Információs oldalaira 
A ma létező keresők hibái :

Nagyon bonyolult a keresendő szókapcsolatok közti viszonyok megadása
( a kezdő felhasználó számára teljesen átláthatatlan és érthetetlen amikor a keresőmezőbe a keresendő szókapcsolatok közé AND, OR, NOT, NEAR, -, +, utasításokat kell írni)

Nem egyértelmű szűkítési eljárások
( Amennyiben egy keresendő kifejezést tovább szeretnénk szűkíteni, az sokszor nagyon körülményes )

Hibásan működő adatgyűjtő robotok
( A HTML szabványt sokszor rosszul értelmező robotok csak a tökéletesen megprogramozott weblapokat tudják beilleszteni saját adatbázisukba. Nem kezelik a FRAME-ben szerkesztett oldalakat, a META REFRESH tagot. Sokszor helytelenül értelmezik a Java scriptben megadott linkeket )

Nagy, sokszor több $100.000 dolláros hardver igény
( A legtöbb ismert keresőrendszer drága, esetenként több $100.000 dolláros számítógépen fut. ( pl.: Sillicon Graphics Onyx2, Dell PowerEdge stb… )

Az új oldalak bekerülése az adatbázisba több hét, esetleg hónap is lehet
( A keresőrobotok úgy működnek, hogy amikor beregisztrálunk egy domainnevet, akkor azt néhány hét, esetleg hónap múlva felkeresik és beindexelik az adatbázisukba. Ez a több hetes veszteség megengedhetetlen a mai internetes világban, ahol az adatok szinte napról-napra cserélődnek, nagyon nagy látogató kiesést jelenthet az új honlap tulajdonosoknál az így kiesett várakozási idő )

A három betűnél rövidebb szavak kihagyása
( Mivel sok nyelvben a három illetve az annál rövidebb kötőszavakból
- angolban : or, the, and
- németben : und, der, die, das
- magyarban : és, az, a
egy oldalon több száz is lehetséges, ezért - mivel az ezen szavakból keletkező adatbázis több száz megabájt nagyságot is elérheti - ezeket a szavakat nem indexelik be adatbázisukba.

A keresési idő lineáris növekedése az adatbázisban szereplő adatmennyiség függvényében
( mivel a keresést sokszor egy hardver végzi, így a processzor ( processzorok ) terheltsége lineárisan növekszik, mellyel a keresési idő is megnövekszik.

Érdektelen link-kek listázása
( sokszor a találatok jórésze értéktelen fórum, faliújság, stb..-ből kerül kilistázásra. Ez nagyon zavaró lehet a hasznos információt keresők számára. )

A kereső működése :

Egyszerű ( esetleg nem is szükséges ) a keresendő szókapcsolatok közti viszonyok megadása
(A keresendő szavakat szóközökkel elválasztva kell a felhasználónak begépelnie. A keresőmotor elvégzi a szókapcsolatok és a kifejezések elemzését

Egyszerű szűkítési eljárások
(A kezdő felhasználó számára is egyértelmű szűkítési eljárások. (opcionált lista))

Intelligens adatgyűjtő robotok
(A robotjaink kielemzik a letöltött HTML oldalt és a lehető legnagyobb hatékonysággal feldolgozzák azt. Kiszedik belőlük az értékes információkat ( szövegek, linkek ). Kezelik a magasabb szintű technológiákkal készült weblapokat is : flash4, xhtml, shtml, html ( frame, meta refresh tag), stb…)

A leindexelt adatbázishoz igazodó hardver igény
(Nem szükséges több $100.000 dolláros hardver, mivel a program párhuzamos működű. Tehát elég néhány alacsony árú számítógépet hálózatba kötni és azon párhuzamosan futtatni a keresőmotort, ahhoz hogy elérjük a "nagy számítógépek" teljesítményét.)

Az új oldalak bekerülése az adatbázisba 60-80 másodperc
(Sok kereső nem tudja azonnal hozzáfűzni adatbázisához az új oldalakat, mivel olyan adatbázis technológiát alkalmaznak, amely csak az adatbázis teljes újraépítésével változtatható meg. Az adatbázis kezelése lehetővé teszi, hogy 60-80 másodperc alatt bekerüljön a felhasználók által beregisztrált új oldal az online adatbázisba - technikailag lehetséges)

A három betűnél rövidebb szavak kezelése
(A három betűnél kisebb szavakra egy speciális tömörítési eljárást dolgozunk ki amely lehetővé teszi, hogy minden szó szerepeljen az adatbázisban)

A keresési idő 1 másodperc alatt
(A program párhuzamos futási technológiájának köszönhetően a keresési idő nem növekszik lineárisan az adatbázis növekedésével. A keresési idő reményeink szerint mindig 1 másodperc alatt lesz, függetlenül az adatbázis méretétől)

Érdektelen link-kek szűrése
(Sokszor a találatok jórésze értéktelen fórum, faliújság, stb..-ből kerül kilistázásra. Ez nagyon zavaró lehet a hasznos információt keresők számára, ezért lehetőség lesz ezek kiszűrésére. A keresés kivétel megadásá-val oldalon megadható majd, hogy a fórum-ok kivételével listázza ki a találatokat )

Elavult, nem létező link-ek kezelése
( amennyiben az építő egy "nem működő" linkre talál, akkor azt áthelyezi egy átmeneti tárolóba. Erre azért van szükség, mivel lehetséges, hogy a szerver ahol az oldal szerepel éppen karbantartás alatt van és ezért nem érhető el. Az építés folyamán az átmeneti tárolóban többször ellenőrzésre kerül a cím. Ha sorozatosan több napig nem érhető el, akkor a cím nem kerül bele az adatbázisba. )

Rekurziv eljárások a link-ek gyűjtésére
( az építő felbontja a már beregisztrált URL-eket részeire és megnézi, hogy létezik-e az így generált címen értékes adat vagy link. Ha igen, akkor hozzáfűzi azt az URL listához, ezzel is gazdagítva URLjeink számát )

A keresőrobotok működése

Feladatai :

URL gyűjtése a megjelölt IP cím tartományban
(a megadott IP cím tartomány folyamatos átnézése és szótárfájl alapján új LINK-ek keresése)

A felhasználók által regisztrált új URL-ek feldolgozása
(Az oldalak tartalmának letöltése és értelmezése. HTML tag-ok kiszedése, értékes szöveg elmentése. Az oldalon szereplő link-ek kigyűjtése és hozzáfűzése a feldolgozandó URL-listához. Ez a rekurzív folyamat akár egy végtelen ciklust is eredményezhetne, ezért adott mélységig dolgozzuk fel a Link-eket.)

Új URL-ek analizálása
(Az URL címeket fel bontja alkotóelemeire (alkönyvtárakra) és azok tartalmát kigyűjti. Amennyiben létezik az így generált oldal, akkor a rajta szereplő link-eket szintén hozzáfűzi az URL listához. Ez a módszer nagyon hatékony, sajnos a világ többi keresője nem alkalmazza.

A építő működése

Feladatai :

Online adatbázis építése
(az online adatbázishoz fűzi hozzá az építő a felhasználók által regisztrált új oldalakat)

Offline adatbázis építése
(a teljes URL lista alapján)

  Ú J  O L D A L  R E G I S Z T R Á L Á S A
 
 

és általában írhat NEKÜNK IDE - az info@goliat.hu címre.
1999 - 2004 Copyright