A ma létező keresők hibái :
Nagyon bonyolult a keresendő szókapcsolatok közti viszonyok megadása
( a kezdő felhasználó számára teljesen átláthatatlan és érthetetlen amikor a keresőmezőbe a keresendő szókapcsolatok közé
AND, OR, NOT, NEAR, -, +, utasításokat kell írni)
Nem egyértelmű szűkítési eljárások
( Amennyiben egy keresendő kifejezést tovább szeretnénk szűkíteni, az sokszor nagyon körülményes )
Hibásan működő adatgyűjtő robotok
( A HTML szabványt sokszor rosszul értelmező robotok csak a tökéletesen megprogramozott weblapokat tudják beilleszteni
saját adatbázisukba. Nem kezelik a FRAME-ben szerkesztett oldalakat, a META REFRESH tagot. Sokszor helytelenül értelmezik a
Java scriptben megadott linkeket )
Nagy, sokszor több $100.000 dolláros hardver igény
( A legtöbb ismert keresőrendszer drága, esetenként több $100.000 dolláros számítógépen fut. ( pl.: Sillicon Graphics Onyx2,
Dell PowerEdge stb… )
Az új oldalak bekerülése az adatbázisba több hét, esetleg hónap is lehet
( A keresőrobotok úgy működnek, hogy amikor beregisztrálunk egy domainnevet, akkor azt néhány hét, esetleg hónap múlva
felkeresik és beindexelik az adatbázisukba. Ez a több hetes veszteség megengedhetetlen a mai internetes világban, ahol az
adatok szinte napról-napra cserélődnek, nagyon nagy látogató kiesést jelenthet az új honlap tulajdonosoknál az így kiesett
várakozási idő )
A három betűnél rövidebb szavak kihagyása
( Mivel sok nyelvben a három illetve az annál rövidebb kötőszavakból
- angolban : or, the, and
- németben : und, der, die, das
- magyarban : és, az, a
egy oldalon több száz is lehetséges, ezért - mivel az ezen szavakból keletkező adatbázis több száz megabájt nagyságot is
elérheti - ezeket a szavakat nem indexelik be adatbázisukba.
A keresési idő lineáris növekedése az adatbázisban szereplő adatmennyiség függvényében
( mivel a keresést sokszor egy hardver végzi, így a processzor ( processzorok ) terheltsége lineárisan növekszik, mellyel a
keresési idő is megnövekszik.
Érdektelen link-kek listázása
( sokszor a találatok jórésze értéktelen fórum, faliújság, stb..-ből kerül kilistázásra. Ez nagyon zavaró lehet a hasznos
információt keresők számára. )
A kereső működése :
Egyszerű ( esetleg nem is szükséges ) a keresendő szókapcsolatok közti viszonyok megadása
(A keresendő szavakat szóközökkel elválasztva kell a felhasználónak begépelnie. A keresőmotor elvégzi a szókapcsolatok és a
kifejezések elemzését
Egyszerű szűkítési eljárások
(A kezdő felhasználó számára is egyértelmű szűkítési eljárások. (opcionált lista))
Intelligens adatgyűjtő robotok
(A robotjaink kielemzik a letöltött HTML oldalt és a lehető legnagyobb hatékonysággal feldolgozzák azt. Kiszedik belőlük
az értékes információkat ( szövegek, linkek ). Kezelik a magasabb szintű technológiákkal készült weblapokat is : flash4,
xhtml, shtml, html ( frame, meta refresh tag), stb…)
A leindexelt adatbázishoz igazodó hardver igény
(Nem szükséges több $100.000 dolláros hardver, mivel a program párhuzamos működű. Tehát elég néhány alacsony árú
számítógépet hálózatba kötni és azon párhuzamosan futtatni a keresőmotort, ahhoz hogy elérjük a "nagy számítógépek"
teljesítményét.)
Az új oldalak bekerülése az adatbázisba 60-80 másodperc
(Sok kereső nem tudja azonnal hozzáfűzni adatbázisához az új oldalakat, mivel olyan adatbázis technológiát alkalmaznak,
amely csak az adatbázis teljes újraépítésével változtatható meg. Az adatbázis kezelése lehetővé teszi, hogy 60-80 másodperc
alatt bekerüljön a felhasználók által beregisztrált új oldal az online adatbázisba - technikailag lehetséges)
A három betűnél rövidebb szavak kezelése
(A három betűnél kisebb szavakra egy speciális tömörítési eljárást dolgozunk ki amely lehetővé teszi, hogy minden szó
szerepeljen az adatbázisban)
A keresési idő 1 másodperc alatt
(A program párhuzamos futási technológiájának köszönhetően a keresési idő nem növekszik lineárisan az adatbázis
növekedésével. A keresési idő reményeink szerint mindig 1 másodperc alatt lesz, függetlenül az adatbázis méretétől)
Érdektelen link-kek szűrése
(Sokszor a találatok jórésze értéktelen fórum, faliújság, stb..-ből kerül kilistázásra. Ez nagyon zavaró lehet a hasznos
információt keresők számára, ezért lehetőség lesz ezek kiszűrésére. A keresés kivétel megadásá-val oldalon megadható majd,
hogy a fórum-ok kivételével listázza ki a találatokat )
Elavult, nem létező link-ek kezelése
( amennyiben az építő egy "nem működő" linkre talál, akkor azt áthelyezi egy átmeneti tárolóba. Erre azért van szükség,
mivel lehetséges, hogy a szerver ahol az oldal szerepel éppen karbantartás alatt van és ezért nem érhető el. Az építés
folyamán az átmeneti tárolóban többször ellenőrzésre kerül a cím. Ha sorozatosan több napig nem érhető el, akkor a cím nem
kerül bele az adatbázisba. )
Rekurziv eljárások a link-ek gyűjtésére
( az építő felbontja a már beregisztrált URL-eket részeire és megnézi, hogy létezik-e az így generált címen értékes adat
vagy link. Ha igen, akkor hozzáfűzi azt az URL listához, ezzel is gazdagítva URLjeink számát )
A keresőrobotok működése
Feladatai :
URL gyűjtése a megjelölt IP cím tartományban
(a megadott IP cím tartomány folyamatos átnézése és szótárfájl alapján új LINK-ek keresése)
A felhasználók által regisztrált új URL-ek feldolgozása
(Az oldalak tartalmának letöltése és értelmezése. HTML tag-ok kiszedése, értékes szöveg elmentése. Az oldalon szereplő
link-ek kigyűjtése és hozzáfűzése a feldolgozandó URL-listához. Ez a rekurzív folyamat akár egy végtelen ciklust is
eredményezhetne, ezért adott mélységig dolgozzuk fel a Link-eket.)
Új URL-ek analizálása
(Az URL címeket fel bontja alkotóelemeire (alkönyvtárakra) és azok tartalmát kigyűjti. Amennyiben létezik az így generált
oldal, akkor a rajta szereplő link-eket szintén hozzáfűzi az URL listához. Ez a módszer nagyon hatékony, sajnos a világ
többi keresője nem alkalmazza.
A építő működése
Feladatai :
Online adatbázis építése
(az online adatbázishoz fűzi hozzá az építő a felhasználók által regisztrált új oldalakat)
Offline adatbázis építése
(a teljes URL lista alapján)
|
|