Tallinna Polütehnikum
Interneti
otsingumootorid REFERAAT
Henri Muldre
Arvutid ja arvutivõrgud
KPE-12
Juhendaja :
Luisa Pani
Tallinn 2013
Sisukord
1.Sissejuhatus 3
2.Otsingumootorid internetis 4
3.Ajalugu 5
3.1.Kõikide otsingumootorite ajaline järjestus 6
4.Mis on veebiämblik? 9
4.1.Tööpõhimõte 9
4.2.Näiteid 9
5.Kasutatud materjalid 11
Sissejuhatus
Otsingumootor ehk otsimootor on programm (tavaliselt
otsinguprogrammide-andmebaaside süsteem), mille abil saab
Internetis veebis infot
leida. Otsimootor otsib kindlate tunnustega andmeid veebist
ja FTP-serveritest.
Päringu
vastused esitatakse nimekirjana, mis võib koosneda
viidetest veebilehtedele,
piltidele, dokumentidele, videotele jt objektidele võrgus.
Otsingumootori otsitavaks informatsiooniks võib olla kellegi Facebook ’i konto , perekonnanimi , sünniaasta või kasvõi elukoht (muidugi selline info
rikub inimese privaatsust) või näiteks millal Steve Jobs on
sündinud. Peaaegu kõik on võimalik teada saada. Tuleb vaid osata
otsida. Kõige effektiivsem on seda teha märksõnadega näiteks, kui kellegil on vaja leida Tallinna Polütehnikumi koduleht ülesse, siis
ei küsita: „Vabandust, kas Te võiksite mulle öelda Tallinna
Polütehnikumi kodulehe aadressi?“, vaid kirjutatakse lihtsalt
„Tallinna Polütehnikum“. Selle kaudu peaks esimese tulemusena
leidma soovitud kodulehe.
Otsingumootorid internetis
Internetis
on mitmeid otsingumootoreid ja neid on ka erit tüüpi. Mõned
otsingumootorid kaevandavad
andmeid võrku
ühendatud andmebaasidest või
avatud loenditest. Erinevalt veebiregistritest–portaalidest, mida
hooldavad toimetajad, uuendavad otsingumootorid infot reaalajas
jooksutades veebiämblikutel algoritme.
Kõige populaarsem neist on Google (veebiaadress http://www.google.co m). Peale
seda tuleb Bing (www.bing.com), Yahoo ! Search ( http://search.yahoo.co m),
AOL Search ( http://www.aol.co m)
jne. Väga paljud otsingumootorid alates aastast 1993 on tänaseks
juba ammu suletud. [detailset
tabelit näeb lehekülgedel 7-9]
Meil
on ka enda otsingumootoreid, infoportaale ning muid teenuseid: NETI ( http://www.neti.ee ), 1182 ( http://www.1182.ee ), 1188
( http://www.1188.ee ),
ExpressKONTAKT! ( http://www.kontakt.ee ),
Log.ee ( http://www.log.ee ) ning
wwW.ee.
Ajalugu
Esimene
tööriist, mida kasutati internetis otsimiseks, oli Archie . Nimi
tähendas "archive" (ingl.k. arhiiv) ilma "v"-ta.
Selle lõid 1990. aastal Alan Emtage, Bill Heelan ja J. Peter
Deutsch, arvutitehnika õpilased McGill-i ülikoolist Montréalis.
Programm laadis alla registri nimekirjad
kõikidest failidest, mis asusid avalikes FTP võrgukohtades, luues failinimedega otsitava andmebaasi. Archie ei indekseerinud lehtede
sisu, sest andmemahud olid piiratud, samas võis andmeid lihtsalt
leida.
1993.
aasta juunis lõi Matthew Gray arvatavasti esimese veebiroboti, Perli
baasil loodud World Wide Web Wandereri ja kasutas seda Wandexi
nimelise indeksi loomiseks. Wandereri eesmärgiks oli mõõta veebi
suurust, mida see tegi kuni hiliste 95dateni. Veebi teine
otsingumootor ALiweb ilmus 1993a novembris.
Üks
esimesi „täis-teksti“ ämbliku baasil toimivaid otsingumootoreid
oli WebCrawler (ingl. k. VeebiÄmblik), mis tuli välja 1994 aastal.
Erinevalt oma eelkäijatest lasi see oma kasutajatel otsida iga sõna
igal veebilehel, mis on sellest ajast saadik muutunud standardiks
kõigile otsingumootoritele. See oli ka üks esimesi
otsingumootoreid, mis sai tuntuks laiema avalikkuse ees.
1996.
aastal tahtis Netscape anda
ühele otsingumootorile eksklusiivse lepingu, millega see muutuks
kaasasolevaks otsingumootoriks Netscape'i brauseril.
Huvi selle vastu oli nõnda suur, et Netscape tegi tehingu viie
suurema otsingumootoriga. 5 millioni dollari eest aastas olid
Netscape'i otsingulehel ringluses erinevad mootorid . Need viis olid
Yahoo!, Magellan , Lycos, Infoseek ja Excite.
2000.
aasta paiku tõusis tippu Google'i otsingumootor.
Firma saavutas paremaid tulemusi innovatsiooniga PageRank. See korduv
algoritm hindab veebilehti PageRank-numbri alusel. Eeldatakse, et headele ja nõutud lehtedele lingitakse teistelt veebisaitidelt
rohkem kui teistele. Google säilitas oma otsingumootoris ka
minimalistliku kasutajaliidese , vastandina mitmetele konkurentidele,
kelle otsingumootor oli veebiportaali sisse ehitatud.
2000
aastal hakkas Yahoo! kasutama otsingutulemuste saamiseks Google'it.
Yahoo! hankis endale Inktomi 2002. ja Overture 2003. aastal. 2004
tuli ta välja omaenda otsingumootoriga, milles olid ühendatud
Yahoo!'le kuuluvate rakenduste tehnologiad.
Microsoft lasi MSN Search-i välja 1998. aasta sügisel, kasutades Inktomi
otsingutulemusi. 1999. aasta alguses hakkas leht näitama loetelusid Looksmartist, mis olid kokku segatud tulemustega Inktomist. 2004
alustas Microsoft üleminekut enda otsingutehnoloogiale.
Microsofti
taasmärgistatud otsingumootor Bing avati 1. juunil 2009. aasta
kasutamiseks. 29.
juulil lõpetasid Yahoo! ja Microsoft lepingu, mille kohaselt hakkab
Yahoo! Search toimima Microsoft Bing tehnoloogia baasil.
Kõikide otsingumootorite ajaline järjestus
AJALINE JÄRJESTUS
Aasta
Nimi
Praegune staatus
1993
W3Catalog
Suletud
Aliweb
Suletud
JumpStation
Suletud
1994
WebCrawler
Aktiivne
Go.com
Aktiivne, Yahoo Search
Lycos
Aktiivne
1995
AltaVista
Yahoo! poolt üle võetud
Magellan
Suletud
Excite
Aktiivne
SAPO
Aktiivne
Yahoo!
Aktiivne,
1996
Dogpile
Aktiivne
Inktomi
Yahoo! poolt üle võetud
HotBot
Aktiivne (lycos.com)
Ask Jeeves
Aktiivne (ask.com)
1997
Northern Light
Aktiivne
Яндекс
Aktiivne
1998
Google
Aktiivne
MSN Search
Aktiivne Bingina
1999
AlltheWeb
Suletud (URL ümbersuunatud Yahoo!-le)
GenieKnows
Aktiivne, ümber nimetatud Yellowee.com-ks
Naver
Aktiivne
Teoma
Aktiivne
Vivisimo
Suletud
2000
Baidu
Aktiivne
Exalead
Ülevõetud Dassault Systèmes poolt
2002
Inktomi
Yahoo! poolt üle võetud
2003
Info.com
Aktiivne
2004
Yahoo! Search
Aktiivne
A9.com
Suletud
Sogou
Aktiivne
2005
AOL Search
Aktiivne
Ask.com
Aktiivne
GoodSearch
Aktiivne
SearchMe
Suletud
2006
wikiseek
Aktiivne
Quaero
Aktiivne
Ask.com
Aktiivne
Live Search
Aktiivne Bingina
ChaCha
Aktiivne
Guruji.com
Aktiivne
2007
wikiseek
Suletud
Sproose
Suletud
Wikia Search
Suletud
Blackle.com
Aktiivne
2008
Powerset
Microsofti poolt üle võetud
Picollator
Suletud
Viewzi
Suletud
Boogami
Aktiivne
LeapFish
Suletud
Forestle
Aktiivne
VADLO
Aktiivne
Duck Duck Go
Aktiivne
2009
Bing
Aktiivne
Yebol
Aktiivne
Search2 .net
Aktiivne
Mugurdy
Suletud
Goby
Aktiivne
2010
Yandex
Aktiivne
Cuil
Suletud
Blekko
Aktiivne
Yummly
Aktiivne
Solusee
Aktiivne
2011
Interred
Aktiivne
2013
Aoohe
Aktiivne
Mis on veebiämblik?
Veebiämblik on robotprogramm, mis otsib veebis kindla ja korrapärase meetodidga uusi veebidokumente ja lisab leitud tulemused erinevatesse andmebaasidesse . Oma nimetuse on programm saanud selle järgi, et see ronib veebis ringi, nii nagu ämblik oma võrgul. Paljud otsingumootorite saidid kasutavad veebiämblikke, et tagada uusima info näitamine otsingutulemustes. Kiirete otsingutulemuste saamiseks kasutatakse veebiämblikke, mis teevad külastatud lehtedest koopia, mida saab hiljem töödelda. Ämblikke võib kasutada veebilehtedel automaatseteks hooldustöödeks nagu linkide kontrollimine või HTML-koodi kinnitamine. Lisaks võib neid kasutada ka veebilehtedelt kindla info leidmiseks, näiteks e-mailide kogumine spämmi saatmise eesmärgil.
Tööpõhimõte
Veebiämblikel on alguses nimekiri URL-idest, mida ta peab külastama. Iga kord, kui ta külastab ühte URL-i, tuvastab see kõik lehel olevad hyperlingid ja lisab need oma URL-ide nimekirja. Kõiki linke külastatakse kindlate reeglite alusel ning veebiämbliku käitumine oleneb nende reeglite kooskõlast:
- valiku reegel, mis määrab, milliseid lehti alla laadida
- taaskülastamise reegel, mis määrab, millal kontrollida lehtedes toimunud muudatusi
- viisakuse reegel, mis määrab, kuidas vältida lehtede ülelaadimist
- paralleelsuse reegel, mis määrab, kuidas kooskõlastada ämblike vahelist tööd.
Näiteid
Nimekiri avalikest veebiämblikest:
- Yahoo! Slurp Yahoo Searchi ämblik.
- Bingbot Microsoft Bingi veebiämblik, mis asendas Msnboti.
- FAST Crawler on jagatud ämblik, mida kasutab Fast Search & Transfer .
- Googlebot Google'i ämblik, viite kirjeldus on ämbliku vanemast versioonist, mis oli kirjutadud C++ ja Pythoniga.
- PolyBot on jagatud ämblik kirjutatud C++ ja Pythoniga, mis koosneb "ämbliku haldurist", ühest või rohkemast "tõmbajast" ja ühest või rohkemast "DNSi lahendajast".
- RBSE oli esimene avaldatud veebiämblik. See põhines kahel programmil: esimene programm, "spider" haldas järjekorda suhtelises andmebaasis ja teine programm "mite", oli modifitseeritud www ASCII brauser, mis laadis veebist lehti.
- WebCrawlerit kasutati, et luua esimene veebi alamhulga avalikult kasutatav täis-teksti indeks.
- World Wide Web Worm oli esimene ämblik, mida kasutati lihtsa dokumendi nimede ja URL-ide nimekirja loomiseks.
- WebRACE on Javas teostatud roomav ja salvestav moodul, mida kasutatakse osana üldisemast süsteemist eRACE
Tavalise veebiämbliku kõrge-taseme arhitektuur .
Kasutatud materjalid
Muldre,
H. (1. mai 2013. a.). Omad teadmised ja kogemused.
Otsingumootor.
(1. mai 2013. a.). Allikas: Wikipedia (Eesti): http://et.wikipedia.org/wiki/Otsingumootor
otsingumootor/search
engine.
(1. mai 2013. a.). Allikas: E-teatmik: http://vallaste.ee/index.htm?Type=UserId&otsing=291
spider/ämblik.
(1. mai 2013. a.). Allikas: E-teatmik: http://vallaste.ee/index.htm?Type=UserId&otsing=1200
Web
search engine.
(1. mai 2013. a.). Allikas: Wikipedia (English): http://en.wikipedia.org/wiki/Web_search_engine
Kõik kommentaarid