Espert Semalt Islamabad - Dak li Trid Tkun Taf Dwar Web Crawler

Trakk tal- magna tat-tiftix hija applikazzjoni, skript jew programm awtomatizzat li jmur fuq il-World Wide Web b'mod ipprogrammat biex jipprovdi informazzjoni aġġornata għal magna ta 'riċerka partikolari. Qatt ħsibt għalfejn ikollok settijiet ta 'riżultati differenti kull darba li tittajpja l-istess kliem ewlieni fuq Bing jew Google? Huwa minħabba li l-paġni web qed jiġu mtellgħa kull minuta. U hekk kif ikunu qed jittellgħu web crawlers imexxu 'l fuq mill-paġni tal-web il-ġodda.

Michael Brown, espert ewlieni minn Semalt , jirrakkonta li web crawlers, magħrufa wkoll bħala indexers awtomatiċi u brimb tal-web, jaħdmu fuq algoritmi differenti għal magni tat-tiftix differenti. Il-proċess tat-tkaxkir tal-web jibda bl-identifikazzjoni ta 'URLs ġodda li għandhom jiġu miżjura jew minħabba li għadhom kemm tittellgħu jew minħabba li wħud mill-paġni tal-web tagħhom għandhom kontenut ġdid. Dawn l-URLs identifikati huma magħrufa bħala żrieragħ fit-terminu tal-magna tat-tiftix.

Dawn l-URLs eventwalment jiġu miżjura u miżjura mill-ġdid skont kemm ta 'spiss jittella' kontenut ġdid għalihom u l-politiki li jiggwidaw il-brimb. Matul iż-żjara, il-hyperlinks kollha fuq kull waħda mill-paġni tal-web huma identifikati u miżjuda mal-lista. F'dan il-punt, huwa importanti li tiddikjara f'termini ċari li magni tat-tiftix differenti jużaw algoritmi u politiki differenti. Din hija r-raġuni għaliex se jkun hemm differenzi mir-riżultati tal-Google u tar-riżultati ta 'Bing għall-istess kliem ewlieni, minkejja li se jkun hemm ħafna xebh ukoll.

Web crawlers jagħmlu impjiegi tremendi u jżommu magni tat-tiftix aġġornati. Fil-fatt, l-impjieg tagħhom huwa diffiċli ħafna minħabba tliet raġunijiet hawn taħt.

1. Il-volum ta 'paġni tal-web fuq l-internet f'kull ħin partikolari. Int taf li hemm diversi miljuni ta 'siti fuq il-web u aktar qed jiġu mnedija kuljum. Iktar ma jkun il-volum tal-websajt fuq ix-xibka, iktar ikun diffiċli biex it-tkaxkir ikun aġġornat.

2. Ir-ritmu li bih jiġu mnedija l-websajts. Għandek xi idea kemm websajts ġodda jiġu mnedija kuljum?

3. Il-frekwenza li fiha l-kontenut jinbidel anke fuq websajts eżistenti u ż-żieda ta 'paġni dinamiċi.

Dawn huma t-tliet kwistjonijiet li jagħmluha diffiċli għal brimb tal-web biex tkun aġġornat. Minflok ma jitkaxkru websajts fuq il-bażi tal-ewwel min jiġi l-ewwel notifikat, ħafna brimb tal-web jipprijoritizza paġni tal-web u hyperlinks. Il-prijoritizzazzjoni hija bbażata fuq biss 4 politiki ġenerali tat-tkaxkir tal-magna tat-tiftix.

1. Il-politika tal-għażla tintuża biex tagħżel liema paġni jitniżżlu għall-ewwel tkaxkir.

2. It-tip ta ’politika ta’ żjara mill-ġdid jintuża biex jiddetermina meta u kemm-il darba l-paġni tal-web jiġu riveduti għal bidliet possibbli.

3. Il-politika ta 'parallelizzazzjoni tintuża biex tikkoordina kif it-tkaxkir huma mqassma għall-kopertura rapida taż-żrieragħ kollha.

4. Il-politika ta 'polza tintuża biex tiddetermina kif l-URLs jitkaxkru biex tevita tagħbija żejda ta' websajts.

Għal kopertura mgħaġġla u preċiża ta 'żrieragħ, it-tkaxkir għandu jkollu teknika ta' tkaxkir kbira li tippermetti prijoritizzazzjoni u restrizzjoni tal-paġni tal-web, u għandhom ukoll ikollhom arkitettura ottimizzata ħafna. Dawn it-tnejn se jiffaċilitawhom li jitkaxkru u jniżżlu mijiet ta 'miljuni ta' paġni tal-web fi ftit ġimgħat oħra.

F'sitwazzjoni ideali, kull paġna web tinġibed mill-World Wide Web u tittieħed permezz ta 'downloader b'ħafna kamin u wara, il-paġni tal-web jew l-URLs huma mqiegħda fil-kju qabel ma jgħadduhom minn Scheduler iddedikat għall-prijorità. L-URLs prijoritizzati huma meħuda mill-ġdid minn downloader b'ħafna kamin sabiex il-metadata u t-test tagħhom jinħażnu għal crawling xieraq.

Bħalissa, hemm diversi brimb tal-magna tat-tiftix jew tkaxkir. Dak użat minn Google huwa l-Google Crawler. Mingħajr brimb tal-web, il-paġni tar-riżultati tal-magna tat-tiftix jew jirritornaw żero riżultati jew kontenut li ma għadux għaddej billi l-paġni tal-web il-ġodda qatt ma jiġu elenkati Fil-fatt, mhux se jkun hemm xi ħaġa bħal riċerka online.