Alcuni web crawler moderni riescono ad elaborare il linguaggio JavaScript e seguono i collegamenti scritti in questo codice, ma non tutti sono in grado di farlo.
Un web crawler è un programma automatizzato o bot che effettua ricerche sistematicamente all'interno dei siti web e indicizza i contenuti al loro interno. Principalmente utilizzati per indicizzare le pagine dei motori di ricerca, i web crawler vengono usati, tra l'altro, anche per le app di confronto degli acquisti e di coupon e per l'aggregazione di SEO e RSS. I web crawler accedono ai siti tramite Internet e raccolgono informazioni su ciascuna pagina, inclusi titoli, immagini, parole chiave e collegamenti all'interno della pagina. Questi dati vengono utilizzati dai motori di ricerca per creare un indice delle pagine web, consentendo ai motori di restituire agli utenti i risultati di ricerca in modo più rapido e accurato. I web crawler possono essere anche usati per trafugare o ricavare contenuti dai siti web, monitorare i cambiamenti che si verificano sulle pagine web, sottoporre a test i siti web ed effettuare ricerche di dati all'interno dei siti web. I web crawler sono anche noti come web spider perché si muovono sulla rete o World Wide Web.
Come funzionano i web crawler?
I web crawler iniziano a muoversi in una serie di pagine note e a seguire i collegamenti ipertestuali di nuove pagine. Prima di accedere ad un sito, i web crawler esaminano il file robots.txt del sito, che descrive le regole stabilite dal proprietario del sito web relativamente ai bot sulle pagine a cui è possibile accedere e sui collegamenti che è possibile seguire.
Poiché i crawler non possono indicizzare ogni pagina su Internet, seguono determinate regole per dare priorità ad alcune pagine rispetto ad altre. È possibile istruire i crawler a dare più peso alle pagine con più collegamenti esterni ad altre pagine, ai siti con un numero più elevato di visualizzazioni di pagina e ai siti con una migliore reputazione del brand. I motori di ricerca presuppongono che le pagine con un numero elevato di visitatori e collegamenti possano offrire più probabilmente informazioni autorevoli e contenuti di alta qualità agli utenti. Inoltre, i crawler utilizzano algoritmi per valutare il contenuto o la qualità dei collegamenti presenti su una pagina.
Quando i web crawler esplorano i siti web, copiano i metatag di ciascun sito, che forniscono informazioni dei metadati sul sito e le parole chiave corrispondenti. Questi dati aiutano i motori di ricerca a stabilire come verranno visualizzati i risultati di ricerca su una pagina.
In che modo i web crawler influiscono sulla SEO?
L'ottimizzazione dei motori di ricerca o SEO (Search Engine Optimization) è la pratica di rendere un sito web più visibile agli utenti che stanno cercando un certo tipo di contenuti, prodotti o servizi su di esso. I siti non facilmente accessibili vengono visualizzati più in basso nelle pagine dei risultati dei motori di ricerca (SERP). I siti non accessibili non vengono visualizzati nelle pagine dei risultati. Per migliorare la visualizzazione nei motori di ricerca, i team addetti alla SEO eliminano gli errori dei siti web, come titoli di pagine mancanti, contenuti duplicati e collegamenti interrotti che rendono i siti più difficili da visitare e indicizzare.
Quali sono i tipi di web crawler?
Esistono quattro tipi principali di web crawler.
- I web crawler mirati cercano, indicizzano e scaricano i contenuti web relativi ad argomenti specifici. Anziché visitare ogni collegamento ipertestuale presente su una pagina come farebbe un web crawler standard, un web crawler mirato segue solo i collegamenti che ritiene pertinenti.
- I crawler incrementali rivisitano i siti web per aggiornare un indice e gli URL.
- I crawler paralleli eseguono più processi di crawling contemporaneamente per massimizzare la velocità di download.
- I crawler distribuiti utilizzano più crawler per indicizzare contemporaneamente diversi siti.
Quali sono alcuni esempi di web crawler?
La maggior parte dei motori di ricerca utilizza propri web crawler che operano sulla base di specifici algoritmi. Le aziende possono anche implementare propri software per web crawler on-premise o nel cloud. Tra i più comuni crawler, figurano i seguenti:
- Googlebot, il crawler del motore di ricerca di Google
- Bingbot, il crawler del motore di ricerca di Microsoft
- Amazonbot, il web crawler di Amazon
- DuckDuckBot, il crawler del motore di ricerca di DuckDuckGo
- YandexBot, il crawler del motore di ricerca di Yandex
- Baiduspider, il web crawler di Baidu, il motore di ricerca cinese
- Slurp, il web crawler di Yahoo
- Le app di coupon, come Honey
Qual è la differenza tra web crawling e web scraping?
Il web crawling è l'attività che consiste nell'individuare e indicizzare le pagine web. Il web scraping utilizza i bot per estrarre i dati trovati sulle pagine web, spesso senza autorizzazione. I web scraper spesso usano l'intelligenza artificiale per individuare specifici dati su una pagina, copiandoli per poterli usare nel software di analisi. Tra i casi di utilizzo degli web scraper, figurano le società di e-commerce che tengono traccia dei prezzi dei loro concorrenti, gli enti statali che fanno ricerca o le aziende che conducono ricerche di mercato. Gli strumenti di scraping più comuni includono Bright Data, Scrape.do, Diffbot e Scrapy, un sistema collaborativo e open source per il web scraping.
In che modo i web crawler influiscono sulla gestione dei bot?
La gestione dei bot è la pratica di identificazione e gestione del traffico dei bot sui siti web e nelle applicazioni online. Mentre i bot come i web crawler apportano numerosi vantaggi, molti bot sono per loro natura dannosi e, pertanto, vanno bloccati se tentano di accedere a siti web e applicazioni. Al momento di implementare una tecnologia di gestione dei bot, è importante scegliere soluzioni in grado di distinguere in modo attento e accurato tra bot utili e bot dannosi. Le soluzioni che bloccano in modo indiscriminato la produttività possono inavvertitamente bloccare i web crawler, riducendo la possibilità di visualizzare un sito web in alto nei motori di ricerca.
Le aziende spesso preferiscono alcuni web crawler rispetto ad altri, ad esempio, se desiderano essere indicizzati da Googlebot e Bingbot, ma non da altri motori di ricerca meno importanti oppure se desiderano essere indicizzati dai web crawler dei motori di ricerca, ma non da quelli usati dalle app di confronto degli acquisti e di coupon. Alcune soluzioni di gestione dei bot consentono alle aziende di intraprendere varie azioni sui singoli web crawler in base ai propri obiettivi e, pertanto, non accettano tutti i web crawler che vogliono indicizzare il loro sito.
Domande frequenti (FAQ)
I web crawler visitano i siti web regolarmente con una frequenza che dipende da vari fattori, come la velocità di aggiornamento di un sito web e la sua importanza.
Sì, è possibile usare un file robots.txt per inviare ai web crawler istruzioni su quali parti di un sito possono visitare e su quali parti devono ignorare. È anche possibile impostare delle preferenze in alcune soluzioni di gestione dei bot più sofisticate per far agire in modo differente i diversi web crawler, ad esempio, se si desidera far accedere ad un sito alcuni web crawler meno noti solo di notte.
È possibile usare strumenti specifici per motori di ricerca come Google Search Console per verificare se il proprio sito web è stato indicizzato.
I web crawler riescono a leggere i metadati di immagini e video, ma non possono interpretare i loro contenuti complessivamente come testo.
Nella maggior parte dei casi, i web crawler non riescono ad accedere ai contenuti che si trovano in aree protette da credenziali di accesso o da password.
Perché i clienti scelgono Akamai
A sostegno e protezione della vita online c'è sempre Akamai. Le principali aziende al mondo scelgono Akamai per creare, offrire e proteggere le loro experience digitali, aiutando miliardi di persone a vivere, lavorare e giocare ogni giorno. Akamai Connected Cloud, una piattaforma edge e cloud ampiamente distribuita, avvicina le app e le experience agli utenti e allontana le minacce.