最近の Web クローラーの中には、JavaScript を処理し、それに埋め込まれたリンクを追跡できるものもありますが、すべてのクローラーがそうとは限りません。
Web クローラーは、Web サイトを体系的に検索し、そのコンテンツをインデックス登録する自動化されたプログラムまたはボットです。主に検索エンジン向けにページをインデックス登録するために使用されるほか、クーポンや比較ショッピングアプリ、SEO や RSS アグリゲーションなどにも使用されます。Web クローラーはインターネット経由でサイトにアクセスし、ページ内のタイトル、画像、キーワード、リンクなど、各ページに関する情報を収集します。このデータは検索エンジンによって Web ページのインデックスを作成するために使用され、これによって検索エンジンはより高速で正確な検索結果をユーザーに返すことができるようになります。Web クローラーは、Web サイトからコンテンツをスクレイプまたは取得したり、Web ページ上の変更を監視したり、Web サイトをテストしたり、データを採取したりするためにも使用できます。また、Web クローラーは World Wide Web 上でページをクロールする(這い回る)ことから、Web スパイダーとも呼ばれます。
Web クローラーの仕組み
Web クローラーはまず、既知のページをクロールし、新しいページへのハイパーリンクを追跡します。Web クローラーは、サイトをクロールする前にサイトの robots.txt ファイルを確認します。これは、 ボット がどのページをクロールできるか、どのリンクを追跡できるかについて Web サイト所有者が定めたルールの概要を示すものです。
クローラーはインターネット上のすべてのページをインデックス登録することはできないため、特定のルールに従って一部のページを他のページよりも優先します。クローラーは、他のページへの外部リンクが多いページ、ページ閲覧数が多いサイト、ブランド力が強いサイトを重視するように指定される場合があります。検索エンジンは、訪問者やリンクの多いページではユーザーが探している信頼できる情報や高品質なコンテンツが提供される可能性が高いと想定します。また、クローラーは、ページ上のコンテンツの価値やリンクの品質を評価するアルゴリズムを使用します。
Web クローラーは Web サイトを探索する際に各サイトのメタタグをコピーします。メタタグは、サイトに関するメタデータ情報とそのキーワードを提供するものです。このデータは、検索エンジンが検索結果にページをどのように表示するかを決定するのに役立ちます。
Web クローラーが SEO に及ぼす影響
検索エンジンの最適化とは、サイト上でユーザーが検索しているコンテンツ、製品、またはサービスのタイプに合わせて、Web サイトをより目立つように表示することです。簡単にクロールできないサイトは、検索エンジンの検索結果ページ(SERP)でのランキングが低くなります。まったくクロールできないサイトは、結果ページに表示されません。検索エンジンのランキングを向上させるために、SEO チームは、ページタイトルの欠落、コンテンツの重複、壊れたリンクなど、サイトのクロールやインデックス登録を困難にする Web サイト上のエラーを排除します。
Web クローラーの種類
Web クローラーには、4 つの基本タイプがあります。
- 集中型 Web クローラーは、特定のトピックに関する Web コンテンツの検索、インデックス登録、およびダウンロードを行います。標準的な Web クローラーとしてページ上のすべてのハイパーリンクを探索するのではなく、集中型 Web クローラーは関連性があると認識されたリンクのみを監視します。
- インクリメンタルクローラーは、Web サイトを再訪問してインデックスを更新し、URL を更新します。
- パラレルクローラーは、複数のクローリングプロセスを同時に実行して、ダウンロード速度を最大化します。
- 分散型クローラーは、複数のクローラーを使用して、複数のサイトを同時にインデックス登録します。
Web クローラーの例
ほとんどの検索エンジンは、特定のアルゴリズムに基づいて動作する独自の Web クローラーを使用します。また、企業が独自の Web クローラーソフトウェアをオンプレミスまたはクラウドに展開する場合もあります。最も一般的なクローラーには、次のようなものがあります。
- Googlebot(Google の検索エンジンのクローラー)
- Bingbot(Microsoft の検索エンジンのクローラー)
- Amazonbot(Amazon の Web クローラー)
- DuckDuckBot(検索エンジン DuckDuckGo のクローラー)
- YandexBot(検索エンジン Yandex のクローラー)
- Baiduspider(中国の検索エンジン Baidu の Web クローラー)
- Slurp(Yahoo の Web クローラー)
- クーポンアプリ(Honey など)
Web クローリングと Web スクレイピングの違い
Web クローリングは、Web ページの検索とインデックス登録を行うタスクです。Web スクレイピングは、ボットを使用して Web ページ上のデータを抽出します。多くの場合、これは許可なしで行われます。Web スクレイパーは、一般的に、AI を使用してページ上の特定のデータを検索し、分析ソフトウェアで使用するためにコピーします。Web スクレイパーのユースケースには、E コマース企業による競合他社の価格帯の追跡、政府機関による労働調査、エンタープライズによる市場調査などがあります。一般的な Web スクレイピングツールとしては、Bright Data、 Scrape.do、Diffbot、Scrapy (Web スクレイピング用のオープンソースの共同フレームワーク)などがあげられます。
Web クローラーがボット管理に及ぼす影響
ボット管理とは、Web サイトやオンラインアプリケーションのボットトラフィックを識別して管理する活動です。Web クローラーなどの有益なボットもありますが、多くのボットは悪性であり、悪性ボットによる Web サイトやアプリケーションへのアクセスをブロックする必要があります。ボット管理テクノロジーを実装する際には、良性ボットと悪性ボットを慎重かつ正確に区別できるソリューションを選択することが重要です。生産的なアクティビティを無差別にブロックするソリューションは、Web クローラーを誤ってブロックし、Web サイトの検索エンジンランキングを低下させる可能性があります。
多くの場合、企業には Web クローラーの好みがあります。たとえば、小規模の検索エンジンではなく、Googlebot や Bingbot によってインデックス登録されることを望みます。また、検索エンジンの Web クローラーは受け入れますが、クーポンや比較ショッピングアプリで使用されているクローラーは受け入れない企業もあります。一部のボット管理ソリューションでは、企業が独自の目標に基づいて個々の Web クローラーで異なるアクションを実行できるため、サイトをインデックス登録するすべての Web クローラーを受け入れる必要はありません。
よくある質問(FAQ)
Web クローラーは定期的に Web サイトを訪問します。頻度は、Web サイトの更新頻度や重要度などのさまざまな要因によって異なります。
はい。robots.txt ファイルを使用して、Web クローラーがサイトのどの部分をクロールまたは無視するかを指定できます。また、より高度なボット管理ソリューションでは、たとえばあまり知られていない Web クローラーは夜間にしかサイトにアクセスできないようにするなど、Web クローラーごとに異なるアクションを実行するよう設定できます。
Google Search Console などの検索エンジン固有のツールを使用して、Web サイトがインデックス登録されているかどうかを確認できます。
Web クローラーは、画像や動画のメタデータを読み取ることはできますが、テキストのように包括的に解釈することはできません。
ほとんどの場合、Web クローラーはログインウォールまたはパスワードで保護された領域の向こう側にあるコンテンツにアクセスできません。
Akamai が選ばれる理由
Akamai はオンラインライフの力となり、守っています。世界中のトップ企業が Akamai を選び、安全なデジタル体験を構築して提供することで、毎日、いつでもどこでも、世界中の人々の人生をより豊かにしています。 Akamai Connected Cloudは、超分散型のエッジおよび クラウドプラットフォームです。ユーザーに近いロケーションからアプリや体験を提供し、ユーザーから脅威を遠ざけます。