マルチスレッドのリンクチェッカー

新しく得た知識を使って、マルチスレッドのリンクチェッカーを作成してみましょう。これは Web ページから開始し、そのページ上のリンクが有効であることを確認できるようにする必要があります。同じドメイン内の他のページも再帰的に確認し、すべてのページの検証が完了するまでこれを続ける必要があります。

これには、reqwest のような HTTP クライアントが必要です。また、リンクを見つける方法も必要であり、scraper を使えます。最後に、エラーを処理するための手段も必要なので、thiserror を使用します。

新しい Cargo プロジェクトを作成し、次のように reqwest を依存関係として追加します。

cargo new link-checker
cd link-checker
cargo add --features blocking reqwest
cargo add scraper
cargo add thiserror

cargo adderror: no such subcommand で失敗する場合は、Cargo.toml ファイルを手動で編集してください。以下に示す依存関係を追加します。

cargo add の呼び出しにより、Cargo.toml ファイルは次のように更新されます。

[package]
name = "link-checker"
version = "0.1.0"
edition = "2024"
publish = false

[dependencies]
reqwest = { version = "0.13.1", features = ["blocking"] }
scraper = "0.25.0"
thiserror = "2.0.18"

これで開始ページをダウンロードできます。https://www.google.org/ のような小規模なサイトで試してみてください。

src/main.rs ファイルは、次のようになります。

// Copyright 2024 Google LLC
// SPDX-License-Identifier: Apache-2.0

use reqwest::Url;
use reqwest::blocking::Client;
use scraper::{Html, Selector};
use thiserror::Error;

#[derive(Error, Debug)]
enum Error {
    #[error("request error: {0}")]
    ReqwestError(#[from] reqwest::Error),
    #[error("bad http response: {0}")]
    BadResponse(String),
}

#[derive(Debug)]
struct CrawlCommand {
    url: Url,
    extract_links: bool,
}

fn visit_page(client: &Client, command: &CrawlCommand) -> Result<Vec<Url>, Error> {
    println!("Checking {:#}", command.url);
    let response = client.get(command.url.clone()).send()?;
    if !response.status().is_success() {
        return Err(Error::BadResponse(response.status().to_string()));
    }

    let mut link_urls = Vec::new();
    if !command.extract_links {
        return Ok(link_urls);
    }

    let base_url = response.url().clone();
    let body_text = response.text()?;
    let document = Html::parse_document(&body_text);

    let selector = Selector::parse("a").unwrap();
    let href_values = document
        .select(&selector)
        .filter_map(|element| element.value().attr("href"));
    for href in href_values {
        match base_url.join(href) {
            Ok(link_url) => {
                link_urls.push(link_url);
            }
            Err(err) => {
                println!("On {base_url:#}: ignored unparsable {href:?}: {err}");
            }
        }
    }
    Ok(link_urls)
}

fn main() {
    let client = Client::new();
    let start_url = Url::parse("https://www.google.org").unwrap();
    let crawl_command = CrawlCommand{ url: start_url, extract_links: true };
    match visit_page(&client, &crawl_command) {
        Ok(links) => println!("Links: {links:#?}"),
        Err(err) => println!("Could not extract links: {err:#}"),
    }
}

次のコマンドで src/main.rs のコードを実行します。

cargo run

課題

  • スレッドを使ってリンクを並列に確認します。確認対象の URL をチャネルに送り、いくつかのスレッドで URL を並列に確認させてください。
  • これを拡張して、www.google.org ドメイン上のすべてのページから再帰的にリンクを抽出してください。サイトにブロックされないよう、100 ページ程度の上限を設けてください。
  • これは複雑な演習であり、学生が他の演習よりも大きなプロジェクトに取り組む機会を得ることを意図しています。この演習の成功条件は、何らかの「現実的な」問題で行き詰まり、他の学生や講師の支援を受けながらそれを乗り越えることです。