Tämmöisen web-sivuston kopioinnin voi tehdä ihan pelkällä wget-komennolla, se osaa parsia ne linkit sieltä html-koodista. Jos kerran kyse on yhdestä web-sivusta, jolla on linkkejä pdf-dokumentteihin, ne saa kopioitua näin:
wget -r -N -A.pdf http://pdf-sivun-url/
Tuo -r parametri tekee rekursiivisen latauksen eli lataa myös kaikki sivut/dokumentit joihin kohdesivulla viitataan. -N parametri hakee vain muuttuneet tiedostot eli kätevä kun haluaa aika ajoin päivittää pdf-tiedostot omalle koneelleen. -A on "accept list" eli tallentaa vain annetun tyyppiset (tarkenne) tiedostot, ei siis tallenna sivuilla mahdollisesti olevia .doc tai .jpg tiedostoja yms.
Tuo yo. lataa myös muilla sivuilla olevat pdf-tiedostot kaikilta sivuilta joille kohdesivulla on linkki. Tätä voi rajata -np ja -l parametreillä. -l parametrilla rajataan rekursion syvyys ja -np estää lataamasta mitään ylemmän tason hakemistoista.
wget -r -N -A.pdf -l 1 http://pdf-sivun-url/
Lataa vain sivun ja sillä olevat linkit. Jos sivulla on linkki toiselle sivulle siellä olevia pdf-tiedostoja ei ladata.
wget -r -N -A.pdf -np http://pdf-sivun-url/
Lataa sivun ja kaikki sen alla olevat sivut.
Asia avautuu varmasti wget man sivua tutkimalla, vaikka se on kyllä ensi vilkaisulla ehkä vähän lannistava pituutensa takia. Mutta parametrien määrä johtuu vain siitä että wget on niin monipuolinen ohjelma web-sivujen latailuun. Toinen näppärä ohjelma "web-automaatioon" on curl. Sillä onnistuu mm. lomakkeiden käyttö.