Olen samaa miettinyt useasti ja muistan jopa nähneeni jonkun kätysen kälin siihen hommaan. Olen kuitenkin pärjännyt diff:illä tähän asti.
Jostain nyyssiryhmästä olen tuollaisen kopioinut ja pikku muuntelulla taipuu kivasti erilaisiin temppuihin.
Se oikeasti vertaa tiedoston sisällön piittaamatta nimestä muuta kuin tuon loppupätkän verran.
# Esimerkiksi tämä
# kaivaa alihakemistoista kaikki mp3:t ja näytää tiedostot, joilla on
# sama md5-summa. "Alkuperäisenä" pidetään aakkosjärjestyksessä
# ensimmäistä mp3-tiedostoa. Jos uskaltaa, niin perään voi lisätä vielä
# pari putkitusta poistamaan automaattisesti kaikki löytyneet
# duplikaatit.
# (Jos joku haluaa saada awkista selvää, muuttujien nimissä t=this_md5,
# l=last_md5, o=orig_filename saattaa auttaa asiaa. Syy lyhennykseen on
# nyytistimeni antama varoitus yli 79 merkin pituisesta rivistä...)
# -- Antti
find . -name '*.mp3' -print0 \
| xargs -0 md5sum \
| sort \
| awk '{t=$1;$1="";if(t==l)print $0" SAMA KUIN"o;else{print $0;l=t;o=$0}}' \
| sort \
| grep " SAMA KUIN "