Eli konsolissa: Miten vertailen txt-tiedoston rivejä keskenään, että onko siellä samoja rivejä jne.
Siis vertailet yhden txt-tiedoston rivejä keskenään vai kahden txt-tiedoston rivejä? Jos kyse on ensinmainitusta, suositellen
man uniq ja
man sort. Tekstitiedostojen käsittelyhän on unixien ominta aluetta... ystäviäsi ovat uniq, sort, grep, ptx ja muut vinkeät komennot putkilla toisiinsa yhdistettyinä.
Tämä on Wikipediasta:
uniq is a Unix utility which, when fed a text file, outputs the file with adjacent identical lines collapsed to one. It is a kind of filter program. Typically it is used after sort. It can also output only the duplicate lines (with the -d option), or add the number of occurrences of each line (with the -c option).
An example: To see the list of lines in a file, sorted by the number of times each occurs:
sort file | uniq -c | sort -n
Tässä käytännön kokeilua:
sirppi% cat teksti.txt
rivi yksi
rivi yksi
rivi kaksi
kaksi rivi
kolme rivä
sana siellä
toinen täällä
sana siellä
rivi kaksi
sirppi%
sirppi% sort teksti.txt |uniq -c |sort -n
1
1 kaksi rivi
1 kolme rivä
1 toinen täällä
2 rivi kaksi
2 rivi yksi
2 sana siellä
sirppi%
Valinnalla -d näytetään vain kaksi kertaa esiintyvät rivit:
sirppi% sort teksti.txt | uniq -d
rivi kaksi
rivi yksi
sana siellä
sirppi%
Lisätietoja:
[1]
Egrep for linguists (johdatus luonnollista kieltä olevien tekstien analyysiin unix-työkaluilla).
[2]
Remove duplicate lines[3]
Unix uniq command[4]
Gnu coreutils manual (tärkeää luettavaa!)