Kirjoittaja Aihe: Tiedostojen vertaaminen kahden aseman välillä  (Luettu 4019 kertaa)

qwertyy

  • Käyttäjä
  • Viestejä: 5777
    • Profiili
Otsikko kertookin jo aika paljon. Eli miten te vertailette esim. kahden aseman välisiä tiedostoja?
Eli vaikkapa pari tietokonetta ja yksi NAS johon halutaan kaikkien tietokoneiden tiedostot talteen ja en tarkoita nyt varmuuskopiointia, vaan vaikkapa eri tietokoneille siunautuneita mediatiedostoja, vaikkapa musiikkia jotka on tallennettu eri asemilla hiukan erilailla.

AimoE

  • Käyttäjä
  • Viestejä: 2782
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #1 : 04.03.23 - klo:19.18 »
Jos diff ei riitä, niin sitten kdiff3. Tosin en koskaan vertaile kuvia yms. Komentoriviltä käynnistettynä se sylkee turhia ilmoituksia GUI:n komponenteista, mikä on rumaa.

Kumma juttu. Nyt kun vertasin kahta hakemistoa eri kovalevyltä, niin se löysi nimettömiä tiedostoja, joita Nautilus ei näytä, vaikka piilotiedostot näyttääkin. En yhtään tiedä mistä voisi olla kyse.

No, kumminkin. KDiff3 vertaa myös hakemistoja, eikä vaan tiedostoja. Täytyy vaan varoa ettei vahingossa täppää jotain merge-operaatiota tms. väärällä hetkellä.

nm

  • Käyttäjä
  • Viestejä: 16426
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #2 : 05.03.23 - klo:10.03 »
en tarkoita nyt varmuuskopiointia, vaan vaikkapa eri tietokoneille siunautuneita mediatiedostoja, vaikkapa musiikkia jotka on tallennettu eri asemilla hiukan erilailla.

Tuo on huomattavasti vaikeampi ongelma kuin identtisten tiedostojen tunnistaminen tai tekstitiedostojen vertailu. Jos vaikkapa sama kuva tai video on tallennettu eri formaatissa tai eri resoluutiolla, kopioiden tunnistaminen edellyttää sisällön purkamista ja analysointia, ja keskinäistä vertailua jollain sisältöpohjaisella hashilla tai sormenjälkimenetelmällä.

Tässä pari sovellusta, jotka mahdollistavat summittaisen kuva-, ääni-, tai videotiedostojen duplikaattien tunnistamisen:

https://github.com/qarmin/czkawka

https://dupeguru.voltaicideas.net

AimoE

  • Käyttäjä
  • Viestejä: 2782
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #3 : 05.03.23 - klo:10.47 »
Jep, mutta identtisten tiedostojen karsiminen pois joukosta on jo helpotus sinänsä.

qwertyy

  • Käyttäjä
  • Viestejä: 5777
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #4 : 05.03.23 - klo:12.59 »
DupeGurun löysin ja asensinkin jo yhdelle Windows koneelle. Se jostain syystä jäi jumiin, mutta pitänee vielä kokeilla uudelleen pienemmillä tiedostomäärillä. Asiassa päässyt vähän eteenpäin, mutta onpa vain aika haasteellinen kun löytyi niin paljon vanhoja kiintoleyvjä, joissa valokuvia, PDF tiedostoja yms. jotka haluaisin laittaa NAS-asemalle ja sieltä sitten perkkailla pois. Asiaa ei yhtään helpota, että tullut aikoinaan otettua kännykän skannerisovelluksilla artikkeleita talteen, jotka jäänyt sitten muuttamatta esim. PDF muotoon tai edes nimeämättä. Onneksi yksi NAS on ollut useamman vuoden, josta pitäisi löytää suunnilleen tärkeimmät, mutta löytyypä sitä monenlaista juhlakuvaa yms. jotka olisi kyllä todella mukava säilyttää.

Käytän lukuisia tietokoneita ja käyttöjärjestelmiä ja olisi siis nyt tarkoitus muuttaa tätä tiedostokaaosta siten, että tiedot siirtyisi NAS:iin, jossa paremmin järjesteltynä. Tuoreemmat valokuvat synkronoituukin tällä hetkellä tietokoneiden, tablettien ja puhelimen välillä NextCloudin avulla, mutta sepä ei vielä paljoa hyödytä tässä vaiheessa. Tämä on tietysti omaa laiskuutta on olen tajunnut tilanteen ns. leviämisen jo varmaan 10 vuotta sitten, mutta ei ole saanut aikaiseksi tehtyä tätä kunnolla.

Duplikaattien poisto ei ole sinänsä tosiaan mikään ongelma. Se onnistuu aika kivasti. Mutta tällä hetkellä on tosiaan jonkin verran mm. musiikkia jonka ostanut ja tallentanut jonkin laitteen takia hiukan eri bitratella ja näyttää olevan hiukan eri tiedostonimillä. Onneksi tuo musiikin määrä taitaa olla kuitenkin sen verran pieni, että taidan vain kasata kaikki yhteen työkansioon ja sieltä perkata duplikaatit pois ja sitten katsoa bitraten/tiedostokoon mukaan ja nimien. Valokuvien perkkaus on edelleen se todella työläin josta laitoinkin eri ketjuun kyselyä, että miten esim. oikein harrastajakuvaajat hoitaa tiedostosalaattinsa.

Takaisin ongelman ydinkohtiin, niin yksi mikä myös ihmetyttää miten järkevästi tekisi on, että kun monilla asemilla on tiedostoja, niin mitenhän järkevästi varmistaisi sekalaisesta tiedostorakenteesta satunnaisilta kiintolevyiltä yms., että esim. tiedostonimi1 on jo olemassa NAS:lla tallennetuna? Eli tavallaan jonkinlainen freefilesync homma, mutta nuo taitaa kaikki noudattaa tiedostokansiohierarkiaa? Tästä alkaa tulla ongelma jo aika varhaisessa vaiheessa.

Huhhuh. Olisi vain pitänyt tehdä tämä homma jo vuosia sitten, pienenä varoituksena muille.

*Lisäys*
Harkinnassa on vielä kun homma on niin varhaisessa vaiheessa, että pitäisikö vain kylmästi kopioida siirtää jpeg, mp3, pdf jne. muodoissa tiedostot kylmästi NAS:lle bulkki kansioihin per tiedostotyyppi ja alkaa sieltä siirtämään tiedostoja parempaan kansiohierarkiaan duplikaattien poiston jälkeen. Onkohan mitään GUI "preview" sovellusta, jossa voisi avata tuollaisen bulkki listauksen ja sitten käydä niitä läpi ja valita tai tehdä uusia kansioita ja jollain pikanäppäimellä siirtää tiedosto uuteen paikkaan? Jotain vähän midnightcommanderin tapaista, joka kykenee näyttämään tiedoston sisällön.

Pitää ehkä vielä hiukan sulatella lähestymistapaa vielä tässä vaiheessa. Tympäisee huomata jokin selkeästi parempi vaihtoehto kun "rubicon" on ohitettu :)
« Viimeksi muokattu: 05.03.23 - klo:13.12 kirjoittanut qwertyy »

nm

  • Käyttäjä
  • Viestejä: 16426
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #5 : 05.03.23 - klo:13.32 »
Takaisin ongelman ydinkohtiin, niin yksi mikä myös ihmetyttää miten järkevästi tekisi on, että kun monilla asemilla on tiedostoja, niin mitenhän järkevästi varmistaisi sekalaisesta tiedostorakenteesta satunnaisilta kiintolevyiltä yms., että esim. tiedostonimi1 on jo olemassa NAS:lla tallennetuna? Eli tavallaan jonkinlainen freefilesync homma, mutta nuo taitaa kaikki noudattaa tiedostokansiohierarkiaa? Tästä alkaa tulla ongelma jo aika varhaisessa vaiheessa.

Tuo on pitkälti se käyttötapaus, johon fslint, DupeGuru ja Czkawka on kehitetty. Suosittelisin Czkawkaa, jos haussa on graafinen sovellus. Se on mainituista tuorein ja nopein toteutus. Kehittäjän mukaan Fslint saattaa toisaalta tarjota joitain hyödyllisiä ominaisuuksia, joita Czkawkassa ei vielä ole.

qwertyy

  • Käyttäjä
  • Viestejä: 5777
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #6 : 05.03.23 - klo:14.03 »
Sain Czkawka:n asennettua, mutta teen jotain ilmeisesti väärin. Sain lisättyä flatpakiin kyllä verkko-oikeuden ja nyt liitettyä NAS:n kansiot. Kokeilin mielenkiinnosta kopioida NAS:lta yhden pienen valokuvakansion Mintin kuvat kansioon. Nyt minulla on Folder search:ssa SMB kansio, joka on reference täpätty ja oma kotikansioni, mutta tuo näyttää silti vain kotikansion duplikaatit tai ne mitä se epäilee duplikaateiksi? Alkoi epäilyttämään ja kokeilin kopioida saman NAS:n kansion eri paikkaan NAS:lle ja se löytyy nyt siis koneen kotikansiosta ja verkosta kahdesta paikkaa ja näistä ei löydy mitään duplikaatteja? Tuossa on nyt varmaan jotain outoa samban kanssa...

*edit*
Täytyy olla jotain outoa, koska nyt kun kopioin vielä tuon kuvakansion videokansioon lisäksi, niin ohjelma löytää sen kyllä heti, mutta edelleen ei mitään viittausta verkkoaseman sisältöihin. Voisikohan tuo jotenkin liittyä siihen, että verkkojako ei ole avoin, vaan salasanallinen? Luulisi että tuo ei onnistuisi kyllä edes näennäisesti liittää ohjelmaan?
« Viimeksi muokattu: 05.03.23 - klo:14.06 kirjoittanut qwertyy »

qwertyy

  • Käyttäjä
  • Viestejä: 5777
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #7 : 05.03.23 - klo:16.12 »
Czkawka muuten toimii ihan äärimmäisen hyvin. Halusin nähdä miten tuo softa toimii ja kokeilin Windowsilla ja siinä sain verkkojaon toimimaan. Eli laitoin verkkoaseman ja Windowsin käyttäjäkansion kokeiluksi ja vahingossa ratkaisin pari ongelmaa kerralla. Nimittäin yllättäen tuli mukaan myös mainitsemani NextCloudin mahdolliset duplikaatit, vaikka tätä en edes ajatellut. Nyt voin perkata tiedostoja nopeasti ja siirtää tuon NextCloudin tiedostot tähän tiedostonasiin kun olen saanut poistettua duplikaatit. Samoin tuli myös OneDriven duplikaatit näkyviin. Siinä tosin tein turhaa työtä kun kokelin poistaa OneDrivestä tiedostot, mutta client alkoikin lataamaan tiedostoja pilvestä uudelleen. Luulin että ne poistuisi kuten Explorerilla poistettaessa, mutta näin ei ilmeisesti pystykään tekemään. Liekö tiedostojen muokkausta rajoitettu kolmannen osapuolen softille, mutta nyt pystyn kuitenkin näkemään ne.

Samoin koska Czkawka tekee tiedostoista suolat, niin se osaa myös näyttää erilailla nimetyt duplikaatit. Bonuksena tuo tekee pitkälti kuten toivoin, eli kuvien osalta se osaa näyttää myös esikatselut kuvista! Vaikka ensi kokeilu meni metsään, niin löysin tällä jo nyt varmaan useamman gigan duplikaatteja tuolta tiedosto NAS:lta. Merkittävästi enemmän mitä luulin siellä mahdollisesti olevan. Tästä softasta taisi tulla kertaheitolla numero yksi suosikeistani. Ihan ehdoton suositus tälle. Vähintään 9/10

Whig

  • Käyttäjä
  • Viestejä: 356
  • puppu-generaattori
    • Profiili
    • localhost
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #8 : 07.03.23 - klo:11.54 »
en tarkoita nyt varmuuskopiointia, vaan vaikkapa eri tietokoneille siunautuneita mediatiedostoja, vaikkapa musiikkia jotka on tallennettu eri asemilla hiukan erilailla.

Tuo on huomattavasti vaikeampi ongelma kuin identtisten tiedostojen tunnistaminen tai tekstitiedostojen vertailu. Jos vaikkapa sama kuva tai video on tallennettu eri formaatissa tai eri resoluutiolla, kopioiden tunnistaminen edellyttää sisällön purkamista ja analysointia, ja keskinäistä vertailua jollain sisältöpohjaisella hashilla tai sormenjälkimenetelmällä.

Tässä pari sovellusta, jotka mahdollistavat summittaisen kuva-, ääni-, tai videotiedostojen duplikaattien tunnistamisen:

https://github.com/qarmin/czkawka

https://dupeguru.voltaicideas.net

Jos windowsia voi käyttää niin CloneSpy on mielestäni paras softa tuplien etsimiseen: https://clonespy.com
Yksi niistä harvoista softista joita on jäänyt kaipaamaan Windows ajoilta enkä ole löytänyt yhtä hyvää nykyisin käyttämälleni alustalle =(

nm

  • Käyttäjä
  • Viestejä: 16426
    • Profiili
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #9 : 07.03.23 - klo:12.12 »
Jos windowsia voi käyttää niin CloneSpy on mielestäni paras softa tuplien etsimiseen: https://clonespy.com
Yksi niistä harvoista softista joita on jäänyt kaipaamaan Windows ajoilta enkä ole löytänyt yhtä hyvää nykyisin käyttämälleni alustalle =(

Oletko kokeillut Czkawkaa tai Dupegurua, ja mitä puutteita niissä on CloneSpyhin verrattuna?

Whig

  • Käyttäjä
  • Viestejä: 356
  • puppu-generaattori
    • Profiili
    • localhost
Vs: Tiedostojen vertaaminen kahden aseman välillä
« Vastaus #10 : 07.03.23 - klo:12.33 »
Jos windowsia voi käyttää niin CloneSpy on mielestäni paras softa tuplien etsimiseen: https://clonespy.com
Yksi niistä harvoista softista joita on jäänyt kaipaamaan Windows ajoilta enkä ole löytänyt yhtä hyvää nykyisin käyttämälleni alustalle =(

Oletko kokeillut Czkawkaa tai Dupegurua, ja mitä puutteita niissä on CloneSpyhin verrattuna?

Czkawkaa en ole kokeillut mutta Dupegurun ostin ja sitä käytin ennen CloneSpy:n löytämistä.

En tarkalleen muista miksi silloin vaihdoin mutta CloneSpy:ssä on ainakin viehättänyt mahdollisuus tehdä eri spooleja useistakin eri hakemistoista ja sitten vertailla näitä spooleja ja kertoa ohjelmalle, että halutaan poistaa tiedostoja vain tietysti spoolista. Nykyisin tämä ominaisuus (tai ainakin vähän sinnepäin) on tullut moniin muihinkin softiin.