Ubuntu Suomen keskustelualueet
Ubuntun käyttö => Ohjelmointi, palvelimet ja muu edistyneempi käyttö => Aiheen aloitti: Uti - 14.11.14 - klo:08.38
-
Hei!
Olisi tarvista kopsata talteen jälkikäsittelyä (tutkimustarkoitusta) varten phpBB-foorumille kirjoiteltu sisältö. Tietokannan koko on vain n. 150 MB, ei kuvia, ei liitetiedostoja - pelkkää tekstiä. Onko joku suorittanut moista harjoitusta eli saisiko tekstit vaikka aihealueittain ja tekstiketjuittain imaistua lankoja pitkin pötköksi, mistä voisi pätkiä keskustelut aiheittain dokumenteiksi ja kaivella niitä vaikka LibreOfficella.
Tällä tavalla säilyisi myös anonymiteetti teksteissä, kun kirjoittajina näkyisi vain nimimerkkejä.
-
En ole tuollaista tehnyt mutta periaatteessa pystyt tiputtamaan vaikka koko foorumin käyttäjälle näkyvän sisällön "wget" tai "curl" ohjelmilla. Vai onko sinulla pääsyä muulla tavoin tuolle koneelle ?
-
Kiitos...
Katsonpa, voisiko noilla apuvälineillä saada toivottua tekstipötköä aikaan. Haarukoin asiaa siksi, että kun tuo softa ja sisältö on "vuokra-alustalla", niin en ainakaan haluaisi maksaa ylimääräistä, jos vaikka pyytäisin tekemään tempun "foorumin sisältö tekstiksi", mistä voisi pilkkoa sen aihealueittain.
... Niin ja ei suoraan muuta pääsyä kuin ylläpitäjän oikeudet foorumin käyttöön.
Lisäys: Katsoin jo tuota wgetiä ja näyttää, että ei onnistu, kun ei ole tietoa, miten ja missä se foorumin tieto siellä palvelimella makaa.
-
Ei kokemusta phpBB:stä mutta vilahti sana 'tietokanta'.
Siinä tapauksessa voisi olla helppo juttu:
Sopiva selecti ja tulostus tekstitiedostoon josta sitten jatkojalostus mieleisilläsi työkaluilla.
Ja esimerkiksi MySQL:n dumppi on ihan suoraa tekstimassaa, joten pyydät adminilta sen dumpin jonset muuta jaksa..
-
Lisäys: Katsoin jo tuota wgetiä ja näyttää, että ei onnistu, kun ei ole tietoa, miten ja missä se foorumin tieto siellä palvelimella makaa.
Siis tuo wget lataa samoilla linkeillä niitä webbisivuja tiedostoon koneellesi kuin mitä webbiselaimessakin käytät. Jos löydät sen webbiselaimella niin voi sen tiputtaakin wget: llä tiedostoon. Se datan "oikea" sijainti ei tietty näy ulospäin kun webbipalvelin mättää niitä sivuja ulos. Joskus voi esiintyä ongelma että webbipalvelin ei halua antaa tietoa ulos kun sitä hakee wget: llä eikä webbiselaimella mutta tuohonkin on helppo lääke: wget osaa esittää mitä webbiselainta hyvänsä kun antaa lisämäärityksen.
-
Hei!
Lötyipä varsin mainio softa, millä sai koko phpBB-foorumin napattua toimivana kokonaisuutena talteen kotikoneeseen, mikä oli vielä parempaa kuin tekstiksi kopsaaminen. Tuo softa on WebHTTrack, josta kerrotaan mm. näin:
Httrack on vapaa offline selain GNU lisenssillä. Se mahdollistaa sivujen automaattisen rekursiivisen latauksen paikalliseen tietokoneeseen. Oletuksena httrack järjestää sivut hakemistoihin linkkirakenteen mukaan. Sivuja voi selata tavallisella selaimella offline tilassa kovalevyltä.