Kirjoittaja Aihe: phpBB-foorumin sisältö talteen tekstiksi kokemuksia? [RATKAISTU]  (Luettu 2854 kertaa)

Uti

  • Käyttäjä
  • Viestejä: 123
    • Profiili
Hei!

Olisi tarvista kopsata talteen jälkikäsittelyä (tutkimustarkoitusta) varten phpBB-foorumille kirjoiteltu sisältö. Tietokannan koko on vain n. 150 MB, ei kuvia, ei liitetiedostoja - pelkkää tekstiä. Onko joku suorittanut moista harjoitusta eli saisiko tekstit vaikka aihealueittain ja tekstiketjuittain imaistua lankoja pitkin pötköksi, mistä voisi pätkiä keskustelut aiheittain dokumenteiksi ja kaivella niitä vaikka LibreOfficella.

Tällä tavalla säilyisi myös anonymiteetti teksteissä, kun kirjoittajina näkyisi vain nimimerkkejä.
« Viimeksi muokattu: 14.12.14 - klo:19.25 kirjoittanut Uti »
Uti

ajaaskel

  • Palvelimen ylläpitäjä
  • Käyttäjä
  • Viestejä: 3401
    • Profiili
Vs: phpBB-foorumin sisältö talteen tekstiksi kokemuksia?
« Vastaus #1 : 14.11.14 - klo:23.51 »
En ole tuollaista tehnyt mutta periaatteessa pystyt tiputtamaan vaikka koko foorumin käyttäjälle näkyvän sisällön "wget" tai "curl" ohjelmilla.  Vai onko sinulla pääsyä muulla tavoin tuolle koneelle ?
Autamme ilolla ja ilmaiseksi omalla ajallamme.  Ethän vaadi, uhoa tai isottele näin saamasi palvelun johdosta.

Uti

  • Käyttäjä
  • Viestejä: 123
    • Profiili
Vs: phpBB-foorumin sisältö talteen tekstiksi kokemuksia?
« Vastaus #2 : 15.11.14 - klo:07.48 »
Kiitos...

Katsonpa, voisiko noilla apuvälineillä saada toivottua tekstipötköä aikaan. Haarukoin asiaa siksi, että kun tuo softa ja sisältö on "vuokra-alustalla", niin en ainakaan haluaisi maksaa ylimääräistä, jos vaikka pyytäisin tekemään tempun "foorumin sisältö tekstiksi", mistä voisi pilkkoa sen aihealueittain.

... Niin ja ei suoraan muuta pääsyä kuin ylläpitäjän oikeudet foorumin käyttöön.

Lisäys: Katsoin jo tuota wgetiä ja näyttää, että ei onnistu, kun ei ole tietoa, miten ja missä se foorumin tieto siellä palvelimella makaa.
« Viimeksi muokattu: 15.11.14 - klo:08.03 kirjoittanut Uti »
Uti

jekku

  • Käyttäjä
  • Viestejä: 2624
    • Profiili
Vs: phpBB-foorumin sisältö talteen tekstiksi kokemuksia?
« Vastaus #3 : 15.11.14 - klo:11.43 »
Ei kokemusta phpBB:stä mutta vilahti sana 'tietokanta'.

Siinä tapauksessa voisi olla helppo juttu:
Sopiva selecti ja tulostus tekstitiedostoon josta sitten jatkojalostus mieleisilläsi työkaluilla.

Ja esimerkiksi MySQL:n dumppi on ihan suoraa tekstimassaa, joten pyydät adminilta sen dumpin jonset muuta jaksa..


ajaaskel

  • Palvelimen ylläpitäjä
  • Käyttäjä
  • Viestejä: 3401
    • Profiili
Vs: phpBB-foorumin sisältö talteen tekstiksi kokemuksia?
« Vastaus #4 : 15.11.14 - klo:16.18 »
Lainaus
Lisäys: Katsoin jo tuota wgetiä ja näyttää, että ei onnistu, kun ei ole tietoa, miten ja missä se foorumin tieto siellä palvelimella makaa.

Siis tuo wget lataa samoilla linkeillä niitä webbisivuja tiedostoon koneellesi kuin mitä webbiselaimessakin käytät. Jos löydät sen webbiselaimella niin voi sen tiputtaakin wget: llä tiedostoon. Se datan "oikea" sijainti ei tietty näy ulospäin kun webbipalvelin mättää niitä sivuja ulos.  Joskus voi esiintyä ongelma että webbipalvelin ei halua antaa tietoa ulos kun sitä hakee wget: llä eikä webbiselaimella mutta tuohonkin on helppo lääke:  wget osaa esittää mitä webbiselainta hyvänsä kun antaa lisämäärityksen.

   
Autamme ilolla ja ilmaiseksi omalla ajallamme.  Ethän vaadi, uhoa tai isottele näin saamasi palvelun johdosta.

Uti

  • Käyttäjä
  • Viestejä: 123
    • Profiili
Vs: phpBB-foorumin sisältö talteen tekstiksi kokemuksia?
« Vastaus #5 : 14.12.14 - klo:19.24 »
Hei!

Lötyipä varsin mainio softa, millä sai koko phpBB-foorumin napattua toimivana kokonaisuutena talteen kotikoneeseen, mikä oli vielä parempaa kuin tekstiksi kopsaaminen. Tuo softa on WebHTTrack, josta kerrotaan mm. näin:

Lainaus
Httrack on vapaa offline selain GNU lisenssillä. Se mahdollistaa sivujen automaattisen rekursiivisen latauksen paikalliseen tietokoneeseen. Oletuksena httrack järjestää sivut hakemistoihin linkkirakenteen mukaan. Sivuja voi selata tavallisella selaimella offline tilassa kovalevyltä.
« Viimeksi muokattu: 14.12.14 - klo:19.28 kirjoittanut Uti »
Uti