Kirjoittaja Aihe: Hyvä aloitussivu, josta pistää oman hakukone-robotin keräämään dataa?  (Luettu 2381 kertaa)

Jere Sumell

  • Käyttäjä
  • Viestejä: 742
  • Talous, Hallinto ja Markkinointi (AMK, 2017),B.B.A
    • Profiili
    • Tietokone-blogi
Mikä olisi hyvä aloituspiste alkaa haravoimaan ja louhimaan verkkosivuja, jos haluaa löytää mahdollisimman ajankohtaisia uutis- ja politiikka-aiheita?  Olisiko hyvä valita jokin suosittu eri uutislähteistä kokoava sivusto, josta pistää botin keräämään dataa verkon syövereistä?

Olen aloittanut uuden projektin, jonka tarkoituksena on saada kehitetyksi yksinkertainen hakukonerobotti Javalla (Webcrawler). Ristisin ja kastoin  projektini nimeksi "Redonioncrawler", ja projektini seurantablogi löytyy osotiteesta https://redonioincrawler.home.blog/

Tarvitsisin jonkun hyvän aloitussivun vaikka luontoaiheisiin, tai päivän uutisiin liittyen, josta pistää sitten valmiin robotin keräämään dataa. Mitään ideoita hyvästä ja hyvän netiketin mukaisesta verkkosivustosta?
Free Internet and  people for humans all over the globe!

(Profiilikuvassa oma valokuvani GIMPissä editoituna Disney Classic-väripaletin väreihin ja muunnettuna bittikartta-tiedostosta vektorigrafiikaksi.)

Jere Sumell

  • Käyttäjä
  • Viestejä: 742
  • Talous, Hallinto ja Markkinointi (AMK, 2017),B.B.A
    • Profiili
    • Tietokone-blogi
Toiseksi haluaisin jonkun toisen Java-asiantuntijan, mielellään akateemisella taustalla, mahdollisesti kiitettävällä taustalla ja kokemuksella toimittajaksi tuohon projektiblogiini, eli aina kun julkaisen uuden Java-luokan projektini repossa, toimittajakaverin rooli olisi tarkastella koodia kriittisesti ja kirjoittaa vastine siihen tuonne blogiin. Kuten huomaatte, olen avannut tuon blogin ilmaisessa Wordpress.com -palvelussa, ja voin antaa toimittaja-oikeudet jollekulle, jos jotakuta kiinnostaa. Kysyn ensin hyvää opiskelukaveriani hommaan, jos hän ei suostu, sitten täältä joku vapaaehtoinen.

Siitä saisi hyvän lisän ansioluetteloon, kun voisi kirjoittaa CV:hen, että on toiminut Java-konsulttina verkkohakukonerobotti-projektissa ja toimittajan kokemusta on kertynyt, kun on kirjoittanut tuloksista kyseisen projektin blogiin. Samalla saisi mahdollisesti suositteluni CV:hen.
Free Internet and  people for humans all over the globe!

(Profiilikuvassa oma valokuvani GIMPissä editoituna Disney Classic-väripaletin väreihin ja muunnettuna bittikartta-tiedostosta vektorigrafiikaksi.)

Leko

  • Käyttäjä
  • Viestejä: 336
    • Profiili
    • taistop.kapsi.fi
Lienet jo vilkaissut vertailuaineistoksi
https://www.ampparit.com/

Jere Sumell

  • Käyttäjä
  • Viestejä: 742
  • Talous, Hallinto ja Markkinointi (AMK, 2017),B.B.A
    • Profiili
    • Tietokone-blogi
Joo noi toi mullakin kävi mielessä ensimmäisenä, että pitäisikö valita jokin johtava uutisotsikot eri lähteistä keräävä palvelu, esim juuri tuo Ampparit.

Saa nähdä, kun EU-tekijänoikeusdirektiivi muuttui, miten Ampparit ja vastaavat palvelut muuttaa toiminta/ansaintalogikkaansa, kun oli uutisessa, että Ampparit -kaltaiset sivustot ei saisi enää julkaista uutisen otsikkoa nojaten uuteen voimaan astuvan lain mukaan. Sama se on Facebookilla ja muilla edessä.
Free Internet and  people for humans all over the globe!

(Profiilikuvassa oma valokuvani GIMPissä editoituna Disney Classic-väripaletin väreihin ja muunnettuna bittikartta-tiedostosta vektorigrafiikaksi.)

Jere Sumell

  • Käyttäjä
  • Viestejä: 742
  • Talous, Hallinto ja Markkinointi (AMK, 2017),B.B.A
    • Profiili
    • Tietokone-blogi
Tossa Amppreissa on vaan se ikävä puoli, mitä vilkaisin lähdekoodia, että siellä ei ole suoria linkkejä noihin uutislähteisiin, joiden otsikoita ne tarjoaa. Ensimmäinen askel hakukonerobotissani on URL-lähdekoodin nouto koneen välimuistiin. Siitähän julkaisinkin jo tuon Java-luokan. Tällä hetkellä, eli seuraava vaihe on data mining, että saan eroteltua ulosmenevät linkit.
Free Internet and  people for humans all over the globe!

(Profiilikuvassa oma valokuvani GIMPissä editoituna Disney Classic-väripaletin väreihin ja muunnettuna bittikartta-tiedostosta vektorigrafiikaksi.)