Muut alueet > Yleistä keskustelua

Hyvä aloitussivu, josta pistää oman hakukone-robotin keräämään dataa?

(1/1)

Jere Sumell:
Mikä olisi hyvä aloituspiste alkaa haravoimaan ja louhimaan verkkosivuja, jos haluaa löytää mahdollisimman ajankohtaisia uutis- ja politiikka-aiheita?  Olisiko hyvä valita jokin suosittu eri uutislähteistä kokoava sivusto, josta pistää botin keräämään dataa verkon syövereistä?

Olen aloittanut uuden projektin, jonka tarkoituksena on saada kehitetyksi yksinkertainen hakukonerobotti Javalla (Webcrawler). Ristisin ja kastoin  projektini nimeksi "Redonioncrawler", ja projektini seurantablogi löytyy osotiteesta https://redonioincrawler.home.blog/

Tarvitsisin jonkun hyvän aloitussivun vaikka luontoaiheisiin, tai päivän uutisiin liittyen, josta pistää sitten valmiin robotin keräämään dataa. Mitään ideoita hyvästä ja hyvän netiketin mukaisesta verkkosivustosta?

Jere Sumell:
Toiseksi haluaisin jonkun toisen Java-asiantuntijan, mielellään akateemisella taustalla, mahdollisesti kiitettävällä taustalla ja kokemuksella toimittajaksi tuohon projektiblogiini, eli aina kun julkaisen uuden Java-luokan projektini repossa, toimittajakaverin rooli olisi tarkastella koodia kriittisesti ja kirjoittaa vastine siihen tuonne blogiin. Kuten huomaatte, olen avannut tuon blogin ilmaisessa Wordpress.com -palvelussa, ja voin antaa toimittaja-oikeudet jollekulle, jos jotakuta kiinnostaa. Kysyn ensin hyvää opiskelukaveriani hommaan, jos hän ei suostu, sitten täältä joku vapaaehtoinen.

Siitä saisi hyvän lisän ansioluetteloon, kun voisi kirjoittaa CV:hen, että on toiminut Java-konsulttina verkkohakukonerobotti-projektissa ja toimittajan kokemusta on kertynyt, kun on kirjoittanut tuloksista kyseisen projektin blogiin. Samalla saisi mahdollisesti suositteluni CV:hen.

Leko:
Lienet jo vilkaissut vertailuaineistoksi
https://www.ampparit.com/

Jere Sumell:
Joo noi toi mullakin kävi mielessä ensimmäisenä, että pitäisikö valita jokin johtava uutisotsikot eri lähteistä keräävä palvelu, esim juuri tuo Ampparit.

Saa nähdä, kun EU-tekijänoikeusdirektiivi muuttui, miten Ampparit ja vastaavat palvelut muuttaa toiminta/ansaintalogikkaansa, kun oli uutisessa, että Ampparit -kaltaiset sivustot ei saisi enää julkaista uutisen otsikkoa nojaten uuteen voimaan astuvan lain mukaan. Sama se on Facebookilla ja muilla edessä.

Jere Sumell:
Tossa Amppreissa on vaan se ikävä puoli, mitä vilkaisin lähdekoodia, että siellä ei ole suoria linkkejä noihin uutislähteisiin, joiden otsikoita ne tarjoaa. Ensimmäinen askel hakukonerobotissani on URL-lähdekoodin nouto koneen välimuistiin. Siitähän julkaisinkin jo tuon Java-luokan. Tällä hetkellä, eli seuraava vaihe on data mining, että saan eroteltua ulosmenevät linkit.

Navigaatio

[0] Viestien etusivu

Siirry pois tekstitilasta