Tecniche di web scraping

Utile per collezionare e catalogare informazioni dal web in maniera automatica, trova applicazione in diversi settori

mettiti alla prova con il quiz di mr. Plus su Fogli Google

Miliardi di foto. Decine di milioni di video. Post su blog e quotidiani online praticamente impossibili da quantificare, così come aggiornamenti di status su Facebook, cinguettii su Twitter e immagini su Instagram. Ogni giorno il web si popola di nuovi contenuti, dati e informazioni di ogni genere creati dai miliardi di utenti che quotidianamente si connettono alla Rete dai quattro angoli della Terra.

Dati di grande importanza per tutte quelle società – come Google e Facebook, tanto per fare due nomi – interessate a vario titolo al mondo della pubblicità online. Grazie agli user generated content (ma non solo) queste società sono in grado di studiare le abitudini degli internauti e proporre inserzioni pubblicitarie personalizzate (la cosiddetta pubblicità tracciante) per catturare l'attenzione di possibili utenti.

Web scraping

Queste informazioni, però, possono interessare un po' tutte le aziende presenti online. Dai post online e dalle pubblicazioni su blog e quotidiani, infatti, è possibile desumere quale sia l'opinione del pubblico e valutare la web reputation di aziende e singoli cittadini (come politici, ad esempio). Tutto ciò è reso possibile dal web scraping, attività che consente di "scandagliare" l'intera Rete alla ricerca di informazioni da piattaforme blogging, reti sociali e molto altro ancora.

Fastweb Mobile Full

10,95€/mese

Internet 200 GB e Minuti illimitati

Spedizione SIM GRATIS

scopri

Che cos'è il web scraping

Con il termine di web scraping si indicano diverse metodologie che consentono di estrarre e collezionare dati e informazioni da Internet. Generalmente, questa azione è compiuta attraverso software (bot) che simulano la navigazione nel web compiuta da utenti in carne ed ossa andando a "prelevare" determinate informazioni da differenti portali web. Gli scopi, come già detto, possono essere molteplici: dal monitoraggio dell'andamento di una promozione online alla ricerca di dati e informazioni sensibili da rivendere ad altri utenti.

Web harvesting

Il web scraping (detto anche web data extraction, screen scraping o web harvesting) è, di fatto, una forma di data mining, che consente di entrare in possesso di dati non necessariamente di pubblico dominio (o non immediatamente accessibili). Per questo motivo il web harvesting non è sempre visto di buon occhio: alcuni gestori impediscono agli utenti di salvare pagine del loro portale, ma vedo aggirata questa loro misura grazie alla web data extraction.

Come funziona il web scraping

Per ottenere dati dalla Rete e dai portali web possono essere messe in atto diverse tattiche. Tutte, però, sono caratterizzate dall'utilizzo di API che consentono di accedere in rapida sequenza alle pagine web ed estrarne i dati richiesti. Sfruttando bot e altri sistemi software automatizzati si simula la navigazione online di internauti umani e si richiede l'accesso a risorse web esattamente come accade nel caso di un normale web browser. Il server risponderà inviando tutte le informazioni richieste, che potranno essere collezionate all'interno di grandi database e analizzate e catalogate come fossero big data.

Web data extraction

Tecniche di web scraping

Per ottenere i dati dal web e utilizzarli per i propri scopi si possono mettere in atto diverse strategie, a seconda dei mezzi e delle risorse a disposizione. Si va da quelle ad hoc, che richiedo un intervento dell'uomo per la selezione dei "materiali", a quelle completamente automatizzate, che fanno ricorso al machine learning per sgravare l'utente umano di qualunque compito.

Copia e incolla manuale. A volte nemmeno il miglior software o la miglior tecnica di web scraping può rimpiazzare l'esame dell'occhio umano e il copia e incolla manuale. A volte, inoltre, questa è l'unica soluzione possibile, dal momento che alcuni portali web impediscono la ricerca automatica di dati e informazioni
Parser HTML. Molti siti web sono basati su pagine generate automaticamente basandosi su dati e informazioni archiviate all'interno di grandi database. In casi come questi, le informazioni sono organizzate all'interno di pagine o template in modo da poter essere ritrovate con maggior facilità. Grazie a software ad hoc chiamati wrapper è possibile estrarre i dati della "stessa natura" andando a individuare quali siano i template e sfruttandoli per il web data extraction

Web scraping

Web scraper. Con il passare degli anni sono stati realizzati diversi software e tool in grado di riconoscere automaticamente la struttura della pagina web e andare a "pescare" le informazioni richieste senza che sia necessario alcun intervento umano
Visione computerizzata. Sfruttando il machine learning, si stanno sviluppando tecniche di web harvesting che "vedono" e analizzano pagine web seguendo gli stessi pattern solitamente utilizzati da un utente in carne e ossa. In questo modo si riduce di molto il lavoro richiesto ai software di web scraping e si ottengono informazioni più pertinenti

A cura di Cultur-e

#ComeFarePer

#Social

Addestramento IA non consentito: É assolutamente vietato l’utilizzo del contenuto di questa pubblicazione, in qualsiasi forma o modalità, per addestrare sistemi e piattaforme di intelligenza artificiale generativa. I contenuti sono coperti da copyright.

Fda

L'IA nel mondo del lavoro

L'IA nel mondo del lavoro

Impatti, sfide e opportunità

Iscriviti al corso gratuito

LinkedIn X Facebook WhatsApp Email

I fogli metallici super sottili per l'elettronica del futuro

Questi fogli metallici ultra sottili si distinguono per la loro stabilità a contatto con l’aria, le loro grandi dimensioni e la loro conducibilità elettrica

HOW-TO

Digital Magazine

Consigli per far durare lo smartphone a lungo

Dalla pulizia dello smartphone e la cura dei suoi componenti alla manutenzione della batteria, passando per gli aggiornamenti e altri consigli di sicurezza

Digital Magazine

Sull'App IO arriva il servizio di notifiche SEND, come attivarlo

L’App IO, utilizzata dai cittadini per accedere a servizi e comunicazioni della Pubblica Amministrazione, è stata aggiornata: ora si può usare SEND, cos’è

Scopri i corsi gratuiti della Fastweb Digital Academy

A. I. copywriting – Come usare l’intelligenza artificiale per creare contenuti

L’intelligenza artificiale sta facendo passi da gigante in tutti i campi: dalla gestione e interpretazione dei big data ai chatbot e virtual…

AI nel processo creativo del designer

AI nel processo creativo del designer offre una panoramica sull’applicazione dell’intelligenza artificiale nel campo del design. Questo video on…

AI per le moodboard: identità e colore

AI per le moodboard: identità e colore ci guida alla scoperta di come l’intelligenza artificiale possa diventare un prezioso alleato per i creativi,…