Modelli supervisionati e non supervisionati per il Data Mining episode artwork

EPISODE · Jan 22, 2020 · 3 MIN

Modelli supervisionati e non supervisionati per il Data Mining

from Digital Trasformation · host Valerio Maria Murgolo

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo. Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di Clustering o modelli di Regole di associazione.La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.Anche il Clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale. In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo. Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di Clustering o modelli di Regole di associazione.La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.Anche il Clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale. In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.

NOW PLAYING

Modelli supervisionati e non supervisionati per il Data Mining

0:00 3:53

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

No similar episodes found.

The Hunt Diaz Task Force A hard-hitting, eye-opening podcast that takes you deep into the relentless fight against human and sex trafficking. Each episode explores the dangerous world of traffickers and predators from every angle—street operations, online investigations, and digital warfare. Hear firsthand from law enforcement, federal agents, and prosecutors as they share real stories of sting operations, investigative tactics, and the challenges of bringing traffickers to justice. Follow live sting operations, online predator investigations, and real-time takedowns of trafficking rings, with insights from cybercrime experts, undercover decoys, and live case discussions. We dive deep into how traffickers operate on the dark web, using cryptocurrency and other digital tools to exploit victims. Learn how law enforcement is using cutting-edge technology to track traffickers and disrupt their operations. The Hunt, pulls back the curtain on the digital and real-world fight against trafficking, exposing the p Explicit Digital Tea Party W/ Rebekah and Musa digitalteapartypod Welcome to Digital Tea Party with Rebekah and Musa, where we pour a steaming cup of internet drama and sip on the chaos that comes with being chronically online. From TikTok trends to the latest social media meltdowns, we break it all down with unfiltered commentary, a sprinkle of humor, and way too much time on our hands. Join us as we navigate the digital overload and yap about everything the algorithm throws our way. Catch us on YouTube, Spotify, Apple Podcasts, and TikTok—always under Digital Tea Party. Let’s spill the tea, shall we? Explicit TCAST: The Future of Data & AI TARTLE The Data Intelligence Podcast (TCAST) explores the intersection of AI, data privacy, and ethical technology. Join Alexander McCaig and Jason Rigby as they decode the future of data ownership, artificial intelligence, and digital privacy with industry leaders, researchers, and innovators.Each episode delivers actionable insights on:AI and machine learning developmentsData privacy and ownership strategiesEthical technology implementationReal-world applications of data intelligenceFuture trends in digital identity and data marketplacesPerfect for tech leaders, data scientists, privacy advocates, and forward-thinking professionals looking to understand and shape the future of data and AI.Presented by TARTLE, pioneers in ethical data exchange and AI enhancement. New episodes every week.The show is hosted by Co-Founder and Source Data Pioneer Alexander McCaig and Head of Conscious Marketing Jason Rigby.What's your data worth? Find out at (https://tartle.co/)Watch the podcast on Yo Explicit Techlore Surveillance Report Techlore Techlore Surveillance Report is your weekly deep-dive into the privacy and security news that matters for your digital freedom. Hosted by Henry Fisher, founder of Techlore and long-time digital rights educator, each episode cuts through the noise to bring you carefully selected stories with the context, analysis, and historical perspective you need to truly understand what's happening to protect yourself (and others!) in the digital space.Topics covered include:• Privacy tool updates and vulnerabilities• Data breaches and cybersecurity incidents• Surveillance technology and government overreach• Big Tech privacy policies and practices• Encryption and security standards• Digital rights legislation and court cases• Open-source software developments• Corporate data practices and accountabilityWhether you're a beginner trying to stay informed or a seasoned expert tracking the ecosystem, Surveillance Report has Explicit

Frequently Asked Questions

How long is this episode of Digital Trasformation?

This episode is 3 minutes long.

When was this Digital Trasformation episode published?

This episode was published on January 22, 2020.

What is this episode about?

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di...

Can I download this Digital Trasformation episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!