Con l’aumento dell’intelligenza artificiale, gli algoritmi stanno migliorando i compiti visivi. Le applicazioni di computer vision di oggi sono già in grado di leggere i testi con facilità. Possono identificare gli oggetti, classificarli e seguirne il movimento. Possono riconoscere i volti umani e trasformarli in modo convincente. Inoltre, la computer vision permette alle macchine di comprendere e interpretare i dati visivi. Dall’imaging medico al rilevamento delle frodi, fino alla guida autonoma, questa tecnologia è in procinto di rivoluzionare quasi tutti i settori industriali.
Di conseguenza, diverse aziende, sia native digitali che in locali commerciali, utilizzano sempre più spesso programmi di computer vision per le loro attività o esplorano nuove applicazioni per questa tecnologia.
Computer vision is not just about building systems that see, but building systems that can interpret what they see.
Steve Jobs
In questo articolo definiamo la computer vision ed esploriamo la sua crescita e il suo funzionamento.
Definizione di computer vision
Innanzitutto, come si definisce la computer vision? Cominciamo dalle basi. Semplificando, la tecnologia di computer vision AI è il campo dell’informatica che consente ai sistemi informatici di vedere e comprendere il mondo che li circonda. L’elaborazione dei dati consente a questi sistemi di decidere cosa vedere e di agire di conseguenza.
Più tecnicamente, la computer vision è un campo dell’IA che consente ai computer e ai sistemi di ricavare informazioni significative da immagini digitali, video e altri input visivi. I modelli agiscono o formulano raccomandazioni in base a ciò che apprendono dagli input.
In che modo la computer vision è diversa dalla visione artificiale?
Esiste una distinzione sottile ma importante tra la computer vision e la visione artificiale. La visione computerizzata si basa sul metodo ML e utilizza un’enorme potenza di elaborazione per applicare algoritmi a grandi quantità di dati. I sistemi di visione artificiale raccolgono il maggior numero possibile di dati visivi e poi elaborano queste informazioni per applicarle a vari compiti. È questo che conferisce alle applicazioni di visione artificiale la loro flessibilità.
La visione artificiale è un sottoinsieme più leggero della computer vision. La visione artificiale si concentra in genere su un compito ristretto. Nel settore manifatturiero, la visione artificiale (o visione robotica) è spesso utilizzata per il controllo della qualità e per guidare gli oggetti lungo una catena di montaggio. Ne parleremo più avanti nella sezione dedicata alla visione artificiale e alla produzione.
L’obiettivo del riconoscimento visivo
La computer vision mira a replicare la complessità della visione umana. Come? Dando ai computer un modo per interpretare e comprendere il mondo attraverso le immagini. Le applicazioni di computer vision si basano sull’intelligenza artificiale visiva. Le macchine vengono addestrate su enormi serie di dati di informazioni visive in un processo chiamato ML. L’unica differenza tra la computer vision e gli altri dati utilizzati nell’IA è che la computer vision elabora dati visivi anziché contestuali.
Con un addestramento sufficiente, il software di IA può dare un senso agli input visivi, ma la maggior parte della tecnologia di computer vision non si avvicina alla visione umana. L’IA ha ancora problemi di adattabilità, gestione dell’ambiguità e comprensione del contesto. Ad esempio, una prima versione del modello di AI di Stability ha riconosciuto che lo stesso elemento era presente in molte foto nei suoi dati di addestramento. Il suo generatore artistico, Stable Diffusion, ha iniziato a inserire quell’elemento in immagini fotorealistiche. Purtroppo, l’IA non sapeva che l’elemento dell’immagine era il logo di Getty Images e ha violato il marchio Getty. Stable Diffusion ha anche ammesso di essersi allenata con le foto di Getty senza autorizzazione.
Detto questo, la tecnologia di computer vision è impressionante e ha molti casi di utilizzo. L’intelligenza artificiale è migliore degli esseri umani in alcuni compiti visivi ed è quasi sempre più veloce. Ma prima di analizzare l’utilizzo della computer vision in diversi settori, analizziamo come funziona oggi la tecnologia di visione computerizzata.
Come “vediamo” oggi il mondo attraverso gli occhi delle macchine
I sistemi di visione artificiale utilizzano una combinazione di hardware e software per estrarre, analizzare e comprendere le informazioni visive. Queste informazioni possono provenire da un’immagine o da una sequenza di immagini (in altre parole, da un video). In termini molto semplici, le fasi della computer vision comprendono:
- Addestramento: un algoritmo viene addestrato su serie massicce di dati visivi.
- Input: telecamere, sensori e altri dispositivi di imaging acquisiscono i dati visivi.
- Elaborazione: l’algoritmo di computer vision analizza l’input e identifica modelli, oggetti e relazioni.
- Decision-making: la macchina utilizza l’analisi per prendere decisioni o previsioni informate.
- Azione: la macchina esegue un compito basato sull’analisi visiva.
La computer vision esiste da decenni, ma i recenti sviluppi dell’intelligenza artificiale hanno migliorato l’elaborazione in tempo reale e il processo decisionale. Grazie alla moderna tecnologia delle reti neurali, i sistemi di computer vision sono passati da un’accuratezza del 50% a un’accuratezza del 99% in meno di 10 anni. In alcuni casi, i cambiamenti sono così positivi che la computer vision è paragonabile alla visione umana per il riconoscimento e la risposta agli input visivi.
Consideriamo questi processi nella visione artificiale e i compiti complessi che svolgono.
Riconoscere e classificare gli oggetti
Le tecniche di visione artificiale sono in grado di identificare e classificare gli oggetti all’interno delle immagini con una precisione impressionante. Si tratta di volti, animali, veicoli, prodotti specifici e persino scene complesse.
Alcuni esempi tratti dalla vita quotidiana:
- Snapchat: i filtri possono farvi sembrare un gatto con il cappello perché l’app riconosce il vostro volto
- iPhone Photos: questa app personalizza le collezioni di foto classificando le foto in categorie.
Tracciamento e rilevamento del movimento
Il tracciamento del movimento e il rilevamento del movimento sono capacità fondamentali dei sistemi di visione artificiale. Il tracciamento e il rilevamento del movimento aiutano le macchine a interpretare ciò che esiste in un’immagine e a capire quando e come cambia la scena. Questa comprensione dinamica di un’immagine nel corso del tempo apre una vasta gamma di applicazioni per la computer vision, tra cui:
- Telecamere di sicurezza domestiche: i sensori attivati dal movimento possono accendere la telecamera per registrare attività sospette.
- Veicoli autonomi (AV): la scansione continua dell’ambiente consente agli AV di rilevare gli oggetti sul loro percorso, come pedoni, altri veicoli e potenziali pericoli, il tutto mentre navigano su strade trafficate.
Segmentare e analizzare le immagini
La computer vision può essere utilizzata per scomporre le immagini nelle loro parti costitutive. Questo processo, chiamato segmentazione, può significare separare il primo piano dallo sfondo. Può anche comportare l’identificazione di specifiche regioni di interesse. Questo tipo di analisi è fondamentale per compiti quali:
- Radiologia: la segmentazione delle immagini aiuta gli operatori sanitari a identificare le anomalie nelle immagini mediche, tra cui radiografie, risonanze magnetiche, TAC e PET.
- Moderazione automatica dei contenuti: le aziende di social media utilizzano la computer vision per rilevare automaticamente i contenuti indesiderati nelle immagini o nei video.
Comprensione della struttura 3D e della profondità
I sistemi di visione computerizzata possono anche percepire la profondità, cogliere le relazioni spaziali degli oggetti, decifrare forme e dimensioni nel mondo reale e costruire modelli 3D dai dati visivi. L’utilizzo della computer vision per il rilevamento di oggetti 3D apre le porte ad applicazioni quali:
- Robotica: la comprensione del mondo in 3D aiuta i robot aspirapolvere a navigare in ambienti complessi.
- Realtà aumentata (AR): le applicazioni di computer vision con un’accurata percezione della profondità e comprensione del 3D possono creare una visione passante, in cui gli oggetti virtuali vengono sovrapposti senza soluzione di continuità al mondo reale.
Utilizzo della computer vision: vedere per credere
Anche se le cifre esatte sono discordanti, le società di ricerca concordano sul fatto che la tecnologia di visione computerizzata è un mercato in continua crescita. Abbiamo visto previsioni che vanno da un tasso di crescita annuale composto (CAGR) dell’11% nei prossimi 10 anni a quasi il 19%.
Anche se gli analisti non sono d’accordo sui numeri esatti, le prospettive per la computer vision sono ottimistiche. Il mercato crescerà fino a 59,8 miliardi di dollari nel 2033, come mostra il grafico qui sopra. Allied Market Research prevede che il mercato della computer vision raggiungerà gli 82,1 miliardi di dollari entro il 2032. Con la proliferazione delle telecamere negli smartphone, nei sistemi di sicurezza e in altri dispositivi, stiamo generando più dati visivi che mai. Questo vasto bacino di dati serve come carburante per la formazione e il miglioramento dei progetti di computer vision.
Vantaggi della visione artificiale
I progressi nell’apprendimento profondo hanno migliorato l’accuratezza e le prestazioni delle tecnologie di computer vision. I componenti chiave della computer vision, come gli strumenti open-source e i servizi delle piattaforme di cloud computing, hanno reso la tecnologia più accessibile e conveniente. Di conseguenza, sviluppatori e aziende di ogni dimensione stanno costruendo strumenti di computer vision.
La computer vision può essere utilizzata in sistemi in grado di risolvere i problemi del mondo reale che ci circondano:
- Supportare le applicazioni in tempo reale elaborando i dati visivi molto più velocemente di quanto possano fare gli esseri umani.
- Ridurre i pregiudizi, la stanchezza e gli errori umani eseguendo compiti banali con risultati coerenti
- Automatizzare e scalare processi che non sarebbero sicuri o praticabili per gli esseri umani
- Monitoraggio di ambienti e apparecchiature per garantire la sicurezza e prevenire gli incidenti.
- Estrazione di informazioni aziendali dall’analisi visiva dei dati per supportare il processo decisionale e la pianificazione strategica.
Una risposta