CDVS: la visione artificiale per nuovi servizi e applicazioni industriali

Pubblicato: Venerdì, 16 Maggio 2014 in Eventi

CDVS: artificial vision for new services and industrial applications (English version)

Lo scorso 10 giugno si è tenuto a Milano, in via Sannio 2, presso la sede dell’ente di normazione UNI la presentazione della nuova tecnologia MPEG Compact Descriptors for Visual Search (CDVS) con dimostrazioni dal vivo.

CDVS fornisce la tecnologia necessaria allo sviluppo di prodotti e servizi innovativi basati sulla visione artificiale, direttamente attraverso foto catturate da camere intelligenti in dispositivi quali smartphones, tablets, webcam e macchine fotografiche.

Esempio delle applicazioni e campi industriali sono: mobile, automotive, SmartTV, sorveglianza, manutenzione apparati,  robotica, infomobilità, servizi al turista, beni culturali.

Programma

13:30 14:00 Registrazione    
14:00 14:05 Domenico Squillace UNINFO Benvenuto da parte di UNINFO
14:05 14:10 Leonardo Chiariglione CEDEO Il ruolo degli standard audiovisivi
14:10 14:40 Gianluca Francini Telecom Italia Lo standard CDVS
14:40 14:50 Alberto Messina RAI Ricerca visuale per post-produzione
14:50 15:00 Alessandra Mosca Sisvel Technology Movie on the Road: scatta una foto e rivivi il tuo film preferito
15:00 15:10 Danilo Pau STMicroelectronics Navigazione Automobilistica Aumentata
15:10 15:20 Danilo Pau STMicroelectronics Camera-assisted shopping
15:20 15:30 Pedro Gusmão Politecnico di Torino Localizzazione di un robot basata su analisi visuale
15:30 15:40 Massimo Mauro Università di Brescia Manutenzione on site assistita su dispositivo mobile
15:40 17:00 Demo in parallelo    

La partecipazione è gratuita ed aperta alle persone ed alle aziende interessate (fino ad esaurimento posti disponibili) previa comunicazione dell’intenzione di partecipare inviata alla Segreteria UNINFO Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo. entro il 3 giugno 2014 con i seguenti dati: nome e cognome, ente di appartenenza, indirizzo mail e recapito telefonico.

 

La ricerca visuale

La dinamicità e la complessità dei tempi in cui viviamo richiedono la capacità di cercare e acquisire informazioni con immediatezza. Strumenti quali smartphone e tablet contengono oggi tecnologie di "sensing", calcolo e connettività che forniscono un supporto efficace a tale necessità.

La ricerca d’informazioni spesso è svolta mediante interrogazioni testuali: si digita un testo in un campo di ricerca e si ottiene una lista contenente varie risposte. Oltre alla ricerca testuale si stanno diffondendo sempre di più altre possibilità quali la ricerca vocale, in cui si detta a voce il testo che sarà riconosciuto dal cellulare e usato per la ricerca, e quella basata su codici a barre bidimensionali, il cui esempio più noto e’ il QR code: fotografando con il dispositivo mobile il codice applicato su un oggetto è possibile ottenere una serie di informazioni correlate volte all’identificazione o all’acquisto dello stesso.

Purtroppo non è sempre possibile o non si desidera applicare tale codice sull’oggetto: puo essere anti-economico, non esteticamente appagante o semplicemente poco funzionale averli su di essi. Ad esempio qualora si camminasse lungo una via e si volesse identificare l’edificio che si trova sull’altro lato della strada, si dovrebbe inquadrare un codice di alcuni metri lato, in modo che le sue dimensioni siano sufficienti a occupare uno spazio nella foto necessario al suo corretto riconoscimento. Altresì la stessa procedura d’inquadramento e riconoscimento conduce a risultati insoddisfacenti nell’uso comune.

Emerge quindi la necessità di interagire con gli oggetti nella loro apparenza naturale e non modificata artificialmente usando marcatori artificiali.

Negli ultimi tempi l’evoluzione della visione intelligente ha consentito lo sviluppo di una nuova forma di ricerca per immagini, definita ricerca visuale, che consente un’interazione più naturale con l’ambiente circostante e gli oggetti in esso contenuti. Con questa tecnologia innovativa è sufficiente inquadrare un oggetto per riconoscerlo, senza che vi sia apposto alcun marcatore.

Figure 1 Esempio di riconscimento di un oggetto nel suo naturale apparire

Gli algoritmi di visione intelligente sfruttano le caratteristiche visive proprie degli elementi come appaiono al sensore d’immagine. Inoltre mutua comportamenti propri del cervello umano il quale non riconosce un oggetto analizzando tutti i dettagli che lo compongono ma solo quelli più rilevanti. Una tecnologia cosi innovativa e’ adatta a molteplici usi quali identificare un oggetto inquadrato da una camera per ricevere dei contenuti informativi, contribuire al calcolo visivo della posizione di un’automobile, analizzare il contenuto trasmesso dalle reti televisive.

Compact Descriptors for Visual Search

Il gruppo ISO/IEC MPEG, autore da 25 anni degli standard più diffusi di compressione e trasmissione di audio, video, grafica e della rappresentazione di contenuti multimediali, grazie al lavoro un gruppo di esperti di visione artificiale ha sviluppato un nuovo standard, che sara’ rilasciato a ottobre 2014, dal nome "Compact Descriptors for Visual Search" (CDVS).

Lo standard MPEG CDVS ha definito una modalità standard per estrarre, comprimere e decomprimere le informazioni visive rilevanti per mezzo di sofisticati algoritmi di ricerca visuale. L’importanza di CDVS in questo campo è analoga all’importanza della codifica audio e video. La compressione consente di immagazzinare e trasmettere efficacemente le caratteristiche visuali calcolate con risorse hardware e software proprie dei dispositivi "embedded", di basso costo e largamente diffuse nei moderni smartphones e tablets. Grazie alla compressione standard delle caratteristiche visive è possibile ridurre l’ammontare dei dati da memorizzare, inviare e processare, necessari al riconoscimento visuale, oltre che a garantire l’interoperabilità tra dispositivi e servizi di diversi produttori. Inoltre è la tecnologia abilitante per accedere a contenuti audio, video e grafici che arricchiscano l’esperienza dell’utente durante l’interazione con gli oggetti stessi: è dunque il pre-requisito tecnologico per abilitare applicazioni nel dominio dell’"Augmented reality".

Per meglio comprendere gli elementi distintivi usati dalla ricerca visuale, si parta dalla considerazione che queste caratteristiche visive sono costituite da punti nell’immagine e da elementi definiti descrittori locali. Per estrarre questi dati, la prima operazione da eseguire consiste nello scartare le informazioni relative al colore, ottenendo un’immagine che contiene solo quella che è definita come luminanza della scena che rappresenta la stessa mediante scale di grigi.

Dopodiche’ su questa versione dell’immagine sono determinate le posizioni di alcuni punti, detti punti salienti. Questi sono punti che cadono in zone caratteristiche degli oggetti e che tendono ad essere identificati nelle stesse posizioni anche quando la scena è osservata da angolazioni differenti. A seguire per ognuno di questi punti è calcolato un descrittore locale, cioè un elemento che descrive come la luminosità dell’immagine varia nell’intorno del punto.

Figure 2 L’esempio mostra la foto di una chiesa la cui immagine è convertita in luminanza, sulla quale sono stati identificati i punti salienti nei cui intorno sono stati calcolati i descrittori locali.

Punti e descrittori costituiscono le informazioni sufficienti a determinare se due immagini contengono lo stesso oggetto. Per determinare se c’è un oggetto in comune, si confrontano i descrittori di un’immagine con quelli di un’altra immagine, formando degli abbinamenti che sono sottoposti ad una verifica in modo da scartarne quelli errati. Se a valle della verifica persistono un certo numero di abbinamenti allora si puo’ stabilire che lo stesso oggetto è presente nelle due immagini e localizzarlo nell’immagine.

Figure 3 L’immagine mostra gli abbinamenti tra un’immagine scattata da un turista e quella contenuta in un database di edifici storici. I punti salienti abbianti sono evidenziati con cerchi verdi, le linee indicano gli abbinamenti tra i punti dell’immagine

La tecnologia di ricerca visuale basata sui descrittori locali è molto robusta a varie forme di perturbazioni. È in grado di eseguire correttamente gli abbinamenti anche quando le immagini da confrontare hanno luminosità e colori differenti, una condizione comune nel caso in cui si confrontino immagini scattate da macchine fotografiche differenti. È inoltre in grado di funzionare anche quando l’oggetto della ricerca ha dimensioni molto differenti nelle due immagini, o è ruotato rispetto all’altra foto o nel caso in cui solo parte dell’oggetto sia visibile. La robustezza alle perturbazioni menzionate è un aspetto fondamentale per costruire applicazioni e servizi dalle prestazioni affidabili.

I descrittori estratti da un’immagine richiedono uno spazio rilevante d’immagazzinamento che ne rendono complessa la trasmissione o la manipolazione, soprattutto da dispositivi di largo consumo che hanno a disposizione risorse limitate. Per questo motivo MPEG CDVS, oltre ad aver sviluppato la tecnologia per calcolare e descrivere i punti salienti, ha anche sviluppato efficienti tecnologie di compressione e abbinamento di tali informazioni.

In particolare, CDVS ha definito le tecniche per stabilire a priori quali sono i punti più rilevanti di un’immagine, in modo da usarne il sotto-insieme più significativo, e ha sviluppato algoritmi per comprimere le coordinate dei punti e i valori dei descrittori locali. CDVS ha inoltre sviluppato un descrittore globale, cioè un elemento che e’ in sintesi un a forma aggregata dei descrittori locali che consente di eseguire un confronto molto rapido tra la foto di interrogazione e le numerosissime immagini che possono essere contenute in un database. In questo modo è possibile eseguire ricerche in database contenenti decine di milioni d’immagini dando la risposta della ricerca in tempi molto contenuti. In una prima fase si esegue il confronto veloce mediante i descrittori globali e in seguito si esegue il confronto più lento ma anche più accurato basato sugli abbinamenti dei descrittori locali. Le fasi di confronto dei descrittori locali compressi e la verifica della correttezza degli abbinamenti sono eseguite in modo estremamente rapido grazie alla tecnologia CDVS.

Per apprezzare il livello di compressione raggiungibile da CDVS si consideri un’immagine a risoluzione VGA, cioè composta da 640 per 480 pixel. Le informazioni visive estratte da questo tipo di immagine, quando non sono compresse, occupano mediamente 140 KB. CDVS ha stabilito sei possibili dimensioni obiettivo con le quali immagazzinare queste informazioni: 512 , 1K, 2K, 4 K, 8 K e 16 K Bytes. Questi obiettivi sono stati raggiunti dallo standard mantenendo un’alta precisione della ricerca.

Usando CDVS si riducono i tempi di latenza dell’invio, dallo smartphone al database, dell’interrogazione anche nel caso in cui, invece dei descrittori CDVS, fosse inviata la foto compressa secondo lo standard JPEG, che necessita mediamente 80 - 20 KB nel caso di un’immagine VGA, e a seconda del livello di compressione applicato. Naturalmente, più si comprime la foto e più se ne degrada il contenuto, rendo meno accurata la successiva fase di analisi visuale.

Figure 4 Una comparazione tra differenti forme di compressione Jpeg e CDVS a partire da una immagine a risoluzione VGA

Scenari di utilizzo

CDVS definisce due scenari, il primo in cui le informazioni compresse sono inviate a un server remoto e un secondo in cui le informazioni compresse sono usate localmente sul dispositivo mobile.

Nel primo scenario, i vantaggi forniti da CDVS sono la riduzione dei dati da inviare, con conseguente diminuzione dei tempi di attesa della risposta, il consumo della batteria del cellulare, dato che la trasmissione di dati richiede molta energia e una ridotta complessita nel server dato che i descrittori CDVS sono calcolati dallo smartphone.

Figure 5 Primo scenario di utilizzo

Infatti, il server non avendo l’onere dell’estrazione delle informazioni può gestire esclusivamente la parte di confronto, rendendo possibile la gestione di molte interrogazioni simultanee anche su sistemi di potenza computazionale limitata.

Nel secondo scenario è possibile eliminare completamente i tempi di latenza dovuti alla trasmissione dei dati. Il database, che può essere aggiornato con la ricezione d’informazioni da un server, è immagazzinato sul cellulare, in una sua quota parte, e sia la parte di estrazione dei descrittori sia il confronto è calcolata sul dispositivo. Quest’aspetto è fondamentale per la realizzazione di applicazioni di realtà aumentata, che, oltre a riconoscere gli oggetti presenti nella scena video inquadrata, mostrano elementi grafici addizionali miscelati in tempo reale con il video ripreso dal cellulare. Per aggiungere questi elementi, spesso rappresentati da grafica 3D, oltre a identificare l’oggetto occorre determinarne istante per istante la posizione nel video e quest’ operazione e’ ingestibile nel caso in cui siano introdotti ritardi legati alla rete nel processo elaborativo.

Figure 6 Secondo scenario di utilizzo

Nel secondo scenario, mediante lo standard CDVS è possibile memorizzare database con un elevato numero di elementi riconoscibili direttamente sul cellulare e il processo stesso di ricerca può essere eseguito in tempi ridotti grazie alla maggiore velocità ottenuta grazie ai confronti dei descrittori compressi. Questa caratteristica è anche utile quando non si ha una configurazione di sistema in cui è presente un terminale mobile. La velocità delle operazioni eseguite con lo standard CDVS si rivela molto utile anche nel caso in cui si elaborino dei contenuti multimediali, ad esempio, con un singolo server per eseguire la ricerca visuale CDVS in modo concorrente su diversi canali televisivi, determinando in quali istanti di tempo sono presenti gli elementi identificati.

Compact Descriptors for Visual Analysis

Lo sviluppo tecnologico alla base dello standard MPEG CDVS consente il riconoscimento di oggetti rigidi indirizzando implementazioni embedded, di basso costo e per un’ampia diffusione e per applicazioni nel dominio Augmented Reality.

Comprese le potenzialità dello standard CDVS, l’industria ha sin da subito identificato opportunità di ricerca e sviluppo complementari a CDVS e che potessero evolvere in future opportunità di mercato. Infatti nuovi sviluppi tecnologici stanno emergendo nella comunità scientifica in risposta ad esigenze specifiche quali la necessità di estendere il dominio di ricerca visuale dalle immagini fisse al video e di riconoscere e classificare oggetti con caratteristiche diverse da quelli considerati da CDVS.

Esempi sono le persone, le cui parti si muovono, un edificio ricoperto da superfici di vetro che come uno specchio riflette l’ambiente circostante e tanti altri. In questi casi non e’ possibile avere un riferimento preciso non mutevole dell’oggetto da trovare.

Inoltre, CDVS è stato sviluppato per processare immagini singole: sebbene di principio sia possibile trattare il video come un insieme d’immagini separate temporalmente tra di loro, è conveniente sviluppare una tecnologia che possa ridurre ulteriormente le informazioni da immagazzinare e confrontare quando si è in presenza di sequenze di immagini legate tra esse da un vincolo temporale.

Per indirizzare questi due aspetti e cogliendo l’interesse dell’industria verso una serie di nuove applicazioni in campi quali Media & Entertainment, Automotive e Surveillance e della comunita’ scientifica internazionale, MPEG ha di recente avviato un’attività esplorativa di standardizzazione che rappresenta la prossima generazione dello standard per l’analisi intelligente delle immagini. Questa attività, chiamata Compact Descriptors for Visual Analysis, ha diversi scopi; ad esempio: la definizione di descrittori visuali che siano adatti al video, la capacita di trattare oggetti deformabili e di apparenza mutevole, la capacità di classificarli in base alla categoria di appartenenza.

Questa nuova avventura rappresenta un’ulteriore sfida tecnologica e una opportunità per tutte le industrie e i centri di ricerca che scelgano di contribuire al suo sviluppo.

Figure 7 Un esempio della potenziale future capacita di MPEG CDVA di poter riconsocere persone e automobili

 

 

 

 

 

 

 

Login