Facebook vuole che le macchine vedano il mondo attraverso i nostri occhi

Posted on

Diamo per scontato che le macchine possano riconoscere ciò che vedono in foto e video. Questa capacità si basa su grandi set di dati come ImageNet, una raccolta curata a mano di milioni di foto utilizzate per addestrare la maggior parte dei migliori modelli di riconoscimento delle immagini dell’ultimo decennio.

Ma le immagini in questi set di dati ritraggono un mondo di oggetti curati, una galleria di immagini che non cattura il disordine della vita quotidiana così come lo sperimentano gli umani. Per far sì che le macchine vedano le cose come noi, adotteremo un approccio completamente nuovo. E il laboratorio di intelligenza artificiale di Facebook vuole prendere l’iniziativa.

Sta dando il via a un progetto, chiamato Ego4D, per costruire AI in grado di comprendere scene e attività viste da una prospettiva in prima persona, come le cose appaiono alle persone coinvolte, piuttosto che a uno spettatore. Pensa alle riprese GoPro sfocate dal movimento riprese nel bel mezzo dell’azione, invece di scene ben inquadrate scattate da qualcuno in disparte. Facebook vuole che Ego4D faccia per i video in prima persona quello che ImageNet ha fatto per le foto.

Negli ultimi due anni, Facebook AI Research (FAIR) ha lavorato con 13 università di tutto il mondo per assemblare il più grande set di dati mai visto di video in prima persona, in particolare per addestrare modelli di riconoscimento delle immagini di deep learning. Le IA addestrate sul set di dati saranno migliori nel controllare i robot che interagiscono con le persone o nell’interpretare le immagini dagli occhiali intelligenti. “Le macchine saranno in grado di aiutarci nella nostra vita quotidiana solo se comprendono veramente il mondo attraverso i nostri occhi”, afferma Kristen Grauman di FAIR, che guida il progetto.

Tale tecnologia potrebbe supportare le persone che hanno bisogno di assistenza in casa o guidare le persone nelle attività che stanno imparando a completare. “Il video in questo set di dati è molto più vicino al modo in cui gli umani osservano il mondo”, afferma Michael Ryoo, ricercatore di visione artificiale presso Google Brain e Stony Brook University di New York, che non è coinvolto in Ego4D.

Ma i potenziali abusi sono chiari e preoccupanti. La ricerca è finanziata da Facebook, gigante dei social media recentemente accusato in Senato di mettere i profitti sul benessere delle persone, un sentimento corroborato da Revisione della tecnologia del MIT‘S proprie indagini.

Il modello di business di Facebook e di altre società della Big Tech consiste nell’estrarre quanti più dati possibile dal comportamento online delle persone e venderli agli inserzionisti. L’intelligenza artificiale delineata nel progetto potrebbe estendere tale portata al comportamento offline quotidiano delle persone, rivelando gli oggetti intorno alla casa di una persona, quali attività le sono piaciute, con chi ha trascorso del tempo e persino dove si soffermava il suo sguardo: un livello di informazioni personali senza precedenti.

“C’è del lavoro sulla privacy che deve essere fatto mentre si porta questo fuori dal mondo della ricerca esplorativa e in qualcosa che è un prodotto”, afferma Grauman. “Quel lavoro potrebbe anche essere ispirato da questo progetto.”

Ego4D è un cambio di passo. Il più grande set di dati precedente di video in prima persona è costituito da 100 ore di riprese di persone in cucina. Il set di dati Ego4D è costituito da 3025 ore di video registrati da 855 persone in 73 località diverse in nove paesi (Stati Uniti, Regno Unito, India, Giappone, Italia, Singapore, Arabia Saudita, Colombia e Ruanda).

I partecipanti avevano età e background diversi; alcuni sono stati reclutati per le loro occupazioni visivamente interessanti, come panettieri, meccanici, carpentieri e paesaggisti.

I set di dati precedenti in genere sono costituiti da clip video semi-script della durata di pochi secondi. Per Ego4D, i partecipanti hanno indossato telecamere montate sulla testa per un massimo di 10 ore alla volta e hanno catturato video in prima persona di attività quotidiane senza copione, tra cui camminare lungo una strada, leggere, fare il bucato, fare shopping, giocare con animali domestici, giocare a giochi da tavolo e interagire con altre persone. Parte del filmato include anche audio, dati su dove si è concentrato lo sguardo dei partecipanti e più prospettive sulla stessa scena. È il primo set di dati del suo genere, afferma Ryoo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *