Adottereste una NUI?

by Giuseppe Lanzi on 27 novembre 2012

Sono passati due mesi dall’uscita di iOS6 di Apple, la prima versione ad aver reso disponibile Siri in italiano. Se da un lato questa tecnologia prometteva un’esperienza entusiasmante, la pratica è stata “un po’ diversa”.

Alla fine si usa solo come un gioco, per vedere come si comporta chiedendogli una cosa strana o insultandolo. Difficilmente risulta utile in una situazione pratica. L’ultima volta che ho provato ad usarlo perché avevo le mani occupate volevo twittare “ho appena schivato una papera ferma in mezzo all’autostrada: esperienza sconvolgente”, le varie proposte di Siri sono state così deludenti che alla fine me lo sono tenuto per me.

Ma non è per parlarvi di papere che ho deciso di scrivere questo post. Voglio invece usare questo aneddoto come un pretesto per parlare di NUI – Natural User Interface – di cui Siri è un esempio. Cosa c’è di più naturale che parlare?

Dovete sapere che Andrea è sempre stato appassionato di Voice Recognition e Natural-Language Programming, e da tempo vorrebbe procedere in questa direzione. I nostri studi di fattibilità ci dicono che potremmo aggiungere a Instant Developer queste funzionalità: pensate ad un utente che chiede all’applicazione di eseguire una certa attività utilizzando il linguaggio naturale - “Mostrami tutti gli ordini del cliente ACME nel 2012″.

Io e gli altri abbiamo sempre votato contro questo progetto, perché riteniamo che tra riconoscere il parlato e la realizzazione di una NUI che sia davvero utile ci sia una bella differenza. Siri è un’esemplificazione di questa distanza.

Voi da che parte state?
Le NUI e il parlato sono il modo giusto per utilizzare le applicazioni di business, oppure la modalità attuale è adeguata?

{ 1 trackback }

E il riconoscimento vocale? Sempre meglio | il blog di pro gamma
25 settembre 2015 alle 18:02

{ 10 comments… read them below or add one }

1 marco 27 novembre 2012 alle 13:09

Beh certi uffici potrebbero diventare dei mercati, a parte questo ammettendo che funzionasse perfettamente potrebbe essere utile in situazioni molto particolari in cui le mani sono occupate a fare altro.

2 Ale 27 novembre 2012 alle 13:29

Mah… io preferisco sempre scrivere! Anche perchè (magari non sembra) NON è affatto facile azzeccare le parole giuste! Scrivere per me è più facile e diretto.

3 Daniele 27 novembre 2012 alle 13:43

Appoggio anche io in toto l’utilizzo della tastiera. Più rapido, più comodo e più silenzioso. Poi, dopo un’ora a dire cose a caso la gola ne risentirebbe.

4 Giuseppe Cassanelli 27 novembre 2012 alle 13:50

Non adotterei un “collega” tonto.
Riesco già ad innervosirmi da solo senza il supporto di una NUI che non mi capisce.
Certo, se invece che tonta fosse smart allora la cosa cambierebbe, ma temo che sia ancora presto.
E comunque in ambienti rumorosi o affollati diventerebbe difficile: dovrebbe riconoscere anche CHI da il comando per evitare di rispondere al collega della scrivania vicina.

5 Alberto Senni 27 novembre 2012 alle 14:19

Leggendo il post ho pensato a quello che succede ora nella gestione dell’attività di picking in un magazzino: anni fa era impensabile utilizzare sistemi a riconoscimento vocale in un magazzino a volte rumoroso e con utenti molto diversi, lingue diverse e soprattutto con l’hardware che era disponibile ai quei tempi, ora invece questo è possibile anzi mi risulta che sia molto usato proprio grazie alle maggiorate prestazioni e tecnologie nel campo del riconoscimento vocale ed i tempi di picking sono sicuramente migliorati.
Mi sa che Andrea anche questa volta non ha tutti i torti …..

6 poidomani 27 novembre 2012 alle 15:58

io preferirei la funzione che vedo in questo sito:
http://www.ricorsi.net/
dovrebbe apparire una ragazza che spiega … non sto a spiegravi tutto, provate

7 Gigi 28 novembre 2012 alle 08:26

Io credo che in futuro l’interfaccia sarà prevalemtemente vocale
Per chi lavora in mobilità o viaggia in auto potrà essere molto utile, ma anche per chi sta in un ufficio.
E poi vuoi mettere il mito di parlar con un macchina
Non so quanto la tecnologia sia matura ma se ci si mette Andrea sono confidente

8 Giuseppe 28 novembre 2012 alle 09:19

Il trend di semplificazione dell’interazione uomo-macchina è una realtà in accelerazione: gli utenti si aspettano sempre più di poter integragire coi sistemi senza conoscerne la struttura funzionale e l’organizzazione dei comandi; è la macchina che si deve adattare all’utente e non viceversa.
L’interazione vocale non è interessante per il fatto che sostituisce quella con le mani; è invece molto interessante quando ci consente di attivare funzioni complesse, non necessariamente preordinate a priori, con un solo comando.
Vorrei poter chiedere al mio smartphone, tablet o PC: prenotami il viaggio e un albergo economico per partecipare alla fiera la prossima settimana.
Il sistema dovrebbe, guardare la mia agenda, capire a quale fiera devo partecipare, in quale città e in quali date, cercare soluzioni di viaggio compatibili con gli orari della fiera, valutare tramite analisi di dati storici cosa significa per me “economico”, cercare un albergo vicino alla fiera a buon prezzo e proporre il tutto alla mia valutazione, dandomi la possibilità di chiedere ulteriori opzioni aggiungendo ulteriori criteri.
Meglio ancora, il sistema guardando la mia agenda vede che ho previsto di partecipare ad una Fiera a Milano e mi sollecita, con un adeguato anticipo, a risolvere il problema del viaggio e dell’alloggio.
Pensate sia fantascienza? Guardate il lavoro che Google sta facendo con Google Now (da testare in Inglese) … siamo all’inizio ma la strada è segnata.

E’ chiaro che quando si arriverà a sistemi del genere ( 3 anni ?) troveremo tutti più semplice usare la voce piuttosto che le mani (che, forse, rimarranno una possibilità conveniente per comandi più semplici).
L’analogia più immediata che mi viene in mente è il passaggio da interfacce a caratteri con un command prompt che mi consentiva di fare tutto a patto di conoscere la sintassi dei comandi da impartire, uno dopo l’altro, alle interfacce visuali dove cliccando su una icona scateno tanti comandi senza dovermi preoccupare della loro sintassi e della loro sequenza. E’ giunto il tempo di fare un’altro grande passo avanti.

9 Pietro Cavallini 29 novembre 2012 alle 00:38

Giuseppe ma quella che tu chiedi nel tuo ultimo post esiste già :
assumere una segretaria :-)

10 Mauro Marini 3 dicembre 2012 alle 12:55

Ho visto solo ora questo post interessante e penso anche io che questo trend possa in qualche anno dare frutti interessanti. Non credo però che il problema sia il “riconoscimento” della voce, ormai abbastanza consolidato, ma l’interpretazione del linguaggio naturale una volta decodificate le parole.
Qualche casa automobilistica (mi sembra la Mercedes) ha già integrato i dispositivi Apple nei cruscotti per sfruttare Siri nelle interazioni con il veicolo e con le applicazioni. Si tratta però di interazioni molto semplici.
Nel 1998 ho fatto alcuni esperimenti con Dragons Dictate montato su un PC104 e integrato con GPS e cellulare. I feedback ai comandi erano scarsi (un grezzissimo text to speech) e per guardare sul display se aveva capito cosa gli avevo detto, ho rischiato spesso di finire nei fossi tra Bologna e Modena. Quella esperienza mi ha mostrato che la voce è utile soprattutto quando c’è interazione (conversazione) e una certa complessità, altrimenti si fa prima con qualche bottone sul volante o con la tastiera.
Più recentemente invece ho avuto modo di provare due tecnologie di analisi semantica: Autonomy e Cogito. Sono basate su approcci opposti (statistico vs logico), ma dopo un opportuno addestramento/insegnamento fanno entrambe cose notevoli. Il problema della disambiguazione resta però l’ostacolo principale in frasi complesse. Non era difficile da prevedere, se uno guarda le sconfortanti conclusioni della filosofia del linguaggio (vedi Wittgenstein).
Per questo non penso che la rivoluzione a breve si avrà con il riconoscimento vocale complesso, piuttosto con quello visivo che può essere altrettanto simbolico. Quante applicazioni (intendo volumi di venduto) si basano oggi su interfacce vocali e quante su visione e interpretazione dei gesti? Ci sono già milioni di dispositivi consumer sul mercato (es: consolle per video giochi, fotocamere con riconoscimento facciale) e la tecnologia è matura per scalare su sistemi enterprise. Ricordiamoci che l’intelligenza non è solo quella razionale che ha portato al linguaggio (e a tutto lo sviluppo razionale dell’uomo), la quale è basata su qualche decina di migliaia di anni di evoluzione soltanto, ma soprattutto quella visiva che ha qualche milione di anni di evoluzione e una parte di cervello enormemente più sviluppata dedicata ad essa.
Faccio la mia scommessa: il prossimo passo business non sarà il linguaggio, ma l’integrazione di dispositivi che vedono il punto esatto che l’utente sta guardando sul display e prendono decisioni conseguenti. Sono facili da costruire ed integrare nei monitor (c’erano già nelle fotocamere analogiche di fascia alta per la messa a fuoco guidata dallo sguardo) e hanno un potenziale enorme per le valutazione di marketing (best placement). La storia ci insegna che la tecnologia si sviluppa dove ci sono i maggiori potenziali economici con il minor sforzo. Meditate gente…meditate…

Leave a Comment

Previous post:

Next post: