3.4. Disseny i intel·ligència artificial
En els apartats anteriors hem vist com el disseny paramètric i el disseny generatiu se centren a prefixar o automatitzar parts del procés de disseny, la qual cosa estableix una nova relació entre el dissenyador i el producte que està creant, més propera al diàleg i a la col·laboració que a la materialització directa d’una idea preconcebuda. L’actual desenvolupament de les tecnologies d’intel·ligència artificial (IA) promet introduir canvis fonamentals en el treball dels dissenyadors que segueixen en la línia del descrit anteriorment.
La proliferació i el ràpid desenvolupament dels assistents de veu basats en programes d’IA, des de Siri a iOS als dispositius per a la llar d’Amazon (Echo), Google (Home) i Apple (HomePod), han plantejat una creixent transformació en la interacció entre l’usuari i els dispositius que empra diàriament.
Això afecta directament el futur del disseny d’experiències d’usuari, però també el mateix paper dels dissenyadors, que passen a ser curadors o selectors; s’han de centrar no tant en un acte de creació únic, sinó a treballar amb uns paràmetres que es faciliten al programa i a partir dels quals es va escollint la solució més òptima a partir dels nombrosos prototips que es generen automàticament.
Com va ocórrer amb la irrupció de l’autoedició, l’evolució i la popularització dels programes de disseny que empren la tecnologia d’intel·ligència artificial (com ara Dreamcatcher d’Autodesk, que hem comentat en l’apartat anterior), l’IA implicarà que un nombre cada vegada major de dissenyadors podrà crear i veurà augmentada la seva capacitat de producció. Amb tot, això no afectarà l’estatus dels grans dissenyadors, ja que factors com la creativitat i la capacitat per trobar les millors solucions seguiran sent diferenciadors. L’IA aportarà millors eines però, de moment, no és previsible que pugui suplantar la capacitat creativa d’un bon dissenyador ni generar per si mateixa idees innovadores. Segons afirma Rob Girling, cofundador de l’estudi Artefact:
[…] en el futur els dissenyadors ensenyaran a les seves eines d’IA a resoldre problemes de disseny creant models basats en les seves preferències.
R. Girling (2017, juny). «AI and the Future of Design: What will the designer of 2025 look like?». Artefact [en línia]. <https://www.artefactgroup.com/articles/ai_design_2025/>
El problema que es presenta actualment és que la majoria dels dissenyadors d’experiències d’usuari no estan preparats per treballar amb interfícies centrades en la intel·ligència artificial. Això es deu al fet que hi ha poc coneixement sobre aquesta tecnologia i que l’aprenentatge automàtic (machine learning) encara no forma part de la formació en disseny, ni està present en les eines principals que empren els dissenyadors.
Per «ensenyar» a un ordinador cal tenir un coneixement avançat de matemàtiques, dades i estadística que no està a l’abast de molts dissenyadors ni forma part del seu mètode habitual de treball.
En aquest aspecte, com també ha passat amb l’autoedició, algunes empreses estan creant programes que resolen una part d’aquest procés complex. Una d’aquestes empreses és Cognitive Scale, que ha desenvolupat la plataforma Cortex, un programari pensat per simplificar el disseny, el desenvolupament i el manteniment dels sistemes d’IA. Cortex presenta una interfície dissenyada per a facilitar la comprensió de com funciona un sistema d’intel·ligència artificial, de forma similar a com els programes WYSIWYG substitueixen les línies de codi per un entorn visual el funcionament del qual es pot entendre de forma intuïtiva. En conjunt, Cortex està pensat per ser molt accessible per als dissenyadors, de manera que podria popularitzar l’ús dels sistemes d’IA en tot tipus de productes i solucions per a empreses. Amb tot, això també planteja riscos, atès que encara no es coneixen totes les implicacions que pugui tenir l’ús dels sistemes d’intel·ligència artificial, tant pel que fa a la possibilitat de reemplaçar els humans en nombroses tasques com els perills potencials de confiar a un conjunt d’algorismes decisions que requereixen el raonament d’una persona.
Cortex, IA per a dissenyadors
Cortex és un programari pensat per al disseny i manteniment dels sistemes d’intel·ligència artificial, que facilita entre d’altres tasques: personalitzar els perfils d’usuari, generar informes de manera comprensible per a les persones, coordinar diversos programes per a automatitzar processos que requereixen la participació d’un humà, malgrat que resultarien tediosos, aprendre contínuament a partir de dades obtingudes en temps real i controlar tot el procés dut a terme pel sistema d’IA. És una solució dirigida a les empreses, que, a més, compta amb un mercat intern en què és possible adquirir models ja desenvolupats, paquets de dades específiques, algorismes i serveis professionals.
El desenvolupament de la intel·ligència artificial no solament afecta el treball dels dissenyadors, sinó també la mateixa percepció que l’usuari té del seu entorn i de si mateix. Mark Rolston, cofundador de l’estudi Argo Design, empra el terme meta jo (MetaMe) per a referir-se a la projecció del jo a les xarxes socials i entorns virtuals amb què interactuem diàriament (Rolston, 2017). Aquest «meta jo» es converteix progressivament en un gólem que controlem cada vegada menys i que, per mitjà de l’IA, es converteix en una entitat amb una certa consciència. Actualment, la presència en línia de l’usuari se sol incentivar per mitjà de notificacions que el conviden a prémer un botó per a executar una acció o publicar una resposta, però aviat, fins i tot aquest botó, podria desaparèixer a mesura que el «meta jo» de l’usuari tingui la informació suficient per a actuar de forma autònoma. El disseny dels programes que ajudaran a gestionar aquest «meta jo» per mitjà de les tecnologies d’IA requerirà, per tant, prendre una sèrie de decisions que tenen conseqüències reals en la vida de l’usuari i requereixen uns sistemes de control, tant a nivell social com legal, per a minimitzar les conseqüències d’un «pas en fals» de l’assistent.
Mark Stefix, investigador de PARC (la divisió d’R+D de Xerox) parla, fins i tot, d’un nou tipus d’usuari, l’usuari centaure, que és el producte de la combinació entre la intel·ligència humana i la intel·ligència artificial i presenta els avantatges següents respecte de la concepció separada de les aportacions humanes i de la màquina (PARC, 2017):
- Un ordinador té l’avantatge de treballar amb rapidesa i processar una gran quantitat de dades. No obstant això, les solucions que genera són incompletes al món real, atès que les dades no reprodueixen totes les condicions possibles.
- Un equip humà té l’avantatge que li aporten els seus coneixements i sentits, l’experiència de viure al món real i combinar aquesta experiència en equips interdisciplinaris. Així i tot, coordinar aquests equips pot resultar complex.
- Un equip humà-ordinador aconsegueix els millors resultats quan combina diverses formes de coneixement que compensen les febleses de cadascun. Ara bé, cal tenir més experiència, teoria i coneixements per a crear bons equips entre humans i ordinadors.
Per als dissenyadors centrats en l’experiència d’usuari, això suposa tenir en compte un usuari molt diferent, no únicament humà, sinó un híbrid entre l’usuari i el seu assistent d’intel·ligència artificial.
La combinació humà-màquina requereix un nou paradigma de disseny: mentre actualment la majoria dels productes tecnològics se centren en l’usuari i saben atendre les seves necessitats quotidianes (comprar, socialitzar-se, moure’s per la ciutat), no aconsegueixen comprendre com els usuaris poden interactuar i veure’s afectats pels sistemes polítics, econòmics, culturals, tecnològics i socials a gran escala. Per tant, cal dissenyar aplicacions que tinguin en compte tant l’usuari com el sistema en què es veu implicat i, de vegades, posar l’usuari al servei del sistema, en benefici de tots els usuaris implicats. Un exemple d’això és Waze, una app de navegació a la ciutat que guia l’usuari tenint en compte no solament la seva localització i la ruta més ràpida, sinó els desplaçaments del conjunt d’usuaris de Waze en temps real. D’aquesta manera, es dona preferència al sistema per sobre de l’usuari, però alhora es permet a l’usuari aportar informació al sistema per a millorar-lo: els usuaris de Waze poden indicar canvis en les condicions de la carretera (accidents, desviaments provisionals, obres, embussos, etc.) i recomanar rutes alternatives. Així, l’experiència i coneixement dels humans contribueixen a millorar els càlculs del sistema, la qual cosa repercuteix en una navegació més efectiva per a tots els usuaris. Dissenyar aplicacions pensades per als «usuaris centaure» suposa, per tant, un repte, ja que els humans han de confiar en el sistema i estar disposats a aportar els seus propis coneixements.
Waze
Creada el 2006 i adquirida per Google el 2013, Waze és una aplicació gratuïta de navegació GPS que compta amb les aportacions d’una comunitat d’usuaris per a actualitzar la informació de l’estat del trànsit i altres dades útils en temps real.
L’aspecte de l’IA en què els dissenyadors poden treballar més directament en aquest moment és el de l’aprenentatge automàtic o machine learning.
El machine learning és la branca de la intel·ligència artificial que se centra en el fet que els ordinadors siguin capaços de generalitzar els comportaments a partir d’una sèrie d’exemples, per tant «aprendre» a partir d’una quantitat de dades subministrades (generalment gran).
Els sistemes d’aprenentatge artificial poden detectar patrons i, en particular, anomalies, la qual cosa els fa molt efectius en aplicacions com ara la detecció del frau en targetes de crèdits o els correus brossa. Actualment, grans empreses com Amazon, Google i Apple han fet accessibles als desenvolupadors algunes de les seves eines d’aprenentatge automàtic, que descrivim a continuació:
- ML Kit de Google ofereix un conjunt d’eines optimitzades per a dispositius mòbils i amb solucions predissenyades que faciliten el seu ús en tot tipus de projectes. Les funcions principals que ofereix són l’etiquetatge d’imatges (identificació d’objectes, llocs, activitats, productes, etc.), reconeixement de text, detecció de rostres, escanejat de codis de barres, identificació de llocs populars i molt recognoscibles i, en un futur proper, una funció de resposta automàtica amb suggeriments de text.
- AWS d’Amazon compta amb una sèrie completa de recursos d’aprenentatge automàtic que inclou productes com SageMaker, que permet crear, entrenar i implementar models de machine learning, a més d’adaptar-los als fluxos de treball existents i DeepLens, una càmera de vídeo que s’integra a Amazon SageMaker i altres serveis d’AWS per a emprar algorismes d’aprenentatge automàtic en visió computeritzada.
- Core ML d’Apple, integra models d’aprenentatge automàtic en qualsevol app. El model empra les dades introduïdes per a realitzar determinades prediccions, anàlisis d’imatge, processament de llenguatge natural i altres funcions.
És essencial per als dissenyadors ser capaços d’entendre el que poden fer aquestes eines, amb la finalitat de poder treballar amb els programadors en les seves possibles aplicacions. El dissenyador Sam Drozdov (2018) destaca les següents:
- Per mitjà del machine learning (ML) es poden crear productes centrats en l’usuari, que responen a les dades facilitades per aquest i donen lloc a una experiència més personalitzada.
- Una aplicació en què destaca l’ML és la detecció d’anomalies, la qual cosa és especialment útil en la prevenció del frau, manipulació de continguts i altres escenaris similars.
- Per mitjà de la visió computeritzada i la interpretació del llenguatge natural, l’ML facilita una millor interacció entre l’usuari i la màquina, que progressivament allibera l’usuari d’haver d’expressar-se en els termes que la màquina pot entendre.
- Una altra aplicació és l’anàlisi dels grups d’usuaris.
- Finalment, com que prediu l’acció següent de l’usuari, l’ML es pot emprar per a facilitar la càrrega de contingut que amb major probabilitat serà consultat per l’usuari, agilitant el funcionament d’un programa.
Per a entendre millor com emprar les eines d’ML, també és important conèixer quin tipus d’aprenentatge automàtic empren habitualment les mateixes. L’aprenentatge supervisat usa dades prèviament etiquetades per a realitzar prediccions sobre les noves dades segons s’introdueixin. Per exemple, a partir de milers de fotos etiquetades amb hashtags, el programa pot determinar quins hashtags correspondrien a una nova foto. L’aprenentatge no supervisat es basa a facilitar un gran volum de dades sense etiquetar i deixar que l’ordinador identifiqui patrons i faci prediccions basant-se en aquests patrons, com ocorre, per exemple, amb els suggeriments de productes a Amazon, basats en compres similars per part d’altres clients. Finalment, el tipus més interessant és l’aprenentatge per reforç, que no empra un conjunt previ de dades, sinó que crea un agent que recopila dades en un determinat entorn, perseguint un determinat «premi» que suposa un reforç positiu.
L’aprenentatge automàtic és, per tant, un recurs que pot ser molt beneficiós per a desenvolupar un producte, si bé cal conèixer tant les limitacions d’aquesta tecnologia com les seves capacitats, determinar quin tipus d’ML s’adapta millor al projecte a desenvolupar i entendre que sempre hi ha un marge d’error. Aquest marge d’error implica experiències negatives en els usuaris i, per tant, s’han de considerar les conseqüències de l’ús d’algorismes d’ML. Fins i tot les grans empreses encara estan aprenent fins a on poden arribar amb l’aprenentatge automàtic.
Un altre aspecte en què s’està desenvolupant l’IA, com hem comentat al principi, està vinculat a l’auge dels assistents de veu a les llars. La intel·ligència artificial conversacional és una tecnologia que permet entaular una conversa amb una màquina com si es tractés d’una persona i transmetre-li ordres i preguntes amb un llenguatge natural en lloc d’etzibar expressions clau que el dispositiu pugui reconèixer. El desenvolupament d’aquest tipus d’IA s’emmarca en el que es denomina disseny conversacional, una especialització del disseny de producte basat en la conversa humana com a model per a la interacció amb sistemes digitals.
Erika Hall, cofundadora de Mule Design Studio i autora del llibre Conversational Design, afirma que en lloc de simplement centrar-se en les funcions que ha de complir el producte a dissenyar, cal plantejar-se com serà la interacció entre aquest producte i les persones que l’emprin, quins intercanvis es produiran, no solament en termes d’una interfície gràfica sinó més àmpliament en el diàleg que s’estableix entre el dispositiu i l’usuari.
Programar un programari que sigui capaç de mantenir una conversa amb una persona resulta enormement complex, ja que comporta ensenyar a la màquina no solament a ser capaç de reconèixer les paraules que pronuncia l’usuari sinó també a parlar de coses banals o emplenar el diàleg amb petites expressions quotidianes.
Per a una màquina programada per facilitar una resposta a una sol·licitud concreta, no és senzill mantenir una xerrada trivial.
Aquest recurs de la nostra interacció diària amb altres persones és quelcom que hem après al llarg de múltiples experiències i que s’ajusta a un context específic que sabem percebre i a la informació que tenim, o podem intuir, sobre el nostre interlocutor. Tot això introdueix un enorme nombre de variables i requereix recopilar una quantitat d’informació contextual que normalment va més enllà de les possibilitats del dispositiu. Amb tot, és possible simular una conversa natural recorrent a les expressions que s’empren més sovint en trobades en què se sap poc de l’interlocutor o hi ha poca cosa a dir, combinant aquestes expressions amb dades que es poden obtenir a internet.
Actualment s’aposta per tres línies possibles de desenvolupament dels sistemes d’IA que puguin mantenir una conversa natural amb una persona (Vlahos, 2018):
- Aprenentatge automàtic: alimentar una xarxa neuronal artificial amb milers de continguts de text, incloent converses i cadenes de missatges a plataformes populars com Reddit i Twitter. A partir de les dades recopilades en aquesta enorme quantitat d’interaccions entre els humans, el bot pot deduir quina resposta és més adequada en cada ocasió, si bé això pot portar al fet que el bot mantingui converses apàtiques o respongui de maneres impredictibles.
- Confecció d’una sèrie de regles: aquesta opció requereix molt més treball i implica determinar una sèrie de temes i respostes adequades a diferents situacions, que serveixen al bot de guia a mesura que identifica el tema de la conversa. El problema d’aquesta estratègia és que sovint condueix el bot a tractar de plantejar converses molt pautades, que clarament porten l’humà a parlar dels seus llibres favorits, pel·lícules o música dins d’un patró repetitiu.
- Un model híbrid: combinant les dues estratègies anteriors, és possible introduir una certa espontaneïtat en la conversa, alhora que es manté una certa direcció en les respostes.
Aquestes estratègies s’han dut a terme en el context de la primera edició de l’Alexa Prize, un concurs de talents convocat per Amazon i destinat als estudiants universitaris, que planteja el repte de programar un bot capaç de mantenir una conversa coherent amb una persona durant 20 minuts. Els resultats d’aquesta convocatòria han demostrat que el model híbrid és més eficient, però també que cal recopilar una enorme quantitat de dades, la qual cosa suposa entaular converses amb moltíssimes persones en diferents contextos. Actualment, Amazon està recopilant dades per mitjà de les interaccions dels usuaris amb la seva línia d’assistents de veu, mentre d’altres empreses busquen solucions similars, que, de vegades, poden resultar desastroses. Aquest va ser el cas de Tay, un chatbot d’intel·ligència artificial desenvolupat per Microsoft i llançat a Twitter el 23 de març de 2016. El bot pretenia simular la personalitat d’una noia nord-americana de 19 anys i estava programat per a aprendre de les seves converses amb altres usuaris. No obstant això, una de les característiques de Tay era usar elements de les respostes dels seus interlocutors, la qual cosa va ser ràpidament aprofitat per molts usuaris, els quals van començar a ensenyar-li a publicar missatges racistes i xenòfobs. En amb prou feines 16 hores i després de publicar més de 96.000 missatges, el compte de Tay va ser eliminat de Twitter. L’experiment no solament va portar a cancel·lar el desenvolupament del chatbot a la xarxa social, sinó que també va suposar una mala imatge per a l’empresa.
Les limitacions actuals de l’IA han conduït, de moment, a limitar l’àmbit en què es pretén aconseguir una conversa natural entre una màquina i un ésser humà. Google ha aplicat aquesta estratègia amb Duplex, una tecnologia centrada a realitzar de forma automàtica converses amb un llenguatge natural per telèfon per a dur a terme tasques quotidianes, com ara reservar una taula en un restaurant. En aquest tipus de conversa, les opcions són molt limitades. Habitualment, el diàleg consisteix a saludar, demanar hora (possiblement oferir un rang d’hores possibles si l’hora que se sol·licita no està disponible), confirmar els detalls de la cita i acomiadar-se. Totes aquestes opcions es poden preveure i desenvolupar respostes que es faciliten a l’IA, i permeten mantenir el diàleg una mica més semblant a un diàleg natural.
En aquest sentit, el projecte de Google no ajusta la tecnologia al món real, sinó que la situa en un context molt específic del món real que s’ajusta a les possibilitats actuals de l’IA.
A més, el plantejament d’aquesta solució és unidireccional: solament pensa en l’usuari o l’empresa que s’estalvia la molèstia de trucar per telèfon, però no té en compte la persona que atén el telèfon al comerç o empresa de serveis que rep la trucada. Aquesta persona és tractada com un mer facilitador d’informació o registrador d’una cita, per tant, es tracta com un robot o una base de dades. Al seu torn, això planteja un conflicte ètic i la possible resposta negativa de les persones que han d’interactuar amb aquesta IA. Per tant, el disseny de la intel·ligència artificial conversacional comporta considerar les complexes implicacions de la interacció entre els humans i les màquines, i també les múltiples maneres en què es desenvolupa la comunicació humana, que no sempre es pot limitar a unes quantes fórmules preestablertes.