Platforma HUMANIPA za razvoj inteligentnih pogovornih agentov (AI-based CA)

Pogovorni vmesniki (CI) in pogovorni agenti (CA) so vmesniki prihodnosti za interakcijo med človekom in strojem (HMI). To so sistemi, ki temeljijo na programski opremi in so razviti za interakcijo z ljudmi z uporabo naravnega jezika na podlagi umetne inteligence in naprednih zmogljivosti animacije računalniške grafike. Zato se jim posveča veliko pozornosti na področju umetne inteligence (AI), podpornih življenjskih okolij (AAL), robotike, sistemov interakcije človek-stroj (HMI) in interneta stvari (IoT).

Funkcionalna arhitektura platforme HUMANIPA. Strojna platforma za kognitivno platformo HUMANIPA se gradi v okviru internega projekta DSPLab IoT.  

(1) Jezikovni izrazi se morajo povezovati z nejezikovnimi, zlasti perceptivnimi (perceptual) podatki (informacije, ki so vir modalnosti, kot so vid, akustika itd.), saj je to v bistvu ključni vidik za pridobivanja pomena oz. razumevanja pogovornih dejanj. To je dolgoletni izziv za umetno inteligenco AI. V tem kontekstu se v predstavljeni arhitekturi sistema osredotočamo na uporabo multimodalne informacije za razumevanje, učenje in generiranje pogovornega obnašanja na inteligentnih pogovornih agentih. 

(2) Gradimo podatkovne vire (EVA-Corpus) in postavljamo standard za multimodalni vir podatkov, ki bo omogočil bolj celovit opis pogovornega obnašanja, ki je značilno za spontano interakcijo med ljudmi. V tem delu sistema potekajo raziskave na področju večmodalnih (E)CA in CI, večmodalnega jezikoslovja in večmodalnih socialnih sistemov dialog s konsolidacijo in uporabo raznih večmodalnih korpusov (npr. Nomco korpus), ki zajemajo informacije potrebne za reševanje raziskovalnih vprašanj, nalog in hipotez postavljenih v okviru projekta Humanipa. Aktivnost projekta je močno povezana v tem delu tudi s projektom COST CA18231.

1
2
3
4
5
6
7
8

(3) V okviru projekta razvijamo nov CLU koncept, kot edinstven pristop, ki razvija idejo, da so verbalni in neverbalni pogovorni signali komplementarni in enako pomembni v pogovornih izrazih. Razvijamo nov model na osnovi fuzije, in tudi algoritme na osnovi AI, ki bodo sposobni ustvarjati poglobljeno razumevanje v kognitivnem medsebojnem sovplivanju za komunikativni namen kot osrednjim jedrom v človeški spontani interakciji. Ti algoritmi temeljijo na tehnikah globokega učenja in uporabljajo signale, ki jih vsebuje EVA-Corpus. Poleg področja procesiranja naravnega jezika (NLP) in razumevanje govorjenega jezika (NLU) upoštevamo kot pomembno vlogo v interakciji človek-stroj tudi gestikulacijo in vso neverbalno komunikacijo, kot tudi izražanje informacij ne samo z besedami. V neposredni spontani interakciji so neverbalni signali generirani in posredovani skupaj z govorjeno vsebino (ali celo v njeni odsotnosti) in so zato tudi ključni za vzpostavljanje kohezije v diskurzu. Verbalni/lingvistični deli govorjenega jezika (npr. besede, slovnica, sintaksa) nosijo simbolično/semantično interpretacijo sporočila, medtem ko ko-verbalni deli (npr. geste, izrazi, prozodija) nosijo socialno komponento vsakega sporočila in služijo kot orkestrator celotne komunikacije, ki jo želimo v okviru CLU ustrezno predstaviti in razumeti. CLU torej v arhitekturi predstavlja model fuzije, ki temelji na večkanalni/večsignalni predstavitvi ideje z uporabo avdio in vizualnih signalov; npr. kot globalna funkcija fuzije, ki jo sestavlja več parcialnih funkcij, ki procesirajo posamezne skupine signalov v pogovornem prostoru.  

(4-6) V okviru CLU razvijamo učinkovite algoritme strojnega učenja, metode in aplikacije za generiranje pogovornega obnašanja. Zanimajo nas ML tehnike, ki stojijo za najsodobnejšimi modeli generiranja jezika (LG), pri katerih je prišlo do znatnega napredka na račun uporabe različnih arhitektur globokih nevronskih mrež in strategije integracije večmodalnih podatkov. V okviru CLU tako razvijamo programsko opremo za procesiranje jezika in vizualnih vsebin. V arhitekturi sistema so v sklopu tega modula integrirane rešitve na osnovi globokega učenja, in sicer  strojno prevajanje besedil/transkripcij, razpoznavanje tekočega govora, sinteza govora, in sistemi chatbotov, kot so Chatterbot in Rasa. CLU se razvija za več jezikov v skladu z zahtevami projekta PERSIST.

 

(7) Vso procesiranje in pretok podatkov (govor, text, senzorski podatki, vizualni podatki itd.) združujemo z uporabo Apache Kafka sistema. Kafka se uporablja za razvoj realno-časovnega cevovodenja podatkov in za pretočne aplikacije (streaming). Je horizontalno razširljiv (skalabilen) in odporen na napake.

(8) Razvoj algoritma generiranja pogovornega obnašanja na osnovi CLU in multimodalnega sistema dialoga skozi arhitekturo sistema sinteze govora PLATOS, kot je predlagano v COVERBAL-BEHAVIOR.