Asistent transcripció actes òrgans col·legiats
avaluació
Sistema per la transcripció i minutatge de les intervencions dels membres dels òrgans col·legiats (ple municipal)
Departaments: 01.01 - Ordenació corporativa i administrativa (Servei)
Contacte: LLTR - Cap de servei d'Ordenació Corporativa i Administrativa
Correu electrònic: actes@tarragona.cat
Adreça web: http://actes.tarragona.cat
Àrea geogràfica: Intern a l’organització. Sense impacte territorial
Cas d'ús
Objectius
Obtenir la transcripció de la sessió així com l’índex d’intervencions dels membres de les sessions d’òrgans col·legiats, de forma automatitzada
Riscos
Identificació incorrecte de l'orador/a
Transcripció amb possibles errades
Proporcionalitat
Complement del suport audio/vídeo i afavorir la productivitat administrativa en la transcripció de les sessions per a la generació de les actes de la sessió
Algorisme i dades
Tipus d'algorisme
El sistema extreu el patró de veu (embedding) mitjançant d’un sistema SDA (Speed Activity Detector) basat en CNN (Convolutional Neural Network), tot a partir d’un fragment d’àudio del membre. A partir del embedding, el sistema identifica l’orador en temps real mitjançant un sistema SR (Speak Recognition) basat en CNN-T
Descripció algorisme
El sistema de gravació integra un sistema de reconeixement d’orador. El reconeixement de veu contempla dues fases: la primera fase consisteix en la caracterització prèvia del patró de veu (embedding) dels membres dels òrgans col·legiats (ple municipal) i una segona fase que inclou el reconeixement en temps real a partir de la detecció del patró de veu a les sessions on participen aquests membres, i la generació de l’índex d’intervencions de forma automàtica a la plataforma de gestió de les actes. Aquest mateixa tecnologia permet generar la transcripció, és a dir la transformació de l’àudio a text, que després es pot consultar i descarregar des de la plataforma de gestió de les actes.
El sistema analitza trames d’àudio amb una longitud d’1 segon en múltiples processos amb una superposició de 0,5 segons. Això permet al sistema reconèixer l’orador en temps real.
Cada procés analitza el fragment d'àudio per detectar un membre mitjançant un sistema SDA (Speed Activity Detector) basat en CNN (Convolutional Neural Network). En cas de detectar un membre, s'extreu un embedding i s'intenta identificar el membre mitjançant un sistema de SR (Speak Recognition) basat en CNN-Transformer. En cas de detectar el membre, el sistema de reconeixement de veu reportarà la seva identitat a l'ecosistema IOn, i alhora a la plataforma de gestió de les actes de la sessió.
Mètodes i models
Sistema SDA (Speed Activity Detector) basat en CNN (Convolutional Neural Network), i sistema SR (Speak Recognition) basat en CNN-Transformer
Dades d'entrenament
El sistema de minutatge de les intervencions genera un patró de veu (embedding) a partir de les gravacions dels àudios dels membres dels òrgans col·legiats (ple municipal). Aquest embedding caracteritza el patró de veu de tots els membres d’una forma unívoca i permet al sistema reconèixer el membre en temps real a les sessions que participa, i per tant crear l’índex de les intervencions de forma automàtica.
L’arquitectura de xarxa a partir del qual es genera el patró de veu consta de dues parts: l’extracció de les característiques, on s’utilitza una CNN (Convolution Neural Network) per codificar l’espectograma i extreure característiques a nivell de fotograma, i l’agregació, que agrega tots els descriptors locals en una única representació compacta de longitud arbitrària. Aquesta representació és el que anomenem embedding i s’utilitza pel motor del reconeixement de veu.
Dades font
Es parteix d’una gravació d’un àudio de cada membre dels òrgans col·legiats (ple municipal) que volem reconèixer i indexar la seva intervenció. És la gravació d’un text que no conté cap contingut sensible, i són frases soltes que contemplen gran part dels fonemes lingüístics i que ens ajudin a caracteritzar millor el patró de veu del membre.
Connexions a fonts de dades
No es connecta a cap base de dades de registres personals o a altres fonts de dades externes.
Biaix de dades
El sistema té la capacitat d’agregar nous descriptors del patró de veu (embedding) a partir de les sessions que s’analitzen i a les quals intervé el membre. D’aquesta manera, el sistema és capaç d’adquirir coneixement a partir de les gravacions i l’anàlisi dels plens municipals on participen els membres.
Rendiment
El rendiment es mesura amb la capacitat d’indexar de forma automàtica les intervencions a la plataforma de gestió de les actes de tots els membres dels òrgans col·legiats (ple municipal) identificats prèviament amb el seu patró de veu.
També es pot mesurar l’eficiència de la transcripció automàtica (l’àudio a text) que es pot també consultar i descarregar de la pròpia plataforma de gestió de les actes.
Supervisió
Intervenció humana
El responsable, aplica supervisió i correcció, previ a l'aprovació de l'acta i publicació