L’Audio Recognition è la scienza che permette di avere macchine in grado di identificare suoni di qualsiasi tipo: persone che parlano, cani, aerei, suoni ambientali, ecc.

È una nuova disciplina, per cui ci sono elementi che capiamo e altri ancora da scoprire. Solitamente l’Audio Recognition viene riconosciuto come elemento di Artificial Intelligence.  Ma ci siamo mai fermati a pensare quanto lavoro umano ci sia dietro a una soluzione AI?

Il ruolo dei Dati e della Human Intelligence nell’Audio Recognition

Abbiamo definito l’Audio Recognition elemento d’Intelligenza Artificiale, il che significa che tutto parte dai Dati, in questo caso registrazioni audio.

Così come le persone che lavorano alla composizione di un dizionario devono trovare una definizione per ogni parola, la macchina deve saper classificare i suoni che sente e ricondurli a delle informazioni.

Partiamo però dal presupposto che la tecnologia non nasce intelligente. Dietro ad essa c’è il lavoro umano che, ancora prima di programmare la macchina, si occupa della classificazione dei Dati. Ciò consiste nella creazione di un modello di base dati collegati ad una serie di informazioni. Per far sì che il software identifichi che nell’audio c’è la voce di Mario Rossi, che parla in italiano e che sta in un aeroporto, bisognerà creare una base dati che classifichi un determinato suono come “nome: Mario Rossi”, un altro come “lingua: italiana” e un altro ancora come “luogo: aeroporto”. Inoltre, ci sono dei suoni che non vanno considerati, ad esempio rumori che disturbano un audio di bassa qualità. Anche in questo caso vanno classificati, stavolta in modo che la macchina capisca che deve escluderli dall’analisi.

In sostanza il programmatore fa capire alla macchina la variabilità del dato, quindi tutti gli elementi che rendono un suono diverso dall’altro. Dopodiché insegna al dispositivo come definire che quella particella di suono corrisponde a un determinato oggetto (persona, luogo, lingua, ecc.).

 

La genetica del suono

Ogni audio può lasciare più “impronte vocali” riconducibili a diverse informazioni. Esattamente come l’impronta digitale, fornisce all’investigatore delle informazioni sul sospettato del crimine, risalendo al DNA e quindi all’identità della persona.

Il programmatore che si occupa di creare il software di Audio Recognition, parte dalla scomposizione del suono in piccole particelle che possiamo chiamare “Audiosomi”. Definiamo Audiosoma l’identificativo univoco che concorre a comporre l’impronta di un audio vocale/suono. Successivamente l’addetto classifica quegli Audiosomi, in modo che la macchina, attraverso algoritmi di Machine Learning, capisca quando un insieme di tali particelle compongono un’impronta vocale, piuttosto che un’altra.

 

Il lato umano dell’Artificial Intelligence

«L’Intelligenza Artificiale è una disciplina appartenente all’informatica che studia i fondamenti teorici, le metodologie e le tecniche che consentono la progettazione di sistemi hardware e sistemi di programmi software capaci di fornire all’elaboratore elettronico prestazioni che, a un osservatore comune, sembrerebbero essere di pertinenza esclusiva dell’Intelligenza Umana.»

(Marco Somalvico)

Il modo di agire e di risolvere i problemi dell’Artificial Intelligence ricalca quello umano. Questo perché l’uomo è riuscito a riprodurre su delle macchine determinati meccanismi della mente umana.

Facciamo l’esempio di una cimice che registra i suoni che ha attorno. L’audio che ne risulta è un dato che se non viene elaborato e collegato ad altri dati, non diventerà mai informazione. In questo caso il ruolo giocato dall’investigatore è fondamentale. Ascolta la registrazione e riconosce delle voci (se sono di persone a lui note), delle lingue, il genere e altri indizi. Il limite di questo processo però è che il risultato dipende dalla capacità del singolo investigatore di elaborare determinati dati. Se andasse in pensione, potrebbe capitare che nessun altro riesca ad individuare le identità di determinate voci.

L’Audio Recognition simula il procedimento umano di elaborazione dei dati trasformandoli in informazioni. Per certi versi supera la capacità umana perché capace di elaborare molti più dati insieme, in tempi di gran lunga inferiori. Ma non dobbiamo dimenticare che tutto parte dalla Human Intelligence che crea l’AI.

 

Le Soluzioni di Pragma Etimos

Sviluppiamo software di Audio Recognition per la definizione di «impronte vocali» e il riconoscimento delle voci estrapolate da file audio indipendentemente dalla sorgente e dalla qualità. Le nostre soluzioni sono costruite su misura al cliente e integrabili con eventuali tecnologie già in uso.

In particolare i servizi che offriamo sono:

  • Identificazione impronte vocali
  • Speaker Diarization
  • Identificazione della lingua
  • Identificazione di genere
  • Stima dell’età
  • Rilevamento dell’attività vocale
  • Stima della qualità del parlato

POTREBBE INTERESSARTI ANCHE…

biometria vocale- audio recognition

BIOMETRIA VOCALE: 3 VANTAGGI PER LA PREVENZIONE DEI CRIMINI E LE ATTIVITÀ INVESTIGATIVE

La biometria vocale è uno strumento sempre più usato nell’ambito della sicurezza per la prevenzione di crimini e le attività investigative. La voce di ogni persona ha caratteristiche uniche correlate a qualità fisiologiche che ne definiscono le frequenze. È per questo…

Leggi tutto

audio recognition

ANCORA NON SAI COS’È L’AUDIO RECOGNITION?

Oggi con lo sviluppo tecnologico e l’arrivo dell’Intelligenza Artificiale è possibile in pochi secondi identificare la natura di un suono attraverso soluzioni di Audio Recognition.   Cos’è l’Audio Recognition L’Audio Recognition è quell’elemento d’Intelligenza…

Leggi tutto

Share This