Whishper: trascriviamo audio in locale sfruttando l'AI

Chi mi conosce sa che ho un rapporto complicato con l'intelligenza artificiale. Ritengo sia qualcosa di eccezionale, ma usato non nel migliore dei modi. Diciamo che si può riassumere tutto al meglio con questo meme così non mi perdo in sproloqui:

fonte: https://twitter.com/AuthorJMac/status/1773679197631701238

Ora che abbiamo smarcato questo doveroso preambolo arrivo al punto: avevo bisogno di trascrivere degli audio in locale (sai com'è, la privacy e tutto il resto...) e mi son messo a guardare software e strumenti per farlo senza dovermi ascoltare ore di registrazioni. Ho così scoperto l'esistenza di un software Open Source chiamato Whishper che sfrutta l'AI per fare esattamente ciò di cui avevo bisogno.

Fantastico. Installiamolo!

GNU/Linux o Windows?

A prescindere dal sistema utilizzato l'installazione è molto semplice: basta avere Docker e Docker Compose sul PC (su GNU/Linux lo si installa dai repository o dal sito ufficiale, su Windows basta installare Docker Desktop che comprende entrambi). Mi raccomando se state installando sotto Windows attenzione a riavviare la macchina post-installazione di Docker Desktop (sì, nel 2024...) e lanciare l'applicazione dopo il riavvio per accettare i ToS. Se però sotto GNU/Linux basta lanciare uno script, su Windows è un filo più complicato perché lo script ufficiale può dare qualche rogna, ma vediamo al volo come installarlo anche lì.

Da Powershell scarichiamo il file di Docker Compose, il file environment, scarichiamo i container e lanciamo il Compose:

curl -o docker-compose.yml https://raw.githubusercontent.com/pluja/whishper/main/docker-compose.yml

curl -o .env https://raw.githubusercontent.com/pluja/whishper/main/example.env

docker-compose pull

docker-compose up -d

Fatto? Benissimo, ora andando su http://localhost:8082 dovrebbe rispondere la nostra istanza locale di Whishper prontissima a ricevere file (o URL) e trascriverne agilmente il contenuto.

Voglio saperne di più!

Se vi interessa l'argomento vi lascio un paio di link ufficiali per approfondire e comprendere al meglio alcuni concetti:

Aggiungo, giusto per ingolosirvi, che sulla documentazione ufficiale sono disponibili anche le informazioni per rendere l'istanza di Whishper visibile all'esterno (quindi Reverse Proxy e compagnia) e per modificare le trascrizioni in modo estremamente comodo.

🕸️🕸️🕸️