Apple heeft woensdag drie nieuwe artikelen gepubliceerd waarin de diepgaande leertechnieken worden beschreven die worden gebruikt voor het creëren van Siri's nieuwe synthetische stemmen. De beschrijvingen hebben ook betrekking op andere onderwerpen over machine learning die het later deze week zal delen op de Interspeech 2017-conferentie in Stockholm, Zweden.
De volgende nieuwe artikelen van het Siri-team zijn nu beschikbaar:
- Diep leren voor Siri's Voice-details over hoe diepe mengdichtheidsnetwerken op het apparaat worden gebruikt voor synthese van hybride eenheden
- Inverse Text Normalization-benaderd vanuit een labelperspectief
- Verbetering van neurale netwerk akoestische modellen - door gebruik te maken van cross-bandbreedte en cross-lingual initialisatie, als u begrijpt wat ik bedoel
Als u problemen hebt met het begrijpen van de technische aspecten of zelfs het begrijpen van de zeer technische aard van de taal die wordt gebruikt in de nieuwste beschrijvingen, bent u niet alleen.
Ik heb er geen probleem mee om diep in de complexe documentatie van Apple voor ontwikkelaars en andere gespecialiseerde documentatie te duiken, maar ik voel me gewoon dom om alleen die gedetailleerde uitleg te lezen.
Naast andere verbeteringen levert iOS 11 meer intelligentie en een nieuwe stem voor Siri.
De persoonlijke assistent van Apple gebruikt niet langer zinnen en woorden die zijn opgenomen door stemacteurs om zinnen en de antwoorden te construeren. In plaats daarvan neemt Siri op iOS 11 (en andere platforms) programmatisch gecreëerde mannelijke en vrouwelijke stemmen aan. Dat is een veel hardere techniek voor stemsynthese, maar het biedt een aantal echt coole creatieve mogelijkheden.
De nieuwe Siri-stemmen profiteren bijvoorbeeld van machinaal leren op het apparaat en kunstmatige intelligentie om intonatie, toonhoogte, nadruk en tempo aan te passen terwijl ze in realtime spreken, rekening houdend met de context van het gesprek. Het artikel van Apple getiteld "Deep Learning for Siri's Voice" beschrijft de verschillende deep learning-technieken achter de Siri-stemverbeteringen van iOS 11.
Volgens de openingsparagraaf:
Siri is een persoonlijke assistent die communiceert met behulp van spraaksynthese. Beginnend in iOS 10 en verder met nieuwe functies in iOS 11, baseren we Siri-stemmen op diep leren. De resulterende stemmen zijn natuurlijker, vloeiender en laten Siri's persoonlijkheid doorschijnen.
De nieuwe artikelen werden gepubliceerd op het officiële Apple Machine Learning Journal-blog, dat enkele weken geleden werd opgericht om de inspanningen van het bedrijf op het gebied van machine learning, kunstmatige intelligentie en aanverwant onderzoek te dekken..
Apple ging verder met de blog na kritiek dat het de slimste geesten in kunstmatige intelligentie en machine learning niet kon inhuren omdat het hen niet zou toestaan hun werk te publiceren.
De inaugurele titel, getiteld "Verbetering van het realisme van synthetische beelden", werd in juli gepubliceerd. Het diepgaande artikel schetst een nieuwe methode voor het verbeteren van het realisme van synthetische afbeeldingen van een simulator met behulp van niet-geëtiketteerde echte gegevens met behoud van de annotatie-informatie.