choralplus20jan2011

20
audio indexering service Catch+ deelproject CHoralPlus

Upload: catchplus-project

Post on 09-Jun-2015

2.521 views

Category:

Technology


0 download

TRANSCRIPT

  • 1. audio indexering service
    Catch+ deelproject
    CHoralPlus

2. Jantje Steenhuis
Mies Langelaar
Franciska de Jong
Marijn Huijbregts
Roeland Ordelman
3. upload file
4. doel
ontwikkeling dienst voor laagdrempelig gebruik automatische spraakherkenning ten behoeve van automatische indexering A/V collecties
op basis van in CATCH-CHoral ontwikkelde spraakherkenningstoolkit SHoUT
5. Zoeken op fragment niveau in A/V
INDEXERING EN ZOEKEN
Tijdgecodeerde transcriptie
AUTOMATISCHE SPRAAKHERKENNING
6. 7. componenten
gesproken woord
sprekersegmentatie
spraak/niet -spraak
spraak/niet-spraak detectie
sprekersegmentatie en clustering
spraakherkenning
oplijnen: synchroniseren van tekst met audiobestand/tijdlabels verbinden aan woorden
speaker changes
8. Gerealiseerd
projectplan
basisversie service
platform
systeemintegratie
input/output via internet
testen met kleine data set
procesmonitoring
2009
9. Gerealiseerd
Ontwikkeling service front-end:
webinterface
accountsysteem
terugmelding (via email)
Ontwikkeling back-end:
adaptatie op basis aangeleverde metadata
load balancing/resultaatafhandeling test met 6T Radio Rijnmond Corpus (optimalisatie, foutverwerking, monitoring)
2010
10. workflow
A/V
text
src
front-end
account beheer
resultaat terugmelding
text-verwerking
audio extractie
taalmodel
adaptatie
back-end
reken
cluster
(nu: 8 cores)
Monitoring +
Resultaat
management
oplijning
spraakherkenning
11. Service front-end: account
account(s) per erfgoedinstelling
accountname = instelling.domein
bv: gar.rr (GAR Radio Rijnmond Collectie)
domein voor specifieke domein instellingen (grote collectie, mate van adaptatie, etc)
elk acount heeft
een max. aantal uren om te verwerken
(optioneel) specifieke ASR configuratie
12. Service front-end: upload
handmatig via web individuele files uploaden
geintegreerd in lokale systemen:
via http (op basis vast ip-adres)
via low-level (ssh) connectie (voor grootverbruikers)
mogelijkheid om tekstbestanden mee te sturen voor oplijning of adaptatie
13. Service front-end: status
huidige implementatie:
status updates via email such as
job started on X-MI ASR SERVICE
we are sorry but you have exceeded your quota for your account
we received your file. Your job is being prepared to be processed
we have finished the ASR process. The transcription will be send to you in a separate mail
14. 15. 16. 17. 18. Planning
Upgrade web-interface
status, primitieve zoekfunctie
Online testen met erfgoedinstellingen:
Gemeenteraadsvergaderingen
Verteld Verleden
Draft business plan voor consolidatie service
Eindrapportage
2011
19. catalogue
Content management
ICT person
Selection
mechanism
archivist
check
workflow management
send
folder
results
folder
ASR
connection
ASR
service
ASR management
ASR specialist