340212 VU Speech Technologies (2025S)
Prüfungsimmanente Lehrveranstaltung
Labels
An/Abmeldung
Hinweis: Ihr Anmeldezeitpunkt innerhalb der Frist hat keine Auswirkungen auf die Platzvergabe (kein "first come, first served").
- Anmeldung von Mo 10.02.2025 09:00 bis Fr 21.02.2025 17:00
- Anmeldung von Mo 10.03.2025 09:00 bis Fr 14.03.2025 17:00
- Abmeldung bis Fr 21.03.2025 23:59
Details
max. 40 Teilnehmer*innen
Sprache: Englisch
Lehrende
Termine (iCal) - nächster Termin ist mit N markiert
Die Vorlesung startet am 13.3.
- Donnerstag 13.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 20.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 27.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 03.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 10.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- N Donnerstag 08.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 15.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 22.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 05.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 12.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
- Donnerstag 26.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Information
Ziele, Inhalte und Methode der Lehrveranstaltung
Art der Leistungskontrolle und erlaubte Hilfsmittel
Übung 1: Schriftlicher Test mit Fragen aus den Vorlesungen 1-3 (keine Hilfsmittel erlaubt).Übung 2: Schriftlicher Test mit Fragen aus den Vorlesungen 4-7 (keine Hilfsmittel erlaubt).Programmierübung (Handout am TBD, Abgabe am TBD): Entwicklung eines Akzenterkennungssystems, das den gesprochenen Akzent aus einem Sprachsignal erkennen kann, in einer Gruppe von 3-4 StudentInnen und Präsentation der Ergebnisse.
Mindestanforderungen und Beurteilungsmaßstab
Sie müssen 50% der möglichen Punkte erreichen für eine positive Note.Die Note hängt von den Ergebnissen der beiden Tests (je 30%) und der Programmieraufgabe ab (40%).Sie müssen anwesend sein, maximal 2 verpasste Vorlesungseinheiten sind möglich .
Prüfungsstoff
Übung 1: Schriftlicher Test mit Fragen aus den Vorlesungen 1-3 (keine HIlfsmittel erlaubt).Übung 2: Schriftlicher Test mit Fragen aus den Vorlesungen 4-7 (keine HIlfsmittel erlaubt).
Literatur
D. Jurafsky, J. H. Martin, Speech and Language Processing, https://web.stanford.edu/~jurafsky/slp3/
I. Goodfellow, Y. Bengio, A. Courville, Deep learning. MIT press, 2016.
B. Pfister, T. Kaufmann, Sprachverarbeitung, Springer, 2008.
J. H. McClellan, R. W. Schafer, M. A. Yoder, DSP first: A multimedia approach, Prentice Hall, 1998.
Duda, Richard O. and Hart, Peter E. and Stork, David G., Pattern Classification, 2000.
I. Goodfellow, Y. Bengio, A. Courville, Deep learning. MIT press, 2016.
B. Pfister, T. Kaufmann, Sprachverarbeitung, Springer, 2008.
J. H. McClellan, R. W. Schafer, M. A. Yoder, DSP first: A multimedia approach, Prentice Hall, 1998.
Duda, Richard O. and Hart, Peter E. and Stork, David G., Pattern Classification, 2000.
Zuordnung im Vorlesungsverzeichnis
Letzte Änderung: Do 13.03.2025 10:47
Lecture 1
1. Introduction
2. PhoneticsLecture 2
3. Signal Processing and classical vocoder
4. Minimum Edit Distance (MED) and Dynamic Time Warping (DTW)Lecture 3
5. Hidden-Markov-models (HMM)
6. N-gram language modelsExercise 1Lecture 4
7. Vector semantics and embeddings
8. Feed-forward Neural Networks (NN)Lecture 5
9. Convolutional NN, RNN and LSTM
10. TransformerLecture 6
11. Speech synthesis: DNN based vocoders
12. Speech synthesis: DNN based acoustic modelsLecture 7
13. Speech recognition: DNN based acoustic models
14. Speech recognition: DNN based language modelsExercise 2Programming exerciseMethodik:Theoretische Vorstellung der Grundlagen des Bereichs der Sprachtechnologie.
Erarbeitung und Umsetzung einer praktischen Anwendung zu einer aktuellen Aufgabenstellung im Bereich der Lehrveranstaltung.
Selbstständiges Lösen von Übungsaufgaben