340212 VU Speech Technologies (2025S)

6.00 ECTS (3.00 SWS), SPL 34 - Translationswissenschaft

Prüfungsimmanente Lehrveranstaltung

Moodle

Do 08.05. 16:45-19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG

An/Abmeldung

Hinweis: Ihr Anmeldezeitpunkt innerhalb der Frist hat keine Auswirkungen auf die Platzvergabe (kein "first come, first served").

Anmeldung von Mo 10.02.2025 09:00 bis Fr 21.02.2025 17:00
Anmeldung von Mo 10.03.2025 09:00 bis Fr 14.03.2025 17:00
Abmeldung bis Fr 21.03.2025 23:59

Details

max. 40 Teilnehmer*innen

Sprache: Englisch

Lehrende

Termine (iCal) - nächster Termin ist mit N markiert

Die Vorlesung startet am 13.3.

Donnerstag 13.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 20.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 27.03. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 03.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 10.04. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
N Donnerstag 08.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 15.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 22.05. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 05.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 12.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG
Donnerstag 26.06. 16:45 - 19:00 Medienlabor II ZfT Gymnasiumstraße 50 4.OG

Information

Ziele, Inhalte und Methode der Lehrveranstaltung

Ziele:

Diese Lehrveranstaltung stellt grundlegende Techniken und Methoden der Sprachtechnologie mit einem besonderen Augenmerk auf Sprachsynthese und Spracherkennung vor. Es werden auch linguistische Grundlagen der Sprachproduktion und Grundlagen der Signalverarbeitung vorgestellt. Aktuelle Forschungsbereiche sowie der aktuelle Stand der Forschung werden beleuchtet und diskutiert. Es werden sowohl klassische Methoden, die nach wie vor in hybriden Architekturen relevant sind, als auch die neuesten auf neuralen Netzwerken basierenden Methoden präsentiert.

Inhalt:

13.3.:
Lecture 1
1. Introduction
2. Phonetics

Lecture 2
3. Signal Processing and classical vocoder
4. Minimum Edit Distance (MED) and Dynamic Time Warping (DTW)

Lecture 3
5. Hidden-Markov-models (HMM)
6. N-gram language models

Exercise 1

Lecture 4
7. Vector semantics and embeddings
8. Feed-forward Neural Networks (NN)

Lecture 5
9. Convolutional NN, RNN and LSTM
10. Transformer

Lecture 6
11. Speech synthesis: DNN based vocoders
12. Speech synthesis: DNN based acoustic models

Lecture 7
13. Speech recognition: DNN based acoustic models
14. Speech recognition: DNN based language models

Exercise 2

Programming exercise

Methodik:

Theoretische Vorstellung der Grundlagen des Bereichs der Sprachtechnologie.
Erarbeitung und Umsetzung einer praktischen Anwendung zu einer aktuellen Aufgabenstellung im Bereich der Lehrveranstaltung.
Selbstständiges Lösen von Übungsaufgaben

Art der Leistungskontrolle und erlaubte Hilfsmittel

Übung 1: Schriftlicher Test mit Fragen aus den Vorlesungen 1-3 (keine Hilfsmittel erlaubt).

Übung 2: Schriftlicher Test mit Fragen aus den Vorlesungen 4-7 (keine Hilfsmittel erlaubt).

Programmierübung (Handout am TBD, Abgabe am TBD): Entwicklung eines Akzenterkennungssystems, das den gesprochenen Akzent aus einem Sprachsignal erkennen kann, in einer Gruppe von 3-4 StudentInnen und Präsentation der Ergebnisse.

Mindestanforderungen und Beurteilungsmaßstab

Sie müssen 50% der möglichen Punkte erreichen für eine positive Note.

Die Note hängt von den Ergebnissen der beiden Tests (je 30%) und der Programmieraufgabe ab (40%).

Sie müssen anwesend sein, maximal 2 verpasste Vorlesungseinheiten sind möglich .

Prüfungsstoff

Übung 1: Schriftlicher Test mit Fragen aus den Vorlesungen 1-3 (keine HIlfsmittel erlaubt).

Übung 2: Schriftlicher Test mit Fragen aus den Vorlesungen 4-7 (keine HIlfsmittel erlaubt).

Literatur

D. Jurafsky, J. H. Martin, Speech and Language Processing, https://web.stanford.edu/~jurafsky/slp3/
I. Goodfellow, Y. Bengio, A. Courville, Deep learning. MIT press, 2016.
B. Pfister, T. Kaufmann, Sprachverarbeitung, Springer, 2008.
J. H. McClellan, R. W. Schafer, M. A. Yoder, DSP first: A multimedia approach, Prentice Hall, 1998.
Duda, Richard O. and Hart, Peter E. and Stork, David G., Pattern Classification, 2000.

Zuordnung im Vorlesungsverzeichnis

M7 Language Technologies (12 ECTS)

Joint-Master Multilingual Technologies (587) ➡ Pflichtmodule (79 ECTS)

Letzte Änderung: Do 13.03.2025 10:47