Große Sprachmodelle sind eine relativ neue und beeindruckende Technologie im Bereich der künstlichen Intelligenz. Ein wichtiger erster Meilenstein auf diesem Gebiet war der Chatbot Eliza, der in den 1960er Jahren entwickelt wurde. Seitdem hat sich die Technologie exponentiell weiterentwickelt. Heutige Sprachmodelle wie GPT-3 sind in der Lage qualitativ hochwertige, menschenähnliche Texte zu generieren. Im Seminar wird ein Überblick über die Grundlagen der Sprachmodellierung und die wichtigsten Methoden und Technologien gegeben, die für die Entwicklung von Sprachmodellen verwendet werden. Dazu gehören Themen wie Machine Learning, Natural Language Processing und Deep Learning [2,3,4,5].
Die Studierenden werden in die Arbeit mit Sprachmodellen eingeführt und lernen Schritt für Schritt, wie sie Sprachmodelle trainieren, evaluieren und anwenden können. Einen wichtigen Aspekt des Seminars bildet dabei auch die Frage, wie und wozu Sprachmodelle in verschiedenen Bereichen wie der Textgenerierung, der Spracherkennung und der Übersetzung eingesetzt werden können. Es wird diskutiert, welche Auswirkungen sich für das Lernen, die Lehre und die persönliche Informationsverarbeitung ergeben. Dabei werden praktische Beispiele aus verschiedenen Anwendungsbereichen vorgestellt [6,7].
Abschließend setzen die Studierenden ihre Kenntnisse in einem gemeinsamen Projekt um und entwickeln ein Sprachmodell für eine spezifische Anwendung.
References:
Introduction to Machine Learning:
[1] https://course.fast.ai/
Deep Learning with PyTorch:
[2] https://pytorch.org/
Transformers for Natural Language Processing:
[3] https://huggingface.co/transformers/
Language Modeling:
[4] https://github.com/karpathy/makemore
Instruction Fine-Tuning:
[5] https://ai.googleblog.com/2023/02/the-flan-collection-advancing-open.html
Open Assistant:
[7] https://open-assistant.io/dashboard