Deep Learning zur Klassifikation deutscher Texte (Sentiment Analysis)

Big Data & Algorithmic Business
13.09.2018


9:10 – 17:00 Uhr
ETH ZĂŒrich
Max. Teilnehmer: 12

Einleitung

Die Stimmungsanalyse von kurzen deutschen Texten ist u.a. im Kontext sozialer Medien eine aktuell sehr gefragte Anwendung von Natural Language Processing (NLP) und kann mit Deep Learning Methoden umgesetzt werden.

Im Workshop wird dieses konkrete Beispiel vollstĂ€ndig umgesetzt, d.h. die komplette Verarbeitungskette wird von den Teilnehmenden mit einem Deep Neuronal Network implementiert. DafĂŒr werden ausschliesslich frei verfĂŒgbare Komponenten, Frameworks und Trainingsdaten eingesetzt.

Der Workshop ist fĂŒr Einsteiger mit Grundkenntnissen gedacht. Es geht allerdings nicht darum, Deep Learning oder Machine Learning theoretisch zu erklĂ€ren oder die allgemeinen Grundlagen davon zu vermitteln. Stattdessen wird ein konkreter Anwendungsfall mit aktuellen Deep Learning AnsĂ€tzen umgesetzt. Der Fokus des Workshops liegt auf der VollstĂ€ndigkeit der Pipeline und der Umsetzung, wobei die einzelnen Schritte im Kontext der  Gesamtlösung erlĂ€utert werden.

Durch die KĂŒrze der Zeit werden fĂŒr die einzelnen Schritte vorgefertigte Komponenten genutzt. Je nach Vorkenntnissen der Teilnehmendenund dem Vorankommen in der Gruppe können wir mehr in die Tiefe vordringen und die Details der einzelnen Verarbeitungsschritte erkunden.

Programm

  • Vorstellung und Agenda
  • Zugang zu den Cloudinstanzen
  • Frameworks + Umgebung (conda, pytorch, VS Code, Jupyter Notebook)
  • Einen Korpus laden, „Hello Korpus“
  • Tokenizer
  • PoS-Tagger
  • Word Embeddings
  • ML-Modelle persistieren
  • Komplette Architektur der Lösung
  • Training mit Daten des GermEval 2018
  • Evaluierung der trainierten Modelle
  • Conclusions

Kursziel

Der Workshop gibt den Teilnehmenden:

  • einen Überblick ĂŒber eine vollstĂ€ndige Lösung zur Klassifikation deutscher Texte auf Basis von Deep Learning.
  • konkrete Einstiegspunkte um einzelne Teile der Lösung im Workshop oder spĂ€ter im Selbststudium genauer zu verstehen.
  • die Erfahrung, ein funktionierendes Beispiel eines Deep Learning Systems selbst implementiert zu haben.
  • die Möglichkeit, dieses System an eigene Situationen anzupassen.
  • eine Menge vertiefender Informationsquellen zum Thema NLP, insbesondere fĂŒr Klassifikation deutscher Texte.
  • geeignete Trainingsdaten in deutscher Sprache.
  • eine Anleitung um eine geeignete Hardware in der Cloud zu nutzen.
  • eine Zusammenstellung der aktuellen Forschungsinitiativen auf diesem Gebiet.

Adressaten

Software-EntwicklerInnen mit Grundkenntnissen in oder Interesse an Machine Learning.

Voraussetzungen

  • Grundkenntnisse in Python, Pandas, Git.
  • Der Einsatz viel-dimensionaler Datenstrukturen ist nötig. Es braucht keine Erfahrung darin aber die Bereitschaft sich damit auseinanderzusetzen.
  • Konkrete Mathematikkenntnisse sind nicht erforderlich.

Infrastruktur

  • Eigener Laptop mit SSH-Client.
  • Github-Account.
  • FĂŒr die AusfĂŒhrung und das Training der ML-Modelle wird von INNOQ fĂŒr jeden Teilnehmenden fĂŒr den Workshop-Tag eine Cloud-Instanz zur VerfĂŒgung gestellt. Die Informationen, wie man eine solche Instanz selbst erzeugen kann, wird veröffentlicht.
  • Es wird sichergestellt, dass jeder Teilnehmende am Ende des Workshops seinen Source-Code sichern kann.

Referenten

Michael KrÀmer

innoQ Schweiz GmbH


Michael Krämer entwickelt seit über 15 Jahren Software und arbeitet als Senior Consultant bei innoQ. Er gibt u.a. regelmĂ€ssig mehrtĂ€gige Trainings fĂŒr Softwarearchitekten und beschäftigt sich in letzter Zeit vor allem mit Metriken in verteilten Systemen, Data Science und Deep Learning.