Hinweis: Die aktuelle OOP-Konferenz finden Sie hier!
SIGS DATACOM Fachinformationen für IT-Professionals

SOFTWARE MEETS BUSINESS:
Die Konferenz für Software-Architektur
05. - 09. Februar 2018, München

Sessionsdetails

Vortrag: Mi 1.4
Datum: Mi, 07.02.2018
Uhrzeit: 17:00 - 18:00
cart

Live-Einstieg in Spark – ein Text-Mining-Projekt

Uhrzeit: 17:00 - 18:00
Vortrag: Mi 1.4

 

Spark hat sich für Data-Science-Projekte als Plattform zur parallelisierten Analyse großer Datenmengen etabliert. Ein Notebook-basierter Ansatz eignet sich wegen kurzer Turn-around-Zyklen gut für die interaktive Datenaufbereitung. Einen Einstieg in diese Technologien geben wir in diesem Vortrag.
Als Daten dienen Text-Dokumente, die wir auf einem Spark-Cluster aufbereiten und analysieren (Text-Mining). Es werden Architektur und Kern-Konzepte von Spark erläutert. Mit wenig Code gewinnen wir Einblicke und generieren geschäftlichen Mehrwert.

Zielpublikum: Architekten, Entwickler, Projektleiter, Entscheider
Voraussetzungen: Programmiererfahrung
Schwierigkeitsgrad: Anfänger

Extended Abstract
Apache Spark hat sich in den letzten Jahren für viele Data-Science-Projekte als die bevorzugte Plattform zur Analyse großer Datenmengen etabliert. Spark ist ein Cluster Computing Framework, d.h. es erlaubt uns auf relativ einfache Weise, Berechnungen über eine große Anzahl Computer parallelisiert auszuführen. Typischerweise werden diese Computer dynamisch für die Dauer der Berechnung in einer Cloud-Umgebung wie Amazons EC2 angemietet.
Jupyter-Notebooks bzw. Apache Zeppelin-Notebooks sind web-basierte Dokumente zur interaktiven Datenanalyse und Visualisierung. Auf Grund der damit möglichen schnellen Code/Run/Evaluate-Zyklen eignen sie sich hervorragend für die Datenaufbereitung und Sichtung.
Der Einsatz von Spark und einem Notebook-Server kann jedoch anfangs herausfordernd sein.
In diesem Vortrag geben wir einen ersten, grundlegenden Einstieg an Hand eines durchgängigen Beispiels. Der überwiegende Teil besteht aus Code-Beispielen, zumeist in Python, die mittels eines Zeppelin-Notebooks live auf einem Amazon EC2-basiertem Spark-Cluster ausgeführt werden.
Als Datenbasis dient uns eine große Menge von Text-Dokumenten in unterschiedlichen Formaten aus einem Kundenprojekt. Daraus erzeugen wir zuerst einen RDD auf dem Spark Cluster und zeigen typische Data-Cleaning- und Data-Transformation-Schritte auf. Wir erläutern die Architektur von Spark, die zentralen Datenstrukturen (RDD und Data Frame) sowie die darauf verfügbaren Operationen, und gehen insbesondere auf den Unterschied von Actions und Transformations ein.
Um eine Ähnlichkeitssuche auf den Text-Dokumenten und schlussendlich ein Clustering der Dokumente zu ermöglich, ist ein Ähnlichkeitsmaß nötig. Wir zeigen den Einsatz verbreiteter Verfahren wie Stemming, Word2vec und TF-IDF. Mittels weiterer Live-Code-Beispiele zeigen wir auf, wie man erste Analysen auf den Daten durchführen und spannende Erkenntnisse gewinnen kann.
Der Vortrag gibt den Teilnehmern eine Hands-On-Überblick über den Einsatz von Spark zur Datenanalyse und verdeutlicht, wie man mit wenigen Zeilen Code in kürzester Zeit einen realen geschäftlichen Mehrwert generieren kann.

 

Sponsoren der OOP 2018

  • Accenture Technology Solutions GmbH Goldsponsor
  • Atlassian Goldsponsor
  • German Testing Board e.V. Goldsponsor
  • Intel Software Goldsponsor
  • Volkswagen Goldsponsor
  • andrena objects ag Silbersponsor
  • AppDynamics Silbersponsor
  • IBM Deutschland GmbH Silbersponsor
  • ITech Progress GmbH Silbersponsor
  • Microsoft Deutschland GmbH Silbersponsor
  • Ab Initio Software Germany GmbH Bronzesponsor
  • adesso AG Bronzesponsor
  • agile42 GmbH Bronzesponsor
  • Axway GmbH Bronzesponsor
  • Capgemini Bronzesponsor
  • DEUTSCHE TELEKOM AG Bronzesponsor
  • innoQ Deutschland GmbH Bronzesponsor
  • iteratec GmbH Bronzesponsor
  • New Relic Bronzesponsor
  • Novatec Consulting GmbH Bronzesponsor
  • OPEN KNOWLEDGE GmbH Bronzesponsor
  • OPITZ CONSULTING GmbH Bronzesponsor
  • Saxonia Systems AG Bronzesponsor
  • Servicetrace GmbH Bronzesponsor
  • ThoughtWorks Deutschland GmbH Bronzesponsor
  • XebiaLabs Bronzesponsor
  • AI Spektrum Partner
  • Bitkom e.V. Partner
  • Business Application Research Center - BARC GmbH Partner
  • JavaSPEKTRUM Partner
  • OBJEKTspektrum Partner
  • TDWI e.V. Partner