Session Details

BigDataCon | 9. - 11. Mai 2017, Mainz

09 Mai 2017
14:45 - 15:45
Zagreb-Saal A

Do you know what K-Means? – Clusteranalysen durchführen und in Echtzeit implementieren

09 Mai 2017
14:45 - 15:45
Zagreb-Saal A

Clusteranalysen sind heute „Brot und Butter“-Analysetechniken mit Verfahren, die zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen genutzt werden, mit dem Ziel, neue Gruppen in den Daten zu identifizieren. Der K-Means-Algorithmus ist dabei eines der einfachsten und bekanntesten unüberwachten Lernverfahren, das in verschiedenen Machine-Learning-Aufgabenstellungen einsetzbar ist. Zum Beispiel können abnormale Datenpunkte innerhalb eines großen Data Sets gefunden, Textdokumente oder Kundensegmente geclustert werden. Bei Datenanalysen kann die Anwendung von Clusterverfahren ein guter Einstieg sein, bevor andere Klassifikations- oder Regressionsmethoden zum Einsatz kommen.
In diesem Talk wird der K-Means-Algorithmus samt Erweiterungen und Varianten nicht im Detail betrachtet und ist stattdessen eher als ein Platzhalter für andere Advanced-Analytics-Verfahren zu verstehen, die heute „intelligente“ Bestandteile in modernen Softwarelösungen sind bzw. damit kombiniert werden können. Anhand von zwei Kurzbeispielen wird live gezeigt: (1) Identifizierung von Kundencluster mit einem Big-Data-Discovery-Tool und Python (Jupyter Notebook) und (2) die Realisierung einer Anomalieerkennung direkt im Echtzeitdatenstrom mit einer Stream-Analytics-Lösung von Oracle.