Essay – DataScience, der Stellenwert der verschiedenen Anwendungsstufen

Im Rahmen des Modules «Einführung in Data Science» an der Fernfachhochschule Schweiz (FFHS) werden vier Essays verfasst in welchem die erarbeiteten Kenntnisse miteinfliessen. In diesem ersten Essay geht es hauptsächlich um die Grundlagen wie Data Science, nachfolgend auch DS genannt, einzuordnen ist, welche mögliche Entwicklungen und Einflüsse sie in unserem beruflichen sowie auch privaten Umfeld haben kann.

Stellenwert von Data Science und Big Data für den Software Engineer in der Zukunft.

Mit Data Science oder Big Data Analysis eröffnet sich ein weiter Zweig in der Informationstechnologie. Was einst – jedoch meist nur spärlich – von einem System- oder Software Techniker erledigt wurde, ist heute ein eigenes Wissensgebiet und bildet eigens dafür geschaffene Stellen. Der Stellenwert von DS ist pro Gebiet oder pro Betrieb unterschiedlich bzw. wird von Firmen unterschiedlich behandelt. Dies, weil DS verschieden tief praktiziert werden kann.

Grundsätzlich beschreiben folgende Stadien die Tiefe in der Anwendung von DS. Mit der Tiefe der Anwendung steigen Mehrwert oder Wissensvorteil sowie Komplexität.

  1. Raw Data

Daten stehen der Unternehmung oder dem Projekt in Roh-Format zur Verfügung. Diese sind nicht optimiert für die Zusammenführung mit Daten aus anderen Quellen.

  1. Clean Data

Die Datensätze werden optimiert. Die aus mehreren Systemen und Quellen stammenden Daten können miteinander sowie gegeneinander verglichen werden. Allfällige falsche Datensätze oder Abweichungen werden eruiert.

  1. Standard Reporting

Erste Auswertungen sind möglich.

  1. Business Intelligence Reporting

Komplexere Auswertungen wie z.B. «Welche Geschäftsereignisse sind in welchem Ausmass eingetreten?»

  1. Casuality Analysis

Auswertung zur Ursache eines Ereignisses. Diese Art von Auswertung benötigt oft mindestens zwei Datenquellen. So kann z.B. eine Versicherung die Anzahl Schadensmeldungen in ihrem System mit den vom Wetterdienst angebotenen Jahresdaten für Unwetter gegenüberstellen. So können Risiko, Eintretenswahrscheinlichkeit für verschiedene Gebiete ermittelt, und unterschiedliche Prämien festgelegt werden.

  1. Predictive Modelling

In dieser Stufe der Big Data Analytics wird versucht, ein Muster von Abfolgen zu finden, worauf eine mögliche Prognose erstellt werden kann.

  1. Optimization

Dieses Stadium widmet sich der Erreichung des Optimums’. Was muss wie angepasst werden damit ein mögliches Optimum erreicht werden kann.

 

Bis zum Stadium BI Reporting wird DS an vielen Orten ausgeübt. Diese Stadien arbeiten mit unternehmenseigenen Daten und dienen meist der Auswertung und Zielsetzung interner Abteilungen wie z.B. dem Verkauf.

In diesem Rahmen hat sich DS in den Unternehmen bereits etabliert und einen hohen Stellenwert.

 

Die Stadien der Ursachenfindung, Eintretenswahrscheinlichkeit und Optimierung führen meist zu eventualen Ergebnissen. Für eine optimierte bzw. verlässlichere Aussage muss der DS einen hohen Stellenwert gegeben werden.

 

Fähigkeiten eines Data Scientist

Ein Data Scientist muss sich mit der Methode der Strukturierung und Auswertung von Daten über alle Stadien von DS auskennen. Er sollte in der Lage sein, deren Prozesse gegeben falls zu automatisieren. Anders als z.B. bei einem Database Administrator, der sich um Abfragen von Daten kümmert und nicht zwingend den Inhalt, Zusammenhang und Unternehmenswert der Daten kennt, ist dies beim Data Scientist umso wichtiger. Bei der Gegenüberstellung zweier Informationen müssen diese gewichtet und analysiert werden. So braucht ein Data Scientist gute Kenntnisse über die Geschäftsprozesse des Projektes oder Unternehmens.

 

Ein Data Scientist muss beratend Wünsche und Ansprüche einer nicht IT affinen Person verstehen, nötige Rückfragen stellen und in die Technologie Übersetzen. So zählen auch Soft Skills zu seinen Fähigkeiten.

 

Wichtigkeit der Interpretation einer Datenanalyse

Eine Information kann unterschiedlich aufgefasst werden. Wenn in einem Gespräch eine Aussage ironisch geäussert wird, der Empfänger diese aber ernst auffasst, veranlasst dies das Gegenüber zu einer anderen (möglicherweise nicht korrekten) Aktion oder wiederum zu einer «falschen» Aussage.

Gleich verhält es sich mit der Interpretation einer Datenanalyse. Werden gewisse Datenstrukturen als positiv statt negativ eingeschätzt, hat dies Auswirkungen auf das Ergebnis der Auswertung. So ist auf die Klassifizierung der Daten ein besonderes Augenmerk zu legen. Da diese Interpretation meist auch automatisiert abläuft, ist eine Überprüfung des meist auch als «Machine Learning» genannten Algorithmus wichtig, um solche Fehler zu verhindern.

 

Persönlich erwartete Entwicklung der Big Data Analysis

Ich persönlich stelle der Data Science eine wichtige Rolle in den Unternehmensprozessen zu. In den Medien sind die Begriffe «Big Data» oder «Machine Learning» in aller Munde. Mit der «Cloud» hat sich vor 10 Jahren ein Trend abgezeichnet und es wurde erwartet, dass viele Dienste von Unternehmen bald von einem Anbieter betrieben werden. Dieser Wechsel ist aber noch heute für einige Unternehmen in Bearbeitung und längst nicht alle Dienste sind ausgelagert. Deshalb glaube ich, dass es sich beim Einsatz von Data Science gleich verhält.

Ein wirklicher Mehrwert zeichnet sich erst ab hoher Investition aus. So muss ein Unternehmen überzeugt sein, mit neuen Auswertungsmethoden Geschäftsprozesse optimieren zu können.

 

Interessant fände ich den Einsatz von DS und Machine Learning in öffentlichen Institutionen wie Gerichten, Regierungen oder Spitäler. In folgenden Punkten sähe ich einen Anwendungsfall:

Spitäler: Die Krankheitsbilder, die Behandlungen und deren Erfolg werden weltweit unter den Spitälern anonymisiert geteilt. Eine Medikation kann bei einem komplexeren Fall feiner eingestellt werden, sowie eine optimale Regeneration durch Überwachung des Patienten durch Schrittzähler, Pulsmesser etc.

Weiter könnte in der Verrechnung durch Machine Learning der Sachbearbeiter darauf hingewiesen werden, dass er bei der Erstellung einer Rechnung eventuell eine Position für Produkt C vergessen hat, wenn im Normalfall immer Produkt A, B und C verrechnet werden.

Gerichte: Durch Machine Learning könnten alle bisher begangenen Straftaten und Urteile analysiert werden. Den Richter könnte ein vorgeschlagenes und objektives Urteil basierend auf Referenzfällen gefälltes Urteil zur Unterstützung beiziehen. Weicht das tatsächlich gefällte Urteil von der Analyse um ein definiertes Mass ab, muss eine zweite Instanz den Fall und das Urteil überprüfen.

Regierung: Ein demokratischer Entscheid basiert auf einer Mehrheit. Dies heisst nicht, dass der Entscheid jeweils von jedem Individuum als gerecht angesehen wird. Viele Philosophen (Aristoteles, Platon oder Karl Marx) machten sich dazu schon Gedanken. Als Konsens deren Ansicht nahm ich mit, dass Gerechtigkeit nicht messbar ist. Ich frage mich, wäre sie messbar mit DS? Oder könnte DS der Regierung helfen möglichst gerechte Entscheide zu fällen? Ich denke, je mehr Informationen der Regierung über das Individuum zur Verfügung stehen würden, desto gerechter würde ein solcher Entscheid fallen. Folgende Fragen müssten so vom Machine Learning Algorithmus beantwortet werden können:

  • Was hat die Person in der Vergangenheit der Gesellschaft Gutes wie Schlechtes getan?
  • Wie ist die Person in Zukunft vom zu fällenden Entscheid betroffen?

Weiter könnten dem Algorithmus Grundsätze / Ziele mitgegeben werden wie zum Beispiel:

  • Einhaltung der Menschenrechte
  • Verringerung der Armut
  • Verbesserung des Weltklimas
  • Erhalt von Beziehungen und Familien
  • Förderung des Wohlstands

Konkurrierend dazu stünde das Datenschutzgesetz. Würde die Masse der so zu regierenden Gruppe genügend gross sein, könnte mittels Algorithmus ein optimaler Bezirk ausgewählt und als «Protoyp» das neue Gesetz anwenden. Bewährt sich dieses Gesetzt so könnte es in der ganzen Region oder im ganzen Land angewandt werden, bzw. zur Abstimmung vorliegen.

 

 

Literaturangabe

Titel Typ Autor / Mitwirkende
Data Science for Software Engineering ePaper Tim Mezines, Ekrem Kocaguneli, Fayola Peters, Burak Turhan, Leonardo L. Minku
Data sciencde and analytics: a new era ePaper Longbing Cao
Big Brother in the Information Age: Concerns about Government Information Gathering over Time ePaper Denise Anthony, Timothy Stablein, Emily K. Carian
Data Science Blog Webseite https://data-science-blog.com/
1 year ago

1 Comment

Leave a Reply

Your email address will not be published. Required fields are marked *