Datenvorbereitung
Wir bereiten die Daten so vor, dass wir fehlende Daten entfernen oder entsprechend auffüllen (bspw. Modal, MIN-MAX etc.). Wir führen geeignete statistische Tests aus, sodass wir ein geeignetes Set von Features erhalten umd eine zuverlässige Prädiktion mit den Machine Learning Algorithmen zu erhalten.
Datenvisualisierung
Wir visualisieren die Daten in Scatter-Plots oder Boxplots und zeigen so Insights zu den Daten auf. Wir beraten Ihre Daten visuell in einer Form auf, welche Ihrer Geschäftsführung genügen und Sie für Ihre geschäftlichen Entscheidungen nutzen können. Zudem erhalten Sie Einblicke in die Qualität der Machine Learning Algorithmen durch eine Confusion Matrix.
Modellbildung
Wir bilden nach einer Datenvorbereitung und Datenvisualisierung Machine Learning Modelle, welche für die zukünftige Prädiktion Ihren unternehmerischen Entscheidungen genutzt werden können. Wir führen Hyperparameter Tuning durch, sodasss wir die besten Einstellung für die Machine Learning Modell erhalten.
Python, Scikit-Learn, Pandas, SQL und Scrum
Für die Datenanalyse verwenden wir die Programmiersprache Python. Wir nutzen für die Datenaufbereitung und Datenvisualisierung Pandas. Für das Machine Learning wie Clustering, Klassifikation und der Prädiktion nutzen wir die freie Software-Bibliothek Scikit-Learn. Wir nutzen zur Abfrage der Daten SQL. Dadurch können Sie unsere Machine Learning Modelle in Ihr Unternehmen einpflegen.
Zur Projektdurchführung können wir in der agilen Projektmanagementmethode Scrum arbeiten.
Microsoft Azure und Microsoft Azure HDInsight
Wir führen auch die Datenvorbereitung, Datenvisualisierung und Prädiktion mit Microsoft Azure durch. Wir bilden Modelle und bieten Ihnen auf Wunsch einen Webservice an, mit dem Sie bspw. in Microsoft Excel die Machine Learning Algorithmen nutzen können. Wir nutzen für den Big Data Bereich Microsoft Azure HDInsight.
Apache Hadoop, Apache Hive, Pic, Apache Spark
Wir können Apache Hadoop für die Speicherung und Lesen von Big Data aus Clustern nutzen. Für den Zugriff der Daten können wir Apache Hive oder Pic nutzen. Auf Wunsch können wir für das Verarbeiten und Machine Learning von Big Data Apache Spark nutzen.