Data Science Consultant
Beratung im Data Science, Machine Learning und Text Mining

English Version

Unsere Dienstleistungen im Data Science, Machine Learning und Text Mining

Statistik
Wir sehen uns mittels deskriptiver Statistik und inferentieller Statistik die Kennwerte Ihrer Daten an. Wir führen zwischen abhängigen und unabhängigen Variablen Wahrscheinlichskeitstests durch. Wir achten insbesondere auf ein geeignetes Sampling im Rahmen von Big Data umso auf die Grundgesamtheit zu schließen. Durch die deskriptiver Statistik und inferentieller Statistik ist es bspw. möglich Abhängigkeiten des Kaufverhaltens Ihrer Kunden zu identifizieren. Hierfür stellen wir eine Koeffizient-Matrix auf und besprechen diese mit Ihnen, sodass wir gemeinsam an der Optimierung von Features für das Machine Learning arbeiten können. Dadurch können unsere Machine Learning Algorithmen oder auch Machine Learning Modelle am besten aus Daten lernen.
Clustering
Wir erkennen aus Ihren Daten Cluster. Diese Cluster können Ihnen helfen unterschiedliche Kundengruppen zu definieren um gezielt Ihre Marketing und Ihr Produktportfolie anzupassen. Wir extrahieren aus Ihren Text automatisch mit Machine Learning Algorithmen Themen und führen Ähnlichkeitsanalysen mit Hilfe von Machine Learning Algorithmen zwischen Texten durch. Zur Vorbereitung der Daten nutzen wir für die Textextraktion aus Bildern Techniken wie Optical Character Recognition (OCR). Für umfangreiche Datensätze nutzen wir Word Embedddings oder neuronale Netze. Für das Clustering nutzen wir einen k-means Clustering Algorithmus oder LDA (Linear Discriminant Analysis) Algorithmus.
Klassifikation
Wir nutzen Machine Learning um eine automatische Klassikation Ihrer Daten vorzunehmen. Dies kann insbesondere nützlich sein, wenn Sie einen Typ von Kunden durch einen Algorithmus identifieren möchten und auf Basis der Entscheidung des Algorithmus unternehmerische Entscheidungen treffen wollen. Daten können Kaufdaten Ihrer Kunden oder auch Textdaten sein. Die Daten können einer Kategorie von Daten automatisch durch einen Machine Learning Algorithmus zugeordnet werden. Wir nutzen für die Klassifikation der Daten logistische Regression.
Prädiktion
Wir nutzen die Daten und die daraus resultierenden Features zur Vorhersage von Käufen oder auch Reviews Ihrer Produkte. Hierfür beziehen wir uns auf einzelne oder mehrere Features aus de Daten. Wir optimieren die Features und finden so den besten Machine Learning Algorithmus um das Kaufverhalten Ihrer Kunden vorherzusagen. Wir wählen Machine Learning Algorithmen wie lineare Regression und mehrfache Regression um lineare Abhängikeiten zwischen den Daten vorherzusagen. Wir nutzen Support Vector Machines (SVM), testen verschiedene Kerne um schnell durch ein Trennungsverfahren der Daten unternehmerische Entscheidungen zu treffen. Wir nutzen Decision Trees wie Random Forest um auf Basis von vorhergegangen Entscheidungen zukünftige Entscheidungen (Prädiktion) durch den Algorithmus zu treffen oder vorzuschlagen.

Unsere Vorgehen im Data Science, Machine Learning und Text Mining

Datenvorbereitung
Wir bereiten die Daten so vor, dass wir fehlende Daten entfernen oder entsprechend auffüllen (bspw. Modal, MIN-MAX etc.). Wir führen geeignete statistische Tests aus, sodass wir ein geeignetes Set von Features erhalten umd eine zuverlässige Prädiktion mit den Machine Learning Algorithmen zu erhalten.
Datenvisualisierung
Wir visualisieren die Daten in Scatter-Plots oder Boxplots und zeigen so Insights zu den Daten auf. Wir beraten Ihre Daten visuell in einer Form auf, welche Ihrer Geschäftsführung genügen und Sie für Ihre geschäftlichen Entscheidungen nutzen können. Zudem erhalten Sie Einblicke in die Qualität der Machine Learning Algorithmen durch eine Confusion Matrix.
Modellbildung
Wir bilden nach einer Datenvorbereitung und Datenvisualisierung Machine Learning Modelle, welche für die zukünftige Prädiktion Ihren unternehmerischen Entscheidungen genutzt werden können. Wir führen Hyperparameter Tuning durch, sodasss wir die besten Einstellung für die Machine Learning Modell erhalten.

Unsere Technologien im Data Science, Machine Learning und Text Mining

Python, Scikit-Learn, Pandas, SQL und Scrum
Für die Datenanalyse verwenden wir die Programmiersprache Python. Wir nutzen für die Datenaufbereitung und Datenvisualisierung Pandas. Für das Machine Learning wie Clustering, Klassifikation und der Prädiktion nutzen wir die freie Software-Bibliothek Scikit-Learn. Wir nutzen zur Abfrage der Daten SQL. Dadurch können Sie unsere Machine Learning Modelle in Ihr Unternehmen einpflegen. Zur Projektdurchführung können wir in der agilen Projektmanagementmethode Scrum arbeiten.
Microsoft Azure und Microsoft Azure HDInsight
Wir führen auch die Datenvorbereitung, Datenvisualisierung und Prädiktion mit Microsoft Azure durch. Wir bilden Modelle und bieten Ihnen auf Wunsch einen Webservice an, mit dem Sie bspw. in Microsoft Excel die Machine Learning Algorithmen nutzen können. Wir nutzen für den Big Data Bereich Microsoft Azure HDInsight.
Apache Hadoop, Apache Hive, Pic, Apache Spark
Wir können Apache Hadoop für die Speicherung und Lesen von Big Data aus Clustern nutzen. Für den Zugriff der Daten können wir Apache Hive oder Pic nutzen. Auf Wunsch können wir für das Verarbeiten und Machine Learning von Big Data Apache Spark nutzen.

Telefon: +494060852539
E-Mail: mail@data-science-consultant.de

Impressum | Datenschutz