Data Science. Michael Oettinger

Читать онлайн.
Название Data Science
Автор произведения Michael Oettinger
Жанр Журналы
Серия
Издательство Журналы
Год выпуска 0
isbn 9783347069527



Скачать книгу

einem dauernden Wandel unterzogen sind. Was heute angesagt ist, kann morgen schon wieder als veraltet gelten.

      • Die Performance für bestimmte Arten von Queries in Data-Warehouse-Systemen ist mit Hadoop-Komponenten nicht erreichbar. Den kommerziellen Data-Warehouse-Produkten liegen Hunderte von Entwicklerjahren zugrunde, die für die Optimierung der verteilten Speicherung und Abfrage von Daten verwendet wurden. Der Hersteller Teradata hat in einer noch nicht veröffentlichten Studie die Kosten einer Query auf unterschiedlichen Plattformen (Kombinationen aus Data-Warehouse, Hadoop und Cloud) verglichen und ist dabei teilweise auf Kostenunterschiede je Abfrage vom Faktor > 1.000 zugunsten der Data-Warehouse-Technologie gestoßen (es ist anzumerken, dass die Studie eines DWH-Herstellers nicht ohne genaue Analyse der Annahmen zu verstehen ist, dennoch kann eine richtige Tendenz unterstellt werden). Dies zeigt, dass Unternehmen genau definieren müssen, wo und wie sie ihre Daten speichern wollen. Businesskritische, strukturierte Daten sind wahrscheinlich in einem Data-Warehouse am besten aufgehoben. Hingegen können große Mengen von unstrukturierten Facebook- und Twitter-Daten, bei denen noch gar nicht klar ist, wie sie verwendet werden sollen, in einem Hadoop-Lake abgelegt werden. Es zeigt sich, dass für Unternehmen eine umfassende Datenstrategie notwendig ist.

      2.6 Cloud-Computing

      In den vorangegangenen Abschnitten wurden die unterschiedlichen Datenquellen vorgestellt. Beim Cloud-Computing handelt es sich nicht um einen eigenen Typ von Datenquelle, sondern um die Art der Bereitstellung von Computing-Services. Es ist hier also von einer anderen Ebene der Rede. Die vorher beschriebenen Datenquellen können grundsätzlich on-premises (also in den eigenen Räumlichkeiten) oder in der Cloud betrieben werden. Dennoch soll in diesem Abschnitt auf das Cloud-Computing eingegangen werden, da dieses derzeit in der betrieblichen Praxis häufig zeitgleich mit Big Data diskutiert wird.

      Der unklare Begriff Cloud-Computing wird von der Öffentlichkeit mittlerweile mehr und mehr verstanden und die Diskussionen entsprechend angemessen geführt. Beim Thema Cloud-Computing – also der Bereitstellung von Computing-Leistung über das Internet – lassen sich drei Arten von Angeboten unterscheiden:

      • IaaS (Infrastructure as a Service): Der Cloud-Dienstleister stellt die Server samt Netzwerk, Speicher, Virtualisierungstechnologie und gegebenenfalls inkl. Betriebssystem zur Verfügung. Der Kunde verwaltet die Anwendungen und die Daten in eigener Regie.

      • PaaS (Platform as a Service): Hier stellt der Dienstleister zusätzlich Betriebssystem, Middleware und Laufzeitumgebung zur Verfügung, während der Kunde sich nur noch um Anwendungssoftware und Daten kümmert.

      • SaaS (Software as a Service): Bei SaaS wird die gesamte Anwendung inclusive der Datenhaltung als Service bereitgestellt.

      Darüber hinaus ist zu unterscheiden, wer die Cloud-Lösung betreibt. Bei einer Public Cloud wird also die öffentliche Infrastruktur des Cloud-Anbieters gemeinsam von den unterschiedlichen Kunden genutzt. Eine Private Cloud nutzt die Technologien des Cloud-Computings, aber die Infrastruktur wird exklusiv für einen Kunden zur Verfügung gestellt oder sogar aufgebaut. Die Abgrenzung zu einem traditionellen On-Premises-Betrieb mit flexiblen Virtualisierungs-Technologien ist nicht immer ganz klar und manchmal auch eher marketing- denn technologiegetrieben.

      Eine Zwischenform ist die Hybrid-Cloud, in der Teile der Computing-Leistung on-premises durchgeführt werden, während die anderen Teile auf die (Public-)Cloud ausgelagert werden.

      Die bekanntesten und größten Anbieter von Cloud-Dienstleistungen sind:

      • AWS (amazon cloud services)

      • Microsoft Azure

      • Google

      • IBM

      Auch die Anbieter von Hadoop-Distributionen – allen voran Cloudera – ergänzen ihre Angebote um Cloud-Dienstleistungen.

      Die unterschiedlichen Arten von Datenquellen, wie sie in den vorangegangenen Abschnitten beschrieben worden sind, können auf den Cloud-Plattformen betrieben werden. Egal ob Oracle-Datenbank, MongoDB, Hadoop-Cluster oder Teradata-Data-Warehouse, all diese Produkte – und noch viele mehr – sind auf den Marketplaces der großen Cloud-Anbieter als SaaS-Angebot verfügbar oder können bei einer PaaS- oder IaaS-Cloud-Lösung als selbst mitgebrachte Software installiert werden.

      Darüber hinaus stellen die Cloud-Anbieter auch eigene Datenbankangebote zur Verfügung:

      Zu den AWS-Datenbankservices gehört der Amazon Relational Database Service (Amazon RDS) mit Unterstützung von häufig verwendeten Datenbank-Engines, z. B:

      • Amazon Aurora, eine MySQL-kompatible relationale Datenbank,

      • Amazon DynamoDB, ein NoSQL-Datenbankservice,

      • Amazon Redshift, ein Warehouse-Service,

      • Amazon EMR, das ein verwaltetes Hadoop-Framework bietet.

      Das entsprechende Microsoft-Azure-Angebot besteht aus den folgenden Elementen:

      • Azure SQL-Datenbank

      • Document DB, eine NoSQL-Datenbank

      • Azure SQL Data-Warehouse

      • Microsoft Azure Data Lake Store, eine Hadoop-Anwendung

      Die Cloud-Anbieter konkurrieren mit den etablierten Datenbanklösungs-Anbietern auf ihren Marktplätzen, was zu ungewohnten Konkurrenz- bzw. Kooperationssituationen führt. Es wird spannend sein, inwieweit es den Cloud-Anbietern (allen voran AWS und Azure) gelingt, daraus Kapital zu schlagen und ihren Marktanteil in den Softwarebereichen auszubauen.

      Bei der Einrichtung bspw. eines Hadoop-Clusters werden die Vorteile der Cloud-Technologie deutlich. Ohne sich Gedanken über Hardware, deren Konfigurationen und Betrieb, Kompatibilitäten von Software-Komponenten, Skalierung und Nutzungsprognosen etc. zu machen, kann mit wenigen Mausklicks ein Hadoop-Cluster eingerichtet werden.

      Das Einrichten des Hadoop-Clusters stellt sich dabei zunächst in etwa so schwierig dar wie eine Pizzabestellung auf lieferando.de. Aus einem Menü an Optionen lässt sich ein individuelles Cluster konfigurieren.

      Die monatlichen Kosten können dabei im Voraus geschätzt werden.

      Die entsprechenden Software-Komponenten werden damit tatsächlich zum Service, der nach Bedarf eingerichtet, skaliert, betrieben und auch retired werden kann.

      2 Vgl.: http://nosql-database.org/

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «ЛитРес».

      Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

/9j/4AAQSkZJRgABAQEASABIAAD/2wBDAAEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEB AQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQH/2wBDAQEBAQEBAQEBAQ