Data Science in der Cloud mit ScraperWiki
Wenn Sie die Nervenkitzel, ein Gespür für Programmierung und Storytelling und ein Auge für Design haben, können Sie etwas Schlimmeres tun, als sich mit Data Science zu beschäftigen. Es ist die neue große Sache in der Technologie. hoch im Trend und hochbezahlt, Datenforscher werden von einigen der größten Unternehmen der Welt gesucht.
ScraperWiki ist ein Unternehmen, das schon lange mit dem Bereich Data Science verbunden ist. Dieses in Liverpool ansässige Startup hat in den letzten Jahren eine Plattform für Codierer geboten, um Tools zu schreiben, die Daten abrufen, bereinigen und in der Cloud analysieren.
Mit einer kürzlich erfolgten Aktualisierung und der ständig steigenden Nachfrage nach Datenwissenschaftlern im Unternehmen lohnt es sich, ScraperWiki genau unter die Lupe zu nehmen.
Vollständige Offenlegung: Ich war letzten Sommer Praktikant bei ScraperWiki.
Was macht ScraperWiki??
ScraperWiki vermarktet sich selbst als Ort, an dem Daten abgerufen, gesäubert und analysiert werden. In seiner einfachsten Form ermöglicht es Ihnen - dem Benutzer - einen Ort, an dem Sie Code schreiben können, der Daten aus einer Quelle abruft, Werkzeuge, um sie in ein einfach zu analysierendes Format zu konvertieren, und Speicher, um sie für eine spätere Visualisierung aufzubewahren kann auch mit ScraperWiki umgehen.
Es enthält auch eine Reihe vorgefertigter Tools, die sich wiederholende Aufgaben automatisieren, einschließlich des Abrufs von Daten aus PDF-Dateien, die bekanntermaßen schwer zu decodieren sind. Dies ist zusätzlich zur Twitter-Suche 5 coole Twitter-Suchtricks, um zu überwachen, was die Leute über Sie sagen. Es ist immer gut zu wissen, was die Leute über das Internet über Sie sagen. Die Leute zitieren vielleicht… Lesen Sie mehr und verwenden Sie Hilfsprogramme. Sie benötigen keine Softwareentwicklungserfahrung, um diese verwenden zu können.
Kosten
Wie bereits erwähnt, umfasst ScraperWiki das Freemium-Preismodell und bietet einen Service mit mehreren Ebenen an. Wer sich gerade mit Data Science oder mit begrenzten Bedürfnissen befasst, kann den kostenlosen Service in Anspruch nehmen. Dadurch haben Sie drei Datensätze - wo Sie Ihre Daten und Ihren Code speichern.
Diejenigen, die planen, mehrere Scraper zu schreiben oder Berge von Datenanalysen durchführen zu wollen, können für ein Premium-Konto Geld verdienen. Diese kosten ab 9 US-Dollar pro Monat und bieten 10 Datensätze. Wenn das immer noch nicht genug ist, können Sie jederzeit auf die höchste Stufe upgraden, die 100 Datensätze umfasst und 29 US-Dollar pro Monat kostet.
Codierung
Programmierer sind oft sehr spezifisch, wenn es um den Code geht. Einige bevorzugen Skriptsprachen gegenüber kompilierten Sprachen. Einige bevorzugen die abgespeckte Erfahrung eines Texteditors gegenüber einer integrierten Entwicklungsumgebung (IDE). ScraperWiki erkennt das und gibt dem Benutzer eine große Auswahl an Möglichkeiten, wie Sie Ihren Code schreiben.
Wenn Sie dazu neigen, können Sie Ihren Code im Browser schreiben. Wie Sie es von einem professionellen, webbasierten Web-basierten Programm erwarten würden, enthält die Top 3 Browser-basierte IDE die Möglichkeit, in der Cloud zu codieren wäre wichtig, wie Syntax-Hervorhebung.
Es gibt eine Reihe von Sprachen. Dazu gehören Python Die 5 besten Websites zum Lernen Python-Programmierung Die 5 besten Websites zum Lernen Python-Programmierung Möchten Sie Python-Programmierung lernen? Hier sind die besten Möglichkeiten, Python online zu lernen, von denen viele völlig kostenlos sind. Lesen Sie mehr, eine beliebte Skriptsprache, die von Google und der NASA verwendet wird. Ruby 3 interaktiv, unterhaltsam, kostenlose Lernmethoden für die Programmiersprache Ruby 3 interaktive, unterhaltsame, kostenlose Lernmethoden für die Programmiersprache Ruby Ruby ist eine ausdrucksstarke Scriptsprache auf sehr hohem Niveau. Es wird im Web hauptsächlich als Teil des Webentwicklungsframeworks von Ruby on Rails, aber auch als eigenständiges System verwendet. Wenn Sie neugierig sind auf das, was Ruby (nicht… Read More) für eine Reihe populärer Websites wie Living Social und die gängige Statistiksprache für statistische Analysen, R.
Darüber hinaus können Sie auch über die Befehlszeile Code schreiben, indem Sie SSH, Git und den beliebigen Texteditor verwenden, den Sie gerne verwenden. Ja, das hast du richtig gelesen. Was ist SSH und wie unterscheidet es sich von FTP? Was ist SSH und wie unterscheidet es sich von FTP? [Technologie erklärt] Lesen Sie weiter. Jede Box, die Sie verwenden, ist ein eigenes Linux-Konto, und Sie können sich wie ein VPS oder ein anderes Shell-Konto mit ihm verbinden. Es gibt eine Reihe von Texteditoren, darunter Vim. Die 7 wichtigsten Gründe, dem Vim-Texteditor eine Chance zu geben Die 7 wichtigsten Gründe, dem Vim-Texteditor eine Chance zu geben Seit Jahren habe ich einen Texteditor nach dem anderen versucht. Sie nennen es, ich habe es versucht. Ich habe jeden einzelnen dieser Redakteure über zwei Monate lang als Haupteditor für den täglichen Gebrauch verwendet. Irgendwie habe ich… Read More was mit Plugins und durch Editieren der Konfiguration erweitert werden kann. Die von Vim eingeschüchterten Personen können Nano verwenden, einen einfachen Befehlszeilen-Texteditor.
Die installierten Bibliotheken sollten ausreichen, um mit Schreibwerkzeugen Daten abzurufen und zu verarbeiten. Wenn Sie etwas dunkleres benötigen, können Sie immer eine virtuelle Env von der Befehlszeile aus erstellen. Wie Sie sehen, gibt es eine enorme Flexibilität für Entwickler.
Datenvisualisierung
Sie haben also Ihre Daten. Du hast es normalisiert. Du hast es gereinigt. Sie haben es analysiert. Jetzt ist es Zeit, Visualisierungen vorzunehmen und der Welt zu zeigen, was Sie gelernt haben.
Mit ScraperWiki können Entwickler ihre Daten mithilfe von Webseiten anzeigen, die aus den bekannten Dreiergruppen HTML, CSS und JavaScript bestehen. Außerdem werden Bootstrap-Komponenten standardmäßig unterstützt.
Es gibt eine Reihe von vorgefertigten Visualisierungen, einschließlich solcher, die Ihre Daten auf einer Karte darstellen und Trends innerhalb Ihrer Ergebnisse finden. Um diese verwenden zu können, müssen Sie sicherstellen, dass Ihre Daten als SQLite-Datei mit dem Dateinamen 'scraperwiki.sqlite' gespeichert werden. Dann fügen Sie einfach die Visualisierung hinzu, die Sie interessiert. Einfach, richtig?
Fazit
ScraperWiki bietet Entwicklern, die eine Datenanalyse durchführen möchten, ohne dass ihre Entwicklungsumgebung im Weg steht, die Möglichkeit, selbst die anspruchsvollsten Benutzer zufrieden zu stellen. Aber was denkst du? Lass es mich in den Kommentaren wissen.
Bildnachweis: Rocket Science (Dan Brown)
Erfahren Sie mehr über: Cloud Computing, Web Analytics.