BBC Programmarchiv in RDF

Die BBC hat gestern ihr komplettes Programmarchiv in einer Datenbank zum Recherchieren freigeben. Wohlgemerkt nur die Metadaten zu Radio- und Fernsehprogrammen der letzten Jahrzehnte — also keine Multimedia Dateien. Aber der Clou an der Sache ist, dass die Daten neben HTML auch in RDF (Resource Description Framework) abrufbar sind … ein El Dorado für Semantic Web Enthusiasten. Beispielsweise der RDF-Eintrag zu der Doctor Who Episode „The End of the World“ (aus 2005), bei denen die Darsteller und Autoren mittels FOAF-Elementen beschrieben sind.

Da dauerte es natürlich nur ein paar Stunden, bis die ersten SPARQL-Queries für diese BBC-Daten publiziert wurden. Sogar tag clouds erzeugt die BBC.

Hmmm… da liegt es ja quasi auf der Hand, zukünftig auch ganz „normale“ Episodenguides (zunächst nur zusätzlich) in RDF zu publizieren. Viele Episodenführer werden ja derzeit schon in Datenbanken verwaltet, ein RDF Export dürfte da ja nicht zu sehr aufwändig sein, wenn ein „Episodenführer-Vokabular“ mal feststehen würde (Note to self: Schauen, was die MPEG7-Gruppe in der Richtung schon gemacht hat). Und wenn man das dann noch unter einer Creative Commons Lizenz veröffentlichen würde…

Man stelle sich mal vor, wenn viele der heutigen Fansites zu diversen TV-Serien RDF-basierte Fassungen ihrer Episodenguides anbieten würden — man hätte im Nu eine globale (und maschinen-„verstehbare“) Episodendatenbank, die TV.com das Fürchten lehren würde. Okay, ist wohl eine arg idealistische Zukunftsvision mit zahlreichen „würde“ und „könnte“, aber ein hübsches Spielzeug wäre es allemal :-). Aber mal sehen, vielleicht finde ich im Sommer etwas Zeit, um mal mit „meinen“ Episodenführern etwas ‚rumzuexperimentieren.

6 Kommentare

  1. Sagen wir mal so: Indem die Daten im RDF Format vorgehalten werden, sind die Informationen nicht nur für Menschen verstehbar, sondern prinzipiell auch für Maschinen. Schau Dir beispielsweise mal einen beliebigen heutigen Episodenführer im Web an: Wie sollte eine Maschine (bspw. Suchmaschine) derzeit herausfinden können, wer in Episode X von Serie Y mitspielt? Die Maschine sieht da nur ’ne Menge Gibberish. Im besten Fall sind die Informationen einigermassen geordnet in HTML-Tabellen untergebracht, so dass man sie mit einem Computerprogramm (Stichwort: Reguläre Ausdrücke) auslesen könnte. Aber auf der nächsten Website sieht das HTML-Format für einen Episodenguide schon anders aus und das Computerprogramm funktioniert da nicht mehr.

    Google (und andere) suchen derzeit dann halt im kompletten Volltext… wenn irgendwo die exakten Texte „Episode X“, „Serie Y“ und „Schauspieler“ steht, dann könnte es ja die gesuchte Information beinhalten. Funktioniert oft, aber nicht immer. Was ist, wenn nicht der Begriff „Episode“ sondern „Folge“ verwendet wurde, etc…

    Menschen müssen sich derweil durch diverse Websites klicken (im Extremfall so verunstaltet wie TV.com) und dort die Information suchen. Wie kombiniert man Informationen von verschiedenen Websites? Wo kriege ich beispielsweise die Anschrift eines Agenten eines Schauspielers heraus, ohne erst TV.com, Imdb.com und die Website der Agentur „von Hand“ aufzurufen und durchzulesen? Wie lasse ich mir nur Serien anzeigen, die jemals über einen Sender in einem Kabelanschluss-Angebot in Saarbrücken ausgestrahlt wurden? Es wäre doch viel einfacher, wenn das ein Computer für mich recherchieren könnte.

    RDF ist nun (unter anderem) ein Baustein auf dem Weg zu einem maschinenverstehbaren Web, das es in naher Zukunft möglich machen wird, derartige Anfragen korrekt zu beantworten, ohne gigantische Rechenpower in Künstliche Intelligenz zu investieren. Kurzfristig gesehen bringen solche Investitionen in Zukunftstechnologien wie RDF wohl keinen großen Vorteil, aber langfristig gesehen bildet es die Grundlage für das Web der Zukunft.

  2. Ich fühle mich alt, wenn ich das lese. Ich habe mich schon mehrmals in die ganze XML, RSS, RDF, WHTVR Thematik eingelesen und mir erschließt sich der praktische Nutzen nicht wirklich. Und trotzdem habe ich dabei das Gefühl, das Netz wird mir unter den Füßen weggezogen.

    Was ist jetzt so toll und revolutionär an RDF? Worin unterscheidet sich das von anderen Datenbankanwendungen, die es schon „immer“ gab?

    Und überhaupt. Was ist so attraktiv daran für den User UND v.a. den ‚Content Provider‘, die Daten in der rohen Form im Web zu haben?

  3. mb: Ich bin ziemlicher Laie, was das Semantic Web angeht, und auch kein erfahrener Software-Entwickler o.Ä., daher sind die folgenden Aussagen mit Vorsicht zu genießen.

    Zunächst einmal kann man RDF wohl nicht mit „anderen Datenbankanwendungen“ vergleichen. Denn es handelt sich meines Wissens nicht um Daten im eigentlichen Sinne, sondern um Metadaten.
    RDF wird also genutzt, um dem Computer (der ja bekanntlich nicht in der Lage ist, eigene Schlussfolgerungen zu ziehen) die Bedeutung der gespeicherten Daten zu erklären. Dies geschieht zum großen Teil durch die Erklärung von Relationen zwischen verschiedenen Daten – wie an obigem Beispiel von Sascha (hoffentlich) gut zu verstehen ist.
    Für den User hat das zunächst mal keinen Mehrwert – zumindest nicht direkt. Sobald das Ganze jedoch in großem Stil verwendet wird, muss man sich bei Suchanfragen beispielsweise nicht mehr auf Stichwörter verlassen, sondern kann Schlagwörter benutzen (ein großer Unterschied!).
    Wenn man also in einigen Jahren eine Suchanfrage stellt, hat man im Idealfall das Gefühl, dass die Suchmaschine „mitdenkt“. Und über die heute üblichen, sehr beschränkten Möglichkeiten wird man amüsiert lächeln.

    (Wenn Sascha das hier liest, schlägt er wahrscheinlich die Hände überm Kopf zusammen… )

    PS: Wikipedia ist offenbar gerade down, aber dort findet man sicher auch eine gute Beschreibung.

  4. Ja, das trifft einige Aspekte des Themas schon recht gut. Die Einschränkung auf Metadaten gilt heutzutage aber nicht mehr, auch wenn viele aktuelle RDF-Anwendungen (RSS 1.0, Dublin Core, etc) im Grunde Metadaten-Vokabulare sind.

    RDF wird bereits existierende Datenbankanwendungen nicht zwangsweise ersetzen, insbesondere in geschlossenen (Intranet-)Umgebungen. RDF ist keine Allzweckwaffe, die man blind für jede Datensammlung einsetzen sollte (obwohl der gegenwärtige Hype das teilweise suggeriert). Aber überall, wo Daten ausgetauscht und verknüpft werden sollen, bestehen große Potentiale.

    So unter anderem im E-Commerce: Man kennt heute ja schon diverse Preisvergleichsagenturen, die teilweise recht aufwändig die Preisangaben aus Webshops extrahieren. Im besten Fall stellt der Anbieter immerhin CSV oder gar XML-Dateien zur Verfügung. RDF würde es in diesem Bereich ermöglichen, dass solche Vergleiche nicht nur genauer werden (leichte Abweichungen in Produktbezeichnungen spielen keine Rolle mehr), sondern beispielsweise auch Features von Produkten verglichen werden können. Ein solcher Vergleichsdienst könnte sich die RDF-Daten über Produkte direkt vom Hersteller besorgen und dazu die Preisdaten von Webshops.

    Und das kann man beliebig weiter spinnen: Wenn man beispielsweise in solch einem Computer-Shop der Zukunft dem „Agenten“ mitteilt, welchen DVD-Player man daheim stehen hat, kann der automatisch aus den Feature-Daten Schlussfolgerungen ziehen und beispielweise einen DVD-Brenner empfehlen, der auch DVD+R brennen kann (weil mein DVD-Player nur DVD+R abspielen kann etc) — ohne dass ich überhaupt irgendwas über dieses DVD+R/-R Chaos wissen muss.

    Tim Berners-Lee erzählt gerne das Beispiel von einem Terminplanungsagenten, der automatisch einen Arzttermin vereinbaren können soll und dabei meinen Terminplan, den des Arztes, typische Verkehrsverhältnisse auf dem Weg zum Arzt und mehr berücksichtigt. Das schafft man freilich nicht mehr mit RDF alleine, da kommen dann auch solche Sachen wie OWL etc in Spiel…

    Das Problem ist halt wie in anderen Bereichen auch das berühmte „Henne-Ei“-Problem: Irgendjemand muss damit anfangen und Daten ins Web stellen, die andere wiederum referenzieren können. Man sieht halt nicht wie bei HTML sofort einen „Effekt“, wenn man Daten in RDF zur Verfügung stellt. Das Aha-Erlebnis wird wohl erst kommen, wenn eben ein „Netz“ an Informationen weltweit bereitsteht. Das würde dann auch die Bezeichnung Web 2.0 verdienen 😉

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen