4/22/2008

Mashups Semánticos en la Web 2.0

En la conferencia Web 2.0 Expo pude asistir a una charla impartida por Jamie Taylor (Metaweb), Colin Evans (Metaweb) y Toby Segaran (Metaweb) acerca de la utilización de información semántica en la gestión de datos y, más específicamente, en su integración. Aunque el título parecía querer decir que se iba a hablar de mashups semánticos, la realidad es que se habló principalmente de los conceptos básicos de "la semántica", y de la utilización de datos públicos.

La charla comenzó con una aproximación histórica, desde la Web 1.0, donde la integración de información se realiza "en la mente del usuario" o mediante copy-paste, hasta el nuevo concepto 2.0 donde las APIs permiten mashups. Pero no existe todavía una "identidad compartida"; los datos todavía se encuentran en silos. Además, el esfuerzo de integración sigue creciendo con el número de fuentes.

La semántica permite una integración más "profunda". El coste inicial puede ser algo más alto, pero la idea es que ese coste no sea TAN grande como para impedir la entrada a este "nuevo mundo".

La semántica trata de facilitar la comprensión compartida de los datos a través de tres elementos fundamentales:
1. La identificación unívoca del sujeto
2. Fuerte utilización de la semántica de los datos
3. APIs abiertas y, muy importante, DATOS ABIERTOS

Para que los datos pueden contener semántica, es necesario añadirles metadatos, asignando valores a sus atributos. Para la representación de la semántica, se utiliza un concepto clásico, llamado Triplets, que permite identificar un conjunto "sujeto - predicado - objeto". No me entretendré ahora en explicarlo, pero quien esté interesado que lea sobre RDF.

La identificación unívoca es lo que permite eliminar ambigüedades en la comunicación. El ejemplo era Blade Runner como película o como libro, que creo que no fue el mejor ejemplo, ya que el libro, como tal, se llama "¿Sueñan los androides con ovejas eléctricas?". Pero bueno, la idea era que el poder contar con un identificador único para los elementos constituyentes de las relaciones, permiten crear significado global . Estas referencias a identificadores, o "URIRefs", son básicamente los identificadores utilizados por las tecnologías REST actuales, y proveen un puntero no ambiguo a un elemento concreto. De esa manera, se pueden modelar nombres y asociaciones:
1. http://www.../ridleyscott
2. http://... directed
3. http://.. blade_runner

El único momento en que se habló un poco de lo que yo entiendo como mashups fue cuando se comentó que los grafos son buenos para la integración debido a que se pueden realizar uniones inmediatamente (dos "triplets" de información pueden ser unidos inmediatamente, creando valor añadido).

Como conclusiones, la primera es que de acuerdo con el conferenciante, sólo se necesitan 3 elementos del stack de la W3C para potenciar la utilización de información semántica: URI/IRI, XML y RDF. Es decir, lo básico (debido, claro, a que estamos en el principio de los tiempos en cuanto a web semántica - no en cuanto a semántica, que lleva mucho tiempo entre nosotros :) -).

La segunda, que existen cada vez más movimientos que buscan "liberar" los datos, diversas iniciativas de datos abiertos de información expresada en RDF. Aunque no existe acuerdo sobre ontologías y las referencias canónicas son problemáticas, es lo más cercano a la web semántica que tenemos en la actualidad. Una de ellas es el proyecto FreeBase. Otra, la Open Data Initiative, de la W3C y su implementación de una barra de navegación de datos semánticos. Veremos hasta dónde llega...

Os dejo el enlace de la presentación, aunque no sé por cuánto tiempo estará disponible...

Pero bueno, aunque no hablase de lo que inicialmente se suponía, fue una charla muy entretenida.

No hay comentarios: