8/04/2006

Amigos y profesionales en la Campus Party

No puedo ni quiero hablar sobre unos amigos, ex-compañeros y colegas que han participado en la Campus Party en una serie de charlas sobre Universidad y Empresa, y sobre el entorno Eclipse. No, porque es mejor referenciaros a un resumen de una de las personas referidas, José Luis Marina y su bitácora... no, que ahora participa en La Pastilla Roja !!!

Enhorabuena, campeones!

Es verdad...

Mira que creo en las personas, no en las zonas, pero es que tiene razón...

... aunque lo del niño me parece inquietante :)

8/03/2006

Los que me conocen reconocerán esto...

Tomado de un artículo del Scientific American:
"What's That Song?
Music has also entered the search engine landscape. A key problem in finding a specific tune is how to best formulate the search query. One type of solution is to use musical notation or a musical transcription-based query language that permits a user to specify a tune by keying in alphanumeric characters to represent musical notes. Most users, however, find it difficult to transform the song they have in mind to musical notation.

The Meldex system, designed by the New Zealand Digital Library Project, solves the problem by offering a couple of ways to find music. First, a user can record a query by playing notes on the system's virtual keyboard. Or he or she can hum the song into a computer microphone. Last, users can specify song lyrics as a text query or combine a lyrics search with a tune-based search.

To make the Meldex system work, the New Zealand researchers had to overcome several obstacles: how to convert the musical query to a form that could be readily computed; how to store and search song scores digitally; and how to match those queries with the stored musical data. In the system, a process called quantization identifies the notes and pitches in a query. Meldex then detects the pitches as a function of time automatically by analyzing the structure of the waveforms and maps them to digital notes. The system stores both notes and complete works in a database of musical scores. Using data string-matching algorithms, Meldex finds musical queries converted into notes that correspond with notes from the scores database. Because the queries may contain errors, the string-matching function must accommodate a certain amount of " noise."

"

En este paper se explica con algo más de detalle.

Intento pensar que esto es bueno, que las ideas no pertenecen a una única persona. Que ya se veía venir hace años y que ya entonces llevaba tres o cuatro años dándole vueltas... de hecho, esto demuestra que la innovación es algo más que creatividad, sino que implica un "llevar a buen puerto".

8/01/2006

Information Retrieval (3): la arquitectura básica

Una vez tenemos claro que lo que requerimos es información que nos provea, de alguna manera, de conocimiento (como ya dije, es matizable, pero podemos partir de ahí), quiero entrar en el meollo de la recuperación de información web. Para ello, qué mejor que comentar la arquitectura básica de un buscador actual.

Podemos definir la arquitectura de un buscador web como el trabajo en equipo de dos componentes totalmente diferentes:
1. El indexador
2. El buscador

1. El indexador es el componente que se ocupa de acceder a la información (en este caso web) y procesar su contenido y contexto para almacenar en un repositorio todo lo necesario para que luego la búsqueda sea la más adecuada. Es un proceso generalmente offline, debido a la gran cantidad de información existente en la web (como un texto cuya referencia no recuerdo ahora:
"Summarizing, the Web is a huge text, distributed in a low quality network, with poorly written content, non focused, without a good organization, and queried by non-expert users"). Este componente se suele dividir en dos: el propio indexador y el "Web Crawler", el motor de navegación que accede a cada una de las página que deseamos procesar, o que el "crawler" encuentra.
2. El buscador es la parte visible de estas herramientas. Se ocupa, en tiempo real generalmente, de atender las peticiones de los usuarios y acceder al índice creado por el módulo indexador para mostrar aquellos resultados que más se ajustan a lo requerido. Dependiendo del indexador y de las estrategias de búsqueda implementadas, la calidad y cantidad de respuestas puede variar enormemente; podemos encontrarnos buscadores que sencillamente aceptan palabras clave y devuelven aquellos resultados (enlaces a páginas web) que contienen esas palabras, hasta entornos personalizados que realizan gran cantidad de procesamiento tanto sobre la estructura de la búsqueda como del contexto en el que se realiza para ofrecer documentos más ajustados a lo que quería un usuario (recordemos que debido a que estas herramientas de búsqueda suelen ofrecerse a un público mayoritario, el conocimiento medio de técnicas de búsqueda avanzada será bastante bajo).
Enlazo a la imagen del sistema original de Larry Page, uno de los fundadores de Google, llamado BackRub, que sigue de manera bastante fiel la arquitectura básica de un motor de búsqueda. Poco a poco iré explicando la necesidad de algunas de las cajas que aparecen por ahí :)