Google Dataset: impulsa la estrategia de big data de su negocio
Los datos aportan conocimiento, pero hay que saber encontrarlos y procesarlos. Una tarea que no es fácil hacer. La dispersión de las fuentes, los múltiples esquemas de metadatos y la cantidad de repositorios (más de 2.000 según el Registry of Research Data Repositories), terminan por crear un caos de información, que exige utilizar muchas interfaces para encontrar lo que se busca.
Las empresas toman decisiones basadas en la información que consiguen y procesan. Generalmente, buscan respaldarla con textos académicos, investigaciones periodísticas, reportes de industrias y otras fuentes confiables. Sin embargo, vivir en un mundo saturado de información dificulta conseguir dichas fuentes, al menos en primera instancia.
Para hacer frente a ese problema, Google lanzó Google Dataset Search a principios de septiembre, como parte de su esfuerzo por ordenar y filtrar las fuentes de información del planeta y por ubicarlas en una sola interfaz, posicionándose como el mejor motor de búsqueda. Aún en fase beta, Google Dataset Search recopila en un solo lugar los datos de fuentes públicas tan variadas como universidades, oficinas gubernamentales, institutos científicos y sociales, y agencias de noticias.
Antes de esta iniciativa, los investigadores dependían de plataformas como World Bank, NASA o buscadores como Kaggle y debían hacer búsquedas por separado. Gracias a Google, a través de una misma búsqueda o tema de interés podrán encontrarse todos los datos disponibles, facilitando el trabajo de estos profesionales y obteniendo información verificable.
Que sea Google el que desarrolle esta nueva herramienta influye mucho en su éxito, sostiene Jeni Tennison, presidenta ejecutiva del Instituto de Datos Abiertos (ODI, por sus siglas en inglés): “Para crear un buen motor de búsqueda, se necesita saber cómo crear sistemas fáciles de usar, y comprender qué quieren decir las personas cuando escriben ciertas frases. Algo que Google sabe hacer muy bien desde hace algunos años”.
Google se une a la iniciativa de “datos abiertos” que llevan a cabo organizaciones como el movimiento de Acceso Abierto a la Ciencia, que divulga datos contenidos en investigaciones científicas, artículos académicos y obras relacionadas. La iniciativa de Google también forma parte de las tendencias que exigen transparencia y acceso abierto a la información pública, y que algunos gobiernos han puesto en práctica, como el de Estonia, el país a la cabeza del eGoverment y donde sus ciudadanos tienen un amplio acceso a la información pública.
"La búsqueda de conjuntos de datos siempre ha sido algo difícil de respaldar, y tengo la esperanza de que Google, al intervenir, la haga más fácil", agrega Tennison.
Google se beneficiará del movimiento Open Data por mostrar información pública; Open Data, a la vez, logrará que la información sea más fácil de encontrar gracias a los esfuerzos del gigante norteamericano.
Funcionamiento de la herramienta
Similar a Google, la búsqueda puede ser genérica. Luego de hacerla, Google Dataset Search sugerirá otras opciones de búsqueda que ha registrado como las más usadas. Del lado izquierdo aparecerán todas las opciones de búsqueda y al pulsar se mostrará la ficha de datos básicos de la información, su descripción y el enlace para acceder a ella.
Asimismo, ésta búsqueda puede ser filtrarda por fuentes específicas. Por ejemplo, buscar “información relacionada con el clima: noaa.gov”, y citar directamente a la NOAA para solo encontrar datos de esa organización.
La herramienta funcionará en múltiples idiomas, aunque actualmente el servicio se encuentra más desarrollado en inglés, justamente por encontrarse en su fase beta. A su vez, permite compartir la ficha en redes sociales, enviarla por correo o guardar el vínculo de la búsqueda.
Cómo identificar los datos para facilitar la búsqueda
Los datos deben estar respaldados por metadatos, que es la información mínima requerida para identificar un recurso. Google usa el sistema establecido por schema.org y otros esquemas de etiquetados de datos que empleen el vocabulario establecido por el Consorcio World Wide Web (W3C). Las instituciones que quieran publicar datos tendrán que describirlos, etiquetarlos y agruparlos por campos, como ciencias naturales, ciencias sociales, aprendizaje automático, datos cívicos y gubernamentales, por ejemplo.
El conjunto de datos, a su vez, deberá incluir una ficha con la autoría, la licencia de condiciones de uso, la fecha de publicación y actualización, los formatos de descarga disponibles y el enlace al repositorio o base de datos donde esté almacenado. Respecto a este último punto, Google Dataset Search redirige directamente a la dirección en donde se encuentra alojado el conjunto de datos, sin importar donde se encuentre (direcciones públicas, bibliotecas digitales, webs personales, etcétera).
Consejos para hacer búsquedas más efectivas
Usar etiquetas como ‘sameAs’ es útil para encontrar los datos o las descripciones de materiales republicados; en su lugar, ‘isBasedOn’ se refiere a datos republicados pero que han sufrido cambios significativos. Este es uno de los consejos que brinda el blog de desarrolladores de la herramienta y que puede visitarse en el siguiente link: https://www.blog.google/products/search/making-it-easier-discover-datasets/
Similitudes con Google Académico
Es inevitable encontrar semejanzas entre este nuevo producto de Google y el ya existente Google Académico o Google Scholar. La principal relación entre ambos es que Google Dataset Search señala como fuentes los textos académicos y científicos contenidos en la otra plataforma, como manera de demostrar la calidad y la validez de la información.
Pero Google Dataset Search va más allá: con esta nueva herramienta Google quiere fomentar la cultura de la cita de datos con el objetivo de dar mérito a quienes crean y publican información. Por eso Google enlaza los datasets con los trabajos de investigación indexados en Google Académico.
Sin duda, se trata de una herramienta que ayuda a investigadores, periodistas, empresarios, académicos y, en general, a todo aquel interesado en los datos y en respaldar trabajos, analizar y conocer consumidores, entender problemas, o adentrarse en una sociedad o un modelo de vida.
Recuerda:
Google no deja de sorprendernos: continúa su marcha para convertirse en el motor de búsqueda de absolutamente todo. En todos sus productos el objetivo sigue siendo el mismo: ordenar y hacer accesible toda la información del mundo. Y, como afirma Jeni Tennison, nadie mejor que Google para conocer las necesidades de los usuarios y las formas o las palabras que emplean para buscar.
Una de las características más importantes de este nuevo producto es que se basa en fuentes confiables, como repositorios académicos, universidades, gobiernos, organismos de investigación y agencias de noticias, de manera de facilitar el trabajo de encontrar y descargar información segura.
¿Te pareció útil este contenido?
Resumen: Para conocer a sus consumidores —y mejorar sus productos y servicios— las empresas necesitan información. Pero no siempre es fácil encontrar datos. La buena noticia es que Google se ha dedicado a facilitar esa tarea. Descubra en este artículo cómo lo hace.
Tiempo de consumo aproximado 3:00 min-
Ciencia de datos
-
Innovación Abierta
-
Negocios digitales
-
Administración de Inversiones
Compártelo en: