Archivado en: General | Etiquetas: Biochemical Journal, Edición semántica, Semantic publishing, Web semántica
La editorial Portland Press Limited pone en marcha un nuevo concepto de artículo científico editado en formato PDF interactivo. Este proyecto se desarrolla en su revista insignia, Biochemical Journal.
Portland Press se ha decantado por el software de publicación semántica Utopia. Este software ha sido desarrollado por School of Computer Science de la Universidad de Manchester.
En un primer estadio los desarrolladores se centraron en la creación de una serie de herramientas interactivas para el análisis de la secuencia y estructura de las proteínas, pero posteriormente ampliaron sus objetivos a otras áreas de la biología, ciencias de la vida y de la salud.
Las funcionalidades que este sistema de publicación semántica introduce en el formato PDF coinciden con algunas de las mejoras semánticas añadidas en los documentos HTML, Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article, David Shotton, Portwin K, Klyne G, Miles A.
El PDF semántico convierte las imágenes estáticas, tablas y texto en objetos que contienen hipervínculos y que pueden ser visualizados, anotados y analizados interactivamente. Los términos y frases contienen links a web externas, glosarios y bases de datos. Y datos de valor añadido como vídeos e imágenes pueden ser embebidos en el texto con links a herramientas interactivas para manipular secuencias de las proteínas y ver las estructuras moleculares en 3D.
Biochemical Journal ofrece los artículos en PDF convencional y PDF enriquecido. Sin embargo para visualizar y utilizar todas las funcionalidades del nuevo PDF es necesario descargarse en el PC o Mac el sotfware Utopia, descarga sumamente fácil y rápida.
Una breve guía de Utopia Documents
Archivado en: General | Etiquetas: Edición semántica, Nature Publishing, Repositorios, Semantic publishing, Web semántica, XML
En este mes de agosto Nature Publishing Group lanza dos importantes novedades en su web y en sus revistas:
1. MarkLogic Server para poner en marcha una plataforma de búsqueda mejorada
Implantación de un repositorio de XML, desarrollado por MarkLogic., que se traduce en una plataforma de búsqueda que supone una recuperación de la información más rápida, eficaz y actualizada.
El funcionamiento es fácil, el servidor de MarkLogic extrae automáticamente los metadatos de los artículos añadiéndose a la base de datos.
El repositorio trabaja sobre todas las series de Nature e incluso sobre Nature news, y sobre la plataforma de Palgrave E-Boook, y Palgrave Connect.
2. Enriquecimiento semántico de los archivos PDF
Mediante la incorporación de XMP (eXtensible Metadata Platform, Plataforma Extensible de Metadatos) a los PDF de Nature. El proyecto ha sido desarrollado por The Charlesworth Group, consistente en la implantación de un sistema automatizado que extrae información de los archivos XML y la convierte en archivos PDF standarizados y validados con los metadatos XMP emebebidos en el PDF.
De esta manera los datos bibliográficos: título, autor, palabras clave, copyright y materia pueden ser embebidos dentro del documento PDF en un formato que no solamente puede ser entendido por la mente humana sino también por ordenadores, robots de búsqueda, plataformas de búsqueda, etc.
Archivado en: General | Etiquetas: Edición científica, Edición semántica, FEBS letters, NEJM, Royal Society of Chemistry, Semantic publishing, Web semántica
Mejoras semánticas que se están ya introduciendo en la edición científica. Recopiladas por David Shotton, “Semantic publishing: the coming revolution in scientific journals”
XML descargable
Algunos editores como PLoS, ya incluyen archivos XML descargables , en sus publicaciones.
Datos puros descargables (raw numerical data)
La OCDE propociona tablas estadísticas en formato Excel y otros formatos para su descarga, pero además introduce la posibilidad de producir tablas dinámicas bajo el control de usuario.

Vídeo, audio e imágenes
The New England Journal of Medicine, incluye videos y posdcast en muchos artículos, pero a diferencia de Shatton, creo que esta funcionalidad corresponde más a un artículo 2.0.
La novedad interactiva que bajo mi punto de vista sí que entra en el concepto mejora semántica, tal y como Shatton expone, está en el site NEJM Image Challenge, ya que cada imagen presenta un test de diagnóstico, para que los lectores den su opinión e incluso corrijan el diagnóstico. Además, y esta funcionalidad me parece francamente útil para los investigadores, cada imagen ofrece la posibilidad de generar un power-point con el test de diagnóstico y la respuesta del autor.

The tabbed article
No encuentro una traducción que se acomode al español, así que si algún lector me la sugiere, encantada.
Se trata de dividir el artículo en partes narrativas, y organizarlas en un menú en la cabecera del artículo, en este caso: artículo, abstracts, referencias, articulos citados, cartas.

Gestión de referencias
Shatton menciona Connotea, desarrollado por Nature Publishing Group, que además de un gestor de referencia en línea, es una red social académica y un marcador social.
En este caso, también estoy en desacuerdo con Shatton, considero Connotea, CituLike de Springer o 2Collab de Elsevier, como funcionalidades de un artículo 2.0, además que la mayoría de los grandes editores científicos incluyen este tipo de marcadores sociales académicos e incluso otros más generales, como delicius.
Abstracts estructurados digitalmente. Structured Digital Abstracts (SDAs)
Sumarios que contienen datos claves y conclusiones del artículo y que son legibles por las máquinas (ordenadores).
La revista FEBS Letters ha sido pionera en desarrollar SDA en específico en su campo de interés.
Marcas semánticas en el texto (Semantic mark-up in text)
La Royal Society of Chemistry es pionera en la mejora semántica de los artículos, de hecho en 2007 recibió el galardón ALPSP/Charlesworth Award for Publishing Innovation, con su RSC Project Prospect.
1. Introducción de mark-up de lenguaje en el texto, de manera que se destacan, colorean, subrayan términos, según el IUPAC Compendium of Chemical Terminology, es decir utilizando ontologías , lenguajes controlados y compuestos químicos. Sobre el término destacado se hace un link externo o en la propia página a definiciones, sinónimos, estructuras y RSS, o artículos relacionados con ese término.
2. Función de búsqueda por estructuras y subestructuras, mediante el dibujo de la molécula, utilizando ChemAxon’s MarvinSketch o pegando ChemDraw o ISIS/Draw file. Esta función de búsqueda sólo la tenía Scifinder.
Ejemplos de artículos mejorados


Archivado en: General | Etiquetas: Edición científica, Edición semántica, PLoS, Semantic publishing, Web semántica
En este post intentaré resumir “las mejoras semánticas” (semantic enhancements), introducidas por David Shotton, Portwin K, Klyne G, Miles A, en un artículo de investigación biomédica publicado en PLoS, (Impact of Environment and Social Gradient on Leptospira Infection in Urban Slums), y relacionadas y explicadas en “Avendtures in semantic publishing: Enhancements of a Research Article”
El artículo es largo, denso y muy técnico, ya que presenta innovaciones difíciles de entender en un primer momento. He intentado traducir de la mejor manera posible todas las cuestiones técnicas, pero…, así que pido la colaboración de los posibles lectores para que corrijan todos aquellos errores técnicos o de traducción.
También he intentado ilustrar cada mejora semántica con imágenes capturadas del propio artículo, de manera que la explicación teórica vaya acompañada del ejemplo práctico.
Quizás sea conveniente empezar por un resumen gráfico, que muestra el ecosistema de artículos, documentos, hojas de cálculo, fusiones de datos y RDF files que conforman las mejoras semánticas añadidas por los autores al artículo original.

1. COSAS QUE LOS AUTORES NO HAN ALTERADO (MUCHO, SEGÚN ELLOS MISMOS)
Navegación dentro del documento. Los links internos permanecen, pero han sido desplazados a un menú fijo en la parte superior del documento, añadiéndose un link a “data fusion supplements”.
Comentarios de los lectores. No se duplica el sistema de PLoS que permite a los lectores registrar sus comentarios, los autores animan a los lectores a hacer comentarios sobrel artículo original y el artículo mejorado semánticamente utilizando el sistema PLoS NTDs y en el blog de PLoS
2.PROPORCIONANDO ACCESO A DATOS PROCESABLES
Se trata de proporcionar los datos fuente,(datos que no han sido procesados para ser utilizados, “raw data”), contenidos dentro del artículo de forma que se puedan procesar por el lector. Para ello se añadieron cabeceras (headers) a hojas de cálculo con los datos fuente, (proporcionadas por los autores), se registraron nuevos DOIs, y añaden un link para su descarga en las imágenes pertinentes.

3.FUSIÓN DE DATOS CON INFORMACIÓN DE OTROS RECURSOS
Mashup, pero los autores prefieren definirlo como fusión de datos, presentando cinco ejemplos.
Fusión de datos geoespaciales
Tomando la imagen de una distribución geoespacial sin referencias de longitud ni latitud, se superpone una foto de satélite sobre el callejero del lugar de referencia. Se utiliza el API de Google Maps.
Fusión de datos geoespaciales a través de múltiples publicaciones
Se han superpuesto varias imágenes geoespaciales, una primera publicada en un artículo de otros autores y una segunda, la imagen mejorada, del párrafo anterior.

Trazado del estudio sobre las localizaciones en espacio y tiempo
Sobre las localizaciones de en Google Maps se van trazando los distintos estudios realizados sobre el tema en el mundo.

4.AÑADIENDO VALOR AL TEXTO
Destacando términos textuales
Subrayado automático de términos textuales con color, mediante un menú fijo en la cabecera del documento, en el que aparecen los conceptos claves del contenido, y presionando sobre el concepto deseado, inmediatamente, los términos relacionados se destacan.
Links en determinadas entidades a fuentes de información externas
Se hace un link en cada término subrayado del concepto clave organismo a la clasificación de taxonomías de uBio. De esta manera se dan definiciones ontológicas que pueden ayudar a los lectores, y facilitar la búsqueda de artículos relacionados.
Herramienta supporting claims para permitir citas en el contexto
Se construye un caja de texto en la que aparece una frase como introducción, y otra como discusión, o de resultados, y así proporcionar al lector cierta información sobre la afirmación citada, sin necesidad de abrir una ventana nueva en un link externo o tener que buscar el artículo.

Los autores indican que el concepto de mostrar el sumario de un documento citado no es nuevo, y que se ha utilizado en publicidad contextual, como por ejemplo la demostración de Kawa. La novedad introducida en el artículo semántico es que el link a la cita se produce en el nivel de la llamada a la cita, de manera que contruyen dos citas diferentes para el mismo artículo citado.
En la imagen la cita es [6] , en distintos párrafos del artículo, la herramienta supporting claims tiene texto diferente.
5.HACIENDO LA INFORMACIÓN MÁS ACCESIBLE
Document summary
Al lado del título como se puede ver en la imagen
Este sumario consta de seis secciones:
1. Study summary, que podría considerarse un abstract digital tal y como lo propusieron en su momento, Seringhaus and Gerstein
and Gerstein et al. e implementado por FEBS Letters
2. Nube de tags, muestra en orden alfabético los términos destacados en el texto del artículo con su color establecido el menú de conceptos destacados. A primer golpe de vista el lector es capaz de determinar los términos más utilizados en el estudio.
3. Árbol de tags, los mismos términos de la nube de tags, han sido segregados en categorías semánticas usadas en los conceptos destacados. La novedad del arbol de tags es que permite combinar los beneficios de la nube de tags con las clasificaciones semánticas jerárquicas
4. Términos ontológicos sobre la materia objeto del estudio, se presentan en una simple lista ordenada alfabéticamente.

5. Estadísticas del documento, un simple set de estadísticas, sumarizando el número de autores, citas, refencias, figuras, figuras complementarias y tablas.
6. Análisis de las citas, análisis numérico de las citas dentro del artículo, en términos de frecuencia de uso en las distintas partes del documento. Los datos puros se presentan en una hoja de cálculo para su descarga, que también contiene la contabilidad de 53 referencias citadas en google acholar y en WOK en marzo de 2009.
CITO, Citation Typing Ontology, que a través de un vocabulario controlado permite la clasificación de las citas y referencias del artículo.
La ontología propiamente dicha está disponible en este link, dicha ontología pretende ser lo suficientemente amplia como para que los autores sean capaces de clasificar las citas incluidas en sus artículos.
Una vez desarrollado CITO, las citas del artículo mejorado semánticamente se han clasificado en los siguientes términos:
En términos de naturaleza o tipo de relaciones entre citas, como por ejemplo rehusado por o se utiliza la metodología. Estas relaciones son objetos propietarios en CITO, y no son excluyentes entre sí.
En términos de naturaleza o tipo de obra (work), como por ejemplo, review o research paper. Son subclases de tipo de obra, ha de elegirse una subclase.
En términos de naturaleza o tipo de expresión de la obra. Son subclases de expresión (expresión): libro, revista o artículo, debe elegirse una.
En términos de naturaleza o tipo de la manifestación de la expresión de una obra, (of the manifestation of expression of a work), como por ejemplo, documento en papel o página web, también son subclases pero no son excluyentes.
En términos de peer-review de la expresión de la obra, si es peer-review o no.

Además se incluye un menú para ordenar las citas por orden alfabético, año de publicación, frecuencia dentro del artículo, número, y el botón de turn citation typing off, para ocultar o mostrar la clasificación ontológica de cada una de ellas.

Abstracts en idioma alternativo
El artículo original incluía en supporting information la traducción del abstract al portugués, ya que los autores son brasileños y el estudio analiza el efecto de la leptospira en Brasil, que podía descargarse en un Word.
Los autores del artículo mejorado semánticamente, convierten el Word en un documento web añadiéndole botones para colorear los términos de los conceptos destacados, igual que en el texto del artículo, incluyen la referencia del autor de la traducción.
- Figuras interactivas
6.INTERACTIBIDAD DEL USUARIO. ARTÍCULO VIVO
Se toma una figura del artículo original compuesta por 6 paneles fijos, y se convierte en interactiva, de manera que los paneles pueden moverse y superponerse unos sobre otros.
Figura original
Figura interactiva
7.PREVISIÓN DE NUEVOS LINKS
El artículo original carecía de vínculos externos dificultando al lector la posibilidad de ver los trabajos citados o los abstracts de los mismos.
Esta situación fue resuelta por los autores del artículo enriquecido semánticamente mediante:
Links a las referencias citadas
Links a sitios externos:
Links a instituciones académicas de los autores, organismos de financiación y proveedores de software.
En la cabecera del artículo mejorado se añaden links al artículo original, y al site de PLoS NTDs.
En el pie del documento se incluyen marcadores sociales, Connotea de Nature, Delicious, la licencia Creative Commons del trabajo mejorado, XHTML/RDFa Web serivico de validación de páginas web del World Wide Web Consortium (W3C).
En los detalles del documento, links la licencia Creative Commons del artículo original.
8. METADATOS DE LA CITAS
La principal creación de la web semántica son los metadatos legibles por el ordenador. Los autores han desarrollado este principio en tres direcciones:
Metadatos embebidos usando RDFa
RDF es una especificación del W3C para la definición mediante metadatos, generalmente en XML, de los recursos que se pueden encontrar en un sitio.
Se han embebido en el documento html del artículo mejorado, los metadatos relativos a las citas, autores, idiomas usados, el DOI, la licencia Creative Commons, las geo-coordinadas y los datos del estudio, utilizando el estandar RDFa, que puede ser descargado para la inspección humana, en el link “Extract RDFa” en el pie del artículo.
Metadatos de autoreferencia legibles por ordenador- En formato Notation 3
Estos metadatos en formato N3 contienen los mismos datos que el RDFa embebido, pero con el plus de la categorización de la cita del propio artículo y del abstract. Disponibles en el pie del artículo, Document details in RDF (N3 file)
Lista de las citas clasificadas antológicamente, también en formato N3, en el pie del documento, Citation details in RDF (N3 file)
Archivado en: General | Etiquetas: Edición científica, Edición semántica, PLoS, Semantic publishing, Web semántica
Hace unos meses se empezaba a acuñar el término “revista 2.0”, como consecuencia directa del open access, web 2.0 y ciencia 2.0, pero la inmediatez y rapidez de la evolución de la inteligencia colaborativa nos está llevando directamente a la edición científica semántica y por ende a las revistas semánticas.
La wikipedia da una definición derivada de la web semántica, publicación de información como objetos utilizando el lenguaje de la web semántica o como documentos con markup explícitos. Pero en la misma entrada se sugiere su fusión con la propia semántica.
Sin embargo, sí se recoge la predicción de Tim Berners-Lee en 2001: la web semántica revolucionará la edición científica, ya que se producirá un profundo cambio en la naturaleza de cómo el conocimiento científico se produce y se comparte, los investigadores podrán compartir sus descubrimientos en tiempo real publicándolos como datos semánticos en la web, y las motores de búsqueda mostrarán estos datos semánticos a un clic de ratón.
Y así lo han entendido los editores e investigadores académicos.
Los editores porque están inmersos en una carrera vertiginosa hacia metas de ciencia ficción cada vez más cercanas, como una gran oportunidad de liderazgo del mercado.
El más claro ejemplo, Elsevier, que recientemente ha lanzado dos concursos internacionales:
Article 2.0, cuyo ganador, 67 Bricks Ltd, introduce la posibilidad de añadir aserciones (assertions) en los párrafos a través de la herramienta Add Assertion y posibilidad de añadir el DOI a las citas, definiendo directamente esta aplicación, como web semántica, o Elsevier Grand Challenger.
Y los investigadores, porque creen que la predicción de Tim Berner-Lee es posible y real, así lo expone David Shotton, que define la edición semática como cualquier mejora que realce el significado del artículo, facilite su descubrimiento automatizado, permita su link a otros artículos semánticos relacionados, proporcione acceso a los datos dentro del artículo o facilite la integración de datos entre artículos.
David Shotton, Portwin K, Klyne G, Miles A han logrado hacer realidad el artículo semántico, Impact of Environment and Social Gradient on Leptospira Infection in Urban Slums y lo explican en otro artículo: Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article, ambos publicados en PLoS
