Metodología

El Ranking Web de Centros de Investigación del Mundo se adhiere formal y explícitamente a todas las propuestas enunciadas en el documento Berlin Principles of Higher Education Institutions (http://www.che.de/downloads/Berlin_Principles_IREG_534.pdf). El objetivo último es la continua mejora y refinamiento de las metodologías utilizadas de acuerdo a un grupo de principios de buenas prácticas acordados previamente.

0) Antecedentes del proyecto:

El “Ranking Web de Centros de Investigación del Mundo” es una iniciativa del Laboratorio de Cibermetría que pertenece al Instituto de Bienes y Políticas públicas (IPP) que es parte del mayor centro nacional de investigación de España, el CSIC.

El Laboratorio de Cibermetría se dedica al análisis cuantitativo de Internet y los contenidos de la Red, especialmente de aquellos relacionados con el proceso de generación y comunicación académica del conocimiento científico. Esta es una nueva y emergente disciplina que ha sido denominada Cibermetría (nuestro grupo desarrolló y publica la revista electrónica gratuita Cybermetrics desde 1997), también conocida como Webometría.

Cybermetrics electronic journal scientometrics bibliometrics webometrics

Con este ranking pretendemos aportar una motivación extra a los investigadores de todo el mundo para que publiquen más y mejores contenidos científicos en la Web, poniéndolos de esta forma a disposición de los compañeros de profesión y a la gente en general donde quiera que se encuentren.

El "Ranking Web de Centros de Investigación del Mundo" fue lanzado oficialmente en el año 2008, y es actualizado cada 6 meses (los datos son recolectados durante los meses de Enero y Junio y publicados un mes más tarde). Los indicadores Web utilizados están basados y se correlacionan con los tradicionales indicadores bibliométricos y cienciométricos. El objetivo del proyecto es el de convencer a las comunidades académicas y políticas de la importancia de la publicación web no sólo para la diseminación del conocimiento académico sino también como una forma de medir la actividad científica, el rendimiento y el impacto.

A) Intenciones y objetivos de los rankings

1. Documentación de las instituciones de educación superior (procesos y resultados) en la Web. Los rankings basados en datos Web pueden ser combinados con otros indicadores no-web, de hecho nosotros estamos ya publicando análisis comparativos siguiendo una iniciativa similar. Pero el objetivo actual del Ranking de Centros de Investigación es el de promover la publicación en la Web, evaluando el compromiso de las mismas para con la distribución electrónica, y el de luchar contra un problema muy preocupante en el entorno académico que es el de la aparición de una brecha digital que es incluso más evidente entre los centros de investigación de paises desarrollados. El Ranking de Centros de Investigación no pretende valorar el rendimiento de las mismas basándose únicamente en su producción en la Web, sino que además se cuantifica un amplio rango de actividades diferentes a los habituales que miden la generación actual de indicadores bibliométricos que sólo se centran en aquellas actividades generadas por la élite cientifíca.

2. Propósito del Ranking y grupos objetivo. El Ranking de Centros de Investigación mide el volumen, visibilidad e impacto de las páginas web publicadas por los centros de investigación, con un énfasis especial en la producción científica (artículos evaluados, contribuciones a congresos, borradores, monografías, tesis doctorales, informes, etc) pero también teniendo en cuenta otros materiales como el proveniente de cursos, documentación de seminarios o grupos de trabajo, bibliotecas digitales, bases de datos, multimedia, páginas personales, etc., y la información general de la institución, sus departamentos, grupos de investigación o servicios de soporte y gente trabajando ó atendiendo a cursos.
Hay un grupo que es objetivo directo del Ranking y que es el de las autoridades universitarias. Si el rendimiento de la web de una institución está por debajo de lo esperado de acuerdo a su excelencia académica, entonces se debería reconsiderar la política web de la institución, promoviendo el incremento substancial del volumen y la calidad de sus contenidos electrónicos.
Los miembros de la institución son un objetivo indirecto ya que esperamos que en un futuro no muy lejano la información web pueda ser tan importante como lo son otros indicadores bibliométricos y cienciométricos para la evaluación del rendimiento científico de académicos y sus grupos de investigación.
Finalmente, aquellos estudiantes que estén buscando centros de investigación no deberían usar estos datos como la única guía aunque una posición alta siempre indicará que la institución mantiene una política que promueve el uso de las nuevas tecnologías y posee recursos para la adopción de las mismas.

3. Diversidad de instituciones: Misiones y objetivos de las instituciones. Las medidas de calidad para instituciones orientadas a la investigación son, por ejemplo, bastante diferentes de aquellas que son apropiadas para instituciones más generalistas. Las instituciones que participan en el ranking y los expertos que lo realizan deberían ser consultados a menudo.

4. Fuentes de información e interpretación de los datos. El acceso a la información en la Web se realiza principalmente a través de motores de búsqueda. Estos intermediarios son gratuitos, universales, y muy potentes incluso cuando consideramos sus limitaciones y defectos (limitaciones en la cobertura y subjetividad, falta de transparencia, estrategias y secretos comerciales, comportamiento irregular). Los motores de búsqueda son piezas clave para medir la visibilidad y el impacto de los sitios web de los centros de investigación.
Existe un número limitado de fuentes que son útiles para los propósitos "webométricos": 7 motores generales de búsqueda (Google*, Yahoo Search*, Live (MSN) Search*, Exalead*, Ask (Teoma), Gigablast y Alexa) y 2 bases de datos científicas especializadas (Google Académico* y Live Académico). Todos ellos poseen unas bases de datos independientes muy grandes (gigantescas), pero debido a las facilidades para la obtención de datos sólo aquellos marcados con un asterisco son usados para la compilación del Ranking de centros de investigación.

5. Contextos lingüísticos, culturales, económicos, e históricos. El proyecto pretende tener una cobertura auténticamente global, no circunscribiendo el análisis sólo a unos cientos de instituciones (los centros de investigación mundialmente conocidos) sino incluyendo tantas organizaciones como sea posible. El único requerimiento en nuestro ranking internacional es el de tener una presencia web autónoma con un dominio independiente. Esta aproximación permite a un gran número de instituciones la monitorización de su ranking actual y la evolución de su posición tras modificar adecuadamente sus políticas e implementar iniciativas específicas. Los centros de investigación de los paises desarrollados tienen la oportunidad de conocer de forma precisa el límite de los indicadores que distingue la élite.
Las imparcialidades actualmente identificadas del Ranking de centros de investigación incluyen la tradicional asociada al idioma (más de la mitad de los usuarios de Internet son de habla inglesa), y una nueva de tipo disciplinar (la tecnología en lugar de la biomedicina es ahora mismo el tópico más en boga) Ya que en la mayoría de los casos la infraestructura (espacio web) y la conectividad a Internet ya existen, el factor económico no se considera como una limitación (al menos para los centros de investigación del Top 2000).

B) Diseño y peso de los indicadores

6. Metodología usada para crear los rankings. La unidad utilizada para el análisis es el dominio institucional, así que sólo universidades y centros de investigación con un dominio independiente son consideradas. Si una institución tiene más de un dominio principal, se usan 2 o más entradas con las diferentes direcciones. Entre un 5-10% de las instituciones no tienen una presencia web independiente, y la mayoría de ellas se encuentran en paises en desarrollo. Los nombre y direcciones han sido obtenidas desde fuentes tanto nacionales como internacionales.

La actividad es multi-dimensional y esto se refleja en su presencia web. Así que la mejor forma de construir el ranking es a través de la combinación de un grupo de indicadores que mida todos estos diferentes aspectos. Almind & Ingwersen propusieron el primer indicador Web, Web Impact Factor (WIF), que se basa en un análisis de enlaces que combina el número de enlaces desde páginas externas al sitio web y el número de páginas del mismo, una relación 1:1 entre visibilidad y tamaño. Esta relación se usa para el ranking pero se añaden dos nuevos indicadores al componente del tamaño: n úmero de documentos, medido como la cantidad de ficheros ricos en el dominio web, y el número de publicaciones que están siendo recolectadas en la base de datos del Google Académico. Como ya se ha comentado, los 4 indicadores fueron obtenidos de los resultados cuantitativos extraidos de los principales motores de búsqueda tal y como se detalla a continuación:

Tamaño (S). Número de páginas obtenidas a partir de 4 motores de búsqueda: Google, Yahoo, Live Search y Exalead. Para cada motor, los resultados se normalizan logarítmicamente a 1 para el valor más alto. Después, para cada dominio los resultados máximo y mínimo son excluidos y a cada institución se le asigna un rango de acuerdo a la suma combinada de los restantes valores obtenidos.

Visibilidad (V). El número total de enlaces externos recibidos (inlinks) por un sitio sólo se puede obtener de forma fiable desde Yahoo Search, Live Search y Exalead. Para cada motor, los resultados son normalizados logarítmicamente a 1 para el valor más alto y entonces son combinados para generar el rango.
Ficheros ricos (R). Los siguientes tipos de archivo fueron seleccionados tras valorar su relevancia en el entorno académico y editorial, y su volumen en cuanto al uso con respecto a otros formatos: Adobe Acrobat (.pdf), Adobe PostScript (.ps), Microsoft Word (.doc) y Microsoft Powerpoint (.ppt). Este dato fue extraído usando Google y juntando los valores obtenidos para cada tipo de archivo tras normalizar logarítmicamente tal y como se ha descrito anteriormente.
Scholar (Sc). Google Académico provee el número de artículos y citaciones de cada dominio académico. Los resultados obtenidos desde la base de datos de Google Académico comprende artículos, informes y otro tipo de material relacionado.

Los 4 rangos fueron combinados de acuerdo a la siguiente fórmula en la que cadad uno tiene asignado un peso diferente:

7. Relevancia y validez de los indicadores. La elección de los indicadores fue hecha de acuerdo a varios criterios (ver nota), con algunos de ellos se intenta captar la calidad y los puntos fuertes académicos e institucionales, mientras que con otros se intenta fomentar la publicación web y la implantación de iniciativas "Open Access". La inclusión del número total de páginas se basa en el reconocimiento de un nuevo mercado global para la información académica, ya que la Web es la plataforma adecuada para la internacionalización de las instituciones. Una presencia web fuerte y detallada que proporcione descripciones exactas de la estructura y actividades de los centros de investigación puede atraer nuevos estudiantes y académicos de todo el mundo. El número de enlaces externos recibidos (inlinks) por un dominio es una medida que representa la visibilidad e impacto del material publicado, y aunque la motivación para enlazar es muy diversa hay una fracción significativa de esa actividad que funciona de manera similar a como lo hace la citación bibliográfica. El éxito del autoarchivado y otras iniciativas de almacenamiento de la información se ven reflejados por los datos de archivos ricos y Google Académico. Los altos valores obtenidos para los formatos pdf y doc significa que no sólo los informes administrativos y burocráticos están implicados sino que la producción académica es muy significativa. Los archivos de tipo PostScript y Powerpoint están claramente relacionados con la actividad académica.

8. Medir los resultados preferentemente a los recursos. Los datos referentes a los recursos son relevantes en cuanto a que reflejan la condición general de una institución dada y están generalmente más accesibles. La medida de los resultados proporciona una valoración más ajustada de la capacidad y/o calidad de las instituciones o sus programas. Esperamos ofrecer un mejor balance en el futuro, pero actualmente queremos llamar la atención acerca de estrategias incompletas, políticas inadecuadas y malas prácticas en lo que a publicación web se refiere antes de intentar mostrar un escenario más completo.

9. Balanceando los diferentes indicadores: Evolución actual y futura. Las reglas actuales para los indicadores de rango, incluyendo el modelo de pesos descrito, han sido probados y publicados en artículos científicos (ver nota). Se continua investigando sobre este tópico, pero el objetivo final es el de desarrollar un modelo que incluya datos cuantitativos adicionales, especialmente indicadores bibliométricos y cienciométricos.

 

C) Recolección y procesado de datos

10. Estándares éticos. Hemos identificado algunos defectos relevantes en los datos obtenidos desde los motores de búsqueda incluyendo la sub-representación de algunos paises e idiomas. Ya que el comportamiento es distinto según el motor utilizado, una buena prática consiste en combinar los resultados obtenidos de varias fuentes. Cualquier otro error no es intencionado y no debería afectar a la credibilidad del ranking. Por favor, ponte en contacto con nosotros si piensas que el ranking es parcial o poco objetivo en cualquier aspecto.
11. Datos verificados y auditados. La única fuente de datos para construir el Ranking de Centros de Investigación es un pequeño conjunto de motores de búsqueda globalmente disponibles y de acceso gratuito. Todos los resultados pueden ser duplicados de acuerdo a la metodología explicada y teniendo en cuenta la naturaleza explosiva del crecimiento de contenidos en la web, su volatibilidad y el comportamiento errático de los motores comerciales.
12. Recolección de datos. Los datos son recolectados durante la misma semana, en dos rondas consecutivas para cada estrategia seleccionando el valor más alto. Cada sitio web que se encuentra bajo el mismo dominio institucional es explorado, pero no se realiza ningún intento de combinar contenidos o enlaces provenientes de diferentes dominios.
13. Calidad de los procesos de ranking. Tras la recolección automática de datos, las posiciones son comprobadas manualmente y comparadas con las ediciones anteriores. Algunos de los procesos son duplicados y se añaden nuevas experiencias desde una variedad diferente de fuentes. Las páginas que enlazan al Ranking de Centros de Investigación son exploradas, y los comentarios de blogs y otros foros son tenidos en cuenta. Finalmente, nuestra dirección de correo recibe muchas peticiones y sugerencias que son reconocidas de forma individual.
14. Medidas organizacionales para incrementar la credibilidad. Los resultados del ranking y las metodologías utilizadas son discutidas en revistas científicas y presentadas en conferencias internacionales. Esperamos que cuerpos internacionales de consejeros e incluso de supervisores tomen parte en el futuro desarrollo del ranking.

D) Presentación de los resultados del Ranking

15. Muestra de los datos y factores implicados. Las tablas publicadas muestran todos los indicadores Web utilizados de una forma muy sintética y visual. No sólo se proporciona un ranking principal que agrupa las 4000 primeras instituciones a nivel mundial (Top 2000) sino que también se muestran otros rankings regionales con propósitos comparativos.
16. Actualización y reducción de errores. Los listados se ofrecen desde paginas dinámicas que conectan a varias bases de datos donde los errores pueden ser fácilmente corregidos cuando son detectados.

Contacta con nosotros

Nuestro grupo agradece los comentarios, sugerencias y propuestas que puedan ser útiles para mejorar este sitio web. Intentamos mantener una posición objetiva acerca de los datos cuantitativos provistos pero los errores pueden ocurrir. Por favor, tenga en cuenta que la unión, o cambio de dominio, o que problemas de conectividad pueden afectar al ranking de las instituciones.

Actualmente los miembros de nuestro equipo son Isidro F. AGUILLO, José Luis ORTEGA, Mario FERNÁNDEZ (Webmaster) y Helena ZAMORA.

Para obtener más información, por favor contacta con:

Isidro F. Aguillo
CCHS - CSIC
Albasanz, 26-28
28037 Madrid. ESPAÑA

Notas:

- Aguillo, I. F.; Granadino, B.; Ortega, J. L.; Prieto, J. A. (2006). Scientific research activity and communication measured with cybermetric indicators. Journal of the American Society for the Information Science and Technology, 57(10): 1296 - 1302.

- Wouters, P.; Reddy, C. & Aguillo, I. F. (2006). On the visibility of information on the Web: an exploratory experimental approach. Research Evaluation, 15(2):107-115.

- Ortega, J L; Aguillo, I.F.; Prieto, JA. (2006). Longitudinal Study of Contents and Elements in the Scientific Web environment. Journal of Information Science, 32(4):344-351.

- Kretschmer, H. & Aguillo, I. F. (2005).New indicators for gender studies in Web networks. Information Processing & Management, 41 (6): 1481-1494.

- Aguillo, I. F.; Granadino, B.; Ortega, J.L. & Prieto, J.A. (2005). What the Internet says about Science. The Scientist, 19(14):10, Jul. 18, 2005.

- Kretschmer, H. & Aguillo, I. F. (2004). Visibility of collaboration on the Web. Scientometrics, 61(3): 405-426.

- Cothey V, Aguillo IF & Arroyo N (2006). Operationalising “Websites”: lexically, semantically or topologically?. Cybermetrics, 10(1): Paper 4. http://www.cindoc.csic.es/cybermetrics/articles/v10i1p4.html