BUSCANDO TESOROS EN LA RED

sábado, 12 de marzo de 2016

CURADORES DE CONTENIDO

La curación de contenido y la importancia que adquiere esta práctica ante la dificultad de jerarquizar y ordenar contenidos relevantes en distintas narrativas producto del exceso de información que circula en Internet y las redes sociales. Es importante la sistematización de la búsqueda y selección de contenidos, así como herramientas que pueden ser útiles al curador, tanto en trabajo comunicacional como en los entornos en general.

Obtener la mejor información acerca de un tema es probablemente la dificultad mayor a la que se enfrentan (nos enfrentamos) los usuarios de Internet. Una búsqueda recupera millones de páginas que concuerdan con el criterio, pero el usuario rara vez pasa de los primeros resultados obtenidos, los que para él (y para el algoritmo) resultan más confiables. Sin embargo, para obtener información de calidad, siempre es necesario ir más allá. Con el auge primero de los blogs y luego de las redes sociales, en muchos de los casos (sino la mayoría), la información oportuna, pertinente, de calidad, estará fuera de los medios tradicionales, de las fuentes primarias y por consiguiente de las primeras páginas de resultados de los buscadores, así que una buena lista de favoritos en nuestro buscador ya no es suficiente para tener acceso a lo mejor.

Cada día la información se multiplica vía Twitter, Facebook, Youtube, Wordpress e Internet en general. Nadie puede estar en contra de esto; se consigue la tan ansiada democratización de la información, porque en teoría todos tienen la misma oportunidad de publicar información. La verdad es que hasta hace muy pocos años, si queríamos enterarnos de un tema que estaba ocurriendo en el exterior, bastaba con revisar las páginas internacionales de nuestro periódico o canal de tv favorito, la cual por cierto se limitaba a publicar los cables y videos que le enviaba una agencia internacional a la que estaba suscrito. El resultado es que no eran muy distintas las informaciones de un medio que la de otro, y todas pasaban por el mismo origen, que por lo general era una agencia de noticias.

Hoy en día estamos ante un problema distinto: la abundancia de fuentes y contenidos hace difícil la tarea de por dónde comenzar. Por si fuera poco, como señala Osvaldo Burgos (2013)

Ante el mismo hecho y necesidad de estar informados, recurrimos primero a las redes sociales, a Google u otros buscadores, además de tantas otras opciones para escoger información que proviene en texto, audio, video, imágenes, o la combinación de estos formatos. El riesgo es que en este proceso podemos ignorar muchos contenidos útiles y pertinentes por falta de tiempo, por invisibilización y falta de notoriedad de sus creadores. Eso sin mencionar la dificultad de distinguir la verdad de la mentira; la especulación del hecho y la relevancia de la intrascendencia, la fuente real de la inventada.

Pero entonces ¿cómo se logra identificar y ubicar todo lo que se está hablando o publicando en un momento determinado sobre un tema, personaje o situación? ¿Cómo estructurar lo más relevante acerca de un acontecimiento tomado de distintas plataformas, tanto de redes sociales, blogs, portales informativos y fuentes primarias? Es allí donde surge la curaduría de contenidos como un nuevo perfil o salida profesional del comunicador social.

Es aquí en donde entra el curador de contenido es un profesional que asesora sobre la información más relevante de su sector de actividad. Tom George lo define como “alguien que encuentra, organiza, presenta y comparte información valiosa de muchas formas, sobre un tema específico, de manera que proporciona al lector su visión sobre el tema, buscando el debate sobre el mismo”

El periodista venezolano Fernando Núñez Noda (2014) afirma que “casi todas los artículos que leemos en la web son reprocesados”; la agregación y la curaduría son la forma preeminente de presentar noticias y artículos en línea. "Agregar", en este sentido, es tomar fragmentos de noticias originales, generalmente de agencias o producción propia en media outlets y hacer artículos, posts u otros mensajes pretendidamente periodísticos. La "curaduría" es más sofisticada, porque alterna los fragmentos con contenido de factura propia.
El curador construye algo distinto y, si trabaja con calidad, logra un alto valor agregado respecto al caos alternativo”. A diferencia de lo que hacen los agregadores, la curaduría pretende ir más allá: ordena y presenta la información publicada por múltiples generadores para que el lector final se arme un criterio con lo mejor de la web.

El producto final es un compendio que reúne todo aquello que es valioso con relación a un tema, ya sea que provenga de un blog, de un portal informativo, de las redes sociales, videos, audios, o cualquier otra fuente digital, que en todos los casos se debe respetar, citar y vincular.

Jordi Carrió Jamilà (2013) menciona las siguientes razones que justifican la existencia de los curadores de contenidos: Existe demasiada información y contenidos en Internet y los criterios técnicos no son suficientes para diferenciar lo que es de calidad de lo que no. Desde que se ha masificado el uso en estas redes, facilitando al usuario la difusión contenido, se premia al que tiene mayor número de seguidores y no por el debate que estos usuarios generan.

Por otra parte, la publicidad de las empresas se está sustituyendo por el marketing de atracción, mediante contenidos relevantes, lo que aumenta el volumen de información que a diario se publica.

Finalmente, para Carrió la razón fundamental de curar contenidos es que la práctica mejora el saber y la información en la red – La opinión de los expertos en cada tema, será un valor de confianza muy importante. Serán los nuevos líderes de opinión y será muy importante su reputación y su aportación crítica al tema, ya que es necesario que la curación se complemente con la realización de contenidos propios para ayudar a sus lectores y seguidores a hacerse una idea de su profesionalidad en el tema. Para ello es indispensable que el curador conozca y reflexione sobre su función; analice las características del público al que se dirige y valore la información en función de ello.

También que utilice las herramientas adecuadas para mantener una revisión periódica; respetar las normas básicas de propiedad intelectual y licencias de la información. Está obligado a ser un conocedor de la materia; no todo el mundo puede “curar” todo tipo de contenidos solo por ser un experto en manejo de redes sociales. La especialización más deseada es la que tiene que ver con la fuente de conocimiento.

El trabajo más importante del curador no es crear nuevo contenido. Consiste en clasificar el existente para que los usuarios puedan acceder a él. Eso no solamente sirve para que las empresas periodísticas y los medios de comunicación ayuden a sus audiencias a comprender un hecho o a enterarse de las principales novedades. Ayuda a las organizaciones a disponer de información relevante, para entender cómo está evolucionando el mercado, qué se dice de su producto o de la competencia, o cuáles son buenas prácticas que se están aplicando, lo cual es muy útil por ejemplo, a la hora de anticipar crisis.

El trabajo de curaduría se basa en principios básicos de organización, clasificación, almacenamiento y difusión. Una guía de Eva Sanagustín Fernández (2013) sobre la preservación de contenido digital establece 10 pasos que intentamos resumir de la manera siguiente:

1.- Elegir el tema a filtrar: el tema sobre el que girarán las publicaciones de una empresa es lo que la define y crea su imagen por lo que debe quedar bien claro desde el día 1 de trabajo.

2.- Elegir las palabras claves: la primera tarea del curador de contenidos es configurar su entorno de trabajo para localizar las mejores actualizaciones para sus seguidores.

3.- Elegir las fuentes de información: localizarlas y clasificarlas ya sean generalistas o especializadas y seguir la actualidad y los temas que no dependen de una fecha concreta de publicación.

4- Crear alertas para seguir las fuentes: crear su cuadro de mando desde donde recopilar todas las noticias posibles y determinar qué fuentes tienen opción de suscripción por correo o seguimiento por RSS a todo lo que publican.

5.- Determinar el criterio para elegir algo: ¿es innovador, imprescindible, última noticia, inspirador, motivador, educativo, divertido, de tendencia? ¿Coincide el punto de vista de la información con el de la empresa? ¿La fuente aporta realmente algo aunque ella misma no tenga gran relevancia?

6.- Determinar cómo lo verá el usuario: ¿se agruparán los contenidos por etiquetas que sigan las que podría tener el blog corporativo? ¿Se mostrará el enlace/foto/vídeo o también se incorporará alguna opinión o texto de recomendación? ¿Se dará el enlace original y se citará la fuente de manera visible?

7.- Determinar cómo será la herramienta: antes de registrarse a las plataformas, es importante analizarlas para saber cuál conviene más. ¿El filtrado de contenidos es automático (tipo agregador) o se puede hacer manualmente con bookmarklets en el navegador? ¿Se puede incluir contenido propio en diversos formatos? ¿Permite programar las actualizaciones? ¿Tiene plantillas o se puede cambiar el diseño?

8.- Elegir la herramienta de publicación: todos los medios sociales pueden usarse como herramientas de filtrado de contenidos pero, hay algunos que han sido creados expresamente para facilitar el trabajo del curador.

9.- Combinar con contenido original: el contenido que se filtre debe relacionarse adecuadamente con el original que cree la propia organización.

10.- Promocionar el contenido filtrado: hay que dar a conocer el contenido para que llegue a la audiencia que se quiere atraer.

La cuestión principal de la curación de contenidos es la caracterización: esta fase distingue a la curation de la simple recomendación social o de la difusión de contenidos.

Según Beth Kanter (2012), existen dos clases de curación:

A) Buena curation: honestidad, investigación, utilizar muchas fuentes, créditos (citar las fuentes), transformar, mezclar.

B) Mala curation: degradación, superficialidad, utilizar pocas fuentes, no ofrecer créditos (no citar las fuentes), imitar, copiar y pegar.

Ocho notas sobre curación de contenidos digitales:

1.- La observación del contenido de los medios digitales en la actualidad permite confirmar que la curación de contenidos está efectivamente presente en el periodismo digital. Y lo está de diversas formas y con diverso nivel de intensidad: desde elemento de complemento o apoyo, a elemento central, protagonista o destacado del producto periodístico.

2.- La curación de contenidos en el periodismo pone en primer plano las fuentes externas al propio medio: esas fuentes externas (los contenidos externos) son las piezas con las que se construye el producto de curación. Sin ellas no hay curación.

3.- Implicaciones para los medios. Deberán situarse en la perspectiva de valorar y de valorizar los contenidos que no han sido generados (creados) por ellos. Esta es una de las claves de la cultura web actual (ver, recomendar, compartir) y es algo que no siempre ha sido bien entendido por los medios tradicionales.

4.- Pero los contenidos externos por sí solos no bastan. Hay que darles sentido (sense making) e integrarlos en la propia narración. Esta es la labor fundamental del periodista curador de contenidos. Es él quien valida, jerarquiza y otorga valor a los contenidos al “explicarlos”. Sin él no hay curación.

5.- Implicaciones para el profesional del periodismo: deberá profundizar más en habilidades de selección de contenidos y en habilidades de contextualización (sense making) de contenidos.

6.- En todos los contextos temporales ante los cuales se enfrenta el periodista a la hora de crear una pieza (información del pasado, de los últimos días, de las últimas horas, en tiempo real), se ha producido una explosión ingente de contenidos informativos. La curación periodística debe dar una respuesta adecuada a la audiencia en todos esos marcos temporales

7.- Implicaciones para la documentación periodística. La tradicional especialización de la documentación periodística (ya sea realizada ésta por periodistas o por profesionales especializados o documentalistas) en el tratamiento de la información del pasado (retrospectiva), se debe ampliar ahora a la información actual, y aún más, a la información en tiempo real, (por la cual cada vez tiene más interés la audiencia). La documentación periodística, entendida ahora como curación periodística, implica trabajar en todos los contextos temporales y con todo tipo de fuentes de contenidos.

8.- Para acabar, se puede concluir que el objetivo que marcaba Bhargava, “dar sentido al contenido que otros han creado”, es un objetivo perfectamente válido y estimulante en el contexto del periodismo actual. Hay aquí toda una serie de oportunidades y de retos en el futuro para los medios y para los periodistas.

SIETE HERRAMIENTAS PARA CURADORES

Para facilitar la labor de los curadores de información, tenemos 7 herramientas imprescindibles:

1) Scoop.it

Esta herramienta es muy fácil de usar y nos permite crear un periódico online que recoge noticias recopiladas de diferentes fuentes que puedes elegir a la hora de configurar tu cuenta. Además, cuenta con un bookmarklet que podemos usar durante nuestra navegación habitual para agregar cualquier noticia a nuestro tópico. Es un servicio ideal para seguir un tema en concreto y que además se puede utilizar tanto a nivel interno de una empresa, así como para compartir nuestras aficiones con nuestros amigos de las redes sociales (genial).

2) Paper.li

Te ayuda a crear un divertido y curioso “periódico” usando tu cuenta de Twitter o Facebook. El proceso es muy rápido y de manera automática nos permite publicar un periódico online con noticias recopiladas de diferentes fuentes. Una ventaja adicional es que podemos dejar la herramienta desatendida y esta continuara publicándose automáticamente ;), recogiendo información en base a las palabras clave, hashtags, listas de Twitter, Facebook o fuentes RSS que hayamos seleccionado previamente.

3) Storify

Es una herramienta interesante para narrar una historia embebida en nuestro blog. Recoge contenido de distintas redes sociales: Twitter, Facebook, Instagram, Youtube y Flickr, luego lo publica casi en cualquier lado que desees y finalmente te invita a compartir tu historia con tus amistades y seguidores para hacer un efecto viral.

4) Curate.me

Es otra opción para recibir recopilaciones de noticias. Se trata de un servicio que nos envía al correo una recopilación de las noticias de los temas que seleccionemos y de las redes a las que le brindemos acceso ( Twitter, Facebook, Google Reader y LinkedIn). La configuración de cada “brief” que creemos nos permite elegir el día y la hora en que el servicio nos enviará la información recopilada directamente a nuestra carpeta de entrada, así como de la valoración que le demos a cada una.

5) Learnist

Herramienta orientada para la educación ya que nos permite recoger contenido de la Web para crear lecciones virtuales. Es una herramienta colaborativo y muchos se preguntan si en algún momento irá a reemplazar al todopoderoso Wikipedia, ya que además permite valorar los contenidos de una lección para mejorarla (aprendizaje colaborativo en masa).

6) Evernote
A diferencia de las anteriores, se trata de una aplicación que se caracteriza por guardar contenidos o “notas” en múltiples formatos (texto, páginas Web completas, extractos de éstas, imágenes, documentos, etc.) y además de archivarlas debidamente.

Estos contenidos se pueden organizar creando diferentes libros de notas, agrupando los contenidos que se genere por cualquier medio, pudiendo además incluir comentarios asociados a los mismos. Además de etiquetas las notas por atributos, puede funcionar vía Web mediante una herramienta de escritorio o a través de equipos móviles (Smartphones, Tablets), manteniendo siempre sincronizadas las notas entre todos los dispositivos. ¡Qué maravilla!

7) Pinterest
Permite seleccionar imágenes publicadas en la web y colgarlas en algunos de nuestrosboards temáticos. Es decir que nos permite recopilar contenido (solo imágenes y videos) desde la Web, nuestra computadora o a través de nuestros dispositivos móviles.

Cada imagen o contenido que compartimos (Pin/ Repin), podemos organizarlo en diferentes tableros, según nuestro criterio. El mayor problema de esta red social es sobre el uso de imágenes que pueden tener derechos de autoría y copyright.

Ahora bien, como punto final de ésta entrada, es precisamente haciendo uso de la herramienta: Scoop ip es que les comparto mi curación digital sobre un tema que me gusta leer y que desafortunadamente esta vigente en todos los países: Los políticos corruptos. éste es el enlace:

http://www.scoop.it/t/politicos-mexicanos-corruptos?nosug=1

Enlaces consultados:

Blanco Luiis Ernesto, "Gestión y curación de contenidos como herramienta para educadores y comunicadores" Revista temas de comunicación, 27 de julio de 2013, pp. 107-123, Universidad católica Andrés Bello en línea. http://revistasenlinea.saber.ucab.edu.ve/temas/index.php/temas/article/view/2025/2092

Guallar Javier "Curación de los contenidos en los medios digitales" consultada el 12 de marzo de 2016, en línea. http://eprints.rclis.org/28614/1/2015_xescom_guallar-curacion%20contenidos.pdf

Mercado Ivan, "8 herramientas útiles para el curador de contenidos", 3 de diciembre de 2013, en línea. http://communitymanagerslatam.com/8-herramientas-utiles-para-el-curador-de-contenidos/

Luis Enrique, vídeo cómo utilizar Scoop.it You tube https://www.youtube.com/watch?v=A5L-tWkAXcQ

viernes, 11 de marzo de 2016

MI PRIMER EXPERIENCIA EN GOOGLE ACÁDEMICO

Debido a que todas las disciplinas han sufrido cambios y avances drásticos, el campo del Derecho no podía quedarse estático; pues debido a que las relaciones sociales que se tornan más complejas debido al desarrollo de los medios de comunicación y al gran desarrollo de la ciencia y de la tecnología es casi imposible que la Ley que data de dos o tres siglos, siga siendo igual en cada uno de las países y por ende el procedimiento, es decir los Juicios, sigan observando el mismo mecanismo o pasos a seguir, luego entonces es importante que los litigantes busquen alternativas que ofrecer a sus clientes para resolverles sus problemas legales y ello incluye el que recurran a mecanismos del Orden Internacional y que a la hora de llevar a cabo el procedimiento puedan incluso "implementar" más acciones que, quizás el Juez les deseche, pero que el litigante no se quede con esa decisión judicial, sino que sea capaz de recurrir al Derecho Comparado y que incluso lo haga valer mediante las instancias legales a las que logre allegar dicha inconformidad y con ello lograr una verdadera Defensa para con su Cliente. Uno de los supuestos sería precisamente el relativo a los Juicios Laborales, los cuales en México, desde siempre han sido inequitativos y muy largos para los trabajadores que intentan conseguir se les respeten sus Derechos, Pues bien; como Abogados litigantes, debemos encontrar y hasta "inventar" o "adecuar" acciones que no están especificadas en la Ley Laboral, por lo que ahora que contamos con herramientas de búsqueda en el ciberespacio, debemos aprender a hacer uso del mismo para encontrar maneras de agilizar dichos juicios que tradicionalmente tardan años y en gran porcentaje los trabajadores se aburren y terminan dejando al olvido, pues bien es así que en ésta tarea intenté buscar en GOOGLE ACADÉMICO

Estructurando mi búsqeda de la siguiente manera:

PREGUNTA GENERAL:

¿CÓMO AGILIZAR UN JUICIO LABORAL EN EL TRIBUNAL DE ARBITRAJE?

CAMPO TEMÁTICO:

DERECHO LABORAL, JUICIO, TRIBUNAL, PROCEDIMIENTO

PROBLEMA ESPECIFICO:

AGILIZAR UN JUICIO LABORAL

REFERENCIAS AUTORALES:

TRATADOS INTERNACIONALES, SUPREMA CORTE DE JUSTICIA DE LA NACIÓN

Sin embargo cuando llene los cuadros de texto que aparecen en el formulario me indicó lo siguiente:

"No se ha encontrado ningún resultado para DERECHO LABORAL JUICIO TRIBUNAL PROCEDIMIENTO JUICIO OR LABORAL "¿CÓMO AGILIZAR UN JUICIO LABORAL EN EL TRIBUNAL DE ARBITRAJE?" -LAUDO autor:SUPREMA autor:CORTE autor:DE autor:JUSTICIA autor:DE autor:LA autor:NACIÓN.

Resultados de DERECHO LABORAL JUICIO TRIBUNAL PROCEDIMIENTO JUICIO OR LABORAL ¿CÓMO AGILIZAR UN JUICIO LABORAL EN EL TRIBUNAL DE ARBITRAJE? -LAUDO autor:SUPREMA autor:CORTE autor:DE autor:JUSTICIA autor:DE autor:LA autor:NACIÓN (sin comillas):"

No obstante, no me di por vencida, y procedí a formular otra búsqueda, siendo esta la siguiente:

PREGUNTA GENERAL:

¿Cómo tramitar un incidente laboral?

CAMPO TEMÁTICO:

DERECHO LABORAL, JUICIO, PROCEDIMIENTO, INCIDENTE

PROBLEMA ESPECIFICO:

PROMOVER INCIDENTES LABORALES

REFERENCIAS AUTORALES:

SEMANARIO JUDICIAL JURISPRUDENCIA TESIS AISLADAS TRATADOS CONVENIOS INTERNACIONALES LEY

Sin embargo el resultado fue el mismo, por lo que procedí a realizar la búsqueda de manera tradicional, es decir introduciendo la frase completa en el buscador de Google académico: ¿Cómo tramitar un incidente laboral? y desde luego arrojó más de 10,000 resultados, que son demasiados extenso; como podrán observar en el enlace siguiente:

https://scholar.google.com.mx/scholar?hl=es&q=%C2%BFC%C3%B3mo+tramitar+un+incidente+laboral%3F&btnG=&lr=

Es innegable que, éste método de búsqueda en Google Académico es muy valioso, sin embargo sí considero que necesito practicarlo mucho más para obtener mejores resultados, e incluso sería excelente que más profesionistas de mi área pudiéramos encontrar cómo utilizar de manera efectiva Google académico, por lo que si alguno de quienes lleguen a leer el presente, le agradecería sus recomendaciones, porque como verán no se trata solo de compartir triunfos y logros, sino también los "tropezones" que nos damos para que, eso no nos haga sentir que solo uno es el que se cae, ¡Nooo, de ninguna manera, pero es precisamente el hecho de aprender a base de los errores, o no?

En fin, ésta fue mi primer experiencia con Google Académico, quizás avanzo de a pasos muy pequeños, pero mi ánimo no decae.

lunes, 29 de febrero de 2016

LA CARACTERIZACIÓN DE LA WEB SUPERFICIAL Y LA WEB PROFUNDA

LA WEB SUPERFICIAL O VISIBLE

El uso que se le da a la red hoy en día presenta un sin fin de limitaciones que el usuario común aún no logra descubrir, ya que la indexación de páginas por parte de las arañas (spiders) en muchos de los sitios, no tienen la consistencia de una búsqueda verdadera, quedándose en meros formalismos o indexa páginas con criterios muy particulares o individualistas. Esto genera, miles de miles de páginas que no han sido o dejan de revisarse con la consiguiente pérdida de información y de un tiempo valioso para el usuario.

Se estima que para los buscadores habituales (Google y otros de menor escala) el número de páginas indexadas crece exponencialmente por lo que la progresión en la que crece el número de páginas web subidas a la net es totalmente geométrica.

Esta es la conocida INTERNET SUPERFICIAL en la que navegan casi el 85% de los usuarios web. Muchos de los investigadores lo representan visualmente como el pico de un tempano de hielo que sobresale apenas unas decenas de metro por encima de la superficie del agua. Representación fiel de lo que sucede en el tráfico web.

Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.

Las características principales de los sitios de la Web visible o superficial son:

su información no está contenida en bases de datos

es de libre acceso

no requiere la realización de un proceso de registro para acceder

Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.

LA WEB PROFUNDA

A la web profunda también se le conoce como deep web, dark web y otros apelativos; y no solo casi ha sido casi inexplorada sino muchas veces mal utilizada, para encubrir páginas de dudosa reputación o no indexadas debidamente.

Segun Fernández (2006) en el año 2000 se estimaba que el tamaño del Internet Profundo era de 7.500 TeraBytes de datos en unos 550.000 millones de documentos. Para hacernos una idea, se estima que en aquella época la Internet Superficial ocupaba 167 Terabytes y por ejemplo el contenido de la Biblioteca del Congreso de Estados Unidos tenía unos 3.000 Terabytes que no eran accesibles por los motores de búsqueda.

Existen herramientas para acceder un poco mas profundo en la web, como ejemplo de ello están los SCRIPTS...pequeños artilugios tecnológicos (programas, generalmente en texto plano) con una orden de ejecución que nos hacen nuestras búsquedas mas fáciles y con un ahorro de tiempo sustancial. Sin embargo, a menos que se programen y hagan, pueden causar daños considerables en nuestros equipos. Por ejemplo: los que se usan con la extensión de GREASEMONKEY de MOZILLA FIREFOX, de los cuales existen cientos y para un variado uso. Pero tambien existen miles de aplicaciones y formas de llegar a la DEEP WEB, muchas de ellas no recomendables por su peligrosidad.

Internet invisible o Profunda

Es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público como Google o AltaVista. Pese al nombre, afortunadamente, la web invisible es perfectamente visible ya que los contenidos de tales páginas y sitios web pueden ser vistos o bien mediante un navegador convencional o bien mediante un navegador complementado con algún programa adicional (plugin)

La Web invisible es el término utilizado para describir toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos.

Si bien el 90% de las bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage) y son incapaces de entrar dentro de las tablas e indizar cada registro, les falta la habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta para extraer sus datos. La información almacenada es por consiguiente "invisible" a estos, ya que los resultados se generan en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Por cada millón de páginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su información pública y gratuitamente.

La información pública y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible.

Caracterización de la Web invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

1.- La Web opaca:

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

URL’s desconectadas: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

No cabe duda de que los actuales buscadores y directorios de la web están mejorando su funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. A medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la elaboración manual de guías o concentradores de recursos y quizás más la de orientación en las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.

Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos, disponible a través de un sitio web, en una de las páginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese sitio.

La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza, varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los robots que aquellas que tienden a ser más estables en su contenido.

El número máximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se ajustan más a la búsqueda realizada. En la medida en que se pueda realizar una búsqueda avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la información. El usuario siempre debe tener en cuenta que los buscadores son más apropiados cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras que es más adecuado realizar búsquedas temáticas en los directorios.

Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.

2.- La Web privada:

Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

Las páginas están protegidas por contraseñas (passwords).

Contienen un archivo “robots.txt” para evitar ser indizadas.

Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. En cualquier caso, son los dueños de la información los que deciden no hacerla disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera. Además, los archivos robots.txt sirven para evitar que los robots caigan en “agujeros negros”, que les hagan entrar en procesos circulares interminables, mermando así la eficiencia en su funcionamiento

3.- La Web propietaria:

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

En un artículo reciente de la OCLC Office for Research se examinan las tendencias en cuanto a tamaño, crecimiento e internacionalización de la Web pública, es decir, la porción de información más visible y accesible para el usuario promedio. Las principales conclusiones del estudio son:

El crecimiento de la Web pública muestra un estancamiento en los últimos años. Ello se debe a que se crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en volumen de información, es decir, en número de páginas o número de Terabytes.

Otra posibilidad, que no se señala en este estudio, pero que puede aventurarse, es que algunos sitios web estén transformándose en sitios accesibles solamente mediante pago.

La Web pública está dominada por contenidos originados en los Estados Unidos, así como escritos en inglés. Esto nos lleva a pensar que es probable que haya más recursos invisibles en páginas originadas en países distintos a los Estados Unidos y en idioma diferente al inglés.

4.- La Web realmente invisible:

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Algunos buscadores tradicionales como Google han evolucionado y presentan ahora la posibilidad de realizar búsquedas por materiales o formatos especiales, como imágenes, audio y vídeo son posibles porque se realiza una catalogación textual de éstos. Las búsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. Así, el principal medio por el cual se pueden efectuar las búsquedas es el texto. Por ejemplo, si queremos recuperar imágenes en blanco y negro, éstas deben estar clasificadas de ese modo en la base de datos. Esto implica, desde luego un proceso manual.

Recursos de búsqueda en la Web profunda por tipo de recurso

Buscadores

Scirus

http://www.scirus.com/

WebSearch

http://www.websearch.com.au/

Metabuscadores

iBoogie

http://www.iboogie.tv/

Fazzle

http://www.fazzle.com/

Ixquick

http://www.ixquick.com/

Search.Com

http://www.search.com/

Directorios de buscadores

AlphaSearch

http://www.alphasearch.org/

Directorios

CompletePlanet

http://www.completeplanet.com/

Direct Search

http://www.freepint.com/gary/direct.htm

HotSheet

http://www.hotsheet.com/

IncyWincy

http://www.incywincy.com/

InternetInvisible

http://www.internetinvisible.com/

Librarians Index

http://lii.org/

Master Link List On the Internet

http://www.web-friend.com/links/masterlinks.html

RefDesk.com

http://refdesk.com/

Webfile.com

http://webfile.com/

Where to Do Research

http://www.wheretodoresearch.com/

Directorios anotados

AcademicInfo

http://www.academicinfo.net/

Resource Discovery Network

http://www.rdn.ac.uk/

Directorios de bases de datos

WebData.com

http://www.webdata.com/

Guías

About

http://www.about.com/

LibrarySpot

http://www.libraryspot.com/

Motores avanzados

Deep Query Manager (sustituye a Lexibot)

http://brightplanet.com/news/dqm2.asp

FeedPoint

http://www.quigo.com/feedpoint.htm

Search4science

http://www.search4science.com/

Strategic Finder

http://www.strategicfinder.com/

En conclusión, lo que realmente sigue siendo invisible en la web son:

Las páginas desconectadas;
Las páginas no clasificadas que contienen principalmente imágenes, audio o vídeo;
Las páginas no clasificadas que contienen principalmente archivos PDF,
PostScript, Flash, Shockwave, ejecutables y comprimidos;
El contenido de las bases de datos relacionales;
El contenido que se genera en tiempo real;
El contenido que se genera dinámicamente.

Pero:

Algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada;
Es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante;
Existen ya motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas;
El contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real;
El contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas;

Es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

De todo lo anteriormente expuesto, podemos acotar lo siguiente: Que Internet se divide en niveles:

a) El nivel 0: Web superficial descrita anteriormente.

b) Nivel 1: aquí se encuentran web un poco menos conocidas pero de fácil acceso. Son en su mayoría foros, páginas pornográficas y pequeñas páginas independientes de interés no tan común como en el nivel anterior.

c) Nivel 2: está compuesto por dominios web aún menos conocidas y por los buscadores independientes tales como lo son Ares y eMule. El material que se puede obtener en este nivel es de moralidad dudosa. El morbo suele ser un tema recurrente. Hasta aquí hemos tocado solo la parte superficial del ciber-mundo. A partir de aquí empieza lo realmente “interesante”. Es ahora cuando se da el primer paso dentro de Web profunda.

d) Nivel 3. Las páginas que se rigen en este oscuro mundo suelen tener dominios compuestos por caracteres dejados caer de manera totalmente aleatoria. En ellas no hay publicidad, ni color, y lo más significativo es que no se relacionan entre ellas como las páginas superficiales; de hecho, ni siquiera aparecen en buscadores como Google, ni aunque copies su enlace e intentes buscarlo. Aquí hay muchas cosas raras, muchas cosas perturbadoras, muchas inútiles —tales como las webs abandonadas, algunas por más de 25 años—, pero también muchas cosas útiles. En este sector quizá encuentres ese libro que tanto buscabas y que no encontrabas porque cerraron Megaupload, o esa película de antaño que ya nadie se molesta en subir, e incluso hay algunos foros interesantes. Pero la verdad es que la mayoría de lo que hay aquí tiene fines mucho más macabros y desagradables.

e) Nivel 4: lo niveles anteriores eran peligrosos, pero con un proxy y un buen detector de intrusos era suficiente. Aquí no. El cuarto nivel y lo que está por delante están plagados de hackers. Y por hackers se entiende a verdaderos piratas informáticos, los muy buenos, sobre todo en cuanto a robo y malversación de datos se refiere. Por supuesto el hecho de que esta gente esté aquí, significa que debe haber algo realmente bueno escondido en algún lugar de este nivel, y la verdad es que lo hay. En este nivel, además de todo lo que hay en los otros niveles, se puede ver Snuff en vivo o grabaciones y, además, se encuentra el “Mercado Negro”. Una página de ventas online como mercado libre, solo que aquí se venden artilugios de los mas macabros, además de drogas, armas, órganos, trata de blancas e incluso puedes contratar sicarios. Todo pagado con una moneda llamada BitCoin. Pero los hackers no están aquí de compras o para ver morbosidades varias, sino para trabajar. En este nivel se encuentran paginas encriptadas de numerosos gobiernos, donde se puede encontrar información sobre a qué va realmente destinado el dinero de esos países, leyes que piensan ser aprobadas y secretos de estado tales como expedientes sobre experimentos.

f) Nivel 5: Aquí se incluyen las informaciones, desarrollo y control de los secretos militares y de los Estados. También se cree que la “entidad” que realmente domina la economía y política del mundo, intercambia información entre sus miembros.

g) El Nivel 6. Que existe es una certeza y que es lo que hay ahí también. Solo los mejores hackers logran acceder a ella y el riesgo nunca es pequeño. El objetivo es la Database. El Database es la sección donde toda la información de la web deja de ser solo un código binario de 1 y 0 y comienza a tener sentido. Quien logre descifrar la clave del sistema –que tiene una extensión de kilómetro y medio de tipo numérico- será capaz de manipular cualquier dato de internet, desde el título de un foro, hasta valores de cuentas bancarias. Sencilla y llanamente, quien logre acceder al Database tendrá al mundo en la palma de su mano. La liberte: Es una página secreta donde se cuelga y postea información acerca de zion Pero ¿Que es Zion?

h) Nivel 7: (Zion) Es el nivel mas profundo de la web profunda o también se denomina el corazón de todo Internet, en el tienes acceso ilimitado a todo lo contenido en los anteriores 6 niveles para acceder a él. Esta asechada por los mejores hackers y científicos del mundo. Algunos dicen que es un mito, otros que es real. Como podéis ver, los niveles 6 y 7 son como de ciencia ficción, por lo menos para mí, que soy un recién llegado. Pero si buscáis en google “zion deep web” verás que existe bastante información. Bueno, será cuestión de seguir buscando…. Pero tener en cuenta que: Para navegar por la Web profunda se deben tomar muchas precauciones y se deben tener en cuenta varias reglas básicas para mantenerte seguro (o al menos para intentarlo).

Es importante tener en cuenta estas recomendaciones. La Web profunda es interesante pero peligrosa

 Se necesita usar TOR para acceder a la gran cantidad de cosas de la Web profunda, si no lo haces te pones en riesgo y además no podrás acceder a los sitios .onion

 Evita los sitios que digan pedo bear, hard candy, HC, CP… suele ser pornografía infantil, y es desagradable.

 No descargues nada, o al menos nada de lo que no estés seguro.

 Evita los “markets”, siempre que no busques algo específico.

 ¿Hacer amigos en la Web profunda? Evitarlo y mientras más profundo vayas, mejor es pasar inadvertido.

 No uses tu mail ni te registres en nada, si lo haces, hazlo con cuentas de correo alternas y si es posible darte el trabajo de usar algo como riot mail, mejor.

 No actives ningún plugin, no te conviene.

 No bucees demasiado profundo en la Web profunda, mientras más abajo llegues, más riesgo hay de toparte con cosas que no deseas ver o cosas que otros no quieren que veas.

Enlaces consultados:

http://es.slideshare.net/ajnves/web-superficial-y-web-profunda

http://www.congresoelearning.org/forum/topics/internet-superficial-e-internet-profunda

http://api.ning.com/files/xhixLk1YGG6EV4ysqlqRcVH3VQJZ9PIvO5Z8EDzpqzHmThS6*4NI1nlM3oo*SUzQWDIvLm8i0B7xZeTMtw1SbGIxabeEONer/websemantica.pdf

http://es.slideshare.net/ramonbppg/web-superficial-y-profunda-49606174