Tag: Google

Crear una copia de seguridad de los Servicios de Google

A diario desde que apareció Google, usamos una gran variedad de sus servicios como pueden ser GMail, Drive, Calendar o Hangout, por decir alguno de los más conocidos.  También es bastante frecuente encontrarnos con empresas que contratan los Servicios de Google y así externalizan algunos servicios como el del correo electrónico, siendo acompañados casi siempre por otros como el calendario, agenda, intercambio de ficheros… que ofrece Google dentro de su gran abanico de productos.

Google-Services

El problema viene el día que quieres crear una copia de tu cuenta, la cual seguramente esté vinculada a un montón de servicios de cuyos datos quieres guardarte copia, bien sea porque quieres migrar la cuenta, quieras cerrarla o por simple precaución de contar con una copia.

Para realizar dicha tarea, Google nos proporciona una herramienta para hacerlo. La herramienta la podemos encontrar entrando en la sección “Mi Cuenta“, haciendo click en la parte superior derecha donde la inicial de nuestro nombre o foto de nuestro perfil. Una vez dentro debemos ir a “Información personal y privacidad” y dentro de la sección seleccionar “Controlar tu contenido“. Una vez seleccionado veremos una sección que pone “Descargar tus datos” donde deberemos dar a “CREAR ARCHIVO“.

Una vez dentro encontraremos una enumeración de todos los servicios de nuestra cuenta, de los cuales podremos hacer una copia si lo deseamos.

Google_services_backup

Podremos seleccionar todos los servicios o sólo algunos para incluirlos dentro de nuestra copia de seguridad. Algunos servicios permiten decidir en qué formato exportar los datos, o si queremos crear sólo copia de un conjunto reducido del servicio. Por ejemplo, el servicio Drive te permite elegir en qué formato exportar los documentos de Google y GMail te permite decidir si quieres hacer una copia completa o solo algún subconjunto de emails.

Una vez tengamos decidido los servicios que vamos a incluir en nuestra copia de seguridad, tendremos que indicar en qué formato de compresión queremos guardar toda la información, y si queremos que la copia se nos mande por un email cuando esté lista o se guarde en el servicio Drive.

Google_services_backup_2

Dependiendo la cantidad de datos que tengamos en los servicios que vamos a incluir en la copia, la operación de la generación de la copia puede llegar a tardar varias horas. En cualquier caso seremos notificados cuando esté lista. La copia de seguridad generada será particionada en varios partes con el objetivo de ser más fácil su descarga y cada una de las partes no superará los 2 GB de tamaño.

Debo puntualizar que Google se toma muy en serio la propiedad de los datos y en el caso de servicios como Google Drive, sólo incluirá en la copia aquellos archivos de los cuales estés marcado como propietario. Por lo tanto, si tienes archivos compartidos, de los cuales no eres propietario, te aconsejo que hagas una descarga manual por carpetas desde el Google  Drive. Puedes hacerlo usando la opción “Descargar” del menú accesible mediante click con el botón secundario del ratón, ya sea encima de la carpeta o archivo que quieras descargar.

Espero que con toda esta información ahora tengáis más claro cómo realizar copias de seguridad de los distintos Servicios de Google.

Google Code cierra sus puerta

Google Code nació en 2006 como un plataforma para que los desarrolladores pudiesen compartir y gestionar  sus proyectos de manera fiable con la comunidad. En su momento fue la primera plataforma de este tipo y no tuvo competencia hasta el año 2008 en el que aparecieron Github y Bitbucket.

La falta de evolución de la plataforma Google Code le ha llevado a quedarse bastante atrás respecto a sus alternativas. En los último años ha habido una gran migración de proyecto alojados en Google Code, hacia Github y Bitbucket, siendo Github preferido en el caso de respositorios para proyectos públicos y Bitbucket para repositorios de carácter privado. Esto le ha llevado a Google al anuncio del cierre de la  plataforma para el próximo 26 de Enero de 2016.

Desde el 12 de Marzo del 2015, Google ya no permite la creación de nuevos proyectos y partir del 24 de Agosto de 2015 el sitio será de sólo lectura hasta el 26 de Enero de 2016. No obstante, Google permitirá la descarga del código fuente de los proyectos durante todo el 2016.

Google  no cerrará el servicio para todos los proyectos, ya que mantendrá los proyecto como Android y Chrome. También seguirá manteniendo los mirrors de proyectos como Eclipse, Kernel.org y otros.

Para el resto de proyectos que no son los citados, Google a proporcionado herramientas para portar los proyectos a Github, Bitbucket, SourceForge o Gitlab.  Adicionalmente Google ha integrado en Google Code una herramienta para migrar a Github los proyectos.

 

Google_Code_Export_to_Github

 

Google se desprende así de lo que fue su precursor en este tipo de herramientas, seguramente para centrarse en Cloud Source Respositories que actualmente se encuentra en estado beta.

A pesar del diplomático cierre de Google Code por parte de Google, la plataforma tiene multitud de proyectos, muchos de ellos alojados en exclusiva en Google Code. Esto quiere decir que si no se migran, los proyectos serán borrados. Lo ideal es que los desarrolladores de cada proyecto migren los proyectos, pero es posible que muchos proyectos estén abandonados por sus desarrolladores o que hayan caído en el olvido y solo se distribuyan los binarios. No obstante, con la herramienta de migración de proyecto a Github, cualquier usuario puede perpetuar un repositorio de Google Code en Github.

Por eso animo a que todos aquellos proyectos de Google Code que tengas como favoritos, conozcas o hayas consultado alguna vez,  los exportes a un respositorio público de Github, si no lo están ya en Github u otra plataforma de las citadas. Entre todos podemos perpetuar el ecosistema de código abierto que inició Google Code.

Protocolo de exclusión robots.txt

Desde hace unos años se viene implantando una cultura de rendir cuentas y de la transparencia. Una de las forma más fáciles para mostrar aquellos resultados o datos que hacen considerarse transparente a una organización, es la creación de una web y publicación de datos en la misma. Pero, ¿una web realmente convierte a una organización en transparente? La respuesta inmediata es no del todo.

Por aquí no pases

En la red existe un protocolo de exclusión de robots para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. A tal efecto en la raíz de cualquier sitio web, es posible especificar un archivo “robots.txt” con dichas exclusiones. El fichero robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots de buscadores cumplan.

robots-txt

Se dice que son recomendaciones, porque un archivo robots.txt en un sitio web, funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Este protocolo es consultivo y se confía en la cooperación de los robots del sitio Web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque éste no necesariamente garantice aislamiento completo.

Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles de forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador Web y conocimientos medianamente avanzados. En algunos casos el incluir un directorio en este archivo, anuncia de su presencia a posibles hackers.

Esta práctica además puede conllevar la intención de no cachear e indexar ciertos contenidos en la Red a fin de no dejar huella en Internet. A día de hoy Google (con su Googlebot) cachea la información de cualquier web y es posible acceder a la información incluso aunque la web esté caída. Google actualiza y/o elimina la información cacheada de una web según evoluciona el sitio web. Además Google utiliza distintos bots rastreadores para cada tipo de contenido o actividad, los cuales hacen más óptimo la indexación y cacheo de las webs.

Para cualquier resultado web en Google, existe la posibilidad de entrar a la versión cacheada desde la flecha que apunta hacia abajo al final de la dirección.

Google_cache

Por otro lado existen servicios como Wayback Machine que cachean e indexan webs, de tal forma que es posible acceder al estado de una determinada web para una fecha concreta. Digamos que hace fotografías del estado de los sitios web y los va guardando para su consulta en un futuro, como si de un diario se tratase.

El fichero robots.txt

Estructuralmente el fichero robots.txt tiene esta pinta:

User-agent: *
Disallow: /gestion/
Disallow: /imgcache/
Disallow: /demos/
Disallow: /demoweb/
Disallow: /boletines/
Disallow: /grtp/
Disallow: /baliabideak/
Disallow: /dir_phplist/
Disallow: /adjuntos/
Disallow: /partekatzeko/
Disallow: /phplist/
Disallow: /swf/

El campo User-agent especifica los bots que deben respetar el fichero. En nuestro ejemplo, el * quiere decir que todos lo deben cumplir. A continuación se añade un linea con el campo Disallow para cada directorio o recurso que no queramos que sea indexado y cacheado. Del mimos modo existe el campo Allow si se quiere explicitar algún directorio o recurso, pero no se usa ya que por defecto la mayoría de bots rastreará todo el contenido que encuentre, a no ser que encuentre alguna exclusión (disallow). Es fácil encontrar estos archivos en muchas webs, añadiendo /robots.txt a la dirección principal.

Ejemplo: http://www.google.es/robots.txt

Podéis encontrar más información sobre el fichero robots.txt en la siguiente dirección:

http://www.emezeta.com/articulos/robots-txt-todo-lo-que-deberia-saber

Conclusión

Volviendo a la pregunta con la que habríamos el artículo, una web no quiere decir transparencia por sí misma, aunque éste sea su fin último, puesto que el uso de un fichero robots.txt para ocultar recursos y directorios  a ojos robots de indexación, propicia no dejar huella y dificultar la trazabilidad de un recurso a lo largo de su existencia en la Red.