Archivos

Entrada-Transformación-Salida-Resultados


Te presentamos un ejemplo de aplicación App Engine para mover tus datos de un lugar en la nube a otro, transformándolos al mismo tiempo. La aplicación Data Pipeline incluye ejemplos para permitirte empezar rápido y producir poderosos proyectos desde el comienzo. También tiene una sencilla API para ampliar su funcionalidad.
Data Pipeline es una aplicación Python que utiliza Google App Engine Pipeline API  para controlar tuberías de procesos de datos complejos. Las tuberías están construidas a base de etapas que pueden ser conectadas entre ellas para procesar grandes cantidades de datos, y con el trabajo haciéndose en paralelo. La aplicación viene con algunos ejemplos de etapas que usan muchos de los servicios de Cloud Platform. Puedes escribir fácilmente nuevas etapas para desarrollar procesamiento de datos personalizados.

La aplicación Data Pipeline viene con una funcionalidad incorporada que te permite leer datos de:
  • URLs via HTTP
  • Google Cloud Datastore
  • Google Cloud Storage
transformarlos en:
y volcarlos a:
  • BigQuery
  • Google Cloud Storage
Por ejemplo, uno de los flujos de datos incorporados lleva un archivo de un recipiente de Cloud Storage, lo transforma usando un trabajo MapReduce en Hadoop operando en Compute Engine, y carga el archivo de salida a BigQuery. Para lanzar el proceso, sólo tienes que pasar el archivo a Cloud Storage.

Esperamos que no solo vayas a usar las transformaciones incorporadas, sino que crearás etapas personalizadas para transformar datos de la forma que necesites. Puedes personalizar las tuberías fácilmente extendiendo el Python API, que está disponible aquí en Github.

También puedes personalizar la entrada  y salida, por ejemplo, puedes personalizar la salida para escribir en Google Cloud SQL.

Creas y editas tuberías en un archivo de configuración JSON en la aplicación UI. La aplicación comprueba que la configuración es sintácticamente correcta y que los prerrequisitos se cumplem. Después de que guardes el archivo de configuración, da clic al botón de Run para comenzar la ejecución del proyecto. Verás el progreso de la tubería que se está ejecutando en una nueva ventana.
*
Edición del archivo de configuración
El código fuente está en Github. Te invitamos a descargarlo y a empezar a armar tus propios proyectos hoy.

Post originalmente publicado por Alex K, Ingeniero de soluciones cloud