Information Toolbox: febrero 2011

martes, 15 de febrero de 2011

El Proceso de Matching: Características y Particularidades

Cuando se utiliza una herramienta de calidad de datos, usualmente se utilizan algoritmos y reglas de matching que nos permiten determinar si dos o más registros son o no un match.

Esto es usualmente útil cuando necesitamos determinar clientes, productos, personas duplicadas o personas, clientes que compartan por ejemplo el mismo domicilio.

Con una búsqueda por igual, tal cual podemos ejecutar en una herramienta de ETL o sobre cualquier motor de base de datos no vamos a poder alcanzar el nivel de exactitud y certeza que necesitamos ya que usualmente nos encontraremos con nombres y apellidos de personas mal escritos, errores de tipeo, diferentes formas de escribir una dirección. Esto hace que la búsqueda por igual no sirva para resolver esta problematica.

Es en este punto donde los algoritmos probabilísticos son realmente útiles. Estos algoritmos permiten elevar el grado de exactitud en el matching y permiten ponderar con pesos (positivos y negativos) los errores enunciados anteriormente, pudiéndose determinar si dos o más registros son los mismos.

Pero no todo es tan sencillo como suena ya que hay un conjunto de condiciones que hay que manejar y que son un desafío importante para quien desarrolla una regla de matching.

Las distintas herramientas de calidad difieren en como asignan los pesos para determinar si dos o más registros son o no un match pero en general hay tres resultados posibles en este proceso:

Registros sin Relación (llamados Residuales en QualityStage)
Match
Sospechoso (llamados Clericals en QualityStage)

En términos generales si la suma de los pesos generados al comparar dos registros son positivos esto es un Match, por lo contrario, si los pesos son cero o negativos es un Residual.

Ahora bien… ¿y cuando se generan registros Sospechosos o Clericals?

Para ser más estricto y complicar un poco el tema, no siempre que se genere un peso positivo va indicar que dos registros son un match. Hay veces que el peso es muy cercado a cero y difiere mucho de la media de los pesos de los registros que si son efectivamente un match. Es en estos casos donde es posible configurar la herramienta para modificar el comportamiento default de la misma y tratar a esos registros como Sospechosos o directamente Residuales (No Match).

Este proceso es un proceso iterativo que requiere mucho de prueba y ajuste de la regla de matching para evitar errores en el proceso o lo que se conoce como falsos positivos y falsos negativos, es decir registros que dieron Match pero no lo son o registros que no dieron Match pero si lo son.

Las herramientas de calidad de datos brindan interfases para ayudar a “tunear” la regla para hacerla más exacta y eficiente.

A continuación se ve la interfaz del Match Designer de QualityStage desde donde podemos definir la regla de match así como probarla, ajustarla y definir los umbrales de No Match, Clerical y Match.

De lo anteriormente explicado, queda claro que todo proceso de matching se va a componer de registros que serán procesados automáticamente (Match y Residuales) y también registros que requerirán un tratamiento manual. Tal es el caso de los Clericals o Sospechosos.

Para estos registros la herramienta no ha podido determinar automáticamente si son o no un match y es por ello que requiere revisión manual.

En este punto el desafío mas importante para el diseñador y desarrollador de la regla es ajustar la misma lo más posible para limitar la cantidad de sospechosos pero teniendo en cuenta de no cometer errores de matching (falsos positivos y negativos). Otro punto muy importante a tener en cuenta es definir claramente un procedimiento para el tratamiento de estos registros sospechosos.

Muchas de las herramientas también brindan funcionalidades que permiten analizar y procesar manualmente, de una manera sencilla, estos registros a fin de que luego se conviertan definitivamente en un Match o no.

Soporte de Windows 64 bits en DataStage 8.5

En diciembre pasado fue liberada al mercado la versión de la plataforma Information Server 8.5 que soporta la ejecución en servidores Windows / Intel de 64 bits. Hasta el momento solo era posible instalar Information Server en plataforma Windows pero en ambiente de 32 bits.

Con esto se amplia la escalabilidad de la plataforma en este entorno operativo pudiendo manejar procesos con mayores requerimientos de memoria RAM.

Mas informacion sobre todas las plataformas soportadas en: http://www-01.ibm.com/support/docview.wss?uid=swg27018822

viernes, 11 de febrero de 2011

IBM libera Nueva Version de Cognos Express

IBM acaba de liberar al público a finales de enero la version 9.5 de la solución Cognos Express.

Cognos Express es la primera y unica solución integrada de BI y Planning especialmente desarrollada para cumplir con las demandas de las pequeñas y medianas empresas.

La misma brinda funcionalidades de reporting, analysis, dashboarding, scorecarding, planning, budgeting and forecasting a un precio que las compañías medianas puedan pagar.

Todas estas capacidades están incluidas en una solución pre-configurada que es facil de instalar y utilizar.

Mas información en http://www-01.ibm.com/software/data/cognos/products/cognos-express/

martes, 8 de febrero de 2011

Gartner Magic Quadrant para Plataformas de BI

En enero de 2011 vio la luz el último Magic Quadrant de Gartner (www.gartner.com) para plataformas de BI. Microsoft, Oracle, MicroStrategy, IBM Cognos, Information Builders, Sas, QlikTech y SAP fueron las compañías elegidas como líderes, mientras que en el sector Challengers se posicionaron Tableau y Tibco Software.

En el área de Niche Players, sobresale la compañía de origen mexicano Bitam y el proveedor de soluciones open source, Jaspersoft. La información presenta una vista global de la evaluación de Gartner sobre los productos de los principales vendedores de BI -incluyendo su opinión de SaaS y BI Open Source- para que las organizaciones tomen una mejor decisión al elegir y desplegar suites de Inteligencia de Negocios, además, lista seis factores a tomar en cuenta que están afectando el mercado de plataformas de BI. Como ya es costumbre, se dan a conocer las fortalezas y puntos de oportunidad para el software de todas las empresas evaluadas.

Arquitectura Information Server v8.5

Una de las primeras tareas que hay que llevar a cabo a la hora de realizar un deployment de la plataforma Information Server es definir la correcta arquitectura de los distintos ambientes para cumplir con los requerimientos de integración.

Por lo tanto es imprescindible conocer en detalle cuál es la arquitectura de la plataforma.

InfoSphere Information Server está organizado en 4 capas lógicas (4 layers), a saber:

Client Layer: compuesta por las interfases para el desarrollo, operación y administración. Opcionalmente podría también contener los bridges para importar y exportar metadata.

Metadata Repository Layer: compuesta por una base de datos para almacenar la metadata de diseño, ejecución, configuración y seteos del ambiente. Este repositorio puede estar alojado en un motor DB2 UDB, Oracle o SQL Server.

Services Layer: compuesta por un conjunto de servicios comunes para la plataforma así como servicios específicos de cada producto de la plataforma.

Engine Layer: compuesta por los motores que realizan la ejecución de los procesos de los productos de la plataforma. Incluye además los conectores, packs y agentes de logging y monitoreo.

Debido a esto, estas 4 capas lógicas podrán instalarse en 2 equipos (client layer por un lado y el resto de las capas por otro), en 3 equipos o 4 equipos.

A continuación se muestran como quedaría definida la arquitectura de la solución para cada opción arriba mencionada.

La definición de qué arquitectura implementar va a depender de varios factores como ambiente a implementar (desarrollo, testing, producción), productos de la plataforma a utilizar, cantidad de desarrolladores, cantidad de jobs a ejecutar en forma concurrente, volúmen de datos, complejidad de transformaciones, entre otros.

Dada la cantidad de factores a considerar es importante realizar un correcto dimensionamiento y posterior definición e implementación ya que lo definido puede marcar el éxito o posterior fracaso de los proyectos de integración.

lunes, 7 de febrero de 2011

InfoSphere DataStage Parallel Framework Standard Practices

Aca va el link al ultimo redbook de DataStage que cubre la version 8.5 del producto.

Here its the latest DataStage redbook updated to v8.5.

http://www.redbooks.ibm.com/abstracts/sg247830.html?Open

IBM Cognos Business Intelligence V10.1 Handbook

Aca les dejo el link a un nuevo redbook de Cognos 10 - Muy interesante!!!!

Here you have the link to a new Cognos 10 redbook - Really interesting!!!!

http://www.redbooks.ibm.com/abstracts/sg247912.html

domingo, 6 de febrero de 2011

Las 5 mas interesantes New Features de Cognos 10

A finales de 2010 fue liberada al publico la version 10 de la plataforma de inteligencia de negocios y performance management de IBM Cognos.

El lanzamiento se realizó en vivo desde el evento de IBM Business Analytics en Las Vegas.

Aca pueden ver el video con que se presentó la nueva version...

Hay varios agregados a la plataforma pero me quedo con estos cinco que me parecen ser diferenciadores y muy interesantes:

1 - Nuevo WorkSpace - Business Insight

Business Insight es un nuevo workspace para el desarrollo de dashboards que brinda a los usuarios una experiencia unica. Permite combinar facilmente contenido proveniente de distintas fuentes y en las distintas dimensiones de tiempo (pasado - bi tradicional, presente - real time monitoring y futuro - analisis predictivo y forecasting).

2 - Colaboración

Cognos 10 incorpora varias funcionalidades que mejoran la colaboracion entre los usuarios de la plataforma. Entre ellas se pueden mencionar la integracion de Cognos con Lotus Collaboration para poder manejar desde Cognos actividades y tareas. Otras funcionalidades apuntan a mejorar el manejo de comentarios, alertas y eventos.

3 - Active Reports

Cognos 10 incorpora la funcionalidad de Active Reports, este tipo de reporte permitira extender el analisis de informacion aun cuando no estemos conectados via LAN o Internet con nuestro server. Active Reports permite realizar analisis desconectado de nuestra informacion con una muy amigable y atractiva para los usuarios de negocios.

4 - Lifecycle Manager

Orientada mas para los administradores, esta nueva herramienta incluida en Cognos 10 permitira acortar los tiempos de migracion de versiones y ambientes ya que posibilita la ejecucion automatica de reportes de distintos servidores de Cognos y su comparación para detectar errores o diferencias ocasionadas por una migracion o upgrade.

5 - Soporte Mobile para Iphone y Ipad

Cognos 10 incorporó el soporte mobile para Iphone y Ipad, con lo cual ahora es posible consultar los reportes y dashboards desde dichos dispositivos.

En los proximos dias iremos describiendo mas en detalle alguna de estas nuevas funcionalidades.

10 Razones para Instalar DataStage 8.5

En Octubre de 2010 fue liberada la versión 8.5 de la plataforma Information Server. A nivel plataforma y en particular para DataStage se incluyeron varias mejoras y nuevas funcionalidades.

Revisando la lista de estas nuevas funcionalidades seleccioné 10 que me parecieron las más importantes y que justifican una migración a esta nueva versión.

1 – Más Rápido

En la version 8.5 se puso mucho foco en mejorar la performance, no solo de ejecución de los procesos, sino tambien en el desarrollo de los mismos. Es por ello que DataStage 8.5 es al menos 40% mas rapido que la v8.1 al iniciar los servicios, abrir un job, iniciar la ejecucion de un Parallel job.

2 - New XML Pack

En versions previas de DataStage era possible procesar archivos XML pero la funcionalidad que entregaba el XML Pack era limitada y el procesamiento de archivos grandes poco performante.

DataStage 8.5 incorpora una nueva herramienta para el procesamiento de archivos XML que permite además importar y almacenar los esquemas de los archivos XML en dicho formato jerárquico y no en forma de tabla como lo hacia el viejo pack.

Este nuevo XML Pack puede leer, transformar, validar el formato contra el esquema y grabar archivos XML de una manera mucho más performante que el viejo Pack especialmente cuando estamos trabajando con archivos grandes y complejos.

Este nuevo pack está disponible tanto para el desarrollo de Server Jobs como de Parallel Jobs.

3 – Loop en Transformer

La versión 8.5 de DataStage incluye una funcionalidad muy requerida por los desarrolladores de DataStage. Si, ahora es posible realizar Loops en el Transformer Stage.

Con esta funcionalidad dentro del Transformer Stage es ahora possible generar varios registros de salida en un mismo link en base a 1 solo registro de entrada.

En el ejemplo a continuación un registro tiene el nombre de la compañía y 4 registros de revenue.

El loop va a leer cada columna de entrada con revenue y generar un registro de salida para cada una:

Esta funcionalidad de Loop en Transformer está solo disponible en Parallel Jobs.

4 - Mas Fácil de Instalar

El proceso de instalacion de Information Server 8.5 es mas sencillo y mas robusto. Claramente es el mejor instalador creado desde la liberación de la versión 8.0. La instalación puede hacerse totalmente en forma grafica tanto en ambiente Windows como en Unix o Linux siguiendo un nuevo wizard que realiza un chequeo fino de prerrequisitos y permite elegir fácilmente la arquitectura a instalar (2 capas, 3 capas o 4 capas). Ademas es factible elegir al momento de instalación si queremos configurar un ambiente de alta disponibilidad.

Otra funcionalidad muy mejorada es la nueva herramienta para instalación de parches, fixes o packs. Ahora es posible instalar varios parches, fixes o packs en forma conjunto, uno detrás del otro.

5 - Check In / Check Out de Jobs

Information Server Manager ahora trae la posibilidad de integrarse con herramientas de control de codigo tales como CVS y Rational ClearCase.

De esta forma ahora es posible enviar objetos DataStage al sistema de control de código elegido o reemplazar los objetos DataStage desde el sistema.

DataStage 8.5 viene con integración out of the box con CVS y Rational ClearCase pero puede integrarse con otros sistemas incluyendo el plugin de Eclipse correspondiente.

Esta funcionalidad está disponible tanto para Server Jobs o Parallel Jobs.

6 - Alta Disponibilidad

En primera instancia, la documentacion de DataStage 8.5 incluye mas de 30 paginas sobre topologías y arquitecturas posibles incluyendo algunos escenarios de alta disponibilidad.

En version 8.5 se puede construir un ambiente 100% alta disponibilidad que soporte a todas las capas de la plataforma a saber:

Soporte de Clustering para WebSphere Application Server (services layer).
Soporte de Clustering para el repositorio de XMETA: DB2 HADR/Oracle RAC (repository layer).
Soporte a fallas (failover) en el engine (engine layer)

7 – InfoSphere Blueprint Director

InfoSphere Blueprint Director es una nueva herramienta que viene con la plataforma Information Server 8.5 y que permite crear diagramas de arquitectura de información y linkear directamente los objetos en el diagrama con los elementos u objetos de cada unos de los productos de la plataforma y de terceras partes.

8 - Nuevo Pivot Vertical

Otra nueva funcionalidad que los desarrolladores están esperando desde hace bastante tiempo. Ahora está disponible y con el uso de esta nueva funcionalidad es posible pivotear múltiples registros de entrada con una clave común a un registro de salida. Para los que usaron el Pivot Stage, este nuevo stage hace la operación inversa.

Esta funcionalidad esta solo disponible en Parallel Jobs

9 - Z/OS File Stage

Ahora es posible procesar mas fácilmente archivos complejos de mainframe con el Nuevo stage zOS File Stage.

De esta forma podemos leer y grabar nativamente archivos de tipo VSAM, QSAM, BDAM, BSAM.

Este stage requiere tener Classic Federation en el zOS y solo está disponible en Parallel Jobs.

10 - Database Connectors en Server Jobs

A partir de DataStage v8 se empezó a implementar unos nuevos componentes de conectividad llamados Database Connectors. Estos conectores proveen mayor funcionalidad y performance que los actuales plug-ins u operators pero solo estaban disponibles en los Parallel Jobs.

En DataStage 8.5 se liberaron los mismos conectores pero para los Server Jobs lo cual permite contar con todas las ventajas de estos nuevos componentes de conectividad en los jobs server.

Actualmente están disponibles varios conectores que permiten acceder a casi todas las fuentes y destinos de datos:

ODBC Connector
DB2 Connector
Oracle Connector
Teradata Connector
MQ Connector
DTS Connector

Ademas es importante mencionar que en la versión 8.5 de DataStage se incluye una herramienta llamada Connector Migration Tool que permite reemplazar automáticamente los viejos stages u operadores por los nuevos conectores.

En proximos blogs iremos describiendo mas en detalle cada una de estas nuevas funcionalidades.