¿Qué es Big Data y de qué forma funciona?




Eliminando el corte en la contratación


big data en RRHH podrían hacer más equitativa la contratación y prosperar la diversidad reduciendo el sesgo, dice Zoe Jervier Hewitt de EQT Ventures a Protocol. Eso empieza aun antes de que los candidatos sean entrevistados identificando qué criterios deben cumplir. Trato de hacer que el sistema de evaluación sea verdaderamente hermético, y encuentro que hay menos espacio a fin de que el sesgo no útil se introduzca en el proceso de esa manera, afirma Jervier Hewitt. Agrega que una tarjeta de puntuación de la evaluación puede centrar la atención en la competencia de un candidato y tener un efecto positivo en la diversidad de la tubería y la diversidad de las contrataciones.


¿Deseas saber más?


Muchas organizaciones y escuelas ofrecen clases on-line de análisis de recursos humanos y análisis predictivo. También hay guías on-line disponibles. Lee recomienda que los profesionales de RRHH consigan ayuda de los departamentos de TI, pero que asimismo aprendan ellos mismos lo suficiente para decirle al científico de datos lo que es correcto.

Resumiendo, está claro que RRHH no solo tiene big data, sino tiene muchas maneras potenciales de emplear big data que podrían hacer que el lugar de trabajo sea mejor tanto para los empleadores para los empleados.

Si ha disfrutado de esta profunda inmersión en de qué manera el big data están cambiando la manera en que marchan los departamentos de RR.HH., puede suscribirse a nuestro folleto diarioHRnewsbrief para obtener un contenido más informativo.


Modernizando el almacen de big data, ha llegado el momento


En el espacio de la tecnología y el análisis de datos, me recuerdan de forma continua que la única constante es el cambio. A esta industria le encanta innovar. Una y otra vez innovamos para superar los retos inmediatos y futuros - con soluciones que abordan la necesidad de más datos, análisis más veloces y una mejor arquitectura.

La innovación acostumbra a continuar una trayectoria de algo renovador, seguida de años de mejoras incrementales que maduran la oferta y la hacen aplicable a las masas. Si bien estos cambios incrementales son en general simples de agregar, el inconveniente es que primero debemos incorporar la innovación innovadora. Esta transición en general requiere cambios en los procesos, capacitación, re-estructuración y una larga y dolorosa migración. En último término, esto conduce a los ciclos de exageración tecnológica, en los que las compañías evalúan individualmente cuándo o aun si el peligro y la lucha por hacer un cambio merece la pena.

Mirando cara atrás... un tanto de perseverancia... un poco de perspectiva...


El Hadoop es un gran ejemplo de ambos lados de este fenómeno. Hace varios años, el Hadoop era la nueva innovación en el bloque. A principios de 2010, llegó rápido y furioso como el asesino del almacén de datos de la empresa (EDW). Aunque la mensajería y la tecnología inmadura de Hadoop crearon confusión para muchas empresas, ciertos primeros adoptantes se lo tragaron y lo hicieron marchar. Durante los años, la tecnología maduró hasta el punto de que (prácticamente) todo el planeta tenía un lago de datos basado en Hadoop marchando en sus centros de datos.

Avanzando de forma rápida hasta el 2020, y sus aplicaciones analíticas críticas para el negocio dependen de Hadoop - pero ahora está en el otro extremo del ciclo tecnológico. El ecosistema del Hadoop se ha ido desarrollando y evolucionando a lo largo de la última década, pero mientras tanto se han producido varias innovaciones tecnológicas. Ha llegado el instante de abrazar estas nuevas innovaciones - y actualizar su gran acervo de datos.

¿El peligro vale la recompensa?


Las distribuciones de hadoop luchan por continuar siendo relevantes, pero han surgido plataformas de datos y opciones alternativas de despliegue. Muchas organizaciones empresariales están reevaluando su camino hacia adelante, embarcándose en una nueva estrategia para modernizar su gran acervo de datos. Con lo que, ahora es el momento de hacer las preguntas difíciles:

  • ¿Estoy obteniendo el valor que aguardaba de mi lago de datos? ¿Qué valor extra consigo cuando me actualizo?

  • ¿De qué forma va a ser la solución integrada? ¿Qué características/apariciones seguirán estando ahí?

  • ¿Qué es el mapa de senda? ¿Cambiará si mi distribución es adquirida?

  • ¿Tengo que actualizar? ¿Cómo lo hago? ¿Cuánto tiempo va a tomar? ¿Cuánto va a costar? ¿Cuándo voy a perder el soporte de mi versión actual?

  • ¿Estaré bloqueado en las aplicaciones propietarias de mi distribución? ¿Qué tan simple es traer las últimas herramientas de código abierto que mis equipos de ciencia de datos quieren?

  • ¿Está Apache Ozone listo para el horario de máxima audiencia? ¿Debo confiar en él con mis datos?

  • ¿Merece la pena el peligro o debería estimar otra solución estratégica (y otro socio estratégico) para actualizar mi gran acervo de datos?







Las cuatro V de el big data


Para los científicos de datos, el término de big data se puede descomponer en lo que ellos llaman las cuatro V. Si bien ciertas escuelas de pensamiento afirman que podría haber hasta 10 V's, aquí están los 4 primordiales calificadores que asisten a explicar cuando un flujo de datos se convierte en un gran flujo de datos.

Volumen


Merced a la gran cantidad de datos disponibles diariamente, el big data tienden a ocupar una gran cantidad de ancho de banda y almacenaje. Miles y miles de bytes pueden atravesar la Internet, en especial con el uso generalizado de la Internet de banda ancha. En verdad, conforme una encuesta de IBM, se estima que este año se crearán cuarenta zettabytes de datos, lo que supone un incremento del trescientos por cien con respecto a dos mil cinco. Estas enormes cantidades requieren una tecnología de datos de importante tamaño que pueda manejar grandes conjuntos de datos.

Velocidad


Los datos fluyen mediante Internet a tal velocidad que si intentaras analizarlos por tu cuenta, sería como intentar tomar de la manguera de agua más grande y poderosa del mundo. La rapidez con la que se mueven los datos aumenta exponencialmente dependiendo del número de conexiones que la gente tiene entre sí, en tanto que probablemente estés mandando mensajes de texto, que te agraden los mensajes de los medios sociales y que hagas pactos comerciales con ellos. La velocidad a la que los datos entrantes precisan ser procesados es un sello propio de el big data.

Variedad


Los datos pueden reunirse de muchas fuentes diferentes, como las diferentes redes sociales, las transacciones comerciales y de consumo, y la proliferación de dispositivos inteligentes que recogen datos de los usuarios (con frecuencia involuntarios). De forma análoga, esos datos pueden presentarse en diferentes formatos y estructuras de archivo, desde información de bases de datos rigurosamente categorizada hasta transferencias de archivos y comunicaciones en tiempo real.

Veracidad


Los datos inexactos son datos inútiles. Además, los datos inexactos le cuestan a la economía de los EE.UU. más o menos tres,1 billones de dólares estadounidenses de año en año, conforme la encuesta de IBM. Muchos líderes empresariales estiman que el big data son una apuesta, con 1 de cada tres encuestados diciendo que no confían en la información que proporcionan el big data. Sin embargo, la tecnología de el big data trata de mitigar ese problema tanto como sea posible.



¿De qué forma se guardan y regulan el big data?


Dado lo grande que son los datos, la instalación de almacenaje de dicha información ha de ser del mismo modo masiva, ¿cierto?? Bueno, depende de la cantidad de dinero y espacio que su empresa tenga libre. Ciertos centros de datos más grandes del planeta engloban millones de metros cuadrados y cobijan miles y miles de millones de dólares estadounidenses en equipos de servidores. Para su pequeña empresa, no obstante, un rack de servidores con terabytes de almacenaje podría ser suficiente.

Si bien probablemente halle muchas empresas que dependen de soluciones físicas para alojar sus sistemas de ficheros, como un enorme almacén de datos o bien un servidor a gran escala, otras empresas han recurrido a soluciones de almacenaje basadas en la nube, como las que ofrecen Google y Amazon Web Services. En los dos casos, los datos pueden guardarse mientras que tengan espacio.

En lo que se refiere a la regulación de big data, el gobierno federal de los EE.UU. ha tomado un enfoque de no intervención en el tema. En cambio, las leyes de privacidad existentes tienden a observar el big data y las corporaciones que procuran participar en ellos. Las leyes de privacidad en USA suelen centrarse en industrias específicas que tratan con información sensible, como las instituciones financieras que utilizan información personal no pública, que debe ajustarse a la Ley Gramm-Leach-Bliley. De igual forma, los proveedores de servicios de salud que emplean big data deben cerciorarse de que los datos estén asegurados en cumplimiento de la Ley de Portabilidad y Responsabilidad de los Seguros Médicos (HIPAA).

Jacqueline Klosek, letrada senior de Goodwin Procter LLP, afirmó en un blog post para Taylor Wessing que las compañías de manera frecuente alteran los datos para quitar cualquier información de identificación sensible. Ese paso se da en general antes de que los científicos analicen los datos o antes de que se envíen a un tercero.

Bajo el GLBA, la definición de 'información financiera reconocible personalmente' excluye específicamente: 'la información que no identifica a un consumidor, como la información agregada o los datos ciegos que no contienen identificadores personales como números de cuenta, nombres o bien direcciones', escribió Klosek. Asimismo existen salvedades a los requisitos de privacidad para los datos no identificados en razón de la HIPAA. Las compañías que empleen datos rigurosamente anonimizados deberán seguir asegurándose de que su conducta cumple con sus propias políticas de privacidad y obligaciones establecidos y, como es natural, van a deber asegurarse de que los datos en cuestión sean verdaderamente anónimos.

A medida que el big data aumentan en alcance, es sólo cuestión de tiempo antes de que la legislación rija los usos de los datos privados. A nivel estatal, algunas partes del país ya han comenzado a tomar medidas.



Las grandes soluciones de datos pueden batallar para proporcionar análisis en tiempo real


Trabajo en una investigación de mercado de los integradores de sistemas (SI) que implementan sistemas de administración de guardes (WMS). Tenía la impresión de que los distribuidores de software escriben el software, y o bien los SI o/y la empresa de software incorporan el software. No es tan sencillo. En ocasiones los integradores de sistemas escriben software que complementa las soluciones WMS que incorporan. Estas SI han aprendido las debilidades de varios sistemas y han escrito aplicaciones complementarias para cerrar las brechas.

Un ejemplo viene de un integrador de sistemas llamado Longbow Advantage. Ellos crearon un producto llamado Rebus desarrollado para prosperar el reporte en tiempo real de las soluciones WMS.

Hablé con un directivo de la cadena de suministro de una empresa de fabricación que había implementado Rebus. Este directivo me dijo que habían sustituido una solución WMS de una compañía ERP con una de las mejores soluciones de la raza. El directivo me dijo: Logramos toda la funcionalidad que esperábamos. Había toneladas de funcionalidad - cosas como el intercalado de labores y el soporte para el crossdocking. Pero teníamos una brecha en la visibilidad del trabajo que se hacía. El informe en tiempo real del trabajo era más débil de lo aguardado.

Las soluciones WMS son sistemas de Big Data con bases de datos de producción. La base de datos de producción se encarga de dar tareas a los trabajadores del almacén y de proseguir la realización de esas tareas. Toda la lógica de optimización también interacciona con la base de datos de producción. Los trabajadores del almacén utilizan pistolas de radiofrecuencia para cerciorarse de que están recogiendo de las ranuras adecuadas, para indicar al sistema que han completado una labor y para obtener sus próximas asignaciones. Al acceder a la base de datos de producción, las pistolas RF se ralentizan hasta un grado inadmisible, quizá varios segundos para conseguir una tarea. Esto es una eternidad en un almacén muy frecuentado.

Así que en vez de obtener análisis detallados, y resguardar la base de datos de producción de WMS, se golpea un archivo, lo que quiere decir que los análisis son, en el mejor de los casos, de múltiples horas de antigüedad. Según Alex Wakefield, el CEO de Longbow Advantage, las soluciones basadas en la nube no mejoran las cosas. Las compañías de software siempre y en todo momento pueden poner más potencia de computación en un problema, mas más servidores no ayudarán a los clientes del servicio a acceder a sus datos de manera más eficiente. Eso es un problema de estructura de la base de datos.

La solución de Rebus usa una base de datos de documentos - una base de datos NoSQL de Mongo. Esta tecnología permite que los grandes conjuntos de datos sean accedidos y analizados considerablemente más rápidamente. Las transacciones creadas en el WMS asimismo fluyen en la solución Rebus. La compañía manufacturera con la que hablé afirmó que pueden obtener análisis que se fundamentan en transacciones que están a menos de 5 minutos de lo que ocurre en el piso del almacén. Dentro de los sesenta días de la contratación, estos análisis de tiempo cercano se hicieron totalmente disponibles. Pero incluso dentro de los primeros treinta días recibíamos contenido, afirmó el directivo. Longbow Advantage entendió las estructuras de datos que hicieron que esto fuera más parecido a una implementación de una solución off the shelf que a un proyecto de análisis personalizado.

Ahora este fabricante puede hacer preguntas como ¿Cuántos camiones están en el patio y listos para ser descargados? Los gerentes pueden monitorear todo el trabajo de salida que tiene que suceder durante el día y ver de qué manera avanza el día. Por servirnos de un ejemplo, ¿se hacen los pedidos de salida que deben hacerse para un envío de siete am? Hora por hora, se pueden monitorear las estadísticas de los objetivos de recolección y empleo de AGV. Si el almacén se queda atrás, el gerente puede pesquisar en los datos y entender lo que está ocurriendo y lo que se podría hacer para regresar a la normalidad. Si el almacén se mueve ya antes de lo previsto, el gerente puede solicitar voluntarios que deseen regresar a casa temprano. Esta operación tiene pantallas de T.V. que muestran los análisis en tiempo real, con lo que no sólo los gerentes tienen acceso a lo que está sucediendo. En última instancia, según este director de logística, esta solución nos permite y responde a la pregunta '¿Estoy adelante o bien atrás? ¿Gano o bien perdiendo el día?

El director de la cadena de suministro terminó diciendo, también aprovechamos a Rebus para archivar nuestros datos WMS. Esto nos deja obtener análisis de los datos históricos en segundos. Esto ha sido extremadamente útil para rastrear el movimiento de productos dentro y fuera de nuestra red. Similar a nuestros datos WMS en vivo, Rebus es una parada para adquirir datos archivados en nuestros sitios.


Los cinco pasos primordiales para una buena ciencia de los datos


Bastante gente habla de la ciencia de los datos. Pocos saben de qué están hablando y aún menos son conscientes de cómo funciona. Pero, se usa en todas partes hoy día, así que incluso si no eres un científico de datos, es bueno saber cuáles son los pasos básicos. Acá hay 5 pasos básicos para la ciencia de los datos.

  1. ¿Por qué razón lo haces? ¿Estás resolviendo un problema? ¿Qué problema es? La ciencia de los datos no es una salsa que se esparce sobre las cosas para mejorarlas de alguna manera. Es una forma de abordar los inconvenientes. Sepa qué inconveniente intenta solucionar su empresa antes de pedirle a la ciencia de los datos que lo resuelva.

  2. Recopile los datos. Cuando conozca la razón de su negocio, su científico de datos puede comenzar a descubrir qué datos pertenecen a él y recogerlos. No se limite a escoger los datos disponibles o se arriesgue a introducir un corte.

  3. Analice los datos. El análisis exploratorio de datos (EDA) es el enfoque más frecuente. Revela lo que los datos pueden decirle. El EDA suele ser bueno para descubrir las áreas en las que se quiere compendiar más datos. Un buen EDA emplea un conjunto predefinido de directrices y umbrales para ayudar a superar el sesgo.

  4. Construya sus modelos y pruebe si son válidos. Cuando haya analizado los datos puede hacer su modelo de aprendizaje automático que tiene como propósito suministrar una buena solución al inconveniente de la empresa. Antes de establecer un modelo, asegúrese de experimentar con algunas opciones y ciclos de validación adecuados.

  5. Resultados. Ejecute el modelo y también interprete los resultados. Bastante gente no se percata de que la inteligencia artificial no solo le afirma la solución a su inconveniente. Los modelos de aprendizaje automático ofrecen resultados que los humanos interpretan. Los conocimientos de los científicos de datos son los que hacen que el resultado sea algo sobre lo que se pueda actuar.


Seguro que esto hace que suene así de fácil, y obviamente cualquier científico de datos sabe que la prueba está en todo ese trabajo para hacer que estas cosas sucedan, pero conocer lo básico puede ayudar a tomar mejores resoluciones que van a ayudar a sus científicos de datos a hacer mejor su trabajo. Todo el planeta gana. Aun la máquina.

Certificaciones en ciencias de la información para mejorar tu currículo y tu sueldo.


A finales de agosto, Glassdoor tenía más de cincuenta y tres ofertas de trabajo que mentaban el aprendizaje automático (ML) y veinte trabajos que incluían la ciencia de los datos con salarios que iban de cincuenta a más de 180.000 dólares americanos. Poco a poco más empresas están haciendo del análisis de datos y del aprendizaje automático un factor central del desarrollo de nuevos productos y de las oportunidades de ingresos futuros.

Las grandes empresas de tecnología, como las organizaciones tecnológicas independientes, ofrecen programas de capacitación para personas que son nuevas en la ciencia de los datos, de este modo para profesionales que quieren dominar la tecnología más reciente. Cada programa de esta lista de los mejores cursos online para la ciencia de los datos Blog de big data ampliará su experiencia y añadirá un valioso elemento de línea en forma de certificación de ciencia de los datos a su currículum.

Analítica certificada Certificación profesional


Este programa, que es neutral en cuanto a los distribuidores, está dirigido a profesionales de la analítica en la primera fase o intermedia de sus carreras. Los solicitantes precisan una licenciatura y cinco años de experiencia profesional o una maestría con 3 años de experiencia laboral. Todos y cada uno de los candidatos al examen firman un código de moral y deben presentar una referencia de un empleador para confirmar las habilidades sociales.

El examen se fundamenta en el análisis de tareas del trabajo y cubre siete áreas:

  • El inconveniente de la enmarcación de los negocios

  • El análisis de los problemas de enmarcado

  • Data

  • Selección de la metodología

  • Construcción de modelos

  • Despliegue

  • Gestión del ciclo de vida


Hay 100 preguntas de opción múltiple en el examen. El precio base de la certificación CAP es de seiscientos noventa y cinco dólares o bien cuatrocientos noventa y cinco dólares para los miembros del Instituto de Investigación de Operaciones y Ciencias de la Administración (INFORMS). INFORMS ofrece una clase de preparación para el examen.

Una nueva versión del examen va a ser lanzada el 1 de enero de 2021 y puede ser tomada en línea.


Mesa de especialista de escritorio


El análisis de datos es inútil a menos que motive la acción. Eso de forma frecuente requiere hacer un caso basado en este análisis y presentarlo a los colegas de otros departamentos. Visualizar los datos en lugar de confiar sólo en los números puede ayudar a ganarse a las personas que no tratan con datos a diario. Tableau puede ayudarte a hacer eso.

El certificado de Especialista en Escritorio de Tableau mostrará que usted tiene una entendimiento básica de esta herramienta de visualización de datos. La compañía sugiere que los examinadores tengan por lo menos 3 meses de experiencia con la plataforma. El programa de preparación para el examen de Especialista en Escritorio Tableau es un programa de 6 semanas de adiestramiento interactivo, lecciones y hasta 2 intentos para el examen de certificación.

El examen tiene treinta preguntas y ha de ser completado en sesenta minutos. Los examinandos deben conseguir un 70 por cien para aprobar. El examen mide estas habilidades:

  1. Crear y guardar conexiones de datos

  2. La gestión de las propiedades de los datos

  3. Creando gráficos básicos

  4. Aplicar el análisis a una hoja de trabajo

  5. Crear y modificar un tablero de mandos

  6. Comprensión de las dimensiones y medidas

  7. Dominar los campos discretos y continuos


Leave a Reply

Your email address will not be published. Required fields are marked *