Hi, I'm Bolo!
What would you like to know?
ASK BOLOPreview
Please to access Bolo.

Índice

Search

  1. Prólogo
  2. Descripción de dominios
  3. Administración de su cuenta
  4. Uso de Informatica Administrator
  5. Administración de dominios
  6. Alta disponibilidad
  7. Conexiones
  8. Propiedades de conexión
  9. Exportación e importación de objetos de dominio
  10. Administración de licencias
  11. Administración de registros
  12. Supervisión
  13. Informes de dominio
  14. Diagnósticos de nodos
  15. Descripción de la globalización
  16. Administración de Informatica Cloud
  17. Páginas de códigos
  18. Permisos y privilegios de la línea de comandos
  19. Funciones personalizadas
  20. Conectividad de Informatica Platform
  21. Conceptos de seguridad

Guía del administrador

Guía del administrador

Propiedades de conexión de Hive

Propiedades de conexión de Hive

Use la conexión de Hive para acceder a datos de Hive. Una conexión de Hive es una conexión de tipo de base de datos. Puede crear y administrar una conexión de Hive en la herramienta del administrador, la herramienta del analista o Developer tool. Las propiedades de conexión de Hive distinguen mayúsculas de minúsculas a menos que se indique lo contrario.
El orden de las propiedades de conexión puede variar según la herramienta en que las vea.
La siguiente tabla describe las propiedades de conexión de Hive:
Propiedad
Descripción
Nombre
El nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. Puede cambiar esta propiedad después de crear la conexión. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
Descripción
La descripción de la conexión. La descripción no puede tener más de 4 000 caracteres.
Ubicación
Dominio donde desea crear la conexión. No válido para la herramienta del analista.
Tipo
El tipo de conexión. Seleccione Hive.
Modos de conexión
El modo de conexión de Hive. Seleccione al menos una de las siguientes opciones:
  • Acceder a HiveServer2 para ejecutar asignaciones. Seleccione esta opción si desea utilizar la conexión para acceder al almacén de datos de Hive. Si desea utilizar Hive como un destino, debe habilitar la misma conexión u otro conexión Hive para ejecutar asignaciones en el clúster de Hadoop.
  • Acceder a Hive CLI para ejecutar asignaciones. Seleccione esta opción si desea utilizar Hive CLI para ejecutar asignaciones en el clúster de Hadoop.
Puede seleccionar ambas opciones. El valor predeterminado es
Acceso a Hive como origen o destino
.
Nombre de usuario
El nombre de usuario del usuario que el servicio de integración de datos suplanta para ejecutar asignaciones en un clúster de Hadoop. El nombre de usuario depende de la cadena de conexión de JDBC que especifique en la cadena de conexión de metadatos o en la cadena de conexión de acceso a los datos del entorno nativo.
Si el clúster de Hadoop ejecuta Hortonworks HDP, deberá proporcionar un nombre de usuario. Si utiliza Tez para ejecutar asignaciones, deberá proporcionar la cuenta de usuario del servicio de integración de datos. Si no utiliza Tez, podrá usar una cuenta de usuario de suplantación.
Si el clúster de Hadoop utiliza autenticación Kerberos, el nombre principal de la cadena de conexión de JDBC y el nombre de usuario deben coincidir. De lo contrario, el nombre de usuario dependerá del comportamiento del controlador JDBC. Con el controlador JDBC de Hive, puede especificar un nombre de usuario de varias formas y este puede ser una parte de la URL de JDBC.
Si el clúster de Hadoop no utiliza autenticación Kerberos, el nombre de usuario depende del comportamiento del controlador JDBC.
Si no especifica un nombre de usuario, el clúster de Hadoop autenticará trabajos según los siguientes criterios:
  • El clúster de Hadoop no utiliza autenticación Kerberos. Autentica trabajos según el nombre de usuario del perfil del sistema operativo del equipo que ejecuta el servicio de integración de datos.
  • El clúster de Hadoop utiliza autenticación Kerberos. Autentica trabajos según el SPN del servicio de integración de datos.
Atributos comunes para ambos modos: SQL de entorno
Los comandos SQL para establecer el entorno de Hadoop. En el tipo de entorno nativo, el servicio de integración de datos ejecuta el SQL de entorno cada vez que crea una conexión a un metastore de Hive. Si la conexión de Hive se utiliza para ejecutar perfiles en el clúster de Hadoop, el servicio de integración de datos ejecuta el SQL de entorno al inicio de cada sesión de Hive.
Las siguientes reglas y directrices se aplican al uso del SQL de entorno en ambos modos de conexión:
  • Utilice el SQL de entorno para especificar consultas de Hive.
  • Utilice el SQL de entorno para definir la classpath de las funciones definidas por el usuario de Hive y, a continuación, use el SQL o PreSQL de entorno para especificar las funciones definidas por el usuario de Hive. No se puede usar PreSQL en las propiedades de objetos de datos para especificar la classpath. La ruta de acceso debe ser la ruta de acceso totalmente cualificada a los archivos JAR utilizada para las funciones definidas por el usuario. Establezca el parámetro hive.aux.jars.path con todas las entradas en infapdo.aux.jars.path y la ruta de acceso a los archivos JAR para las funciones definidas por el usuario.
  • También puede usar el SQL de entorno para definir los parámetros de Hadoop o Hive que desea utilizar en los comandos PreSQL o en las consultas personalizadas.
  • Si utiliza varios valores en la propiedad SQL del entorno, procure que no haya espacios entre dichos valores. En el siguiente texto de ejemplo aparecen dos valores que se pueden usar para el SQL del entorno:
    set hive.execution.engine='tez';set hive.exec.dynamic.partition.mode='nonstrict';
Si la conexión de Hive se utiliza para ejecutar perfiles en el clúster de Hadoop, el servicio de integración de datos solo ejecutará el SQL de entorno de la conexión de Hive. Si los orígenes y los destinos de Hive se encuentran en clústeres diferentes, el servicio de integración de datos no ejecutará los diversos comandos del SQL de entorno para las conexiones del origen o el destino de Hive.

Propiedades para acceder a Hive como origen o destino

La siguiente tabla describe las propiedades de conexión que configura para acceder a Hive como un origen o destino:
Propiedad
Descripción
Cadena de conexión de metadatos
El URI de la conexión de JDBC usado para acceder a los metadatos desde el servidor de Hadoop.
Puede utilizar PowerExchange for Hive para comunicarse con un servicio de HiveServer o HiveServer2.
Para conectarse a HiveServer, especifique la cadena de conexión con el siguiente formato:
jdbc:hive2://<nombredehost>:<puerto>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es el nombre de la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Para conectarse a HiveServer 2, utilice el formato de cadena de conexión que Apache Hive implementa para esa distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
Omitir el servidor JDBC Hive
Un modo de controlador JDBC. Active la casilla de verificación para usar el modo de controlador de JDBC integrado.
Para utilizar el modo incrustado de JDBC, realice las tareas siguientes:
  • Compruebe que el cliente de Hive y los servicios de Informatica están instalados en el mismo equipo.
  • Configure las propiedades de conexión de Hive para ejecutar asignaciones en el clúster de Hadoop.
Si selecciona el modo no incrustado, debe configurar la cadena de conexión de acceso a los datos.
Informatica recomienda utilizar el modo de JDBC integrado.
Cadena de conexión de acceso a los datos
La cadena de conexión para acceder a los datos desde el almacén de datos de Hadoop.
Para conectarse a HiveServer, especifique la cadena de conexión del modo JDBC no incrustado con el siguiente formato:
jdbc:hive2://<nombredehost>:<puerto>/<db>
Donde
  • <nombre de host> es el nombre o la dirección IP del equipo en el que se ejecuta HiveServer2.
  • <puerto> es el número de puerto en el que HiveServer2 escucha.
  • <db> es la base de datos a la que desea conectarse. Si no especifica el nombre de la base de datos, el servicio de integración de datos utiliza los detalles de la base de datos predeterminada.
Para conectarse a HiveServer 2, utilice el formato de cadena de conexión que Apache Hive implementa para la distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.

Propiedades para ejecutar asignaciones en el clúster de Hadoop

La siguiente tabla describe las propiedades de conexión de Hive que se configura cuando desea utilizar la conexión de Hive para ejecutar asignaciones de Informatica en el clúster de Hadoop:
Propiedad
Descripción
Nombre de la base de datos
Espacio de nombres para las tablas. Utilice el nombre
predeterminado
para tablas que no tienen un nombre de base de datos especificado.
URI de sistema de archivos predeterminado
El URI para acceder al sistema de archivos distribuido de Hadoop predeterminado.
Utilice la siguiente URI de conexión:
hdfs://<node name>:<port>
Donde
  • <node name> es el nombre de host o la dirección IP del NameNode.
  • <port> es el puerto en el que el NameNode escucha las llamadas a procedimientos remotos (RPC).
Si el clúster de Hadoop ejecuta MapR, utilice el siguiente URI para acceder al sistema de archivos MapR:
maprfs:///
.
URI de JobTracker/Administrador de recursos YARN
El servicio de Hadoop que envía las tareas de MapReduce a nodos específicos en el clúster.
Use el siguiente formato:
<hostname>:<port>
Donde
  • <hostname> es el nombre de host o la dirección IP de JobTracker o el Administrador de recursos YARN.
  • <port> es el puerto en el que JobTracker o el Administrador de recursos YARN escuchan las llamadas de procedimiento remoto (RPC).
Si el clúster utiliza MapR con YARN, utilice el valor especificado en la propiedad
yarn.resourcemanager.address
en yarn-site.xml. Podrá encontrar
yarn-site.xml
en el siguiente directorio del NameNode del clúster:
/opt/mapr/hadoop/hadoop-2.5.1/etc/hadoop
.
MapR con MapReduce 1 es compatible con un JobTracker de alta disponibilidad. Si utiliza la distribución MapR, defina el URI de JobTracker con el siguiente formato:
maprfs:///
Directorio de almacén Hive en HDFS
La ruta de acceso absoluta al archivo HDFS de la base de datos predeterminada para el almacén que es local en el clúster. Por ejemplo, la siguiente ruta de acceso del archivo especifica un almacén local:
/user/hive/warehouse
En el caso de Cloudera CDH, si el modo de ejecución de metastore está definido como remoto, la ruta de acceso al archivo debe coincidir con la ruta de acceso al archivo especificada por el servicio de metastore de Hive en el clúster de Hadoop.
En MapR, utilice el valor especificado para la propiedad
hive.metastore.warehouse.dir
en
hive-site.xml
. Podrá encontrar
hive-site.xml
en el siguiente directorio del nodo que ejecuta HiveServer2:
/opt/mapr/hive/hive-0.13/conf
.
Propiedades avanzadas de Hive/Hadoop
Configura o reemplaza las propiedades del clúster de Hadoop o Hive en hive-site.xml en el equipo en que el servicio de integración de datos se ejecuta. Puede especificar varias propiedades.
Seleccione
Editar
para especificar el nombre y el valor de la propiedad. La propiedad se muestra con el siguiente formato:
<property1>=<value>
Donde
  • <property1> es una propiedad de Hive o Hadoop en hive-site.xml.
  • <value> es el valor de la propiedad de Hive o Hadoop.
Si se especifican varias propiedades
&:
aparece como separador de las propiedades.
La longitud máxima para el formato es 1 MB.
Si especifica una propiedad obligatoria para una conexión de Hive, reemplaza la propiedad que configura en Propiedades avanzadas de Hive/Hadoop.
El servicio de integración de datos añade o establece estas propiedades para cada trabajo de asignación y reducción. Puede comprobar estas propiedades en el JobConf de cada trabajo de asignador y reductor. Acceda al JobConf de cada trabajo desde la URL de JobTracker en cada trabajo de asignación y reducción.
El servicio de integración de datos escribe mensajes para estas propiedades en los registros del servicio de integración de datos. El servicio de integración de datos debe tener el nivel de seguimiento de registro definido para registrar cada fila o para detallar el seguimiento de inicialización.
Por ejemplo, especifique las siguientes propiedades para controlar y limitar el número de reductores para ejecutar un trabajo de asignación:
mapred.reduce.tasks=2&:hive.exec.reducers.max=10
Códec de compresión de tabla temporal
Biblioteca de compresión de Hadoop para el nombre de clase de un códec de compresión.
Nombre de clase de códec
Nombre de clase de códec que habilita la compresión de datos y mejora el rendimiento en tablas de ensayo temporales.
Modo de ejecución de metastore
Determina si la conexión se realiza a un metastore remoto o un metastore local. De forma predeterminada, local está seleccionado. Para un metastore local, debe especificar el URI de la base de datos de metastore, el controlador, el nombre de usuario y la contraseña. Para un metastore remoto, debe especificar solamente el
URI de metastore remoto
.
URI de la base de datos de metastore
El URI de la conexión de JDBC que se usa para acceder a los datos guardados en una configuración de metastore local. Utilice la siguiente URI de conexión:
jdbc:<tipo de almacén de datos>://<nombre de nodo>:<puerto>/<nombre de base de datos>
donde
  • <nombre de nodo> es el nombre de host o la dirección IP del almacén de datos.
  • <tipo de almacén de datos> es el tipo del almacén de datos.
  • <puerto> es el puerto en el que el almacén de datos escucha las llamadas a procedimientos remotos (RPC).
  • <nombre de base de datos> es el nombre de la base de datos.
Por ejemplo, el siguiente URI especifica un metastore local que utiliza MySQL como almacén de datos:
jdbc:mysql://hostname23:3306/metastore
En MapR, utilice el valor especificado para la propiedad
javax.jdo.option.ConnectionURL
en
hive-site.xml
. Podrá encontrar hive-site.xml en el siguiente directorio del nodo donde se ejecute HiveServer 2: /opt/mapr/hive/hive-0.13/conf.
Controlador de la base de datos de metastore
Nombre de clase del controlador del almacén de datos de JDBC. Por ejemplo, el siguiente nombre de clase especifica un controlador de MySQL:
com.mysql.jdbc.Driver
En MapR, utilice el valor especificado para la propiedad
javax.jdo.option.ConnectionDriverName
en
hive-site.xml
. Podrá encontrar
hive-site.xml
en el siguiente directorio del nodo que ejecuta HiveServer 2:
/opt/mapr/hive/hive-0.13/conf
.
Nombre de usuario de la base de datos de metastore
El nombre de usuario de la base de datos de metastore.
En MapR, utilice el valor especificado para la propiedad
javax.jdo.option.ConnectionUserName
en
hive-site.xml
. Podrá encontrar
hive-site.xml
en el siguiente directorio del nodo que ejecuta HiveServer 2:
/opt/mapr/hive/hive-0.13/conf
.
Contraseña de la base de datos de metastore
La contraseña del nombre de usuario de metastore.
En MapR, utilice el valor especificado para la propiedad
javax.jdo.option.ConnectionPassword
en
hive-site.xml
. Podrá encontrar
hive-site.xml
en el siguiente directorio del nodo que ejecuta HiveServer 2:
/opt/mapr/hive/hive-0.13/conf
.
URI de metastore remoto
El URI de metastore utilizado para acceder a los metadatos en una configuración de metastore remoto. Para un metastore remoto, debe especificar los detalles del servidor Thrift.
Utilice la siguiente URI de conexión:
thrift://<nombre de host>:<puerto>
Donde
  • <nombre de host> es el nombre o la dirección IP del servidor de metastore de Thrift.
  • <puerto> es el puerto en el que el servidor Thrift está escuchando.
En MapR, utilice el valor especificado para la propiedad
hive.metastore.uris
en
hive-site.xml
. Podrá encontrar
hive-site.xml
en el siguiente directorio del nodo que ejecuta HiveServer 2:
/opt/mapr/hive/hive-0.13/conf
.