Data Services
- Data Services 9.6.1 HotFix 4
- Todos los productos
Propiedad
| Descripción
|
---|---|
Nombre
| El nombre de la conexión. No se aplica la distinción entre mayúsculas y minúsculas al nombre, el cual debe ser único en el dominio. Puede cambiar esta propiedad después de crear la conexión. El nombre no puede superar los 128 caracteres, contener espacios ni contener los siguientes caracteres especiales:
~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? / |
ID
| Cadena que utiliza el servicio de integración de datos para identificar la conexión. El ID no distingue entre mayúsculas y minúsculas. Debe tener 255 caracteres o menos y debe ser único en el dominio. No puede modificar esta propiedad después de crear la conexión. El valor predeterminado es el nombre de la conexión.
|
Descripción
| La descripción de la conexión. La descripción no puede tener más de 4 000 caracteres.
|
Ubicación
| Dominio donde desea crear la conexión. No válido para la herramienta del analista.
|
Tipo
| El tipo de conexión. Seleccione Hive.
|
Modos de conexión
| El modo de conexión de Hive. Seleccione al menos una de las siguientes opciones:
Acceso a Hive como origen o destino .
|
Nombre de usuario
| El nombre de usuario del usuario que el servicio de integración de datos suplanta para ejecutar asignaciones en un clúster de Hadoop. El nombre de usuario depende de la cadena de conexión de JDBC que especifique en la cadena de conexión de metadatos o en la cadena de conexión de acceso a los datos del entorno nativo.
Si el clúster de Hadoop ejecuta Hortonworks HDP, deberá proporcionar un nombre de usuario. Si utiliza Tez para ejecutar asignaciones, deberá proporcionar la cuenta de usuario del servicio de integración de datos. Si no utiliza Tez, podrá usar una cuenta de usuario de suplantación.
Si el clúster de Hadoop utiliza autenticación Kerberos, el nombre principal de la cadena de conexión de JDBC y el nombre de usuario deben coincidir. De lo contrario, el nombre de usuario dependerá del comportamiento del controlador JDBC. Con el controlador JDBC de Hive, puede especificar un nombre de usuario de varias formas y este puede ser una parte de la URL de JDBC.
Si el clúster de Hadoop no utiliza autenticación Kerberos, el nombre de usuario depende del comportamiento del controlador JDBC.
Si no especifica un nombre de usuario, el clúster de Hadoop autenticará trabajos según los siguientes criterios:
|
Atributos comunes para ambos modos: SQL de entorno
| Los comandos SQL para establecer el entorno de Hadoop. En el tipo de entorno nativo, el servicio de integración de datos ejecuta el SQL de entorno cada vez que crea una conexión a un metastore de Hive. Si la conexión de Hive se utiliza para ejecutar perfiles en el clúster de Hadoop, el servicio de integración de datos ejecuta el SQL de entorno al inicio de cada sesión de Hive.
Las siguientes reglas y directrices se aplican al uso del SQL de entorno en ambos modos de conexión:
Si la conexión de Hive se utiliza para ejecutar perfiles en el clúster de Hadoop, el servicio de integración de datos solo ejecutará el SQL de entorno de la conexión de Hive. Si los orígenes y los destinos de Hive se encuentran en clústeres diferentes, el servicio de integración de datos no ejecutará los diversos comandos del SQL de entorno para las conexiones del origen o el destino de Hive.
|
Propiedad
| Descripción
|
---|---|
Cadena de conexión de metadatos
| El URI de la conexión de JDBC usado para acceder a los metadatos desde el servidor de Hadoop.
Puede utilizar PowerExchange for Hive para comunicarse con un servicio de HiveServer o HiveServer2.
Para conectarse a HiveServer, especifique la cadena de conexión con el siguiente formato:
jdbc:hive2://<nombredehost>:<puerto>/<db> Donde
Para conectarse a HiveServer 2, utilice el formato de cadena de conexión que Apache Hive implementa para esa distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
|
Omitir el servidor JDBC Hive
| Un modo de controlador JDBC. Active la casilla de verificación para usar el modo de controlador de JDBC integrado.
Para utilizar el modo incrustado de JDBC, realice las tareas siguientes:
Si selecciona el modo no incrustado, debe configurar la cadena de conexión de acceso a los datos.
Informatica recomienda utilizar el modo de JDBC integrado.
|
Cadena de conexión de acceso a los datos
| La cadena de conexión para acceder a los datos desde el almacén de datos de Hadoop.
Para conectarse a HiveServer, especifique la cadena de conexión del modo JDBC no incrustado con el siguiente formato:
jdbc:hive2://<nombredehost>:<puerto>/<db> Donde
Para conectarse a HiveServer 2, utilice el formato de cadena de conexión que Apache Hive implementa para la distribución de Hadoop determinada. Para obtener más información acerca de los formatos de cadena de conexión de Apache Hive, consulte la documentación de Apache Hive.
|
Propiedad
| Descripción
|
---|---|
Nombre de la base de datos
| Espacio de nombres para las tablas. Utilice el nombre predeterminado para tablas que no tienen un nombre de base de datos especificado.
|
URI de sistema de archivos predeterminado
| El URI para acceder al sistema de archivos distribuido de Hadoop predeterminado.
Utilice la siguiente URI de conexión:
hdfs://<node name>:<port> Donde
Si el clúster de Hadoop ejecuta MapR, utilice el siguiente URI para acceder al sistema de archivos MapR: maprfs:/// .
|
URI de JobTracker/Administrador de recursos YARN
| El servicio de Hadoop que envía las tareas de MapReduce a nodos específicos en el clúster.
Use el siguiente formato:
<hostname>:<port> Donde
Si el clúster utiliza MapR con YARN, utilice el valor especificado en la propiedad yarn.resourcemanager.address en yarn-site.xml. Podrá encontrar yarn-site.xml en el siguiente directorio del NameNode del clúster: /opt/mapr/hadoop/hadoop-2.5.1/etc/hadoop .
MapR con MapReduce 1 es compatible con un JobTracker de alta disponibilidad. Si utiliza la distribución MapR, defina el URI de JobTracker con el siguiente formato: maprfs:/// |
Directorio de almacén Hive en HDFS
| La ruta de acceso absoluta al archivo HDFS de la base de datos predeterminada para el almacén que es local en el clúster. Por ejemplo, la siguiente ruta de acceso del archivo especifica un almacén local:
/user/hive/warehouse En el caso de Cloudera CDH, si el modo de ejecución de metastore está definido como remoto, la ruta de acceso al archivo debe coincidir con la ruta de acceso al archivo especificada por el servicio de metastore de Hive en el clúster de Hadoop.
En MapR, utilice el valor especificado para la propiedad hive.metastore.warehouse.dir en hive-site.xml . Podrá encontrar hive-site.xml en el siguiente directorio del nodo que ejecuta HiveServer2: /opt/mapr/hive/hive-0.13/conf .
|
Propiedades avanzadas de Hive/Hadoop
| Configura o reemplaza las propiedades del clúster de Hadoop o Hive en hive-site.xml en el equipo en que el servicio de integración de datos se ejecuta. Puede especificar varias propiedades.
Seleccione Editar para especificar el nombre y el valor de la propiedad. La propiedad se muestra con el siguiente formato:
<property1>=<value> Donde
Si se especifican varias propiedades &: aparece como separador de las propiedades.
La longitud máxima para el formato es 1 MB.
Si especifica una propiedad obligatoria para una conexión de Hive, reemplaza la propiedad que configura en Propiedades avanzadas de Hive/Hadoop.
El servicio de integración de datos añade o establece estas propiedades para cada trabajo de asignación y reducción. Puede comprobar estas propiedades en el JobConf de cada trabajo de asignador y reductor. Acceda al JobConf de cada trabajo desde la URL de JobTracker en cada trabajo de asignación y reducción.
El servicio de integración de datos escribe mensajes para estas propiedades en los registros del servicio de integración de datos. El servicio de integración de datos debe tener el nivel de seguimiento de registro definido para registrar cada fila o para detallar el seguimiento de inicialización.
Por ejemplo, especifique las siguientes propiedades para controlar y limitar el número de reductores para ejecutar un trabajo de asignación:
mapred.reduce.tasks=2&:hive.exec.reducers.max=10 |
Códec de compresión de tabla temporal
| Biblioteca de compresión de Hadoop para el nombre de clase de un códec de compresión.
|
Nombre de clase de códec
| Nombre de clase de códec que habilita la compresión de datos y mejora el rendimiento en tablas de ensayo temporales.
|
Modo de ejecución de metastore
| Determina si la conexión se realiza a un metastore remoto o un metastore local. De forma predeterminada, local está seleccionado. Para un metastore local, debe especificar el URI de la base de datos de metastore, el controlador, el nombre de usuario y la contraseña. Para un metastore remoto, debe especificar solamente el URI de metastore remoto .
|
URI de la base de datos de metastore
| El URI de la conexión de JDBC que se usa para acceder a los datos guardados en una configuración de metastore local. Utilice la siguiente URI de conexión:
jdbc:<tipo de almacén de datos>://<nombre de nodo>:<puerto>/<nombre de base de datos> donde
Por ejemplo, el siguiente URI especifica un metastore local que utiliza MySQL como almacén de datos:
jdbc:mysql://hostname23:3306/metastore En MapR, utilice el valor especificado para la propiedad javax.jdo.option.ConnectionURL en hive-site.xml . Podrá encontrar hive-site.xml en el siguiente directorio del nodo donde se ejecute HiveServer 2: /opt/mapr/hive/hive-0.13/conf.
|
Controlador de la base de datos de metastore
| Nombre de clase del controlador del almacén de datos de JDBC. Por ejemplo, el siguiente nombre de clase especifica un controlador de MySQL:
com.mysql.jdbc.Driver En MapR, utilice el valor especificado para la propiedad javax.jdo.option.ConnectionDriverName en hive-site.xml . Podrá encontrar hive-site.xml en el siguiente directorio del nodo que ejecuta HiveServer 2: /opt/mapr/hive/hive-0.13/conf .
|
Nombre de usuario de la base de datos de metastore
| El nombre de usuario de la base de datos de metastore.
En MapR, utilice el valor especificado para la propiedad javax.jdo.option.ConnectionUserName en hive-site.xml . Podrá encontrar hive-site.xml en el siguiente directorio del nodo que ejecuta HiveServer 2: /opt/mapr/hive/hive-0.13/conf .
|
Contraseña de la base de datos de metastore
| La contraseña del nombre de usuario de metastore.
En MapR, utilice el valor especificado para la propiedad javax.jdo.option.ConnectionPassword en hive-site.xml . Podrá encontrar hive-site.xml en el siguiente directorio del nodo que ejecuta HiveServer 2: /opt/mapr/hive/hive-0.13/conf .
|
URI de metastore remoto
| El URI de metastore utilizado para acceder a los metadatos en una configuración de metastore remoto. Para un metastore remoto, debe especificar los detalles del servidor Thrift.
Utilice la siguiente URI de conexión:
thrift://<nombre de host>:<puerto> Donde
En MapR, utilice el valor especificado para la propiedad hive.metastore.uris en hive-site.xml . Podrá encontrar hive-site.xml en el siguiente directorio del nodo que ejecuta HiveServer 2: /opt/mapr/hive/hive-0.13/conf .
|