目录

Search

  1. 前言
  2. 引用数据简介
  3. Analyst 工具中的引用表
  4. Developer 工具中的引用数据
  5. 分类器模型
  6. 概率模型
  7. 引用数据和 Informatica Big Data Management

引用数据指南

引用数据指南

概率模型结构

概率模型结构

概率模型包含引用数据值行和标签值。引用数据值代表可能出现在转换输入数据中的各个值。标签值标识您希望输入数据包含的信息类型。
概率模型还包含编译数据。 标签创建器转换和解析器转换使用编译数据来测量模型中的引用数据和转换输入数据之间的相似度。对概率模型进行编译时,将创建或更新编译数据。
一个数据行可以包含单个值或多个值。每个数据行可能具有不同的结构。您可以将同一个标签分配给数据行中的多个值。或者,您也可为出现在一个行中不同位置的同一个值分配不同的标签。运行映射时,数据集成服务会将值在输入字符串中的相对位置考虑在内。在编译概率模型之前,将每个标签分配给至少一个数据值。
Developer tool 会将引用数据值、标签值和编译数据写入到 Informatica 目录结构中的一个文件。模型存储库中的概率模型对象存储了文件名。保存概率模型后,当前的引用数据值和标签值随即写入到文件中。对模型进行编译时,将更新文件中的编译数据。您可以从 Developer tool 中的模型属性读取文件名。
要优化概率模型的功能,请验证每个数据行是否包含多个引用数据值。每个行中值的顺序必须尽可能与值在转换输入数据中出现的顺序一致。如果数据行包含单个引用数据值,则标签创建器转换或解析器转换无法在概率分析期间应用自然语言处理。