数据挖掘中的功能选择

当您在 Microsoft SQL Server 2005 Analysis Services (SSAS) 中生成数据挖掘模型时,尽管在生成模型后您都很难断定什么是必需的,但数据集中包含的信息通常多于生成模型所需的信息。例如,一个数据集可能包含 500 个用来说明客户特征的列,但是这些列中可能只有 50 个被用于生成一个特定的模型。虽然其他的列不影响模型的输出,但是它们增加了处理模型所需的时间和存储模型所需的空间。为了解决这个问题,某些 Microsoft 算法实现了“功能选择**”。功能选择自动地选择数据集中最可能用于模型中的属性。下列算法支持功能选择:

  • Naive Bayes
  • 决策树
  • 聚类分析
  • 神经网络

功能选择作用于输入和可预测属性,或者作用于列中的状态数,这取决于算法。您可以使用算法参数 MAXIMUM_INPUT_ATTRIBUTESMAXIMUM_OUTPUT_ATTRIBUTESMAXIMUM_STATES 对何时启用功能选择进行控制。如果某个模型包含的列多于 MAXIMUM_INPUT_ATTRIBUTES 参数中指定的数目,则算法将忽略它计算后认为无用的任何列。同样,如果某个模型包含的可预测列多于 MAXIMUM_OUTPUT_ATTRIBUTES 参数中指定的数目,则算法将忽略它计算后认为无用的任何列。如果某个模型包含的事例多于 MAXIMUM_STATES 参数中指定的数目,则最不常见的状态将被分到一组且被视为不存在。如果这些参数中的任何一个被设置为 0,则功能选择将被关闭,这会影响处理时间和性能。

只有算法选择的输入属性和状态才会包含在模型生成过程中并可用于预测。功能选择忽略的可预测列也可被用于预测,但这些预测只是基于模型中存在的全局统计信息进行的。

请参阅

概念

数据挖掘算法
Microsoft 聚类分析算法
Microsoft 决策树算法
Microsoft Naive Bayes 算法
Microsoft 神经网络算法 (SSAS)

帮助和信息

获取 SQL Server 2005 帮助