原始特征是指 从待研究的对象中直接产生的一组基本特征,这些特征可以是计算出来的,也可以是使用仪表或传感器测量得到的。原始特征是特征提取过程的起点,通常用于描述对象的基本属性或状态。
特征提取是指将原始特征通过某种映射或变换方法转换为低维空间中的表示,这个过程可以降低数据的维度,同时保留原始特征的重要信息。映射后的特征称为二次特征,通常是原始特征的线性组合。
特征、特征向量和特征空间是特征工程中的基本概念:
特征:
即属性,每个输入实例的各个组成部分(属性)称作原始特征,基于原始特征还可以扩展出更多的衍生特征。
特征向量:
由多个特征组成的集合,称作特征向量。
特征空间:
将特征向量存在的空间称作特征空间。
例如,在分析乘客数据时,票价(Fare)是一个原始特征,它是一个连续值。在建模过程中,可能需要将票价转换成不同的级别(如C level, H, M, L),这些级别是基于票价的不同取值范围进行划分的,它们是衍生特征,而不是原始特征。
总结来说,原始特征是直接从研究对象中提取的基本属性或测量值,是特征工程和机器学习中的基础概念。