机器学习_3_attribute
作者:互联网
二、标称属性(nominal attribute)
1)特点
- 标称属性的值是一些符号或事物的名称。
- 每个值代表某种类别、编码、状态,因此标称属性又被看做是分类的(categorical)。
- 标称属性的值不具有有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义)
2)其它
- 这些值不必具有有意义的序,在计算机科学中,这些值也被看做是枚举的(enumeration)。
- 尽管标称属性的值是一些符号或“事物的名称”,但也可以用数表示这些符号或名称,如 hari_color,可以用 0 表示黑色,1 表示黄色。
- 但一种属性中最长出现的值,称为众数(mode),是一种中心趋势度量。
# 例:hari_color(头发颜色)、marital_status(婚姻状况)、occupation(职业),都是标称属性,表示对象的特征
四、序数属性(ordinal attribute)
1)特点
- 属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的查是未知的。(也就是对应的值有先后次序)
2)其它
- 例:drink_size,表示饮料杯的大小:小、中、大,这些值具有有意义的先后次序。
- 序数属性可以通过把数值量的值域划分成有限个有序类别(如,0-很不满意、1-不满意、2-中性、3-满意、4-很满意),把数值属性离散化而得到。
- 可以用众数和中位数表示序数属性的中性趋势,但不能定义均值。
- 标称、二元和序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值。
六、离散属性与连续属性
- 机器学习中的分类算法通常把属性分为离散的和连续的。
1)离散属性
- 特点:
- 具有有限个或无限个可数个数,可以用或不用整数表示。
- 例:hari_color、smoker、drimk_size都有有限个值,因此是离散的。
- 无限可数:如果一个属性可能的值集合是无限的,但是可以建立一个与自然数一一对应,则该属性是无限可数的。
- 例:customer_ID 是无限可数的。
2)连续属性
- 如果属性不是离散的,则它是连续的。
- 文献中,术语“数值属性”和“连续属性”可以互换的使用。
- 实践中,实数值用有限位数数字表示,连续属性一般用浮点变量表示
标签:离散,机器,标称,attribute,序数,数值,学习,可数,属性 来源: https://blog.csdn.net/qq_36098284/article/details/104701587