类别型数据用于区分事物。例如,人可以分为男女,水果能分为苹果香蕉等。
有序型用来表示对象间的顺序关系。例如,学生的成绩可以从低到高排列等。
区间型用于对象间的定量比较。例如,身高 160cm 与身高 170cm 相差 10cm。
比值型用于比较数值间的比例关系。例如,体重 80kg 是体重 40kg 的两倍。
分类数据:可以进行分组或排序,通常都是文字类型(可以分为有序和无序,均为离散数据)
量化数据:可以测量,所有的值都是数字(可以是连续数据或离散数据)
时间数据:以时间作为数据内容(既可以作为连续数据,又可以作为离散数据)
地理数据:用作地理位置的标示(地名/经纬度信息,属于离散数据)
比较(Comparison)
两个变量彼此相对设置,并显示这两个变量之间的相互作用。 例如,折线图显示了给定时间段内不同月份的在线销售变化。
构成(Composition)
显示各个部分如何构成整体。 例如,饼图按区域显示电话公司的市场份额。
分布(Distribution)
分布图有助于了解异常值,正态趋势以及数据集中值的范围。 例如,列直方图显示了学校考试的成绩分布。
关系(Relationship)
试图显示两个或多个变量之间的联系或相关性。 例如,散点图显示了营销支出和销售收入之间的关系。
趋势型:
通常研究的是某一变量随另一变量的变化趋势,常见的有时间序列数据的可视化。
对比型:
对比两组或者两组以上的数据,通常用于分类数据的对比。
比例型:
数据总体和各个构成部分之间的比例关系。
分布型:
展现一组数据的分布情况,如描述性统计中的集中趋势、离散程度、偏态与峰度等。
(接下)
区间型:
显示同一维度上值的不同分区差异,常用来表示进度情况。
关联型:
用于直观表示不同数据之间的相互关系,如包含关系、层级关系、分流关系、联结关系等。
地理型:
通过数据在地图上的地理位置,来展示数据在不同地理区域上的分布情况,根据空间维度不同,通常分为二维地图和三维地图。
关键
作为探索性数据分析(EDA)的重要组成部分,通过直观的视觉展示指导分析思路,不断迭代完成数据探索过程。
发现问题与验证假设
将创作者的想法或对数据价值的发掘,以直观的形式传达给观众。
分类数据
时序数据
层级数据
多维数据
网络数据