大数据分类方法有:1.按照结构化程度分类;2.按照数据来源分类;3.按照数据体系分类;4.按照数据类型分类。不同的分类方法,可以帮助分析师从不同维度对大数据进行统计分析,以推断出有助于决策的结论。
1.按照结构化程度分类
按照结构化程度分类,大数据类型有三种,即结构化数据、半结构化数据和非结构化数据,详情如下:
(1)结构化数据:数据集中每条数据属性的数量和顺序相同,且数据的结构信息和数据内容是分离的,最典型的是关系型数据库的表;
(2)半结构化数据:指带有自描述信息的数据,即数据的结构信息和数据内容混在一起,常见的有XML、JSON、HTML和CSV文件等等;
(3)非结构化数据:顾名思义,就是没有固定结构的数据,常见的各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,一般以二进制的形式进行整体存储。
2.按照数据来源分类
按照数据来源分类,大数据类型包括企业系统数据、机器和传感器数据、社交数据。
(1)企业系统数据:包括CRM systems的消费者数据、传统的ERP数据、库存数据以及账目数据等。
(2)机器和传感器数据:包括呼叫记录(Call Detail Records)、智能仪表、工业设备传感器、设备日志(通常是Digital exhaust)、交易数据等。
(3)社交数据:包括用户行为记录,反馈数据等。如微信、QQ、微博、博客、抖音、Twitter、Facebook等社交媒体平台。
3.按照数据体系分类
在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源包括内容数据、线上行为数据和线下行为数据3大类。
(1)业务数据:消费者数据、客户关系数据、库存数据、账目数据等。
(2)行业数据:车流量数据、能耗数据、PM2.5数据等。
(3)内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
(4)线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。
(5)线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
4.按照数据类型分类
按照数据形态分类,大数据类型有文本大数据、图片大数据、音频大数据、地理位置信息数据等。
延伸阅读
大数据的四个显著特征
业界通常用4个V(即Volume、Variety、value、Velocity)来概括大数据的特征,具体内容如下:
1.数据体量巨大
大数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。
2.数据类别大和类型多样
数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化的数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
3.处理速度快
在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
4.价值真实性高和密度低
数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。
50万+团队都在用的项目协作工具一个工具满足团队所需:任务、项目、文档、IM、目标、 日历、甘特图、工时、审批以及更多,让工作更简单智能化研发管理工具PingCode 是简单易用的新一代研发管理平台,让研发管理自动化、数据化、智能化,帮助企业提升研发效能