WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 大数据 > 正文
大数据概念:大数据的来源以及结构
作者: 刘弋 2019-01-07 10:59 【今日头条】

大数据的数据来源

数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。

大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源。分为以下几类:

交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。

人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。

机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。

大数据的结构

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

大数据概念:大数据的来源以及结构

(1)结构化数据

结构化数据是由二维表结构来逻辑表达和实现的数据,也称作行数据,严格地遵循数据格式与长度规范,有固定的结构、属性划分和类型等信息,主要通过关系型数据库进行存储和管理,数据记录的每一个属性对应数据表的一个字段。

(2)非结构化数据

与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、各类报表、图片和音频、视频信息等。在数据较小的情况下,可以使用关系型数据库将其直接存储在数据库表的多值字段和变长手权甲;右数据较大,则存放在文件系统中,数据库则用于存放相关文件的索引信息。这种方法广泛应用于全文检索和各种多媒体信息处理领域。

(3)半结构化数据

半结构化数据既具有一定的结构,又灵活多变,其实也是非结构化数据的一种。和普通纯文本、图片等相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比,其结构又不固定。如员工简历,处理这类数据可以通过信息抽取、转换等步骤,将其转化为半结构化数据,采用XML、HTML 等形式表达;或者根据数据的大小,采用非结构化数据存储方式,结合关系数据存储。


标签:大数据 

LecVideo