相关于构造化数据(即行数据,存储在数据库里,能够用二维表构造来逻辑表达实现的数据)而言,不便利用数据库二维逻辑表来表达的数据即称为非构造化数据,包罗所有格局的办公函档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非构造化数据库是指其字段长度可变,而且每个字段的笔录又能够由可反复或不成反复的子字段构成的数据库,用它不只能够处置构造化数据(如数字、符号等信息)并且更适宜处置非构造化数据(全文文本、图象、声音、影视、超媒体等信息)。
非构造化WEB数据库次要是针对非构造化数据而产生的,与以往时髦的关系数据库比拟,其更大区别在于它打破了关系数据库构造定义不轻易改动和数据定长的限造,撑持反复字段、子字段以及变长字段并实现了对变长数据和反复字段停止处置和数据项的变长存储治理,在处置继续信息(包罗全文信息)和非构造化信息(包罗各类多媒体信息)中有着传统关系型数据库所无法相比的优势。
构造化数据(即行数据,存储在数据库里,能够用二维表构造来逻辑表达实现的数据)
非构造化数据,包罗所有格局的办公函档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
所谓半构造化数据,就是介于完全构造化数据(如关系型数据库、面向对象数据库中的数据)和完全无构造的数据(如声音、图像文件等)之间的数据,HTML文档就属于半构造化数据。
它一般是自描述的,数据的构造和内容混在一路,没有明显的区分。
0