线性分类器与贝叶斯分类器有什么区别?什么是大数据处理的主要方式?
线性分类器与贝叶斯分类器有什么区别?
在分类问题中,因变量Y可以看做是数据的label,属于分类变量。
所谓分类问题,就是能够在数据的自变量X空间内找到一些decision boundaries,把label不同的数据分开,如果某种方法所找出的这些decision boundaries在自变量X空间内是线性的,这时就说这种方法是一种线性分类器。贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。什么是大数据处理的主要方式?
1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
0