相同的数据型态,利用不同的方法分析,就可以解决不同的课题。例如目前已相当纯熟的人脸识别技术,在国防应用可以进行安保工作;企业可做员工门禁系统;可结合性别、年龄辨识让卖场进行市调分析,或结合追踪技术进行人流分析等。
本篇接下来要针对深度学习方法的数据类型或算法,介绍AI常见的应用。
以算法区分深度学习应用,算法类别可分成三大类:
- 常用于影像数据进行分析处理的卷积神经网络(简称CNN)
- 文本分析或自然语言处理的递归神经网络(简称RNN)
- 常用于数据生成或非监督式学习应用的生成对抗网络(简称GAN)
CNN主要应用可分为图像分类(image classification)、目标检测(object detection)及语义分割(semantic segmentation)。下图可一目了然三种不同方法的应用方式。
1、图像分类 (Classification)
顾名思义就是将图像进行类别筛选,通过深度学习方法识别图片属于哪种分类类别,其主要重点在于一张图像只包含一种分类类别,即使该影像内容可能有多个目标,所以单纯图像分类的应用并不普遍。不过由于单一目标识别对深度学习算法来说是正确率最高的,所以实际上很多应用会先通过目标检测方法找到该目标,再缩小撷取影像范围进行图像分类。所以只要是目标检测可应用的范围,通常也会使用图像分类方法。图像分类也是众多用来测试算法基准的方法之一,常使用由ImageNet举办的大规模视觉识别挑战赛(ILSVRC)中提供的公开图像数据进行算法测试。图像分类属于CNN的基础,其相关算法也是最易于理解,故初学者应该都先以图像分类做为跨入深度学习分析的起步。使用图像分类进行识别,通常输入为一张图像,而输出为一个文字类别。
2、目标检测 (Object Detection)
一张图像内可有一或多个目标物,目标物也可以是属于不同类别。算法主要能达到两种目的:找到目标坐标及识别目标类别。简单来说,就是除了需要知道目标是什么,还需要知道它在哪个位置。
目标检测应用非常普遍,包含文章开头提到的人脸识别相关技术结合应用,或是制造业方面的瑕疵检测,甚至医院用于X光、超音波进行特定身体部位的病况检测等。目标识别的基础可想象为在图像分类上增加标示位置的功能,故学习上也不离图像分类的基础。不过目标检测所标示的坐标通常为矩形或方形,仅知道目标所在位置,并无法针对目标的边缘进行描绘,所以常用见的应用通常会以「知道目标位置即可」作为目标。
最常见的算法为YOLO及R-CNN。其中YOLO因算法特性具有较快的识别速度,目前已来到v3版本。R-CNN针对目标位置搜寻及辨识算法和YOLO稍有不同,虽然速度稍较YOLO慢,但正确率稍高于YOLO。使用目标检测进行识别,通常输入为一张图像,而输出为一个或数个文字类别和一组或多组坐标。
3、语义分割 (Semantic Segmentation)
算法会针对一张图像中的每个像素进行识别,也就是说不同于目标检测,语义分割可以正确区别各目标的边界像素,简单来说,语义分割就是像素级别的图像分类,针对每个像素进行分类。当然这类应用的模型就会需要较强大的GPU和花较多时间进行训练。
常见应用类似目标检测,但会使用在对于图像识别有较高精细度,如需要描绘出目标边界的应用。例如制造业上的瑕疵检测,针对不规则形状的大小瑕疵,都可以正确描绘。医学上常用于分辨病理切片上的病变细胞,或是透过MRI、X光或超音波描绘出病变的区块及类别。算法如U-Net或是Mask R-CNN都是常见的实作方法。使用语义分割进行识别,通常输入为一张图像,而输出也为一张等大小的图像,但图像中会以不同色调描绘不同类别的像素。
RNN的特色在于可处理图像或数值数据,并且由于网络本身具有记忆能力,可学习具有前后相关的数据类型。例如进行语言翻译或文本翻译,一个句子中的前后词汇通常会有一定的关系,但CNN网络无法学习到这层关系,而RNN因具有内存,所以性能会比较好。因为可以通过RNN进行文字理解,其他应用如输入一张图像,但是输出为一段关于图像叙述的句子。(如下图)
RNN虽然解决了CNN无法处理的问题,但其本身仍然有些缺点,所以现在很多RNN的变形网络,其中最常被使用的网络之一为长短记忆网络(Long Short-Term Network,简称LSTM)。这类网络的输入数据不限于是图像或文字,解决的问题也不限于翻译或文字理解。数值相关数据也同样可以使用LSTM进行分析,例如工厂机器预测性维修应用,可透过LSTM分析机台震动讯号,预测机器是否故障。在医学方面,LSTM可协助解读数以千计的文献,并找出特定癌症的相关信息,例如肿瘤部位、肿瘤大小、期数,甚至治疗方针或存活率等等,透过文字理解进行解析。也可结合图像识别提供病灶关键词,以协助医生撰写病理报告。
除了深度学习外,有一种新兴的网络称为强化学习(Reinforcement Learning),其中一种很具有特色的网络为生成式对抗网络(GAN)。
这里不详述GAN的理论或实作方式,而是探讨GAN实际应用的场域。深度学习领域最需要的是数据,但往往不是所有应用都可以收集到大量数据,并且数据也需要人工进行标注,这是非常消耗时间及人力成本。图像数据可以通过旋转、裁切或改变明暗等方式增加数据量,但如果数据还是不够呢?目前有相当多领域透过GAN方法生成非常近似原始数据的数据,例如3D-GAN就是可以生成高质量3D对象。当然,比较有趣的应用例如人脸置换或表情置换。(如下图)
图片来源于网络
另外,SRGAN (Super Resolution GAN)可用于提高原始图像的分辨率,将作为低分辨率影像输入进GAN模型,并生成较高画质的影像(如下图)。这样的技术可整合至专业绘图软件中,协助设计师更有效率完成设计工作。
NVIDIA也有提供一些基于GAN的平台的应用,包含透过GauGAN网络,仅需绘制简单的线条,即可完成漂亮的画作,并且还能随意修改场景的风格(如下图)。
时间序列预测就是利用过去一段时间的数据来预测未来一段时间内的信息,包括连续型预测(数值预测,范围估计)与离散型预测(事件预测)等,具有非常高的商业价值。
需要明确一点的是,与回归分析预测模型不同,时间序列模型依赖于数值在时间上的先后顺序,同样大小的值改变顺序后输入模型产生的结果是不同的。
如之前的文章所介绍,时间序列可以分为平稳序列,即存在某种周期,季节性及趋势的方差和均值不随时间而变化的序列,和非平稳序列。
本文为大家总结时间序列预测的有关方法,浅析这些技术并探索如何可以提高这些方法的预测效果。
时间序列预测方法最全总结!
自回归积分移动平均模型或ARIMA(p,d,q),相当于在自回归移动平均过程(ARMA)的基础上增加了积分要素,相比AR、MA、ARMA模型来说,不再对数据平稳性存在要求,在模型中可以直接通过积分参数d控制数据差异化的次数。
将预测对象按照时间顺序排列起来,构成一个所谓的时间序列,从所构成的一组时间序列的变化规律,推断今后变化的可能性及变化趋势、变化规律,就是时间序列预测法。
时间序列模型其实也是一种回归模型,其基于的原理是,一方面承认事物发展的延续性,运用过去时间序列的数据统计分析就能推测事物的发展趋势;另一方面又充分考虑到偶然因素影响而产生的随机性,为了消除随机波动的影响,利用历史数据,进行统计分析,并对数据进行适合的处理,进行趋势预测。
自回归模型是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型,它是时间序列中的一个常见形式。
AR模型利用前期数值与后期数值的相关关系(自相关),建立包含前期数值和后期数值的回归方程,达到预测的目的,因此成为自回归过程。比较自回归过程和MA移动平均过程可知,移动平均过程其实可以作为自回归过程的补充,解决自回归方差中白噪声的求解问题,两者的组合就成为自回归移动平均过程,称为ARMA模型。
从回归方程可知,自回归移动平均模型综合了AR和MA两个模型的优势,在ARMA模型中,自回归过程负责量化当前数据与前期数据之间的关系,移动平均过程负责解决随机变动项的求解问题,因此,该模型更为有效和常用。
介绍时间序列平稳性时提到过,AR/MA/ARMA模型适用于平稳时间序列的分析,当时间序列存在上升或下降趋势时,这些模型的分析效果就大打折扣了,这时差分自回归移动平均模型也就应运而生。ARIMA模型能够用于齐次非平稳时间序列的分析,这里的齐次指的是原本不平稳的时间序列经过d次差分后成为平稳时间序列。
在现实生活中,存在很多非平稳的时间序列,它们的均值和方差是随着时间的变化而变化的,幸运的是,统计学家们发现,很多时间序列本身虽然不平稳,但是经过差分(相邻时间点的指标数值相减)之后,形成的新时间序列就变成平稳时间序列了。因此,差分自回归移动平均模型写成ARIMA(p,d,q)。p代表自回归阶数;d代表差分次数;q代表移动平均阶数。在spss软件中,有时输出的ARIMA模型包括6个参数:ARIMA(p,d,q)(P,D,Q),这是因为如果时间序列中包含季节变动成分的话,需要首先将季节变动分解出来,然后再分别分析移除季节变动后的时间序列和季节变动本身。这里小写的p,d,q描述的是移除季节变动成分后的时间序列;大写的P,D,Q描述的是季节变动成分。两个部分是相乘的关系。因此,ARIMA(p,d,q)(P,D,Q)也被称为复合季节模型。
累积距平是一种用于检验计量器的精度、稳定性和可靠性的方法。该方法通过分别记录被测计量器测量的结果和标准测量结果之间的差值,并将其累积起来,从而计算出平均差值和标准偏差。这种方法的优点在于可以消除系统漂移和运动误差的影响,从而提供更准确的结果。
在进行累积距平法检测之前,需要先确定所选的参考标准测量器是否符合要求。标准测量器应具有高精度、稳定性和可靠性,并经过校准。在检测过程中,被测计量器应准确地连接到标准测量器,并按指定的测量标准进行测量。同时还需保持测量环境稳定,并排除外力干扰。每次测量的差值将被累加起来,以得到平均差值和标准偏差。平均差值指的是所有测量结果与标准测量结果之间的差值的平均值,而标准偏差则表示这些...
利用距平法对洮河流域降水特性的分析
累积距平法是一种常用的数据分析方法,它通过计算数据点与平均值之间的差距,并累积这些差距值,来帮助我们判断数据的分布情况。通过绘制累积距平图,我们可以直观地了解数据的偏离程度。这可以帮助我们在实际应用中更好地理解和解释数据,从而做出更准确、可靠的决策。
累计偏差是指在一段时间内.数值或观测结果与预期值之间的累积差异或偏离程度。它可以用于分析和评估实际结果与理论模型、预测值或标准之间的差异。在统计学和数据分析领域,累计偏差通常用于衡量实际观测值与预期值之间的总体差异。它可以通过将每个观测值与预期值之间的差异相加来计算得出。
累计偏差可以在不同应用场景中起到重要作用。例如,在财务分析中,它可以用于评估公司的实际销售额与预期销售额之间的差距。在生产过程控制中,累计偏差可以用来监测产品质量是否符合规范要求。
通过计算累计偏差,我们可以获得对实际结果与预期值之间偏离程度的整体了解。这有助于识别系统中的潜在问题、改进预测模型或调整决策以提高结果的准确性和一致性。
线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!这种算法最常用的技术是最小二乘法(Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。
比如预测明年的房价涨幅、下一季度新产品的销量等等。听起来并不难,不过线性回归算法的难点并不在于得出预测值,而在于如何更精确。
5. 逻辑回归---逻辑回归是线性分类器(线性模型)—— 主要用于二分类问题
逻辑回归(Logistic regression)与线性回归类似,但逻辑回归的结果只能有两个的值。如果说线性回归是在预测一个开放的数值,那逻辑回归更像是做一道是或不是的判断题。逻辑函数中Y值的范围从0到1,是一个概率值。逻辑函数通常呈S 型,曲线把图表分成两块区域,因此适合用于分类任务。逻辑回归经常被电商或者外卖平台用来预测用户对品类的购买偏好。
【机器学习】逻辑回归(非常详细) - 知乎
比如上面的逻辑回归曲线图,显示了通过考试的概率与学习时间的关系,可以用来预测是否可以通过考试。
逻辑回归的核心思想是使用sigmoid函数将线性回归的输出转化为概率值,然后根据阈值将概率值转化为类别标签。
逻辑回归的应用场景:
广告点击率
是否为垃圾邮件
是否患病金融诈骗虚假账号
看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。
逻辑回归模型的应用场景
BML Codelab基于JupyterLab 全新架构升级,支持亮暗主题切换和丰富的AI工具,详见使用说明文档。
1.用于疾病分类与预测。广泛用于预测受伤患者的死亡率,使用逻辑回归基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。
2.逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。
3.在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。
此外,逻辑回归模型现在同样是很多分类算法的基础组件,比如 分类任务中基于GBDT算法+LR逻辑回归实现的信用卡交易反欺诈,CTR(点击通过率)预估等,其好处在于输出值自然地落在0到1之间,并且有概率意义。模型清晰,有对应的概率学理论基础。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。但同时由于其本质上是一个线性的分类器,所以不能应对较为复杂的数据情况。很多时候我们也会拿逻辑回归模型去做一些任务尝试的基线(基础水平)。
逻辑回归模型的优缺点:
而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。
优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低; 缺点:容易欠拟合,分类精度可能不高
如果说线性和逻辑回归都是把任务在一个回合内结束,那么决策树(Decision Trees)就是一个多步走的动作,它同样用于回归和分类任务中,不过场景通常更复杂且具体。举个简单例子,老师面对一个班级的学生,哪些是好学生?如果简单判断考试90分就算好学生好像太粗暴了,不能唯分数论。那面对成绩不到90分的学生,我们可以从作业、出勤、提问等几个方面分开讨论。
7.K-均值
K-均值(K-means)是通过对数据集进行分类来聚类的。例如,这个算法可用于根据购买历史将用户分组。它在数据集中找到K个聚类。K-均值用于无监督学习,因此,我们只需使用训练数据X,以及我们想要识别的聚类数量K。
该算法根据每个数据点的特征,将每个数据点迭代地分配给K个组中的一个组。它为每个K-聚类(称为质心)选择 K 个点。基于相似度,将新的数据点添加到具有最近质心的聚类中。这个过程一直持续到质心停止变化为止。
生活中,K-均值在欺诈检测中扮演了重要角色,在汽车、医疗保险和保险欺诈检测领域中广泛应用。
大数据包含了大量的环境监测数据,包括传感器数据、卫星遥感数据、气象数据等。AI可以通过对大数据的挖掘和分析,发现隐藏在数据中的规律和趋势。例如,AI可以通过分析历史环境数据和相关因素的关联性,建立预测模型,预测环境污染事件的发生概率和严重程度。这有助于相关部门提前做好应对准备,采取相应的措施降低环境污染的影响。
机器学习算法在环境污染实时监测预警中扮演着重要角色。通过对历史监测数据的学习和训练,机器学习算法可以建立环境污染模型,并根据实时数据进行预测和预警。例如,利用监测数据和机器学习算法,可以建立空气质量预测模型,预测未来几小时或几天内空气质量的变化趋势。这样的预警系统可以提供准确的预测结果,帮助公众提前做好健康防护和应对措施。
AI技术的优势之一是其能够从大量数据中提取规律和趋势。 通过对历史监测数据的学习和训练, AI系统可以深入分析环境因素与污染物之间的关系,并预测环境变化的趋势。这样,我们就能更好地了解环境状况,并及时采取必要措施来应对潜在的问题。
偏自相关是在控制其他滞后项的影响下,衡量-一个时间序列与其滞后版本之间的相关性。偏自相关函数(Partial AutocorrelationFunction,PACF)用于测量偏自相关。PACF的计算通常基于递归方法,如Yule-Walker方程。
相关分析用于分析两个事物之间的关系情况,在现实分析中,相关分析往往有第三变量的影响或作用,而使得相关系数不能真实地体现其线性相关程度。比如,研究身高与肺活量之间的关系,身高与肺活量都同体重有关系,如果不考虑体重的影响,就会得到身高越高,肺活量越大,这显然是不准确的。
因此,当存在可能会影响两变量之间的相关性的因素时,就需要使用偏相关分析,以得到更加科学的结论。
在实际工作中,人们经常按月(或年、季度、小时等)记录资料,如每个月的出生人口数、死亡率、某种疾病的发病率、某产品的销售额等,这些资料可能符合某种季节性分布,但这些数字的大小往往受多种因素的影响,从原始数据中很难看出季节趋势。
2.2利用机器学习进行时间序列预测的方法
-支持向量回归(SVR) :基于支持向量机(SVM)的回归算法, 通过寻找支持向量使得回归误差最小化来进行预测。
-随机森林回归(RF) :利用随机森林的决策树集合进行回归分析,通过集成多个决策树的结果来进行预测。
-神经网络(NN) :通过建立多层神经网络模型,利用前馈和反向传播的算法进行时间序列的预测。
-长短期记忆网络(LSTM) : -种基于循环神经网络的深度学习模型,适合处理长期依赖关系的时间序列预测。
三、机器学习在实际时间序列分析中的应用案例
3.1经济领域中的时间序列分析和预测
-股票市场预测:利用机器学习方法对股票市场中的时间序列数据进行分析和预测,帮助投资者做出决策。
-经济增长预测:通过对宏观经济指标的时间序列数据进行预测,为政府和企业提供可靠的经济发展趋势预测。
3.2环境领域中的时间序列分析和预测
-气候变化预测:基于历史气象数据,利用机器学习方法预测未来的气候变化情况,为农业、城市规划等提供决策支持。
空气质量预测:通过对空气质量指标的时间序列数据进行分析和预测,提前采取相应的防护措施以保护大众健康。
根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型,分析其随时间的变化趋势,对预测目标进行外推的定量预测方法。
时间序列预测方法常用在国民经济宏观控制,企业经营管理,市场潜量预测,气象预报等方面。
主要介绍:移动平均、指数平滑。
2.1.1.1.移动平均
根据时间序列资料逐项推移,依次计算包含一定项数的序时平均值,以反映长期变化趋势。适用于短期预测。
移动平均法能有效地消除预测中的随机波动。
不足:
(1) 不能很好地反映出未来趋势;
(2)需要大量的过去数据的记录。
2.1.1.2.指数平滑
用过去数据的加权平均数作为预测值,即第t+1期的预测值等于第t期的实际观察值与第t期预测值的加权平均值。(指数平滑法是加权平均的--种特殊的形式,观察值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑)
优点:
(1)只需一个最近时期观测值的权数,其他时期数据的权数可自动推算;适用于短期预测。
(2)需要数据量较少,只需前一期的实际观测值及前一期的预测值。
人工智能的概念始于1956年的达特茅斯会议,由于受到数据、计算力、智能算法等多方面因素的影响,人工智能技术和应用发展经历了多次高潮和低谷。2006年以来,以深度学习为代表的机器学习算法在机器视觉和语音识别等领域取得了极大的成功,识别准确性大幅提升,使人工智能再次受到学术界和产业界的广泛关注。数据、计算力和算法被认为是人工智能发展的三大核心要素,数据是基础,算法是核心,计算力是支撑。因此,要衡量一个大数据分析平台的核心能力,最为关键的一定是其所具备的算法能力。
机器学习平台的核心算法体系,平台内嵌130余种数据分析方法,涉及数据预处理、回归、分类、聚类、关联、时间序列、综合评价、文本分析、推荐、统计图表十大类别。