推广 热搜: 对方  服务  软件  数据分析  关键词  好友  风口  数据分析系统  搜索  获取 

DTW算法挖掘亿万级时序数据,其优化能耐几何?

   日期:2024-11-07     作者:izped    caijiyuan   评论:0    移动:http://changmeillh.kub2b.com/news/142.html
核心提示:等长数据,比如:比较近10天两只开盘股票走势k线图不等长数据,比如:相同时间内不同抽样频率(Hz)的心电图、两段“麻烦请开门

等长数据,比如:比较近10天两只开盘股票走势k线图
不等长数据,比如:相同时间内不同抽样频率(Hz)的心电图、两段“麻烦请开门”的语音音频

DTW算法挖掘亿万级时序数据,其优化能耐几何?

因此,日本学者Itakura最早提出 Dynamic Time Warping(下文简称DTW,中文常翻译为“动态时间规整”)算法,它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法——在对齐两个序列的过程中通过定义的距离计算公式计算序列的相似度。其应用广泛,主要在于模版匹配,如孤立词语音识别、手势识别、DNA序列配对等。

这里,距离计算公式包括(但不限于)上文提到的欧式距离。

  • local constraint(在矩阵中表示为定义的“步”的方向都得朝向右上角,每一步都得离终点更近,否则会导致crossing line)
  • global constraint(不可跨越一定限度的数据点进行对齐,否则会导致对齐密度不均衡)
  • start&ending contraint(头尾数据点各自对齐)
  • weight(路径权重的设置,平衡业务偏好和local内的距离偏好)
  • distance(距离度量方式)
  • 允许在对齐过程中,有些点被跳过,没有被对齐——取决于定义的“步”。
    由于矩阵中路径上的每个点都能分解为一个“多点到达”的子问题结构,因此dtw就是通过动态规划法(dp,dynamic programming)进行求解的一个例子。

    在后面给出的DTW算法的python简单实现中,通过在循环中约束i和j的关系实现global constraint——通过简单画图可以了解。

    那简单介绍完DTW的原理之后便引入了这篇论文《KDD2012 Best Paper-"Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping”》[1]。

    上文提到,DTW在多个领域都有所应用。随着互联网的到来和数据量的爆发(很多生产环境数据量早已突破万亿级别,而学术界仍停留在百万、十亿级数据集的研究上),原始DTW的实现弊病暴露,场景的应用对算法的性能提出了更高的要求,而该论文的核心正是通过对其他论文的review,现有优化方式的review以及对提出的计算优化方案的review来告诉我们,优化后的DTW(论文称为UCR suite)仍然是最强最快的时序相似度计算方式。

    论文首先指出以下假设或事实:

  • 标准化(Z-normalization)非常重要,不仅需要在整个数据集上做,在计算两序列相似度之前,还需要在两个序列上单独做。
  • 在巨量数据集数据库中检索变长序列,理论上可行,但实际上不可行。
  • 计算过程中欧式距离使用平方代替平方根,直到获得最小距离(的平方)时再开方获得最终结果。
  • 使用lower bound技术,伪代码思想如下:
  • 
    	

    lower bound具体计算方法有多种,如稳重提到的LB_kim,LB_keogh。

  • 在计算欧式距离或lower bound时采用早停技术。
  • 因为计算DTW真实距离(最优路径)时采用 DTW(Q1:K,C1:K) + LB_Keogh(QK+1:n,CK+1:n)作为实时的距离(为真实距离的lower bound,K为任一中间数据点序号),在此采用早停技术。
  • 使用多核机器并行计算(众所周知)。
  • 标准化比计算欧几里得距离的耗时还要长一些,因此考虑在标准化过程中结合计算欧式距离或lower bound,引入早停技术。
  • 对时序进行重排序
  • We conjecture that the universal optimal ordering is to sort the indices based on the absolute values of the Z-normalized Q.
    For this we simply take each Ci and sort them, largest first, by their sum of their contributions to the Euclidean distance.
    We compared this empirically optimal ordering with our predicted ordering (sorting the indices on the absolute values of Q) and found the rank correlation is 0.999.

  • 对备查序列建立包络,而不是查询序列。
  • 将多种lower bound计算方式串联。
    • 因为lower bound技术实证有助于加速搜索过程,因此在研究界对此的研究很繁荣。每一种的紧度(tightness)和计算速度都不尽相同。下图为证:[图片上传失败...(image-6d35f9-1571736906097)]
  • 本文地址:http://sicmodule.kub2b.com/news/142.html    企库往 http://sicmodule.kub2b.com/ , 查看更多
     
    标签: 能耐 算法
     
    更多>同类最新资讯
    0相关评论

    新闻列表
    企业新闻
    推荐企业新闻
    推荐图文
    推荐最新资讯
    点击排行
    网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号