业界动态
DTW算法挖掘亿万级时序数据,其优化能耐几何?
2024-11-07 12:44

等长数据,比如:比较近10天两只开盘股票走势k线图
不等长数据,比如:相同时间内不同抽样频率(Hz)的心电图、两段“麻烦请开门”的语音音频

DTW算法挖掘亿万级时序数据,其优化能耐几何?

因此,日本学者Itakura最早提出 Dynamic Time Warping(下文简称DTW,中文常翻译为“动态时间规整”)算法,它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法——在对齐两个序列的过程中通过定义的距离计算公式计算序列的相似度。其应用广泛,主要在于模版匹配,如孤立词语音识别、手势识别、DNA序列配对等。

这里,距离计算公式包括(但不限于)上文提到的欧式距离。

  • local constraint(在矩阵中表示为定义的“步”的方向都得朝向右上角,每一步都得离终点更近,否则会导致crossing line)
  • global constraint(不可跨越一定限度的数据点进行对齐,否则会导致对齐密度不均衡)
  • start&ending contraint(头尾数据点各自对齐)
  • weight(路径权重的设置,平衡业务偏好和local内的距离偏好)
  • distance(距离度量方式)
  • 允许在对齐过程中,有些点被跳过,没有被对齐——取决于定义的“步”。
    由于矩阵中路径上的每个点都能分解为一个“多点到达”的子问题结构,因此dtw就是通过动态规划法(dp,dynamic programming)进行求解的一个例子。

    在后面给出的DTW算法的python简单实现中,通过在循环中约束i和j的关系实现global constraint——通过简单画图可以了解。

    那简单介绍完DTW的原理之后便引入了这篇论文《KDD2012 Best Paper-"Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping”》[1]。

    上文提到,DTW在多个领域都有所应用。随着互联网的到来和数据量的爆发(很多生产环境数据量早已突破万亿级别,而学术界仍停留在百万、十亿级数据集的研究上),原始DTW的实现弊病暴露,场景的应用对算法的性能提出了更高的要求,而该论文的核心正是通过对其他论文的review,现有优化方式的review以及对提出的计算优化方案的review来告诉我们,优化后的DTW(论文称为UCR suite)仍然是最强最快的时序相似度计算方式。

    论文首先指出以下假设或事实:

  • 标准化(Z-normalization)非常重要,不仅需要在整个数据集上做,在计算两序列相似度之前,还需要在两个序列上单独做。
  • 在巨量数据集数据库中检索变长序列,理论上可行,但实际上不可行。
  • 计算过程中欧式距离使用平方代替平方根,直到获得最小距离(的平方)时再开方获得最终结果。
  • 使用lower bound技术,伪代码思想如下:
  • 
    	

    lower bound具体计算方法有多种,如稳重提到的LB_kim,LB_keogh。

  • 在计算欧式距离或lower bound时采用早停技术。
  • 因为计算DTW真实距离(最优路径)时采用 DTW(Q1:K,C1:K) + LB_Keogh(QK+1:n,CK+1:n)作为实时的距离(为真实距离的lower bound,K为任一中间数据点序号),在此采用早停技术。
  • 使用多核机器并行计算(众所周知)。
  • 标准化比计算欧几里得距离的耗时还要长一些,因此考虑在标准化过程中结合计算欧式距离或lower bound,引入早停技术。
  • 对时序进行重排序
  • We conjecture that the universal optimal ordering is to sort the indices based on the absolute values of the Z-normalized Q.
    For this we simply take each Ci and sort them, largest first, by their sum of their contributions to the Euclidean distance.
    We compared this empirically optimal ordering with our predicted ordering (sorting the indices on the absolute values of Q) and found the rank correlation is 0.999.

  • 对备查序列建立包络,而不是查询序列。
  • 将多种lower bound计算方式串联。
  • 最新文章
    手机单扬声器和双扬声器有什么区别?原来差别这么大手机扬声器「手机单扬声器和双扬声器有什么区别?原来差别这么大」
    随着手机的普及和发展,音频体验成为消费者选择手机的重要因素之一。而在手机音频方面,单扬声器和双扬声器是常见的设计方案。那
    手机维修知识大全维修手机「手机维修知识大全」
    修理手机维修知识大全手机是高科技精密电子产品。工作原理、制造工艺、软件和硬件、测试、技术标准在所有的电器设备中是最复杂的
    2k分辨率手机有哪些(2k分辨率的手机哪款性价比最高)
      关于《2K分辨率手机有哪些》的文章  随着科技的不断发展,手机已经成为了我们日常生活中不可或缺的一部分。而在手机的各种
    红手指云手机苹果版(红雀浏览器) v1.0.23 iPhone版红手指云手机「红手指云手机苹果版(红雀浏览器) v1.0.23 iPhone版」
    红手指手游专用虚拟手机是一款非常实用的手机挂机软件,在这里玩家随时随地离线挂机、自动帮助你闯关升级,非常强大的游戏挂机神
    1手机2(一加11手机)
      《手机2》:探索科技与生活的无限可能  在当今数字化时代,智能手机无疑是我们生活中不可或缺的一部分。随着科技的飞速发
    手机NFC是什么?怎么使用?手机nfc「手机NFC是什么?怎么使用?」
    但很多人不知道的是,除了这三种无线通信技术外,很多智能手机里还有一种无线通信技术,那就是NFC。2004年,飞利浦半导体,诺基
    360手机 官网(360手机官网入口)
      探索《360手机官网》:一站式手机技术与服务的平台  在当今数字化时代,手机已经成为我们日常生活中不可或缺的一部分。而
    关于手机电池的冷知识:机身温度过高,会永久降低手机电池容量手机电量「关于手机电池的冷知识:机身温度过高,会永久降低手机电池容量」
    相信大家在日常使用手机时,最关注的就是我们手机的电量还剩多少,尤其是现在我们一般出门都不带现金,直接通过手机进行支付,所
    260手机助手(360手机助手官方版下载)
      《260手机助手》:一站式手机管理和服务的新选择  随着智能手机的普及,我们的生活越来越离不开手机。为了更好地管理和优
    小米发布迄今最强被动散热系统,两倍于VC散热,原神满帧运行手机散热「小米发布迄今最强被动散热系统,两倍于VC散热,原神满帧运行」
    你的手机“烫”吗? 玩局游戏,瞬间化身暖手宝?拍拍视频就过热,需要“冷静”一下才能继续使用!充电是很快,温度升的也很快…