业界动态
DTW算法挖掘亿万级时序数据,其优化能耐几何?
2024-11-07 12:44

等长数据,比如:比较近10天两只开盘股票走势k线图
不等长数据,比如:相同时间内不同抽样频率(Hz)的心电图、两段“麻烦请开门”的语音音频

DTW算法挖掘亿万级时序数据,其优化能耐几何?

因此,日本学者Itakura最早提出 Dynamic Time Warping(下文简称DTW,中文常翻译为“动态时间规整”)算法,它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法——在对齐两个序列的过程中通过定义的距离计算公式计算序列的相似度。其应用广泛,主要在于模版匹配,如孤立词语音识别、手势识别、DNA序列配对等。

这里,距离计算公式包括(但不限于)上文提到的欧式距离。

  • local constraint(在矩阵中表示为定义的“步”的方向都得朝向右上角,每一步都得离终点更近,否则会导致crossing line)
  • global constraint(不可跨越一定限度的数据点进行对齐,否则会导致对齐密度不均衡)
  • start&ending contraint(头尾数据点各自对齐)
  • weight(路径权重的设置,平衡业务偏好和local内的距离偏好)
  • distance(距离度量方式)
  • 允许在对齐过程中,有些点被跳过,没有被对齐——取决于定义的“步”。
    由于矩阵中路径上的每个点都能分解为一个“多点到达”的子问题结构,因此dtw就是通过动态规划法(dp,dynamic programming)进行求解的一个例子。

    在后面给出的DTW算法的python简单实现中,通过在循环中约束i和j的关系实现global constraint——通过简单画图可以了解。

    那简单介绍完DTW的原理之后便引入了这篇论文《KDD2012 Best Paper-"Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping”》[1]。

    上文提到,DTW在多个领域都有所应用。随着互联网的到来和数据量的爆发(很多生产环境数据量早已突破万亿级别,而学术界仍停留在百万、十亿级数据集的研究上),原始DTW的实现弊病暴露,场景的应用对算法的性能提出了更高的要求,而该论文的核心正是通过对其他论文的review,现有优化方式的review以及对提出的计算优化方案的review来告诉我们,优化后的DTW(论文称为UCR suite)仍然是最强最快的时序相似度计算方式。

    论文首先指出以下假设或事实:

  • 标准化(Z-normalization)非常重要,不仅需要在整个数据集上做,在计算两序列相似度之前,还需要在两个序列上单独做。
  • 在巨量数据集数据库中检索变长序列,理论上可行,但实际上不可行。
  • 计算过程中欧式距离使用平方代替平方根,直到获得最小距离(的平方)时再开方获得最终结果。
  • 使用lower bound技术,伪代码思想如下:
  • 
    	

    lower bound具体计算方法有多种,如稳重提到的LB_kim,LB_keogh。

  • 在计算欧式距离或lower bound时采用早停技术。
  • 因为计算DTW真实距离(最优路径)时采用 DTW(Q1:K,C1:K) + LB_Keogh(QK+1:n,CK+1:n)作为实时的距离(为真实距离的lower bound,K为任一中间数据点序号),在此采用早停技术。
  • 使用多核机器并行计算(众所周知)。
  • 标准化比计算欧几里得距离的耗时还要长一些,因此考虑在标准化过程中结合计算欧式距离或lower bound,引入早停技术。
  • 对时序进行重排序
  • We conjecture that the universal optimal ordering is to sort the indices based on the absolute values of the Z-normalized Q.
    For this we simply take each Ci and sort them, largest first, by their sum of their contributions to the Euclidean distance.
    We compared this empirically optimal ordering with our predicted ordering (sorting the indices on the absolute values of Q) and found the rank correlation is 0.999.

  • 对备查序列建立包络,而不是查询序列。
  • 将多种lower bound计算方式串联。
  • 最新文章
    盘点2024西安荣耀时刻!“西”引力爆表!
    从传统文化的深厚积淀到旅游行业的蓬勃发展从非遗艺术的薪火相传到现代潮流的创新融合……今天,和文旅君一起回顾2024年古都西安
    惠山街道2024年工作总结和2025年工作思路
    2024年工作回顾2024年惠山街道始终坚持以习近平新时代中国特色社会主义思想为指导,认真落实区委、区政府决策部署,坚持稳中求进
    天气|明日“小寒”!最冷“三九”就要来!
    今日天气实况今日迎来2025年的首个双休日天气状况还不错天空晴朗,阳光温暖,风力微弱15时全市各区气温在7℃左右明天迎来小寒节
    枝江市2025年“十大民生项目”公布!
    枝江市第七届人民代表大会第五次会议于2025年1月10日票决产生了枝江市2025年度重大民生实事项目一起来看看↓↓↓一、枝江市枫杨
    原来是这样 | 又上热搜!最近很火的“煮苹果水”,到底怎么喝更有用?
    鄠邑区是中国科协命名的“全国科普示范区”,为进一步弘扬科学精神、普及科学知识、传播科学思想,鄠邑区科学技术协会联合鄠邑区
    惊掉下巴!他俩在一起了???
    新发色迎新年 2025鸿运当头拉满仪式感从头开始换个气场NOUGAT ,欧美名媛凯特王妃最爱的纯有机老牌洗护自然原生植萃护不伤头皮、
    第一批鸡娃英语的妈妈,都后悔了……
    虽然科大大同事们都说不卷,但又悄咪咪卷(啪啪打脸中…)的家长,2年级用上倾听者不算晚!说真的,有了它,吼孩子都少了!产品
    发改委:推进户用光伏发展,助力农民拓宽增收新路径
    中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
    泉州百度爱采购运营介绍
    百度爱采购入驻条件有哪些:商家需持有工商行政管理局颁发的营业执照,并且执照在6个月有效期内;厂家商品真实在营且符合国家相
    抖音feed是什么 feed广告投放流程
    feed是什么?feed流(又称信息流)它是穿插在App内容中的广告,具有原生沉浸式体验,支持多种展现形式。feed可以进行线索收集,