推广 热搜: page  数据  小红  红书  考试  论文  数据分析  关键词  哪些  搜索 

Praat脚本-023 | 谈谈自动标注这点儿事(1)

   日期:2025-01-03     移动:https://sicmodule.kub2b.com/mobile/quote/18284.html

使用进行语音标注,这是使用者最基础的功能。在较原始的语音生产阶段,我们开始用标音,打开一个句子,一个时间点一个时间点的加蓝条条,还要调整,还要听,好不容易标完了一层,没想到你的方案决策者或许还会让你标几层,十多层。。。?希望看到此处的你没有在眼科挂号。

第一,傻乎乎的自动标注
第二,使用脚本的自动标注
第三,使用诸如SPPAS的自动标注
第四,较为专业的自动标注。

本篇从第一层次讲起,希望挖了这个坑,以后慢慢填完四个部分。

这里的“傻乎乎”不是意味着在评价个人能力。其实这不算是自动标注,只是叫自动加了标注条而已。如果你对技术操作,软件,脚本,都比较陌生,但,自己急着需要一种快速的方法,帮助自己完成标注,怎么办?怎么办?还有一种情况是做了少量的偏僻方言,或者稀缺语种的不太多的数据,这时候用后面高级的自动标注反而没办法用得上。

假定我们这里有一些音频,本例中用两个例子代替

 

首先我们要明确这两个音频的内容,这里第一句话是“卡尔普陪外孙玩滑梯”,第二句话,我们为了更好的表达,用的是“卡尔普”这个词,下面做发音字典要说明为什么。那么我们要建立两个文本文件,写出这两句话的文本。
000001.txt

 

000002.txt

 

解释一下,首先文本是用空格隔开的,这纯粹是为了方便Praat来分隔每一个字的内容,好添加到层级上。其次,第一行加了一个“sent”,也是为了方便Praat读取。这些操作用Python等编程语言是不需要这么复杂的,这是后话,如果有喜欢这篇文章,想对自己语料更方便的操作的,比如可以通过程序更方便的生成这个格式,可后续留言或者入群,小编将会继续方便大家使用。

假如有一些音频,按照上面的格式,把句子内容都保存为一个文本,我们称这些文件为label,这个操作无论用上述哪种方案都是需要的。包括下面要提到的做一个发音词典,当然对汉语来说,这个可以叫发音字典。而如果你的语料是英语类似的语言,它是有明显空格隔开的,那更是可以使用这个脚本操作。

下面,我们要准备一个发音词典,这个发音字典包括你音频里面所有的词条,或者字,它们的发音音素,注意要空格隔开,这也是为了读取出来增加到一个专门的层级上

wordphons卡k a2尔er2普p u3陪p ei2外w ai4孙s un1玩w an2滑h ua2梯t i1

实际操作中大家在Excel中制作好,拷贝到文本文件中保存就好了,第一行是表头,第一列和第二列之间用Tab隔开,这个也是为了方便Praat读取。
dict.txt

 

解释一下,我们没有专门为第2句话制作字典,因为第二句话的三个字,都出现在第一句话里了,这个地方就为了说明你的字典,只要包括你的音频目录出现的所有内容就可以了。同理,制作英语这样语言的发音字典,也是把词和音素或者叫音标,保存起来就好。

其实这里的主要操作,是根据这句话有几个字,或者几个词,平均分隔时长,增加上边界条,以及字/词的内容,同样,根据字/词的发音,再把音素也平均分开,增加到上面。所以这里只是增加了边界条,实际的边界是需要你去调整的。

本文的代码下载地址见下文(获取脚本部分)是。脚本里有我的邮箱,有任何问题都可以来信咨询。

说明:近期,貌似遇到了github如果不科学上网无法访问的情况,笔者也发现这个问题,后期有时间会将代码同步在一个国内容易访问的代码管理空间,目前还没有想好,请大家谅解哈,有兴趣可以加文末的QQ群,在群里私信发,会直接发给大家代码。

关于对本站脚本的使用咨询,以及功能修改,增加等,都可以扫QQ咨询群,私信群主。

1、版权归本公众号“极地语音工作室”,原名“语音处理小站”所有

2、未经本站或者作者允许, 不得任意转载本文内容,否则将视为侵权

3、转载或者引用本文内容请注明来源及原作者

本文地址:https://sicmodule.kub2b.com/quote/18284.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号