世界卫生组织针对全球健康问题发布了诸多新闻稿、声明、问答信息,但检索较为繁琐,且中英文比对困难。针对这一问题,新闻与传播学院许静教授团队开发了“全球健康传播双语平行语料库”,于2023年8月11日正式上线。
“全球健康传播双语平行语料库”来源于世界卫生组织官方网站所公开的信息,囊括世界范围内的卫生健康相关语料,从根本上保证了数据的权威性、科学性以及代表性。该语料库涵盖WHO官方定义的内容主题和文本类型,主要有包括COVID-19、埃博拉、癌症等50余个健康主题以及新闻稿、声明、在线问答等10种文体类型,主要涉及中文、英文两种语言。
全球健康传播双语平行语料库页面
在语料规模上,该语料库共收集中英文语料3202篇(数据截止到2023年5月),总字符数达3,956,595字,其中,中文字符数2,633,736,英文字符数1,322,859。
该语料库具备句对齐、关键词对齐、预定义资源分类、多条件组合全局检索、全文浏览一键直达等功能,将为健康传播和全球健康相关研究人员提供较大便利。
目前,“全球健康传播双语平行语料库”设置了检索区、提示区、结果区三大板块,使用者可在检索区通过输入关键词、指定语种、主题、类型后,点击检索按钮,在语料库内进行全局检索;在提示区点击右侧小箭头可展开提示信息,查看检索提示;在结果区可查看句对齐语料,同时可进行查看全文的操作。
全球健康传播双语平行语料库页面
本次“全球健康传播双语平行语料库”的建设依托于北京大学“教学新思路2.0”项目“‘全球健康传播’慕课及语料库建设”,以及国社科重大课题“人类卫生健康共同体研究与数据库建设”项目(21ZDA130)中“人类卫生健康共同体暨中国卫生外交语料库”的建设经验,得到了软件与微电子学院高志军老师团队的大力支持,现可免注册使用,欢迎大家提出宝贵意见和建议。