发表于2024年1月23日
本文介绍了一个多语言的COVID-19疫苗错误信息数据集,包括来自三个中等收入国家(巴西、印度尼西亚和尼日利亚)的带注释的推文。专家策划的数据集包括5952条推文的注释,评估它们与COVID-19疫苗的相关性、错误信息的存在以及错误信息的主题。为了解决领域特异性、低资源设置和数据不平衡带来的挑战,我们采用了两种方法来开发COVID-19疫苗错误信息检测模型:领域特异性预训练和使用大型语言模型的文本增强。我们最好的错误信息检测模型显示,与基线模型相比,宏观f1得分提高了2.7到15.9个百分点。此外,我们将我们的错误信息检测模型应用于2020年至2022年期间来自三个国家的1900万条未标记推文的大规模澳门威尼斯人注册网站研究中,展示了我们的数据集和模型在多个国家和语言中检测和分析疫苗错误信息的实际应用。我们的分析表明,在巴西和印度尼西亚,新发COVID-19病例数的百分比变化与COVID-19疫苗错误信息率呈交错正相关,并且这三个国家的错误信息率之间存在显著的正相关。
合作者:
Derry Wijaya(计算机科学),Veronika Wirtz (SPH)
出版物:2023年自然语言处理经验方法会议论文集