神经语言编程 (NLP) 中有多种关键词方法。每种方法都会产生不同的结果。根据我们与 Utopia GmbH 的客户项目的反馈,我们结合了两种方法生成的关键词:TF-IDF 分析技术和 Aleph-Alpha 模型。介绍了所使用的技术,最后介绍了实验结果。
方法 1:Spacy 和 scikit-learn 库
第一种方法是使用 TF-IDF(词频 - 逆文档频率)分析技术来 贝宁 whatsapp 数据 评估输入文本中名词短语的重要性。首先,我们根据输入文本的语言从 Spacy 库加载模型,因为它可以用德语或英语编写。然后根据输入文本创建一个新文档。使用文档的 noun_chunks 属性,我们识别文本中的名词短语。这些名词短语被插入到 Scikit-Learn 库的 TfidfVectorizer 函数中以评估其重要性。最后,我们根据评级提取“top_n”最重要的名词。
方法2:使用Aleph Alpha Luminous(大语言模型)
LLM 是经过大量文本数据训练的模型,用于理解和生成类似人类的文本。因此,它们可用于各种 NLP 任务 - 包括文本摘要、问题回答或文本完成。然而,它们并不是专门为关键词提取任务而设计的,关键词提取任务涉及识别和提取重要的单词或短语。然而,由于法学硕士具有理解人类文本的多功能能力,因此可以间接使用法学硕士从文本上下文中推断关键字。这可以避免输出无信息或敏感的关键字。此外,使用法学硕士可以降低计算成本和运行时间,因为不必像传统方法那样准备大量文本即可获得最佳结果。然而,法学硕士可能需要进行一些微调才能实现最佳结果。
我们使用 Aleph Alpha 的“发光扩展控制”模型。为了获得最合理的结果,我们对模型进行了一些微调。我们知道,通过对插入法学硕士的提示进行小幅调整,可能会产生不同的输出。因此,我们首先尝试用不同的提示来测试所选模型。使用的一些提示往往会生成有意义但太长的关键字。为了解决这个通过改变提示无法解决的新问题,我们尝试调整一些超参数。最终,通过使用适当的提示并调整超参数值,我们获得了最合适的模型,能够生成满足客户需求的有意义的关键字。下面是该方法的配置(第一张图)和优化后的提示(第二张图)。
用实验报告摘录标记 Aleph Alpha Luminous
-
- Posts: 488
- Joined: Sat Dec 21, 2024 5:25 am