account_disabled
New Member
I have made 1 post
Right now I'm Offline
I joined March 2024
|
Post by account_disabled on Mar 4, 2024 4:50:43 GMT
NER,也称为实体分块或实体提取,是一种 NLP 技术,可扫描文本数据以识别和分类预定义的命名实体。该过程从原始数据中提取结构化数据(实体)。然后可以分析这些结构化数据以获得见解并应用于众多业务用例。 什么是命名实体? 命名实体是每个陈述或句子中的基本信息,例如: 名称 人们 组织机构 地点 产品 时间单位 日期 时代 数字 测量 距离 金钱/定价 数量 命名实体是 NER 模型灵活性的关键:因为它们可以是您选择的任何内容,所以您能够训练模型以提取特定用例所需的准确信息。
NER 是如何运作的? 考虑一下阅读时会发生什么:当您的眼睛 电子邮件数据 扫描单词时,您会自动识别任何命名实体。例如,当您阅读“ 2022 年 10 月 27 日,Wendy 离开梦幻岛并开始担任 Lost Boys Inc. 首席执行官的新职位”这句话时,您可能会认出以下命名实体: 日期:2022年6月27日 人物:温迪 地点:梦幻岛 职业:首席执行官 组织:迷失男孩公司 另一方面,机器使用二进制语言 (0, 1)。而0和1与人类语言的丰富性和深度相去甚远。由于机器语言和人类语言有很大不同,因此必须首先使用机器学习来训练NER模型。
这是使用包含您选择的命名实体类别的预定义数据集来完成的。例如,在上面的场景中,已经预定义了实体类别date、person、location、Career和Organization 。 那么NER是如何工作的呢?一旦经过训练,NER 模型就会使用两步过程来模仿人类的阅读方式。首先,模型识别命名实体,然后对该实体进行分类或归类。 一些 NER 系统使用词向量来提高速度和准确性。词向量将词表示为数字,但词向量不是简单地为每个词分配一个数字,而是在多个维度上生成十进制格式的数字表示,例如在各种上下文中出现的频率。结果?
|
|