当前位置：首页 > 编程日记 > 正文

25年了，我总结出这些信息提取的经验教训

编程日记 2024-12-09 11:20:00

作者 | Ehud Reiter

译者 | 夕颜

出品 | AI科技大本营（ID:rgznai100）

【导读】近日，本文作者阿伯丁大学计算科学系教授 Ehud Reiter 及其带领的阅读小组读了一篇让他们印象深刻的论文——由 Ralph Grishman 发表的《信息提取 25 年》（25 Years of Information Extraction）。在这篇论文中，格里什曼（比本文作者更长寿，1973 年获得博士学位）总结了 1994 年至 2019 年之间 NLP 子领域信息提取（IE）研究发生的改变，即从自然语言文本中提取结构化信息，并列出了他认为非常有趣的一些观点，他建议大家读一下这篇论文，肯定会受益匪浅。

重大但不惊人的进展

Grishman 在第 686 页提到：

经过 25 年的发展，其性能（F 分数）仅在标准事件分类基准上从 60 多分提高到 70年多分。

换句话说，过去 25 年中 NLP 的所有一般性进展（机器学习、深度学习、语料库、计算能力的显著提高），加上 25 年以来许多非常聪明和敬业的研究人员对 IE 的专注研究，大大改善了 IE 的性能。但是，它们并没有因此我们在此期间在语音识别和机器翻译方面看到的“数量级”改进。

NLP 是一个广阔的领域，NLP 社区在过去 25 年中开发的一系列技术（包括深度学习 NLP）在NLP 的某些领域产生了巨大的影响，但在其他领域却没有这种影响。如果我们的目标是从整体上“破解” NLP，那我们需要继续探索新的想法，同时要摒弃最新的时髦想法（1994 年的流行语法，2019 年的深度学习）可以解决所有问题。

研究人员不喜欢复杂的评估

传统上，信息提取是根据精度、召回率和 F 值进行评估的。在第 685 页上，Grishman 描述了ACE 评估模型的命运，这是美国政府资助机构试图引入一种更实用的评估指标的尝试。但是除了向美国政府提交正式报告，研究人员一般拒绝使用 ACE。在学术论文中，他们坚持用召回、精度和 F 值。Grishman 猜测这是因为 ACE 很复杂，对研究人员来说不直观，也可能是因为“事件的原始值得分低于 15％，在报告里使用这么低的分值让参与者感到尴尬”。

这使我想起了美国政府资助机构（如 DARPA）为了让研究人员使用更复杂、更现实的评估方法的尝试。他们试图让综述研究人员使用金字塔评估（https://www.aclweb.org/anthology/N04-1019/）。这是一种复杂的评估方法，需要人工注释测得摘要内容的质量（而不仅是表面形式）。我喜欢金字塔，但综述社区却不喜欢，我想是因为这种方法在 2019 年很少有人使用，而简单的ROUGE 指标仍然很强大。资助者试图让机器翻译研究人员评估机器翻译系统，以承担将机器翻译文本后期编辑为可接受的翻译所需的工作量（例如，基于任务的外部度量）。我认为 TER 和HTER 仍然有人在用，但是 BLEU 的使用多得多。

简而言之，即使是诸如 DARPA 之类的资助机构，也难以促使学术研究人员采用诸如 ACE、金字塔和 HTER 之类的评估技术，这些评估技术虽然非常复杂，通常需要人工，但得出的结果却可以更好地预测实际效用。在 NLP 中，人们偏向于简单、容易、便宜的评估方法，这些评估不需要人工注释，例如 BLEU、ROUGE 和 F 值，即使这些评估方法不如其他方法有意义。

语料库与规则

我观察到的另一个现象，是在没有语料库的情况下对使用规则与机器学习构建的系统进行比较，因此语料库构建必须包含在机器学习方法中。

Grishman 在第 683 页表示：

人工准备图案需要相当高的技巧和洞察力，但可能会产生相对干净的（高精度）系统。带注释的语料库的准备可能不需要那么多的技能，但需要更长的时间。

简而言之，编写规则会更快，并让导致系统更完善，但是它要求能够编写规则的高技能人才获得访问权限。为机器学习创建语料库需要更多的时间，并且会导致系统 bug 频出，但是我们可以用技术相对不那么熟练的人工来做到这件事。

NLG 是另一个语料库非常稀缺的领域。我通常认为在这样的环境下创建语料库是很愚蠢的，因为知道自己在做什么的人（像我一样）可以编写必要的规则，而不能为机器学习注释足够大的语料库。但是 Grishman 是正确的，在许多情况下，熟练的 NLP 劳动力是一种稀缺资源，但是不熟练的注释器很便宜，且可以通过 Mechanical Turk 或（如果需要更高质量的话）向低薪国家外包商业注释服务，从而大量使用。

本文还有许多其他有趣的见解和观察，我建议大家自己看一下！

论文链接：

https://www.cambridge.org/core/journals/natural-language-engineering/article/twentyfive-years-of-information-extraction/0E5BB0D6AE906BB3C25037E2D74CA8F3

原文链接：

https://ehudreiter.com/2020/01/02/25-years-of-information-extraction/

（*本文为AI科技大本营翻译文章，转载请微信联系1092722531）

◆

精彩推荐

◆

2020年，由 CSDN 主办的「Python开发者日」活动（Python Day）正式启动。我们将与 PyCon 官方授权的 PyCon中国社区合作，联手顶尖企业、行业与技术专家，通过精彩的技术干货内容、有趣多元化的活动等诸多体验，共同为中国 IT 技术开发者搭建专业、开放的技术交流与成长的家园。未来，我们和中国万千开发者一起分享技术、践行技术，铸就中国原创技术力量。

【Python Day——北京站】现已正式启动，「新春早鸟票」火热开抢！2020年，我们还将在全国多个城市举办巡回活动，敬请期待！

活动咨询，可扫描下方二维码加入官方交流群~

CSDN「Python Day」咨询群 ????

来~一起聊聊Python

如果群满100人，无法自动进入，可添加会议小助手微信：婷婷，151 0101 4297（电话同微信）

推荐阅读

集五福，我用Python
2019中国Python开发者调查报告
AI 没让人类失业，搞 AI 的人先失业了
为什么 k8s 在阿里能成功？| 问底中国 IT 技术演进
好扑科技技术副总裁戎朋：从海豚浏览器技术负责人到区块链，揭秘区块链技术之路
你点的每个“在看”，我都认真当成了AI

https://www.dkcj.cn/info/31062.html

25年了，我总结出这些信息提取的经验教训

重大但不惊人的进展

研究人员不喜欢复杂的评估

语料库与规则

集五福，我用Python

2019中国Python开发者调查报告

AI 没让人类失业，搞 AI 的人先失业了

为什么 k8s 在阿里能成功？| 问底中国 IT 技术演进

好扑科技技术副总裁戎朋：从海豚浏览器技术负责人到区块链，揭秘区块链技术之路

相关文章：

朴素、Select、Poll和Epoll网络编程模型实现和分析——Poll模型

flashcom中远程共享对象SharedObject的用法

Hive-1.2.0学习笔记（一）安装配置

邮件安全隐患及其防范技术研究

必看！52篇深度强化学习收录论文汇总 | AAAI 2020

朴素、Select、Poll和Epoll网络编程模型实现和分析——Epoll模型

Scala 深入浅出实战经典第88讲：Scala中使用For表达式实现map、flatMap、filter

抛弃Python，我们为什么用Go编写机器学习架构？

朴素、Select、Poll和Epoll网络编程模型实现和分析——模型比较

使用VM虚拟机的一点小技巧

翻译：AKKA笔记 - Actor消息 -1（二）

远程安装oracle 10.2.1 for redhat 5.0 2.6.18-53.el5xen

伯克利新无监督强化学习方法：减少混沌所产生的突现行为

朴素、Select、Poll和Epoll网络编程模型实现和分析——Poll、Epoll模型处理长连接性能比较

Topcoder SRM 663 DIV 1

跨平台PHP调试器设计及使用方法——立项

机器推理文本+视觉，跨模态预训练新进展

[LeetCode]:94:Binary Tree Inorder Traversal

腾讯 AI 2019这一年

跨平台PHP调试器设计及使用方法——探索和设计

Ubuntu下允许Root用户直接登录图形界面

携程App for Apple Watch探索

跨平台PHP调试器设计及使用方法——通信

MVP模式的相关知识

“数学不行，还能干点啥？”面试官+CTO：干啥都费劲！

CentOS7 yum 源的配置与使用

跨平台PHP调试器设计及使用方法——协议解析

测试客户端发图图

搜狐、美团、小米都在用的Apache Doris有什么好？ | BDTC 2019

cacti邮件告警设置