乐清建设公司网站,产品网络推广方案,常州seo外包,朝阳区办公文章目录abstractIntroduction2. 相关工作3.房地产结构预测3.1问题形式化3.2 结构预测模型3.2.1 序列标注问题3.2.2 part-of tree constructLocally trained model (Threshold/Edmonds)Globally trained model (MTT)Transition-based dependency parsing (TB)4.实验5.pipeline总…
文章目录abstractIntroduction2. 相关工作3.房地产结构预测3.1问题形式化3.2 结构预测模型3.2.1 序列标注问题3.2.2 part-of tree constructLocally trained model (Threshold/Edmonds)Globally trained model (MTT)Transition-based dependency parsing (TB)4.实验5.pipeline总结本文从广告重构房屋:房地产分类广告的结构化预测abstract
在本文中我们(尽我们所知)解决了从分类中的自然语言描述中提取房地产的结构化描述的新问题。我们调查并提出了几个模型(a)从分类栏中识别属性的重要实体(例如房间)并(b)将它们构造成树格式实体作为节点和边表示关系的一部分。实验表明基于图的系统从最初完全连接的实体图中派生出树其性能优于仅从实体节点开始的基于转换的系统因为它可以更好地重构树。
Introduction 在房地产领域用户生成的免费文本描述形成了一个非常有用的但非结构化的房地产表示。然而人们越来越需要从大量这样的描述中找到有用的(结构化的)信息公司需要提出最适合客户需求的销售/租赁方案同时限制人们的阅读努力。例如自然语言中的房地产描述可能不直接适合潜在买家希望应用的特定搜索过滤器。另一方面,代表房产分层数据结构使专业过滤(例如,基于卧室的数量,数量的地板,或要求的浴室卫生间在一楼),也有望受益等相关应用程序自动价格预测(速度et al ., 2000;Nagaraja等2011)。 非结构化-》结构化 我们的主要目标是定义新的房地产结构提取问题并结合最先进的方法探索其解决方案从而通过获得性能结果来确定其难度以供将来参考。更具体地说我们提供:(i)房地产提取问题的定义根据其自然语言描述将其归结为属性(属性树)的树状结构化表示;(二)采用结构化学习方法解决新定义的问题;和(3)实验评估系统在新创建的注释真实数据集。(2)部分,我们将问题分解成更简单的组件,使用(1)条件随机域(crf)房地产实体识别(实体层,房间,在房间子空间,等等),(2)non-projective依赖解析预测局部这些实体之间的关系(比较本地和全球基于和跃迁过程算法),(3)解码所需属性树的最大生成树算法。 实体关系抽取 实体抽取层、房间。。。关系抽取)non-projective依赖解析预测局部比较本地和全局基于和跃迁过程算法 (3)解码所需属性树的最大生成树算法
2. 相关工作 结构化预测的挑战主要来自输出空间的大小。专门在NLP,序列标签(例如,命名实体识别),这是我们系统的第一块基石,提出了许多不同的方法,即CRFs(拉弗蒂et al ., 2001),最大利润率马尔可夫网络(M3N) (Taskar et al ., 2003), SVMstruct (Tsochantaridis et al ., 2004)和SEARN(多姆´e三世et al ., 2009)。 挑战主要来自输出空间的大小 我们利用依赖解析方法来构造属性树这类似于学习句子的依赖弧的问题。依赖解析的研究主要集中在基于图和基于转换的解析器上。 McDonald等人(2005;已经表明将依赖项解析作为图数据中得分最高的最大生成树的搜索可以生成高效的投影树(不允许依赖项交叉)和非投影树(允许交叉依赖项交叉)算法。后来Koo等人(2007)将矩阵树定理(Tutte, 2001)应用于所有非投影依赖树的全局规范化训练。 另一方面基于转换的依赖项解析旨在预测从初始配置到某些终端配置的转换序列并处理投影依赖项和非投影依赖项(Nivre, 2003;Nivre, 2009)。这些系统的最新进展包括神经评分函数(Chen and Manning, 2014)和全局规范化模型(Andor et al. 2016)。 构造属性树 解析方法 类似于学习句子的依赖弧的问题基于图基于转换 最近大量的工作(Kate and Mooney (2010) Li and Ji (2014) Miwa andSasaki(2014)和Li etal.(2016))共同考虑了实体识别和依赖解析这两个子任务。我们的工作是不同的因为我们的目标是处理有向生成树或等效的非投影依赖结构(即。关系中涉及的实体不一定在文本中相邻因为可能会在中间提到其他实体)这使解析变得复杂。 本文目标目标是处理有向生成树或等效的非投影依赖结构
3.房地产结构预测
我们现在提出了房地产开采问题和我们提出的概念验证解决方案。
3.1问题形式化 我们为房地产提取任务定义实体和实体类型。我们将实体定义为具有独立存在的财产(如卧室、厨房、阁楼)的明确、独特的部分。我们将其定义为实体提及一个文本短语(例如一个小卧室)我们可以潜在地链接到一个或多个实体其语义含义明确地表示一个特定的实体。每个实体可以在文本中出现几次可能出现不同的提及我们进一步将实体分类为表1中列出的类型 定义实体还有mention实体类型 我们的结构化预测任务的目标是将给定的输入文本转换为所谓的属性树形式的结构化表示如图1所示。转换说明无论是对各种类型实体(房产实体、空间、客厅、厨房等)的检测还是对它们之间依赖关系的部分(例如厨房是房子的一部分)的检测。 我们把给定实体的树结构作为一个依赖项解析任务的搜索最可能的属性树,因为 (1)这意味着采取所有可能的局部关系共同决定(例如,一个特定的房间只能一个地板的一部分),和(2)我们可以处理这一事实没有硬先验约束的实体类型可以是别人的(例如,一个房间可以是层的一部分,或财产本身,如公寓)。 值得一提的是我们的问题的依赖项注释显示了大量的非射影弧(26%)这意味着涉及到部分关系的实体是不相邻的(例如由其他实体交织)如直觉所料。 任务目标 输入文本输出属性树形式的结构化表示
3.2 结构预测模型
我们现在描述我们的管道来解决从自然语言广告中提取属性树,将描绘在图2: (1)识别实体提到mention(3.2.1节),然后(2)确定局部这些实体之间的依赖关系mention(3.2.2节),最后 比较基于图的方法(只在这里显式地执行3 最大扩展树算法3 基于转换的方法 根据定义处理非投影树 (3)构造属性的树结构 我们 只在基于图的模型中显式地执行步骤(3)使用最大扩展树算法(Chu和Liu,1965;对于直接案例(参见McDonald等人(2005))。作为一种替代方法我们使用基于转换的系统该系统根据定义处理非投影树并且不需要生成树推理。 3.2.1 序列标注问题 我们的结构化预测基线的第一步是一个序列标记任务类似于NER:给定一个房地产广告的纯文本我们提取实体提及边界并映射实体提及的类型。我们采用线性链CRFs,CRF算法的一个特例(Lafferty et al. 2001;Peng and McCallum, 2006)广泛用于序列标注问题。 序列标注问题-线性链CRFs
3.2.2 part-of tree construct
此组件的目的是将每个实体连接到其父实体。这类似于依赖项解析但不是映射整个句子我们只映射标识的实体集x(如house)到依赖项结构y。给定一个有n项的实体集合xp 0为根符号(仅作为父项出现)c{1… n}是实体集中的子项的索引。我们用D(x)表示x和T(x)对所有可能的依赖关系结构的所有可能的依赖关系。现在我们提出了解决这部分树结构问题的方法。
目的是将每个实体连接到其父实体类似依赖项解析 不映射整个句子仅映射实体集给定一个有n项的实体集合x一个依赖项是一个元组(p, c)其中p{0… n}为实体集合x中父项的索引p 0为根符号(仅作为父项出现)c{1… n}是实体集中的子项的索引我们用D(x)表示x和T(x)对所有可能的依赖关系结构
Locally trained model (Threshold/Edmonds) 我们重点研究局部判别训练方法(Yamada和Matsumoto, 2003)其中二元分类器学习关系模型的部分(步骤(2))。给定一个候选的父子对分类器的分数反映了部分关系的可能性。然后将输出用于下一个和最后一个步骤(3)(构造属性树)。具体地我们构造了一个完全连通的有向图G {V, E}其中实体为节点V边E表示与各自分类器得分之间的部分关系为权重。获取树预测的一种简单方法是基于阈值的保留所有权值超过阈值的边。很明显这并不能保证最终得到一棵树甚至可能包含循环。我们的方法直接目的是在(有向)图中找到最大生成树来执行树结构。为此在自然文本中为依赖项解析设计的技术可以实现 二元分类器完全连通图G {V, E} 其中实体为节点V边E表示为各自分类器得分之间的部分关系为权重。 获取树预测 基于阈值保留权值超过阈值的边 不保证得到树可能有环 我们的方法–找最大生成树
Globally trained model (MTT)
矩阵树定理(Matrix-Tree theorem, MTT) (Koo et al. 2007)提供了训练涉及定向生成树的全局规范化模型的算法框架即为给定句子的解析树打分。假设我们有一个向量θ其中每个值θh,m∈R对应于一个权重∀(h,m)∈D (x)。所有依赖结构y∈T(x)上的条件分布为
Transition-based dependency parsing (TB) 考虑到我们的系统需要能够处理非投影依赖弧我们采用了贪婪的基于转换的解析系统(Nivre, 2009;Bohnet和Nivre, 2012)作为我们的解析器的基础。系统被定义为一个配置C (Σ,B, A)由Σ堆栈,B缓冲和一个依赖弧A的集合。目标是给定一个初始配置和一组允许的操作来预测到某个终端配置的转换序列从而获得一个依赖关系解析树。我们定义了实体集x w1… wn的初始配置为([root][w1… wn]{})和终端配置([0][]A)(对于任何arc集合A) 前三个动作(左弧、右弧、移位)的定义类似于arc标准系统(用于投影依赖关系解析)。此外交换操作重新排序输入单词从而允许派生非投影树(Nivre, 2009)。 基础贪婪的基于转换的解析系统允许派生非投影树
4.实验
实现了局部模型、MTT和基于非投影变换的系统。我们也使用我们自己的CRF实现原作代码
具体来说space是性能最好的实体类型。请注意空格实体类型是表中最常见的一种。(?)
正如预期的那样MTT方法比其他方法表现得更好因为全球训练的模型学习定向生成树。预测最大生成树(Edmonds)比单纯考虑没有任何结构强制(基于阈值)的分类器预测获得更高的F1分。
5.pipeline
表3中最下面的行是管道方法它结合了序列标记和依赖项解析子任务:解析器的输入实体不一定是正确的。给出一个新的房地产广告CRF首先识别实体的提令牌边界然后构造提取的实体之间的树结构。局部训练的方法比MTT的性能稍好一点:MTT将生成树序列作为一个整体来学习因此很难将不正确或不完整的片段连接起来。在已知实体的情况下TB系统表现出相同的性能但我们认为合并神经评分功能(Chen和Manning, 2014)或使用波束搜索而不是贪婪方法将提高性能(Andor等2016)。
总结
本文对新定义的房地产属性结构化描述提取问题进行了比较研究。由于现有的联合模型局限于非交叉依赖关系我们将问题分解为序列标记和非投影依赖关系解析两个子问题。总的来说当实体已知时MTT的性能优于其他方法而采用最大生成树算法时使用单个评分的边缘权重似乎在我们的管道中稍好一些。
本文
Bekoulis, I., et al. (2017). Reconstructing the house from the ad: Structured prediction on real estate classifieds. EACL2017, the 15th Conference on the European Chapter of the Association for Computational Linguistics.