基于Ontology的Web内容二阶段半自动提取方法

被引:18
作者
高军
王腾蛟
杨冬青
唐世渭
机构
[1] 北京大学信息科学技术学院
[2] 北京大学视觉与听觉处理国家重点实验室 北京
关键词
Web提取; 领域Ontology; 应用Ontology; XML;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,而不是便于应用程序自动处理 ,如何实现一个精确的、应用广泛的提取系统面临很多困难 .传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序 ,但是基于交互产生的包装程序不具备普遍的应用性 ,基于自动生成的包装程序准确性不高 .该文提出了一种新的二阶段基于语义的半自动提取方法 ,在保证提取准确性的前提下 ,尽可能减少交互操作 ,同时随着参与网站的增加 ,逐步提高包装程序生成的自动化 .相对于目前的方法 ,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性 .其有效性在原型系统中得到验证 .应用该方法 ,已经成功提取了12 0万HTML页面 .
引用
收藏
页码:310 / 318
页数:9
相关论文
共 2 条
[1]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272
[2]  
Visual web information extraction with Lixto .2 Baumgartner R,Flesca S,Gottlob G. Proceedings of the 27th International Conference on Very Large Data Bases . 2001