基于元搜索技术的主题新闻门户系统

被引:2
作者
白鹤 [1 ,2 ]
王劲林 [1 ]
赵志强 [1 ]
机构
[1] 中国科学院声学研究所国家网络新媒体工程技术研究中心
[2] 中国科学院研究生院
关键词
新闻门户; 元搜索; Web信息提取;
D O I
暂无
中图分类号
TP319 [专用应用软件];
学科分类号
081202 ; 0835 ;
摘要
主题新闻门户提供个性化的新闻信息集成服务,是现在企业级信息化应用的一个热点。实现了一个无需人工干预的主题新闻系统。它基于元搜索技术获得主题相关的新闻索引,之后构造分装器和采用启发式算法准确提取双层页面中的结构化信息;同时设计了结合URL和标题的新闻重复检测策略,提高抓取质量。原型系统运行以来得到了较优异的实验效果。
引用
收藏
页码:142 / 145
页数:4
相关论文
共 5 条
[1]   论元搜索引擎的实现技术与发展趋势 [J].
门凤超 ;
濮德敏 ;
王东菊 .
现代情报, 2008, (07) :61-62+66
[2]   基于元搜索引擎技术的新闻对象抽取方法研究 [J].
刘敏 ;
何渝 .
北京工商大学学报(自然科学版), 2008, (03) :66-69
[3]   基于FFT的网页正文提取算法研究与实现 [J].
李蕾 ;
王劲林 ;
白鹤 ;
胡晶晶 .
计算机工程与应用, 2007, (30) :148-151
[4]   Web数据挖掘技术及应用 [J].
马保国 ;
侯存军 ;
王文丰 ;
钱方正 .
计算机与数字工程, 2006, (06) :20-22
[5]   话题识别与跟踪研究 [J].
李保利 ;
俞士汶 ;
不详 .
计算机工程与应用 , 2003, (17) :7-10+109