文档简介
标签:
基于重复模式的自动Web信息抽取
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。关键词:Web信息抽取;DOM树;重复模式
评论
加载更多
推荐下载
查看更多
精选文集
推荐帖子