一种基于页面赋权的网页内容提取方法
余杨奎1; 王旅1; 李婉茹1; 程振林1; 刘洁2
2021-10-20
发表期刊通化师范学院学报
ISSN1008-7974
卷号42期号:10页码:20-28
摘要提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.
关键词WEB页面 模板技术 页面赋权 正则表达式
DOI10.13877/j.cnki.cn22-1284.2021.10.003
URL查看原文
语种中文
资助项目2020年度广东远程开放教育科研基金项目(YJ2009);2019年度湛江开放大学系统科研项目(X201901)
原始文献类型学术期刊
文献类型期刊论文
条目标识符http://ir.library.ouchn.edu.cn/handle/39V7QQFX/149715
专题国家开放大学广东分部
通讯作者刘洁
作者单位1.广东开放大学湛江分校;
2.长春中医药大学医药信息学院
第一作者单位国家开放大学广东分部
第一作者的第一单位国家开放大学广东分部
推荐引用方式
GB/T 7714
余杨奎,王旅,李婉茹,等. 一种基于页面赋权的网页内容提取方法[J]. 通化师范学院学报,2021,42(10):20-28.
APA 余杨奎,王旅,李婉茹,程振林,&刘洁.(2021).一种基于页面赋权的网页内容提取方法.通化师范学院学报,42(10),20-28.
MLA 余杨奎,et al."一种基于页面赋权的网页内容提取方法".通化师范学院学报 42.10(2021):20-28.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[余杨奎]的文章
[王旅]的文章
[李婉茹]的文章
百度学术
百度学术中相似的文章
[余杨奎]的文章
[王旅]的文章
[李婉茹]的文章
必应学术
必应学术中相似的文章
[余杨奎]的文章
[王旅]的文章
[李婉茹]的文章
相关权益政策
暂无数据
收藏/分享
相关推荐
基于Web开发技术实现PHP调用Java类研究
转型升级背景下基层开放大学招生形势分析——以湛江开放大学校本部为例
基于DEA的市级财政支出效率评价研究——以湛江市为例
《计算机教育教学改革与实践》下的食品专业计算机应用课程教学改革研究
建构主义学习理论剖析
基于角色的访问控制模型(RBAC)研究
建构主义视角下的现代远程教学模式
PHP生成CAPTCHA的改进方法在平台建设中的应用
地方政府公共财政支出效率研究综述及展望
基于MVC模式下的开发框架建设与改进
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。