基于对数似然比的中文文本分类特征选择研究 | |
梁伍七1; 李斌1; 许磊1; 江克勤2 | |
2018-03-15 | |
发表期刊 | 安庆师范大学学报(自然科学版)
![]() |
ISSN | 1007-4260 |
卷号 | 24期号:01页码:45-50 |
摘要 | 在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。 |
关键词 | 模式识别 对数似然比 特征选择 文本分类 向量空间模型 KNN分类 |
DOI | 10.13757/j.cnki.cn34-1328/n.2018.01.012 |
URL | 查看原文 |
语种 | 中文 |
资助项目 | 安徽省高校自然科学研究项目(KJ2016A111) |
原始文献类型 | 学术期刊 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/54798 |
专题 | 国家开放大学安徽分部 |
作者单位 | 1.安徽广播电视大学信息与工程学院; 2.安庆师范大学计算机与信息学院 |
第一作者单位 | 国家开放大学安徽分部 |
第一作者的第一单位 | 国家开放大学安徽分部 |
推荐引用方式 GB/T 7714 | 梁伍七,李斌,许磊,等. 基于对数似然比的中文文本分类特征选择研究[J]. 安庆师范大学学报(自然科学版),2018,24(01):45-50. |
APA | 梁伍七,李斌,许磊,&江克勤.(2018).基于对数似然比的中文文本分类特征选择研究.安庆师范大学学报(自然科学版),24(01),45-50. |
MLA | 梁伍七,et al."基于对数似然比的中文文本分类特征选择研究".安庆师范大学学报(自然科学版) 24.01(2018):45-50. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[梁伍七]的文章 |
[李斌]的文章 |
[许磊]的文章 |
百度学术 |
百度学术中相似的文章 |
[梁伍七]的文章 |
[李斌]的文章 |
[许磊]的文章 |
必应学术 |
必应学术中相似的文章 |
[梁伍七]的文章 |
[李斌]的文章 |
[许磊]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
相关推荐 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论