【技术分享】新闻自动分类算法
百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。
最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。
所以,只要能够用一个向量来代表文章,然后计算它与分类向量的夹角,就能够做出分类了。
最简单的是求词汇的频率
但是只考虑词汇频率的算法是有漏洞的
那怎么计算一个词预测主题的能力呢,可以用到IDF。
结合词汇的频率和逆文本频率,就得到一种比较好的算法了。
原来是这样涨资实了:L 路过看看 数据包
帮顶。。。。。。。。。。。 帮顶。。。。。。。。。。 谢谢你的分享! 顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶 福生无量天尊 好深奥啊
我敢打赌,楼主所发自己也没全懂{:soso_e120:}
永樂壹條鞭 发表于 2015-3-21 11:00
我敢打赌,楼主所发自己也没全懂
ppt就是楼主写的。。
页:
[1]