碧俐千仞 发表于 2015-3-20 20:25:50

【技术分享】新闻自动分类算法

百度新闻之类的系统,它从互联网上收集文章,然后自动分成“娱乐”“军事”等类别。可是计算机读不懂文章啊,那怎样让计算机读懂文章的内容并做出合适的分类呢?
大家都学过余弦定理吧,自动归类的算法有赖于余弦定理。



最简单的计算文章向量的方法是给定一个词表(如64000常用词),再计算文章中每个词的权重。权重算法下面再介绍。

所以,只要能够用一个向量来代表文章,然后计算它与分类向量的夹角,就能够做出分类了。



最简单的是求词汇的频率

但是只考虑词汇频率的算法是有漏洞的

那怎么计算一个词预测主题的能力呢,可以用到IDF。



结合词汇的频率和逆文本频率,就得到一种比较好的算法了。




诸葛村夫V 发表于 2015-3-20 21:22:43

原来是这样涨资实了:L

sujincheng520 发表于 2015-3-20 21:53:20

路过看看

19960706 发表于 2015-3-20 22:24:00

数据包

风籽 发表于 2015-3-20 23:51:06

帮顶。。。。。。。。。。。

风籽 发表于 2015-3-20 23:52:02

帮顶。。。。。。。。。。

葉挺獨立團 发表于 2015-3-21 00:02:39

谢谢你的分享!

罗马之殇 发表于 2015-3-21 00:13:28

顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶

本大少 发表于 2015-3-21 08:37:05

福生无量天尊

admin 发表于 2015-3-21 09:55:04

好深奥啊

永樂壹條鞭 发表于 2015-3-21 11:00:25

我敢打赌,楼主所发自己也没全懂{:soso_e120:}

碧俐千仞 发表于 2015-3-21 22:14:48

永樂壹條鞭 发表于 2015-3-21 11:00
我敢打赌,楼主所发自己也没全懂

ppt就是楼主写的。。
页: [1]
查看完整版本: 【技术分享】新闻自动分类算法