Hanlp分词实例：Java实现TFIDF算法-益强资讯全景

系统运维: Hanlp分词实例：Java实现TFIDF算法
时间：2010-12-5 17:23:32  作者：人工智能   来源：应用开发  查看：  评论：0
内容摘要：算法介绍最近要做领域概念的提取，
算法介绍
最近要做领域概念的词实提取， TFIDF 作为一个很经典的实算法算法可以作为其中的一步处理。
关于 TFIDF 算法的词实介绍可以参考这篇博客 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 。
计算公式比较简单，实算法如下：
预处理
由于需要处理的候选词大约后 3w+ ，并且语料文档数有 1w+ ，实算法直接挨个文本遍历的词实话很耗时，每个词处理时间都要一分钟以上。实算法
为了缩短时间，词实首先进行分词，实算法一个词输出为一行方便统计，站群服务器词实分词工具选择的实算法是 HanLp 。
然后，词实将一个领域的实算法文档合并到一个文件中，并用 “$$$” 标识符分割，词实方便记录文档数。
下面是选择的领域语料（ PATH 目录下）：
代码实现
package edu.heu.lawsoutput;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
/**
* @ClassName: TfIdf
* @Description: TODO
* @author LJH
* @date 2017 年 11 月 12 日下午 3:55:15
*/
public class TfIdf {
    static final String PATH = "E:\\corpus"; // 语料库路径
    public static void main(String[] args) throws Exception {
        String test = " 离退休人员 "; // 要计算的候选词
        computeTFIDF(PATH, test);
    }
    /**
    * @param @param path 语料路经
    * @param @param word 候选词
    * @param @throws Exception
    * @return void
    */
    static void computeTFIDF(String path, String word) throws Exception {
        File fileDir = new File(path);
        File[] files = fileDir.listFiles();
        // 每个领域出现候选词的文档数
        Map<String, Integer> containsKeyMap = new HashMap<>();
        // 每个领域的总文档数
        Map<String, Integer> totalDocMap = new HashMap<>();
        // TF = 候选词出现次数 / 总词数
        Map<String, Double> tfMap = new HashMap<>();
        // scan files
        for (File f : files) {
            // 候选词词频
            double termFrequency = 0;
            // 文本总词数
            double totalTerm = 0;
            // 包含候选词的文档数
            int containsKeyDoc = 0;
            // 词频文档计数
            int totalCount = 0;
            int fileCount = 0;
            // 标记文件中是否出现候选词
            boolean flag = false;
            FileReader fr = new FileReader(f);
            BufferedReader br = new BufferedReader(fr);
            String s = "";
            // 计算词频和总词数
            while ((s = br.readLine()) != null) {
                if (s.equals(word)) {
                    termFrequency++;
                    flag = true;
                }
                // 文件标识符
                if (s.equals("$$$")) {
                    if (flag) {
                        containsKeyDoc++;
                    }
                    fileCount++;
                    flag = false;
                }
                totalCount++;
            }
            // 减去文件标识符的源码库数量得到总词数
            totalTerm += totalCount - fileCount;
            br.close();
            // key 都为领域的名字
            containsKeyMap.put(f.getName(), containsKeyDoc);
            totalDocMap.put(f.getName(), fileCount);
            tfMap.put(f.getName(), (double) termFrequency / totalTerm);
            System.out.println("----------" + f.getName() + "----------");
            System.out.println(" 该领域文档数： " + fileCount);
            System.out.println(" 候选词出现词数： " + termFrequency);
            System.out.println(" 总词数： " + totalTerm);
            System.out.println(" 出现候选词文档总数： " + containsKeyDoc);
            System.out.println();
        }
        // 计算 TF*IDF
        for (File f : files) {
            // 其他领域包含候选词文档数
            int otherContainsKeyDoc = 0;
            // 其他领域文档总数
            int otherTotalDoc = 0;
            double idf = 0;
            double tfidf = 0;
            System.out.println("~~~~~" + f.getName() + "~~~~~");
            Set<Map.Entry<String, Integer>> containsKeyset = containsKeyMap.entrySet();
            Set<Map.Entry<String, Integer>> totalDocset = totalDocMap.entrySet();
            Set<Map.Entry<String, Double>> tfSet = tfMap.entrySet();
            // 计算其他领域包含候选词文档数
            for (Map.Entry<String, Integer> entry : containsKeyset) {
                if (!entry.getKey().equals(f.getName())) {
                    otherContainsKeyDoc += entry.getValue();
                }
            }
            // 计算其他领域文档总数
            for (Map.Entry<String, Integer> entry : totalDocset) {
                if (!entry.getKey().equals(f.getName())) {
                    otherTotalDoc += entry.getValue();
                }
            }
            // 计算 idf
            idf = log((float) otherTotalDoc / (otherContainsKeyDoc + 1), 2);
            // 计算 tf*idf 并输出
            for (Map.Entry<String, Double> entry : tfSet) {
                if (entry.getKey().equals(f.getName())) {
                    tfidf = (double) entry.getValue() * idf;
                    System.out.println("tfidf:" + tfidf);
                }
            }
        }
    }
    static float log(float value, float base) {
        return (float) (Math.log(value) / Math.log(base));
    }
}
运行结果
测试词为 “ 离退休人员 ” ，中间结果如下：
最终结果：
结论
可以看到 “ 离退休人员 ” 在养老保险和社保领域， tfidf 值比较高，可以作为判断是否为领域概念的一个依据。当然 TF-IDF 算法虽然很经典，但还是有许多不足，不能单独依赖其结果做出判断。很多论文提出了改进方法，本文只是实现了最基本的算法。如果有其他思路和想法欢迎讨论。云服务器提供商
作为硬件大厂，戴尔为什么要谈零信任？
消息称英伟达、AMD 将制造基于 ARM 的 PC 芯片，挑战英特尔和苹果

最近更新

2025-10-02 21:32:09
戴尔科技安全解决方案帮助用户拒绝勒索软件攻击
2025-10-02 21:32:09
Python中的函数式编程教程，学会用一行代码搞定所有内容
2025-10-02 21:32:09
事半功倍！这5个React应用程序库不要错过……
2025-10-02 21:32:09
8款受欢迎的代码编辑器，你值得拥有
2025-10-02 21:32:09
5G如何影响数据中心以及如何做好准备
2025-10-02 21:32:09
我一顿操作把电脑弄崩了！！！数据全没了！！！我该怎么办？
2025-10-02 21:32:09
这十个不常见但却十分实用的Python库，你知道几个？
2025-10-02 21:32:09
用Python可视化神器Plotly动态演示全球疫情变化趋势

热门排行

2025-10-02 21:32:09
数据中心如何将其电力基础设施用于电网运营
2025-10-02 21:32:09
SDN、OpenFlow、OpenDaylight，到底是什么关系？
2025-10-02 21:32:09
拜托，别再问我什么是B+树了
2025-10-02 21:32:09
身为 Java 程序员必须掌握的 10 款开源工具！
2025-10-02 21:32:09
争相入局云服务，数据中心建设成大厂“必修课”
2025-10-02 21:32:09
浅析Dashboard的10个实现原则
2025-10-02 21:32:09
图文详解两种算法：深度优先遍历（DFS）和广度优先遍历（BFS）
2025-10-02 21:32:09
Java 8中Map骚操作之merge()的用法

友情链接