博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
阅读量:7062 次
发布时间:2019-06-28

本文共 3526 字,大约阅读时间需要 11 分钟。

基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。

对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基本步聚是先对文本内容进行分词,包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词形式等;第二步是计算各个词在每篇文章中的出现频率,以及在所有文章中的出现频率,即TF/IDF;第三步计算文章向量;最后是利用自动聚类算法,对条目进行聚类,这样就可以实现向用户推荐同类产品的需求了。

但是在这里有一个非常重要的问题没有解决,就是中文分词的问题,这些文章中绝大部分都是以英文为背景的,而英文分词方面,分出单词很简单,只需要空格作为分隔符就可以了,而中文中词与词之间没有空格,其次是英文中单复数、过去分词等比较多,需要还原成单数现在式,但是中文中这个问题基本不存在,再有就是英文需要在分词后识别长的词组,而中文这一步也不需进行。

针对以上这些难题,在我的项目中,采用了MMSeg4j中文分词模块,这个项目集成了据说是搜狗输入法的10万多词库(大家知道中文分词的关键是中文词库)。

另外,我还希望中文分词可以在全文检索引擎和全文内容推荐引擎共用,由于全文检索引擎采用了Apache Lucene 3.x版本,需要中文分词模块符合Lucene的体系架构,幸运的是MMSeg4j提供了Lucene所需的Tokenizer实现类,同时还需要重点解决如下问题:

  • 由于打开索引文件比较慢,所以整个程序共享一个indexer和searcher
  • 考虑到准实时性需求,采用了Lucene新版本中reopen机制,每次查询前读入索引增量
  • 采用Lucene默锁机制

在项目中我定义了全文检索引擎类:

public class FteEngine {

    public static void initFteEngine(String _indexPathname) {

        indexPathname = _indexPathname;
    }

    public static FteEngine getInstance() {                         // Singleton模式

        if (null == engine) {
            engine = new FteEngine();
        }
        return engine;
    }

    public IndexWriter getIndexWriter() {

        return writer;
    }

    public IndexSearcher getIndexSearcher() {

        try {
            IndexReader newReader = reader.reopen();      // 读入新增加的增量索引内容,满足实时索引需求
            if (!reader.equals(newReader)) {
                reader.close();
                reader = newReader;
            }
            searcher = new IndexSearcher(reader);
        } catch (CorruptIndexException e) { ....      

        } catch (IOException e) {....

        }
        return searcher;
    }

    public Analyzer getAnalyzer() {

        return analyzer;
    }

    public void stop() {

        try {
            if (searcher != null) {
                searcher.close();
            }
            reader.close();
            writer.close();
            indexDir.close();
        } catch (IOException e) {....
        }
    }

    private FteEngine() {

        analyzer = new MMSegAnalyzer();                                                                               // 初始化中文分词模块,会读入中文字典
        IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_31, analyzer);
        iwc.setOpenMode(OpenMode.CREATE_OR_APPEND);
        try {
            indexDir = FSDirectory.open(new File(indexPathname));                   
            writer = new IndexWriter(indexDir, iwc);                                           // writer和reader整个程序共用
            reader = IndexReader.open(writer, true);
        } catch (CorruptIndexException e) {......
        } catch (LockObtainFailedException e) {......
        } catch (IOException e) {.....
        }
    }
    private static FteEngine engine = null;
    private static String indexPathname = null;
    private Directory indexDir = null;
    private IndexWriter writer = null;
    private IndexSearcher searcher = null;
    private Analyzer analyzer = null;
    private IndexReader reader = null;
}

具体中文分词可以使用如下代码:

FteEngine fteEngine = FteEngine.getInstance();

        Analyzer analyzer = fteEngine.getAnalyzer();
        String text = "测试2011年如java有意见 分岐其中华人民共合国,oracle咬死猎人的狗!";
        TokenStream tokenStrm = analyzer.tokenStream("contents", new StringReader(text));
        OffsetAttribute offsetAttr = tokenStrm.getAttribute(OffsetAttribute.class);
        CharTermAttribute charTermAttr = tokenStrm.getAttribute(CharTermAttribute.class);
        String term = null;
        int i = 0;
        int len = 0;
        char[] charBuf = null;
        try {
            while (tokenStrm.incrementToken()) {
                charBuf = charTermAttr.buffer();
                for (i = (charBuf.length - 1); i >= 0; i--) {
                    if (charBuf[i] > 0) {
                        len = i + 1;
                        break;
                    }
                }
                //term = new String(charBuf, offsetAttr.startOffset(), offsetAttr.endOffset());
                term = new String(charBuf, 0, offsetAttr.endOffset() - offsetAttr.startOffset());
                System.out.println(term);   
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

打印的内容如下:

测试 2011 年 如 java 有 意见 分 岐 其中 华 人民 共 合 国 oracle 咬 死 猎人 的 狗

当我们在缺省词库中加入单词:分岐 中华人民共合国后,那么分词结果可以变为:

测试 2011 年 如 java 有 意见 分岐 其 中华人民共合国 oracle 咬 死 猎人 的 狗

由此可见,可以通过完善中文词库,得到越来越好的中文分词效果。

转载于:https://www.cnblogs.com/javaEEspring/archive/2011/08/12/2523205.html

你可能感兴趣的文章
ASP.NET中Html.Partial和Html.Action的一个区别
查看>>
VMM系列之添加Hyper-V群集主机到VMM服务器
查看>>
Java开源报表JasperReport、iReport4.5.1使用详解(二)
查看>>
使用必应查询接口开发搜索工具:反查一个IP上的旁站
查看>>
RHCE 学习笔记(7) 进程管理
查看>>
Lync Server 2010迁移至Lync Server 2013故障排错 Part 2: Lync Server 迁移后部分用户无法移池问题...
查看>>
Hyper-V 2节点集群高可用的限制
查看>>
Silverlight Navigation导航框架实例系列汇总
查看>>
走近复杂数据库计算型软件的设计与制作(3)—视图的设计
查看>>
域用户权限|运行软件
查看>>
如何解决双显示器显示B/S架构软件的问题
查看>>
Android笔记:Wake Lock
查看>>
简单易用的headless浏览器
查看>>
编写shell脚本的另一种方法
查看>>
产品设计体会(2012)另一种产品版本细分策略
查看>>
企业WIFI安全应用方案
查看>>
修改eclipse自动生成的comments中的author名字
查看>>
路由基础概念解析
查看>>
oracle 中删除表 drop delete truncate 的区别
查看>>
轻巧的网络流量实时监控工具NTOPNG
查看>>