jieba中文分词(PHP版本)

1.特点

  • 支持三种分词模式
    • 精准模式,将句子按词语切分成几分
    • 全模式,把句子中所有可以成词的词语扫描出来
    • 搜索引擎模式,在精准模式基础上,对长词再次切分
  • 支持繁体字
  • 支持自定义词典

2.安装

composer require fukuball/jieba-php:dev-master

3.使用

1) 分词

jieba.cut 方法接受两个参数,第一个为要分词的字符串 第二个为选用的分词模式

Jieba::cut("今天天气真好",true); #全模式

Jieba::cut("今天天气真好",false); #精准模式

Jieba::cutForSearch("今天天气真好",false); #搜索引擎模式

  1. 添加自定义词典

Jieba::loadUserDict(file_name) # file_name 自定义词典的路径

词典格式与自带词典保持一致,一个词占一行;每一行分为三部分,一部分为词语,一部分为词频(该词语出现的频率,频率设置的越大切分出来的概念越大),一部分为词性,用空格隔开

3)关键词提取

说明:可以提取一个文本出现频率高的词语,返回的词按频率大小排序

方法: JiebaAnalyse::extractTags(content, top_k)

参数: content 为要提取的文本 top_k 为返回多少个权重最大的关键词,默认20

注意: 可使用 JiebaAnalyse::setStopWords 增加自定义要计算频率的值

4)词性分词(词性说明)

说明:按词性进行分词,并返回词语和词性

方法:Posseg::cut("欢迎来到北京大学")

输出:

5)切换成繁体字典

只需要在Jieba初始化时传dict=big,其余用法相同(其实就是切换了一下词典)

Jieba::init(array('mode'=>'default','dict'=>'big'));

6)返回词语在原文的起止位置

方法:Jieba::tokenize("欢迎来到北京大学")

输出:

说明文档链接:https://packagist.org/packages/fukuball/jieba-php

博客

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

赞赏支持
被以下专题收入,发现更多相似内容