cjk-tokenizer

0.1.0 • Public • Published 8 years ago

cjk-tokenizer

Extract terms from CJK text. The origin idea is stolen from timdream/wordfreq.

Why?

A CJK text tokenizer that works as expected is missing in the javascript magic world. So I decided to build one with these features:

Chinese, Japanese and Korean support
Terms extracted would contain score, position in origin text, etc.
A more common stop words collection

Install

Use in project:

npm i cjk-tokenizer --save

Cli:

npm i cjk-tokenizer -g

Demo

Contribute

Versions

Current Tags

Version
Downloads (Last 7 Days)
- Tag
0.1.0
9
- latest

Version History

Version
Downloads (Last 7 Days)
- Published
0.1.0
9
- 8 years ago
0.0.1
2
- 8 years ago

Package Sidebar

Install

npm i cjk-tokenizer

Repository

github.com/leungwensen/cjk-tokenizer

Homepage

github.com/leungwensen/cjk-tokenizer#readme

Weekly Downloads

Version

0.1.0

License

MIT

Last publish

8 years ago

Collaborators

Try on RunKit

Report malware

cjk-tokenizer

cjk-tokenizer

Why?

Install

Demo

Contribute

Versions

Current Tags

Version History

Package Sidebar

Install

Repository

Homepage

DownloadsWeekly Downloads

Version

License

Last publish

Collaborators

Weekly Downloads