忍者ブログ

hirano.xxxxxxxx.jp

自分用のメモ置き場
MENU

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

msime2anthy

CentOSの日本語入力はAnthyというのを使っているみたいです。
そこで、MS-IMEの辞書(単語)をAnthyにインポートするプログラムを作りました。(・ω・)

※MS-IMEは用例の登録もできるのですが、Anthyに用例を登録することはできそう にないので気にしない方向で。


1.霞とanthy-dic-tool

Anthyの辞書を管理するグラフィカルインターフェースが霞です。
一方、Anthyの辞書を一括で処理するにはanthy-dic-toolというコマンドを使うらしいです。
※インターネットで見た。(笑)

例えば霞で以下のように登録します。

単語 (・ω・)
読み かお
頻度 500
品詞の分類 名詞
品詞 一般名詞

コンソールでanthy-dic-tool --dumpを実行すると

$ anthy-dic-tool --dump
かお 500 (・ω・)
格助詞接続 = y
語幹のみで文節 = y
する接続 = n
さ接続 = n
な接続 = n
品詞 = 名詞

こんなのが表示されます。
逆に、

かお 500 (・ω・)
格助詞接続 = y
語幹のみで文節 = y
する接続 = n
さ接続 = n
な接続 = n
品詞 = 名詞

この内容をテキストファイルにanthy.txtという名前で保存しておいてanthy-dic-tool --loadを実行すると

$ cat anthy.txt | anthy-dic-tool --load

登録されます。

(´・ω・`) んー。

2.品詞対応表

なんとなく分かりましたが、品詞毎のパラメータがよく分からないので、霞で登録できる「品詞の分類」「品詞」のパターンを全て試してみました。
いくつかの「品詞の分類」「品詞」のパターンで、anthy-dic-tool --dumpがエラーになるみたいです。

(^ω^;)<ナニコレ

anthy-dic-tool MS-IME
品詞の 分類 品詞 品詞 な接続 さ接続 する接続 たる接続 と接続 語幹のみで文節 格助詞接続 連体詞の名詞化 活用 品詞
名詞 一般名詞 名詞 n n n     y y     名詞・顔文字など
人名 人名                   人名・姓・名など
地名 地名                   地名その他
会社名 エラー
する接続 名詞 n n y     y y     さ変名詞
数詞 数詞 エラー
形容詞 く活用 形容詞                   形容詞
しく活用 エラー
形容動詞 形容動詞 名詞 y y n     y y     形容動詞
副詞 副詞 副詞     y n y y       副詞
感動詞 感動詞 エラー
連体詞 連体詞 エラー
単漢字 単漢字 エラー
動詞 カ行5段 動詞               n カ行五段 か行五段
ガ行5段 動詞               n ガ行五段 が行五段
サ行5段 動詞               n サ行五段 さ行五段
タ行5段 動詞               n タ行五段 た行五段
ナ行5段 動詞               n ナ行五段 な行五段
バ行5段 動詞               n バ行五段 ば行五段
マ行5段 動詞               n マ行五段 ま行五段
ラ行5段 動詞               n ラ行五段 ら行五段
ワ行5段 動詞               n ワ行五段 あわ行五段
動詞
(連体形が名詞)
カ行5段 動詞               y カ行五段  
ガ行5段 動詞               y ガ行五段  
サ行5段 動詞               y サ行五段  
タ行5段 動詞               y タ行五段  
ナ行5段 動詞               y ナ行五段  
バ行5段 動詞               y バ行五段  
マ行5段 動詞               y マ行五段  
ラ行5段 動詞               y ラ行五段  
ワ行5段 動詞               y ワ行五段  

「会社名」「数詞」「しく活用」「感動詞」「連体詞」「単漢字」は、anthy-dic-toolが未対応のようです。
一括で処理をする可能性がある場合、霞で登録時に使用しないほうがよさそうです。
「動詞(連体詞が名詞)」は、MS-IMEで区別されていないようです。
※「歩く」を例に考えると、「歩かない・歩きます・歩く・歩くとき・歩けば・歩け」の4番目「歩くとき」だから「歩く」=「名詞」ってことかな?

3.辞書ファイル(テキスト形式)仕様比較表

次はAnthyとMS-IMEの辞書ファイル(テキスト形式)の仕様をまとめてみます。

Anthy 比較内容 MS-IME
EUC_JP 日本語エンコーディング MS932
LF 改行コード CR/LF
独自

読み 頻度 単語
パラメータ名 = パラメータ値
パラメータ名 = パラメータ値
パラメータ名 = パラメータ値
(空改行)
形式 Tab区切りテキスト

読み 単語 品詞
#で始まる行 コメント !で始まる行

4.変換プログラム

作りました。(^ω^;)<ちょーてきとー

プログラム名 msime2anthy
動作環境 Windows XP (SP2)
Java Runtime Environment (JRE) 6 Update 3
※ソースレベルは1.4にしているので1.4.2以上なら動くかもしれませんが試してません。
開発環境 Windows XP (SP2)
Java SE Development Kit (JDK) 6 Update 3
NetBeans IDE 5.5.1
お約束 無保証です。(∩ ゚д゚)<あーあーきこえなーい

■使い方

(1)msime2anthy.zipを適当なフォルダーに解凍します。
(2)解凍したフォルダーにあるmsime2anthy.jarをダブルクリックします。
(3)ファイル選択ダイアログが開きます。




















※ログインユーザのホームディレクトリ(通常、C:\Documents and Settings\ユーザ名\です。)で開きます。

(4)変換したいMS-IME辞書ファイル(テキスト形式)を選んで「開く」をクリックします。










(5)「変換が完了しました」が表示されれば成功です。「了解」をクリックします。
(6)変換元のファイルと同じフォルダに「変換元ファイル名.anthy.txt」というファイルができます。

(7)変換されたファイルはEUC_JPエンコーディング/LF改行です。メモ帳で開くとおかしなファイルに見えます。

■アンインストール

(1)解凍したフォルダーを削除します。

(2)ログインユーザのホームディレクトリ(通常、C:\Documents and Settingd\ユーザ名\です。)にある「.msime2anthy」というフォルダを削除します。
PR

× CLOSE

カレンダー

10 2017/11 12
S M T W T F S
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

最新CM

[09/19 Gatu]
[06/08 石井弘明]
[03/04 yama]
[02/15 ひらの]
[02/14 魔]

最新記事

最新TB

ブログ内検索

最古記事

(12/30)
(01/03)
(01/04)
(01/04)
(01/04)

NINJATOOLS

× CLOSE

Copyright © hirano.xxxxxxxx.jp : All rights reserved

TemplateDesign by KARMA7

忍者ブログ [PR]