Top > Programmingとか > Office > 2007

(23) IME2007:ちょっと脱線。

基本的に「猿頁」では実利的なこと ( 読んだ方へ直接お役にたてる、あるいは楽しんでいただけるような ) をメインに書いているつもりなんですね。

逆に、「自分はこう思うけど誰かの役に立つとも思えんなあ」とか「取り上げるには調査不足だよなあ」などなことは mixi の日記の方に書いているわけです。

で今回はちょっと脱線。
Jitta さんの blog 何となく Blog by Jittaもっとフィードバックを からインスパイア、あまりお役に立ちそうもないことを書いてみることにします。まあたまにということで、ご勘弁ください。

ちなみに Jitta さんの上記エントリで

  > 誰かのミクシィ日記

とあるのは、私のことかもしれません。

全体公開にしていますので、mixi に参加されている方は 私の日記 IMEに対してのあれこれ へどうぞ。


で、Jitta さんの上記エントリは 古川 享 ブログ古川 享 ブログ: MS IMEさらに...お馬鹿になっていく に対して 「フィードバックが少ないから ( IME 開発が中国主体になっていくの ) ではないか」 と考える、いう論旨なんだと読みました私。

で、Jitta さんにせよ古川さんにせよ、エントリの根拠としているのは 「読み→変換」 でどれだけ一発で正しい変換がなされるか、ということなんですね。

ということであれば、希望しているところは 「初期辞書の充実」 と 「変換アルゴリズムの改善」 ということなわけですから、これに対するフィードバックの手段ははっきりしています。

カスタマ エクスペリエンス向上プログラムに参加すればいい。

たしかこのプログラムの初期値は 「誤変換情報の送信」 になっていますが、より辞書や変換アルゴリズムの改善を期待するのであれば、併せて学習情報も送信してやればいい

学習情報も送信するようにするには、言語バーのツールアイコンをクリック →  [自動記録された誤変換データの送信] → [Microsoft Office IME 2007 誤変換レポート]ダイアログ → [設定] → [設定]ダイアログ → [学習データを送信する]にチェック → [OK] → [×] という設定をしてやればいいわけです。

辞書にせよアルゴリズムにせよ、ボキャブラリや文法が百人百様・千差万別である以上、積み上げたフィードバックをマスで俯瞰するしかないんではないかと。
であれば、なるべく多くの誤変換/変換情報をどんどん上げていくのが最善の協力方法なんではないかなーと思います。

文章でフィードバックを上げたり blog 等で意見を表明するという手法は、いい意味でのプレッシャーとして機能するんではないかと思いますが、技術屋としてはやはり具体的に改善に寄与する情報を提供していきたいところですね。


さて、そもそもなぜ古川さんはあのようなエントリを上げているのか、ということについてちょっと考えてみました。

たぶんあの文章は、というか古川さんの blog は、どうもご本人もわかっていて、あえてあーいぅアジテーションっぽい書き方を選択しているような気もするんですが。

もともとあの blog ではMicorosoft / マイクロソフト の体制 / 技術 / 商品等々に対して非常に多くの苦言を呈しています。

MS IME に限っても、

MS IMEさらに...お馬鹿になっていく
IME 2007の甲斐減少は、買い減少に修正されました。ありゃっ
IME 2007の甲斐減少
℃トウのご変換、館無料

など立て続けに書かれています。

しかしあれを技術的なフィードバックとして受け止めた場合には、検証に使用した環境や条件などが非常に不鮮明で、追証できるような内容にはなっていません。
あくまでも 「たまたま自分のところで試したら不本意な結果になった→なんとかしろ」 と言うスタンスですね。

これは例えば企業リーダーがユーザーを代弁して発言するスタンスであり、決して現場が抱える問題を解決するための手掛かりを提供しようという姿勢ではありません。

私は、この blog のスタンスは 「マイクロソフト OB という発言力の大きさをバック」 に 「問題提起」 → 「現役へのハッパを ( 愛を持って ) かけている」 というところにあるんではないかと思っています。

また、

某MS社員に、「MS IME最近どうなっているのよ?」と先週聞いた答えが...「IME開発の主体が、中国にシフトしまっていて我々も手を出せない......個人的にはATOKに切り替えようと思っている」と言う現役開発系社員の発言に絶句!!!

という言及については、裏が取れるような性質のものではありません。
ですので、私としてはこれを鵜呑みにすることはできないんですね。
「ああ、古川さんはそのように聞き、そのように感じたのだな」 と思うくらいです。

たぶん古川さんが 「絶句」 した理由は、開発体制の弱小化にある のではないかなぁと。
もっときちんとしたものを作れる体制になぜしない!という嘆きを訴えたいんだと思うんですよね。

しかし一方で、そんなことを斟酌せずに上記エントリを読んだユーザーの中には、

  IMEは中国で開発されるようになってしまった、
  もう日本のことなど考えちゃいない、
  IME2007は社員ですら嫌がる出来の悪さだ、

と読み取って 「絶句」 する人もいるんではないかとも思います。

けどまあ正直そのレベルで解釈しちゃうとナショナリズムめいた感情論に走りかねなくなってしまうので、そこから発生する議論には私は参加したくないなぁというのが正直なところです。


で。

古川さん・Jitta さんが試してみたという変換テストを私がやるのであれば。

1. 前提をはっきりさせます。

最低、まず IME のバージョン / リビジョンを提示。

個別パッチの可能性がありますので、できれば個々のモジュールのファイルバージョンを列挙した方が、前提環境のブレが少なくなると思います。

どのモジュールのバージョンを拾うかは、OfficeSP1ですぜご主人様の 「構成各ファイルのファイルバージョン」 程度で大まかに網羅できると思います。

2. 目的をはっきりさせます。

この場合に目的として掲げることができるのは、

  1. 初期状態(インストール直後)でどのような変換結果を見せるか
  2. 十分学習をさせた状態でどのような変換結果を見せるか

のどちらかではないでしょうか。

3. 環境を整えます。

初期状態での変換テストを行うのであれば、ユーザー辞書をクリア ( もちろん本来の業務に支障がないようにあらかじめバックアップを取っておく ) しておきます。

学習させた状態でのテストを追証可能な状態にするには、テスト直前の状態のユーザー辞書をバックアップしておきます。
もちろん追証してもらう場合には、バックアップしたユーザー辞書を提供するということになりますね。

おっと。
ここで気をつけておきたいのは、 IME2007 はユーザー辞書以外に自動学習ファイル、キャッシュファイルがあるということです。

これは、XPであれば %userprofile%\Local Settings\Application Data\Microsoft\IME12\IMEJP 、Vista であれば %userprofile%\AppData\Local\Microsoft\IME12\IMEJP フォルダ以下にある Dicts フォルダと Cache フォルダ以下にあります。
辞書をクリアした場合はこのファイルも事前にバックアップ → 事後にリストアしなければ復旧しませんし、追証時にもここのファイル群を提供しなければたぶん同様の結果は得られないのではないかと思います。

4. テスト項目を 「順番も含め」 明示します。

変換するごとにその結果を学習していくわけですから、変換の順番は非常に重要になります。

以上の手順を踏んで公開された変換結果でないと、再現が非常に難しい「体験記」レベルで終わってしまいますので、フィードバックしても有用な情報として活用してもらうにはかなり難しいような気がします。

まぁこれは必ずこうしなければならない、というものではありません。
私が真剣に変換結果のフィードバックを上げるなら、このような手順を踏むだろうな、ということです。

どうせせっかく手間暇かけるんなら、提供する側・される側双方に益のある情報でありたいと思うんですよ。


ついでに。

今、私が一番知りたいのは、変換結果はどのように学習されるのかです。

ユーザー辞書には、ぱっと考えて 「読み→漢字」 「その『読み→漢字』が有効になる文法パターン ( または語彙パターン? ) 」 の組み合わせで入っているように思えます。
で、「Trigram」 ってんですから、その単語の前後 1 単語ずつの組み合わせ ( またはそれ以上? ) で記録されているように思うんですよね。

で、手掛かりになるのは今のところ 「辞書ツール」 だけなんですけれども。

この辞書ツール、IME2003 までは 「単語の一覧」 「用例の一覧」 で 「読み→漢字」 と 「パターン」 をそれなりに閲覧できるようになっていたんです。明示的に単語登録せずに変換操作の中で覚えさせた単語についても [抽出] - [学習単語] にチェックをつけると表示されるようになっていましたし。

これが IME2007 になって、「用例の一覧」 タブがなくなってしまったんですよね。どんなパターンで学習しているのかを見ることができなくなってしまったんです。

IME2007 では学習単語は [フィルター] - [学習単語] で見ることができるんですが、実際ここで表示されるのは、英単語やカナへの変換単語、及び副辞書から使用実績のある単語のユーザー辞書への複写分 ( 人名辞書から一度選択した単語が次から優先的に表示されるのは、どうもこのユーザー辞書へ複写する仕組みで実現してるっぽいですね ) だけです。

例えば本エントリでたびたび使っている単語 「追証」 は、基本辞書には載っていません。一度 「追」 と 「証」 で連続変換したら 「追」 「証」 と 2 文節で表示されるようにりましたが、「追証」 という単語ではユーザー辞書には学習されていません。
たぶん 「 『追』 と 『証』 は連続して使用される可能性が高いよー」 というパターンで学習しているんだと思うんですが、このパターンを確認する方法が今のところないんです。

また、表示もされないんですから当然 「追」 「章」 と間違って連続変換させちゃった場合に、その学習結果を削除する方法も用意されていないということになります。

正直、初期辞書の出来が少々悪くたってかまわないんですよ私は。
どうせ一個人のボキャブラリや言い回しにぴったりフィットした形で提供されるに決まっている、なんてむちゃな希望は抱いていないので、私にとっての 「IME2007 の出来」 は、

学習を積み重ねていった結果、どこまで自分の文章を
スムースに変換してくれるように成長することができるのか

というところにあります。

ですから、学習は徹底的にしてほしい。
自動学習には絶対に限界がありますので、必要なつどメンテナンスしながらでも自分に最適化させていきたいわけです。

IME2007 とこれからも付き合っていこうとしている私としては、このへんを何とかしたいところですね。

トラックバック

このエントリーのトラックバックURL:
http://salv.miscnotes.com/mt/mt-tb.cgi/673

コメント

一つは、会社にたいしてだけ影響力があるわけではない(むしろ、会社に対してはなくなっていると言ってもいいのでは?)。会社の中で発言しているわけではない。愛をもった発言なら(そう思っていますが)、なおさら、発言には気をつけなければならないのではないか、と思います。


本文
学習にたいしての調教機能ですか。そこは思い至りませんでした。何も考えずに確定して、あとから見直すと誤変換があり、上書きしようとすると誤変換が一番の候補になる。こういうとき、「消したいなぁ」と思います。
ATOKには、学習に「強弱」があり、「弱」であれば数回変換しないと辞書登録されません。IMEには、該当する調整機能はないのでしょうか。

カスタマーエクスペリエンスは、個人の特定はできませんが、データの特定はできるのですよね?Officeの、使われ方にたいして、送られるデータに、ちょっと不安が...

> 一つは、

いやそれを私に言われましても(^^;)。

古川さんはどうもそのへんワカっててあおってるような気がするんですよね。
MS社員の文言もわざと誤解するように再構成してあるように読めますし、ことさら感情的に反応するエキセントリックな言い回しを多用している文章の組み立てにしているように思います。

しかし製品の評価という技術的な観点からは必要な情報がほとんど提供されておらず(追証しても結果が異なる、というのはJittaさんからも情報を上げてくださっていますよね)参考になりません。
かえって感情的に刺激された人たちがとんちんかんな議論に進んでいくだろうな、という判断で、2/15の時点で読んではいたんですが華麗にスルーしておりました。

---

カスタマ エクスペリエンス向上プログラムにつきましては誤解も多いようなので、Jittaさんのエントリの方にコメントさせていただきました。

「学習の強弱」がIMEに搭載されているかどうかは、私は知りません。

でも、ATOKにそんな機能がついているのであれば、IME同様「登録した単語が出ない」「さっきの変換結果が活かされない」という不評が出てもおかしくない状況ではないかと思います。

あまりそういう意見を聞かないのはなぜなんだろうなあ。

・私がATOKユーザーの意見を積極的に収集していない
・ユーザーがストレスを感じないように、強弱の反映等に工夫を凝らしている
・「そういうもんなんだ」というアナウンスが徹底されており、
 ユーザーが機能に対して誤解をしていない

くらいがぱっと思いつくんですけれども。

コメントを投稿