CasualConc は Mac OS 10.5 Leopard 用のコンコーダンサー(コーパス分析ソフト)です。Ruby + RubyCocoa で書いてあり、研究目的ではない、普段使いを想定しています(研究に使用してもらってもかまいませんが、検索結果に責任を持てない、ということです)。100万語ほどのコーパスならそれなりの速度で動きますが、1000万語になると、検索結果やツールによっては処理にそれなりの時間がかかるかもしれません(うちのマシンは Mac mini C2D 1.86GHz です)。機能としては kwic、クラスター分析、共起分析、単語頻度表作成などがあります。

クリックして拡大

現在のバージョン:0.9.7(ベータ)- 最終更新日 6/7/2008

システム要件:Mac OS X 10.5 (Leopard) 専用で 、画面表示は 1280x800 以上に最適化されています。メモリは多ければ多いだけ、最低でも 1GB 位はあるとそれなりに動きます。一応、Universal Binary になっています。

テキストファイルフォーマット:テキストファイル (.txt) で、ASCII もしくは UTF-8 でエンコードされているものが基本です。実験的に、他のエンコーディングと他のファイルフォーマットにも対応させました。あくまでも実験的に加えただけなので、読み落としがある場合があります。PDFファイルはテキストが埋め込まれている必要があります。また、テキストファイル以外のファイルを読み込む場合は、まずテキストを抽出するため、処理時間がその分多くかかります。詳しくは、使い方もしくはManualを参照してください。

処理できる言語:1 バイト文字で半角スペースで単語が区切られていれば、処理できるようになっています。実験的に、日本語を扱える機能もつけました(かなり限定的でファイルモードのみですが)。kwic 検索では単語の検索と左右5文字(標準)または5語(分かち書き)による並べ替えができます。標準(単語間スペースなし)と分かち書き(半角スペースで単語を区切った)をした日本語のファイルに対応しています。いまのところ(もしかしたらこれから先も)並び替え時の単語の色づけができません。文脈語での限定もできません。他の2バイト文字言語も同様に扱えるはずです(文字コードが UTF-8 であれば)。それ以外のツールでは半角スペースで分かち書きをしてあれば使えるはずです。分かち書きファイルはどこかで Chasen を使うか、jparser を試してください。日本語を扱う場合は、Preferece の Concord にある Corpus Text Type を Japanese にしてください。

このような方に:Mac 利用者で、ちょっとしたコーパスを使った単語検索や、初期研究でちょっとコーパスを探ったり、教材を準備するために、わざわざ Windows マシンをたちあげたり、BootCamp で Windows にスイッチしたり、Virtual PC、Parallels、VMWare Fusion などを立ち上げたりするのが面倒な人。おそらく、研究用のメインのツールとしては使用に耐えないでしょう。

CasualConc は未だ開発中です。基本的な機能は備えていますが、最終仕様が固まっていませんし、十分なテストもすんでいません。また、マニュアルなどが十分に準備されていません(英語のものから進めています)。このような状態でも、ためしてみたいと思う勇気のある方は、ダウンロードページ(英語です)からダウンロードして使ってみてください。その際は、casualconc (at) gmail.com まで使用感などを送ってもらえるとうれしいです。( (at) を @ に置き換えてください)。

CasualConc はフリーウェアのつもりで開発しています。でも、気に入ったら、どこかで万が一お会いする機会があったら、コーヒー、ランチ、おいしいチョコレートなど、いただけるとうれしいです(まあ、ないでしょうが)。

 

ついでに、このサイトにはいくつかのユーティリティソフトも置いてあります。機能の保証はありませんが。すべて Ruby + RubyCocoa で書いてあるので Leopard 専用です。とりあえず、β版ということにしておきます。