POPFile

| | コメント(0) | トラックバック(1)

メールの振り分けを補助してくれるソフト。
使ってみました。

・Project: POPFile (SourceForge.net)
http://sourceforge.net/project/showfiles.php?group_id=63137

POPFile ドキュメンテーション」を参考にインストールしました。

「簡単インストールの Windows バージョン」を使ったのでインストールには特に問題ありませんでした。

現在のバージョンは、v0.21.1 (Windows)。

訳者注: POPFile は 0.20.0 より、言語を Nihongo に設定すれば日本語のメールを正しく分類できるようになりました。
POPFile ドキュメンテーション

との事。
昔はパッチをあてないといけなかったんですね。

初めて触った時の覚え書き

特別なことは書いてないかも。

POP3でメールを取得する時に、POPFileをPROXYとして動作させ、受信メールを保存する。
「POPFile」内と「メーラー」内に同じメールが保存されることになる。

インストール時に「spam」「personal」「other」などのカテゴリを作成しておく。
このカテゴリを「バケツ」と呼ぶ。

最初、POPFileはメールを「unclassified」の「バケツ」分類する。
「POPFile UI」(ブラウザベース)を使ってメールを各バケツに振り分けると、そのメールに含まれていた単語を学習していく。
ある程度学習すれば、受信メールを各バケツに自動で振り分けてくれる。

各バケツ毎に「件名の変更」「X-Text-Classification ヘッダーの追加」「X-POPFile-Link ヘッダーの追加」「隔離」の設定が出来る。

「件名」「X-Text-Classification」ヘッダーなどを使って、メーラーの振り分け機能でメールを振り分ける。

「X-POPFile-Link」ヘッダーに書かれているリンク先を表示するとメールの内容を見ることが出来る。(POPFileが起動していること)

「差出人」や「宛先」や「件名に含まれる単語」を元にバケツに振り分ける「マグネット」という機能がある。
マグネットで振り分けた時は、単語を学習しないと思う。

「C:\Documents and Settings\USERNAME\Application Data\POPFile」に「Run SQLite utility」という「sqlite.exe」へのショートカットがある。
「SQLite」を使ってるんですね。
「popfile.db」の中を表示/編集できるっぽい。
テーブルの構造が分からないし、普通に「POPFile UI」から操作して、普通に学習させる方が良いでしょう。。。

# ヘルプの表示
sqlite> .help
.databases             List names and files of attached databases
.dump ?TABLE? ...      Dump the database in a text format
.echo ON|OFF           Turn command echo on or off
.exit                  Exit this program
.explain ON|OFF        Turn output mode suitable for EXPLAIN on or off.
.header(s) ON|OFF      Turn display of headers on or off
.help                  Show this message
.indices TABLE         Show names of all indices on TABLE
.mode MODE             Set mode to one of "line(s)", "column(s)",
                       "insert", "list", or "html"
.mode insert TABLE     Generate SQL insert statements for TABLE
.nullvalue STRING      Print STRING instead of nothing for NULL data
.output FILENAME       Send output to FILENAME
.output stdout         Send output to the screen
.prompt MAIN CONTINUE  Replace the standard prompts
.quit                  Exit this program
.read FILENAME         Execute SQL in FILENAME
.schema ?TABLE?        Show the CREATE statements
.separator STRING      Change separator string for "list" mode
.show                  Show the current values for various settings
.tables ?PATTERN?      List names of tables matching a pattern
.timeout MS            Try opening locked tables for MS milliseconds
.width NUM NUM ...     Set column widths for "column" mode
 
# データベースの表示
sqlite> .databases
0           main        C:\Documents and Settings\USERNAME\Application Data\POPFile\popfile.db
1           temp        C:\DOCUME~1\USERNAME\LOCALS~1\Temp\sqlite_XXXXXXXXXXXXXXX
 
# テーブルの表示
sqlite> .tables
bucket_params    magnet_types     user_params      words
bucket_template  magnets          user_template
buckets          matrix           users
 
# words テーブルの中身を表示してみる(沢山出るので注意)
sqlite> select * from words
   ...> go
(略)
 
# 終了
sqlite> .exit

「POPFile UI」の「履歴」でメールを削除すると、「C:\Documents and Settings\USERNAME\Application Data\POPFile\messages\」からメールが削除される。
削除したメールは、「X-POPFile-Link」ヘッダーのリンクなどから表示できなくなったり、バケツの変更が出来なくなる。
「分類されたメール数」や「(学習した)単語数」などは変わらない(はず)。
また、メーラー内のメールとは無関係。
ほおって置くと、そのうち勝手に削除されていくみたい?どのタイミングで削除されるんだろう?

各バケツに色を設定出来ます。
メールの内容を表示した時に、単語が属しているバケツの色になります。
各単語がどのバケツに属しているか分かるので、(私的には)面白い。

1000通くらい学習させたら、英語/中国語のspamの振り分けは問題ありませんでした(これだけなら1000通も要らない)。
ほとんど、日本語 or 外国語で振り分けてるので。
最近は日本語のspamの届く量が増えてきているので、日本語spamをどの程度判断してくれるか興味あるところ。

「Mozilla Thunderbird」の「Junk Mail Controls」は使ったことありました。
だから「メーラー」と「学習」が分かれているのはちょっと二度手間な感じがする事も。

メールサーバの接続に失敗したり、「POPFile UI」でサブミットを受け付けてくれなかったりする事があるのは、私の使い方の問題?それとも、安定性の問題?

top_ten (2004/08/07 追記)

・POPFile topten Utility (Enhanced Version) by Helphand
http://www.geocities.com/helphand1/topten_enhanced.htm
単語の回数や確率のトップ10 (デフォルト) のリストをHTMLで出力します。

0.19.x以前のPOPFileには使っちゃいけないらしい。

「topten.pl Use with Version v 0.21.0 of POPFile」をPOPFileインストールフォルダにダウンロード。
以下を実行します。

# トップ20をtop20.htmに出力
C:\Program Files\POPFile> perl topten.pl > topten.htm
 
# 例文の通り「-topten_count」だとうまく動かない
C:\Program Files\POPFile> perl topten.pl -topten_count 20 > top20.htm
Unknown option: topten_count
 
# 「topten_count」のようです
# トップ20をtop20.htmに出力
C:\Program Files\POPFile> perl topten.pl topten_count 20 > top20.htm

バージョンアップ (v0.21.1 → v0.21.2) (2004/08/07 追記)

外部接続を許可している際に発生する脆弱性の修正らしい。
外部接続を許可してないので関係ないけど、あげてみた。
初めてバージョンアップするので、ちょっとめも。

バージョンアップ時の注意点

1. バージョンアップの前に 必ずバックアップをとってください

POPFile のバックアップは、POPFile ディレクトリをどこかにコピーしておくだけです。コピーした後、新しいバージョンを上書きしてください。既存のコーパスや設定ファイルは自動的にアップデートされます(Windows 版はインストール時に自動的にアップデートされます。クロスプラットフォーム版は初回起動時に自動的にアップデートされます)。
POPFile: JP FrequentlyAskedQuestions/NewVersion

「C:\Program Files\POPFile\」をバックアップしてもしょうがないと思うので、「C:\Documents and Settings\USERNAME\Application Data\POPFile」をバックアップ。
バックアップして、普通に上書きインストールすれば良いっぽい。
で、問題なかったら、バックアップを削除しちゃって良いっぽい。
上書きインストールするだけで、問題なく終わってしまった。

バージョンアップ時のバックアップって? (2004/09/18 追記)

気付いたら「C:\Documents and Settings\USERNAME\Application Data\POPFile\backup」っていうフォルダが出来ていました。
POPFileのデータベースがバックアップされてるみたい。

フォルダの作成日は「v0.21.2」から「v0.22.0」に上げた時の日付になってる気がする。
自動でバックアップしてくれてるのかな?

自動でしてくれるんだったら、「バージョンアップの前に 必ずバックアップをとってください」って何だろう?

それともDB構造が変わったか何かの理由で、今回だけやってくれるとか?

リンク (2004/08/07 追記)

・POPFile: POPFileDocumentationProject
http://popfile.sourceforge.net/cgi-bin/wiki.pl?POPFileDocumentationProject
POPFileのドキュメントプロジェクト?
日本語の文書を探すなら、検索フォームに「JP」って入力するのがいいかも。

・POPFile: JP FrequentlyAskedQuestions
http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_FrequentlyAskedQuestions
FAQ 初心者・初学者向けのQ&A集 (日本語)
結構ためになりそう。

・POPFile: JP UtilityScripts
http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_UtilityScripts
POPFile と一緒に配布されているユーティリティ・スクリプト
面白そうだから、そのうち使ってみよう。

・POPFile: JP Glossary
http://popfile.sourceforge.net/cgi-bin/wiki.pl?JP_Glossary
用語集(日本語)

トラックバック(1)

このブログ記事を参照しているブログ一覧: POPFile

このブログ記事に対するトラックバックURL: http://kinshachi.ddo.jp/mt/mt-tb.cgi/313

» 迷惑メール対策:POPFile(お気楽極楽ブログ)~のトラックバック

迷惑メール(SPAM)は、もはや世界のインターネッ... 続きを読む

コメントする


画像の中に見える文字を入力してください。

このブログ記事について

このページは、ikeが2004年7月 5日 02:21に書いたブログ記事です。

ひとつ前のブログ記事は「リファラ隠し用のサイト」です。

次のブログ記事は「BHODemon」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

最近のコメント

Powered by Movable Type 4.261