junya + datamining 13
簡単分類ツールfutabaを作ってみた - EchizenBlog-Zwei
february 2012 by junya
しばらく前に作ったライブラリtsubomiのサンプルとして簡単分類ツールfutabaを作ってみた。あくまでtsubomiのサンプルなので高性能というわけではないが、ちょっとしたマイニングに使うには便利かもしれない。
本ツールは事前に用意した学習データ(クラス名と素性ベクトルのペア集合)から重みベクトルを学習させ、新しい入力(素性ベクトル)を学習時に与えたクラスのいずれかに分類するという一般的な分類ツールとなっている。クラスをアイテムとみなすことでレコメンデーション、類似文検索用途でも利用が可能。
datamining
software
本ツールは事前に用意した学習データ(クラス名と素性ベクトルのペア集合)から重みベクトルを学習させ、新しい入力(素性ベクトル)を学習時に与えたクラスのいずれかに分類するという一般的な分類ツールとなっている。クラスをアイテムとみなすことでレコメンデーション、類似文検索用途でも利用が可能。
february 2012 by junya
CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei
february 2012 by junya
しばらく前から作っていた全文検索ライブラリtsubomiを公開しておく。
本ライブラリは接尾辞配列(Suffix Array)というアルゴリズムを使っていて、入力として与えたキーワードを含む行をテキストデータから探して、その行と出現位置を取得できる。さらに圧縮接尾辞配列(Compressed Suffix Array)による圧縮もサポートしているのでインデックスサイズを小さく抑えることができる。
本ライブラリは検索のためのAPIのほかに、インデックス作成、圧縮、検索を行うツールが付属している。ツールを使うだけでも、ある程度のことができる。
software
datamining
本ライブラリは接尾辞配列(Suffix Array)というアルゴリズムを使っていて、入力として与えたキーワードを含む行をテキストデータから探して、その行と出現位置を取得できる。さらに圧縮接尾辞配列(Compressed Suffix Array)による圧縮もサポートしているのでインデックスサイズを小さく抑えることができる。
本ライブラリは検索のためのAPIのほかに、インデックス作成、圧縮、検索を行うツールが付属している。ツールを使うだけでも、ある程度のことができる。
february 2012 by junya
電撃文庫の新刊はどれを買うべきかを機械学習で求めてみた - EchizenBlog-Zwei
february 2012 by junya
最近はものすごい数のライトノベルが出版されている。中でも大手の電撃文庫では毎月10冊以上もの新刊が発売されるためどれを買ったらいいか困ってしまう。
そんなときこそ機械学習の出番ではないか!というわけで先日作った簡単分類ツールfutabaを使って今月の電撃文庫はどれを購入すべきかを判定してみたよ。
具体的なツールの使い方は前回の記事を参考にしていただくとして、本記事では結果だけをまとめておく。興味が湧いたらぜひ分類ツールfutabaを使ってみてほしい。
lightnovel
datamining
@5
そんなときこそ機械学習の出番ではないか!というわけで先日作った簡単分類ツールfutabaを使って今月の電撃文庫はどれを購入すべきかを判定してみたよ。
具体的なツールの使い方は前回の記事を参考にしていただくとして、本記事では結果だけをまとめておく。興味が湧いたらぜひ分類ツールfutabaを使ってみてほしい。
february 2012 by junya
ロリではないスポ根ラノベ「Let it BEE!」を読んだ - EchizenBlog-Zwei
february 2012 by junya
スポ根ラノベといえばアニメが絶賛放映中のロウきゅーぶ!が話題だが、今回読んだのはロリどころか萌え成分も特に無い正統派スポ根ライトノベル「Let it BEE!」。
先日、機械学習で今月読むべき電撃新刊を推薦したところ本作が選ばれた。よって本当に機械学習で私にあったラノベを見つけることができるのかを検証するために本作を購入して読んでみた次第。
lightnovel
datamining
@5
先日、機械学習で今月読むべき電撃新刊を推薦したところ本作が選ばれた。よって本当に機械学習で私にあったラノベを見つけることができるのかを検証するために本作を購入して読んでみた次第。
february 2012 by junya
風鈴、あるいは文字列検索フレームワーク
february 2008 by junya
Fooling (風鈴) は Python と ありあわせのライブラリでつくった 文字列検索のためのフレームワークです。数千〜数十万件の文書の中から 日本語の文字列を検索・表示するのに向いています。 F
python
software
datamining
february 2008 by junya
PDFMiner
december 2007 by junya
PDFMiner is a suite of programs that help extracting or analyzing text data from PDF documents.
python
pdf
software
datamining
december 2007 by junya
Copy this bookmark: