- 08:57 RT @kimkeio : 経産省著作権提言タスクフォース(第1回)へ向かうなう #
- 09:02 @Tonton_ 私じゃないよ。慶應の金先生。経産省でこんなのあるんだと思ってRTsたのです。 #
- 18:51 基本問題小委員会の開催案内来た。 #
- 18:53 槙原・松本裁判の和解のニュースも来たけど、詳細がわからない。 #
- 18:56 @himagine_no9 19に行われたWTが文化庁のサイトに載っているけど中身がわからないですよね、あれじゃあ。 #
- 18:57 今度の基本問題小委員会は傍聴するつもり。最終戦も終わってるし。 #
- 19:58 「ず・ぼん15」、結構おもしろかった。ここ2,3号自分にはあまり興味が引かれなかったけど、今回はよかった。 #
- 19:59 マンガ図書館とコンサバとジャパニーズブックダムが良かった。 #
- 20:19 すごいな。RT @topitmedia : Twitter経由でのアクセスが最も多かったそうです。^宮本 :書籍「フリー」無料公開、2日で1万人突破 3割がTwitter経由 #
- 20:24 すごい。僕も見てみたい。RT @wor ris : 電車で Kindle を読む人を初めて見かけた。ただし外人さんだった。 #
- 20:27 藤沢駅で止まってる。踏切に車が入って、安全確認中。 #
- 20:28 まもなく運転再開。 #
- 21:56 著作権保護期間が永久とかになると、松本零士のような考えの人が、自分の遠い先祖の著作権を侵害しているぞ、と訴えまくるようになるんだろうな。 [TWNv790] #
- 21:57 デイリーの記事の松本側の代理人の「是は是、非は非で認め合い」って発言、是は槇原側、非は松本側にあった、ってことを認めたことなのだろうか? www.daily.co.jp/newsflash/2009/11/26/0002542631.shtml [TWNv790] #
- 21:58 毎日の記事には松本側の代理人は「謝罪というわけではない」とあるが。謝罪じゃないけどお詫びってどういうこと? mainichi.jp/enta/geinou/news/20091127k0000m040043000c.html [TWNv790] #
- 22:05 正直、電子文藝館が無断複製されても、経済的被害は微々たるものだろうな。 著作権法違反容疑で告訴へ ペンクラブのサイトを複製 - 47NEWS(よんななニュース) bit.ly/5hbbvB [TWNv790] #
- 22:09 あれ? 20日付のthinkCのメルマガ、届いていたかな? 著作権保護期間の延長問題を考えるフォーラム - thinkcopyright.org | メールマガジン bit.ly/6PzAFK [TWNv790] #
- 22:11 届いてた。見落としてたな。まあ、20日だと甲府戦の前日でそこまで気が回ってなかったか。 [TWNv790] #
- 22:30 基本問題小委員会の傍聴申し込んだ。J2の最終節のあとで良かった。 www.bunka.go.jp/oshirase_kaigi/2009/chosaku_syoui_091126.html [TWNv790] #
- 22:50 RT @mainichijpedit: 松本零士さんが「おわび」で槙原敬之さんと和解 bit.ly/7tWjEo 「銀河鉄道999」のセリフを歌詞に無断使用したと決めつけられて名誉を傷付けられた、と槙原さんが松本さんを訴えていました [TWNv790] #
- 23:03 槙原敬之のサイトにコメント出てる。 www.makiharanoriyuki.com/ [TWNv790] #
- 23:04 "本日、私、槇原敬之は、松本零士氏との間の裁判に関して、和解をいたしました。 (和解内容に関しましては、後日お知らせ致します。)..." tumblr.com/xpl49rfcj #
- 23:59 著作者や著作権者にも、読者の読書体験を汚す権利は無いと私は思う。松本零士や三田誠広を始め、読者の読書体験を怪我しまくっている人のなんと多いことか。 [TWNv790] #
Automatically shipped by LoudTwitter
slideshareに「Elastic MapReduceでお手軽Wikipediaマイニング」というスライドがあがっていることを、社内SNSで教えてもらった(OKIの社内SNSもなかなか侮れない)。ohkura.comの大倉さんという方が公開されたものらしい。
■ 分散処理×クラウド≒Amazon MapReduce
MapReduceはGoogleが開発した分散処理アルゴリズムで、オープンソースによるJava実装にHadoopがある。このアルゴリズムをうまく使うと、大量の処理を細かく分割して多数のマシンで並列処理し、短時間で終わらせることができる。
例えば、40万5千件ずつのTiffファイルおよびXMLファイルを100台のマシンで並列処理し、36時間で81万件のPNGファイルに変換したNew York Timesの例のようにだ。しかしそうはいっても、彼らは100台ものマシンをどこからかき集めてきたのか?それも明かされている。クラウドだ!100台もの仮想マシンを即座に提供してくれるクラウドサービス、Amazon EC2だ!
Amazonのクラウドサービスには、その後Hadoopによる処理に特化し、まさにそのために要したコンピュータリソース分だけしか課金されないAmazon Elastic MapReduceというサービスを発表している。僕が教えてもらったこの資料は、まさにこのAmazon MapReduceを利用して、Wikipediaの巨大なデータを解析しようというサンプルだ。
■ Elastic MapReduceとWikipedia研究
Wikimedia Conference Japan 2009で武田英明氏が指摘しているように、Wikipediaのダンプデータというのは大規模性と網羅性を満たし、入手性の高い、きわめて興味深い貴重なデータだ。一方ででは解析を行おうとすると、鈴木優氏の取り組んだ課題である、あまりに大きすぎるデータが簡単には賄えない計算コストを要求する。僕も「企業Wikiにシグネチャを」にあるsilubeプロトタイプを開発した際、この困難を痛感した。
もちろん解決方法は分かっている。スケールアップかスケールアウトだ。モンスターマシンか分散処理だ。個人が手を出せるのは、Amazon EC2×Hadoop=Amazon Elastic MapReduceだ。
僕は今、silubeプロトタイプを再構築しようと、しばらくの間になまらせてしまったPerlスキルのリハビリを始めている(silubeプロトタイプはPerlで書かれている)。それが済んだら、拙い理解力でおずおずとAmazon EC2とHadoopの学習に進むしかないだろう、と思っていた。これをインスタントに理解させてくれそうな、手を動かして入門できるサンプルがこのタイミングで公開されたのはとてもありがたい。
もちろん、誰かに先を越されるのは大歓迎。さぁ、みんな、クラウド×Wikipedia研究を始めよう!
- 21:03 RT @sophizm: 有料化したからってついったーは失敗しないと思うけど、有料システム自体は失敗しそう。 #
- 21:11 著作権にしても特許にしても、思いとかプライドとかをごっちゃにされるとややこしくなるだけ。財産権なんだから、金の問題なんだよ、お金のね。 #
- 21:13 著作権があろうが特許があろうが、それはあんたの思いを守ってくれるものじゃないんだから。 #
- 21:26 RT @surumeno13 : Jのサポーターのみなさんのネットでの存在感とスタジアムでの動員って微妙にリンクしていないような感じがするのは観測範囲の印象(はてなとつ いったー)がそうだからかな。アメブロとかmixiだとこれまた勢力が違っていたりするのかしら。 #
- 21:29 私もそう。あと誤変換も。T @ladu16 : postした後で "てにをは" がイマイチなことに気付いて一人身悶えることが最近多い #
- 21:30 そういっているそばから、間違って「R」を消してるし。 #
- 21:33 @himagine_no9 やめてくれ~! #
- 21:36 @himagine_no9 くっそ~ #
- 21:38 @banraidou さんまでも。いじめだ! #
- 21:58 帰宅なう。 [TWNv790] #
- 22:03 キータイプ専用マシンポメラ シャア「通信機能は付いていない」 ジオン兵A「あんなの飾りです。iPhonユーザーにはそれがわからんのですよ」 [TWNv790] #
- 22:03 シャア「使い方はさっきの説明でわかるが、ポメラな、私に使えるか?」 ジオン兵A「大佐のキータイプの能力は未知数です、保証できる訳ありません」 シャア「はっきり言う。気にいらんな」 [TWNv790] #
- 22:06 またやってしまった。 [TWNv790] #
- 22:10 回答期限、あと1時間半を切りました。著作権保護期間延長についてのアンケートに是非ご協力ください。 q.hatena.ne.jp/1258554898 [TWNv790] #
- 22:11 現在、回答数912です。 [TWNv790] #
- 22:15 輸入権? あんなのは飾りです。レコード業界にはそれがわからんのですよ。 [TWNv790] #
- 22:26 @flyingnote あのセリフはいろいろと応用できますよね。 [TWNv790] #
- 22:31 川端文部科学大臣の会見、あがってた。 www.mext.go.jp/b_menu/daijin/detail/1287260.htm [TWNv790] #
- 22:32 "記者) 著作権の保護期間なんですけれども、70年というのは、民主党、鳩山内閣の方針ということでよろしいんでしょうか。 大臣)..." tumblr.com/xpl48yj8i #
- 22:48 RT @Hideo_Ogura: 著作権の保護期間の関係は、市民からの抗議等にきちんと対処している議員が存在せず、全て黙殺されているのだなあ。次の選挙は市民を敵に回しても勝てると思われているのかなあ。 [TWNv790] #
- 22:53 [著作権]川端文部科学大臣の会見: 著作権保護期\xE9 \x96\x93延長に意欲を見せたという11月20日ã.. bit.ly/7dEaEc #
- 23:09 [記事] 特許庁、「スーパーサーチャー」を育成。|酒井美里ブログ 「検索が好き!調査が好き!」 ameblo.jp/sakaimisato/entry-10396320965.html [TWNv790] #
Automatically shipped by LoudTwitter
- 04:47 Psi を 0.14-rc2 にアップデート psi-im.org/ #
- 05:51 結局昨夜は夜中近くまで仕事。街に出ると既に撤収作業をやっていて食べ物の匂いだけが残っていたり。悔しいのでそのまま飲みに出てしまった。 #
- 06:09 ウケた: Haskellerはプログラミング界の立川談志である d.hatena.ne.jp/kazu-yamamoto/20091121/1258773719 #
Automatically shipped by LoudTwitter
- 21:35 久しぶりにベルマ系のブログに書かなきゃならないことができた。こんな大事なときなのに、こういうことが出てくることに憤りを押さえられない。 #
- 21:36 3連休からの盛り上がった気分に冷や水をかけられた気分。 #
- 21:39 いままでこの言葉嫌いだから使っていなかったけど、今日は使うぞ、「マスゴミ」め。 #
- 21:41 マスゴミじゃなくて「ミニゴミ」かもしれないが。市長の記者会見だからね。 #
- 21:43 週末までは延長問題の方に気を向けるつもりだったけど、今日は\xE3\x81 \x9Dっちはできんな。アンケートあと1日だけど。 #
- 21:48 市長に意見も出さないと。あんな腐った記者の意見に影響されるなと。 #
- 21:58 ベルマーレサポで平塚市長の会見チェックしたり、市議会の動きをチェックしてるの多分俺だけっていうのは何とかしないとな。後2,3人でいいからそういう人が出てきて欲しい。 #
- 22:03 市がベルマーレに冷たいのは確かだけど、市の動きに何の注意も払わないで「冷たい」って文句言ってるだけじゃ何も変わらない。逆にサポーターが市の動きを常にチェックし、市に声を送り続けなきゃ。 #
- 22:06 そうだな、今度そのノウハウをまとめてブログに書くようにしよう。市のチェックったってそんなに難しいことじゃないんだよね。 #
- 22:08 更新情報と、市長記者会見と、議会情報の3カ所を見るだけだから。毎日じゃなくても全然大丈夫だし、アンテナとか使えば簡単だし。 #
- 22:09 サポのブログを巡回するついでにまわればいいんだから。 #
- 23:09 20 [平塚]市長定例記者会見での記者の横暴: 久しぶりの更新でこのようなことを書かな... bit.ly/4JEp4n #
- 23:26 そうか、自分のベルマーレ系ブログにも保護期間延長反対のバナー貼ってるからヒットしたのか。 [TWNv790] #
- 23:58 はてなで行っている、著作権保護期間延長の是非についてのアンケート、残りあと1日を切りました。 はてなidをお持ちでまだご回答いただいていない方は、是非ともご協力願います。 q.hatena.ne.jp/1258554898 [TWNv790] #
- 00:14 平塚市長とベルマーレに好意的な市議会議員にメールを出した。 [TWNv790] #
- 00:42 民主党にはまだメール出せていない。 [TWNv790] #
Automatically shipped by LoudTwitter
- 02:33 ツィッター #life954 [TWNv790] #
- 02:47 お、ネット中継が止まった。 #life954 [TWNv790] #
- 02:51 繋がった #life954 [TWNv790] #
- 02:56 また切れた #life954 [TWNv790] #
- 02:57 復活。 #life954 [TWNv790] #
- 03:10 RT @sodachi: 金髪津田野郎 #life954 [TWNv790] #
- 03:39 地球がむいていない。 #life954 [TWNv790] #
- 12:57 エルゴラ買ってきた。休みだ\xE3 \x81\x8Bら出るのは明日だと思っていたけど、今日出てたのね。 [TWNv790] #
- 13:00 セブンイレブンでは、最終節の水戸戦アウェイ席売り切れてた。ローソンも売り切れらしい。後で駅前のファミマ行かなきゃ。 [TWNv790] #
- 13:01 まあ、最悪ホーム側の席買うけど。 [TWNv790] #
- 13:02 アンケートの回答数が伸びなくなってきた。是非ともご協力お願いします。 [TWNv790] #
- 13:03 著作権保護期間延長の賛否についてのアンケートです。 q.hatena.ne.jp/1258554898 [TWNv790] #
- 13:06 現在回答数828。1000は集めたいな。 [TWNv790] #
- 14:44 ファミマでチケット買えた。 [Movatter] #
- 21:04 もう一つbotをつくって見たんだけど、機能するかな? [TWNv790] #
- 00:10 今週の土曜日のMiAUの2周年パーティは行けません。ホーム最終戦の前日に行けるわけ無いじゃないか。昇格がかかってるんだよ。 [TWNv790] #
- 00:13 とりあえず、2つめのbotは動き出した模様。ノイズは多そうだが。私\xE3 \x81\x8Cフォローしている一番新しいのがそれ。 [TWNv790] #
- 00:14 Yahoo! Pipesが調子悪いのか分からないけど、ちょっと今回は苦労した。 [TWNv790] #
- 00:19 . @sekikos @himagine_no9 申し訳ないですが、正直それどころじゃ無いのです。この10年間の思いを掛けた大事な試合の前日なので。 [TWNv790] #
- 00:28 申込忘れてた版元ドットコムの忘年会、遅ればせながら申し込んだ。こっちはシーズン終わってからの開催なんで、大丈夫。 [TWNv790] #
- 00:41 アンケートの回答数が伸びていないので、しつこ\xE3 \x81\x84ようですが宣伝します。 はてなで著作権保護期間延長の是非についてのアンケートを行っています。ご協力ください。 q.hatena.ne.jp/1258554898 [TWNv790] #
Automatically shipped by LoudTwitter
慶応義塾大学オープンリサーチフォーラム内のセッション「創造するアーキテクチャ」を聞いてきました。話は多岐にわたって、楽しく聞いたのにもかかわらず、頭の中で整理できないので触れません。twitterの#afc2009を眺めるなどして内容は察してもらえれば。
(11月26日追記:「創造するアーキテクチャ2」の動画がYouTubeで公開されています。)
その中で出た話の一つに「個室都市東京」があったのですが、これがすぅっと背中を抜けるような怖さでした。見ていないのだけど、江渡さんの紹介が分りやすくて、特に声音を使うでもなく訥々と語られるのだけど怖い。舞台は個室ビデオ(を模した空間)。
『個室都市 東京』に訪れる観客は、その個室に設置された作品、ビデオ・インスタレーションを鑑賞することができる。その内容は、壁を一枚隔てた向こう側にいる、池袋西口公園に関わる人たちへのインタビュー映像となる予定。(個室都市東京 - 作品について)
その質問内容は「ほしいものは何ですか?」「マクドナルドにはよく行きますか?」「どこに住みたいですか?」「友達はいますか?」「日本についてどう思いますか?」「難民についてどう思いますか?」「天皇に会ったことがありますか?」「日本は労働力を受け入れるべきだと思いますか?」「生きがいは何ですか?」…などであり――最後の質問として「あなたは一体誰ですか?」と投げかけられ、インタビュイーがそれに答え一枚のDVDが終了する。(日常の想像力 - 出会ったのは誰か)
ここで、あなたはどんな人ですか、そして深く深く掘り下げていった後で、あなたは誰ですかとインタビュイーが問われるのを目にする。これがだんだん、自分が問われたらという思いを掻き立ててきて、なにか恐くなると江渡さんは言う。そしてさらにツアーが続く。
この作品に訪れた観客は、オプションのメニューとして用意されたツアー等に参加することもできる。ツアーは池袋西口公園を基点として訪ね歩くことができる範囲のもので、参加者はナビゲーションに従いながら、東京に営む人々の日常生活を何らかの形で追体験するものとなる予定。(個室都市東京 - 作品について)
江渡「個室都市東京のツアー。出会い系カフェでマジックミラーの向こうにさっき個室DVDで見た人達(メイドやホームレス)がマクドナルド風の空間にいる。そして選んだ人と個室に入って、今度は自分が質問され、最後に「あなたは誰ですか」と質問される」(twitter - tokada)
個室DVDを出たあなたは(私は)その足で出会い喫茶(を模した空間)に足を運ぶ。テレビモニタの無効のマクドナルド風の空間に待機する人たち。それはDVDに出ていたその人であり、指名した彼ら、彼女らから実際に問われるのだ。あなたが(私が)、誰なのか、と。
個室ビデオ、出会い喫茶、あるいはマクドナルド。僕が感じたのは、都市の中でもっとも匿名的な存在であれる場所、シェルター的なそうした空間で、徹底的に匿名性が剥ぎ取られるのを目にし、そして体験するという恐さだ。そんなことになれば一体世界のどこに匿名性が残ることを許されるんだろう。シェルターを失い、剥き身の自分と向き合い続けなければいけない、「匿名性が消失」する恐怖を見せられてるんじゃないのか。体験しなかったイベントだけど、そうした恐さを感じた。
ちょうど一昨日ぐらいから、森見登美彦の「きつねのはなし」を読んでいる。中篇集だが、表題作である「きつねのはなし」から受けた恐さがこれに似ていた。逆か。「きつねのはなし」からうけて消化しきれずにいる恐さがあったから、個室都市東京の話から、そう印象を受けたのかも知れない。いろんなものを差し出し,多くのものを剥ぎ取られ、何も残っていない自分を見つけてしまうという可能性が恐い。表題作から一節引用しよう。
「夜遅くに起きていて、なんだか、わけもなく怖くなることがありませんか?」
「ときどき、あります」
「朝になれば、なぜあんなに不安だったのか分らなくなるでしょう。それと同じなのです。東京はいつも夜なのです」
- 02:24 帰宅なう。 [TWNv790] #
- 11:27 起きた。 [TWNv790] #
- 11:50 Video: 甲府vs湘南 JAGS (via 66pansuto) tumblr.com/xpl46co38 #
- 11:52 Link: 甲府対湘南は、ロスタイムの決勝ゴールで湘南が勝利 - サポティスタ tumblr.com/xpl46cpgg #
- 11:55 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 試合前にグリーンリボンプロジェクトのリボンがサポーターに配られた。 tumblr.com/xpl46crka #
- 11:56 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 入場直前、田原と中村が声を掛け合って気持ちを高める。 tumblr.com/xpl46csaz #
- 11:56 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト サポーターの手によってブルーのハートとグリーンの海が小瀬のスタンドに出現し、選手を鼓舞。 tumblr.com/xpl46csnl #
- 11:57 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 試合開始早々の前半6分に中村が冷静にシュートを流し込んで先制! tumblr.com/xpl46ct18 #
- 11:57 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 貴重な先制点を奪った中村を坂本が祝福。 tumblr.com/xpl46cth0 #
- 11:58 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 激しいマークに耐え、前線でポイントとなった田原は先制点をアシスト。 tumblr.com/xpl46cu7n #
- 11:58 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 臼井が鮮やかなシュートで追加点を奪い、前半10分で2点のリードを\xE5\xA5 \xAAった。 tumblr.com/xpl46cud0 #
- 11:59 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 圧倒的な高さと強さを誇るジャーンのヘディングが決勝ゴールの起点となった。 tumblr.com/xpl46cuyg #
- 12:00 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 臼井のゴールのきっかけとなったクロスを上げるなど縦横無尽にピッチを駆け抜けた寺川。 tumblr.com/xpl46cvmn #
- 12:01 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サ\xE3\x82 \xA4ト 2失点を喫したが、この日も野澤は安定感抜群のセーブで甲府の猛攻を凌ぎきった。 tumblr.com/xpl46cwfh #
- 12:02 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 勝負を決めたのはまたも坂本。抜群の勝負強さをあらためて見せつけた。 tumblr.com/xpl46cx2l #
- 12:03 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 試合終了間際のラストチャンスを坂本が叩き込んで勝ち越し点を奪う! tumblr.com/xpl46cxth #
- 12:04 Photo: 【フォトア\xE3 \x83\xABバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 劇的なゴールを決めた坂本は一目散にゴール裏のサポーターの元へと駆け寄った。 tumblr.com/xpl46cyku #
- 12:06 Photo: 【フォトアルバム】2009 J2第49節甲府戦 « 湘南ベルマーレ公式サイト 勝利を告げるホイッスルにベンチに下がった選手たちが喜びを爆発させる。 tumblr.com/xpl46czp1 #
- 12:11 "ただ、ちょっとね。こういういったゲームにスローインの時に選手が変わってカードを貰ってしまったことは残念。" tumblr.com/xpl46d3uz #
- 12:15 Link: J2、湘南3―2で甲府破る 熊本は東京Vに快勝 - 47NEWS(よんななニュース) tumblr.com/xpl46d6ks #
- 12:15 Link: 湘南坂本決勝弾「最後にチャンス」/J2 - サッカーニュース : nikkansports.com tumblr.com/xpl46d6xd #
- 12:16 Link: 湘南 11季ぶりのJ1間近!ロスタイムで天王山制す(サッカー) ― スポニチ Sponichi Annex ニュース tumblr.com/xpl46d7nb #
- 12:17 Link: asahi.com(朝日新聞社):J2湘南、J1復帰に前進 直接対決制す - スポーツ tumblr.com/xpl46d869 #
- 12:17 Link: J2:湘南が甲府を降す…残り一つのJ1昇格枠争い - 毎日jp(毎日新聞) tumblr.com/xpl46d8md #
- 12:18 Link: ロスタイムV弾!湘南11年ぶりJ1王手(サッカー) ― スポニチ Sponichi Annex ニュース tumblr.com/xpl46d9a3 #
- 12:19 Link: 湘南坂本決勝G11年ぶりJ1へ前進/J2 - サッカーニュース : nikkansports.com tumblr.com/xpl46d9ra #
- 12:20 Link: 湘南、ロスタイムで天王山制す!J1間近に - サ ッカー - SANSPO.COM tumblr.com/xpl46dab8 #
- 12:21 Link: 反町監督「どっちに転んでもおかしくないゲーム」/甲府戦から:ローカルニュース : ニュース : カナロコ -- 神奈川新聞社 tumblr.com/xpl46db1j #
- 12:21 Link: 【コラム】「無心で」振り抜いた決勝点/ベルマーレ:ローカルニュース : ニュース : カナロコ -- 神奈川新聞社 tumblr.com/xpl46dbdc #
- 12:38 Video: ベルマーレ勝利のダンス@小瀬 (via overtake2) 一瞬オレが写ってる。 tumblr.com/xpl46doc6 #
- 12:49 Video: 甲府2-3湘南 ロスタイムノーカット版 J2第49節 (via torochan14) tumblr.com/xpl46dwk6 #
- 12:55 Link: Jリーグ公式サイト:Photo:湘南が劇的勝利で甲府を撃破。昇格争いを一歩リード tumblr.com/xpl46e1fj #
- 14:37 関西館は非来館型のサービスを行うものだと私は理解しているのだが、違うのか? 寂しき「知の殿堂」国会図書館関西館 来館1日200人 : ニュース : 関西発 : YOMIURI ONLINE(読売新聞) bit.ly/6kpXh7 [TWNv790] #
- 14:44 "関西館の建設目的..." tumblr.com/xpl46gfhw #
- 15:12 来館者を増やす努力をするよりかは、より非来館型のサービスの充実を目指すべきでは。 [TWNv790] #
- 16:14 "歓声や溜息、怒号が飛び交うなか、湘南のチャントだけが途切れることなく小瀬に響く。ゴールに向かい続ける湘南の姿勢そのもののように。" tumblr.com/xpl46i6wd #
- 16:14 Link: J's GOAL | J'sGOALニュース | 【J2:第49節 甲府 vs 湘南】\xE3\x83 \xACポート:湘南側レポート:今季10試合目となる89分のゴール。坂本紘司の決勝弾で、湘南が小瀬の死闘を制す tumblr.com/xpl46i6xx #
- 17:18 Video: J2-48 湘南ベルマーレvsヴァンフォーレ甲府 ハシゴ (via nurinurikabekabe) tumblr.com/xpl46j9yz #
- 19:21 "皆の、そして10年の想いが選手を押している。ただ勘違いはいけない。まだ2つある。まだ何も決まっていない。これから2試合平常心で闘えるか。我々も皆さんも。" tumblr.com/xpl46kzgl #
- 20:36 "とのいけです。 今日甲府小瀬で行わ\xE3\x82 \x8CたJ1昇格をかけた「甲府対湘南」戦は3-2で湘南の勝利。 解説をやらせてもらい、本当に痺れる試合に立ち合わせてもらえた。 山梨、そして甲府という街。..." tumblr.com/xpl46lvkz #
- 20:38 甲府と湘南(平塚)の両方に在籍していた外池大亮元選手のブログにしびれた。 Tonoike.Net » しびれた m-naoto30.kir.jp/wordpress/?p=497 [TWNv790] #
Automatically shipped by LoudTwitter
- 13:26 Psi を 0.14-rc2 にアップデート psi-im.org/ #
Automatically shipped by LoudTwitter
昨日の「知の構造化センターシンポジウム」で楽しくなってしまって、今日のWikimedia Conference Japan 2009も行って来ました。ただ、朝は起きられなかったので、午後から。twitterの#wcj2009_Hに@argさんという方が投げている内容や、@mhatta氏のつぶやきを見ていると午前中の「辞書・事典とは何か」は必聴モノだったようで、そこはじわじわと後悔中。
テキスト解析好きなので、ずっと技術セッション=第21回セマンティックウェブとオントロジー研究会を聞いていました。以下メモ。昨日のも同じだけど、僕がメモをミスってたり誤って理解している部分があるかもしれません。その点は考慮してお読みください。改めて見返すと、参加した人にしか分らないキーワードの羅列になってるし、読む人がいるのか分からないけど。
【Wikipediaと研究コミュニティ】(武田英明 国立情報学研究所)
http://www.slideshare.net/takeda/wikipedia-and-research-wcj2009
ソーシャルメディアとしてのWeb
創造とは
・創造は無から生じない(Collect)
・他者の仕事を知り、理解する(Create)
・他者へ自らの仕事をみせていく(Donate、一般にはPublishing)
・これがループ
・このループへの参加を一般人でも可能に、またループを加速したのがWeb
新しい創造のループ
・集まる(Relate):三人寄れば文殊の知恵
・協働する(Collaborate)
・提示する(Present)
・情報を知ることは人を知ること、またその逆も
・情報を見せることは自らを見せること、またその逆も
ソーシャルメディア
・「社会的に広がりのある参加者によって構成され、参加者間のコミュニケーションによって成り立っているメディア」
・特徴:大規模な参加、何らかのコンテンツを生み出す、参加者間の相互作用がコンテンツ作成に影響を与える
・相互作用=コンテンツ:掲示板、Q&Aサイト
・相互作用がコンテンツに影響:Wikipedia、ニコニコ動画
・例:初音ミク動画の協創プロセス
ソーシャルメディアとしてのWikipedia
・大規模性、網羅性、共同性
・データ入手性 … これが非常に大きいファクタ
Wikipediaと研究
・分析対象としてのWikipedia:“Wikipedia現象”の分析
・なぜこれだけ大きくなったのか?だれが、何が、...。
・合意形成のプロセス
・集団性、社会性
・データとしてのWikipedia:Wikipediaデータの利用
・知識の集合として
・多言語の集合として
・構造化文書の集合として
・Wikipediaの支援
編集プロセスに注目した研究
・ページのクオリティは編集者の数より、編集者のgini係数(≒一人の人の占める編集領域の割合の高さ)に相関
→継続的に編集してくれる人の存在の方が重要
・「秀逸なページ」を「クオリティの高いページ」とみなした
知識集合として
・広範で均質な知識源とみなして利用する
・国内各研究
・Yago:オントロジー作成。
・DBpedia:オントロジー作成。上位クラスはYagoから、インスタンスの関係はInfobox(Wikipediaのページ右上に表示されるボックス)から。
・常識、日常知識の利用
・PowerSet
・意外な知識の発見
Wikipediaの利用
・上記のようなさまざまなデータを外部から利用可能
・Linked Dataとは“Web of Data”(ティム・バーナーズ・リーの命名)
・Linked Dataによるマッシュアップ≒Bing?(Bingはそのデータの選択が秀逸)
まとめ
Q&A
Q:興味どころは?
A:分散してるのは当たり前、その上でどう共創していくか、というところ
【Wikipediaからのオントロジー構築とその活用】(山口高平 慶応大学)
資料は後日、研究会のホームページに掲載
ODP(Ontlogy Developping Process)とOL(Ontlogy Lerning:機械学習等)
・Wikipedia2Onto→評価→応用
ODP:オントロジー開発プロセス
・determin scope(Swoogle、watson)
・consider reuse
・enumerate terms
・define classes
・define properties
・define constraints
・create instances
OL:オントロジー学習ツール
・実装は山のようにある
・Doodle-owlというものを作っている
・関係性を、共起性を元にリコメンドし、人が決定する
スクレイピング(ごみを取る)
・一覧ページ
・カテゴリとカテゴリ階層 → is-aとhas-aの混在、InstanceとClassの混在
Is-aの抽出
・後方一致→is-a(空港→日本の空港)
・前方一致→is-a(日本のスポーツ選手→日本のゴルファー:スポーツ選手→ゴルファーというis-a)
・Infoboxのテンプレート
課題
・上位、注意概念が不足しがち
・間違った上下関係
・文字列照合から生じるハイブランチ構造
デモ
・ロボットの太極拳。オントロジー関係ないけどすごい。というかすごいけどオントロジー関係ないw
Q&A
Q:is-aとhas-aを区別しやすい、登録し分ける仕組みをWikipediaに提案することは有用化?利用者にとって便利になるか?
A:かなり利用目的によるところで、意味を調べるといったところ出にはあまり利さないので、デフォルトで提供すべきものではないと思う。
【MediaWikiと構造化知識の抽出】(中山浩太郎 東京大学 知の構造化センター)
Wikipediaの解析がなんの役に立つか
・翻訳辞書、連想シソーラス、Webオントロジ
・Wikipedia API
・セマンティックWeb
デモ
・Wikipedia Thesaurus(http://dev.wikipedia-lab.org/WikipediaThesaurusV3/)
・WikiVisiSL
データ復元編
・pages_articles.xml.bz2がお勧め
・実はダンプデータ間にタイムラグがあり、SQL版とXML版は微妙にデータが一致しない
・解析用であればMyISAMを使用(トランザクションログ不要なのでInnoDBを使わない)
・mwdumperを使用、-serverなどオプション重要
主なディレクトリ
・config:設定ファイル
・skins:スキン、テンプレート
・extensions:プラグイン
・maintenance:メンテナンス用スクリプト
・includes:クラスライブラリ
主なテーブル
・page:ページ構成
・langlinks:言語観リンク
・pagelinks:ページ間リンク
・categorylinks:カテゴリリンク
・text:本文(ページID、テキスト)
便利そうなスクリプト
・maintenanceディレクトリには全部で98のスクリプト
・changePassword.php
・dumpBackup.php
・dumpHTML.php
・updateSearchIndex.php:復元後の検索インデックス更新
・rebuildall.php:テキストインデックス、リンクテーブルの構築
・「php スクリプト」で実行できる。
クラスライブラリ
・解析で厄介なのが、例えば「Wiki構文の解析(除去)」→includes/Parser.phpのParseメソッドでOK、メモリリークすることがあるので注意
・Wiki、Article、Titleなどのクラスも便利
ユーティリティ
・Wikipedia Research Scriptを作っている
【Wikipediaにおけるキーパーソン抽出による信頼度産出精度および速度の改善】(鈴木優 京都大学大学院情報学研究科)
※発表資料が「第21回セマンティックウェブとオントロジー研究会」ページで公開されています。
結論
・ほとんどの記事の信頼度が低い。
・記事の信頼度の高い記事は少量
研究の目的
・Wikipediaの記事の質を産出
・高い質の記事を読者に提供(質の低い記事を排除)するため
・記述の不十分な記事を著者に提示するため
・二つの特徴
・実用的な時間での信頼度産出
・精度の高い信頼度産出
著者の信頼性の評価
・Adler et al. WikiSym '08, WWW 2007
・著者が他の部分のレビューを行ったから、残すべきところを残したという考え方
問題点
・時間がかかる。
・履歴はすべてで100万件弱、すべて1秒で処理したとしても...。
アプローチ
・80%の記事を書いている20%の著者(Ziphの法則)に絞って調べる
・キーパーソンを特定する
・編集量多い著者、編集した記事数の多い著者をチョイス
編集履歴と編集量順の相関
・順位の相関:スピアマンの順位の相関係数を使用
Q&A
Q:以降の編集回数より、移行の経過時間を評価するべきでは?
A:実際に時間を信頼性抽出に使用してみたところ、信頼性が低かった。
【Wikipediaにおける編集者の活動分析】(山崎由佳 慶応大学メディア研究科)
※発表資料が「第21回セマンティックウェブとオントロジー研究会」ページで公開されています。
・分析対象:bot、IPユーザ、ログインユーザから計100名
・編集回数が5回、25解
ネットワーク分析
・平均経路長とクラスタ係数を調べる
・再編集は経路長最小
平均経路長
・変種回数が増えるほど平均経路長が長い
・種別でみると、ボットは突出して平均経路長が長い
クラスタ係数
・クラスタ係数は大きなばらつきが見られない
・種別でみると、人間はクラスタ係数が高く、ぼっとは極小
分類
A.狭範囲、少編集:特定分野の編集に興味、IPユーザ?
B.広範囲、少編集:閲覧記事が気になり編集、ログインユーザ?
C.広範囲、多編集:bot
D.狭範囲、多編集:いなかったけど、あえて言えば荒らし?
※ここで抽出したクラスタとカテゴリの関係性は?
※広範囲、多編集、記事系統に偏りのあるログインユーザを見つけると、ダンドリストタイプかも?
Q&A
Q:IPユーザは同一人物とは限らないが、それがノイズにならないか?
A:そこは懸念点、何かいい方法はないか?
※逆にIPユーザが個人なのかグループなのか、などの分析ができそう?
Q:平均経路長にリンク関係などを考慮したらどうか?
A:やりたいと思っている。例えば記事間のホップ数を考慮したいと思っている。
【ウィキペディア記事閲覧回数の特徴分析】(山名早人 早稲田大学)
※発表資料が「第21回セマンティックウェブとオントロジー研究会」ページで公開されています。
取得データ
・ダンプデータ
・閲覧回数データ → これも信頼性や貢献度を定量化するのには有用では?
閲覧回数データ
・Domas Mituzas氏が公開している(http://dammit.ly/wikistats)
・1時間ごとのデータで、言語コード、記事名、閲覧回数、バイト数。
・転送時は転送元、転送先療法でカウントされる。
・pagecountsの他にprojectcountsもある
編集回数との比較
・UUを調査
・IPユーザは一人のユーザとしてカウント
・編集回数・UU数が多いものは閲覧回数・UU数が多い
・編集回数・UU数が少ないものは閲覧回数・UU数は広く分布
・Spearmanの順位相関係数は低い
→逆に編集回数からは分らない情報が閲覧回数には含まれているかも知れない
検索エンジンでのヒット回数(≒語の有名度)との比較
・正の相関:順位相関係数0.53
Q&A
Q:月間編集回数より累積編集回数のほうが質に関係があって閲覧数と相関しそうに感じる。なぜ月間の編集回数なのか?
A:そこは特に検討していない。
※月間の編集回数の変化と閲覧回数は相関するかも(減衰が早い=早く誤りがなくなる、枯れていく傾向)
【Wikipediaカテゴリネットワークからの意外性のある関連性の抽出】(野田洋平 東京大学)
※発表資料が「第21回セマンティックウェブとオントロジー研究会」ページで公開されています。
オープンコーラ
・Wikipedia上にあるが、あまり知られていない
・「オープンソース」と「コーラ」から辿れる
→オープンソースとコーラの意外な関連
アプローチ
・グラフネットワーク構造から特徴量抽出
・カテゴリ間の関連性の意外性が高い=共通小項目が少ない、カテゴリ同士が遠い
・カテゴリA、カテゴリB、共通インスタンス(記事)の関係性をすべて取得し、その中から以外性のある関係性を発見する
【多言語に展開するWikipediaの特徴の比較調査】(森竜也 東京電機大学)
※発表資料が「第21回セマンティックウェブとオントロジー研究会」ページで公開されています。
言語観の差異
・言語間では、ある言語にはあり、ある言語にはないというページがある
・文化、歴史、etc.が違うのだからあって当然
→積極的に個々を調べるべき
・あるカテゴリに対する言語版ごと下位エントリの数を比較する
※あるエントリのサイズを比較しても面白いかも知れない
方法
・XMLを直接解析
・Luceneインデックスとして保存
問題
・ここでもカテゴリ間の上下関係に不適切なものがある(イスラム教→...→オリンピック競技など)
・タイトルをbigramで比較し、閾値0.25で切るようにした。
・結果を見ると第二次世界大戦と太平洋戦争の間が切られているなど、よくないものがある
例
・言語版の違いが大きい例:江戸時代、キリスト教、第一次世界大戦
・言語版の違いが小さい例:データ構造
※これで何をすることをゴールにしてるんだろう?
※スコアの増加傾向の比較をすると、将来予測(Wikipediaでの動向からして○○文化圏ではこれから××分野が熱くなりそうだ)に使えるかも知れない
【総合討論】
-- Wikipediaの「信頼度を測る」という話題が多かったが、信頼できなさをどこに感じるか?
武田:ある水準まで信頼性は達していると思うが、極論すれば専門家による信頼度に及ばない部分は出ると思う。その意味で、逆に信頼度の低い記事を排除するというアプローチはありだと思うし、そこは機械的な手法が効く部分だと思う。
山口:オントロジーの構築をコストレスでできないかということを考えてきた。電力分野を調べたことがあるのだが、意外と電力分野は専門的な知識までしっかり書かれている。そこにある知識をそのまま実地に適用していいかというと創ではないが、最初の手がかりとしては有効だと、これは電力の専門家と話していて出てきた。最初に使える資源としては有用だと思うし、そう使う手法を開発していった方がいい。
中山:Wikipediaの信頼性を語るときに、ツールがいいのかというと、それ以上にソーシャルのパワーがいいものだと思う。その意味で、ソーシャル、個々人が判断しやすい情報を提示する方向性がいいと思う。
-- 各国語版の中で日本語版はポップカルチャーが多い。その偏りがあるということは良いことか悪いことか?それを生かす方法は?
中山:ページ間のパスを調べていると、英語ではうまくいく場合でも日本語ではポップカルチャー的なところにバイアスがかかることはある。そこで言語観で解析時にはバイアスがかからないような指標を取り入れたりする。しかし偏りがあること自体は、それが文化だと思うので、悪いとは思わない。
武田:私もむしろそういうところにある種の知の集積ができた、フォーカスのあたるところが見えてきたという価値だと思う。それがわからないという問題が解決してきたと捉えられるし、それをもっと可視化したらいいと思う。ドイツ語版Wikipediaで製本をしたときに偏りのないものにする取り組みがあったという話を聞いて、それはそれで面白いと思うけど、僕はむしろ偏りがわかるように作るのが面白いと思うし、そうすることがポジティブなフィードバックを生むと思う。
山口:私の立場では、結局Wikipediaに頼るべきではないというところ。それはそれとして、例えばポップじゃない電力分野が充実していたり、私としては文句はない。
-- Wikiepdiaの課題としてカテゴリとして小さいところがあり、本当に小さいのか手薄なのかわからない。裏番組の相互オントロジーではどんな話を?
橋田(会場から):総合概念のオントロジーを構築して提供しようという話。ITハンドブックでは小項目主義を採り、36分科会にふり、ドメインによるコントロールで粒をそろえた。Wikiepdiaではドメインによるコントロールをするものではなく、そうした形になってないのだと思うし、それはそれで結構なことだと思う。ただ一つ気がかりなのは、一般の市民から知りたい専門知識のリクエストが上がっていながら、専門家が答えられていないといったことがあれば、それは残念。
田中(東京大学):400にもなるプロジェクトはあるようだが、そこまではいっていないし、研究者としてそういうところはサポートしていければなあ、と思う。
(会場):Wikipediaに深く関わっているが、例えば2ちゃんねるのようなファンの多い分野にはプロジェクトが多いが、伝統芸能といったところをどうしていくかという問題は残る。
-- 不足分野があったときに、専門家を巻き込むような仕組みの事例はないのでしょうか?
武田:アメリカでは大学や図書館で編集方法を教えるといったワークショップのようなものはあったらしい。
(会場):Wikipediaのルールに「独自研究を載せない」というものがあって、それがどうなのかな、というものがある。
武田:Wikipediaで言っているのは、factを書けという風にとるべき。自分の研究を書いてはいけない、という意味に取る必要はない。
(会場):過去にWikipedianとして活動したが、文献の少ない項目で、どうしようもなく自分の文献を参照している。また、学会ジャーナルの編集部などが、適切なリファレンスだと思えばパブリシティを高める上で積極的に記述と参照をしていってもいいと思う。
武田:ファクトとして書くのであれば、それはファクトに基づいて反論すればいいので、ありではないかと思う。
(会場):Wikiベースでオントロジーを作るというアプローチは?
武田:セマンティックウィキという例がある。
(会場):今のアプローチでは、コミュニティに対して一方通行で、例えばインスタンスであればコミュニティで作れるなどの方向はあると思う。
信頼性を図る上でのディスカッションページの自然言語的な解析など、あってよいはずなのに手薄な分野というのはあると思う。Wikipedia研究の薄い部分は?
中山:他のリソースとの融合。ボトムアップが得意な分野とトップダウンが適する分野があるのだから、そうした外部の例えばワードネットとの融合など、そうしたところをやっていくことが重要になるように思う。他のウェブ情報とのダブルチェックなど
山口:実際に非常にシャロウな処理しかしていない。もっとディープな言語処理を持ち込んでいったら、例えば前に座られている松尾先生などが入っていただけたら、すごい進むと思う。もう一段深い世界に至れると思う。
武田:情報系の人が喜ぶようなデータは出しているが、社会系の人と組んだような研究はまだ少ないように思って、どちらから入ってくるのかわからないがそこができたらまたいい研究ができるのではないかと思う。
【クロージングセッション】
-- A会場のセッションがまだ終わらないので、急遽ウィキペディアQ&A
Q: ウィキペディアで管理者が非常に足りないと聞く。アンサイクロペディアにのびた君制度というのがあって、そういった取り組みをしたらどうか?
A: いくつかあって、インターン制度などの話も進んでいる。
Q: 実際に自分で書いてみたりして、やりがいとか嬉しかったことなどは?
A: ...えーと、ここで答えようとしている二人は、あまり書いていないので...。
A: オープンソースの世界では「かゆいところに手を」ということがあるが、ウィキペディアでもそういう人が多い。また「キャリアに役立つんだ」というOSS開発者も多いが、ウィキペディアでは創は履歴書にかけないというか、隠す人が多い。それでも利用者ページをみると、自分で勉強してまとめて発表するというプロセスが楽しい、あるいはコミュニティ内部でのインタラクションが楽しいといった手ごたえだと思う。
A: もめたりとかして利用者ページに「しばらく休みます」と書くと「がんばってください」とコメントが入ったりというのはみます。
■ 終わってみて
Wikiepedia研究というのは、こんなに多くに人が取り組んでいるのだな、というのが何よりの感想。Wikiばなというのはそれなりに多くのWikiフェイバリットが参加してくれていたと思うのだけど、Wikipedia界隈とも、こうしたWikipedia研究者とも重なる部分が少なくて、もっと、融合する必要はないにしても異文化のまま接点というか交流があってもいいんじゃないかな、と。
あと懇親会は話をできた人たちが面白くていろいろ聞けたし、クロージングあたりでいろいろいいこと言ってると思ったりしたのだけど、懇親会は参加した人の楽しみということで僕のメモはなし。