2015年5月30日土曜日

青空文庫を救え!「Code for 青空文庫」アイデアソン #1 レポート #aozorahack

青空文庫アイデアソン

本の未来基金は5月30日、シナジーカフェGMOにて「Code for 青空文庫」アイデアソン #1 を開催しました。現地から可能な限りライブ更新します。



ニコニコ生放送はこちら。


以下、常体で書かせていただきます。


青空文庫の現状について


まず青空文庫の大久保ゆう氏から、青空文庫の現状について説明があった。

大久保ゆう氏

青空文庫はインターネット上の電子図書館。主にパブリック・ドメイン(著作権期限切れ)作品の配信をボランティアが入力・校正・配信している。以下の4つを基本思想としている。

Universal Texts


「日本語が使える人であれば誰でも利用可能なテキスト(※ユニバーサルデザイン)」

Universal Texts

年配の方やお子様、目の見えない方でも読める、ということを大切にしている。日本語マークアップとして「青空文庫注記」を入れてある(マシンリーダブル)。


Open Air Shelves


呼びかけ人の故・富田倫生氏が書いたテキスト。

Open Air Shelves

「青空で誰かが来るのを待っている本」
「自由な本棚に誰かが本を置いていき、誰かがもらっていく」
「自由にアクセス/コピーされる書架と蔵書」
「『青空文庫』の普通概念化:パブリック・ドメイン」

電子書店で「水増し」と揶揄されたが、富田氏は「どうも、水です」と挨拶。水であることは誇っていいと生前語っていた。


Digital Scribes


青空文庫ボランティアは「電子的な写本を造っている人々」

Digital Scribes

入力・点検・校正・素読み・ファイル作成をオンライン上で共同作業している。電子化作業は基本的にボランティアなので、やりたいものをやる(無理はしない・させない)。活動ペースにはそれぞれかなり波がある。

「データベース・サーバーが大変」なのは、活動の裏側を管理するアプリケーションが載っているから。データベースとアプリケーションは分けて考えたい。

「マイクロボランティア」これまでは作品1つを1人がやる形だったが、もっと気軽に参加できるような(Wiki形式?)


Homo Communicans


ラテン語で「共有する人」という意味。

Homo Communicans

人間は共有したがる生き物(感動とか)。だからやってて「楽しい」が重要。

他の人がデータを使って儲けるのは全く構わないが、青空文庫自身は作品から対価を得ないのが大原則なので、作品以外からのマネタイズが重要となる。

自由(free)は無料や私物化を意味しない。




青空文庫サーバの今と未来


続いて本の未来基金の香月啓佑氏から、青空文庫サーバの現状と今後について説明があった。

本の未来基金 香月啓佑氏

現在のサーバ構成。ミラーサーバは運用終了している。事前にシェアされていたスライドからの修正点で、左下は「データベース・サーバ」ではなく、「校正システムサーバ」とのこと。簡単に言うと、校正の履歴や作業中のファイルなどが管理されている。ユーザー向けの配信はウェブサーバで行っている。

サーバー構成


問題点


  • サービスの全貌が把握できている人がいない
  • 管理しているサーバ数が多い(のにエンジニアがいない)
  • 校正システムサーバの老朽化
  • 校正システムサーバの非冗長化


解決策(香月氏案)


管理するサーバを減らすため、DNSサーバとメールサーバを外部化。

香月案

任意団体なので、Google Apps for Non-Profitは使えないと断られた。

無理ー!

本の未来基金だけでやるのは難しいので、助けてください!というのが趣旨。


やりたいこと


エンジニアコミュニティを作りたい。
現状の校正システムを維持するためのエンジニア。
新システム「実験版青空文庫(仮称)」づくり。


お金の話


本の未来基金には、ざっくり1000万円くらい寄付が集まった。追悼イベント、本の未来基金事業や手数料、青空文庫への移管などで、220万円くらい留保がある。

お金がないわけじゃないから、実作業にはお支払いをしたい。でも、発注能力がないので、まずはそこを助けて欲しい。




質疑応答


Q. ランニングコストは?
A. 恐らく青空文庫が負担することになるが、まだコンセンサスはできていない。別途、有償校正プロジェクトもあるので全額使えるわけではない。

Q. 青空文庫のランニングコストはペイできているのか?マネタイズは必要?
A. 必要。本の未来基金がやるべきところだとは思っている。ファンディングしなきゃいけない。こういった会を通じてパブリシティを高めていきたい。


校正システムサーバの現状について


香月氏の知り合いで、青空文庫のシステム的なところの調査を依頼した宇谷有史氏から、校正システムサーバの現状について説明があった。


2004年〜2005年くらいの構成のまま。



試しに他の環境へ移行してみたら、エラーなく取り込みができた。



今後の課題


  • 移行に必要なものの洗い出し
  • 移行先の確定
  • 移行を手伝って頂ける方の募集


質疑応答


Q. 本文が外部参照されているようだが?
A. まだアプリケーション解析していないので細かいところは分からない
A. やりとりは基本、メールでやっている(青空文庫より)

Q. 校正履歴はどうやって残っている?
A. 情報として差分は残っていないが、できるだけ「何を変えたのか?」をベタテキストで残している(大久保)

Q. 校正システムサーバ上でどういうプロセスで動いてる?
A. まだ見てない

Q.
A. まずは移行が優先事項だと思う

Q. 移行してみたのはデータベースだけ?
A. データベースだけ。phpソースなどは移行してない。

Q. クーロンは見た?
A. まだ

Q. 文字コードはUTFに移行していく?
A. どっちがメインで使われているかわからないが、メインに合わせていくのがいい

Q. データベースの中身を確認できる?
A. 個人情報入ってるので、そのまま公開はできない。お時間いただきたい。

Q. 校正システムサーバが飛ぶと何がやばいのか?
A. 公開前(作業中)の作品が約1万点あり、それが飛んでしまう。

青空文庫関連の本屋CD-ROM

アイデアソンについて


テーマは「2018年の青空文庫」

アイデアソンの進め方

「今日のアウトプットはみんなのもの」として、すべて「CC0(誰でも許諾なく無償で自由に使える)」とすることを了承して欲しい。


分科会とモデレーター


  • インフラ:高橋征義氏(達人出版会)
  • アプリ:宇谷有史氏
  • マネジメント・広報:大久保ゆう氏(青空文庫)

アイデアソンの様子

アプリ班:校正モチベーション向上


作業中作品の検索結果に「いいね!」ボタンを設置して、校正者のモチベーション向上を図る。
校正状況を可視化する。進捗を公開することで期待値が高まる。


マネジメント班:青空文庫のオープン化


問題点は中の人が何をやってきたか分からない → オープン化しなきゃいけないとはずっと思ってきた。
血みどろの歴史がある(Wikipedia参照)。罵り合い。後ろ向きになってしまった。
入力・校正マニュアルあるけど分かりづらい。
点検チームが何をチェックしているか公開されてない。
中の人の声、工作員の人の声を発信していく。


インフラ班:青空文庫のドキュメンテーション


目的:技術者の積極的な参加
どうする?:ドキュメントをしっかり残す
現状:工作員用のマニュアルはウェブに公開されてて結構充実している?エンジニア向けのマニュアルは、分散してどこに何があるかわからない(ないかも)
やるべきこと:新生青空文庫の運用ルール定義、現状の調査、動いている人と架け橋になる人

※資料


インフラ班:自動校正システム&入力支援


概要:GitHubライクなシステム
エンジニアではない方でもわかりやすいインタフェース
入力も校正も複数人で共同作業
コントリビューションを可視化し貢献者にメリットがある形に
郵送の方には、入力代行
校正は複数人の目に触れればOKとする
校正作業のゲーミフィケーション
炎上が発生しないような仕組み
OCR活用は精度が低い
インフラ何やる?:ストレージ周り



アプリ班:校正支援アプリ


入力・校正作業の支援
校正のバックログ解消
サーバーに本文アップ
1行ずつ校正可能に
イメージデータとの照らし合わせ
校正結果の記録と履歴通知
進捗状況をダッシュボード的に表示
課題は、既存の仕組みとの円滑なブリッジなど
ソースコードはバージョン管理システムに


マネジメント班:イベント開催計画


「青空文学部」
自主的にイベントをしたりイベントに出たりする冠
3年後青空文庫20周年なので、どーんと武道館
継続してやるイベント:
・工作員イベント
・写経イベント「シャッカソン」
・啓蒙イベント
7月7日青空記念日?
8月16日富田さん命日
元旦:パブリック・ドメイン・デイ
カンファレンスに出展


インフラ班:クラウド移行


なぜ:運用の手間を減らす
BIGLOBEからサーバやばいと言われてる → エンジニアがいない → 運用はクラウドに移行しちゃいたい。
サービスとして切り出せるものは、SaaSやPaaSに載せてしまいたい。
青空文庫が自前で持たなければいけないのは、校正システムだけ。
できるだけロックインが少ない形。
単純にVPSとして使うならリスクは少ない
Ansible等のオーケストレーションツールを使った更新自動化
予算見積のための数値が必要(※校正システムの使用容量は11.3GB)


アプリ班:ユーザのフィードバックを可能に


「みずたまり」という誤字脱字を教え合える掲示板 → 荒らしなどにより閉鎖

機能を制限すればいい
・電子化リクエストの受付
・校正中の進捗状況の可視化
・進捗に対するユーザ評価「進捗どうですか?」
・作品情報のWiki化(更新合戦の荒らし対策を要検討)

ユーザ体験の共有
・図書カードのページにTwitter・Facebook・Google+・はてブなどのボタン設置(比較的手軽に追加できる)
・(現状、感想の共有はブクログに投稿できるようになっている)


インフラ班:オープンデータとAPI


書籍全文ではなく、部分的なアクセスを可能にしたい、APIが欲しい
「青空文庫」は内部にエンジニアを抱えないので、とんがったAPIを青空文庫が提供すべきではない
外部のエンジニアがいろいろできる土壌を提供する
・DBのダンプ
・書誌情報そのものの流通基盤になる
・本文テキストの部分配布
・書籍の特定部分を指定するURI拡張
・作業状況の公開
→ 書籍版CDDB、マイクロボランティア促進、「引用」のためのインフラ化


アプリ班:API提供とオープン化


・提供できそうデータ
書誌情報、作者、出版年月日
校正中・公開中のステータス

自然言語処理の研究に活用できる
引用箇所を明確にURIなどで表せる(SNSでシェアしたり)
一行目だけを特集するサイト
メタデータの拡充 → 登場人物一覧表示、この本を読んでる人はこんな本も読んでます

校正システムのオープンソース化:
出版社の中には校正システムがあるんだろうけど、オープンなシステムのほうが使いやすいのでは?
(GitHubにLanguage Toolというオープンソース校正システムがあるらしい)


福井健策先生とのQ&A



香月:校正するとき、版面データをどうやって共有する?というのが話題になった。
福井:著作権切れ状態は、誰がどう利用してもいいのが原則。改変は著作者人格権が問題になる可能性はあるけど、まず起こらない。そういう状態の作品の版面が、ビジュアル的に珍しい配置だったら別だけど、版面に内容から離れた独自の著作権が発生することはちょっと考えづらい。版面を共有して校正するのに、法的な問題はない。著作権が残っているものは、版面を作った人ではなく、あくまで著者・遺族との問題。

大久保:パブリック・ドメイン作品でつい最近復刊されたものを底本とする場合は?
福井:いつ復刊されたかは関係ない。版面に独自の知的財産権は発生しない(※鷹野注:内容が原作から一切改変されていないことが前提)。

福井:クリエイティブ・コモンズ・ライセンスのPDマークを使ってもいいのでは?
大久保:色分けしてるけど、ユニバーサルデザイン的にはよくない
福井:検索に引っかかるようになる。問題は全世界でPDじゃなきゃいけない。書誌情報のCC0化は?
大久保:やりたいとは思う。



本の未来基金・香月啓佑さんによるまとめ。



達人出版会の高橋征義氏がGitHubを作ってくれました。



週間人気投稿

月間人気投稿