23
情情情情情情情情情情情情情情情情情情情情情 2014/04/24 情情 情情 TA: 情情情情

情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

Embed Size (px)

DESCRIPTION

情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24. 担当:林晋 TA: 橋本雄太. 電子ライブラリ・アーカイブ 全文検索とその威力. 図書館の本を利用するとき,どうしていますか? 今では殆どの場合, OPAC(Online Public Access Catalog) を使います.京大では KULINE の「簡易検索・詳細検索」などがそれ. しかし , 昔は紙のカードを使っていました.多くの図書館などで殆どの書籍データの遡及入力が済んでいますが,それでも,今でも紙カードでしか見つからない場合も稀にあります. - PowerPoint PPT Presentation

Citation preview

Page 1: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

情報技術演習Ⅰ人文学研究のための情報技術入門

2014/04/24

担当:林晋TA: 橋本雄太

Page 2: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

電子ライブラリ・アーカイブ全文検索とその威力

• 図書館の本を利用するとき,どうしていますか?• 今では殆どの場合, OPAC(Online Public Access Catalog) を使います.

京大では KULINEの「簡易検索・詳細検索」などがそれ.• しかし , 昔は紙のカードを使っていました.多くの図書館などで

殆どの書籍データの遡及入力が済んでいますが,それでも,今でも紙カードでしか見つからない場合も稀にあります.– 遡及入力とは: http://www.janul.jp/j/publications/reports/66/8.html– 京大の遡及入力

• 静脩(Nov. 2007)の記事.古い記事なので , もう全部終っているはずだが,どのような苦労があったかが偲ばれる. PDF なのでクリックして開かなかったら,ダウンロードしてから読んでみてください. ( 静脩 : 京大の図書館の学内誌 )

– 文学部の遡及入力は完了している.• 数年前まで遡及入力をしていた .  今は1 F の学生用のラウンジになっている場所を

文学部の遡及入力のために使っていた.• ただし,特殊文庫の資料の一部 , 例えば西田幾多郎の手書き原稿などは OPAC で検索

することはできない.京大図書としての番号付けさえされていない…

2009/10/14

Page 3: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

今の基本は OPAC

• 現代では大学などの図書館,文書館では,資料や書籍には「番号」がつけられ , その番号で認識されています .

• そして , その番号はメタデータとともにデータベースに登録され , それを京大の OPAC kuline のような WEB サービスで検索して , それがどこにあるかを調べたり , 予約したり , 他大学から取り寄せたりができます .

• ドイツ発祥の Subitoというサービスでは , 図書館に頼むとコピーを郵送してくれさえする . – 日本でSubito に参加している図書館– 参考資料  http://current.ndl.go.jp/node/8567 – ドイツ語 Wikipedia http://de.wikipedia.org/wiki/Subito

• 課題:メタデータとは何か調べよ . 提出必要なし .

Page 4: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

ドイツは先進国

• ドイツは図書館 , 文書館の IT 化 , WEB 化では , 世界トップの一つ .

• 特に歴史史料のようなものまで , 検索できるようになっている : – Kalliope: http://kalliope.staatsbibliothek-berlin.de/– ゲーテの手稿や , 手紙などがどこに所蔵され

ているか , たちどころに分かる . • 手紙の場合は , 送り手 , 受け手を指定して検索でき

Page 5: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

今はなんでもオンライン!• 十年くらい前までは , こんなものはなかったので , ドイツ史をやるために

は , その史料を探すために , ドイツに行ったり , メールを書いたりで結構手間だった .

• 今は特定の大学図書館に , 史料を問い合わせたりすると , 「なぜ , Kalliopeで調べないのか?」と , 怪訝そうな答が返って来る時代になっている .

• 日本では残念ながら , まったくこういうことはできそうにない . • 問題は , 遡及入力のように , 紙の上だけにある情報を , サイバー空間 ( サイ

バースペース)にコピーすること . これは情報元が , サイバー空間に属していないので , コピーするには , 非サイバー空間(つまり , 我々が属していると思っている世界)での大変な労力が必要 .

• しかし , 京大の中だけとかならば , 情報はすでにサイバー空間内だけで , 殆どの図書情報を検索可能 .

• さらに,しかし,文学部が持っている西田幾多郎史料の様に,サイバー空間で調べられないものもある.学者ならそれを無視してはいけない.

• 課題:サイバー空間 , サイバースペースとは何か調べよ . 提出必要なし

Page 6: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

では , 昔はどうだったか?• では , 昔はどうだったか?• OPAC だけで済むようになったのは最近 . • 2007 年 11月の静脩 (Nov. 2007) に遡及入力の記事があると

いうことは , 7年前は , 現実物理世界と , サイバー世界にズレが有ったということ .

• 今は , これは記事にならない . サイバー世界 =Kuline では分からないものがありますよ , という情報ならば記事になる .

• つまり , サイバーでないものが「例外」ということ . • このように , 今はサイバー世界( OPAC )が主流 , というよ

り , それこそが「現実世界」となった . • では , 図書館に PC さえなかった時代はどうしていた?

Page 7: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

昔の人は大変だった:紙カード

• 昔の紙カードによる書籍探しは?– 既に存在しないブログ

http://toyohiro.at.webry.info/200812/article_7.html より,紙カード(目録カード)とそのボックス.このブログが存在しないことが時代いの変化を示している.

• 昔の紙カードによる書籍探しは?– 既に存在しないブログ

http://toyohiro.at.webry.info/200812/article_7.html より,紙カード(目録カード)とそのボックス.このブログが存在しないことが時代いの変化を示している.

2009/10/14

Page 8: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

メタデータとカード• 7,8年前まで , 京大でも書籍はカードで検索していました . もちろん ,

文学部図書館以外の書籍は , その図書館に出向いて探すしかありませんでした .

• 各書籍を表すカードには , 書籍の色々な属性(性質 , 特徴)が書かれています . 例えば , タイトル , 著者 , 出版年などが書かれていて , それをキーにして , 次ページのような箱に入った大量のカードを一枚一枚めくって探していました .

• この様な情報が , 書籍のメタデータです .

2009/10/14

Page 9: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

2009/10/14

Page 10: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

Kuline の詳細検索とカード

• 次ページの画像は , Kuline の詳細検索の図です . • これにも , 著者名 , タイトル , 出版年という項目があります .

• そして , これらを指定して探すわけですから , カードを捲りながら , こういうメタデータで探していたのを , WEB を通して使っている図書館のコンピュータが肩代わりしてくれているということが分かります .

• また , Kuline の方が紙カードより遥かに , メタデータの項目が多くなっています .

Page 11: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24
Page 12: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

書籍メタデータの標準スキーマ: Dublin Core

• Kuline 詳細検索や紙カードの項目のパターンを , スキーマ (schema) といいます . – これは書籍メタデータだけでなく , データベース一般で使われる言葉 .

• スキーマは各 OPAC (のデータベース)ごとに決めますが , できるだけ統一した方が , 沢山のOPAC を超えて検索するときなど便利です .

• つまり標準的スキーマがあると便利ですが , 現在 , 最も基本的なものと考えられているのが , Dublin Core と呼ばれるスキーマです .

Page 13: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

課題3,4:提出必要• 課題3

– 提出期限: 4月 24 日(本日) 18:00– 提出方法: [email protected] にメールで.

• 件名 (subject) は必ず,“情報技術演習 課題 3” にする.• 自分の名前と学籍番号を本文中に書く.

– 問題: Dublin Core とは何か手短に説明せよ .

• 課題4– 提出期限: 4月 28 日 24:00– 提出方法: [email protected] にメールで.

• 件名 (subject) は必ず,“情報技術演習 課題 4” にする.• 自分の名前と学籍番号を本文中に書く.

– 問題: 先に示した紙カードのスキーマの項目を , Dublin Core の項目と照らし合わせて説明せよ . ただし , 紙カードの画像だけでは , 何かよく判らないものもある . それらの説明は推測でやってよい .

Page 14: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

船山信一の論理学史研究• 船山信一 (1907-1994) : 50-70 年代の立命館教授.京大文卒業.京都学派左派(他に三木清,戸坂潤)の哲学者・労働運動家.

• 明治期の西洋哲学の導入史で知られる.• 明治論理学導入史も研究している.日本の論理学史の,ほぼ唯一の研究.大体,明治 20 年代までの論理学関係の本を網羅.

• 図書カードを駆使して「論理」「推論」「推理」「演繹」などのキーワードに関連する題名や項目で探したとしか思えない.文部省 ( 当時 ) の研究費をもらってやっている.バイトを使った?

• それが今では・・・2009/10/14

Page 15: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

NDL近代デジタルライブラリで検索

• デジタルライブラリの例で出てきた , 国会図書館の近代デジタルライブラリ . これの詳細検索で , 船山がやったことと同じことをやってみてください . 詳細検索 URL:

– http://kindai.ndl.go.jp/search/detail?• タイトル欄を「論理 , 推論 , 推理 , 演繹 , 帰納」にし , そ

の右側の AND は OR にする . そして , 出版年は明治1年から45年(月日は空欄) , 結果表示の第1ソートを「出版年:古い順」にしてから , 「詳細検索」のボタンを押す .

• これでタイトルに「論理 , 推論 , 推理 , 演繹 , 帰納」のどれかがある明治時代の書籍が出版が早い順ですべて出る .

• 次ページの図参照

Page 16: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24
Page 17: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

結果は!

• 一瞬で膨大な数の関連図書が表示される . • その中には , 日本の民主主義運動の魁の一人で

ある「憲政の神様尾崎行雄(尾崎咢堂)」が書いた「演繹推理学」(明治15年)などというものも出てくる . – これは船山も見つけている .

• おそらく船山が見つけた書籍は , これでほとんどすべて見つかっているはず .

Page 18: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

船山が出来なかった目次検索• 船山は目次までは検索できていない . しかし , 近デジならできる . • 今度は , 「論理 , 推論 , 推理 , 演繹 , 帰納」をタイトル欄でなくて , 目次欄にして , 同様に詳細検索する . (次ページ図参照)

• そうすると , タイトルが論理を示唆しない本で目次に論理関係の用語があるものが沢山みつかる . その中には , 次のようなものまである:– 小学教員必携 

• 明治 18 年• 目次に「論理学ノ部」「論理法ト教育ノ関係」

– 警官処世訓• 明治 38 年• 目次に「論理学」

• あまりに沢山結果がでるので , 明治38年出版の「警官処世訓」はなかなか見つかりません .

Page 19: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24
Page 20: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

全文検索• 沢山の文書(ファイルなど)から,一つの言葉を一斉に探し出すこ

とを「全文検索」 (full text search) という.– 文書の中を全部探すという意味らしい.しかし,すべての文書を,とい

う意味もある(日本語では,そちらのニュアンスが強いような・・・).– Windows の「検索」, Google など,この全文検索といえる.– 船山は「題名」などのメタデータを検索したと思われるが , これは全文

検索ではない .

• 題名でなく全文検索ができたら凄い . – 日本では,次の二つが目次レベルまでの全文検索が可能

• 国会図書館近代デジタルライブラリ http://kindai.ndl.go.jp/index.html

• NII Webcat Plus http://webcatplus.nii.ac.jp/– Google Books http://books.google.com/  は本を超えての本当の全

文検索が可能.• たとえば , Franklin, lightning の二つをキーワードにして検索してみてくださ

い .

2009/10/14

Page 21: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

全文検索の威力

• 人文学研究のためには , 明らかに , – メタデータ検索 <目次検索 < 全文検索

• 近代デジタルライブラリの目次検索や , Google Books の全文検索により , それまでの人文学研究では見落とされていた面白い事実が簡単に見つかることがある . – 明治論理学のケース:船山は思想史のレベルでしか , 明治の大論理学ブーム(これは現代のロジカルシンキング , クリティカルシンキングブームを遥かに凌ぐ規模だった)を見ていないが , 小学校教員 , 警官のための「ハウツー本」にさえ , 論理学の話が掲載されていることは , これを文化史の立場でみて , 平成のブーム( MBA ブーム)と比較すると面白そうだ .

Page 22: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

注意!1. この様な検索技術を用いるとき , 「検索して無かったら , 現実にも無い」と思

ってはいけない . – 遡及入力の例でわかるように , サイバースペースはあくまで現実の世界ではない . そ

れは現実の世界にドンドン近似しつつあり , それを凌駕しつつあるが , 必ず「抜け」はあるもの .

– 一旦面白い史料を見つけてしまえば , それは IT で見つけても , 図書館の本でみつけても同じこと . 検索で見つけたということは関係ない!

– ただし , 検索という手段を持つ人は持たない人より , 頭一つ抜け出せる .

2. 検索には知恵が必要だということを常に念頭において検索する . – 近デジで明治の論理本を探す時 , 「論理」以外に「推理」というキーワードを使って

いることに注意 . これがないと尾崎咢堂行雄の論理本「演繹推理学」はタイトルサーチではヒットしない .

– こういうことをやったのは , 林が「論理」という言葉が定着したのが明治のかなり遅い時期だということを , その訳語の考案者である西周を研究していた院生から聞いて知っていたから . だから , 林は , 西周の初期の logic の訳語である「到知学」なども利用して , 色々とサーチを試みて色々な書物を見つけ , その上で本演習用に「論理 , 推論 , 推理 , 演繹 , 帰納」という検索用のフレーズ(クエリ query という)を考えた . こういうものが天から降ってくるのではない .

Page 23: 情報技術演習 Ⅰ 人文学研究のための情報技術入門 2014/04/24

OCR: Optical Character RecognitionGoogle Books の全文検索を可能にしているもの

• では , このような強力な全文サーチを可能にしているのは何だろうか?• 近デジの場合は , 人間が目次を読んで入力していると思われる . • 一方で , Google Books の全文検索を可能にしているのは,人間でなく

て , OCR ソフトというソフトウェア . – この差は何か?実は , これにはちゃんとした理由があるが , それは次回 .

• 次回,この OCR の実習を , みなさんにやってもらいますで,次の二つを持ってきてください.持ってない人のためには,一応,こちらでも準備をします.

• デジカメ– 撮影した画像を USB ディスクや SD カードで PC に移せるデジカメ.

電話を使うと高くなるので,カードやケーブルで転送できるもの.ケーブルの場合,そのケーブルも.最近のものならばケータイでもOK.

• その文章を PC に入力したい 5ページくらいの印刷物

2009/10/14