1 2 回目 7/1 • 先週の続き
④ Web 情報の特徴 p27• 今週1 2 回目 7/1
① Web 情報の量② 検索エンジン p26③ Google の利用④ 課題4の作成 p76 ⑤ 検索式(再確認) ⑥ 他の検索エンジン⑦ カテゴリ検索 p30⑧ 情報検索と基礎知識⑨ 情報のまとめかた
1
8 Web 情報の特徴
(1) ハイパーリンクによる原文へのアクセス
(2) 一次情報と二次情報の混在
(3) 匿名の情報発信
(4) 書誌事項の欠如
(5) 断片的な内容
(6) 審査を受けない情報発信(7) 「現時点」の情報(8) 分類のない ( 全分野の ) 情報
2
(1) ハイパーリンクによる原文へのアクセス
• Yahoo や Google などの検索エンジン– 検索エンジンと原文 (Web ペー ) がネット上に存在す
る
– ハイパーリンクにより検索結果から原文を確認できる
– 検索エンジンの利便性が非常に高い
• データベース– 原文が印刷物のため、情報検索の結果をもとに、再
度図書館などで原文を探し出す必要(図書・雑誌記事)
3
(2) 一次情報と二次情報の混在• Web 情報は匿名で情報発信が容易
– Web 情報は著者が作成した一次情報と、伝聞情報である二次情報が混在する
– 原文である Web ページを閲覧できても、著者が自ら創作した一次情報とは限らない
• Web 情報の活用にあたっては慎重な扱いが求められる– 伝聞情報や不正確な情報の割合が高い– 有料のデータベースの原文は全て雑誌記事など
の一次情報である。
4
(3) 匿名の情報発信• Web 情報では著者名が記述されない場合が多い
– 情報の内容に責任をもつ人を特定できない情報が多くなる
– 著者に関する記載があっても現実社会における実態と一致しない場合も多い
• 匿名情報が Web 情報の信頼性低下につながる– 情報は人により創造される– 著者が明示されることは情報の内容についての責任
の所在が明らかにされることになる– Web 情報の活用にあたって著者や所属に関する情報
が記載されているか確認する必要がある• 有料データベース
– 書誌事項の一部として著者や所属は必ず明示されている
5
(4) 書誌事項の欠如• 検索エンジン
– データベースの書誌事項がない• 表題• 著者• 出版者• 出版年• 分類
– 著者・出版年が確認できない情報が多いことを認識したうえで Web 情報を活用する
• 一般のデータベース– 検索データとして書誌事項が整備されているのは必須の
要件である。
6
(5) 断片的な内容• Web情報
– サイト毎ではなく1ページ単位で構成されている。– 1ページに 1000 文字を超える文章が記述されるようなペー
ジは少ない。• 印刷物
– 雑誌記事情報• 1つの話題について2000字から20000字程度の文章からなる
– 図書情報• 数万字からなる
• 印刷情報に比べると Web情報の内容は断片的– まとまりのある知識や情報を Web ページから得ることは困難– 簡単な情報やデータを得るには問題ない
7
(6) 審査を受けない情報発信• Web 情報
– 著者自身の判断に従って発信される情報が多い(ブログ)
– 他人によるチェックが無いため、信頼性の低い情報が混在
– 二次情報も混在する可能性が高い• Web 情報の信頼性を判断する材料
– ページ作成者、サイト管理者などが特定できること– 比較的信頼性の高いドメイン
• go.jp, ac.jp, co.jp ドメイン、 gov, edu ドメイン• 有料のデータベース
– 出版社や査読者による事前審査をうけて発信される情報
8
(7) 「現時点」の情報• Web 情報の出版年月日
– 基本的に現時点における最新情報– 「現時点」の情報が主体となっているので遡及検索
に対応できない
(8) 全分野の情報• Web のページの情報は全ての分野の情報• 検索エンジンの検索結果にはあらゆる分野の情報が表
示される• 有料のデータベースではデータベース毎に扱う情報の
分野は限定されている
9
1 2 回目 7/1①Web 情報の量
10
サーバ数とドメイン数 インターネットのホスト数 2012 年 全世界で 888,239,420台
図 9Internet Systems Consortium, Inc. の Internet Domain Surveyhttp://www.isc.org/solutions/survey
サーバ数とドメイン数 https://www.isc.org/services/survey/インターネットのホスト数 2012 年 全世界で 888,239,420台
• 第一水準のドメイン www.nuis.ac.jp• 1位 .Net 319,311,234 (286276469,
253,853,098/204,683,342/190,267,719)台• 2位 .com 156,860,679 (151953306
– 142,526,322/ 123,324,475/95,448,209)台、• 3位 .jp 63,465,680 ( 59,968,541
– 52,081,808 / 43,461,277/36,803,719)台
• 日本語情報–国別ドメインは.jp(日本)が第1位
• 全ホスト888,239,420中で占める割合は 7.14 (7.32/7.10/6.95/6.79)% 2012年
– .net, .com, .eduのWebサーバはアメリカの情報• 日本語より多い英語情報がWeb情報として流通• 本格的な情報検索では英語情報も必要
11
• Web情報検索で信頼性の高いドメイン– https://www.nic.ad.jp/ja/dom/system.html
• 情報発が明示されている公共性の高いサイト– gov– edu– co.jp– ac.jp– go.jp
12
TLDと jp ドメイン
• https://www.nic.ad.jp/ja/dom/types.html• gTLD
– gov– edu– org– int
• JP ドメイン名の分類– AC.JP – CO.JP – GO.JP– OR.JP
13
ページ数• Web ページ• Google ( 2008 年)
– 1,000,000,000,000 ページを集めたと報告– その後総ページ数の公表は中止
• Cuil ( 2010/4/20 現在)– 1,270億web pages 検索可能– cuil は 2010 年 9 月にサービスを終了
• Google の件数 2012/5/07– A 約 25,270,000,000 件– あ 約 557,000,000 件 (あ /a= 2.2% )
• 総ページ数の表示が停止– データベースの処理能力の限界
14
②検索エンジン • 表11:基本機能を持った検索エンジ
– 論理式を使った検索機能– 検索結果の件数表示機能
– 日本語は google に統一15
日本語検索エンジン 英語検索エンジン 利用者 / 月* Quantcast
1GoogleGoogle.co.jp 1Google
google.com/ncr 182,590,048 1
2bing (×論理式・○件数表示)
2 bing (×論理式・○件数表示)
67,242,080 10
3Yahoo Japan(Googleと同じ)yahoo.co.jp
3 Yahoo yahoo.com 69,470,416 9
4ASK(×検索表示・×論理式) jp.ask.com
4 ASK(×検索表示・×論理式) ask.com
42,340,368 21
6Baidu 1,761
検索エンジン 5-1-2 「 3種類の機能を含んだシステム」
– インターネットで公開されている Web ページを対象とした情報検索システムで、データベースではなくSearch Engine と呼ばれる
1. Spiders クモ– リンクをたどって新しいページを探し出す機能
– 2. Index– 探し出したページを読み込み検索に必要なインデッ
クスを作成する機能
3. Search– 検索を実行しウエート付けを行い結果を表示する機
能16
Spiders新しいページを探し出す機能
• a spider('s) web クモの巣• www: world wide web
• ロボット– Web 情報収集ソフトが Web サイトを巡回して情
報を収集する– 人の代わりに作業を行う機械的ロボットと同じ概念
–機械的ロボットと区別するためコンピュータロボットは bot とも呼ばれる。
• データベースの概念との違い– 新しいページを探し出す機能 (spiders) は ,通常の
データベースの概念に含まれない 17
Index 索引インデックスを作成する機能
• 索引• ある書物の中の語句や事項などを、容易に探し出せ
るように抽出して一定の順序に配列し、その所在を示した表。大辞泉
• キーワード(テキスト)でインデックスを作成– 検索は一般のデータベース同様にテキスト– データはテキスト、画像、映像など多様
• 書誌事項が存在しない– HTML タグを利用– 書誌事項とみなしインデックスを作成– title – body など
18
Google の Index• 検索結果から推定 (2010/4/23 現在 )• 見出し
– Web ページの <TITLE> 部分– <meta name=“Description” content= > 部分を使用
• 抄録– <body> 部分の検索キーワードが含まれる前後約 130
字(日本語 , スペースを含む)が表示される• 出典部分
– Web ページの URL
• 著者– 相当するインデックスは無い
19
Search 検索検索を実行しウエート付けを行い結果を表示する機能
• 検索結果にウエート付けを行う– 利用価値の高いと思われる順に Web ページを表示– Google のウエート付け P31
• 言語– 検索エンジンは多言語に対応している– 同じ検索エンジンで英語情報検索も可能
• 同じ検索式を使っても検索結果が異なる– 情報を探し出す機能 (spiders) 、インデックスを作成する機
能 (index) 、結果を表示する機能 (search) は、それぞれ検索エンジン毎に特徴を有する
– Retrieve は使用されない– リンクの機能が対応
20
検索エンジンの公正さ
• 広告収入により商業ベースで運営– 利用者に費用負担は生じない
• 中立な情報ではない– 情報の扱いに偏りが出る可能性が存在する– 恣意的な検索結果となる可能性が存在する
• Web 利用の前提– 検索エンジンを使用する場合公正な結果ではない可能性
があることを意識して利用する必要• 複数の検索エンジンの使用
– 個々の検索エンジンの偏りを正すためにも有効である。
21
③ Google の利用 5-4
• 【日本語】Google 69) www.google.co.jp (2010/04/23 現在 )– 1996年から活動を開始した– 日本では日本語サービスが充実してきた2002年ごろから認知
される
• PageRankTM のコンセプト– 「多くの良質なページからリンクされているページは、やは
り良質なページである」– リンクが多く張られているWebページを結果の上位に出力し
た– Google登場以前の検索エンジンと比べると、Googleの検索結
果は検索者の求める順序と良く一致するようになった
• 10億ページを越す収集件数を初めて実現した
22
• サービス開始当時のウエート付け– ①リンクが張られている数(バックリンクの数, link
juice )– ②リンクが張られているときの説明文(アンカーテキス
ト)– ③Web ページ内のキーワード– ④ ドメインの信頼性
• 現在– ④ のウエートを高くし、④、②、③、①の順で Web ペー
ジがウエート付けされている– 当初重視された①バックリンクのウエートは低くなる– ④ ドメインの信頼性が最も重要視されるようになっている
23
• 問題5-3• 環境 破壊 OR 汚染• 環境 破壊 OR 汚染 世界遺産 OR 自然遺産
– 環境 破壊 |汚染 世界遺産 | 自然遺産 24
【英語】 Google 68)
• www.google.com (2010/04/23 現在 )• 英語で検索する場合は、 www.google.com で英語のキーワードを使って日本語と同様に検索する
• www.google.com と www.google.co.jp の検索結果は異なる– 検索対象となるもとの情報の集合は同じであるが、結
果を表示するアルゴリズムが異なると推定される• 最も多くの件数が該当する「 a 」の検索件数
– About 25,310,000,000 results – 約 25,310,000,000 件 で一致する– (2011/1/30 現在 )
– 2年前から件数は増えていない25
• 接続方法• http://www.google.com/ncr で接続する。• [Google.com in English] で接続(不完全)– Google.com usa で検索し、キャッシュから入
る( 2012/5/14 )– 無意識のうちに情報がコントロールされてい
る
26
Censorship by Google 検閲• Google の基準により、情報が検索対象から
はずされる、検索しても対象になっていないこと
• 偏りの認識の必要–提供された環境を単に利用しているすぎ
ないこと– 情報が常に公平に扱われている訳ではな
いこと– 、
27
結果として情報が公正に扱われない場合
–国内から google.com の検索ができなくなる– 2009/05/04 時点で http://www.google.com に接
続すると、自動的に http://www.google.co.jpに切り替わり、 www.google.com は表示できなかった。
• Google.com in English も表示されなくなっていたが、 2010/04/24 時点で再び表示されようになった
• www.google.com/ncrでないと表示されない。2013/7/1 28
④ 課題4の作成• 提出ページの確認
29
⑤検索式
• 回答144• 全問正解です
– 15• 回答の一部に間違いが認められました
–26• 回答が不完全です
– 課題が正確に実行できない– 103
• 先週の回答30
• アルバイト募集–卒論DB – 2012 年度のUP用データの整備– 850円/時間 10~20時間程度– 1-2名
31
⑥他の検索エンジンとカテゴリ検索
• Yahoo• goo• ASK• Bing
32
Yahoo による情報検索【日本語】 5-5
• Yahoo!Japan 94) www.yahoo.co.jp (2010/04/22 現在 )
• 1994 年にアメリカで Yahoo が設立– 当初はキーワード方式よりカテゴリ方式が主体
• 1996 年に Yahoo Japnan が設立– 日本語サービスが開始された。国別に現地化されたサイト
からサービスが提供されている– 現在に至るまで日本国内において最も利用頻度の高いポー
タルサイト• 日本においてグーグルと提携 (2010/7/27 現在 )
– 日本の検索サイトはgoogole の検索結果と類似の結果を表示するようになった(2010/12/26 現在)が、その後修正が行われている
33
Yahoo による情報検索【英語】
• Yahoo! – www.yahoo.com (2010/04/22 現在 )–日本語同様に1回目の検索を実行する
と検索結果が表示され、検索ボタンの隣に「 options 」が表示される
–「 options 」をクリックし「 Advanced Search 」を選択すると論理式を使った検索が可能な検索画面が表示される
34
goo 【日本語】
• http://www.goo.ne.jp/ (2010/04/24 現在 )• NTTレゾナントが運営するポータルサイト• 検索オプションを示す。
– トップページの検索ボタンの右上にある検索オプションをクリックすると表示される
– OR 検索 , AND 検索 , NOT 検索 , フレーズ検索に対応している。
• 文章で検索する(自然文検索機能)– 文章からキーワードを切り出して検索する機能
• カテゴリ検索機能も有する35
ASK 【日本語・英語】• http://www.ask.com/ (2010/04/24 現在 ) • Advanced Search
– トップページの検索窓の下の Advanced をクリックすると論理演算子による検索が可能な Advanced Search のページが表示される。
– AND検索、フレーズ検索、 OR 検索、 NOT 検索に対応• Location of words
– ページ全体 (Anywhere on the page) 、タイトル( in page title )と URL( in URL )を検索対象範囲に指定できる
• 日本語も英語も同様に実行できる。36
Bing
• Japan http://jp.msn.com/ ( 2010/04/24 現在) • 4大検索エンジン
–Google–Yahoo!–Ask–Bing (MSN Search)
• 演算子による検索–対応していない
37
⑦カテゴリ検索• カテゴリ方式による検索
– 予め提示されたカテゴリと呼ばれる項目リストから必要な情報を順に選択する
• 初期の有力な検索手段– キーワード方式の検索エンジンは検索結果のウエー
ト付け機能が不十分で使いづらかった– 現在も一般的な課題で信頼性のあるサイトを探すの
に有用
38
表 12 カテゴリ方式の検索エンジンリスト
日本語 英語
1 Yahoo!カテゴリ
Yahoo! Directory93)
2 goo80) EZILON SEARCH66)
3 biglobe79) BEST OF THE WEB59)
39
5-3-2 カテゴリ方式の検索• カテゴリ
– 情報の内容を大項目、中項目、小項目のように階層的に分類したリスト
– カテゴリ項目は情報量に応じて構成され階層の数は固定されていない
– キーワード方式と異なり人がカテゴリに分けている• カテゴリ検索
– 順にたどることにより的確なキーワードを知らなくても Web サイトを検索できる
– 単純な概念だけで検索できる場合には便利で有用な検索手段となる
– 概念を組み合わせる必要のある課題の検索には不向き
40
5-6 Yahoo! カテゴリによる情報検索 ( 日本語 )
• 検索エンジンの先駆け– Yahoo はこのカテゴリ方式が始まり– Google をはじめとするキーワード方式の検索エンジ
ンの機能の向上により利用頻度減少• 登録サイト
– サイトをロボットではなく人(サーファー)が選定している
– 多くの人にとって利用価値があると Yahoo の担当者が判断したサイト
– 一般的で信頼性のある情報を探す場合に有効• Yahoo! Directory
– 大分類は Yahoo!カテゴリと同じだが内容は異なる41
• Yahoo! カテゴリ http://dir.yahoo.co.jp/ ( 2010/04/24
現在)
– エンターテインメントから始まる14の大カテゴリ– サービス開始時点から同一– 下位のカテゴリを順に選択(クリック)すると、最後に Yahoo の登録サイトが表示される。
– 登録サイトをクリックすると登録サイトのぺージが表示される
• カテゴリの検索– 「 Yahoo! カテゴリ全体」を指定してキーワード検索
を実行すると、目的とする情報が含まれるカテゴリを検索できる
– カテゴリを探す検索は基本的に1キーワードで実行する 42
Yahoo! カテゴリと DirectoryYahoo! カテゴリ(日本) Yahoo! Directory (アメリカ)
1 エンターテインメント Arts & Humanities2 趣味とスポーツ Business & Economy3 芸術と人文 Computers & Internet4 生活と文化 Education5 教育 Entertainment6 健康と医学 Government7 社会科学 Health8 メディアとニュース News & Media9 ビジネスと経済 Recreation & Sports
10 各種資料と情報源 Reference11 コンピュータとインターネット Regional12 政治 Science13 自然科学と技術 Social Science14 地域情報 Society & Culture
-- News Additional
-- The Spark Blog43
5-6 Yahoo! Directory による情報検索【英語】
• http://dir.yahoo.com/ (2010/04/24 現在 )– 使用方法は日本の Yahoo! カテゴリと同じ– 登録サイトは Yahoo! カテゴリと全く異なる
• Yahoo! Directory の大分類– Yahoo! カテゴリと同じ14分類である– 大分類以下のカテゴリリストは大きく異なる– 14分類以外に、 News Additional と The Spark Blog が
2010 年より追加• 日本とアメリカのリスト比較
– 日本とアメリカで興味を持たれている情報の違いを比較できる
44
⑧情報検索と基礎知識• 業務のための情報収集
– 検索課題に関する基礎知識は日常業務を通して習得– 目的や目標、キーワードも明らかな場合が多い
• 大学などの学習の場における情報収集– 新しい知識を得ること自体が目的– 事前にある程度基礎知識を得る必要
• 基礎知識は情報収集の全ての段階で必要– キーワードの選択、– 情報収集の目的と目標の設定– 専門的な情報の理解– 情報の評価
45
基礎知識の取得
• Web 情報による予備調査– 検索エンジンで Web 情報を検索し概要を把握する– ドメイン名 go.jp, gov, ac.jp などのサイトを利用
• Web情報から得ることが困難な基礎知識– 幅広い範囲を対象とする基礎知識
• 断片的なWeb情報から得ることは困難– 図書の利用
• 入門書など– 雑誌の利用– 百科事典の利用
46
⑨ 情報のまとめかた(再確認) 2-6
• 活用できるようにまとめる– 情報を羅列するだけでは役にたたない
• 情報をまとめる1. 情報の内容を個別に理解する2. 情報を全体的に整理、要約、分析する
• 自分で考える–収集した情報に基づいて内容をまとめる– まとめた内容と、自己の知識と併せて評価を行う
47
表 6 情報をまとめた良い表現と悪い表現例
• × 「~について記載されていた」– 「ついて」という表現は得られた情報の内容を何も
表現していないに等しい– 具体的な内容を示す、事実や、数値データなどを使
用して概要を記述することが必要• 目的や目標の達成に役立つまとめ
– 情報検索を行う前に目的や目標を設定– 設定した目的と目標を意識してまとめる
48
練習問題
1. Web情報を利用する場合に注意すること
2. 検索エンジンについて理解できたこと3. 検索式について新たに理解ができたこと
49
問題 5-1 Web 情報検索• 問題5-1• 図16に示す Google の検索条件を、論理演算子を使った
検索式に変換し、何を検索しているか答えなさい。
すべてのキーワードを含む
いずれかのキーワードを含
フレーズを含む
キーワードを含めない
50
mexico america
swine flu
infection
問題 5-2 Google の情報検索• 以下に Google の情報検索 E 結果を示す。
回答件数が異なる理由を推定してください。
• ①「巻高校」–約 12,000,000 件
• ②「巻 高校」
–約 4,970,000 件
• ③「”巻高校”」–約 12,700 件
• 自分の出身高校名の場合も試しなさい。51
問題 5-3 以下の検索式を Google に入力し検索を実行しなさい
• ① ”コンピュータウイルス” AND (感染 OR 予防 )
AND ”アンチウイルスソフト”
• ② 環境 AND (破壊 OR 汚染 ) AND (世界遺産 OR 自然遺産 )
52
問題 5-4以下の検索エンジンを使って、検索式を実行した結果を比較しなさい。
• 「地球温暖化 and 環境ホルモン and 人」
• ①Google http://www.google.co.jp/• ②Bing http://www.bing.com/• ③Yahoo http://search.yahoo.co.jp/• ④Baidu http://www.baidu.jp/
53
• 問題5-5 • Yahoo!カテゴリを使用して、検索エンジンサ
イトの大分類「コンピュータとインターネット」を使って、Yahooがリストアップした代表的な検索エンジンを探しなさい。
• 問題5-6 • Yahoo!カテゴリの「趣味とスポーツ」と
Yahoo! Directoryの「Recreation & Sports」の大分類以下のカテゴリを比較し、日本とアメリカにおいて、趣味の対象がどのように異なるか考察しなさい。
54
Recommended