21
政政政政政政政政政政政政政政政2016.6.29 1

資料結構化專家會議簡報 V1.3 20160628

Embed Size (px)

Citation preview

Page 1: 資料結構化專家會議簡報 V1.3 20160628

1政府機關網站資料結構化專家會議: 2016.6.29

Page 2: 資料結構化專家會議簡報 V1.3 20160628

壹、研究緣起貳、背景說明參、研究方法

簡報大綱

2

Page 3: 資料結構化專家會議簡報 V1.3 20160628

3

壹、研究緣起• 專案名稱: 104年度國家發展委員會政府資料開放委外專案• 研究項目:

資料品質評鑑機制-建立資料品質評鑑指標,期能提升國內資料品質-建立 data schema範例、提供共通性欄位之標準參照

規劃政府機關網站資料結構化流程-在既有的「電子資料流通詮釋資料標準」中進行擴充-建立政府網站共通性內容的標註性語彙

API服務水準研析建議-瞭解目前其他機關介接政府資料開放平臺之 API所面臨的問題-分析國內外開放資料平台所提供之 API標準,提供平臺 API服務改善建議

Page 4: 資料結構化專家會議簡報 V1.3 20160628

4

貳、背景說明 -1

• 電子資料流通詮釋資料標準 (2007):為促進跨機關資訊之互通,以及方便民眾瞭解、擷取政府資訊與使用各項申辦服務。序號 DC資料項 說明 必要/建議

/選擇1 Title(標題) 電子檔案被賦予之一個或多個名稱。 必要2 Subject(主題和關鍵

詞)電子檔案主題或主要概念之關鍵字,及代表與本物件重要相關之人、地、事件、或其他背景資料等資訊之詞彙。必要

3 Creator(創作者) 電子檔案構思及創始者,可為一位或一位以上之個人、機構或服務系統。 必要

4 Description(簡述) 文件摘要或影像資源之內容敘述。可包括摘要、目次、圖示資料之來源說明、或對於內容的文字敘述等。 選擇

5 Publisher(出版者)負責發行電子檔案之個人或機構,如博物館,同時可著錄主要資助單位或政府機關。此外,發行者與其他重要代理商亦可著錄於此。

必要

6 Contributor(貢獻者)除著者外,對電子檔案創作有貢獻之其他相關人士或機構(如編者或譯者)。亦可用於著錄贊助者、捐贈者及負責人。描述生物標本時。可於此著錄標本製作者。

選擇

7 Date(製作日期)電子檔案公開發表日期,建議日期著錄格式: YYYY-MM-DD。此處所著錄之日期不一定與 Coverage欄位所定義之資源內容所涵蓋之日期或期間相同。描述生物標本時,本欄位值著錄鑑定、觀察及採集的相關日期。

必要

8 Type(資料類型) 電子檔案類型或所屬抽象範疇,例如文字、聲音、影像、實體物件、事件、原件或代理物件等。 必要

Page 5: 資料結構化專家會議簡報 V1.3 20160628

5

貳、背景說明 -2

序號 DC資料項 說明 必要/建議/選擇

9 Format(資料格式) 本欄位描述存取、呈現或使用此電子檔案時可能所需之軟硬體工具。 選擇

10 Identifier(識別資料) 用來有效辨識此電子檔案之文字或號碼,如機關OID、 URN、 URL、 ISSN、 ISBN等。 必要

11 Relation(關連) 與其他電子檔案之關聯,或所屬系列和檔案庫。 選擇12 Source(來源) 電子檔案其他衍生來源。 選擇13 Language(語言) 電 子 檔 案 所 使 用 之 語 言 。

建議使用 RFC1766 並併用 ISO639 標準。 建議

14 Coverage(時空涵蓋範圍)

電子檔案所涵蓋之時期和地理區域。時間涵蓋範圍指電子檔案內容相關時期,例如新石器時代,而非電子檔案產生或創作時間。空間涵蓋範圍若是一個實際地區,則著錄地名或座標(經緯度)。

建議15 Rights(權限範圍) 電子檔案版權聲明和使用規範。 建議16 category.theme(主題分

類)以政府完整施政分類為基礎,提供簡潔易懂之分類架構。 必要

17 category.cake(施政分類)

各機關依行政施政業務與功能,以階層式架構建立完整行政施政知識種類,建立分類表內所涵蓋之詞彙。 必要

18 category.service(服務分類)

以民眾使用角度出發,以其較易瞭解及熟悉的方式呈現分類內容。 必要

Page 6: 資料結構化專家會議簡報 V1.3 20160628

6

貳、背景說明 -3• GSA(2013)之開放與結構內容模式計畫 (Open and Structured Content Models

Project):為能讓政府機關更易於以多種形式和平臺上發佈內容,促成跨機關間資料流通:文章內容模式:內容欄位 必填 (R)/選填 (O) 數量 內容欄位 必填 (R)/選填

(O)數量

標題 Required 1 語言 Optional 1

短標 Optioinal 1 讀者 Optional 多個完整標題 Required 1 參考資料 Optional 多個

描述 Required 1 主題 Required 多個短描述 Optional 1 文章主體 Required 1

詳細描述 Required 1 文章段落 Required 多個URL Optional 1 -段落標題 Required 1

文章類型 Optional 1 -段落主體 Required 1

日期 Optional 1 相關多媒體 Optional 1

上架日期 Required 1 影片 Optional 多個第一次發布日期 Optional 1 音訊 Optional 多個最後修正日期 Optional 1 影像 Optional 多個釋出日期 Optional 1 評分 Optional 1

資料來源單位 Required 1 資料來源 URL Optional 多個提供者 Optional 1 相關 URL Optional 多個作者 Optional 多個

Page 7: 資料結構化專家會議簡報 V1.3 20160628

7

貳、背景說明 -4活動內容模式:內容欄位 必填 (R)/選填

(O)數量 內容欄位 必填 (R)/選填

(O)數量

標題 Required 1 URL Optional 1短標 Optioinal 1 電話會議號碼 Optional 1

描述 Required 1 視訊會議資訊 Optional 1

詳細描述 Optional 1 -實體位址 Optional 1活動類型 Required 1 國家 Optional 1開始時間 Required 1 地址位置 Required 1結束時間 Required 1 地區 Required 1參與型態 Required 1 郵遞區號 Required 1活動聯絡方式 Required 1 街名 Required 1活動 URL Optional 1 地理座標 Optional 1聯絡 email Optional 1 註冊資訊 Optional 1

贊助單位 Optional 多個 註冊型態 Required 1講者 Required 多個 註冊費用 Required 1姓名 Required 1 註冊 URL Optional 1主題 Required 1 注意事項 Optional 1所屬單位 Optional 1 活動資料 Optional 多個自傳 Optional 1 活動資料型態 Required 1講者型態 Required 1 活動資料取得來源 Required 1

活動型式 Optional 1 主題 Optional 1場地資訊 Optional 多個 活動回饋 Optional 1場地型態 Required 1 評比 Optional 1地點 Required 多個 建議 Optional 1

-虛擬位址 Optional 1 語言 Optional 多個

Page 8: 資料結構化專家會議簡報 V1.3 20160628

8

貳、背景說明 -5

資料來源: Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.

• Markup Vocabulary

Before 1997:- XML- MCF

1997~2004- RDF- RDFS- OWL- RSS- vCard/hCard- IETF- FOAF

After 2011- Schema.org

Page 9: 資料結構化專家會議簡報 V1.3 20160628

9

貳、背景說明 -6

資料來源: schema.org. (2016). About Schema.org. Available from: https://schema.org/docs/faq.html#0. Last access: 2016/4/7.Guha, R. V., Brickley, D., & Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. Available from: http://queue.acm.org/detail.cfm?id=2857276. Last access 2016/4/7.

• Why schema.org?- 2011 created by all the major search engines: Google, Bing, Yandex, Yahoo!- Inspired by earlier work like Microformats, FOAF, OpenCyc, etc.- Came through collaborations- Applications:

2014 20150%

5%

10%

15%

20%

25%

30%

35%

22.00%

31.30%

schema.org markup

Sample: 10 billion pages from a combination of the Google index and Web Data Commons

Source: https://www.data.gov/developers/blog/support-schemaorg-datagov. Last access: 2016/4/7

Page 10: 資料結構化專家會議簡報 V1.3 20160628

10

參、研究方法• 政府機關網站資料Markup Vocabularies建立流程圖

Page 11: 資料結構化專家會議簡報 V1.3 20160628

11

參、研究方法 -歸納整理 1• 網站架構歸類:政府資料開放平臺、勞動部、原子能委員會、中央氣象局之盤點結果

本研究者歸類 4個網站共通性架構

文章 (Article)

新聞文章 最新消息、公布欄、新聞稿相關連結 外部連結、核能相關網站、好站介紹常見問答 常見問答、 FAQ

資料下載 表單下載、線上服務、資料申購出版品 政府資訊公開、出版品索取、出版品影音 懶人包、影音

其他任務與沿革、重要業務、 RSS、電子報訂閱、電子報、施政主軸、施政績效、施政目標、業務專區、源子能法規、政府資訊、勞動統計專網、資訊公開、氣候統計、網站使用統計、資料分類統計、雙語詞彙、交流討論、網站安全政策、隱私權保護政策、政府網站資料開放宣告

活動 (Event)

活動訊息 活動訊息人物介紹 正副首長介紹、首長介紹機關聯絡資訊 組織簡介、職掌及組織、組織架構民意信箱 我還想要、民意信箱、意見信箱、意見箱

Page 12: 資料結構化專家會議簡報 V1.3 20160628

12

參、研究方法 -歸納整理 2• 文章 (Article)內容模式 -1

GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源*Title 標題 name Thing Text

ShortTitle 短標 alternateName Thing Text

*FullTitle 完整標題 headline Thing>CreativeWork Text

*Description 描述 description Thing Text

ShortDescription 短描述 -- -- --

*DetailedDescription 詳細描述 disambiguatingDescription Thing Text

URL URL url Thing URL

ArticleType 文章類型 -- -- --

Dates 日期 -- -- --

*DatePosted 上架日期 dateCreated Thing>CreativeWork Date/DateTime

DateFirstPublished 第一次發布日期 datePublished Thing>CreativeWork Date

DateLastModified 最後修正日期 dateModified Thing>CreativeWork Date/DateTime

DateReleased 釋出日期 -- -- --

*SourceOrganization 資料來源單位 sourceOrganization Thing>CreativeWork Organization

Contributor 提供者 contributor Thing>CreativeWork Organization/Person

Page 13: 資料結構化專家會議簡報 V1.3 20160628

13

參、參、研究方法 -歸納整理3• 文章 (Article)內容模式 -2

GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源Author 作者 author Thing>CreativeWork Organization/Person

InLanguage 語言 inLanguage Thing>CreativeWork Language/Text

Audience 讀者 audience Thing>CreativeWork Audience

References 參考資料 -- -- --

*Topics 主題 -- -- --

*ArticleBody 文章主體 articleBody Thing>CreativeWork>Article Text

*ArticleSection 文章段落 articleSection Thing>CreativeWork>Article Text

*-SectionTitle -段落標題 -- -- --

*-SectionBody -段落主體 -- -- --

RelatedMultimedia 相關多媒體 -- -- --

Video 影片 video Thing>CreativeWork VideoObject

Audio 音訊 audio Thing>CreativeWork AudioObject

Image 影像 image Thing ImageObject/URL

AggregateRating 評分 aggregateRating Thing>CreativeWork AggregateRating

IsBasedOnURL 資料來源 URL isBasedOn Thing>CreativeWork URL

RelatedURLs 相關 URL relatedLink Thing>CreativeWork>WebPage URL

Page 14: 資料結構化專家會議簡報 V1.3 20160628

14

參、研究方法 -歸納整理 4• 活動 (Event)內容模式 -1

GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源*Title 標題 name Thing Text

ShortTitle 短標 alternateName Thing Text

*Description 描述 description Thing Text

DetailedDescription 詳細描述 disambiguatingDescription Thing Text

*EventType 活動類型 -- -- --

*StartDateTime 開始時間 startDate Thing>Event Date

*EndDateTime 結束時間 endDate Thing>Event Date

*AttendanceType 參與型態 -- -- --

*EventContact 活動聯絡方式 contactPoint Thing>Organization ContactPoint

EventURL 活動 URL url Thing URL

ContactEmail 聯絡 email email Thing>Organization Text

Sponsor 贊助單位 sponsor Thing>Event Organization/Person

Page 15: 資料結構化專家會議簡報 V1.3 20160628

15

參、研究方法 -歸納整理 5• 活動 (Event)內容模式 -2

GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源*Speaker 講者 performer Thing>Event Organization/Person

*Name 姓名 name Thing>Person Text

*Title 職稱 jobTitle Thing>Person Text

OrganizationAffiliation 所屬單位 affiliation Thing>Person Organization

Biography 自傳 -- -- --

*SpeakerType 講者型態 -- -- --

EventFormat 活動型式 -- -- --

*VenueInformation 場地資訊 location Thing>Event Place/PostalAddress/Text

*VenueType 場地型態 -- -- --

*Location 地點 -- -- --

-VirtualAddress -虛擬位址 -- -- --

URL URL url Thing URL

TeleconferenceNumber 電話會議號碼 telephone Thing>Organization Text

VideoconferenceInfo 視訊會議資訊 -- -- --

Page 16: 資料結構化專家會議簡報 V1.3 20160628

16

參、研究方法 -歸納整理 6• 活動 (Event)內容模式 -3

GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源-PostalAddress -實體位址 -- -- --

addressCountry 國家 -- -- --

*addressLocality 地址位置 -- -- --

*addressRegion 地區 -- -- --

*postalCode 郵遞區號 -- -- --*streetAddress 街名 -- -- --

GeoCoordinates 地理座標 geo Thing>Place GeoCoordinates/GeoShape

Registrationinformation 註冊資訊 -- -- --

*RegistrationType 註冊型態 -- -- --

*RegistrationCost 註冊費用 -- -- --

RegistrationURL 註冊 URL -- -- --

RegistrationNote 注意事項 -- -- --

Page 17: 資料結構化專家會議簡報 V1.3 20160628

17

參、研究方法 -歸納整理 7• 活動 (Event)內容模式 -4

GSA內容欄位 schema.org對應語彙 型態英文 中文 屬性 來源EventMaterials 活動資料 offers Thing>Event Offer

*EventMaterialsType 活動資料型態 -- -- --

*EventMaterialsArtifact 活動資料取得來源 -- -- --

Topics 主題 -- -- --

EventFeedback 活動回饋 -- -- --

Rating 評比 aggregateRating Thing>Event AggregateRating

EventComments 建議 comment Thing>CreativeWork Comment

InLanguage 語言 inLanguage Thing>Event Language/Text

Page 18: 資料結構化專家會議簡報 V1.3 20160628

18

參、研究方法 -實作檢測方式 -11. Google Structured Data Testing Tool(1)檢測標的

- 網頁內容結構化程度(支援 microdata / JSON-LD語法)- 找出有標記問題的語法

(2) 檢測方法a. 貼上網頁 URL或是 HTML source codeb.驗證後查看結果c. 根據錯誤報告修改錯誤標記

Page 19: 資料結構化專家會議簡報 V1.3 20160628

19

參、研究方法 -實作檢測方式 -22. SEO SiteCheckup(1)檢測標的

- 檢測結構化網業是否能表現在搜尋引擎優化上 (SEO)- 找出有標記問題的語法,提供錯誤報告

(2) 檢測方法a. 貼上網頁 URLb.測試後查看報告

網站 SEO總體表現

網站是否包含非通用類型 meta tag

Page 20: 資料結構化專家會議簡報 V1.3 20160628

20

參、研究方法 -實作檢測方式 -32. Import.io(1)檢測標的

- 結構化網頁是否利於機器直接抓取(2) 檢測方法

a. 輸入網址b.查看機器讀取結果,判斷結構化程度

原始網頁呈現 機器抓取結果

Page 21: 資料結構化專家會議簡報 V1.3 20160628

21

謝謝!敬請指導!