Upload
ozawa-kensuke
View
670
Download
2
Embed Size (px)
Citation preview
ネ ッ ト か ら リ ア ル へ REALWORLD
CONFIDENTIAL
クラウドソーシングを活用した教師データ作成
株式会社リアルワールド株式会社リアルキャリア
佐藤 柚花
Copyright © REALWORLD,inc. All Rights Reserved. 2CONFIDENTIAL
会社概要
■国内グループ会社株式会社リアルキャリア〒106-6033東京都港区六本木一丁目6-1 泉ガーデンタワー 33FTEL:03-6680-8341(代表) FAX:03-5114-3579
一般労働者派遣事業許可番号 派 13-306496有料職業紹介事業許可番号 紹 13-ユ-307788
ノーザンライツ株式会社〒160-0023東京都新宿区西新宿6-12-1 西新宿パークウェストビル3FTEL:03-3347-5150
株式会社LifeTech〒060-0004北海道札幌市中央区北4条西6丁目1 毎日札幌会館7F
株式会社マークアイ〒106-6033東京都港区六本木一丁目6-1 泉ガーデンタワー 33F
株式会社REAL FINTECH〒106-6033東京都港区六本木一丁目6-1 泉ガーデンタワー 33F
■海外グループ会社REALWORLD ASIA PTE. LTD. (シンガポール子会社)80 ROBINSON ROAD #10-01A SINGAPORE
■本社株式会社リアルワールド (REALWORLD,inc.)http://www.realworld.jp/company/
〒106-6033東京都港区六本木一丁目6-1 泉ガーデンタワー 33FTEL:03-5114-3580(代表) FAX:03-5114-3579
資本金 425,517千円(2016年9月末時点)設立日 2005(平成17)年7月29日決算月 9月上場市場 東京証券取引所マザーズ市場
クラウドソーシングサービスを提供
Copyright © REALWORLD,inc. All Rights Reserved. 3CONFIDENTIAL
自己紹介
機械学習をかじっていたこともあり、クラウドソーシングを用いた教師データ作成に興味をもつ
~2017 東京大学工学部 社会基盤学科地域/情報研究室http://planner.t.u-tokyo.ac.jp/
2017~ 株式会社リアルワールド クラウドソーシングG
※クラウドソーシング…コンピューターネットワークを通じて、多数の人間に業務を依頼すること
Copyright © REALWORLD,inc. All Rights Reserved. 4CONFIDENTIAL
データ支援サービスの背景
機械学習において、データの用意に8割の時間がかかるといわれている
学習・モデル生成
モデル評価
実用化
・エンジニアが開発に集中できないデータのタグ付けが思い出になる
・リリースまでのボトルネックになるどこがいち早くリリースできるかの競争
教師データ
テストデータ
Copyright © REALWORLD,inc. All Rights Reserved. 5CONFIDENTIAL
教師データ作成サービスのしくみ
お仕事メディア「CROWD」
・メディア会員が好きなタスクを選んで作業、報酬としてポイント(換金できる)を付与
・画像タグ付け作業、文字起こし作業などをメディア上で行える
・裏側で各会員の作業結果を集約、一括で吐き出す
Copyright © REALWORLD,inc. All Rights Reserved. 6CONFIDENTIAL
での配信の仕組み
タスクX
タスクY
タスクZ
作業画面
単一選択or複数選択
入力(例外☑欄)
好きなタスクをクリックして作業開始
トップページ
Copyright © REALWORLD,inc. All Rights Reserved. 7
事例紹介
Copyright © REALWORLD,inc. All Rights Reserved. 8CONFIDENTIAL
事例1(音声認識エンジン用の音声データ収集)
フェアリーデバイセズ株式会社
AI(人工知能)へ学習させるための音声教師データの収集作業を実施。全国のユーザーから複雑多様な音声データを短期間で収集した。
コスト約61%削減
方言などの複雑多様な
音声データを全国のユーザーから収集
4,000発話を2週間で
スピード対応
クライアントの声
音声データの収集には人を集め、スタジオで録音する必要があり、手間が掛かっていました。クラウドソーシングを利用することで、方言や性別年齢のバラつき、環境音などを含めた多様な音声データを低コスト短納期で収集できました。
¥
Copyright © REALWORLD,inc. All Rights Reserved. 9CONFIDENTIAL
事例2-1(チャットボットエンジン用の質問文作成)
Q:導入するために何を用意すればよいのですか?
Q:実際に取り入れる際は、何を揃えていればいいですか。
チャットボットの精度向上に寄与
(精度90%以上)
学習のための多種多様な
想定質問テキストデータを収集
表記のばらつきを統一し、膨大なデータに対するユーザーの検索精度が向上クライアントの声
以前は、大量の作業者を短期募集したり、管理したりするのが大変煩雑でした。しかし今回の取り組みで、作業者との個別のやり取りがなくなり、発注の手間が劇的に低下し、生産スピードも3倍以上向上しました。さらに、納品されたデータの活用でチャットボットの精度が90%以上になり、人工知能にとって十分な学習ができました。
約6万件を8日間でスピード対応
Q:どういったことを準備しておけばいいですかね?導入するために。
A:本製品の導入に必要なデータは下記のとおりです。・データA(text、150文字以内)・データB(text、データAに対応するカテゴリ)また、より複雑な機能をご希望の場合は、…
AI(人工知能)のチャットボットの学習に必要な想定質問文の作成作業を実施。同じような意味を持った様々な表現での質問文を短期間で大量に作成。
対話型AI開発企業A社
Copyright © REALWORLD,inc. All Rights Reserved. 10CONFIDENTIAL
事例2-2(お問合せと回答対のデータ作成)
株式会社 Preferred Infrastructure
AI(人工知能)によるWebベースのお問合せ対応のレコメンドシステム「AnswerFinder」で活用するデータを作成。
表記のばらつきを統一し、膨大なデータに対するユーザーの検索精度が向上クライアントの声
作成したいデータの指示出し内容について細かな仕様まで一緒に詰めることができ、結果に満足のいくデータを作成できました。実際に作業をする際には、全体の10%をまずテストして仕様の認識を正しくすり合わせることができたのが大きかったです。これにより、作成された文章の品質が従来の他の方法に比べて大幅に改善しました。
シーンに沿った問合せと回答セットを作成してください。
シーン:届いた商品の不具合に関するクレームを、実際にお店へのお問合せで行うことを想定して問合せ文を作成してください。また、その問合せについて、深く謝罪の意を述べ、個別の内容の対応となる回答文を作成してください。
1. 問合せ文 (100文字以上)
2. 回答文 (140文字以上)
複雑多様な問合せと
回答セットのデータを
1,000件以上大量作成
データが分散するようシーンを企画し、
細かな要望に対応
Copyright © REALWORLD,inc. All Rights Reserved. 11CONFIDENTIAL
事例3(画像認識エンジン用のアノテーション(矩形選択、タグ付け))
1:対象物の座標取得
2:性別
●男性 ○女性 ○判断できない
AIによる画像認識のための学習に必要な被写体に関する情報を付与。外接矩形の頂点座標の取得やラベル付与など、膨大な量のオブジェクト検出作業をスピード対応。
174 121 315 528
○~10代●20~30代○40~50代○60代以上
3:年代
座標取得やラベル付与のための独自ツールを持っていませんでしたが、要件どおりの作業インターフェース構築から依頼できたのは助かりました。また、膨大かつ単調な作業のため、社内数人で手作業でやるとかなり時間がかかったと思いますが、短納期で仕上げていただき非常に満足しています。クライアントの声
1万件の画像データを約2日で処理
作業実績
その他の作業例
・被写体の指定部位ラベリング作業・動画内の動作タグ付作業 etc…
大手メーカーB社
Copyright © REALWORLD,inc. All Rights Reserved. 12CONFIDENTIAL
事例4 (会話の”自然さ”判定)
コストは、約1/3に削減
クライアントの声
作業設計から運用までを委託可能なため、データのハンドリングが確実で、非常に手間を省くことができました。作業期間的には従来の手法の1/2程度、コスト的には従来の手法の1/3程度で作業を終えられました。
約15万件を2週間でスピード対応
コミュニケーションロボットなどに搭載される対話型のAIエンジンでは、会話の”自然さ”が重要。“自然さ”は定量的な測定が難しいため、人間の感性による測定が必要。
¥
No.1
会話内容として、①と②いずれが自然だと思いますか?
No.2
◯ ①がより自然である
◯ ②がより自然である
会話内容のチェック作業
あと3分58秒
会話①
会話②
A:暑いですね。B:好きな映画は何ですか?
A:暑いですね。B:今日は今年最高気温を記録するそうです。
会話① A:趣味はなんですか?B:
総合シンクタンクC社
Copyright © REALWORLD,inc. All Rights Reserved. 13
Appendix
Copyright © REALWORLD,inc. All Rights Reserved. 14
複数名一致 複数名の作業結果が一致した時点で、そのデータを正とする
ダミー 予め回答を用意した作業を配信し、正答率の高いワーカーにスクリーニング
バリデーション 規定の文字以外は入力不可の制限をかける ex.半角英数のみ
品質向上への取り組み
ヒューマンエラー自体は防げないが、システムで課題を解消
Copyright © REALWORLD,inc. All Rights Reserved. 15
CROWD作業画面作成
作業の要件に基づき、弊社にて「伝わりやすい」「作業しやすい」画面を設計
お客様のツールとの繋ぎ込みを行い、CROWDの会員を送客する
API連携
配信システム
単一選択or複数選択
入力(例外☑欄)
複数名一致etc.のシステムも活用し、
手軽に作業指示・回収・既存のツールをお持ちの場合に便利
・配信開始・停止、データ入稿・回収は、お客様側で自由に行っていただける
・成果物をリアルタイムで確認されたい場合にも向いている
Copyright © REALWORLD,inc. All Rights Reserved. 16CONFIDENTIAL
作業内容に応じて適切な業務形態をとることで、最適な作業体制を柔軟に構築
作業に応じた業務体制の構築
クラウドソーシング配信
Pマーク取得の機密性が担保された環境で習熟度の高いスタッフによる高品質な作業
在宅業務委託
ニアショアBPOセンター
個別契約締結済み、スキル・実績のあるワーカーが在宅で作業することによりコストダウン
単純タスクを大量に処理費用・納期の面で圧倒的なコストメリット
専門性:低機密性:低作業量:多
専門性:高機密性:高
正社員ワーカー-教育・研修-専任スタッフ
ecoristaワーカー-スキルチェック-面談、フォロー
1,000万人の人材DB業務体制業務形態作業難易度
CROWDワーカー-属性限定配信-システム制御
業務委託(有資格者)
業務委託(一般ユーザー)
クラウドソーシング(NDA指定あり)
クラウドソーシング(一般ユーザー)
正社員BPOセンタ-
Copyright © REALWORLD,inc. All Rights Reserved. 17CONFIDENTIAL
掲載事例以外にも、色々なお取り組みが可能です。
お気軽にご相談ください!
株式会社リアルワールド
03-5114-3580