機械学習を用いた編集業務の 生産性向上への取り組み · •...
TRANSCRIPT
![Page 1: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/1.jpg)
機械学習を用いた編集業務の生産性向上への取り組み
株式会社朝日新聞社 メディアラボ 田森 秀明
情報技術本部開発部 落合 隆文
©The Asahi Shimbun Company 2018
![Page 2: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/2.jpg)
自己紹介
• 落合 隆文
• 情報技術本部開発部技師
• 2007年4月朝日新聞社入社。情報システム部、工程管理部などを経て2015年から開発部。
• 主にデジタルサービスの開発を担当。最近ではCMS(コンテンツ管理システム)の開発や研究開発チーム「ICTRAD」でのプロトタイプ開発を担当。
• 田森 秀明
• メディアラボ主査・博士(情報科学)
• 2003年4月朝日新聞社入社。管制課、システム部などを経て2013年からメディアラボ。
• 2015年6月~2016年6月=スタンフォード大学客員研究員として自然言語処理研究に従事。
©The Asahi Shimbun Company 2018
![Page 3: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/3.jpg)
メディアラボと情報技術本部
• 〈メディアラボ〉メディア環境の激変に立ち向かい、自らの殻を突き破るための新組織として2013年に発足。5年、10年先を視野に事業刷新と成長をめざし、新たなメディアの創造を含む新商品・新事業の開発、最先端技術の研究に取り組む。
• 〈情報技術本部〉2015年、社内のIT技術者を統合して発足した組織。新聞製作や社内業務、「朝日新聞デジタル」のシステム開発、社内の業務革新を目的としたIT技術研究・開発、技術者育成などを担当。本部横断のチーム(ICTRAD)で機械学習を用いた研究開発に取り組んでいる。
©The Asahi Shimbun Company 2018
![Page 4: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/4.jpg)
今日話すこと
編集業務の生産性向上を目的とした、機械学習を用いたアプリケーション開発や学術研究の事例、AWSの活用方法についてご紹介します。
• Part1 業務アプリケーションの開発事例
• Part2 学術研究の紹介
• Part3 学術研究で得られた成果の実サービス展開
©The Asahi Shimbun Company 2018
![Page 5: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/5.jpg)
Part1業務アプリケーションの開発事例
©The Asahi Shimbun Company 2018
![Page 6: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/6.jpg)
アプリケーションの開発事例
• 社内部門と連携してプロトタイプ開発
→ ニーズのあるものは本番サービス化へ
これまでの開発事例
• 編集部向けの記事分類サービス
• 関連記事・画像検索サービス
• 自動クイズ生成(進行中)
• 画像検索アプリ
・・・etc
©The Asahi Shimbun Company 2018
例:画像検索アプリ(機械学習による力士の顔認識)
![Page 7: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/7.jpg)
アプリケーションの開発事例
• 社内部門と連携してプロトタイプ開発
→ ニーズのあるものは本番サービス化へ
これまでの開発事例
• 編集部向けの記事分類サービス
• 関連記事・画像検索サービス ←今回の事例
• 自動クイズ生成(進行中)
• 画像検索アプリ
・・・etc
©The Asahi Shimbun Company 2018
例:画像検索アプリ(機械学習による力士の顔認識)
![Page 8: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/8.jpg)
関連記事・画像検索サービス
©The Asahi Shimbun Company 2018
• 写真のない新聞記事をデジタル配信すると、一覧に見出しだけで表示される
• 写真のある記事の方が注目されやすいため、写真をセットにして配信したい
• しかし、探すのに手間がかかる
という話を編集者から聞き、記事の内容を解析して写真を提案するサービスを目指して、プロトタイプの開発がスタート
![Page 9: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/9.jpg)
プロトタイプのサービス概要
• 社内向けのWEBサービスとして開発
→編集者が気軽に使えるように、ブラウザから利用できるようにした
• 記事の本文を入力すると、記事の内容に合った画像を表示
©The Asahi Shimbun Company 2018
WEBブラウザデジタル編集者
検索
記事の本文を入力 記事の内容を解析し、画像を提案
![Page 10: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/10.jpg)
プロトタイプのサービス概要
• 社内向けのWEBサービスとして開発
→編集者が気軽に使えるように、ブラウザから利用できるようにした
• 記事の本文を入力すると、記事の内容に合った画像を表示
©The Asahi Shimbun Company 2018
WEBブラウザデジタル編集者
検索
記事の本文を入力
処理の流れ1. 本文の内容を元に、検索クエリを生成する2. 全文検索エンジンに対して検索を実行する3. 検索結果を返す
機械学習の推論機能• 検索クエリの生成(本文から画像キャプションを生成。検索精度の向上が狙い)• 検索結果の画像のランク付け(より適切な写真を検索結果の上位に表示する狙い)
![Page 11: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/11.jpg)
プロトタイプのAWS構成
• 最初のプロトタイプはEC2で実装(2016/12~2017/3)
• WEBサービスとして、編集者からのフィードバックを得て改善を繰り返して開発
©The Asahi Shimbun Company 2018
EC2
Amazon S3 bucketAmazon S3
bucket
記事、画像データ
WEBブラウザ
当初はEC2にWEBサービスとしての機能を実装
EC2
前処理・学習用サーバー(処理によって一部オンプレ)
デジタル編集者
静的配信
学習済モデル
![Page 12: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/12.jpg)
サービス化へ
©The Asahi Shimbun Company 2018
プロトタイプの評価を経て、編集者向けの記事と画像の検索システムとして業務内で利用されることになった
• ニュースサイトの編集という業務要件から 24 時間 365 日の運用が必要となる
• 運用が課題となり、EC2からサーバーレスでの開発に切り替え
→ サーバーレスであればインフラ管理、セキュリティ対策、運用保守が低負荷と判断
→ 少人数でも機能開発に集中できる環境を作りたかった
![Page 13: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/13.jpg)
EC2
ElasticsearchService
Amazon S3 bucket
API GatewayLambda
WEB ブラウザ
デジタル編集者
• WEBフロント、機械学習の推論機能をAPI化して分離
→それぞれの機能に変更を加えやすい構成にして社内公開(2017/6)
• 推論APIはEC2で稼働する構成
→推論APIが障害となってもサービスとして継続できるように実装で工夫している
WEBフロントAPI
©The Asahi Shimbun Company 2018
サービスの構成(WEBフロント・検索部分)
Amazon S3 bucket
デジタル配信素材(記事、画像データ)
データ更新タグ付け
全文検索エンジン
静的配信
EC2
推論API
![Page 14: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/14.jpg)
EC2
ElasticsearchService
Amazon S3 bucket
API GatewayLambda
WEB ブラウザ
デジタル編集者
• クリックログを取得するAPIも開発
→ サービスの使われ方の把握、機械学習の教師データを溜めることが狙い
API GatewayLambdaDynamo DBAmazon
EMR
Amazon S3 bucket
クリックログクリックログ登録API
©The Asahi Shimbun Company 2018
サービスの構成(クリックログの取得)
Amazon S3 bucket
EC2
![Page 15: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/15.jpg)
EC2
ElasticsearchService
Amazon S3 bucket
API GatewayLambda
WEB ブラウザ
デジタル編集者
• 取得したクリックデータや各種データを元に編集者とコミュニケーション
→ 利用状況を確認&直接編集者からフィードバックを得てサービスを継続改善
API GatewayLambdaDynamo DBAmazon
EMR
Amazon S3 bucket
開発者EC2
©The Asahi Shimbun Company 2018
サービスの構成(データ分析)
データ分析、可視化学習処理
EC2
![Page 16: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/16.jpg)
サーバーレス化の効果
• 少人数でも機能開発に集中できる
→ フロントがマネージドサービスなので、運用負荷が低い
→ スケールに悩まない
→ インフラに使う時間が減り、編集者とのコミュニケーションや機能開発に集中できる
• 安い(フロント部分のコストはEC2を使用した場合の99%以上減)
• 早い(設定ファイルを作成し、2時間もあれば新環境をデプロイできる)
• マイクロサービス化できる
→ フロントと機械学習、それぞれの機能改修が容易になった
→ 記事検索APIを他のシステムにも機能提供するなど、柔軟な対応ができるようになった
• 制約(Lambdaのコード容量制限・・・etc)もあるが、メリットの方がはるかに大きいというのが実感
©The Asahi Shimbun Company 2018
![Page 17: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/17.jpg)
残る課題
• 推論APIはEC2で稼働しており、インフラ管理の負荷が残っていることが課題
→ 推論処理もサーバーレス化したい
→ サーバーレス化へ向けて一部アプリのコンテナ化を始めているが、コンテナの管理がネック
→(早く東京リージョンでFargateを使いたい)
• 学習環境はEC2とオンプレ環境(GPUマシン)との混在
→ GPUを使う場合はオンプレマシンがメインだが、同時に学習できる数に制約がある
→ オンプレマシンのOSが古くなり、最新の実行環境が入らない(OSアップデートが必要)
→ サービス化したものはAWS環境内で定期的にモデル更新し、自動化していきたい
→ GPUマシンの料金を考えると、費用は最小限にしたい
→ 学習部分も一部コンテナ化を検討
→(SageMakerを一部の記事分類のモデルのトレーニングで試験。マシンの管理が不要である点、実行課金である点にメリットを感じている)
©The Asahi Shimbun Company 2018
![Page 18: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/18.jpg)
Part2学術研究の紹介
©The Asahi Shimbun Company 2018
![Page 22: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/22.jpg)
Copyright 2017 The Asahi Shimbun Company.
「新聞業とはこういうもの」といった既成概念にとらわれない新しい商品やビジネスの開発を目指す「実験室」です。
失敗を恐れずに挑戦を繰り返すための実験工房として活動しています。
©The Asahi Shimbun Company 2018
![Page 23: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/23.jpg)
メディアラボの3つの機能
Copyright 2017 The Asahi Shimbun Company.©The Asahi Shimbun Company 2018
![Page 24: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/24.jpg)
24
新規事業
出資・投資
研究・開発
[email protected] 2017 The Asahi Shimbun Company.©The Asahi Shimbun Company 2018
![Page 26: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/26.jpg)
2つのテーマ
•AR / VR / MR
•人工知能(自然言語処理)
©The Asahi Shimbun Company 2018
![Page 27: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/27.jpg)
2つのテーマ
•AR / VR / MR
•人工知能(自然言語処理)
©The Asahi Shimbun Company 2018
![Page 28: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/28.jpg)
28
紙面に載せづらいQRコードの代替新聞のスピード感にマッチ…印刷後でも登録可コスト削減、広告などへの武器の1つとして
[email protected] 2017 The Asahi Shimbun Company.©The Asahi Shimbun Company 2018
![Page 29: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/29.jpg)
29©The Asahi Shimbun Company 2018
![Page 30: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/30.jpg)
2つのテーマ
•AR / VR / MR
•人工知能(自然言語処理)
©The Asahi Shimbun Company 2018
![Page 31: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/31.jpg)
人工知能=自然言語処理研究
•ラボ設立当初から 2013年9月~
•エンジニア出身者3名、記者出身者1名•自然言語処理は全員未経験、プログラミング経験はあり
•基礎研究・新ビジネス開拓・社会への発信
•社内エンジニアの技術力の向上=社内への技術保有•優秀な技術者を集めたい
Copyright 2017 The Asahi Shimbun Company.©The Asahi Shimbun Company 2018
![Page 32: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/32.jpg)
目的
•社内データベースに貯まっている約30年分、約900万記事を使って・・・
•新規ビジネスを開発•編集をはじめとする業務の改革
©The Asahi Shimbun Company 2018
![Page 33: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/33.jpg)
アドバイザリー契約
•東北大学 乾教授・岡崎准教授(現・東京工大教授)•自然言語処理では非常に著名•今年で4年目
Copyright 2017 The Asahi Shimbun Company.©The Asahi Shimbun Company 2018
![Page 34: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/34.jpg)
との共同研究
• 2016年11月、株式会社プリファードインフラストラクチャーからスピンアウトしたスタートアップ企業。「お客様の課題を最先端の技術で解決する」をミッションとしている。自然言語処理、機械学習、深層学習をコアテクノロジーとして、コールセンターの問い合わせ分析や回答支援などのソリューションおよび数多くのソフトウェアを提供している。
[email protected] 2017 The Asahi Shimbun Company.
34
• 記事データを共有、両者で研究• 両社に利益• 朝日のエンジニアが週3回派遣、積極的技術共有
• 特許・学術論文:社会還元
©The Asahi Shimbun Company 2018
![Page 35: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/35.jpg)
進めていること
•自動校正
•単語ベクトルの公開
•自動見出し生成・自動要約
•いずれも、朝日のエンジニアが独自に進めています
•本日の発表内容はすべて開発できていて、ビジネス化や社内システム導入を検討中です
©The Asahi Shimbun Company 2018
![Page 36: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/36.jpg)
自動校正
このような校正のデータをコンピューターに学習させると・・・
©The Asahi Shimbun Company 2018
![Page 37: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/37.jpg)
©The Asahi Shimbun Company 2018
![Page 38: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/38.jpg)
自動校正エンジン(特許出願中)
<文脈を捉えた同音異義語・動詞>校正前:東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年に伸びる予定だ。校正後:東京(品川)と名古屋の間は2027年に開業、名古屋から大阪までは45年に延びる予定だ。
<文脈を捉えた同音異義語・名詞>校正前:県警は8日、熊谷署に100人体制の捜査本部を設置。校正後:県警は8日、熊谷署に100人態勢の捜査本部を設置。
<固有名詞の訂正>校正前:神通川第2ダムを超えると、まもなく木造の建物が見えてきた。校正後:神通川第二ダムを越えると、まもなく木造の建物が見えてきた。
<助詞の訂正、他の名詞への代替案>校正前:医療の進歩により、がんがなった後も以前と変わらぬ人生を送れる人が増えている。校正後:医療の進歩により、がんになった後も以前と変わらぬ人生を送れる例が増えている。
©The Asahi Shimbun Company 2018
![Page 39: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/39.jpg)
39
http://www.asahi.com/shimbun/medialab/word_embedding/
©The Asahi Shimbun Company 2018
![Page 40: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/40.jpg)
自動見出し生成
左右どちらのグループが、ディープラーニングで付けたものでしょうか?
©The Asahi Shimbun Company 2018
![Page 41: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/41.jpg)
自動見出し生成
左右どちらのグループが、ディープラーニングで付けたものでしょうか?
コンピューターで付けた見出し©The Asahi Shimbun Company 2018
![Page 42: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/42.jpg)
10の見出しを5秒で付ける
©The Asahi Shimbun Company 2018
![Page 43: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/43.jpg)
様々な長さの見出しを一気につける
• 上から10文字以下、13文字以下、26文字以下にコントロール
(10文字)臨時国会 、#日召集(13文字)臨時国会 、#日召集へ(26文字)臨時国会 、#日召集#日に 衆参両院運営委理事会
(10文字)教員の長時間労働問題(13文字)教員の長時間労働めぐり分担(26文字)教員の長時間労働 、教員の分担見直し文部科学省方針
©The Asahi Shimbun Company 2018
![Page 44: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/44.jpg)
大事な文を自動で抽出する• (本文)第#回芥川賞・直木賞の候補作が#日発表され、在日中国人女性の楊逸さん=
写真=が芥川賞候補に選ばれた。同振興会によると、中国籍の芥川賞候補者は初という。楊さんは中国・ハルビン市出身。#歳で来日し日本語を学び、在日中国人向けの新聞社で社長秘書として働きながら、中国語で詩やエッセーを発表してきた。日本語で構想・執筆した候補作「ワンちゃん」は、日本人と再婚した中国人女性を主人公に、人間模様をユーモラスに描く。現在、東京都内で中国語講師を務めている。選考会は#日、東京・築地の新喜楽で開かれる。候補作は次の通り。…
• (人間が付けた要約)
東京都内で働く在日中国人女性の楊逸さんの小説「ワンちゃん」が、芥川賞の候補作に選ばれた。中国籍の作家が候補になるのは初めて。日本人と再婚した中国人女性を主人公に、人間模様をユーモラスに描いている。
• (自動で抽出した重要文)
第#回芥川賞・直木賞の候補作が#日発表され、在日中国人女性の楊逸さん=写真=が芥川賞候補に選ばれた。
日本語で構想・執筆した候補作「ワンちゃん」は、日本人と再婚した中国人女性を主人公に、人間模様をユーモラスに描く。©The Asahi Shimbun Company 2018
![Page 45: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/45.jpg)
研究内容は国際レベル
©The Asahi Shimbun Company 2018
![Page 46: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/46.jpg)
研究環境
• 社内オンプレマシン
• 高速計算用GPUサーバー x 2
• 主にディープラーニングの学習は社内サーバーで実施
• AWSの利用も検討したが、手元にあったほうがいいという判断
• 今後大量に学習させようとしたらクラウドメインに切り替えていくことが必要だが、現状は社内サーバーがメイン
• AWS
• 推論用CPUインスタンス(GPUでの学習結果をCPUで推論するデモ環境)
• 学習用GPUインスタンス(論文執筆のための実験が間に合わないときなど、オンプレマシンの代わりに臨時で起動)
→Deep Learning AMIを利用。必要に応じて環境を素早く立ち上げられ、クラウドを使うメリットを感じている
©The Asahi Shimbun Company 2018
![Page 47: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/47.jpg)
Part3学術研究で得られた成果の実サービス展開
©The Asahi Shimbun Company 2018
![Page 48: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/48.jpg)
見出し生成のサービス化へ
©The Asahi Shimbun Company 2018
• 先ほど紹介した見出し生成処理をAPI化
→ WEB向けのCMS(コンテンツ管理システム)向けに機能を公開
→ 編集者が見出し候補を利用できる環境づくりに取り組み中
![Page 49: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/49.jpg)
見出し生成APIのAWS構成
• 見出し生成APIはECS(Fargateで起動)で実装
→今後のデプロイの自動化などを考慮してマネージドサービス(CodeCommit, CodeBuild)を利用
AWS CodeCommit
AWS CodeBuild
Amazon ECR
Amazon ECS
Application Load Balancer
ECS container
見出し生成API(推論API)編集者
©The Asahi Shimbun Company 2018
開発者
CMS画面WEBブラウザ
学習済みモデル込みのコードをプッシュ
コードをビルド、デプロイ
Web API
※海外リージョンを使用
→見出し生成自体に数秒かかるため、レイテンシを許容できた
![Page 50: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/50.jpg)
コンテナ化の効果
• コンテナ化によって、実行環境がコード化できた
• 推論処理のみをコンテナ化することで、コードが簡素になった
→ Dockerfileを見れば実行環境を一目で把握できる
→ コードの実装を追いやすくなり、ノウハウの共有が容易になった
→ 開発者とのコミュニケーションコストが低下
• Fargateで起動することにより、コンテナ化したアプリ運用の負荷が軽減
→ 機械学習のAPIでも機能開発に集中できる流れへ
©The Asahi Shimbun Company 2018
![Page 51: 機械学習を用いた編集業務の 生産性向上への取り組み · • 自動クイズ生成(進行中) • 画像検索アプリ ・・・etc ©The Asahi Shimbun Company](https://reader034.vdocuments.site/reader034/viewer/2022042219/5ec5c7fea42c8010311795f1/html5/thumbnails/51.jpg)
まとめと今後
まとめ
• 機械学習を用いた編集業務の生産性向上に取り組んでいる
→ 編集部門と協力したプロトタイプ開発/学術研究の両面からアプローチしている
→ 学術研究の論文発表が実サービス化につながるなど、成果が出てきている
今後
• サーバーレス化/マイクロサービス化を進めて実サービス化への展開を加速したい
• 機械学習の各フェーズ(データ取得、前処理、学習、評価)で手動対応している部分が多い。今後もAWSを有効に活用して改善していきたい
©The Asahi Shimbun Company 2018