TECHNOLOGY
機械学習に必要なデータセットとは?使用時の注意点やおすすめ20選
目次
機械学習には、データの集合体であるデータセットの存在が欠かせません。機械学習の精度を上げるには、豊富で質の良いデータ、なおかつ目的に合ったデータを選別して取り扱う必要があります。データが足りない場合、もしくは自分でデータセットを用意できない場合は、Web上にて無料でデータセットがダウンロードできるオープンデータから用意すると便利です。本記事では、機械学習に必要なデータセットの意味、使用時の注意点や、データセット構築に便利なデータセットが利用できるおすすめサイトを20個紹介していきます。
▼更に機械学習について詳しく知るには?
【完全版】機械学習とは?解決できる課題から実例まで徹底解説
▼社内のデータをAI化するには?
ノーコードAIツールUMWELT紹介ページ(活用事例あり)
機械学習におけるデータセットとは
機械学習とは、人間が持つ「学習」にあたる仕組みを機械で実装するAIの要素技術の1つです。機械学習を行うには、データをコンピュータが理解し、学習できるように整理しておく必要があります。機械学習には、データセットの存在が欠かせません。まずは、機械学習に利用されるデータセットについて具体的に解説していきます。
データセットは機械学習に使われるデータの集合体
データセットとは、機械学習をするためにプログラムで処理されるデータの集合体です。機械学習では一般的に、トレーニングセット・バリデーションセット・テストセットの3種類のデータセットを使用します。トレーニングセットは分類器(機械学習モデル)のパラメータを更新するため、バリデーションセットは手動で設定するパラメータの良し悪しを確かめるため、テストセットは学習後に汎化性能を確かめるために用いられることが多いです。
機械学習する際には、それぞれの目的に応じたデータセットを利用する必要があります。データセットは、Web上にてオープンデータとして基礎部分が無料で解放されているため、用途に合わせて調整して使用することも可能です。
機械学習におけるデータセットの重要性
機械学習では、画像データ、動画データ、テキストデータなど多くのデータを取り扱います。また、データの質や量によって結果の精密度が変化していきます。そのため、データの質が重要視される機械学習においてデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正してデータを処理しやすくするデータクレンジングが必要になります。
データセットは3種類ある
データセットは、機械学習において最も重要な要素とされています。一般的に、データセットは以下の3種類となります。
トレーニングセット
トレーニングセットとは、1番最初に利用され、なおかつ最も規模が大きいデータセットとなります。機械学習アルゴリズムを与えることで、開発モデルのトレーニングに活用できます。
バリデーションセット
バリエーションセットは、トレーニングセットで訓練した後に、機械学習アルゴリズムの動きを制御するパラメーターである分類器のハイパーパラメーターをチューニングするために利用されます。ハイパーパラメーターをトレーニングセットによって訓練した後に、バリデーションセットを利用した上で最もパフォーマンスが優れているものを採用します。
テストセット
テストセットとは、モデルの精度を確認するためのデータセットです。最終段階にのみ使われることが多く、パフォーマンステストをするためだけに用いられます。
機械学習で使用するデータセットの入手方法
データセットはインターネット上で公開されているオープンデータを活用することも可能です。入手先は総務省行政管理局が運用するオープンデータベースである「DATA GO JP」、アメリカ政府機関で公開されている政府予算や天候、経済指標などのデータが利用可能な「Data.dov」など、国内や国外の政府機関からも利用できます。他にも国立情報学研究所、カリフォルニア大学、ハーバード大学 、機械学習やデータサイエンスに関わる人が集まるコミュニティサイト 「Kaggle 」やオープンデータを加工して共有することを目的とするサイト 「Link Data 」など、WEB公開データから利用できます。
自作できる?機械学習で使用するデータセットの作り方
データセットは自作することもできるが、分析や解析をするには十分なデータの用意や、必要なデータを入力する必要があります。もし、自社で解析、分析する際は、まずエクセルファイルや実験ノートなどからデータを集めて、整理しておきましょう。さらに、データ解析しやすいようにデータを整えておくことが必要です。
データセットはcsvファイルにまとめておくと、余計な情報がなく確認・修正しやすくなり、データ解析もスムーズです。エクセルでデータセットを用意する時にも、xlsxファイルではなくcsvファイルにしましょう。また、エクセルでデータセットをまとめるときは、サンプルを縦、変数(特徴量)を横に並べ、シンプルに整理しましょう。さらに、すべてのサンプルにおいて異なるサンプル名にし、すべての特徴量で異なる特徴量名にしてください。エクセルの機能にはセルの統合機能がありますが、データセットをまとめるときにデータの読み込みができなくなってしまうため、セル結合は利用しないでください。
機械学習でデータセットを使用する際の注意点
機械学習の精度を上げるには、適切なデータセットを選んだうえで検証を重ねていく必要があるため、押さえておきたいポイントはチェックしておきたいところです。データセットを機械学習に活用する際において、注意しておきたいポイントについて紹介します。
自社に適したデータセットを選ぶ
データセットには様々な種類があるため、自社の目的や用途に合わせたものを選ぶ必要があります。目的や用途に合うデータセットを用いなければ、イメージどおりの機械学習アルゴリズムが実現できないためです。また、機械学習の性能を高めるには、なるべく平均的なデータを選ぶことも大切です。
使用しないデータは排除する
データセットを選ぶ際に、実際に使用するデータの分別は人が判断する必要があります。検証段階で解析しにくいデータが含まれていると、システムの精度が低くなる可能性があるためです。余計なデータが含まれていると精度低下の原因に繋がるため、使用しないデータはその都度排除するなど注意が必要です。
完成後も検証や改善を行う
データセットは、必ずしも一度完成したからといってて常にベストな状態のままであるとは限りません。そのまま放置せず、実際に使用しながら問題点をみつけ、改善していくなど定期的な検証や改善が必要です。
著作権に注意する
機械学習では画像データ、動画データ、テキストデータなど多くのデータを扱うため、さまざまな権利関係に留意して取り扱う必要があります。商用利用の際は、著作権に注意した上でデータを利用しましょう。
機械学習におすすめのデータセット20選
政府、webサイトなどでは、機械学習に便利なデータセットを提供しているところがあります。データセットは自社で行うと労力や知識が必要なため、なるべくオープンデータなどを活用するのが便利です。機械学習におすすめのデータセットを提供しているサイトについて、リンクとともに紹介していきます。
総合データセットのおすすめ5選
総合データセットは、政府、webサイトなどが提供しています。まずは、総合データセットのオススメサイトについて5つ紹介していきます。
- DATA GO JP(https://www.data.go.jp)
日本政府が公開している、二次利用が可能な公共データの案内、横断的検索を目的としたオープンデータのデータカタログサイトです。機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開しています。 - 国立情報学研究データリポジトリ(https://www.nii.ac.jp/dsc/idr/datalist.html)
国立情報学研究所(NII)のデータセット共同利用研究開発センター(DSC)が運営している、データセットの共同利用事業です。民間企業、大学等研究者のデータを研究者のために提供しています。 - Link Data(http://linkdata.org/home)
テーブルデータの変換と公開をサポートするサイトです。人気のデータセットがトップ画面に表示され、大変見やすくデータセットが配置されています。 - Kaggle(https://www.kaggle.com)
Kaggleとは、予測モデル・分析を競い合うプラットフォームです。海外のサイトのため全文英語ではありますが、さまざまなデータセットを無料でダウンロードできます。 - Harvard Dataverse(https://dataverse.harvard.edu)
アメリカの名門である、ハーバード大学が公開してるデータセットです。こちらも海外のサイトであるため全文英語で表記されていますが、機械学習などに利用可能な約500近くのデータセットを利用できます。
画像データセットのおすすめ5選
海外サイトが多くなりますが、画像においても無料で公開されているデータセットがあるので、用途と合わせて利用してみるといいでしょう。画像データセットが利用できるオススメサイトについて、今から5つ紹介していきます。
- MegaFace(http://megaface.cs.washington.edu)
ワシントン大学で行われている顔認識アルゴリズムの公開競技で用いられています。海外サイトのため、表記は全て英語となりますが、ノイズデータを混ぜた顔認識と大規模なデータセットを公開しています。 - Deep Fashion(http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html)
DeepFashionは、80万以上、50カテゴリからなるファッション画像データセットが公開されています。 - Google Open Image V4(Open Images V6 – Description)
Google Open Image V4 とは、Googleによって公開されている、画像レベルのラベル・オブジェクトの境界ボックス・オブジェクトのセグメンテーションマスク・視覚的関係がアノテーションされている最大900万の画像のデータセットです。 - MNIST(http://yann.lecun.com/exdb/mnist/)
MNISTは、手書き数字画像のデータセットです。主に機械学習初心者向けのデータセットとも言われています。 - CIFAR-10/CIFAR-100(http://www.cs.toronto.edu/~kriz/cifar.html)
CIFAR-10とは、10クラスの60000 32×32カラーイメージで構成され、クラスごとに6000イメージがあり、 50000個のトレーニング画像と10000個のテスト画像が用意されています。CIFAR-100では、それぞれ600個の画像を含む100個のクラスが用意されており、クラスごとに500のトレーニング画像と100のテスト画像があります。
動画データセットのおすすめ5選
画像のデータセットサイトと同様、海外サイトが多くなりますが、動画においても無料で公開されているデータセットがあります。動画データセットが公開されているおすすめサイトについて、5つ紹介していきます。
- YouTube-8M Dataset(https://research.google.com/youtube8m/)
Googleの研究チームが公開しているデータセットです。4800件のナレッジグラフのエンティティでタグ付けされた800万本ものYouTube動画のデータセットが用意されています。 - Kinetics(https://deepmind.com/research/open-source/kinetics)
Kinetics は、Deep Mindが公開しているサイトです。サイト内には、約65万もの動画、楽器の演奏などの人間とオブジェクトの相互作用、握手など行動にラベルが付与されている動画データセットが用意されています。 - Moments in Time Dataset(http://moments.csail.mit.edu)
Moments in Time Dataset は、MITとIBM が共同で研究しているプロジェクトとなります。3秒の動画に対し、それぞれアクションラベルが付与されている動画データセットが利用できます。 - Atomic Visual Actions (AVA)(https://research.google.com/ava/)
Atomic Visual Actions (AVA)は、海外の大手企業であるGoogleが公開する、人の動作を認識するためのデータセットが用意されています。約57,000件の動画に対し、歩く動作や飛ぶ動作などの80種類のラベルが付与されています。 - BDD100K: A Large-scale Diverse Driving Video Database(https://bair.berkeley.edu/blog/2018/05/30/bdd/)
BDD100K: A Large-scale Diverse Driving Video Databaseは、カリフォルニア大学バークレー校のAIラボ(BAIR)が公開する運転中の動画データセットとなります。サイト内には、10秒の動画に道路オブジェクトのバウンディングボックス、運転可能領域、車線のマーキングなどのラベルが付与されているデータセットが用意されており、無料でダウンロードできます。
テキストデータセットのおすすめ5選
画像、動画のデータセットに対し、テキストデータセットは日本のサイトが豊富にあるため、日本人の方も利用もしやすいことでしょう。テキストデータセットのおすすめサイトについて、5つ紹介していきます。
- 自然言語処理のためのリソース(https://nlp.ist.i.kyoto-u.ac.jp/index.php?NLPリソース#g63a7f30)
自然言語処理のためのリソースは、京都大学の黒橋・河原・村脇研究室が公開しているサイトになります。サイト内には、自然言語処理用のツール、データセットの情報がまとめられています。 - 日本語対訳データ(http://phontron.com/japanese-translation-data.php?lang=ja)
日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストが用意されており、機械翻訳システムの構築に利用できる対訳コーパス、対訳辞書などが利用できます。 - 青空文庫(https://www.aozora.gr.jp)
青空文庫のサイトでは、すでに著作権が消滅した作品、もしくは著者が許諾した作品データを公開しています。サイト内は分野別に公開作品を一覧できるようインデックスがつけられており、希望の作品が見つけやすくなっています。 - クックパッドデータセット(https://www.nii.ac.jp/dsc/idr/cookpad/)
クックパッド株式会社が国立情報学研究所を通じて研究者に提供しているデータセットサイトで、クックパッドに掲載されている172万品のレシピや献立に関するデータが公開されています。 - ニコニコデータセット(https://www.nii.ac.jp/dsc/idr/nico/nico.html)
国立情報学研究所が株式会社ドワンゴ、株式会社大百科ニュースより提供を受けて研究者に提供しているデータセットです。サイト内では、ニコニコ動画における動画のメタデータと,それに対するコメントデータが紹介されています。
データセットを活用して業務AI化を進めるなら「UMWELT」
近年ではデータ活用に注目が集まっており、企業がビジネスにおいて機械学習を取り入れる動きが広まっています。機械学習のために使用するデータセットの存在も、必要不可欠となっていくことでしょう。ただし、機械学習、機械学習に必要なデータセットの構築にはプログラミングの知識やスキルが求められます。
スキルを持つ人材が企業にいなくても本格的なデータ分析を行いたい、誰でもデータセットの構築、機械学習を行いたいと考えている方にオススメなのが、TRYETINGが提供しているAIクラウドサービス「UMWELT(ウムヴェルト)」です。UMWELTには、常時100種類ものアルゴリズムが搭載されており、それらを自由に組み合わせることで 「どんなデータでも」「簡単に」「高度な」アルゴリズムを構築することが可能です。
UMWELTの特徴は、主に以下の通りとなります。
- 導入から運用までが簡単
- 低価格
- AI構築に必要な機能を幅広く提供
UMWELTは、プログラミングの知識がない方でも機能をレゴブロックのように組み合わせるだけで、簡単にAIが導入できるサービスであるため、難しい知識は不要です。既にセットアップされたアルゴリズムを組み合わせることで、システムが構築されるように作られています。さらに、AI導入時の8割を占めるデータの前処理を簡単にする機能も搭載されています。
導入時も、APIを介して接続して多くの既存システムをAI化できるようになっており、サーバーレスで非常に簡単です。また、クラウドの活用によって導入コストを抑え、業界最低水準のコンパクトなコストを実現しているため、費用の面も安心です。低価格ながらAI構築に必要な機能を幅広く提供し、技術力も高いことからAI大手企業からも採用されています。
社内でデータ分析の活用を検討されている、データセットを簡単に用意したい、コストを抑えてデータ分析を行いたいと考えている方は、ぜひUMWELTに一度ご相談ください。
まとめ
機械学習において、データの集合体であるデータセットは必要不可欠です。機械学習の精度は、データの質や量によって精密度が変化するため、データを整える、処理、扱うに当たり順序よくステップを踏むことも大切です。さらに、あらかじめどんなデータがあり、どのデータが必要なのかを理解して取り扱うことも重要となります。
機械学習を行うにはデータセットの取り扱いにおける知識、スキルを持つ人材が必要不可欠と言えるでしょう。ただし、データ分析やAI関係のスキルを求める企業は増えているものの、実際に専門的なスキルを持つ人材が不足しており、スキルやプログラミング、データ分析の知識を持つ人材の確保は難しいと考える企業も少なくありません。
そこで、UMWELTなどのAIツールを利用することで、難しい知識がなくてもデータセットの構築やデータ分析を行えるようになります。UMWELTは、知識のない方でも簡単に機械学習や、機械学習に必要なデータセットを用意できるようにシステムが構築されています。企業ごとの蓄積データ、形式に合わせて対応することも可能です。
UMWELTのようなAIツールを提供しているサービスは、AIスキルを持つ人材が不足している企業にも便利と言えるでしょう。スキルがなくてもデータ分析をビジネスに活用していきたい、またはスキルを持つ人材が足りないもののデータセットの構築、機械学習を行いたいと考えている方は、UMWELTの利用をぜひ検討してみてください。
UMWELTのサービスページをチェックする
TRYETING
公式
TRYETING公式です。
お知らせやIR情報などを発信します。