機械 学習 データ セット。 データセットとは

徹底解説!AIを作るために必要なビッグデータの量とは?!~データセット一覧付き

機械 学習 データ セット

この記事はとで読むこともできます。 機械学習に必要不可欠な「学習データ」とは? 学習データとは「機械学習モデルを学習させるための情報 データ 」と定義づけられます。 学習データの中には、入力データと、それに対する、期待される出力データの両方が含まれます。 学習データの入力と出力データを「グラウンドトゥルース ground truth 」と呼びます。 機械学習モデルはこのグラウンドトゥルースに基づいて、ニューラルネットワークなどのテクノロジーを用いて、高精度のアルゴリズムを生成していきます。 データセットを探す際に、まず心に留めておくべき指針があります。 データの整理に膨大な時間を費やしたくないため、データセットは雑然としていてはならない。 行や列が少なめのデータセットのほうが作業がしやすい。 そのデータから具体的に何の「問題」の回答を期待しているのか、味覚にしなければならない。 機械学習用のデータセットを検索できるサイト : 外部から投稿された様々な興味深いデータセットを提供しているデータサイエンス・サイト。 総合リストでは、ラーメンの評価 、バスケットボールのデータ、米シアトル市のペット免許など、ありとあらゆるニッチなデータセットを見つけることができる。 : インターネット上で最も歴史あるデータセット情報源のひとつで、面白いデータを探しているなら、最初にあたってみるべきサイト。 データセットの大多数は整理されてますが、ユーザーが提供したものであるため、データが整理されているという保証はありません。 が、登録しなくても、サイトから直接データをダウンロードできる。 : 国立情報学研究所が情報学関連分野の研究者に提供しているデータセットの一覧です。 一部,準備中のデータセットも含まれています。 機械学習に使えるデータセットまとめ この記事では、機械学習において不可欠な「学習データセット」を取り上げます。 保存版として、インターネットで公開されているオープンソースのデータセットをまとめてみました。 政府のデータセット 人口統計データは、重要な経済的意思決定の基盤として政府や社会をより良いものにする力を備えています。 人口統計データを使用した機械学習モデルも同様に、政策立案者が移民や少子高齢化の問題の動向を把握して準備するのに役立ちます。 : 様々な米国政府機関のデータをダウンロードできるサイト。 政府予算から学業成績スコアに至るまで、データは多様。 ただし、多くのデータはさらなるリサーチを要する。 : 日本政府のデータカタログサイト。 日本政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。 このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイト」です。 の穀物が米国の庶民の食生活をどう影響しているか分析するためのデータセット。 : 米国の学校制度の財政の調査。 : 国勢調査ブロック群から得られた13の海岸地形についてのデータ。 : 英国最大の社会、経済、人口統計のデータ集。 : 米国の公共データを総合的に視覚化。 金融・経済のデータセット 金融期間では何十年も前から定量的な記録があるので、機械学習の応用に適している分野です。 システムトレード、株価予想、不正検出などの分野で、機械学習は金融業界に革命をもたらしています。 経済においては、機械学習は経済モデルをテストしたり、政策立案者が市民の行動を予測したりするのに使用できます。 : 経済・金融のデータ資源。 経済指標や株価の予想に使用するモデルの構築に役立つ。 : 全世界の人口動態と多数の経済指標・開発指標を網羅したデータセット。 : 国際通貨基金の発表による、国際金融、金利、外貨準備金、商品価格、投資などのデータ。 : 株価指標、商品、外国為替など、世界の金融市場の最新情報。 インターネット検索と世界中のトレンドニュースに関するデータ検証と分析。 : 米国マクロ経済の優れたデータ資源。 機械学習に使えるデータセットまとめ 画像データセット 画像の学習データセットは、付与されているアノテーションの種類によっては幅広いモデルの学習データとして使われます: 画像認識、物体検出、顔認証、自動運転、など。 : アノテーション付き画像の巨大なデータセット。 : 新たなアルゴリズムに使用するデファクトの画像データセット。 WordNetの階層に従って整理されており、階層の各ノードは数百、数千の画像によって表されている。 : 多くの補助タスク(部屋のレイアウト推定や顕著性予測など)のあるシーン理解。 : 一般的画像理解とキャプション生成。 : 100個の異なる物体を360度すべての角度で映した画像。 : 視覚に関する極めて詳細な知識を得られるサイトで、10万枚までの画像をキャプション生成している。 : クリエイティブ・コモンズの下で「6,000超に及ぶカテゴリーのラベル付けを施した」画像の900万のURL集。 : 顔認識関連のアプリケーション開発への使用を目的に収集された、人の顔のラベル付けした画像13,000枚。 20,580枚の画像と120種の犬種カテゴリーから成る。 : ほとんどのシーン認識モデルは「屋外」のほうが優れているため、利用価値のある極めて特殊なデータセット。 67の屋内カテゴリーと、合計15,620枚の画像から成る。 感情分析のデータセット 感情分析はイベントや製品に対する世間の意見を測るのに、ビジネスに役立ちます。 顧客はTwitterで「ネガティブ」な不満の愚痴をこぼしたり、アマゾンに口コミを投稿したり、ポジティブな感情とネガティブな感情の両方をソーシャルメディアで表現します。 感情分析はそうしたデータの波をかき分けながら、人々が実際に何を考えているのかを突き止める、マーケティングには特に便利なツールです。 : アマゾンの商品レビューに的を絞ったやや古いデータセット。 : センチメントの2項分類のための、やや古い比較的小さなデータセットで、25,000の映画レビューが存在する。 : 感情のアノテーションを付した感情データセット。 : 顔文字を取り除いた16万のツイートを使用した人気の高いデータセット。 : ポジティブ、ネガティブ、ニュートラルで分類した、2015年2月以降の米国航空会社に関するツイッターのデータ。 自然言語処理のデータセット 自然言語処理とは、話しかけられた言葉に気付き、意味を理解し、適切な行動を決定し、ユーザーが理解できる言語で反応する機械の能力の総称です。 自然言語処理のデータセットは、機械翻訳やチャットボットなどの開発に使われます。 : エンロン社管理職の電子メールのデータ。 フォルダーに整理されている。 : 青空文庫に収録されている作品に対し形態素解析を行ったデータ。 CCライセンスで、商用利用も可能。 : 18年にわたるアマゾンのおよそ3500万のレビューから成る。 データには、製品及びユーザー情報、評価、プレーンテキストのレビューが含まれる。 : Googleブックスの単語のコレクション。 : blogger. comから収集された681,288のブログ記事のコレクション。 各ブログには最低でも200の一般的英単語の使用が含まれている。 : ウィキペディアのテキスト全文。 400万以上の記事の約19億語から成るデータセット。 単語やフレーズ、パラグラフの一部分で検索できる。 : プロジェクト・グーテンベルクの電子書籍のアノテーション付きリスト。 : 第36回カナダ議会議事録の、2カ国語の130万のテキスト。 :クイズ番組「Jeopardy」で使われた20万以上の質問集。 : 英語の5,574のSMSスパムメッセージから成るデータセット。 : Yelpがリリースしたオープン・データセット。 500万以上のレビューから成る。 : スパムのフィルタリングに役立つスパムメールの大型データセット。 自動運転用のデータセット 自動運転の研究開発に役立つ車のビッグデータを含む、データセットをまとめました。 これらのデータセットには静止画像などもが含まれており、既にタグ付けが行われているものもあります。 自動運転人工知能のためのデータセットとしては、現在のところ最大。 異なる時間帯や天候の下における1,100時間を超える運転経験を撮影した10万超の動画から成る。 アノテーション付き画像はニューヨークとサンフランシスコ地域のもの。 車や自転車、歩行者、建物、街灯など、26の異なった意味を持つアイテムを定義する大型データセット。 : 7時間超のハイウェイ走行。 車の速度、加速、ステアリング角、GPS座標などの情報を含む。 :英国オックスフォードの同一ルートの走行を1年間にわたって100回以上繰り返したデータ。 異なる天候や交通量、歩行者の組み合わせと、建設現場、道路工事などの長期にわたる変化も捉えたデータセット。 : 50都市の街路シーンを記録した大型データセット。 : ベルギーのフランダース地方の物理的に異なる数万の交通標識から得た1万を超える交通標識のアノテーション。 : それぞれ5分ほどの長さの動画22本から構成されたデータセット。 RGBカラーカメラと赤外線サーマルカメラの両方を利用して撮影されているので、130,000件以上のRGB画像とサーマル画像のペアが含まれる。 : 交通標識、自動車検知、信号機、軌跡パターンなどを含むデータセット。 お探しのデータセットが見つからない場合 お探しのデータセットが見つからない場合は、当社が作成いたします。 テキスト、画像、音声、映像の学習データを収集し、どのような機械学習プロジェクトでもしっかりと支援いたします。 また、世界の各タイムゾーンを渡る、100万人のコントリビューターが登録されているので、大規模な機械学習プロジェクトも素早く仕上げることができます。

次の

CIFAR

機械 学習 データ セット

機械学習とは? 機械学習は、基本的に、 データ例または 過去の経験に基づいて大きな問題を解決するようにコンピュータに教えることです。 通常、データは、構造が未知でラベリングされていません。 あなたの力は、学習を進めるなかで、隠された構造を推測するということに繋がります。 技術用語を用いると、「教師なし学習」は後者を表しています。 一方で、過去の経験は明確なラベルとあなたが答えようとしている質問に対する答えを持つデータです。 過去の経験データは、設定されたラベルに基づいて未知の答えを予測することに使用することができます。 これが「教師あり学習」です。 教師あり学習の実行ステップ この機械学習を実行するために、データをデータセットとテストセットに分ける必要があります。 データセットがモデルのトレーニングに使用するデータを持つのに対して、テストセットはモデルのテスト及び評価に使用するデータとなります。 教師あり学習の実行ステップは、以下になります。 現実的な予測結果を得るための公正なデータサンプリング• データの整理とクリーンアップ• データセットとテストセットへのデータ分割• データセットを用いたモデルトレーニング• テストセットを用いたモデルテストと評価• トレーニングされたモデルをWebサービスとしてデプロイ 機械学習と従来のプログラミングとの大きな違いは出力の性質です。 従来のプログラミングでは、生データとプログラミングのルールの両方が入力として機能し、出力は処理されたラベルデータです。 機械学習では、その逆で、生データとラベルデータが入力として機能し、出力がトレーニングされたモデル(プログラミング規則)となります。 教師あり学習の実験と実行結果 課題 顧客評価をベースとして、類似したレストランを見つけるモデルを設計する必要があります。 この実験はにアップロードされています。 実験プラン この実験は、Microsoft Azure ML Studio 上で行い、以下のようないくつかのサンプルデータを使用します。 レストランの評価• レストランの顧客データ• レストランデータ この実験では、私は主にレストランの評価データセットを使用しました。 そのデータセットは整理もクリーンアップも必要とせず、この実験で私が使用したマッチボックス推奨モジュールに必要なユーザーアイテム評価(user-item-rating)のトリプレット構造に既に従っていました。 実験を行うにあたっては以下のステップで進めました。 レストランの評価データセットをデータセットとテストセットに分けた。 マッチボックス推奨モジュールを使用して、このモジュールの下にあるオプションリストから Related Itemオプションを選択した。 レストラン評価データセットに併せてさらに2つのデータセット、レストランの顧客とレストランデータセットを使用し、モデルのトレーニングを行なった。 モデルがユーザー(顧客)とアイテム(レストラン)の両方に10の特性を使用するように設定した。 トレーニングされたマッチボックスモデルを採点した。 採点されたデータセットをレストランデータセットと結びつかせ、それをより読みやすくユーザーフレンドリーにするために、IDを読みやすい名前に置き換えるなどの作業を行った。 実行 以下の画像は実験の全体像を示しています 関連するレストラン レストランの評価データセットはユーザーアイテム評価トリプレット(user-item-rating triplets)で構成されています。 以下の画像はこの実験で使用された3つ全てのデータセットを示しています。 レストラン評価のデータ レストラン顧客のデータ レストランデータ この実験でのファーストステップはレストランの評価データセットを以下のようにデータセットとテストセットに分けることです。 評価データセットの分割 レストランの評価データセットは顧客及びレストランデータセットと共に、マッチボックス推奨モデルのトレーニングで使用されます。 次のステップはマッチボックス推奨モデルの採点を行うことと、レコメンド予測のとして関連アイテムを選択することです。 モデル評価、モデル精度のテスト、そして予測の信頼性をチェックします。 スコアリングされたデータセット スコアデータセットは未だ読みにくい状態です。 次に、それをレストランデータセットと結合しIDをレストラン名に置き換えることによって、ユーザーは読みやすくなります。 最後にクリーンアップされたスコアリング・データは以下のようになります: まとめ トレーニングされたモデルとWebサービスとしてデプロイすることができ、レストランの予約Webサイトあるいはアプリで使用することができます。 ユーザーは、このおすすめに基づいて、おそらく気にいるであろうレストランの提案を得られるでしょう。 原文 チャットボットライフとの提携により、翻訳し掲載しています。 チャットボットライフとは、最新のボット、AI、NLP、ツール等を扱うメディアです。

次の

【24個掲載】機械学習で使えるデータセット一挙勢揃い!

機械 学習 データ セット

様々なデータセットをまとめているサイトです。 中でもKaggleは特に有名で簡単にデータセットの利用が簡単なので、おすすめです。 企業や研究機関などが様々なデータを公開。 英語のみ。 無料会員登録必要。 Kaggle 初級者向けチュートリアル• Amazon AWSが公開している、誰でも無料で利用が可能なパブリックデータセットです。 2018年3月末時点で約30以上のデータセットが公開されています。 地理空間や衛星写真、ゲノムなどのデータから、機会学習用として50億を超えるウェブサイトのクロールデータや、全世界で報道されている2億5千万件のニュースのモニタリングデータ(毎日更新!)など、非常に興味深いデータも公開されています。 AWS SageMaker 初級者向けチュートリアル• 数少ない日本のデータセットを提供。 Yahooや楽天のレビューデータセットもあります。 原則として研究者またはNTCIR参加者。 利用は無料ですが、無料申請および覚書締結あり。 米ハーバード大学が公開してるデータセットです。 オープンソースのデータレポジトリ「Dataverse」のソフトウェアが必要。 こちらも米カルフォルニア大学アーバイン校が管理しています。 現時点で約400件ほどのデータセットが公開されています。 知名度も高く、また無料で簡単にダウロード可能。 英語のみ。 Googleの研究チームが公開している、700万件の動画が4800件のナレッジグラフのエンティティでタグ付けされているデータセットです。 TensorFlow(テンソルフロー)ファイルとしてダウンロード可能。 同じくGoogleから公開されている、動画のBouding Boxがラベリングされているデータセット。 24万件のYouTubeの動画のデータセットが公開されています。 DeepMindが公開している、約30万件のYouTube動画に、400種に分類された人間のアクションがラベリングを行ったデータセットです。 でデータセットがブラウザからも確認できます。 セントラル・フロリダ大学が提供をしている人間のアクション認識を判別するための動画です。 101個のアクションラベル(行動の分類)が付与されており、13320動画が分類されています。 また各アクションはさらに大枠で5つのカテゴリ(スポーツや楽器を引いてるなど)に別れています。 特に会員登録などが必要なく利用が可能ですが、利用される場合はデータ発行元のクレジットの記載が必要となります。 2017年10月にGoogleから公開された人間のアクションのラベルがついている動画データセットです。 AVAとはAtomic Visual Actions(最小単位の視覚的なアクション)の略となっており、他の動画データセットとの大きな違いとして、一つのシーンでも複数のラベルが付与されており、複雑な人間のアクションに対して機械学習を行うことが可能です。 利用はサイト上の「Download」リンクより可能です。 (捕捉:Googleによると、より詳細のデータセットとなるAVA 2. 0も近日公開予定)• ドイツをベースとしている人工知能スタートアップの「twentybn」が公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。 全動画数は148,092ど非常にでかいデータセットとなっており、ラベル数は27個の事前に定義されたハンドジェスチャーのラベルが付与されています。 ラベルの例として、「Swiping Left(左へスワイプ)」や「Thumb Up(親指を立てるジェスチャー)」などあります。 学術的な研究目的であれば会員登録と規約の同意で利用が可能ですが、商用利用の場合は別途ライセンスの申請が必要となりますので、ご注意ください。 米大学MIT(マサチューセッツ工科大学)とIBM ワトソンAIラボが共同で行なっている研究プロジェクトが公開している動画のデータセットです。 3秒の動画にアクションラベルが付与されています。 動画数は100万、ラベル数は339個あり、かつ全てのラベルで必ず1000以上の動画が提供されています。 データセットの利用ですが、特設されてるフォームからお申し込みをして、提供元からの審査があります。 トロント大学、カタニア大学、ブリストル大学のコンピュータービジョンの合同研究チームが公開した、キッチンの動画データセットです。 キッチンでの作業(例えば料理の下ごしらえや調理、さらには食器洗いなど)を頭に取り付けたヘッドマウントカメラで撮影した55時間分の動画です。 39 ,594の行動ラベル、454,158のオブジェクトラベルが付与されています。 無料でデータセットを使うことは可能ですが、商用不可でクレジット記載が必要です。 おそらく機械学習で誰もが一度は触ると思われる、有名なデータセットです。 手書きの文字「0〜9」に正解ラベルが付与されています。 データサイズも大きくありませんので、気軽に利用が可能。 ちなみに読み方は「エムニスト」です。 MNIST チュートリアル• こちらも非常に知名度の高い、トロント大学が公開しているデータセットです。 クラスは飛行機、自動車、鳥、猫、鹿、犬、カエル、船、トラックの10種です。 60,000のトレーニングセットと10,000のテストセットで構成されている、ファッションの画像が10クラス 例:Tシャツ、ドレス、サンダル でラベリングされています。 ファッションECのZalandoが提供しています。 Computer Vision Laboratoryが提供している、101,000個の食品画像を101個のカテゴリでラベリングしたデータセットとなります。 会員登録などなく、簡単に利用が可能です。 Googleが提供をしている世界最大の画像データセット。 画像内に写っているオブジェクト600種に対してバウンディング・ボックスが付与されています。 詳しくは「」をご覧ください。 ワシントン大学が開催している、顔認識アルゴリズムの公開競争となります。 ノイズデータを混ぜた顔認識、超大規模なデータセット(67. 2万人分、470万枚の画像 の認識モデルの2つのチャレンジが現在行われています。 香港中文大学が提供する、20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットとなります。 アトリビューションの例としては、「メガネ」「帽子を被っている」「笑顔」などです。 商用での利用は禁止、イメージのコピーは同一組織内での使用に限りOKですが、その他の使用は原則禁止となります。 Facial Recognition Technologyの略のFERETですが、1199名の異なる角度の顔が11338イメージ含まれています。 アメリカ国防総省が提供しているデータで、利用ですが、リリース規約を読んで、規定のメールアドレスへ同意した旨を送ることで、自動返信で返信が来るようです。 331万件もの大規模なデータとなっており、9131名の画像が含まれています。 1名あたりで362. 6イメージあります。 データセットの利用には会員登録が必要です。 特徴として、様々な人種、年齢や職業などバリエーションが意図的に高くなっています。 3万人越えの肺のレントゲン写真11万枚のデータセットで、14つの胸部疾患にカテゴライズされているデータセットです。 ダウロードはapp box経由で簡単に行えます。 為替・株・金融• 近年はやりの仮想通貨関連のデータの取得が可能です。 日本でもメジャーなビットコインやイサーリアム、さらには比較的マイナーなアルトコインなどデータの取り扱いは非常に豊富です。 利用ですが個人・商業利用も含めて可能のようです。 APIも提供をしていますが、現状はAPIはライブ価格のティックのみとなります。 将来的には過去レート、さらん有料版のAPIも提供予定とのこと。 世界的に有名な為替取引のゲインキャピタルですが、為替レートの過去データを公開しています。 2000年から最新までの1週間毎の為替レートのダウロードが可能です。 取得に関しては、特に会員登録などは必要ありません。 通貨は期間によってばらつきがありますが、米ドル円やユーロ円などのメジャーな通貨のデータはほとんどカバーされています。 金融関連の機械学習チュートリアル• 本記事ですが、常時更新をしていきます!本リストに未だ掲載されていないデータセットがございましたら、コメント欄にて御指摘をいただけますと幸いです!•

次の