|
カテゴリ:本の紹介
第0章 機械学習のためのデータ処理とは
第1章 クローリングとスクレイピング 第2章 高度なスクレイピング 第3章 データソースと書式・整形 第4章 機械学習 第5章 深層学習に挑戦しよう 第6章 テキスト解析とチャットボットの作成 第7章 深層学習を実践してみよう Appendix 作業の準備と環境構築 ↓ぼくにとってのポイント ◯機械学習のためのデータ処理 ・Webからデータをダウンロード ・ダウンロードしたデータから必要はデータを抽出 ・抽出したデータを目的に応じたフォーマットで保存 ・機械学習 ◯クローリングとスクレイピング ・urllibでデータダウンロードが可能 ・HTMLの解析→BeautifulSoupが便利 ・DOMの調査、CSSセレクタ→Webブラウザの開発者ツール ・リンク先をまるごとダウンロード→相対パスを絶対パスに変換など ◯高度なスクレイピング ・HTTP通信はステートレス ・セッションを利用するとステートフルであるように振る舞える ・requestsパッケージ ・スクレイピングにはブラウザを動かさないといけない場合も多い→Selenium, PhantomJS ・サイトの構造を把握することが重要 ・キーとなる要素やCSSスタイルを調べることで、機械的なスクレイピングが可能なこともある ・Web APIの利用 ・cronで定期的な実行 ◯データソースと書式・整形 ・主な書式→XML, JSON, YAML, CSV ・データベース→SQLite, MySQL, MarinaDB, TinyDB ・データベース→同時アクセスに強く同時編集など不整合も起きにくい ◯機械学習 ・機械学習→たくさんのデータを学習してパターンを見つける作業 ・分類、推測、推薦が可能 ・教師あり学習では各データ毎にデータと正解ラベルを指定する ・訓練データとテストデータの分類や、正解率の計算など、便利なメソッドが用意されている ・機械学習の学習結果をファイルに保存すれば、Webアプリなどで利用できる ・SVM→マージン最大化 ・データを数値化するとき、分類変数か連続変数か確認する ・クロスバリデーションによりモデルの妥当性確認 ・グリッドサーチ→より良いパラメータを自動で探せる ◯深層学習 ・TensorBoardで可視化できる ・深層学習で精度向上が可能 ・Keras→tensorflowやtheanoをscikit-learnと同様に記述できる ・日本語の形態素解析→Mecab, Janome ・Word2Vecで文章をベクトル化 ・ベイズの定理で迷惑メール判定などが可能 ・MLP(多層パーセプトロン)でテキスト分類が可能 ・文章の類似度→レーベンシュタイン距離、n-gram ・自動で文章生成→マルコフ連鎖、LSTM ・類似画像検索→Average Hash ・Average Hash→画像をリサイズして白黒の2値化 ・CNNで牛丼の画像を高精度で判定可能 ・機械学習はデータを集めて整形するのが大切 ・画像を回転・反転させることで不足しがちな入力データを補強可能 ・OpenCVで顔認識 ----- この本はずいぶん前に買ったんだけれど、なかなか手を付けられていなかった。 目次をみるとわかるように、データ収集→データ整形→機械学習→深層学習とデータ解析に必要な技術についてサンプルコード付きで解説されている。さらに環境構築についても書かれている。 サンプルコードを動かすことで理解が深まる。 Pythonによるスクレイピング&機械学習開発テクニック BeautifulSoup、scikit-lear [ クジラ飛行机 ] お気に入りの記事を「いいね!」で応援しよう
最終更新日
2018年03月05日 06時16分31秒
コメント(0) | コメントを書く
[本の紹介] カテゴリの最新記事
|