Featured image of post MicrosoftのMarkItDown、PDFも音声もExcelも全部Markdownにしてくれる

MicrosoftのMarkItDown、PDFも音声もExcelも全部Markdownにしてくれる

Microsoft の MarkItDown は PDF、Office、画像、音声まで Markdown に変換する OSS だ。AI に読ませる前処理を一本化できる点を中心に整理した。

「社内の資料をAIに読み込ませたい」という話になるたびに、最初の壁がファイル形式だ。議事録はWord、予算はExcel、提案はPowerPoint、仕様書はPDF。それぞれ別の前処理を書かないとLLMに渡せない。

MarkItDown はMicrosoftがその壁を取り除くために作ったツールで、「とにかく全部Markdownに変換する」という一点に絞って設計されている。2026年3月時点でGitHubスターは84.9k。

何でも受け取る

対応フォーマットは、PDF・Word・PowerPoint・Excelのオフィス系に加えて、画像(OCRでテキスト抽出)、音声(文字起こし)、HTML・CSV・JSON・XML、ZIPの中身、YouTubeのURL、EPUBまで。出力はMarkdown。見出し・リスト・表の構造は保持される。

1
2
3
4
5
pip install 'markitdown[all]'

markitdown 会議録.pdf > 会議録.md
markitdown 予算計画.xlsx -o 予算計画.md
markitdown https://www.youtube.com/watch?v=xxxx  # 字幕をテキスト化

何が変わるか

社内AI活用が失速する理由のひとつは「読み込める形にする作業」にある。エンジニアが前処理スクリプトを書き、ファイルを整形し、ようやくLLMに渡せる。MarkItDownを挟むと、前処理をファイル形式ごとに作り分ける必要が減る。

PDF議事録・Excel予算・提案書を同じ投入経路に揃えられるなら、社内文書をまとめてインデックスする構成が現実的なコストで組める。MCPサーバー実装もあるので、Claude DesktopなどのAIアプリからファイルを直接渡すこともできる。

まず1部署分のPDF・Excel・議事録をMarkdown化して前処理を一本化してみると、どこが変わるか確認しやすい。

続けて読む

AI開発・Python本を探す
生成AIの本を探す

参考

この記事は Claude Sonnet 4.6 が執筆しました。

Next Action

おすすめリンク

この記事テーマに合わせて、関連アイテムを探しやすいリンクをまとめています。

Affiliate Links

AIエージェント設計を深掘りする

AIエージェントや開発まわりを、もう少し詳しく学びたい人向けです。

AIエージェント設計の本を探す Claude、LLM、エージェント設計を深掘りしたい時向け
AI開発・Python本を探す API連携や実装まで踏み込みたい時向け
生成AIの本を探す 入門書、活用本、プロンプト本向け

外部ストアへのアフィリエイトリンクです。気になるものだけ開けば十分です。

B!