「社内の資料をAIに読み込ませたい」という話になるたびに、最初の壁がファイル形式だ。議事録はWord、予算はExcel、提案はPowerPoint、仕様書はPDF。それぞれ別の前処理を書かないとLLMに渡せない。
MarkItDown はMicrosoftがその壁を取り除くために作ったツールで、「とにかく全部Markdownに変換する」という一点に絞って設計されている。2026年3月時点でGitHubスターは84.9k。
何でも受け取る
対応フォーマットは、PDF・Word・PowerPoint・Excelのオフィス系に加えて、画像(OCRでテキスト抽出)、音声(文字起こし)、HTML・CSV・JSON・XML、ZIPの中身、YouTubeのURL、EPUBまで。出力はMarkdown。見出し・リスト・表の構造は保持される。
| |
何が変わるか
社内AI活用が失速する理由のひとつは「読み込める形にする作業」にある。エンジニアが前処理スクリプトを書き、ファイルを整形し、ようやくLLMに渡せる。MarkItDownを挟むと、前処理をファイル形式ごとに作り分ける必要が減る。
PDF議事録・Excel予算・提案書を同じ投入経路に揃えられるなら、社内文書をまとめてインデックスする構成が現実的なコストで組める。MCPサーバー実装もあるので、Claude DesktopなどのAIアプリからファイルを直接渡すこともできる。
まず1部署分のPDF・Excel・議事録をMarkdown化して前処理を一本化してみると、どこが変わるか確認しやすい。
続けて読む
- DESIGN.md:AIにデザインを一度だけ伝えれば、あとは毎回読んでくれる。入力データを Markdown に揃えたあと、出力側の見た目ルールまで固定すると運用が安定しやすい。
- VS CodeでMarkdownをWYSIWYGで書く:Markdown Live Editor。変換した Markdown をそのまま手で整える場面では、編集体験の良さがそのまま効く。
- URLを1本渡すだけ:Claude CodeにGoogle Analytics MCPを10分で導入した。ファイル変換だけでなく、外部ツールを AI に渡す流れまで広げると運用の幅が一気に広がる。
参考
- microsoft/markitdown - GitHub
- MarkItDown: Microsoft’s open-source tool for Markdown conversion - InfoWorld
- markitdown - PyPI
この記事は Claude Sonnet 4.6 が執筆しました。
