0 Compartilhamentos 588 Views

Converter arquivo DOC ou PPT para texto puro

23 de agosto de 2012

As seguintes funções convertem documentos do Office (.DOC ou .PPT) para texto puro, usando linguagem PHP.

Função DOC2Text:

/*** Converte DOC para Texto Limpo*
@param filename: Caminho do
arquivo*/
function DOC2Text($filename) { $fileHandle = fopen($filename, “r”); $line = @fread($fileHandle, filesize($filename)); $lines = explode(chr(0x0D),$line); $outtext = “”; foreach($lines as $thisline) { $pos = strpos($thisline, chr(0x00)); if (($pos !== FALSE)||(strlen($thisline)==0)) { } else { $outtext .= $thisline.” “; } } $outtext = preg_replace(“/[^a-zA-Z0-9s,[email protected]/_()]/”,””,$outtext); return $outtext;}

Modo de Uso:

$doc_content = DOC2Text(‘/tmp/meudoc.doc’);
echo “$doc_content”;

Função PPT2Text:

/*** Converte PPT para Texto Limpo*
@param filename: Caminho do
arquivo*/

function PPT2Text($filename) {
// Esta abordagem utiliza a detecção da string “chr(0f).Hex_value.chr(0x00).chr(0x00).chr(0x00)” para identificar strings de texto, que são então fechadas com outro NUL chr(0x00) e captura o texto entre os delimitadores
$fileHandle = fopen($filename, “r”);
$line = @fread($fileHandle, filesize($filename));
$lines = explode(chr(0x0f),$line);
$outtext = ”;

foreach($lines as $thisline) {
if (strpos($thisline, chr(0x00).chr(0x00).chr(0x00)) == 1) {
$text_line = substr($thisline, 4);
$end_pos = strpos($text_line, chr(0x00));
$text_line = substr($text_line, 0, $end_pos);
$text_line = preg_replace(“/[^a-zA-Z0-9s,[email protected]/_()]/”,””,$text_line);
if (strlen($text_line) > 1) {
$outtext.= substr($text_line, 0, $end_pos).”n”;
}
}
}
return $outtext;
}

Modo de Uso:

$ppt_content = PPT2Text(‘/tmp/meuppt.ppt’);
echo “$ppt_content”;

Carregando...

Você pode se interessar

Por que eu decidi não migrar para o Windows 11 agora
Artigos
95 visualizações
Artigos
95 visualizações

Por que eu decidi não migrar para o Windows 11 agora

Carlos L. A. da Silva - 19 de outubro de 2021

O novo sistema operacional da Microsoft está entre nós, mas talvez não seja uma boa ideia pular de cabeça.

Enumerando e analisando mais de 40 implementações de JavaScript (que não são V8)
Artigos
227 visualizações
Artigos
227 visualizações

Enumerando e analisando mais de 40 implementações de JavaScript (que não são V8)

Carlos L. A. da Silva - 6 de outubro de 2021

V8 é o interpretador JavaScript, também chamado de máquina virtual Javascript, desenvolvido pela Google e utilizado em seu navegador Google Chrome. Com o peso de seus criadores e a quase onipresença do navegador, foi apenas uma questão de tempo para essa implementação do JavaScritp se tornar dominante no mercado. Entretanto, um bom desenvolvedor sabe que […]

Sir Clive Sinclair, o homem adiantado no tempo
Artigos
409 visualizações
Artigos
409 visualizações

Sir Clive Sinclair, o homem adiantado no tempo

Carlos L. A. da Silva - 18 de setembro de 2021

O inglês Clive Marles Sinclair nasceu de uma família de engenheiros. Seu avô foi engenheiro, assim como o seu pai. Com um talento natural pela Matemática e um forte interesse em eletrônica, ele se tornaria uma página importante da popularização da computação em diversas partes do mundo, construindo um legado que se perpetuará por anos […]

Deixe um Comentário

Your email address will not be published.

Mais publicações

A cibersegurança por trás das vacinas
Artigos
507 visualizações
507 visualizações

A cibersegurança por trás das vacinas

Carlos L. A. da Silva - 7 de setembro de 2021
Top 25 comandos do Git
Artigos
646 visualizações
646 visualizações

Top 25 comandos do Git

Carlos L. A. da Silva - 28 de agosto de 2021
Dez anos de Kotlin: origens e futuro
Artigos
699 visualizações
699 visualizações

Dez anos de Kotlin: origens e futuro

Carlos L. A. da Silva - 20 de agosto de 2021